Техно Штучний інтелект Великий день ШІ: що показала компанія Google на презентації I/O 2024

15 травня 2024, 13:01

12 хв

Великий день ШІ: що показала компанія Google на презентації I/O 2024

Олександр Гайдамашко

Google I/O 2024 – все про штучний інтелект, який показала компанія

Google I/O / Google

Компанія Google провела масштабну презентацію програмних продуктів, які здебільшого стосувалися штучного інтелекту. Якщо ви боялися, що їй не буде чим відповісти на неймовірні нові можливості ChatGPT, продемонстровані за день до того, то можна не хвилюватися, адже мовна модель Gemini та її нові здібності вражають не менше. Зібрали основне в єдиному великому матеріалі.

Ми вже розповіли про один із головних анонсів на Google I/O, який стосувався інтеграції штучного інтелекту в Пошук. Він дозволить не прочісувати численні посилання в пошуках потрібної відповіді, а перекласти цей обов'язок на ШІ. Він прочитає інформацію в інтернеті, знайде відповідь на наше питання, скомпонує її в короткий текст і видасть просто на головній сторінці. Як це вже працюватиме і які нові можливості запропонує, читайте в окремому матеріалі. Тут же ми торкнемося інших функцій, програм, сервісів та інтеграцій, які Google активно розробляє.

Дивіться також Google спрощує користування ШІ Gemini настільки, що тепер майже нічого не потрібно робити

Нова модель Gemini 1.5 Flash AI

Компанія випускає нову модель під назвою Gemini 1.5 Flash, яка, за її словами, оптимізована для швидкості та ефективності. Вона, за словами компанії, чудово справляється з підбиттям підсумків, чат-додатками, підписом до зображень і відео, витяганням даних з довгих документів і таблиць та іншими завданнями.

Деміс Хассабіс, генеральний директор Google DeepMind каже, що Google створив Gemini 1.5 Flash, тому що розробникам потрібна була легша і дешевша модель, ніж версія Pro, яку Google анонсував у лютому. Gemini 1.5 Pro є більш ефективною та потужною, ніж оригінальна модель Gemini, анонсована компанією наприкінці минулого року.

Gemini 1.5 Flash знаходиться між Gemini 1.5 Pro та Gemini 1.5 Nano, найменшою моделлю Google, яка працює локально на пристроях. Попри меншу вагу, ніж у Gemini Pro, вона настільки ж потужна. У Google заявили, що цього вдалося досягти завдяки процесу під назвою "дистиляція", коли найважливіші знання та навички з Gemini 1.5 Pro були перенесені на меншу модель. Це означає, що Gemini 1.5 Flash отримає ті ж мультимодальні можливості Pro, а також його довге контекстне вікно — обсяг даних, який модель ШІ може засвоїти за один раз — в один мільйон токенів. Це, за словами Google, означає, що Gemini 1.5 Flash зможе аналізувати документ на 1 500 сторінок або базу коду з більш ніж 30 000 рядків одночасно.

Gemini 1.5 Flash не призначається для споживачів. Натомість це швидший і дешевший спосіб для розробників створювати власні продукти та послуги зі штучним інтелектом, інтегруючи в свої продукти технологію Google.

Флагманська модель Gemini 1.5 Pro стає швидшою та потужнішою

Окрім запуску Gemini 1.5 Flash, Google також оновлює Gemini 1.5 Pro. Компанія заявила, що "покращила" можливості моделі писати код, міркувати та аналізувати аудіо та зображення. Але найбільше оновлення ще попереду – Google оголосила, що подвоїть існуюче контекстне вікно моделі до двох мільйонів токенів пізніше цього року. Це зробить її здатною обробляти дві години відео, 22 години аудіо, понад 60 000 рядків коду або понад 1,4 мільйона слів одночасно.

Veo та Imagen 3 – новітні моделі зі штучним інтелектом для створення медіа

Також Google анонсував свої сервіси для створення медіа зі штучним інтелектом:

Veo, який може створювати "високоякісні" відео з роздільною здатністю 1080p.
Imagen 3, фреймворк для перетворення тексту в зображення.

Жоден із них не звучить особливо революційно, але це спосіб для Google розпочати боротьбу з генератором відео Sora від OpenAI і Dall-E 3, інструментом, який практично став синонімом зображень, створених штучним інтелектом.

Google стверджує, що Veo має "поглиблене розуміння природної мови та візуальної семантики", щоб створити будь-яке відео за вашим описом. Ролики, створені штучним інтелектом, можуть тривати "більше хвилини". Veo також здатний розуміти кінематографічні та візуальні прийоми, наприклад, концепцію таймлапсу.

Один з роликів, створених у Veo: відео

Щоб довести, що Veo не збирається красти роботу художників, Google також співпрацює з Дональдом Гловером та його творчою студією Gilga, щоб продемонструвати можливості моделі. У дуже короткому рекламному відео ми бачимо, як Гловер і команда використовують текст для створення відео, де кабріолет під'їжджає до будинку, а вітрильник ковзає океаном. За словами Google, Veo може імітувати фізику реального світу краще, ніж попередні моделі, а також покращує якість відтворення відео високої чіткості.

Демонстрація Veo: Відео

Veo вже доступний для деяких творців в інструменті VideoFX від Google, і компанія заявляє, що він також з'явиться в YouTube Shorts та інших продуктах згодом. Якщо Veo стане вбудованою частиною YouTube, то це принаймні буде та функція, якою Google зможе нарешті обійти TikTok.

Щодо Imagen 3, Google дає звичні обіцянки: Це "найякісніша" модель перетворення тексту в зображення компанії, з "неймовірним рівнем деталізації" для "фотореалістичних, реалістичних зображень" і меншою кількістю артефактів. Справжнім випробуванням, звісно, стане перевірка того, як нова модель обробляє підказки порівняно з Dall-E 3. За словами Google, Imagen 3 краще обробляє текст, ніж раніше, і він також розумніше обробляє деталі з довгих підказок.

Google також співпрацює з такими виконавцями, як Wyclef Jean і Bjorn, щоб протестувати свою Music AI Sandbox – набір інструментів, які можуть допомогти у створенні пісень і музики. Ми побачили лише короткий погляд на це, але ось один з демонстраційних роликів, де музика створена за допомогою ШІ від Google:

Цифрові водяні знаки до відео та тексту, створених ШІ

Оскільки Google починає випускати новітні інструменти для генерації відео, компанія каже, що має план забезпечити прозорість походження своїх все більш реалістичних кліпів, створених ШІ. Усі відео, створені новою моделлю Veo, матимуть цифрові водяні знаки завдяки системі SynthID від Google. Крім того, SynthID зможе ставити водяні знаки на згенерований штучним інтелектом текст, який надходить від Gemini. Технологія вбудовує непомітні водяні знаки в контент, створений ШІ, щоб інструменти виявлення ШІ могли розпізнати їх, але таким чином, щоб ці знаки лишилися непомітними для користувача.

Дивіться також Неймовірні можливості: OpenAI представила безплатну модель ШІ GPT-4o від якої відвисає щелепа

Gemini буде доступний на бічній панелі Google Workspace

Google додає автоматизацію на основі штучного інтелекту Gemini до більшої кількості завдань у Workspace. Завдання Gemini у Workspace – заощадити ваш час і зусилля, витрачені на пошук файлів, електронних листів та інших даних з різних додатків.

Gemini у Google Workspace
Gemini у Google Workspace / Фото Google

Оновлена бічна панель Workspace, яка вперше з'явиться в Gmail, Документах, Таблицях, Слайдах і Диску, дозволить вам спілкуватися з Gemini про ваш контент. Його пам'ять дозволяє організовувати, розуміти і контекстуалізувати ваші дані з різних додатків, не виходячи з того, в якому ви перебуваєте. Це включає в себе такі речі, як порівняння вкладень, підбиття підсумків, відповіді на запитання, аналіз довгих ланцюжків електронних листів або виділення ключових моментів із записів зустрічей.

Іншим прикладом, який надав Google, було планування зустрічі сім'ї в змодельованій ситуації, коли людина попросила інформацію про готель. За допомогою бічної панелі Workspace ви можете попросити Gemini знайти Google Документ з інформацією про бронювання, використовуючи підказку: "Яка назва готелю та електронна адреса менеджера з продажу вказані в @Family Reunion 2024?" Google запевняє, що знайде документ і дасть вам швидку відповідь, що дозволить вам вставити його у відповідь, заощадивши час.

Зміни, пов'язані з електронною поштою, відбудуться і в мобільному додатку Gmail. "Незабаром Gemini зможе аналізувати потоки електронної пошти і надавати узагальнений огляд з ключовими моментами безпосередньо в додатку Gmail, так само, як ви можете це робити на бічній панелі", – повідомили в компанії.

Нові інструменти виявлення шахрайства

Також впроваджуються нові інструменти виявлення шахрайства під час телефонних дзвінків на смартфонах з Android. Набір інструментів, представлений на Google I/O 2024, все ще перебуває на стадії тестування, але використовує ШІ, щоб виявляти шахраїв посеред розмови. Штучний інтелект буде постійно шукати шаблони розмов, які зазвичай асоціюються з шахрайством. Після виявлення шахрайства ви отримаєте сповіщення в режимі реального часу на телефон.

Google наводить приклад "представника банку", який запитує особисту інформацію, наприклад, PIN-коди та паролі. Це незвичайні банківські запити, тому штучний інтелект позначить їх.

Усе відбувається на пристрої, тому розмова залишається приватною, запевняє компанія.

Ця функція з'явиться в Android 15 не одразу, і компанія каже, що поділиться подробицями пізніше цього року.

ШІ повідомляє про можливе шахрайство і відразу пропонує завершити розмову
ШІ повідомляє про можливе шахрайство і відразу пропонує завершити розмову / Фото Engadget

Gemini Live

Gemini Live – це новий спосіб спілкування з ШІ, який вже присутній у ChatGPT. Фактично це функція живої розмови зі штучним інтелектом, у якій ви використовуєте свій голос і природну мову, а не текстові запити.
Gemini Live
Gemini Live / Скриншот 24 Каналу

Судячи з усього, Gemini Live буде окремим застосунком. Google запропонував кілька потенційних варіантів використання: ви можете поспілкуватися з Gemini Live, щоб підготуватися до співбесіди, де він може поставити вам відповідні запитання про вакансії, що вас цікавлять. Він також може дати вам поради щодо публічних виступів, якщо ви хочете підготувати промову.

Ви зможете говорити у власному темпі або навіть переривати його відповіді, якщо захочете. В ідеалі, це має бути схоже на розмову з людиною, а не просто на озвучування команд розумного асистента або генеративних запитів ШІ.

Project Astra

Що стосується Project Astra – це теж ще один спосіб використання ШІ, які передбачає застосування камери, щоб штучний інтелект відповів вам на питання, пов'язані з тим, що ви бачите.

Демонстрація Project Astra: відео

У відеоприкладі користувачка наводить камеру на кімнату і просить знайти предмети, які можуть продукувати звуки. ШІ дуже швидко визначає, що це може бути колонка. Після цього авторка ролика прямо на екрані малює стрілку, яка вказує на одну з деталей колонки й просить сказати, яка вона називається, продовжуючи тримати камеру наведеною.

В одному з наступних питань авторка ролика показує штучному інтелекту частину коду на екрані й просить сказати, що цей код робить після його запуску.

Все це відбувається в режимі реального часу.

Як Project Astra, так і Gemini Live мають свої аналоги в ChatGPT і були представлені позавчора, але в складі одного сервісу. Імовірно, Google пізніше також об'єднає всі ці функції під одним дахом.

Circle to Search допоможе учням розв’язувати домашні завдання з математики та фізики

Функція зможе показувати покрокові інструкції для "низки завдань з фізики та математики". Для цього потрібно лише активувати функцію, а потім обвести задачу.

Компанія заявляє, що ця здібність Circle to Search стала можливою завдяки новому сімейству моделей штучного інтелекту під назвою LearnLM, які були спеціально створені та налаштовані для навчання. Компанія також планує внести корективи в цю функцію і випустити оновлену версію пізніше цього року, яка зможе вирішувати ще більш складні завдання, "пов'язані з символьними формулами, діаграмами, графіками тощо".

Пошук проблеми за допомогою відео

Тепер ви зможете зняти відео, яке демонструє ту чи іншу проблему, завантажити його в Gemini й запитати, як це вирішити. У продемонстрованому прикладі людина купила програвач, але голка ніяк не хотіла ставати на пластинку. Вона фільмує той факт, що голка злітає вбік, закидає це в ШІ, і той швидко знаходить рішення.

Якщо ШІ таки не зможе зрозуміти, що ви намагаєтеся з'ясувати, ви можете додати текст або намалювати стрілки на екрані, які вказують на проблему.

Функція Ask Photos дозволяє швидко знайти щось у Google Photos за вашим запитом

Якщо ви маєте велику колекцію фотографій, часом буває важко знайти щось конкретне, особливо, якщо знімок зробили багато років тому. Ask Photos полегшить завдання завдяки ШІ. Формулюйте питання за допомогою тексту чи голосу. Наприклад, попросіть знайти фото, де ви позуєте на фоні квітів, чи фотографуєтеся з котом.

Gemini може виявляти вміст зображень, розуміючи, що на них зображено. Все відбувається на пристрої, не передаючи дані на сервери.