Нова високошвидкісна модель штучного інтелекту, про яку вперше згадали ще на презентації I/O 2023, торкнеться майже кожної частини бізнесу пошукового гіганта. Минулого року компанія відставала від OpenAI, свого головного конкурента на цьому ринку, але тепер спробує довести, що її ШІ є найкращим у своєму класі й може повністю змінити наш спосіб використання ШІ.
Дивіться також Скільки енергії витрачає штучний інтелект, щоб згенерувати одне зображення
10 найважливіших речей, які ми дізналися про Gemini від Google
- Перше й найголовніше, що потрібно знати: Gemini отримає цілих три версії, які охоплюватимуть від центрів обробки даних до телефонів. Gemini Ultra — найбільша та найпотужніша модель для надскладних завдань. Наразі версія Ultra доступна лише до відібраних тестувальників, експертів з безпеки та основних бізнес-партнерів. Решта з нас не побачить Gemini до початку наступного року. Gemini Pro — універсальна модель для широкого кола завдань. Gemini Nano — модель для виконання завдань прямо на пристрої, без з'єднання з серверами, що забезпечить користувачам конфіденційність їхніх даних.
- Gemini Pro буде інтегровано в Google Bard. Це повинно вивести чат-бот на новий рівень і, можливо, зробити його навіть кращим, ніж ChatGPT. Сьогодні Bard показує дещо гірші результати роботи, ніж технологія OpenAI, хоча й впроваджує деякі функції раніше, ніж Google. Поки що Gemini в складі Bard працює лише з англійською мовою, але надалі компанія розширить підтримку до інших мов. Нинішня версія чат-бота підтримує й інші мови.
- Смартфони Pixel отримають вбудовану підтримку Gemini Nano. Якщо точніше, то Pixel 8 Pro вже працює з цим ШІ, але поки що можливості його обмежені. Gemini Nano тепер керує функцією Summarize у додатку Android Recorder на Pixel 8 Pro. Google заявляє, що штучний інтелект також буде використовувати функцію Android Smart Reply, але тільки якщо ви використовуєте клавіатуру Google, і тільки у WhatsApp. Наступного року Gemini з'явиться в більшій кількості додатків для обміну повідомленнями та в інших частинах операційної системи.
- Власні тести Google показують, що Gemini кращий за все, що є в арсеналі OpenAI. Компанія показала дві таблиці, в яких порівняла свою технологію з мовною моделлю GPT-4, і в переважній більшості випадків кращі результати демонструє саме Gemini. Зокрема, у тестах MMLU він показав 90% коректних відповідей, тоді як ChatCPT – 86,4 відсотка. MMLU або Massive Multitask Language Understanding – це стандартний галузевий тест, який вимірює можливості ШІ за допомогою різноманітних завдань, які поєднують 57 предметів, таких як математика, фізика, історія, право, медицина та етика. Цікаво, що в MMLU Gemini від Google обігнав навіть людину.
Тестування Gemini від Google показує його перевагу над найближчим конкурентом, GPT-4 / Фото Google
Ми також бачимо перемогу в двох із трьох тестів на осмислення й здатність робити висновки, в обох тестах з математики та обох тестах з написання програмного коду.
- Google запускає платну версію Bard. Gemini Pro зараз уже працює в Bard, але якщо ви хочете спілкуватися з найкращою версією штучного інтелекту Gemini Ultra, вам доведеться заплатити. Цей підхід нагадує OpenAI, яка пропонує ChatGPT 3.5 безплатно всім охочим, а за ChatGPT 4 просить 20 доларів. Платна версія отримає назву Bard Advanced, але її ціна поки що невідома.
Дивіться також Microsoft оновлює свого чат-бота й ШІ-помічника Copilot до GPT-4 Turbo та DALL-E 3
- Bard отримає голос. Наразі єдиний чат-бот, який може говорити з вами, – це ChatGPT. Але скоро це зміниться. Google заявляє, що додасть Bard до Google Assistant десь наступного року. Поки що незрозуміло, як саме це виглядатиме і яка саме з трьох версій Gemini ляже в основу нового Асистента. Але поки ми на це чекатимемо, у нас уже буде можливість говорити зі штучним інтелектом за допомогою голосу, як це було показано у відеоролику. Така функція виводить технологію на абсолютно новий рівень, адже тепер ми матимемо не лише обмежені й заздалегідь підготовлені відповіді, які ми отримуємо сьогодні, а щоразу унікальні розмови з чат-ботом.
- Gemini обробляє зображення, відео та аудіо так само добре, як і текст. Google багато говорить про "мультимодальні" можливості Gemini та "мультимодальну продуктивність", що означає, що він може сприймати й видавати різні види інформації, такі як текст, зображення, відео й аудіо. За словами компанії, Gemini вчився працювати з різними носіями інформації з самого початку, а не освоював нові можливості вже постфактум. Google поділився відео, де Бард на базі Gemini допомагає студенту з домашнім завданням з фізики, починаючи з фотографії завдання з питаннями, написаними від руки. Потім ШІ плавно переходить до письмових порад з рівняннями і покроковими відповідями.
На опублікованому порівнянні видно, що Gemini перемагає GPT-4 в абсолютно всіх тестах у зображеннях, відео та аудіо.
Порівняння можливостей мультимодальності Gemini та GPT-4 / Фото Google
- Gemini забезпечує роботу нового надпотужного інструменту кодування. В складі ШІ працює оновлений інструмент AlphaCode 2. За словами компанії, він "чудово вирішує конкурентні завдання з програмування, які виходять за рамки кодування і включають складну математику та теоретичну інформатику".
- Gemini – у кожній частині Google. Gemini не просто збирається покращити Bard і вбудувати ШІ в телефони. Google заявила, що нова модель буде використовуватися у всіх найважливіших продуктах компанії, включаючи Chrome, пошук, рекламу та інші. Реальних термінів немає. Google лише повідомила, що ці продукти отримають потужність Gemini "в найближчі місяці".
- Gemini освіжить хмарний бізнес Google, який приносить компанії одні з найбільших прибутків. Звичайний користувач ніколи не замислюється про цей бік інтернету, але Google Cloud пропонує різноманітні послуги для бізнесу, включаючи зберігання даних, аналітику даних та машинне навчання, а також набір інструментів для управління. Величезна частина технологічного боку світу бізнесу працює на Google Cloud, і Gemini відкриє наступну еру цієї платформи.
Дивіться також Google створив "гіперкомп'ютер" для роботи зі штучним інтелектом
Gemini – багатообіцяюча технологія, яка повинна сподобатися нам усім. На одному з опублікованих відео, можна бачити кілька прикладів його роботи. Наприклад, він добре визначає, на що дивиться його камера. Людина спочатку малює лінії, просто звичайну схему, а ШІ розуміє, що мається на увазі, розпізнаючи в цьому качку. Коли людина підносить до камери іграшкове каченя й питає, з чого воно зроблене, ШІ припускає, що це щось тверде, наприклад, метал. Але коли людина стискає її, алгоритм відразу ж виправляється і каже, що з огляду на нові дані, це може бути гума. Він також добре розпізнає математичні рівняння, письмо від руки та багато іншого. І все це він здатен озвучувати голосом, ведучи з вами бесіду.
Google також стверджує, що Gemini є однією з найбезпечніших моделей ШІ на сьогодні, тому користувачам, які стурбовані цим питанням, не варто хвилюватися.