Google представив Gemini 2․0 – ШІ помічник на кожен день, який змінить ваше життя

Михайло Года

Основні тези

Google представив нову модель штучного інтелекту Gemini 2.0, яка має мультимодальні можливості генерування тексту, звуку та зображень.
Gemini 2.0 акцентує на агентному ШІ, дозволяючи ботам виконувати дії від імені користувачів, та планує розширити можливості для автоматизації складних процесів.
Google прагне створити універсальну модель ШІ з підвищеною продуктивністю та енергоефективністю, вирішуючи як традиційні, так і нові виклики, пов'язані з безпекою та конфіденційністю.

Gemini 2.0 / Google

Нова модель штучного інтелекту від Google, Gemini 2.0, має на меті революціонізувати сприйняття штучного інтелекту завдяки своїм мультимодальним можливостям генерування тексту, звуку та зображень. Вона має стати наступним кроком до агентного ШІ – коли боти можуть виконувати завдання від імені користувачів.

Google офіційно запустив свою довгоочікувану модель штучного інтелекту Gemini 2.0, позиціонуючи її як трансформаційний крок в еволюції штучного інтелекту, повідомляє 24 Канал з посиланням на The Verge.

А тим часом OpenAI випустила відеогенератор Sora, але доступний він не всім

Завдяки здатності обробляти та генерувати текст, звук і зображення, Gemini 2.0 був названий генеральним директором Google DeepMind Демісом Хассабісом "всеосяжною" системою. Це оновлення вийшло через 10 місяців після релізу Gemini 1.5 і наближає Google до свого бачення агентних систем ШІ-АІ, здатних діяти автономно за командами користувачів.

Gemini 2.0 – можливості ШІ

Агентний ШІ

Ключовою особливістю Gemini 2.0 є підтримка агентного ШІ – технології, яка дозволяє ШІ-ботам виконувати дії від імені користувачів. Хассабіс підкреслив, що ця модель закладає основу для "справжнього початку ери агентного ШІ" у 2025 році. Ранні ітерації цієї концепції вже можна побачити в експериментальних проектах Google, таких як Project Astra і Project Mariner.

Project Astra: Візуальна система, призначена для розпізнавання об'єктів, допомоги в навігації та пошуку загублених предметів. Gemini 2.0 значно розширює її можливості.
Project Mariner: Розширення для браузера Chrome, яке діє як сурогат користувача під час перегляду веб-сторінок, виконуючи завдання від його імені.
Jules Agent: Інструмент підтримки розробників, який виявляє та виправляє помилки в програмному коді.

Існує навіть агент зі штучним інтелектом, який допомагає геймерам у виборі стратегії гри. Всі ці проекти підкреслюють потенціал Gemini 2.0 для автоматизації складних, багатоетапних процесів.

Мультимодальність і підвищення продуктивності

На відміну від попередніх моделей, які спеціалізувалися на ізольованих завданнях, Gemini 2.0 фокусується на універсальності.

Мультимодальність, різні типи результатів, функції – мета полягає в тому, щоб включити все це в основну модель Gemini,
– сказав Хассабіс.

Інтегруючи якомога більше функцій в єдину модель ШІ, Google прагне створити систему "загального призначення", здатну задовольнити різноманітні потреби користувачів.

На додаток до розширених можливостей, Gemini 2.0 може похизуватися підвищеною продуктивністю та енергоефективністю. Це відбувається у вирішальний момент, коли індустрія штучного інтелекту переживає загальне уповільнення технологічного прогресу.

Хоча інші технологічні гіганти, такі як Amazon, Microsoft, Anthropic і OpenAI, займаються аналогічними пошуками, акцент Google на енергоефективності та скороченні витрат може дати йому конкурентну перевагу.

Вирішення старих і нових проблем

У міру того, як ШІ все більше інтегрується в повсякденне життя, Gemini 2.0 прагне вирішити як давні, так і нові проблеми. Традиційні виклики включають оптимізацію продуктивності, ефективність і вартість виведення (процес, за допомогою якого ШІ-моделі приймають рішення).

Нові виклики, однак, зосереджені на ризиках для безпеки та конфіденційності, особливо в агентному ШІ, де боти діють від імені користувачів.

Експериментальна версія та плани на майбутнє

Наразі Gemini 2.0 доступний як "експериментальна попередня версія" у полегшеному варіанті під назвою Gemini 2.0 Flash. Google планує випустити повну версію на початку наступного року. Об'єднавши кілька функцій в одну надійну модель, компанія прагне інтегрувати Gemini 2.0 в широкий спектр своїх продуктів і послуг.

"Ми намагаємося створити якомога більш універсальну модель", – пояснив Хассабіс, підкреслюючи прагнення компанії зменшити потребу в окремих спеціалізованих інструментах ШІ.

Дивіться також Штучний інтелект Ілона Маска тепер доступний для всіх з функцією генерування зображень

Взявши за основу Gemini 2.0, Google прагне привести індустрію штучного інтелекту в еру агентів, де AI-боти не лише допомагатимуть користувачам, але й у багатьох випадках виконуватимуть за них рутинні завдання.