ШІ бере керування на себе: Google навчила Gemini самостійно користуватися комп'ютером

Артур Зайонц

ШІ бере керування на себе: Google навчила Gemini 35 Flash самостійно користуватися комп'ютером - Техно

Gemini отримав доступ до браузера та дій на комп'ютері – що вміє нова функція / Unsplash / Solen Feyissa

Компанія Google інтегрувала функцію використання комп'ютера безпосередньо в модель Gemini 3.5 Flash. Тепер штучний інтелект здатний бачити екран, переміщатися по вкладках та виконувати складні завдання абсолютно автономно.

ШІ бере керування на себе: Google навчила Gemini 3.5 Flash самостійно користуватися комп'ютером

Штучний інтелект більше не обмежується простими порадами чи генерацією тексту. Компанія Google інтегрувала функцію використання комп'ютера (computer use) безпосередньо в модель Gemini 3.5 Flash. Тепер ШІ-агент здатний бачити ваш екран, самостійно переміщатися по вкладках і виконувати складні завдання без допомоги людини.

Як повідомляє портал Android Authority, нова функція перетворює нейромережу на віртуального помічника. Він буквально сидить поруч, аналізує монітор і використовує власну мишку та клавіатуру. ШІ сам клікає по кнопках, вводить текст і перемикається між вікнами в режимі реального часу.

Раніше розробникам доводилося створювати окремі ШІ-агенти на базі спеціалізованої моделі Gemini 2.5. Тепер цей інструмент вбудований за замовчуванням. Функціонал уже доступний через Gemini API та платформу Gemini Enterprise Agent Platform.

Інтерфейс використання комп'ютера моделлю Gemini 3.5 Flash

На що здатна оновлена Gemini 3.5 Flash?

Щоб показати силу технології, Google запустила спеціальний екземпляр Browserbase. У цьому середовищі користувачі дають ШІ завдання, а він самостійно шукає рішення в інтернеті.

Наприклад, під час тестування журналісти попросили нейромережу знайти найдешевші авіаквитки з Нью-Делі до Токіо. ШІ самостійно відкрив три різні сайти бронювання, ввів потрібні дати, порівняв ціни та видав найкращий варіант. Крім того, модель легко грає в популярну гру 2048, прораховуючи ходи для досягнення максимального результату.

Дивіться також: Google Translate отримав майже миттєвий голосовий переклад: що змінилося

Проблеми з ефективністю та висока ціна

Попри вражаючі автономні можливості, загальна продуктивність Gemini 3.5 Flash у деяких сферах викликає запитання. Згідно з оновленим рейтингом Android Bench, модель продемонструвала неочікувано слабкі результати у написанні коду для Android-додатків.

Вона посіла лише 6-те місце із результатом 63,7 бала. Для порівняння:

Лідером рейтингу стала OpenAI GPT 5.5 (74 бали).
Другу та третю позиції розділили GPT 5.4 та старіша Google Gemini 3.1 Pro Preview (72,4 бала).

До того же Gemini 3.5 Flash виявилася найдорожчою моделлю у списку Android Bench. Середня вартість її роботи склала $147,1 через високе споживання токенів (в середньому 355,9). Це суперечить самій концепції лінійки Flash як швидкого та бюджетного рішення. Детальніше про це читайте на сайті 3dnews.

Як Google захищає користувачів від загроз?

Здатність ШІ самостійно керувати комп'ютером створює серйозні ризики для безпеки. Щоб запобігти зловживанням, розробники застосували метод цілеспрямованого змагального навчання (adversarial training) та впровадили два важливі запобіжники:

Запит на підтвердження: модель можна налаштувати так, щоб вона вимагала згоди користувача перед виконанням чутливих або незворотних дій.
Захист від атак: ШІ автоматично зупиняє роботу, якщо виявляє спробу підмінити інструкції через вхідні дані (prompt-injection).

Важливо! Google наполегливо рекомендує розробникам запускати ШІ в ізольованих «пісочницях», обмежувати права доступу та завжди залишати фінальне рішення за людиною (принцип human-in-the-loop).

Глобальний тренд на «втілений» ШІ

Прагнення Google навчити ШІ взаємодіяти з віртуальним середовищем повністю відповідає світовим трендам. Наприклад, у червні 2026 року китайський гігант Alibaba представив лінійку моделей Qwen-Robot для керування фізичними роботами за допомогою голосових команд.

Дивіться також: Від слів до дій. Alibaba запустила лінійку ШІ для керування фізичними роботами

Інтеграція функції «computer use» у масову модель на кшталт Gemini 3.5 Flash знаменує важливий зсув. Ми впевнено переходимо від епохи пасивних чат-ботів до ери активних ШІ-агентів, здатних виконувати рутинну цифрову роботу замість нас.