Онлайн Редакция Вакансии Контакты Игры Гороскоп
25 июня, 16:00
4

ИИ берет управление на себя: Google научила Gemini самостоятельно пользоваться компьютером

Компания Google интегрировала функцию управления компьютером непосредственно в модель Gemini 3.5 Flash. Теперь искусственный интеллект способен видеть экран, перемещаться по вкладкам и выполнять сложные задачи абсолютно автономно.

ИИ берет управление на себя: Google научила Gemini 3.5 Flash самостоятельно пользоваться компьютером

Искусственный интеллект больше не ограничивается простыми советами или генерацией текста. Компания Google интегрировала функцию использования компьютера (computer use) непосредственно в модель Gemini 3.5 Flash. Теперь ИИ-агент способен видеть ваш экран, самостоятельно перемещаться по вкладкам и выполнять сложные задачи без помощи человека.

Как сообщает портал Android Authority, новая функция превращает нейросеть в виртуального помощника. Он буквально сидит рядом, анализирует монитор и использует собственную мышь и клавиатуру. ИИ сам нажимает на кнопки, вводит текст и переключается между окнами в режиме реального времени.

Ранее разработчикам приходилось создавать отдельные ИИ-агенты на базе специализированной модели Gemini 2.5. Теперь этот инструмент встроен по умолчанию. Функционал уже доступен через Gemini API и платформу Gemini Enterprise Agent Platform.

На что способна обновленная Gemini 3.5 Flash?

Чтобы продемонстрировать возможности технологии, Google запустила специальный экземпляр Browserbase. В этой среде пользователи задают ИИ задачи, а он самостоятельно ищет решения в интернете.

Например, во время тестирования журналисты попросили нейросеть найти самые дешевые авиабилеты из Нью-Дели в Токио. ИИ самостоятельно открыл три разных сайта бронирования, ввёл нужные даты, сравнил цены и выдал лучший вариант. Кроме того, модель легко играет в популярную игру 2048, просчитывая ходы для достижения максимального результата.

Смотрите также: Google Translate получил почти мгновенный голосовой перевод: что изменилось

Проблемы с производительностью и высокая цена

Несмотря на впечатляющие автономные возможности, общая производительность Gemini 3.5 Flash в некоторых сферах вызывает вопросы. Согласно обновленному рейтингу Android Bench, модель продемонстрировала неожиданно слабые результаты при написании кода для Android-приложений.

Она заняла лишь 6-е место с результатом 63,7 балла. Для сравнения:

  • Лидером рейтинга стала OpenAI GPT 5.5 (74 балла).
  • Второе и третье места разделили GPT 5.4 и более старая версия Google Gemini 3.1 Pro Preview (72,4 балла).

К тому же Gemini 3.5 Flash оказалась самой дорогой моделью в списке Android Bench. Средняя стоимость её работы составила $147,1 из-за высокого потребления токенов (в среднем 355,9). Это противоречит самой концепции линейки Flash как быстрого и бюджетного решения. Подробнее об этом читайте на сайте 3dnews.

Как Google защищает пользователей от угроз?

Способность ИИ самостоятельно управлять компьютером создает серьезные риски для безопасности. Чтобы предотвратить злоупотребления, разработчики применили метод целенаправленного состязательного обучения (adversarial training) и внедрили два важных предохранительных механизма:

  1. Запрос на подтверждение: модель можно настроить так, чтобы она запрашивала согласие пользователя перед выполнением чувствительных или необратимых действий.
  2. Защита от атак: ИИ автоматически останавливает работу, если обнаруживает попытку подменить инструкции через входные данные (prompt-injection).

Важно! Google настоятельно рекомендует разработчикам запускать ИИ в изолированных "песочницах", ограничивать права доступа и всегда оставлять окончательное решение за человеком (принцип human-in-the-loop).

Глобальный тренд на "воплощенный" ИИ

Стремление Google научить ИИ взаимодействовать с виртуальной средой полностью соответствует мировым трендам. Например, в июне 2026 года китайский гигант Alibaba представил линейку моделей Qwen-Robot для управления физическими роботами с помощью голосовых команд.

Смотрите также: От слов к делу. Alibaba запустила линейку ИИ для управления физическими роботами

Интеграция функции "computer use" в массовую модель вроде Gemini 3.5 Flash знаменует важный сдвиг. Мы уверенно переходим от эпохи пассивных чат-ботов к эре активных ИИ-агентов, способных выполнять рутинную цифровую работу вместо нас.