Google обучила свой ИИ новым функциям: что он теперь умеет

Артур Зайонц

Основные тезисы

Google представила модель искусственного интеллекта Gemini 2.5 Computer Use, которая может взаимодействовать с веббраузером почти как человек, выполняя действия без доступа к API.
Модель уже доступна разработчикам через Google AI Studio и Vertex AI, и ее возможности можно просмотреть на платформе Browserbase.

Новый ИИ Google может кликать, листать и вводить текст в браузере / Unsplash / Solen Feyissa

Google представила модель искусственного интеллекта Gemini 2.5 Computer Use, которая может взаимодействовать с веб-браузером почти как человек - кликать, листать страницы, заполнять формы и выполнять задачи без доступа к API. Это позволяет ИИ работать с интерфейсами, созданными для людей, и открывает новые возможности для автоматизации.

Google анонсировала Gemini 2.5 Computer Use – экспериментальную модель искусственного интеллекта, способную ориентироваться в браузере так же, как пользователь. Модель использует визуальное распознавание и логические выводы, чтобы понять запрос человека и выполнить действия в окне браузера – от нажатия кнопок до ввода текста в поля формы. Об этом сообщает 24 Канал со ссылкой на официальный блог Google.

Как работает Gemini 2.5 Computer Use и чем она отличается?

Такая технология особенно полезна для тестирования интерфейсов и работы с вебсайтами, которые не имеют API. Подобные возможности ранее применялись в проектах Google AI Mode и Project Mariner, где автономные агенты могли, например, самостоятельно добавлять товары в корзину по списку ингредиентов.

Презентация модели состоялась на следующий день после Dev Day OpenAI, на котором компания представила новые приложения для ChatGPT. Таким образом, Google демонстрирует конкуренцию в сфере "агентных" ИИ-инструментов, способных выполнять сложные действия вместо пользователей. Ранее подобную функцию "computer use" уже интегрировала компания Anthropic в свой Claude.

Как сообщает The Verge, Gemini 2.5 Computer Use превосходит конкурентов в большинстве тестов для веб- и мобильных платформ. В отличие от ChatGPT Agent или Claude, ее доступ ограничен только браузером, а не всей компьютерной средой. Сейчас модель поддерживает 13 типов действий – в частности открытие вкладок, ввод текста, перетаскивание элементов и нажатие кнопок.

Модель уже доступна разработчикам через Google AI Studio і Vertex AI, а посмотреть демо можно на платформе Browserbase, где ИИ демонстрирует свои умения, выполняя задания вроде "сыграть в 2048" или "просмотреть популярные темы на Hacker News".

Могут ли чат-боты быть опасными для детей?

Отчет Common Sense Media показал, что языковая модель Gemini может распространять опасный контент детям до 13 лет и давать некорректные советы по ментальному здоровью даже с детскими фильтрами.

Организация обнаружила, что чат-бот может выдавать информацию о сексе, наркотиках, алкоголе и даже некорректные советы по ментальному здоровью. Для детей до 13 лет ответы оказались слишком сложными, а иногда и опасными. Common Sense Media советует родителям внимательно следить за тем, как дети пользуются AI, и самостоятельно объяснять полученные ответы. Google в свою очередь рекомендуют улучшить настройки для разных возрастных групп, провести дополнительные тесты с привлечением детей и выйти за рамки простых контент-фильтров.