Как работает ChatGPT Agent?

Новый инструмент, получивший название ChatGPT Agent, является самой смелой попыткой OpenAI превратить свой флагманский продукт в полноценного агента, который не просто отвечает на запросы, но и выполняет конкретные действия без вашего вмешательства. Он сочетает в себе возможности предыдущих разработок компании: Operator, который умел просматривать сайты и выполнять задачи, и Deep Research, специализирующийся на анализе больших объемов информации, пишет 24 Канал со ссылкой на TechCrunch.

Смотрите также OpenAI тестирует прямые покупки в ChatGPT: что изменится для пользователей

Пользователи могут активировать нового помощника через меню инструментов в ChatGPT, выбрав "режим агента". После этого можно давать ему задания на обычном языке. Например, агент может самостоятельно просматривать сайты, нажимать на кнопки и ссылки, предлагать пользователю вход в учетную запись, выполнять анализ, генерировать презентации и электронные таблицы, работать с календарем и выполнять код.

Для выполнения задач агент использует собственный набор инструментов в виртуальной среде:

  • визуальный и текстовый браузеры;
  • терминал для выполнения кода;
  • прямой доступ к API;
  • коннекторы ChatGPT для подключения к сторонним приложениям, например Gmail или GitHub.

Во время работы агента пользователь видит на экране полное описание его действий и в любой момент может вмешаться в процесс, остановить его или взять управление на себя.

По данным OpenAI, новый агент демонстрирует превосходные результаты в тестах, измеряющих способность к вебпоиску и выполнению реальных задач:

  • Последний экзамен человечества: агент ChatGPT набирает новый проходной балл на уровне 44,4. Результат примерно вдвое лучше, чем у o3 и o4-mini от OpenAI. Это достаточно сложный тест, который предлагает тысячу вопросов по более чем ста предметам.
  • У FrontierMath, одном из самых сложных известных математических бенчмарков агент ChatGPT набирает 27,4%, когда имеет доступ к инструментам, таких как терминал для выполнения кода. Предыдущий современный балл получил o4-mini, который набрал лишь 6,3%.
  • Внутренний тест OpenAI, который оценивает производительность модели на сложных, экономически ценных задачах, связанных со знаниями: результаты агента ChatGPT сравнимы или лучше результатов людей примерно в половине случаев.
  • DSBench: агент ChatGPT значительно превосходит человеческую производительность в задачах по науке о данных.
  • SpreadsheetBench: агент ChatGPT набирает 45,5%, по сравнению с 20,0% у Copilot.

Демонстрация работы ChatGPT Agent: видео

Что по вопросам безопасности?

OpenAI отмечает, что разрабатывала агента ChatGPT с учетом безопасности, главным образом потому, что продукт имеет некоторые новые возможности, которые могут сделать его более опасным в руках злоумышленников. Компания ранее уже предупреждала, что агентные модели могут иметь более опасные возможности.

В отчете OpenAI отмечает, что определила эту модель как "высокофункциональную" в области биологического и химического оружия и способную "усилить существующие пути причинения серьезного вреда". OpenAI отмечает, что не имеет прямых доказательств этого, но решила принять меры предосторожности и активировать новые средства защиты для уменьшения этих рисков.

Новые меры безопасности для агента ChatGPT включают мониторинг, который работает в режиме реального времени во время взаимодействия пользователей с продуктом. OpenAI заявляет, что этот мониторинг запускает классификатор для каждого запроса, введенного в агента ChatGPT, определяя, связан ли запрос с опасностью. Если да, запускается второй монитор, который определяет, может ли содержимое запроса и ответа быть использовано для создания биологической угрозы.

OpenAI также заявляет, что отключила функцию памяти ChatGPT для этого агента, чтобы предотвратить злоупотребление. В других частях ChatGPT функция памяти OpenAI позволяет чат-боту ссылаться на информацию из предыдущих чатов пользователей. Однако OpenAI заявляет, что злоумышленники могут использовать эту функцию в агенте ChatGPT для похищения конфиденциальных данных с помощью атак с вводом запросов. Но компания не исключает, что когда-то вернет эту возможность, если найдет более безопасный способ ее использования.

Доступность

  • Новый инструмент уже доступен для пользователей ChatGPT Pro.
  • Подписчики планов Plus и Team получат к нему доступ в течение нескольких дней.
  • Пользователи тарифов Enterprise и Education – в ближайшие недели.
  • Для Pro-пользователей установлен лимит в 400 сообщений в месяц, для других платных планов – 40.
  • Дополнительное время работы с агентом можно будет приобрести отдельно.