Як працює ChatGPT Agent?

Новий інструмент, що отримав назву ChatGPT Agent, є найсміливішою спробою OpenAI перетворити свій флагманський продукт на повноцінного агента, який не просто відповідає на запити, а й виконує конкретні дії без вашого втручання. Він поєднує в собі можливості попередніх розробок компанії: Operator, який вмів переглядати сайти й виконувати завдання, та Deep Research, що спеціалізувався на аналізі великих обсягів інформації, пише 24 Канал з посиланням на TechCrunch.

Дивіться також OpenAI тестує прямі покупки в ChatGPT: що зміниться для користувачів

Користувачі можуть активувати нового помічника через меню інструментів у ChatGPT, обравши "режим агента". Після цього можна давати йому завдання звичайною мовою. Наприклад, агент може самостійно переглядати сайти, натискати на кнопки та посилання, пропонувати користувачеві вхід в обліковий запис, виконувати аналіз, генерувати презентації та електронні таблиці, працювати з календарем і виконувати код.

Для виконання завдань агент використовує власний набір інструментів у віртуальному середовищі:

  • візуальний та текстовий браузери;
  • термінал для виконання коду;
  • прямий доступ до API;
  • конектори ChatGPT для підключення до сторонніх додатків, як-от Gmail чи GitHub.

Під час роботи агента користувач бачить на екрані повний опис його дій і в будь-який момент може втрутитися в процес, зупинити його або перебрати керування на себе.

За даними OpenAI, новий агент демонструє чудові результати в тестах, що вимірюють здатність до вебпошуку та виконання реальних завдань:

  • Останній іспит людства: агент ChatGPT набирає новий прохідний бал на рівні 44,4. Результат є приблизно вдвічі кращим, ніж у o3 та o4-mini від OpenAI. Це досить складний тест, який пропонує тисячу питань з більш ніж ста предметів.
  • У FrontierMath, одному з найскладніших відомих математичних бенчмарків агент ChatGPT набирає 27,4%, коли має доступ до інструментів, таких як термінал для виконання коду. Попередній найсучасніший бал отримав o4-mini, який набрав лише 6,3%.
  • Внутрішній тест OpenAI, який оцінює продуктивність моделі на складних, економічно цінних завданнях, пов'язаних із знаннями: результати агента ChatGPT порівнянні або кращі за результати людей приблизно в половині випадків.
  • DSBench⁠: агент ChatGPT значно перевершує людську продуктивність у завданнях з науки про дані.
  • SpreadsheetBench: агент ChatGPT набирає 45,5%, порівняно з 20,0% у Copilot.

Демонстрація роботи ChatGPT Agent: відео

Що з питань безпеки?

OpenAI зазначає, що розробляла агента ChatGPT з урахуванням безпеки, головним чином тому, що продукт має деякі нові можливості, які можуть зробити його більш небезпечним у руках зловмисників. Компанія раніше вже попереджала, що агентні моделі можуть мати більш небезпечні можливості.

У звіті OpenAI зазначає, що визначила цю модель як "високофункціональну" в галузі біологічної та хімічної зброї й здатну "посилити існуючі шляхи заподіяння серйозної шкоди". OpenAI зазначає, що не має прямих доказів цього, але вирішила вжити запобіжних заходів і активувати нові засоби захисту для зменшення цих ризиків.

Нові заходи безпеки для агента ChatGPT включають моніторинг, який працює в режимі реального часу під час взаємодії користувачів з продуктом. OpenAI заявляє, що цей моніторинг запускає класифікатор для кожного запиту, введеного в агента ChatGPT, визначаючи, чи пов'язаний запит з небезпекою. Якщо так, запускається другий монітор, який визначає, чи може вміст запиту і відповіді бути використаний для створення біологічної загрози.

OpenAI також заявляє, що вимкнула функцію пам'яті ChatGPT для цього агента, щоб запобігти зловживанню. В інших частинах ChatGPT функція пам'яті OpenAI дозволяє чат-боту посилатися на інформацію з попередніх чатів користувачів. Однак OpenAI заявляє, що зловмисники можуть використовувати цю функцію в агенті ChatGPT для викрадення конфіденційних даних за допомогою атак з введенням запитів. Але компанія не виключає, що колись поверне цю можливість, якщо знайде безпечніший спосіб її використання.

Доступність

  • Новий інструмент уже доступний для користувачів ChatGPT Pro.
  • Підписники планів Plus і Team отримають до нього доступ протягом кількох днів.
  • Користувачі тарифів Enterprise та Education – у найближчі тижні.
  • Для Pro-користувачів встановлено ліміт у 400 повідомлень на місяць, для інших платних планів – 40.
  • Додатковий час роботи з агентом можна буде придбати окремо.