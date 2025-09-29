Компанія OpenAI, відома створенням ChatGPT, представила нову методику для оцінки можливостей штучного інтелекту. Система отримала назву GDPval і покликана визначити, наскільки ефективно нейромережі справляються з реальними робочими завданнями. Результати дослідження виявилися несподіваними навіть для самих розробників.

Який ШІ виявився найефективнішим, ніж ChatGPT?

Традиційні бенчмарки для тестування штучного інтелекту часто критикують за відірваність від реальних сценаріїв використання. Щоб усунути цю проблему, OpenAI розробила GDPval – систему, що оцінює продуктивність ШІ-моделей під час виконання завдань, характерних для 44 різних професій, від юристів та інженерів до медсестер та розробників програмного забезпечення. Назва GDPval походить від економічного терміна "валовий внутрішній продукт" (GDP), що підкреслює прагнення OpenAI створити загальновизнаний стандарт для вимірювання прогресу ШІ, пише 24 Канал з посиланням на TechRadar.

Дослідження, проведене спільно з економістом із Гарварду Девідом Демінгом для Національного бюро економічних досліджень (NBER), порівнювало відповіді ШІ з еталонними відповідями експертів у конкретних галузях. На подив багатьох, перше місце посів не ChatGPT, а модель Claude Opus 4.1 від компанії Anthropic, йдеться в звіті OpenAI.

Згідно з результатами, Claude Opus 4.1 продемонстрував показник перемог у 47,6%, що означає, що майже в половині випадків його рішення були кращими за рішення галузевого фахівця.

На другому місці опинився "ChatGPT-5 high" з результатом 38,8%.

На третьому – "ChatGPT o3 high" з 34,1%.

Примітно, що популярна модель ChatGPT-4o показала найнижчий результат у 12,4%, поступившись навіть Grok 4 та Gemini 2.5 Pro.

Модель Claude продемонструвала найвищу ефективність у восьми з дев'яти тестованих секторів економіки, включно з державним управлінням, охороною здоров'я та соціальною допомогою. Завдання, які ставили перед штучним інтелектом, були максимально наближені до реальних робочих ситуацій: написання відповіді незадоволеному клієнту, який вимагає повернення товару, оптимізація розміщення торгових точок на ярмарку чи перевірка розбіжностей цін у замовленнях на закупівлю.

Чому OpenAI не приховала це?

OpenAI пояснює публікацію таких невтішних для себе результатів своєю філософією радикальної прозорості. У компанії заявили, що їхня місія – забезпечити, щоб сильний штучний інтелект приносив користь усьому людству, а прозоре інформування про прогрес є частиною цієї місії.

Ці результати можуть спонукати OpenAI переглянути фокус своїх розробок, адже попередні версії ChatGPT були значною мірою орієнтовані саме на робочі завдання, такі як кодування та створення презентацій.