Это признали даже в OpenAI: какой ИИ помогает с работой и обучением лучше, чем GPT-5

Александр Гайдамашко

Основные тезисы

OpenAI создала систему GDPval для оценки производительности ИИ в реальных рабочих задачах, и модель Claude Opus 4.1 от Anthropic оказалась лучше ChatGPT.
Claude Opus 4.1 показала 47,6% побед, тогда как "ChatGPT-5 high" получил 38,8%, а ChatGPT-4o - самый низкий результат в 12,4%.

Какой ИИ лучше всего подходит для работы – Claude, GPT-5 или Gemini, согласно тесту OpenAI

Claude обошел GPT-5: что показала новая система оценки искусственного интеллекта / 24 Канал

Компания OpenAI, известная созданием ChatGPT, представила новую методику для оценки возможностей искусственного интеллекта. Система получила название GDPval и призвана определить, насколько эффективно нейросети справляются с реальными рабочими задачами. Результаты исследования оказались неожиданными даже для самих разработчиков.

Какой ИИ оказался самым эффективным, чем ChatGPT?

Традиционные бенчмарки для тестирования искусственного интеллекта часто критикуют за оторванность от реальных сценариев использования. Чтобы устранить эту проблему, OpenAI разработала GDPval – систему, что оценивает производительность ИИ-моделей во время выполнения задач, характерных для 44 различных профессий, от юристов и инженеров до медсестер и разработчиков программного обеспечения. Название GDPval происходит от экономического термина "валовой внутренний продукт" (GDP), что подчеркивает стремление OpenAI создать общепризнанный стандарт для измерения прогресса ИИ, пишет 24 Канал со ссылкой на TechRadar.

Исследование, проведенное совместно с экономистом из Гарварда Дэвидом Демингом для Национального бюро экономических исследований (NBER), сравнивало ответы ИИ с эталонными ответами экспертов в конкретных отраслях. К удивлению многих, первое место занял не ChatGPT, а модель Claude Opus 4.1 от компании Anthropic, говорится в отчете OpenAI.

Согласно результатам, Claude Opus 4.1 продемонстрировал показатель побед в 47,6%, что означает, что почти в половине случаев его решения были лучше решения отраслевого специалиста.
На втором месте оказался "ChatGPT-5 high" с результатом 38,8%.

На третьем – "ChatGPT o3 high" с 34,1%.
Примечательно, что популярная модель ChatGPT-4o показала самый низкий результат в 12,4%, уступив даже Grok 4 и Gemini 2.5 Pro.

Модель Claude продемонстрировала самую высокую эффективность в восьми из девяти тестируемых секторов экономики, включая государственное управление, здравоохранением и социальную помощь. Задачи, которые ставили перед искусственным интеллектом, были максимально приближены к реальным рабочим ситуациям: написание ответа недовольному клиенту, который требует возврата товара, оптимизация размещения торговых точек на ярмарке или проверка расхождений цен в заказах на закупку.

Почему OpenAI не скрыла это?

OpenAI объясняет публикацию таких неутешительных для себя результатов своей философией радикальной прозрачности. В компании заявили, что их миссия – обеспечить, чтобы сильный искусственный интеллект приносил пользу всему человечеству, а прозрачное информирование о прогрессе является частью этой миссии.

Эти результаты могут побудить OpenAI пересмотреть фокус своих разработок, ведь предыдущие версии ChatGPT были в значительной степени ориентированы именно на рабочие задачи, такие как кодирование и создание презентаций.