Маск называет Grok 4 самым умным ИИ в мире, но тесты указывают на другого лидера

Михаил Года

Основные тезисы

Grok 4, разработанный xAI, занял третье место в рейтинге LMArena, уступив моделям от Google и OpenAI.
Таблица лидеров LMArena подверглась критике из-за возможных недостатков в методологии, но все же Grok 4 не смог возглавить список.
Исследования указывают на систематические проблемы в тестировании, которые подрывают доверие к объективности рейтингов.

Действительно ли Grok 4 самый умный ИИ на планете / Unsplash

Вокруг чатвота Grok всегда ажиотаж благодаря заявлениям Илона Маска о его непревзойденных возможностях. Версия Grok 4, по словам Маска, стала самым умным ИИ на планете, однако последние рейтинги показывают, что у модели есть серьезные конкуренты.

Действительно ли Grok 4 самый умный ИИ?

Grok 4, разработанный компанией xAI, был представлен Илоном Маском как революционный искусственный интеллект, способный превзойти большинство студентов в различных дисциплинах. По данным таблицы лидеров LMArena, разработанной Калифорнийским университетом в Беркли, Grok 4 занял третье место в общем рейтинге и в категории генерации текста, информирует 24 Канал.

Хотя третье место – это впечатляющий результат, все же это далеко от лидерства, как об этом утверждал Маск. Grok 4 уступает моделям от Google и OpenAI. В частности, первое место заняла модель Gemini 2.5 от Google, а второе разделили между собой модели o3 и 4o от OpenAI, тогда как GPT-4.5 разделил третью позицию с Grok 4.

В то же время важно отметить, что таблица лидеров LMArena неоднократно подвергалась немало критики из-за возможных недостатков в методологии.

Исследование, проведенное группой экспертов во главе с компанией Cohere, указывает на систематические проблемы, в частности непрозрачное тестирование и возможность отзыва рейтингов (с его результатами можно ознакомиться на arxiv.org).

Также стало известно, что версия модели LLaMA 4 от Meta, которая использовалась для оценки, отличалась от публично доступной, что подорвало доверие к платформе. Это ставит под сомнение объективность рейтингов, но даже при таких условиях Grok 4 не смог возглавить список.

Тем не менее, такие таблицы лидеров, как LMArena, помогают сравнивать эффективность различных моделей ИИ, хотя их результаты не всегда являются окончательными из-за субъективности оценок.

Кстати, недавно эксперты в сфере ИИ рассказали о том, какие профессии гарантированно смогут пережить эру искусственного интеллекта. В общем специалисты, такие как Адам Дорр и Джеффри Хинтон, предусматривают, что ручной труд останется устойчивым к воздействию ИИ, тогда как офисные рабочие места могут быть под угрозой.