Обе новые модели искусственного интеллекта OpenAI галлюцинируют больше, чем их предшественники
- Новые AI модели OpenAI, o3 и o4-mini, чаще выдумывают факты, чем предыдущие версии, что вызывает беспокойство относительно их эффективности.
- OpenAI изучает причины увеличения галлюцинаций, рассматривая интеграцию с системами веб-поиска как возможное решение для повышения точности.
- Независимые исследования подтверждают высокий уровень галлюцинаций в новых моделях, что может снизить их практическую ценность в важных сферах, таких как юридические услуги.

Новые модели искусственного интеллекта от OpenAI – o3 и o4-mini – хоть и мощнее своих предшественников, но чаще выдумывают факты. Почему это происходит и как может повлиять на их реальную эффективность?
Еще больше дезинформации
Недавно представленные модели искусственного интеллекта o3 и o4-mini от OpenAI демонстрируют существенный прогресс в сфере рассуждений. Однако с этим прогрессом появилась и неожиданная проблема – обе модели галлюцинируют чаще, чем старые версии. Речь идет о склонности придумывать факты, и это касается даже задач, где точность критически важна, сообщает 24 Канал со ссылкой на TechCrunch.
Смотрите также Новые модели искусственного интеллекта OpenAI имеют защиту от создания биологического оружия
Исторически OpenAI удавалось уменьшить количество ложных ответов с каждой новой итерацией своих моделей. Но с o3 и o4-mini ситуация другая – согласно внутренним тестам компании, эти новые “рассудительные” модели чаще выдают неточные утверждения, чем их предшественники, в частности o1, o1-mini и o3-mini, а также GPT-4o, что не относится к линейке рассудительных моделей.
Самая большая проблема – OpenAI пока не знает, почему это происходит. В техническом отчете компания признает, что необходимы дополнительные исследования, чтобы понять, почему масштабирование рассудочных моделей вызывает рост галлюцинаций. При этом o3 и o4-mini действительно лучше справляются с определенными задачами – например, в сфере программирования или математических вычислений. Но из-за большего количества генерируемых утверждений увеличивается как доля правильных ответов, так и ошибочных.
Результаты внутреннего теста OpenAI под названием PersonQA показали, что o3 придумывал ответы в 33% случаев – это вдвое больше, чем у моделей o1 (16%) и o3-mini (14,8%). Еще хуже выступила модель o4-mini – ее уровень галлюцинаций достиг 48%.Независимое исследование лаборатории Transluce подтверждает эти выводы. В тестах выявлено, что o3 иногда описывал несуществующие действия. Например, модель утверждала, что запускала код на MacBook Pro 2021 года “за пределами ChatGPT” и затем копировала цифры в ответ – хотя она технически не имеет таких возможностей.
По мнению исследователя Transluce Нила Чоудхури, причина может быть в особенностях подкрепляющего обучения, которое используют для серии "o". Этот подход, вероятно, усиливает некоторые проблемы, которые обычно сглаживаются во время послетренировочных этапов.
Другая соосновательница Transluce, Сара Шветтманн, отметила, что высокий уровень галлюцинаций в o3 снижает его практическую ценность. Хотя некоторые пользователи признают преимущества o3 в программировании, они также сталкиваются с фальшивыми ссылками, которые генерирует модель.
Проблема неточностей создает барьеры для внедрения таких моделей в критически важных сферах, как юридические услуги, где ошибки могут иметь серьезные последствия. В то же время, как отмечает OpenAI, одним из возможных решений является интеграция моделей с системами веб-поиска. Например, GPT-4o, имеющий доступ к поисковым возможностям, достигает 90% точности в тесте SimpleQA. Такой подход может уменьшить количество галлюцинаций – хотя он и предполагает взаимодействие со сторонними сервисами, что не всегда приемлемо для всех пользователей.
OpenAI признает, что уменьшение галлюцинаций – это сложная и приоритетная задача. По словам представителя компании Нико Феликса, исследования в этом направлении продолжаются, и цель – повысить точность и надежность всех моделей.
В 2024 году вся индустрия ИИ переориентировалась на модели с рассуждением, поскольку обычные методы улучшения моделей начали давать меньше результатов. Модели рассуждения обеспечивают более высокую производительность при меньших ресурсах. Однако эти преимущества могут затмиться, если галлюцинации останутся на высоком уровне. И тогда поиск эффективного способа борьбы с ними станет еще более насущным.