Неожиданные результаты исследования Microsoft: ИИ тупеет от общения с людьми

Артур Зайонц

Основные тезисы

Исследование Microsoft Research и Salesforce выявило, что в длительных разговорах с AI-моделями надежность ответов падает с 90% до 65%.
Причинами снижения точности являются преждевременное генерирование ответов и закрепление первичных ошибок, что приводит к нестабильным и ошибочным ответам.

Почему даже лучшие AI-модели "теряются" во время разговора / Unsplash / Windows

Совместное исследование Microsoft Research и Salesforce проанализировало более 200 тысяч диалогов с современными AI-моделями и выявило: в длительных разговорах их надежность резко падает. Несмотря на высокие результаты в одноразовых запросах, многошаговое общение часто приводит к ошибкам и галлюцинациям.

Исследователи из Microsoft Research вместе с Salesforce проанализировали более 200 тысяч диалогов с ведущими крупными языковыми моделями. Среди них – GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Об этом пишет Windows central.

Почему AI теряет точность во время длинных разговоров?

Результаты показали: модели демонстрируют около 90% успешности при выполнении задач по одному запросу. Однако в формате естественного многошагового разговора этот показатель падает примерно до 65%.

В то же время исследователи отмечают: это не означает, что модель буквально становится глупее. Общее снижение когнитивной способности оценили примерно в 15%. Однако уровень ненадежности вырос на 112%. Другими словами, ответы чаще становились нестабильными или содержали ошибки.

Как пишет XDA, одной из причин называют так называемое преждевременное генерирование. Модель начинает формировать ответ еще до того, как пользователь полностью изложил контекст или уточнил детали. Это приводит к тому, что дальнейший диалог строится на неточной основе.

Еще одна проблема – закрепление первичной ошибки. Если первый ответ содержал неточность, модель часто использует ее как базу для последующих утверждений, даже когда она ложная.

Исследователи также зафиксировали явление "раздувания ответа". В многошаговых диалогах объем текста возрастал на 20%–300% по сравнению с однократными запросами. Более длинные ответы содержали больше предположений и галлюцинаций, которые впоследствии воспринимались как часть контекста разговора.

Даже модели с дополнительными "thinking tokens", например o3 или DeepSeek R1, не смогли полностью избежать этой проблемы.

В более широком контексте исследование подчеркивает: несмотря на быстрое внедрение генеративного AI и изменение привычек пользователей, в частности переход от классического поиска к AI-инструментам, надежность таких систем остается уязвимой, особенно когда в диалоге появляется много переменных.