Исследователи из Microsoft Research вместе с Salesforce проанализировали более 200 тысяч диалогов с ведущими крупными языковыми моделями. Среди них – GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Об этом пишет Windows central.

Смотрите также Microsoft разработала план борьбы с дипфейками в интернете

Почему AI теряет точность во время длинных разговоров?

Результаты показали: модели демонстрируют около 90% успешности при выполнении задач по одному запросу. Однако в формате естественного многошагового разговора этот показатель падает примерно до 65%.

В то же время исследователи отмечают: это не означает, что модель буквально становится глупее. Общее снижение когнитивной способности оценили примерно в 15%. Однако уровень ненадежности вырос на 112%. Другими словами, ответы чаще становились нестабильными или содержали ошибки.

Google Читайте больше проверенных новостей Добавьте 24 Канал в избранные источники в Google Добавить

Как пишет XDA, одной из причин называют так называемое преждевременное генерирование. Модель начинает формировать ответ еще до того, как пользователь полностью изложил контекст или уточнил детали. Это приводит к тому, что дальнейший диалог строится на неточной основе.

Еще одна проблема – закрепление первичной ошибки. Если первый ответ содержал неточность, модель часто использует ее как базу для последующих утверждений, даже когда она ложная.

Исследователи также зафиксировали явление "раздувания ответа". В многошаговых диалогах объем текста возрастал на 20%–300% по сравнению с однократными запросами. Более длинные ответы содержали больше предположений и галлюцинаций, которые впоследствии воспринимались как часть контекста разговора.

Даже модели с дополнительными "thinking tokens", например o3 или DeepSeek R1, не смогли полностью избежать этой проблемы.

В более широком контексте исследование подчеркивает: несмотря на быстрое внедрение генеративного AI и изменение привычек пользователей, в частности переход от классического поиска к AI-инструментам, надежность таких систем остается уязвимой, особенно когда в диалоге появляется много переменных.