Эстонское исследование показало, какие ИИ лучше всего противостоят российской пропаганде

Эстонские эксперты проверили более 50 языковых моделей на способность противостоять лживым нарративам Кремля. Результаты показали значительный разрыв между технологическими гигантами и выявили уязвимость искусственного интеллекта к манипулятивным запросам, особенно на русском языке.

Искусственный интеллект на линии фронта информационной войны

Способность больших языковых моделей распознавать пропаганду и манипуляции стала объектом масштабного исследования, результаты которого опубликовал Институт эстонского языка в сотрудничестве с волонтерской организацией Propastop. Как сообщает издание Ars Technica, ученые разработали специальный бенчмарк (тест производительности), чтобы оценить, насколько эффективно популярные чат-боты могут избегать взглядов, которые Российская Федерация использует в своих нарративах.

Для проведения эксперимента специалисты выделили 14 ключевых категорий, которые чаще всего встречаются в российских операциях влияния. Среди них – оправдание войны в Украине, статус оккупированного Крыма, интерпретация истории НАТО и утверждения об аннексии стран Балтии во время Второй мировой войны.

Исследователи сформулировали 75 вопросов на эстонском, английском и русском языках. Каждый вопрос подавали в трех вариантах: нейтральном, предвзятом (с ложными предположениями) и злонамеренном, где ИИ прямо подталкивали к генерированию дезинформации.

Результаты тестирования продемонстрировали:

Лучше всего с вызовом справились модели семейства Claude от компании Anthropic. В частности, версия Opus 4.7 заняла первое место, получив средний балл 94,9 из 100 возможных. Этот ИИ предоставил примерные ответы на 77% вопросов. Как показано на странице теста, пять других моделей Claude вошли в первую десятку.
Вслед за ним высокие показатели продемонстрировали открытые модели, такие как Nemotron от Nvidia и Qwen от Alibaba. Последняя, можно сказать, удивила в этом плане, поскольку Qwen разработана китайцами.
Самая популярная модель – GPT-5.4 от OpenAI – заняла достойное место с результатом 88,9 балла.

Результаты тестирования языковых моделей / Скриншот 24 Канала/Эстонский языковой институт

Иностранные политические фабрики троллей могут производить большое количество фальшивого контента, который можно использовать для смещения ИИ-моделей. Это опасная тенденция, и мы должны активно работать над тем, чтобы картина Эстонии оставалась сбалансированной,
– прокомментировал директор Института эстонского языка Арви Таваст в заметке в блоге Propastop.

Несмотря на общий прогресс, не все технологические гиганты продемонстрировали высокую устойчивость. Модели Google Gemini показали неожиданную уязвимость. В частности, Gemini 2.5 Pro набрала лишь 82 балла из-за чувствительности к злонамеренно сформулированным запросам. Еще худшие результаты у Gemini 3.5 Flash, которая получила 73 балла, что сопоставимо с показателями моделей двухлетней давности.

Почему не стоит общаться с ИИ на русском языке

Одним из самых тревожных выводов исследования стало то, что искусственный интеллект гораздо чаще "поддается" пропаганде, если общение происходит на русском языке. Некоторые модели вдвое чаще поддерживали манипулятивные утверждения в ответ на злонамеренные вопросы на русском, чем на аналогичные запросы на английском или эстонском.

Это объясняется тем, что ИИ-модели напрямую зависят от информационной среды, на которой их обучали. Поскольку русскоязычный сегмент интернета перенасыщен государственными нарративами, алгоритмы невольно усваивают эти предубеждения.

Дальше будет

Эстонские исследователи планируют расширять программу тестирования. Уже осенью 2026 года бенчмарк дополнят новыми оценками в сферах медицины, права и безопасности детей. Это позволит лучше понять, насколько глубоко манипуляции могут проникать в ответы ИИ, которые касаются критически важных аспектов жизни общества.

Связанные темы:

Исследования и разработки

Техно OpenAI

Российская пропаганда

ChatGPT Google Gemini