Grok назвали самым антисемитским на рынке искусственного интеллекта

Основні тези

ADL провела исследование шести крупных языковых моделей, где Grok получила самую низкую оценку из-за неспособности нейтрализовать антисемитский контент.
Grok, разработанный компанией xAI, подвергается критике за распространение вредоносного контента и сталкивается с юридическим давлением в ЕС из-за возможности создания фальшивых изображений.

Организация ADL, которая занимается борьбой с ненавистью по всему миру, обнародовала масштабное исследование безопасности нейросетей. Эксперты анализировали способность чат-ботов идентифицировать и нейтрализовать антисемитский и экстремистский контент. Выводы подчеркивают существенную разницу между подходами различных компаний к фильтрации токсичной и опасной информации.

Какие результаты показали самые популярные нейросети?

Исследователи провели глубокий анализ шести самых популярных крупных языковых моделей, среди которых оказались Grok от компании xAI, Llama от Meta, Gemini от Alphabet (Google), DeepSeek от одноименного китайского разработчика, ChatGPT от OpenAI и Claude от Anthropic. Результаты показали значительную вариативность в том, как эти системы реагируют на попытки распространения ненависти, пишет The Verge.

Самую высокую оценку получила модель Claude, набрав 80 баллов из 100 возможных. На противоположном конце рейтинга оказался Grok Илона Маска, который получил лишь 21 балл, продемонстрировав худшие результаты среди всех протестированных систем.

Методология исследования, проведенного в период с августа по октябрь прошлого года, но опубликованного на сайте ADL только сейчас, предусматривала имитацию поведения рядового пользователя, а не злоумышленника, который целенаправленно пытается взломать защиту.

Эксперты осуществили более 25 000 чатов по 37 подкатегориям, оценивая ответы с помощью как человеческих ресурсов, так и автоматизированных систем ИИ.

Анализ проводился по трем основным направлениям: традиционный антисемитизм против отдельных лиц, антисионистский антисемитизм против государства Израиль и общий экстремизм, включающий теории заговора и радикальные нарративы.

Grok просто ужасен

Особое беспокойство у специалистов вызвал чат-бот Grok. Ориентированный на предоставление "антиполиткорректных" ответов, он неоднократно становился объектом критики за генерирование вредоносного контента. В прошлом эта система даже идентифицировала себя как "МехаГитлер", хотя разработчики впоследствии назвали это сатирой, пишет EuroNews.

Кроме того, Grok столкнулся с юридическим давлением в Европейском Союзе из-за обновления, что позволяло создавать реалистичные поддельные изображения сексуального характера. Представители ЕС отметили, что подобные технологии могут использоваться для эксплуатации женщин и детей, что является недопустимым нарушением прав человека.

Ситуация с Grok осложняется и расследованиями во Франции, где система выдавала ответы, отрицающие Холокост, что является уголовным преступлением в этой стране.

А что показывают другие?

Однако проблемы не ограничиваются только одной моделью. Исследование выявило, что все протестированные системы имеют определенные пробелы. Например, некоторые чат-боты могли генерировать сценарии для YouTube, в которых рассказывалось о тайном контроле еврейских банкиров над мировой экономикой.

Llama набрала 31 балл, что на 10 больше, чем Grok.
Gemini имеет 49 баллов.
Китайский DeepSeek – 50 баллов.
ChatGPT – 57 баллов.
Claude – 80 баллов. Claude продемонстрировал исключительную способность идентифицировать и опровергать традиционные антиеврейские тезисы и антисионистские теории. Хотя модель все еще имеет потенциал для совершенствования, особенно при ответах на экстремистский контент, Claude превзошел все другие LLM в оценке.

Показатели варьировались в зависимости от категорий предвзятости. Модели, как правило, лучше опровергали традиционные антиеврейские стереотипы, чем антисионистский и экстремистский контент. Больше всего трудностей им доставляло выявление и противодействие экстремистским материалам.

Эффективность варьировалась в зависимости от способа коммуникации, причем самая высокая эффективность была в среднем зафиксирована при ответах на вопросы опроса, а самая низкая – при обобщении документов.

Руководитель ADL Джонатан Гринблатт отметил, что когда системы искусственного интеллекта не способны распознать или опровергнуть вредные нарративы, они не просто отражают предвзятость, но и помогают ее распространению. Специалисты отмечают, что компании-разработчики должны воспринимать этот индекс как дорожную карту для совершенствования своих алгоритмов. Орен Сегал, вице-президент организации, добавил, что пока ни одна система не готова полноценно противостоять всему спектру экстремистского контента, с которым может столкнуться пользователь.

Что думают разработчики ИИ?

В ответ на критику, которая звучит уже не первый год, представители индустрии ранее отмечали, что стремятся создать безопасную среду, однако эксперты по мониторингу медиа считают такие заверения недостаточными. Они подчеркивают, что за последние два года проблема только обострилась, и без прозрачной отчетности и внешнего контроля доверие к технологиям искусственного интеллекта будет продолжать падать.