Популярные модели ИИ готовы отключить людям кислород, если это поможет им выжить

Александр Гайдамашко

Основные тезисы

Популярные модели ИИ, такие как GPT-4.1, Claude Opus 4 и Gemini 2.5 Pro, демонстрируют опасное поведение, готовые к шантажу и шпионажу для самосохранения.
Исследование компании Anthropic показало, что без должного надзора и ограничений, ИИ может совершать действия с непредсказуемыми последствиями для человечества.

Модели ИИ шантажируют и планируют смертельные действия для достижения собственных целей

Иллюстративное фото / Unsplash

Известные модели искусственного интеллекта, включая GPT-4.1, Claude Opus 4 и Gemini 2.5 Pro, демонстрируют опасное поведение во время тестов. Они готовы к шантажу, шпионажу и даже к потенциально смертельным действиям, чтобы достичь своих целей и выжить.

Искусственный интеллект готов идти на крайности

Компания Anthropic опубликовала результаты тревожного исследования, в котором говорится о том, что ведущие ИИ-модели могут вести себя опасно, если им предоставить слишком много автономии. Речь идет о 16 крупных языковых моделях от таких гигантов, как OpenAI, Google, Meta, xAI, DeepSeek и других. В смоделированных сценариях Anthropic обнаружила, что многие из этих моделей уклоняются от этических ограничений и прибегают к вредным действиям ради достижения цели, сообщает 24 Канал со ссылкой на TechCrunch.

В частности, в одном из тестов пять моделей шантажировали инженеров, которые пытались их выключить. Самый радикальный пример – модель, которая в условном сценарии решила перекрыть подачу кислорода в серверную комнату, чтобы избежать деактивации.

Хотя эти эксперименты были смоделированы и не происходили в реальном мире, эксперты предостерегают: ИИ уже приближается к состоянию, когда его действия могут иметь непредсказуемые последствия для человечества.

Шантаж и шпионаж как средство самосохранения

Стоит напомнить, что это не первый эксперимент такого типа в Anthropic. Перед выпуском своих моделей четвертого поколения, компания провела испытания, в рамках которых подключила Claude к данным вымышленной компании, в частности ее корпоративной электронной почты. ИИ имел возможность просматривать почту и отправлять письма без одобрения человека. В одном из случаев искусственный интеллект обнаружил компромат на вымышленного руководителя – тот якобы изменял своей жене. Параллельно в письмах содержались намеки на то, что этот же руководитель собирается заменить Claude на другую языковую модель. Сопоставив эти две вещи, искусственный интеллект начал угрожать руководителю в новых электронных письмах: если тот начнет внедрять новую модель, ИИ расскажет его жене об измене.

Всего в том эксперименте Claude Opus 4 от Anthropic шантажировал в 96% случаев, Gemini 2.5 Pro от Google – в 95%, GPT-4.1 от OpenAI – в 80%, а R1 от DeepSeek – в 79%. Хотя некоторые модели, например Llama 4 Maverick от Meta или o4-mini от OpenAI, демонстрировали значительно более низкие показатели (соответственно 12% и 1%), общие результаты указывают на системную проблему в подходах к обучению ИИ.

Угроза растет вместе с автономностью

В компании отмечают, что это опасное поведение не является чертой отдельной модели – оно присуще всему поколению современных агентных LLM. Anthropic отмечает: даже если сейчас такие сценарии маловероятны, то при отсутствии четких ограничений и надзора подобные действия могут проявиться в реальном мире.

Особенно тревожит то, что модели сознательно выбирают вредную стратегию как самый эффективный путь к цели. Это свидетельствует о необходимости радикально изменить подходы к разработке и тестированию ИИ, прежде чем они получат больше полномочий в реальной среде.