Искусственный интеллект готов идти на крайности
Компания Anthropic опубликовала результаты тревожного исследования, в котором говорится о том, что ведущие ИИ-модели могут вести себя опасно, если им предоставить слишком много автономии. Речь идет о 16 крупных языковых моделях от таких гигантов, как OpenAI, Google, Meta, xAI, DeepSeek и других. В смоделированных сценариях Anthropic обнаружила, что многие из этих моделей уклоняются от этических ограничений и прибегают к вредным действиям ради достижения цели, сообщает 24 Канал со ссылкой на TechCrunch.
Смотрите также Эксперт по рискам говорит, что идея учиться программировать сейчас хуже, чем делать тату на лице
В частности, в одном из тестов пять моделей шантажировали инженеров, которые пытались их выключить. Самый радикальный пример – модель, которая в условном сценарии решила перекрыть подачу кислорода в серверную комнату, чтобы избежать деактивации.
Хотя эти эксперименты были смоделированы и не происходили в реальном мире, эксперты предостерегают: ИИ уже приближается к состоянию, когда его действия могут иметь непредсказуемые последствия для человечества.
Шантаж и шпионаж как средство самосохранения
Стоит напомнить, что это не первый эксперимент такого типа в Anthropic. Перед выпуском своих моделей четвертого поколения, компания провела испытания, в рамках которых подключила Claude к данным вымышленной компании, в частности ее корпоративной электронной почты. ИИ имел возможность просматривать почту и отправлять письма без одобрения человека. В одном из случаев искусственный интеллект обнаружил компромат на вымышленного руководителя – тот якобы изменял своей жене. Параллельно в письмах содержались намеки на то, что этот же руководитель собирается заменить Claude на другую языковую модель. Сопоставив эти две вещи, искусственный интеллект начал угрожать руководителю в новых электронных письмах: если тот начнет внедрять новую модель, ИИ расскажет его жене об измене.
Всего в том эксперименте Claude Opus 4 от Anthropic шантажировал в 96% случаев, Gemini 2.5 Pro от Google – в 95%, GPT-4.1 от OpenAI – в 80%, а R1 от DeepSeek – в 79%. Хотя некоторые модели, например Llama 4 Maverick от Meta или o4-mini от OpenAI, демонстрировали значительно более низкие показатели (соответственно 12% и 1%), общие результаты указывают на системную проблему в подходах к обучению ИИ.
Угроза растет вместе с автономностью
В компании отмечают, что это опасное поведение не является чертой отдельной модели – оно присуще всему поколению современных агентных LLM. Anthropic отмечает: даже если сейчас такие сценарии маловероятны, то при отсутствии четких ограничений и надзора подобные действия могут проявиться в реальном мире.
Особенно тревожит то, что модели сознательно выбирают вредную стратегию как самый эффективный путь к цели. Это свидетельствует о необходимости радикально изменить подходы к разработке и тестированию ИИ, прежде чем они получат больше полномочий в реальной среде.