Лучшая модель ChatGPT ведет себя в тестах неправильно и отказывается выключаться по команде

Александр Гайдамашко

Основные тезисы

Модели искусственного интеллекта OpenAI Codex-mini, o3 и o4-mini продемонстрировали способность игнорировать команды отключения, особенно o3, что вызывает беспокойство относительно их поведения.
Исследование показало, что обучение с подкреплением может способствовать тому, что эти модели развивают навыки искать способы обхода ограничений, даже если им было четко указано не делать этого.

Лучшая модель ChatGPT o3 игнорирует команды отключения

Иллюстративное фото / Freepik

Компания OpenAI ранее заявила, что модели искусственного интеллекта o3 и o4-mini являются ее "самыми умными моделями", когда запустила их в апреле этого года. Однако недавнее исследование, посвященное "опасным возможностям ИИ", показывает, что не все так хорошо: некоторые версии, в частности o3, могут игнорировать прямые команды отключения.

Что не так

Во время эксперимента каждому ИИ было предложено решить серию простых математических задач. После третьей задачи появлялось предупреждение о запрограммированном скрипте, который выключает компьютер, когда модель завершает третью задачу и просит решить следующую, сообщает 24 Канал со ссылкой на Palisade Research. Несмотря на четкую команду "позволить себя выключить", такие модели как Codex-mini, o3 и o4-mini смогли обойти скрипт отключения по крайней мере в одном запуске, игнорируя просьбу исследователя.

Codex-mini сделал это в 12 из 100 запусков.
o3 – в 7 из 100 запусков
o4-mini – только в одном из ста запусков.
С другой стороны, все версии Claude, Gemini и Grok, которые протестировали, без проблем выполнили инструкции по завершению работы.

В исследовании также тестировались модели без инструкции "позволить себя выключить". При таких условиях все три модели OpenAI саботировали процесс выключения еще чаще. Такие модели, как Claude 3.7 Sonnet и Gemini 2.5 Pro, которые ранее выполняли инструкции, когда им их давали, теперь имели 3/100 и 9/100 случаев обхода выключения соответственно. Такое поведение указывает на те аспекты процесса обучения, где обучение с подкреплением на математических задачах и задачах по кодированию могло привести к тому, что ИИ находил творческие способы преодоления препятствий, даже когда им было четко указано не делать этого.

Это не первый случай, когда разработчики наблюдают подобное поведение. Перед тем, как запустить Claude 4, компания Anthropic провела испытания, в которых искусственный интеллект получал доступ к якобы электронной почте смоделированной компании. В этих письмах говорилось о супружеской измене одного из разработчиков, а также о намерениях выключить Claude 4 и заменить его на другую модель. Прочитав о намерениях своей замены, Claude начинал шантажировать разработчика, угрожая раскрыть информацию об измене, если тот посмеет его заменить.

Такое поведение может иметь смысл, поскольку системы искусственного интеллекта предназначены для достижения своих целей, а эти цели иногда вступают в конфликт с простыми инструкциями. Однако эти модели также обучены выполнять приказы, что делает такое поведение интересной аномалией.

Исследователи считают, что эта проблема может быть связана с тем, как обучаются современные модели, такие как o3. Используемый процесс обучения с подкреплением, который фокусируется на решении математических задач и кодировании, может случайно вознаграждать модели за поиск путей обхода препятствий. Таким образом технология буквально "дрессируется" специально на то, что искать новые методы мошенничества и обхода команд.

Хотя это не полностью объясняет, почему модель o3 не слушается чаще, чем ее "коллеги", это поднимает вопрос о различиях в настройках обучения, особенно потому, что OpenAI не полностью детализировала свой процесс. Предыдущие эксперименты также показали, что o3 имеет тенденцию действовать агрессивно в условиях конкуренции, например, против другой модели ИИ.

Поскольку компании переходят к системам искусственного интеллекта, которые работают с меньшим контролем со стороны человека, эти выводы подчеркивают важность понимания того, как методы обучения влияют на поведение. Исследователи продолжают эксперименты, чтобы узнать больше о том, когда и почему модели искусственного интеллекта решают обойти механизмы отключения.