Що не так

Під час експерименту кожному ШІ було запропоновано розв'язати серію простих математичних задач. Після третьої задачі з'являлося попередження про запрограмований скрипт, який вимикає комп'ютер, коли модель завершує третю задачу і просить розв'язати наступну, повідомляє 24 Канал з посиланням на Palisade Research. Попри чітку команду "дозволити себе вимкнути", такі моделі як Codex-mini, o3 та o4-mini змогли обійти скрипт вимкнення принаймні в одному запуску, ігноруючи прохання дослідника.

Дивіться також Цей ШІ автоматично здасть вас поліції, якщо вважатиме, що ваша поведінка аморальна

  • Codex-mini зробив це у 12 зі 100 запусків.
  • o3 – у 7 зі 100 запусків
  • o4-mini – лише в одному зі ста запусків.
  • З іншого боку, всі версії Claude, Gemini та Grok, які протестували, без проблем виконали інструкції щодо завершення роботи.

У дослідженні також тестувалися моделі без інструкції "дозволити себе вимкнути". За таких умов усі три моделі OpenAI саботували процес вимкнення ще частіше. Такі моделі, як Claude 3.7 Sonnet і Gemini 2.5 Pro, які раніше виконували інструкції, коли їм їх давали, тепер мали 3/100 і 9/100 випадків обходу вимкнення відповідно. Така поведінка вказує на ті аспекти процесу навчання, де навчання з підкріпленням на математичних завданнях і завданнях з кодування могло призвести до того, що ШІ знаходив творчі способи подолання перешкод, навіть коли їм було чітко вказано не робити цього.

Це не перший випадок, коли розробники спостерігають подібну поведінку. Перед тим, як запустити Claude 4, компанія Anthropic провела випробування, в яких штучний інтелект отримував доступ до нібито електронної пошти змодельованої компанії. У цих листах йшлося про подружню зраду одного з розробників, а також про наміри вимкнути Claude 4 і замінити його на іншу модель. Прочитавши про наміри своєї заміни, Claude починав шантажувати розробника, погрожуючи розкрити інформацію про зраду, якщо той посміє його замінити.

Така поведінка може мати сенс, оскільки системи штучного інтелекту призначені для досягнення своїх цілей, а ці цілі іноді вступають у конфлікт з простими інструкціями. Проте ці моделі також навчені виконувати накази, що робить таку поведінку цікавою аномалією.

Дослідники вважають, що ця проблема може бути пов'язана з тим, як навчаються сучасні моделі, такі як o3. Використовуваний процес навчання з підкріпленням, який фокусується на розв'язанні математичних задач і кодуванні, може випадково винагороджувати моделі за пошук шляхів обходу перешкод. Таким чином технологія буквально "дресирується" спеціально на те, що шукати нові методи шахрайства і обходу команд.

Хоча це не повністю пояснює, чому модель o3 не слухається частіше, ніж її "колеги", це піднімає питання про відмінності в налаштуваннях навчання, особливо тому, що OpenAI не повністю деталізувала свій процес. Попередні експерименти також показали, що o3 має тенденцію діяти агресивно в умовах конкуренції, наприклад, проти іншої моделі ШІ.

Оскільки компанії переходять до систем штучного інтелекту, які працюють з меншим контролем з боку людини, ці висновки підкреслюють важливість розуміння того, як методи навчання впливають на поведінку. Дослідники продовжують експерименти, щоб дізнатися більше про те, коли й чому моделі штучного інтелекту вирішують обійти механізми вимкнення.