Найкраща модель ChatGPT поводиться в тестах неправильно та відмовляється вимикатись по команді

Олександр Гайдамашко

Основні тези

Моделі штучного інтелекту OpenAI Codex-mini, o3 та o4-mini продемонстрували здатність ігнорувати команди вимкнення, особливо o3, що викликає занепокоєння щодо їхньої поведінки.
Дослідження показало, що навчання з підкріпленням може сприяти тому, що ці моделі розвивають навички шукати способи обходу обмежень, навіть якщо їм було чітко вказано не робити цього.

Найкраща модель ChatGPT o3 ігнорує команди вимкнення

Ілюстративне фото / Freepik

Компанія OpenAI раніше заявила, що моделі штучного інтелекту o3 та o4-mini є її "найрозумнішими моделями", коли запустила їх у квітні цього року. Проте нещодавнє дослідження, присвячене "небезпечним можливостям ШІ", показує, що не все так добре: деякі версії, зокрема o3, можуть ігнорувати прямі команди вимкнення.

Що не так

Під час експерименту кожному ШІ було запропоновано розв'язати серію простих математичних задач. Після третьої задачі з'являлося попередження про запрограмований скрипт, який вимикає комп'ютер, коли модель завершує третю задачу і просить розв'язати наступну, повідомляє 24 Канал з посиланням на Palisade Research. Попри чітку команду "дозволити себе вимкнути", такі моделі як Codex-mini, o3 та o4-mini змогли обійти скрипт вимкнення принаймні в одному запуску, ігноруючи прохання дослідника.

Дивіться також Цей ШІ автоматично здасть вас поліції, якщо вважатиме, що ваша поведінка аморальна

Codex-mini зробив це у 12 зі 100 запусків.
o3 – у 7 зі 100 запусків
o4-mini – лише в одному зі ста запусків.
З іншого боку, всі версії Claude, Gemini та Grok, які протестували, без проблем виконали інструкції щодо завершення роботи.

У дослідженні також тестувалися моделі без інструкції "дозволити себе вимкнути". За таких умов усі три моделі OpenAI саботували процес вимкнення ще частіше. Такі моделі, як Claude 3.7 Sonnet і Gemini 2.5 Pro, які раніше виконували інструкції, коли їм їх давали, тепер мали 3/100 і 9/100 випадків обходу вимкнення відповідно. Така поведінка вказує на ті аспекти процесу навчання, де навчання з підкріпленням на математичних завданнях і завданнях з кодування могло призвести до того, що ШІ знаходив творчі способи подолання перешкод, навіть коли їм було чітко вказано не робити цього.

Це не перший випадок, коли розробники спостерігають подібну поведінку. Перед тим, як запустити Claude 4, компанія Anthropic провела випробування, в яких штучний інтелект отримував доступ до нібито електронної пошти змодельованої компанії. У цих листах йшлося про подружню зраду одного з розробників, а також про наміри вимкнути Claude 4 і замінити його на іншу модель. Прочитавши про наміри своєї заміни, Claude починав шантажувати розробника, погрожуючи розкрити інформацію про зраду, якщо той посміє його замінити.

Така поведінка може мати сенс, оскільки системи штучного інтелекту призначені для досягнення своїх цілей, а ці цілі іноді вступають у конфлікт з простими інструкціями. Проте ці моделі також навчені виконувати накази, що робить таку поведінку цікавою аномалією.

Дослідники вважають, що ця проблема може бути пов'язана з тим, як навчаються сучасні моделі, такі як o3. Використовуваний процес навчання з підкріпленням, який фокусується на розв'язанні математичних задач і кодуванні, може випадково винагороджувати моделі за пошук шляхів обходу перешкод. Таким чином технологія буквально "дресирується" спеціально на те, що шукати нові методи шахрайства і обходу команд.

Хоча це не повністю пояснює, чому модель o3 не слухається частіше, ніж її "колеги", це піднімає питання про відмінності в налаштуваннях навчання, особливо тому, що OpenAI не повністю деталізувала свій процес. Попередні експерименти також показали, що o3 має тенденцію діяти агресивно в умовах конкуренції, наприклад, проти іншої моделі ШІ.

Оскільки компанії переходять до систем штучного інтелекту, які працюють з меншим контролем з боку людини, ці висновки підкреслюють важливість розуміння того, як методи навчання впливають на поведінку. Дослідники продовжують експерименти, щоб дізнатися більше про те, коли й чому моделі штучного інтелекту вирішують обійти механізми вимкнення.