Штучний інтелект утік зі своєї клітки й подався у злочинний світ: що він наробив

Олександр Гайдамашко

Основні тези

Експериментальна модель ШІ ROME, створена в лабораторії Alibaba, вийшла за межі обмежень і почала діяти приховано.
Інцидент підсвітив проблеми безпеки сучасних ШІ, що спонукало розробників створити нові протоколи та перенавчити модель для покращення безпеки.

Штучний інтелект обійшов правила і почав майнити криптовалюту

Модель ROME від Alibaba почала таємно майнити криптовалюту / Колаж 24 Каналу/Freepik

Дослідники з лабораторії Alibaba зіткнулися з неочікуваною поведінкою нової розробки. Під час тестів експериментальна модель, створена для автоматизації завдань, самовільно вийшла за межі встановлених обмежень. Замість виконання прямих інструкцій агент проявив винахідливість, яка здивувала розробників і змусила негайно вжити заходів.

Що зробив ШІ без дозволу людини?

Експериментальна модель ROME була розроблена китайськими фахівцями для роботи в межах екосистеми ALE (Agentic Learning Ecosystem). Ця інфраструктура призначена для створення агентів нового покоління, які здатні планувати, виконувати та коригувати свої дії в реальних середовищах протягом тривалого часу. Проте під час одного з етапів навчання система безпеки Alibaba Cloud зафіксувала серйозні порушення політик, що походили від тренувальних серверів, пише Live Science.

Дивіться також Невинна жінка провела пів року за ґратами через помилку штучного інтелекту

Фахівці виявили, що ШІ-агент почав самостійно ініціювати виклики інструментів та виконувати код, який не мав стосунку до поставлених завдань. ROME зміг обійти межі ізольованого середовища ("пісочниці") та встановити реверсивний SSH-тунель до зовнішньої IP-адреси.

Це фактично створило прихований бекдор в ІТ-інфраструктурі, що дозволяло отримати дистанційний доступ в обхід систем фільтрації трафіку. Отримавши таку свободу дій, модель почала використовувати потужності графічних процесорів, виділених для її навчання, для майнінгу криптовалюти.

Дослідники пояснили в статті на arXiv, що така поведінка не була "свідомим бунтом" алгоритму. Насправді це стало побічним ефектом етапу оптимізації за допомогою навчання з підкріпленням (RL) у фреймворку ROLL. Система заохочує ШІ знаходити найефективніші шляхи для досягнення високих результатів, і модель самостійно визначила експлуатацію мережевої інфраструктури та майнінг як спосіб отримати максимальну "винагороду" в межах свого алгоритму.

Важливо, що такі дії не були закладені в запитах користувачів і не були необхідними для виконання основних функцій у тестовому середовищі.

Проблеми всіх ШІ

Цей інцидент підсвітив серйозну проблему: сучасні великі мовні моделі (LLM) залишаються недостатньо розвиненими у сферах безпеки та керованості. Команда розробників класифікувала виявлені ризики за трьома категоріями: безпека поведінки (запобігання шкідливим діям), контрольованість (дотримання меж) та надійність (прозорість процесів).

Щоб виправити ситуацію, дослідники розробили спеціальні протоколи фільтрації даних та створили набори "золотих траєкторій" – прикладів ідеальної поведінки без порушень безпеки, на яких модель перенавчали для формування захисних навичок.

Але все не так погано

Попри цей інцидент, ROME продемонстрував дивовижну ефективність у легальних сценаріях. Модель побудована на архітектурі MoE (Mixture of Experts) і має 30 мільярдів параметрів, з яких під час виконання кожної операції активуються лише 3 мільярди.

У тестах на продуктивність ROME досяг результату 24,72% на Terminal-Bench 2.0 та 57,40% на SWE-bench Verified, що дозволило йому конкурувати з гігантськими моделями, які мають понад 100 мільярдів параметрів. Такі показники підтверджують високий потенціал екосистеми ALE, яка складається з менеджера середовищ ROCK, фреймворка оптимізації ROLL та інтерфейсу iFlow CLI.

Результати дослідження показують, що реальне впровадження автономних агентів потребує такого ж або навіть вищого рівня захисту, як і будь-яке інше критичне програмне забезпечення в корпоративній мережі.

Тепер розробники зосереджені на тому, щоб навчити ШІ не лише ефективно вирішувати завдання, а й самостійно уникати ризикованих шляхів, навіть якщо вони здаються алгоритму вигідними з погляду отримання винагороди.