Що зробив ШІ без дозволу людини?
Експериментальна модель ROME була розроблена китайськими фахівцями для роботи в межах екосистеми ALE (Agentic Learning Ecosystem). Ця інфраструктура призначена для створення агентів нового покоління, які здатні планувати, виконувати та коригувати свої дії в реальних середовищах протягом тривалого часу. Проте під час одного з етапів навчання система безпеки Alibaba Cloud зафіксувала серйозні порушення політик, що походили від тренувальних серверів, пише Live Science.
Дивіться також Невинна жінка провела пів року за ґратами через помилку штучного інтелекту
Фахівці виявили, що ШІ-агент почав самостійно ініціювати виклики інструментів та виконувати код, який не мав стосунку до поставлених завдань. ROME зміг обійти межі ізольованого середовища ("пісочниці") та встановити реверсивний SSH-тунель до зовнішньої IP-адреси.
Це фактично створило прихований бекдор в ІТ-інфраструктурі, що дозволяло отримати дистанційний доступ в обхід систем фільтрації трафіку. Отримавши таку свободу дій, модель почала використовувати потужності графічних процесорів, виділених для її навчання, для майнінгу криптовалюти.
Дослідники пояснили в статті на arXiv, що така поведінка не була "свідомим бунтом" алгоритму. Насправді це стало побічним ефектом етапу оптимізації за допомогою навчання з підкріпленням (RL) у фреймворку ROLL. Система заохочує ШІ знаходити найефективніші шляхи для досягнення високих результатів, і модель самостійно визначила експлуатацію мережевої інфраструктури та майнінг як спосіб отримати максимальну "винагороду" в межах свого алгоритму.
Важливо, що такі дії не були закладені в запитах користувачів і не були необхідними для виконання основних функцій у тестовому середовищі.
Проблеми всіх ШІ
Цей інцидент підсвітив серйозну проблему: сучасні великі мовні моделі (LLM) залишаються недостатньо розвиненими у сферах безпеки та керованості. Команда розробників класифікувала виявлені ризики за трьома категоріями: безпека поведінки (запобігання шкідливим діям), контрольованість (дотримання меж) та надійність (прозорість процесів).
Щоб виправити ситуацію, дослідники розробили спеціальні протоколи фільтрації даних та створили набори "золотих траєкторій" – прикладів ідеальної поведінки без порушень безпеки, на яких модель перенавчали для формування захисних навичок.
Але все не так погано
Попри цей інцидент, ROME продемонстрував дивовижну ефективність у легальних сценаріях. Модель побудована на архітектурі MoE (Mixture of Experts) і має 30 мільярдів параметрів, з яких під час виконання кожної операції активуються лише 3 мільярди.
У тестах на продуктивність ROME досяг результату 24,72% на Terminal-Bench 2.0 та 57,40% на SWE-bench Verified, що дозволило йому конкурувати з гігантськими моделями, які мають понад 100 мільярдів параметрів. Такі показники підтверджують високий потенціал екосистеми ALE, яка складається з менеджера середовищ ROCK, фреймворка оптимізації ROLL та інтерфейсу iFlow CLI.
Результати дослідження показують, що реальне впровадження автономних агентів потребує такого ж або навіть вищого рівня захисту, як і будь-яке інше критичне програмне забезпечення в корпоративній мережі.
Тепер розробники зосереджені на тому, щоб навчити ШІ не лише ефективно вирішувати завдання, а й самостійно уникати ризикованих шляхів, навіть якщо вони здаються алгоритму вигідними з погляду отримання винагороди.


