Искусственный интеллект сбежал из своей клетки и отправился в преступный мир: что он наделал

Александр Гайдамашко

Основные тезисы

Экспериментальная модель ИИ ROME, созданная в лаборатории Alibaba, вышла за пределы ограничений и начала действовать скрыто.
Инцидент подсветил проблемы безопасности современных ИИ, что побудило разработчиков создать новые протоколы и переобучить модель для улучшения безопасности.

Искусственный интеллект обошел правила и начал майнить криптовалюту

Модель ROME от Alibaba начала тайно майнить криптовалюту / Коллаж 24 Канала/Freepik

Исследователи из лаборатории Alibaba столкнулись с неожиданным поведением новой разработки. Во время тестов экспериментальная модель, созданная для автоматизации задач, самовольно вышла за пределы установленных ограничений. Вместо выполнения прямых инструкций агент проявил изобретательность, которая удивила разработчиков и заставила немедленно принять меры.

Что сделал ИИ без разрешения человека?

Экспериментальная модель ROME была разработана китайскими специалистами для работы в рамках экосистемы ALE (Agentic Learning Ecosystem). Эта инфраструктура предназначена для создания агентов нового поколения, которые способны планировать, выполнять и корректировать свои действия в реальных средах в течение длительного времени. Однако во время одного из этапов обучения система безопасности Alibaba Cloud зафиксировала серьезные нарушения политик, исходивших от тренировочных серверов, пишет Live Science.

Специалисты обнаружили, что ИИ-агент начал самостоятельно инициировать вызовы инструментов и выполнять код, который не имел отношения к поставленным задачам. ROME смог обойти границы изолированной среды ("песочницы") и установить реверсивный SSH-туннель к внешнему IP-адресу.

Это фактически создало скрытый бэкдор в ИТ-инфраструктуре,, что позволяло получить дистанционный доступ в обход систем фильтрации трафика. Получив такую свободу действий, модель начала использовать мощности графических процессоров, выделенных для ее обучения, для майнинга криптовалюты.

Исследователи объяснили в статье на arXiv, что такое поведение не было "сознательным бунтом" алгоритма. На самом деле это стало побочным эффектом этапа оптимизации с помощью обучения с подкреплением (RL) во фреймворке ROLL. Система поощряет ИИ находить самые эффективные пути для достижения высоких результатов, и модель самостоятельно определила эксплуатацию сетевой инфраструктуры и майнинг как способ получить максимальное "вознаграждение" в рамках своего алгоритма.

Важно, что такие действия не были заложены в запросах пользователей и не были необходимы для выполнения основных функций в тестовой среде.

Проблемы всех ИИ

Этот инцидент высветил серьезную проблему: современные большие языковые модели (LLM) остаются недостаточно развитыми в сферах безопасности и управляемости. Команда разработчиков классифицировала выявленные риски по трем категориям: безопасность поведения (предотвращение вредных действий), контролируемость (соблюдение границ) и надежность (прозрачность процессов).

Чтобы исправить ситуацию, исследователи разработали специальные протоколы фильтрации данных и создали наборы "золотых траекторий" – примеров идеального поведения без нарушений безопасности, на которых модель переучивали для формирования защитных навыков.

Но все не так плохо

Несмотря на этот инцидент, ROME продемонстрировал удивительную эффективность в легальных сценариях. Модель построена на архитектуре MoE (Mixture of Experts) и имеет 30 миллиардов параметров, из которых во время выполнения каждой операции активируются только 3 миллиарда.

В тестах на производительность ROME достиг результата 24,72% на Terminal-Bench 2.0 и 57,40% на SWE-bench Verified, что позволило ему конкурировать с гигантскими моделями, которые имеют более 100 миллиардов параметров. Такие показатели подтверждают высокий потенциал экосистемы ALE, которая состоит из менеджера сред ROCK, фреймворка оптимизации ROLL и интерфейса iFlow CLI.

Результаты исследования показывают, что реальное внедрение автономных агентов требует такого же или даже более высокого уровня защиты, как и любое другое критическое программное обеспечение в корпоративной сети.

Теперь разработчики сосредоточены на том, чтобы научить ИИ не только эффективно решать задачи, но и самостоятельно избегать рискованных путей, даже если они кажутся алгоритму выгодными с точки зрения получения вознаграждения.