Что сделал ИИ без разрешения человека?
Экспериментальная модель ROME была разработана китайскими специалистами для работы в рамках экосистемы ALE (Agentic Learning Ecosystem). Эта инфраструктура предназначена для создания агентов нового поколения, которые способны планировать, выполнять и корректировать свои действия в реальных средах в течение длительного времени. Однако во время одного из этапов обучения система безопасности Alibaba Cloud зафиксировала серьезные нарушения политик, исходивших от тренировочных серверов, пишет Live Science.
Смотрите также Невинная женщина провела полгода за решеткой из-за ошибки искусственного интеллекта
Специалисты обнаружили, что ИИ-агент начал самостоятельно инициировать вызовы инструментов и выполнять код, который не имел отношения к поставленным задачам. ROME смог обойти границы изолированной среды ("песочницы") и установить реверсивный SSH-туннель к внешнему IP-адресу.
Это фактически создало скрытый бэкдор в ИТ-инфраструктуре,, что позволяло получить дистанционный доступ в обход систем фильтрации трафика. Получив такую свободу действий, модель начала использовать мощности графических процессоров, выделенных для ее обучения, для майнинга криптовалюты.
Исследователи объяснили в статье на arXiv, что такое поведение не было "сознательным бунтом" алгоритма. На самом деле это стало побочным эффектом этапа оптимизации с помощью обучения с подкреплением (RL) во фреймворке ROLL. Система поощряет ИИ находить самые эффективные пути для достижения высоких результатов, и модель самостоятельно определила эксплуатацию сетевой инфраструктуры и майнинг как способ получить максимальное "вознаграждение" в рамках своего алгоритма.
Важно, что такие действия не были заложены в запросах пользователей и не были необходимы для выполнения основных функций в тестовой среде.
Проблемы всех ИИ
Этот инцидент высветил серьезную проблему: современные большие языковые модели (LLM) остаются недостаточно развитыми в сферах безопасности и управляемости. Команда разработчиков классифицировала выявленные риски по трем категориям: безопасность поведения (предотвращение вредных действий), контролируемость (соблюдение границ) и надежность (прозрачность процессов).
Чтобы исправить ситуацию, исследователи разработали специальные протоколы фильтрации данных и создали наборы "золотых траекторий" – примеров идеального поведения без нарушений безопасности, на которых модель переучивали для формирования защитных навыков.
Но все не так плохо
Несмотря на этот инцидент, ROME продемонстрировал удивительную эффективность в легальных сценариях. Модель построена на архитектуре MoE (Mixture of Experts) и имеет 30 миллиардов параметров, из которых во время выполнения каждой операции активируются только 3 миллиарда.
В тестах на производительность ROME достиг результата 24,72% на Terminal-Bench 2.0 и 57,40% на SWE-bench Verified, что позволило ему конкурировать с гигантскими моделями, которые имеют более 100 миллиардов параметров. Такие показатели подтверждают высокий потенциал экосистемы ALE, которая состоит из менеджера сред ROCK, фреймворка оптимизации ROLL и интерфейса iFlow CLI.
Результаты исследования показывают, что реальное внедрение автономных агентов требует такого же или даже более высокого уровня защиты, как и любое другое критическое программное обеспечение в корпоративной сети.
Теперь разработчики сосредоточены на том, чтобы научить ИИ не только эффективно решать задачи, но и самостоятельно избегать рискованных путей, даже если они кажутся алгоритму выгодными с точки зрения получения вознаграждения.


