Революционная разработка позволит ИИ-агентам учиться непрерывно и без вмешательства людей

Мир искусственного интеллекта стоит на пороге новой эры, где ИИ не только выполняет задачи по четким инструкциям, но и самостоятельно разрабатывает инструменты для их решения. Это становится возможным благодаря появлению автономных агентов, способных к длительной самостоятельной эволюции и накоплению опыта в сложных инженерных процессах.

Что предлагает новое открытие?

Современное проектирование высокопроизводительных систем искусственного интеллекта до сих пор в значительной степени зависит от экспертных знаний и изнурительных ручных вмешательств. Хотя технологии автоматизированного машинного обучения сделали шаг вперед, они обычно оптимизируют только отдельные этапы, такие как выбор модели или обработка данных. Однако разработчики из Шанхайской лаборатории искусственного интеллекта и Восточнокитайского педагогического университета представили систему MLEvolve, которая способна самостоятельно проходить весь путь от подготовки данных до обучения и развертывания моделей. Свое нерецензируемое исследование они обнародовали на сервере препринтов arXiv.

Эта способность к непрерывной самостоятельной эволюции становится центральной для автономных агентов, выполняющих долговременные задачи,
– прокомментировали авторы исследования в своем отчете.

Создание сложных алгоритмов требует от ИИ не просто генерации кода, а умение учиться на собственных ошибках, менять стратегию и использовать успешные решения из предыдущих попыток. Существующие агенты часто страдают от "информационной изоляции" между различными ветвями поиска и отсутствия иерархического контроля, что делает их работу нестабильной.

MLEvolve решает эти проблемы с помощью трех ключевых компонентов:

Во-первых, система использует прогрессивный графовый поиск MCGS. В отличие от традиционного линейного поиска, графовая структура позволяет обмениваться информацией между различными ветвями. Это означает, что успешная идея, найденная в одной траектории, может быть использована для улучшения другой модели. В течение процесса система постепенно переходит от широкого исследования к сосредоточенной оптимизации перспективных решений.
Во-вторых, разработчики внедрили механизм ретроспективной памяти. Она сочетает статическую базу знаний (для уверенного старта) и динамическую глобальную память, которая автоматически накапливает опыт во время поиска. Когда агент сталкивается с ошибкой в коде, он обращается к памяти,, чтобы найти похожие случаи и готовые стратегии исправления.
В-третьих, в MLEvolve реализовали иерархическое планирование. Система четко разделяет стратегические решения ("что изменить и почему") от написания кода ("как это реализовать"). В зависимости от состояния поиска, агент может либо переписать код полностью, либо внести точечные изменения, что значительно повышает стабильность разработки.

Мы представляем MLEvolve – мультиагентный фреймворк, самостоятельно развивающийся, для сквозных задач машинного обучения,
– говорят разработчики, описывая структуру своей системы.

Проверка эффективности

Эффективность фреймворка проверили на бенчмарке MLE-Bench, который содержит 75 реальных соревнований Kaggle разного уровня сложности – от низкого до высокого. Несмотря на то, что MLEvolve выделили только 12 часов времени (что вдвое меньше стандартного лимита в 24 часа), он продемонстрировал впечатляющие результаты.

Средний уровень получения медалей составил 65,3%, а золотых медалей – 34,7%.
Система достигла 100% показателя валидности поданных решений, а в 76,0% случаев ее результаты превзошли медианные показатели участников-людей.

Для работы системы использовали мощную инфраструктуру: 21 виртуальный центральный процессор, 234 гигабайта оперативной памяти и один графический ускоритель NVIDIA H200. В качестве основного мозга агентов выступила модель Gemini 3.1 Pro Preview.

Испытания показали, что MLEvolve также успешно справляется с математическими задачами, обходя специализированные методы оптимизации алгоритмов, такие как AlphaEvolve. В 11 из 15 сложных математических тестов фреймворк продемонстрировал лучшие показатели, что подтверждает его способность работать в различных научных доменах.

Связанные темы:

Техно Исследования и разработки

Искусственный интеллект Инновации