Революційна розробка дасть змогу ШІ-агентам учитися безперервно та без втручання людей

Олександр Гайдамашко

Еволюція без людини: як фреймворк MLEvolve б'є рекорди на змаганнях / Колаж 24 Каналу/Unsplash

Світ штучного інтелекту стоїть на порозі нової ери, де ШІ не лише виконує завдання за чіткими інструкціями, а й самостійно розробляє інструменти для їхнього вирішення. Це стає можливим завдяки появі автономних агентів, здатних до тривалої самостійної еволюції та накопичення досвіду в складних інженерних процесах.

Що пропонує нове відкриття?

Сучасне проєктування високопродуктивних систем штучного інтелекту досі значною мірою залежить від експертних знань і виснажливих ручних втручань. Хоча технології автоматизованого машинного навчання зробили крок уперед, вони зазвичай оптимізують лише окремі етапи, такі як вибір моделі або обробка даних. Проте розробники з Шанхайської лабораторії штучного інтелекту та Східнокитайського педагогічного університету представили систему MLEvolve, яка здатна самостійно проходити весь шлях від підготовки даних до навчання та розгортання моделей. Своє нерецензоване дослідження вони оприлюднили на сервері препринтів arXiv.

Дивіться також Битва за фізичний інтелект: Китай переміг NVIDIA та інших конкурентів у робототехніці

Ця здатність до безперервної самостійної еволюції стає центральною для автономних агентів, що виконують довготривалі завдання,
– прокоментували автори дослідження у своєму звіті.

Створення складних алгоритмів вимагає від ШІ не просто генерації коду, а вміння вчитися на власних помилках, змінювати стратегію та використовувати успішні рішення з попередніх спроб. Існуючі агенти часто страждають від "інформаційної ізоляції" між різними гілками пошуку та відсутності ієрархічного контролю, що робить їхню роботу нестабільною.

MLEvolve розв'язує ці проблеми за допомогою трьох ключових компонентів:

По-перше, система використовує прогресивний графовий пошук MCGS. На відміну від традиційного лінійного пошуку, графова структура дозволяє обмінюватися інформацією між різними гілками. Це означає, що успішна ідея, знайдена в одній траєкторії, може бути використана для покращення іншої моделі. Протягом процесу система поступово переходить від широкого дослідження до зосередженої оптимізації найперспективніших рішень.
По-друге, розробники впровадили механізм ретроспективної пам'яті. Вона поєднує статичну базу знань (для впевненого старту) та динамічну глобальну пам'ять, яка автоматично накопичує досвід під час пошуку. Коли агент стикається з помилкою в коді, він звертається до пам'яті, щоб знайти схожі випадки та готові стратегії виправлення.

По-третє, у MLEvolve реалізували ієрархічне планування. Система чітко розділяє стратегічні рішення ("що змінити і чому") від написання коду ("як це реалізувати"). Залежно від стану пошуку, агент може або переписати код повністю, або внести точкові зміни, що значно підвищує стабільність розробки.

Ми представляємо MLEvolve – мультиагентний фреймворк, що самостійно розвивається, для наскрізних завдань машинного навчання,
– кажуть розробники, описуючи структуру своєї системи.

Дивіться також Раніше це було неможливо: фізики вперше досягли ідеальної випадковості

Перевірка ефективності

Ефективність фреймворку перевірили на бенчмарку MLE-Bench, який містить 75 реальних змагань Kaggle різного рівня складності – від низького до високого. Попри те, що MLEvolve виділили лише 12 годин часу (що вдвічі менше за стандартний ліміт у 24 години), він продемонстрував вражаючі результати.

Середній рівень отримання медалей склав 65,3%, а золотих медалей – 34,7%.
Система досягла 100% показника валідності поданих рішень, а у 76,0% випадків її результати перевершили медіанні показники учасників-людей.

Для роботи системи використовували потужну інфраструктуру: 21 віртуальний центральний процесор, 234 гігабайти оперативної пам'яті та один графічний прискорювач NVIDIA H200. Як основний мозок агентів виступила модель Gemini 3.1 Pro Preview.

Випробування показали, що MLEvolve також успішно справляється з математичними задачами, обходячи спеціалізовані методи оптимізації алгоритмів, такі як AlphaEvolve. У 11 з 15 складних математичних тестів фреймворк продемонстрував найкращі показники, що підтверджує його здатність працювати у різних наукових доменах.