Як працює ця технологія та які її обмеження?

Нова розробка, опублікована на GitHub, є частиною великої екосистеми штучного інтелекту Tencent під назвою "Hunyuan", до якої також входять моделі для перетворення тексту на 3D-об'єкти (Hunyuan3D2) та створення відео (HunyuanVideo). Voyager є вдосконаленою версією попередньої моделі HunyuanWorld 1.0, випущеної в липні, пише 24 Канал.

Дивіться також Учені склали довідник "психічних розладів" штучного інтелекту, порівнявши їх з людськими

Суть розробки полягає в тому, що ви спочатку показуєте штучному інтелекту якусь фотографію, а він потім перетворює її на віртуальний 3D-світ, у якому можна прогулятися, наче з будь-якій відеогрі від першої особи. Ви можете завантажити, наприклад, фото вулиці, де ви виросли, чи міста, в якому колись побували. Технологія перетворить знімок на сцену у вашому комп'ютері й дозволить пройтися знайомими локаціями. Результат може виводитися в різних стилях – від схожого на мультфільми до вельми реалістичного, який імітує реальну зйомку.

Демонстрація можливостей технології: відео

Для навчання Voyager дослідники створили програмне забезпечення, яке автоматично аналізує існуючі відео, щоб зрозуміти рухи камери та оцінити глибину кожного кадру. Це усунуло потребу в ручній роботі людей для маркування тисяч годин відеоматеріалу. Система проаналізувала понад 100 тисяч відеокліпів, що складалися як з реальних записів, так і з графіки, створеної на рушії Unreal Engine.

Це далеко не для всіх

Одним із головних недоліків моделі є її значні вимоги до обчислювальних ресурсів. Для роботи з роздільною здатністю 540p потрібен графічний процесор зі щонайменше 60 гігабайтами відеопам'яті, хоча для кращої продуктивності Tencent рекомендує використовувати 80 гігабайтів.

Попри те, що файли моделі доступні для всіх на платформі Hugging Face, такі високі вимоги роблять її недоступною для більшості користувачів. Для прискорення обробки система підтримує паралельну роботу на кількох графічних процесорах: вісім таких пристроїв можуть прискорити процес у 6,69 раза порівняно з одним.

Продуктивність

Згідно з тестами, проведеними за допомогою бенчмарку WorldScore від Стенфордського університету, Voyager досяг найвищого загального балу (81,62), перевершивши конкурентів. Модель продемонструвала відмінні результати в контролі об'єктів, стилі та якості, хоча дещо поступилася в управлінні камерою.

Ліцензія