Как работает эта технология и каковы ее ограничения?

Новая разработка, опубликованная на GitHub, является частью большой экосистемы искусственного интеллекта Tencent под названием "Hunyuan", в которую также входят модели для преобразования текста в 3D-объекты (Hunyuan3D2) и создания видео (HunyuanVideo). Voyager является усовершенствованной версией предыдущей модели HunyuanWorld 1.0, выпущенной в июле, пишет 24 Канал.

Смотрите также Ученые составили справочник "психических расстройств" искусственного интеллекта, сравнив их с человеческими

Суть разработки заключается в том, что вы сначала показываете искусственному интеллекту какую-то фотографию, а он потом превращает ее в виртуальный 3D-мир, в котором можно прогуляться, как в любой видеоигре от первого лица. Вы можете загрузить, например, фото улицы, где вы выросли, или города, в котором когда-то побывали. Технология превратит снимок в сцену в вашем компьютере и позволит пройтись по знакомым локациям. Результат может выводиться в разных стилях – от похожего на мультфильмы до весьма реалистичного, имитирующего реальную съемку.

Демонстрация возможностей технологии: видео

Для обучения Voyager исследователи создали программное обеспечение, которое автоматически анализирует существующие видео, чтобы понять движения камеры и оценить глубину каждого кадра. Это устранило потребность в ручной работе людей для маркировки тысяч часов видеоматериала. Система проанализировала более 100 тысяч видеоклипов, состоящих как из реальных записей, так и из графики, созданной на движке Unreal Engine.

Это далеко не для всех

Одним из главных недостатков модели является ее значительные требования к вычислительным ресурсам. Для работы с разрешением 540p нужен графический процессор с минимум 60 гигабайтами видеопамяти, хотя для лучшей производительности Tencent рекомендует использовать 80 гигабайтов.

Несмотря на то, что файлы модели доступны для всех на платформе Hugging Face, такие высокие требования делают ее недоступной для большинства пользователей. Для ускорения обработки система поддерживает параллельную работу на нескольких графических процессорах: восемь таких устройств могут ускорить процесс в 6,69 раз по сравнению с одним.

Производительность

Согласно тестам, проведенными с помощью бенчмарка WorldScore от Стэнфордского университета, Voyager достиг самого высокого общего балла (81,62), превзойдя конкурентов. Модель продемонстрировала отличные результаты в контроле объектов, стиле и качестве, хотя несколько уступила в управлении камерой.

Лицензия

  • Помимо технических, существуют и значительные лицензионные ограничения. Как и другие продукты Hunyuan, лицензия запрещает использование модели на территории Европейского Союза, США и Кореи.
  • Кроме того, любое коммерческое применение с аудиторией более 100 миллионов активных пользователей в месяц требует получения отдельной лицензии от Tencent.