Искусственный интеллект научили воспроизводить анимированные картинки с текстом

Нейросеть научили воспроизводить анимированные картинки с текстом
Нейросеть научили воспроизводить анимированные картинки с текстом / Фото из открытых источников

Американские разработчики научили нейросети по текстовому описанию создавать короткие анимированные ролики с персонажами мультсериала "Флинстоуны". Для обучения модели CRAFT использовали массив из более чем 25 тысяч роликов, которые были размечены вручную.

Об этом сообщается на ресурсе arXiv.org.

Читайте также: Американцы представили новую линейку процессоров для "умных" камер

В последнее время разработчики все чаще экспериментируют с нейросетями, которые генерируют контент на основе текстового описания. Например, недавно Microsoft представила программу, которая может создавать картинку на основе текста. Однако со статической картинкой работать значительно легче, чем с подвижными объектами, поэтому в области генерации анимированных изображений с текстовым описанием пока не было заметного прогресса.

Специалисты из Института искусственного интеллекта Аллена и Иллинойского университета в Урбане-Шампейне представили модель CRAFT (Composition, Retrieval and Fusion Network), которая способна генерировать анимированные сцены на основе текстового описания действий персонажей. CRAFT состоит из трех различных нейросетей, которые позволяют выделять в текстовом описании соответствующую композицию сцены, сущности (сюда входят как одушевленные, так и неодушевленные объекты) и фон.

Для обучения разработчики использовали 25 184 вручную размеченных трехсекундных (75 кадров) ролика со сценами из мультсериала "Флинстоуны", при разметке которых авторы указывали кто присутствует на экране и что он делает. CRAFT на учебной выборке "понимает" кто и что делает, и затем использует соответствующие части роликов во время генерации новых сцен, а не рисует картинку с нуля. Результаты работы программы после обучения можно оценить на демонстрационном видео, которое опубликовали разработчики.

Нейросеть научили воспроизводить анимированные картинки из мильтсериала "Флинтстоуны" по тексту – смотрите видео

Из ролика видно, что программа иногда выдает ошибки на разных уровнях выполнения: например, Вильма разговаривает по телефону, повернувшись лицом в другую сторону, а Фред в одном из роликов бежит на месте. Однако, CRAFT демонстрирует заметный прогресс в области генерации видеоконтента по текстовому описанию – много сцен выглядят именно так, как себе их мог бы представить человек, прочитавший текст.

Читайте также: Искусственный интеллект сможет определять вспышки венерической болезни

Стоит отметить, что пока возможное применение представленного метода сильно ограничивает необходимость в ручной разметке большого объема данных.

Источник: Техно
powered by lun.ua
Если Вы обнаружили ошибку на этой странице, выделите ее и нажмите Ctrl+Enter
Комментарии
При цитировании и использовании любых материалов в Интернете открытые для поисковых систем гиперссылки
не ниже первого абзаца на Телеканал новостей «24» - обязательные.
Цитирование и использование материалов в оффлайн-медиа, мобильных приложениях , SmartTV возможно только с письменного согласия Телеканала новостей "24".
Материалы с маркировкой «Реклама» публикуются на правах рекламы.
Все права защищены. © 2005-2017, ЗАО «Телерадиокомпания" Люкс "», Телеканал новостей «24»
Залиште відгук