Об этом сообщается на ресурсе arXiv.org.
Читайте также: Американцы представили новую линейку процессоров для "умных" камер
В последнее время разработчики все чаще экспериментируют с нейросетями, которые генерируют контент на основе текстового описания. Например, недавно Microsoft представила программу, которая может создавать картинку на основе текста. Однако со статической картинкой работать значительно легче, чем с подвижными объектами, поэтому в области генерации анимированных изображений с текстовым описанием пока не было заметного прогресса.
Специалисты из Института искусственного интеллекта Аллена и Иллинойского университета в Урбане-Шампейне представили модель CRAFT (Composition, Retrieval and Fusion Network), которая способна генерировать анимированные сцены на основе текстового описания действий персонажей. CRAFT состоит из трех различных нейросетей, которые позволяют выделять в текстовом описании соответствующую композицию сцены, сущности (сюда входят как одушевленные, так и неодушевленные объекты) и фон.
Для обучения разработчики использовали 25 184 вручную размеченных трехсекундных (75 кадров) ролика со сценами из мультсериала "Флинстоуны", при разметке которых авторы указывали кто присутствует на экране и что он делает. CRAFT на учебной выборке "понимает" кто и что делает, и затем использует соответствующие части роликов во время генерации новых сцен, а не рисует картинку с нуля. Результаты работы программы после обучения можно оценить на демонстрационном видео, которое опубликовали разработчики.
Нейросеть научили воспроизводить анимированные картинки из мильтсериала "Флинтстоуны" по тексту – смотрите видео
Из ролика видно, что программа иногда выдает ошибки на разных уровнях выполнения: например, Вильма разговаривает по телефону, повернувшись лицом в другую сторону, а Фред в одном из роликов бежит на месте. Однако, CRAFT демонстрирует заметный прогресс в области генерации видеоконтента по текстовому описанию – много сцен выглядят именно так, как себе их мог бы представить человек, прочитавший текст.
Читайте также: Искусственный интеллект сможет определять вспышки венерической болезни
Стоит отметить, что пока возможное применение представленного метода сильно ограничивает необходимость в ручной разметке большого объема данных.