Про це повідомляється на ресурсі arXiv.org.
Читайте також: Американці презентували нову лінійку процесорів для "розумних" камер
Останнім часом розробники все частіше експериментують з нейромережами, які генерують контент на основі текстового опису. Наприклад, нещодавно Microsoft представила програму, яка може створювати картинку на основі тексту. Однак зі статичної картинкою працювати значно легше, ніж з рухомими об'єктами, тому в області генерації анімованих зображень за текстовим описом поки що не було помітного прогресу.
Фахівці з Інституту штучного інтелекту Аллена та Іллінойсського університету в Урбані-Шампейн представили модель CRAFT (Composition, Retrieval and Fusion Network), яка здатна генерувати анімовані сцени на основі текстового опису дій персонажів. CRAFT складається з трьох різних нейромереж, які дозволяють виділяти в текстовому описі відповідну композицію сцени, сутності (сюди входять як одухотворені, так і неживі об'єкти) і фон.
Для навчання розробники використовували 25184 вручну розмічених трисекундних (75 кадрів) роликів зі сценами з мультсеріалу "Флінстоуни", при розмітці яких автори вказували хто присутній на екрані і що він робить. CRAFT на навчальній вибірці "розуміє" хто і що робить, і потім використовує відповідні частини роликів під час генерації нових сцен, а не малює картинку з нуля. Результати роботи програми після навчання можна оцінити на демонстраційному відео, яке опублікували розробники.
Нейромережу навчили відтворювати анімовані картинки з мільтсеріалу "Флінтстоуни" за текстом – дивіться відео
З ролика видно, що програма іноді видає помилки на різних рівнях виконання: наприклад, Вільма розмовляє по телефону, повернувшись обличчям в іншу сторону, а Фред в одному з роликів біжить на місці. Проте, CRAFT демонструє помітний прогрес в області генерації відеоконтенту з текстового опису – багато сцен виглядає саме так, як собі їх могла б уявити людина, яка прочитала текст.
Читайте також: Штучний інтелект зможе визначати спалахи венеричних хвороб
Варто відзначити, що поки можливе застосування представленого методу сильно обмежує необхідність в ручній розмітці великого обсягу даних.