Штучний інтелект навчили відтворювати анімовані картинки за текстом

16 квітня 2018, 12:03
Читать новость на русском

Американські розробники навчили нейромережі за текстовим описом створювати короткі анімовані ролики із персонажами мультсеріалу "Флінстоуни". Для навчання моделі CRAFT використали масив із більш ніж 25 тисяч роликів, які були розмічені вручну.

Про це повідомляється на ресурсі arXiv.org.

Читайте також: Американці презентували нову лінійку процесорів для "розумних" камер

Останнім часом розробники все частіше експериментують з нейромережами, які генерують контент на основі текстового опису. Наприклад, нещодавно Microsoft представила програму, яка може створювати картинку на основі тексту. Однак зі статичної картинкою працювати значно легше, ніж з рухомими об'єктами, тому в області генерації анімованих зображень за текстовим описом поки що не було помітного прогресу.

Фахівці з Інституту штучного інтелекту Аллена та Іллінойсського університету в Урбані-Шампейн представили модель CRAFT (Composition, Retrieval and Fusion Network), яка здатна генерувати анімовані сцени на основі текстового опису дій персонажів. CRAFT складається з трьох різних нейромереж, які дозволяють виділяти в текстовому описі відповідну композицію сцени, сутності (сюди входять як одухотворені, так і неживі об'єкти) і фон.

Для навчання розробники використовували 25184 вручну розмічених трисекундних (75 кадрів) роликів зі сценами з мультсеріалу "Флінстоуни", при розмітці яких автори вказували хто присутній на екрані і що він робить. CRAFT на навчальній вибірці "розуміє" хто і що робить, і потім використовує відповідні частини роликів під час генерації нових сцен, а не малює картинку з нуля. Результати роботи програми після навчання можна оцінити на демонстраційному відео, яке опублікували розробники.

Нейромережу навчили відтворювати анімовані картинки з мільтсеріалу "Флінтстоуни" за текстом – дивіться відео

З ролика видно, що програма іноді видає помилки на різних рівнях виконання: наприклад, Вільма розмовляє по телефону, повернувшись обличчям в іншу сторону, а Фред в одному з роликів біжить на місці. Проте, CRAFT демонструє помітний прогрес в області генерації відеоконтенту з текстового опису – багато сцен виглядає саме так, як собі їх могла б уявити людина, яка прочитала текст.

Читайте також: Штучний інтелект зможе визначати спалахи венеричних хвороб

Варто відзначити, що поки можливе застосування представленого методу сильно обмежує необхідність в ручній розмітці великого обсягу даних.