Microsoft представила ШІ-інструмент, який перетворює фото на реалістичні відео

Олександр Гайдамашко

Джерело:

Microsoft

Основні тези

Microsoft представила ШІ-інструмент, який перетворює фото на реалістичні відео.
Новий сервіс може створювати відео з обличчям, яке розмовляє чи співає.
VASA-1 генерує вирази та рухи для фото, але дослідники утримують його від публічного доступу через стурбованість щодо можливих зловживань.
Технологія може мати позитивний вплив на освіту та комунікацію, але дослідники відмовляються від публічної демонстрації до тих пір, поки не буде забезпечено відповідальне використання.

Новий ШІ-сервіс від Microsoft генерує реалістичні відео зі звуком на основі фото

Microsoft / Unsplash

Новий інструмент штучного інтелекту від Microsoft може перетворювати фотографії на реалістичні відео з людьми, які розмовляють і співають. Творці визнають, що він має потенціал для зловживань, тож планують вводити обмеження й запобіжники.

Деталі

Microsoft Research Asia представила новий експериментальний інструмент штучного інтелекту під назвою VASA-1. Він бере нерухоме зображення людини або навіть її малюнок, а також наявний аудіофайл, щоб створити з них реалістичне відео з обличчям, що розмовляє чи співає. ШІ має можливість генерувати вирази та рухи голови для існуючого нерухомого зображення, а також відповідні рухи губ, щоб відповідати вимовленим словам або пісні.

Дивіться також GPT-4 наблизився до лікарів за рівнем оцінки зору

Дослідники завантажили безліч прикладів на сторінку проєкту, і деякі результати – хоча й не всі – виглядають настільки добре, що можуть обдурити людей, змусивши їх думати, що перед ними справжня відеозйомка.

Хоча рухи губ і голови в прикладах все ще можуть виглядати дещо роботизованими і несинхронними при уважному перегляді, все ж очевидно, що технологія може бути використана для легкого й швидкого створення діпфейків реальних людей. Самі дослідники усвідомлюють цей потенціал і вирішили не випускати "онлайн-демонстрацію, API, продукт, додаткові деталі реалізації або будь-які пов'язані пропозиції", поки не будуть впевнені, що їхня технологія "буде використовуватися відповідально і відповідно до належних правил". Імовірно, ШІ також не буде спрацьовувати у випадку відомих особистостей, таких як президенти, бізнесмени, інфлюєнсери, блогери та інші.

Приклад роботи технології
Приклад роботи технології / Фото Microsoft

Дослідники вважають, що їхня технологія має безліч переваг, попри її потенціал для зловживань. За їхніми словами, вона може бути використана для підвищення освітньої справедливості, а також для покращення доступності для тих, хто має проблеми з комунікацією, можливо, шляхом надання їм доступу до аватара, який може спілкуватися за них. Він також може забезпечити спілкування і терапевтичну підтримку тим, хто її потребує, вважають вони, натякаючи на те, що VASA-1 може бути використаний у програмах, які пропонують доступ до персонажів зі штучним інтелектом, з якими люди зможуть розмовляти.