Деталі

Microsoft Research Asia представила новий експериментальний інструмент штучного інтелекту під назвою VASA-1. Він бере нерухоме зображення людини або навіть її малюнок, а також наявний аудіофайл, щоб створити з них реалістичне відео з обличчям, що розмовляє чи співає. ШІ має можливість генерувати вирази та рухи голови для існуючого нерухомого зображення, а також відповідні рухи губ, щоб відповідати вимовленим словам або пісні.

Дивіться також GPT-4 наблизився до лікарів за рівнем оцінки зору

Дослідники завантажили безліч прикладів на сторінку проєкту, і деякі результати – хоча й не всі – виглядають настільки добре, що можуть обдурити людей, змусивши їх думати, що перед ними справжня відеозйомка.

Хоча рухи губ і голови в прикладах все ще можуть виглядати дещо роботизованими і несинхронними при уважному перегляді, все ж очевидно, що технологія може бути використана для легкого й швидкого створення діпфейків реальних людей. Самі дослідники усвідомлюють цей потенціал і вирішили не випускати "онлайн-демонстрацію, API, продукт, додаткові деталі реалізації або будь-які пов'язані пропозиції", поки не будуть впевнені, що їхня технологія "буде використовуватися відповідально і відповідно до належних правил". Імовірно, ШІ також не буде спрацьовувати у випадку відомих особистостей, таких як президенти, бізнесмени, інфлюєнсери, блогери та інші.

Приклад роботи технології
Приклад роботи технології / Фото Microsoft

Дослідники вважають, що їхня технологія має безліч переваг, попри її потенціал для зловживань. За їхніми словами, вона може бути використана для підвищення освітньої справедливості, а також для покращення доступності для тих, хто має проблеми з комунікацією, можливо, шляхом надання їм доступу до аватара, який може спілкуватися за них. Він також може забезпечити спілкування і терапевтичну підтримку тим, хто її потребує, вважають вони, натякаючи на те, що VASA-1 може бути використаний у програмах, які пропонують доступ до персонажів зі штучним інтелектом, з якими люди зможуть розмовляти.