Генератор мови на основі ШІ досяг "людського рівня", але його бояться випускати в світ

Олександр Гайдамашко

Джерело:

arXiv

Основні тези

Розробники генератора мови VALL-E 2 від Microsoft бояться випускати його в світ через занадто високий "людський рівень" та потенційні ризики зловживань.
VALL-E 2 може відтворювати голоси людей з високою точністю, маючи лише декілька секунд аудіозапису.
Microsoft не планує випускати VALL-E 2 для громадськості через потенційні ризики, але вбачає можливе застосування у майбутньому з правильним захисним протоколом.

Генератор мовлення VALL-E 2 від Microsoft показав рекордну ефективність

Ілюстративне фото / Freepik

Розробники генератора людської мови побоюються власного творіння, оскільки воно, за їхніми ж словами, досягло занадто високого рівня розвитку. VALL-E 2 від Microsoft може переконливо відтворювати голоси, використовуючи лише кілька секунд звуку.

Що ми знаємо про VALL-E 2

Судячи з цих заяв, Microsoft розробила новий генератор мовлення зі штучним інтелектом, який виявився настільки вправним, що може принести більше шкоди, ніж користі. VALL-E 2 озвучує текст голосом конкретної людини, для чого йому потрібно лише кілька секунд аудіозапису мовлення цієї особи.

Дивіться також Штучний інтелект Midjourney має власну версію того, хто є президентом США, і це не Байден

Дослідники Microsoft заявили, що VALL-E 2 "досяг людського паритету". Він здатний генерувати "точну, природну мову голосом оригінального диктора, яку можна порівняти з людським голосом". Іншими словами, новий ШІ-генератор голосу досить переконливий, щоб його можна було прийняти за живу людину. Це відкриває потенційно небезпечні можливості для недобросовісних людей.

VALL-E 2 – це останнє досягнення в мовних моделях нейронних кодеків, яке знаменує собою важливу віху в синтезі тексту в мовлення (TTS). [...] VALL-E 2 послідовно синтезує високоякісне мовлення, навіть для речень, які традиційно викликають труднощі через свою складність або повторювані фрази,
– пишуть розробники.

Ми вже бачили приклади нейромереж, які вміють клонувати голоси на основі кількасекундного запису, але Microsoft каже, що її технологія перевершує все, що досі виходило на ринок.

"Наші експерименти, проведені на наборах даних LibriSpeech і VCTK, показали, що VALL-E 2 перевершує попередні TTS-системи [...] за надійністю, природністю і схожістю з дикторами. Це перша в своєму роді система, яка досягла паритету з людиною за цими показниками", – йдеться в статті.

Якість результатів VALL-E 2 залежить від довжини та якості мовних підказок, а також від факторів навколишнього середовища, таких як фоновий шум.

Дивіться також Google дозволяє зробити власну копію знаменитості, щоб спілкуватися з нею в чат-боті

Що буде далі з технологією

Попри свої можливості, Microsoft не випустить VALL-E 2 для громадськості через потенційні ризики зловживань. Останнім часом ми побачили хвилю шахрайств – як на рівні звичайних користувачів, яких шахраї обманюють, підробляючи голос їхніх родичів чи друзів, так і на рівні керівників держав, які "дзвонять" своїм виборцям, і знаменитостей, які нібито рекламують криптовалюти та різні шахрайські схеми в рекламі.

VALL-E 2 – це суто дослідницький проєкт. Наразі ми не плануємо включати VALL-E 2 в продукт або розширювати доступ до нього для громадськості. Це може нести в собі потенційні ризики зловживання моделлю, наприклад, підробка голосової ідентифікації або видавання себе за конкретного мовця,
– пишуть творці технології.

Але вони припускають, що технологія штучного інтелекту може знайти практичне застосування в майбутньому. VALL-E 2 може синтезувати мову, яка зберігає ідентичність мовця, і може використовуватися для освітнього навчання, розваг, журналістики, авторського контенту, функцій доступності, інтерактивних систем голосової відповіді, перекладу, чат-ботів та іншого. Але для цього потрібно додати спеціальний захисний протокол, який гарантуватиме, що спікер схвалює використання свого голосу.