Штучний інтелект від Microsoft імітує будь-який людський голос

15 січня 2023, 20:30
Читать новость на русском

Джерело:

VALL-E

Microsoft представила штучний інтелект, здатний точно імітувати будь-який людський голос. Розробка отримала назву VALL-E за аналогією з попереднім її алгоритмом DALL-E, який створює зображення за текстовим описом.

VALL-E може імітувати тембр та манеру мови, прослухавши голос реальної людини всього лише три секунди. І хоч звучання трохи видає електронний голос, результат все одно вражає – модель синтезу мовлення може зберегти емоційний тон мовця та навіть акустичне середовище.

Цікаво Microsoft додасть штучний інтелект GPT у програми Word, Outlook і PowerPoint

Що відомо

Microsoft назвала свою розробку "мовною моделлю нейронного кодека". VALL-E створювалась на основі EnCodec (звуковий кодек, що використовує методи машинного навчання), розробленому Meta у 2022 році. 

На відміну від інших методів перетворення тексту в мову, які зазвичай синтезують мовлення шляхом маніпулювання формами хвиль, VALL-E генерує окремі коди аудіокодеків із текстових і акустичних підказок. Фактично, він аналізує, як звучить людина, розбиває цю інформацію на окремі компоненти (так звані "токени") завдяки EnCodec, і використовує навчальні дані, щоб відповідати тому, що він "знає" про те, як звучав би цей голос, якби він говорив інші фрази за межами трисекундного зразка.

У статті, яка описує технологію, присутні кілька порівняльних записів. Вони поділені на 4 колонки:

  • У пункті Speaker Prompt можна прослухати оригінальний запис голосу обмежений лише трьома секундами.
  • У колонці Ground Truth – фраза цілком.
  • Baseline наводить приклад звичайного синтезатора мови.
  • Четвертий стовпчик дозволяє прослухати фразу у виконанні нейромережі VALL-E.

VALL-E навчали на основі бібліотеки LibriLight, що містить 60 000 годин англомовного мовлення більш ніж від 7000 осіб. Розробники припускають, що технологію можна використовувати для високоякісних програм перетворення тексту в мовлення, редагування записів мови, де слова людини дозволяється змінювати, створення аудіоконтенту (наприклад, озвучування аудіокниг) тощо.

Така технологія, звісно ж, може нести певну небезпеку, адже недобросовісні користувачі рано чи пізно спробують видати підроблений запис за справжній, змусивши якусь відому людину "сказати" щось їй непритаманне – наприклад, ті чи інші твердження, що засуджуються суспільством. Такі випадки вже були з дипфейками у форматі відео, де Ілон Маск рекламував криптовалюту, а Барак Обама вибивав двері ногою.