VALL-E може імітувати тембр та манеру мови, прослухавши голос реальної людини всього лише три секунди. І хоч звучання трохи видає електронний голос, результат все одно вражає – модель синтезу мовлення може зберегти емоційний тон мовця та навіть акустичне середовище.

Цікаво Microsoft додасть штучний інтелект GPT у програми Word, Outlook і PowerPoint

Що відомо

Microsoft назвала свою розробку "мовною моделлю нейронного кодека". VALL-E створювалась на основі EnCodec (звуковий кодек, що використовує методи машинного навчання), розробленому Meta у 2022 році.

На відміну від інших методів перетворення тексту в мову, які зазвичай синтезують мовлення шляхом маніпулювання формами хвиль, VALL-E генерує окремі коди аудіокодеків із текстових і акустичних підказок. Фактично, він аналізує, як звучить людина, розбиває цю інформацію на окремі компоненти (так звані "токени") завдяки EnCodec, і використовує навчальні дані, щоб відповідати тому, що він "знає" про те, як звучав би цей голос, якби він говорив інші фрази за межами трисекундного зразка.

У статті, яка описує технологію, присутні кілька порівняльних записів. Вони поділені на 4 колонки:

  • У пункті Speaker Prompt можна прослухати оригінальний запис голосу обмежений лише трьома секундами.
  • У колонці Ground Truth – фраза цілком.
  • Baseline наводить приклад звичайного синтезатора мови.
  • Четвертий стовпчик дозволяє прослухати фразу у виконанні нейромережі VALL-E.

VALL-E навчали на основі бібліотеки LibriLight, що містить 60 000 годин англомовного мовлення більш ніж від 7000 осіб. Розробники припускають, що технологію можна використовувати для високоякісних програм перетворення тексту в мовлення, редагування записів мови, де слова людини дозволяється змінювати, створення аудіоконтенту (наприклад, озвучування аудіокниг) тощо.