VALL-E може імітувати тембр та манеру мови, прослухавши голос реальної людини всього лише три секунди. І хоч звучання трохи видає електронний голос, результат все одно вражає – модель синтезу мовлення може зберегти емоційний тон мовця та навіть акустичне середовище.

Цікаво Microsoft додасть штучний інтелект GPT у програми Word, Outlook і PowerPoint

Що відомо

Microsoft назвала свою розробку "мовною моделлю нейронного кодека". VALL-E створювалась на основі EnCodec (звуковий кодек, що використовує методи машинного навчання), розробленому Meta у 2022 році.

На відміну від інших методів перетворення тексту в мову, які зазвичай синтезують мовлення шляхом маніпулювання формами хвиль, VALL-E генерує окремі коди аудіокодеків із текстових і акустичних підказок. Фактично, він аналізує, як звучить людина, розбиває цю інформацію на окремі компоненти (так звані "токени") завдяки EnCodec, і використовує навчальні дані, щоб відповідати тому, що він "знає" про те, як звучав би цей голос, якби він говорив інші фрази за межами трисекундного зразка.

Google Читайте більше перевірених новин Додайте 24 Канал у вибрані джерела в Google Додати

У статті, яка описує технологію, присутні кілька порівняльних записів. Вони поділені на 4 колонки:

  • У пункті Speaker Prompt можна прослухати оригінальний запис голосу обмежений лише трьома секундами.
  • У колонці Ground Truth – фраза цілком.
  • Baseline наводить приклад звичайного синтезатора мови.
  • Четвертий стовпчик дозволяє прослухати фразу у виконанні нейромережі VALL-E.

VALL-E навчали на основі бібліотеки LibriLight, що містить 60 000 годин англомовного мовлення більш ніж від 7000 осіб. Розробники припускають, що технологію можна використовувати для високоякісних програм перетворення тексту в мовлення, редагування записів мови, де слова людини дозволяється змінювати, створення аудіоконтенту (наприклад, озвучування аудіокниг) тощо.