Искусственный интеллект от Microsoft имитирует любой человеческий голос

15 января 2023, 20:30
Читати новину українською

Источник:

VALL-E

Microsoft представила искусственный интеллект, точно имитирующий любой человеческий голос. Разработка получила название VALL-E по аналогии с предыдущим ее алгоритмом DALL-E, создающим изображение по текстовому описанию.

VALL-E может имитировать тембр и манеру речи, прослушав голос реального человека всего три секунды. И хотя звучание немного выдает электронный голос, результат все равно поражает – модель синтеза речи может сохранить эмоциональный тон говорящего и даже акустическую среду.

Интересно Microsoft добавит искусственный интеллект GPT в программы Word, Outlook и PowerPoint

Что известно

Microsoft назвала свою разработку "языковой моделью нейронного кодека". VALL-E создавалась на основе EnCodec (звуковой кодек, использующий методы машинного обучения), разработанном Meta в 2022 году.

В отличие от других методов преобразования текста в язык, обычно синтезирующих речь путем манипулирования формами волн, VALL-E генерирует отдельные коды аудиокодеков из текстовых и акустических подсказок. Фактически, он анализирует, как звучит человек, разбивает эту информацию на отдельные компоненты (так называемые "токены") благодаря EnCodec, и использует обучающие данные, чтобы отвечать тому, что он "знает" о том, как звучал бы этот голос, если бы он говорил другие фразы вне трехсекундного образца.

В статье, описывающей технологию, присутствует несколько сравнительных записей. Они разделены на 4 колонки:

  • В пункте Speaker Prompt можно прослушать оригинальную запись голоса, ограниченную лишь тремя секундами.
  • В колонке Ground Truth – фраза целиком.
  • Baseline приводит пример обычного синтезатора языка.
  • Четвертая колонка позволяет прослушать фразу в исполнении нейросети VALL-E.

VALL-E учили на основе библиотеки LibriLight, содержащей 60 000 часов англоязычной речи более чем от 7000 человек. Разработчики предполагают, что технологию можно использовать для высококачественных программ преобразования текста в вещание, редактирования записей языка, где слова человека разрешается менять, создания аудиоконтента (например, озвучивания аудиокниг) и прочего.

Такая технология, конечно же, может нести определенную опасность, ведь недобросовестные пользователи рано или поздно попытаются выдать поддельную запись за настоящую, заставив какого-то известного человека "сказать" что-то ему несвойственное – например, те или иные утверждения, осуждаемые обществом. Такие случаи уже были с дипфейками в формате видео, где Илон Маск рекламировал криптовалюту, а Барак Обама выбивал дверь ногой.