Генератор речи на основе ИИ достиг "человеческого уровня", но его боятся выпускать в свет

Александр Гайдамашко

Источник:

arXiv

Основные тезисы

Разработчики генератора речи VALL-E 2 от Microsoft боятся выпускать его в свет из-за слишком высокого "человеческого уровня" и потенциальных рисков злоупотреблений.
VALL-E 2 может воспроизводить голоса людей с высокой точностью, имея лишь несколько секунд аудиозаписи.
Microsoft не планирует выпускать VALL-E 2 для общественности из-за потенциальных рисков, но видит возможное применение в будущем с правильным защитным протоколом.

Генератор речи VALL-E 2 от Microsoft показал рекордную эффективность

Иллюстративное фото / Freepik

Разработчики генератора человеческой речи опасаются собственного творения, поскольку оно, по их же словам, достигло слишком высокого уровня развития. VALL-E 2 от Microsoft может убедительно воспроизводить голоса, используя лишь несколько секунд звука.

Что мы знаем о VALL-E 2

Судя по этим заявлениям, Microsoft разработала новый генератор речи с искусственным интеллектом, который оказался настолько искусным, что может принести больше вреда, чем пользы. VALL-E 2 озвучивает текст голосом конкретного человека, для чего ему нужно лишь несколько секунд аудиозаписи речи этого лица.

Исследователи Microsoft заявили, что VALL-E 2 "достиг человеческого паритета". Он способен генерировать "точную, естественную речь голосом оригинального диктора, которую можно сравнить с человеческим голосом". Другими словами, новый ИИ-генератор голоса достаточно убедителен, чтобы его можно было принять за живого человека. Это открывает потенциально опасные возможности для недобросовестных людей.

VALL-E 2 – это последнее достижение в речевых моделях нейронных кодеков, которое знаменует собой важную веху в синтезе текста в речь (TTS). [...] VALL-E 2 последовательно синтезирует высококачественную речь, даже для предложений, которые традиционно вызывают трудности из-за своей сложности или повторяющиеся фразы,
– пишут разработчики.

Мы уже видели примеры нейросетей, которые умеют клонировать голоса на основе несколькосекундной записи, но Microsoft говорит, что ее технология превосходит все, что до сих пор выходило на рынок.

"Наши эксперименты, проведенные на наборах данных LibriSpeech и VCTK, показали, что VALL-E 2 превосходит предыдущие TTS-системы [...] по надежности, естественности и схожести с дикторами. Это первая в своем роде система, которая достигла паритета с человеком по этим показателям", – говорится в статье.

Качество результатов VALL-E 2 зависит от длины и качества речевых подсказок, а также от факторов окружающей среды, таких как фоновый шум.

Что будет дальше с технологией

Несмотря на свои возможности, Microsoft не выпустит VALL-E 2 для общественности из-за потенциальных рисков злоупотреблений. В последнее время мы увидели волну мошенничеств – как на уровне обычных пользователей, которых мошенники обманывают, подделывая голос их родственников или друзей, так и на уровне руководителей государств, которые "звонят" своим избирателям, и знаменитостей, которые якобы рекламируют криптовалюты и различные мошеннические схемы в рекламе.

VALL-E 2 – это чисто исследовательский проект. Сейчас мы не планируем включать VALL-E 2 в продукт или расширять доступ к нему для общественности. Это может нести в себе потенциальные риски злоупотребления моделью, например, подделка голосовой идентификации или выдача себя за конкретного говорящего,
– пишут создатели технологии.

Но они предполагают, что технология искусственного интеллекта может найти практическое применение в будущем. VALL-E 2 может синтезировать язык, который сохраняет идентичность говорящего, и может использоваться для образовательного обучения, развлечений, журналистики, авторского контента, функций доступности, интерактивных систем голосового ответа, перевода, чат-ботов и прочего. Но для этого нужно добавить специальный защитный протокол, который будет гарантировать, что спикер одобряет использование своего голоса.