Голосовой переводчик на основе искусственного интеллекта от Meta работает со 100 языками

23 августа 2023, 14:31
Читати новину українською

Источник:

The Verge

Во вторник компания Meta шагнула к созданию универсального переводчика, выпустив новую модель Seamless M4T AI. Она работает как с устной речью, так и с текстом.

По словам компании, технология способна быстро и эффективно распознавать целых 100 языков, выводя результаты на 35 языках. При этом ввод данных и вывод результата возможен не только текстом, но и в виде живой речи. Если Seamless M4T AI будет выдавать результат лучше, чем нынешний переводчик Meta в Facebook и Threads, это будет большим достижением.

Смотрите также Смарт-очки от Meta полностью провалились, но компания все равно выпустит второе поколение

Что известно

В своем блоге компания Meta описывает новую систему перевода как первую мультимодальную и многоязычную модель перевода с искусственным интеллектом "все в одном". Самое интересное, что она выпускается по лицензии Creative Commons CC BY-NC 4.0, что позволяет исследователям повторять ее, создавать на ее основе свои продукты.

Seamless M4T, что расшифровывается как Massively Multilingual and Multimodal Machine Translation, может понимать, когда пользователи меняют язык посреди предложения, что может помочь при использовании модели для перевода слов людей, которые смешивают разные языки во время разговора.

Современные переводчики справляются только с одним или несколькими этапами распознавания, перевода и синтеза речи. Поэтому часто нам приходится объединять много моделей в одну: сначала система делает аудиозапись, затем передает ее для транскрибации другой системе, полученный текст переводится в третьей, а далее четвертый модуль озвучивает полученные слова снова в речь. Это оборачивается снижением производительности. Но здесь другой случай.

SeamlessM4T – это унифицированная многоязычная модель, означающая, что она не полагается на промежуточные модели для получения результатов. Другие каскадные системы для устного перевода часто делают так: распознавание речи, перевод текста, генерация текста в речи. SeamlessM4T делает это за один проход,
– говорит научный руководитель Meta Research Пако Гусман.

Для SeamlessM4T доступны следующие режимы перевода:

  • Речь – текст.
  • Речь – речь.
  • Текст – текст.
  • Текст – речь.

В отличие от других моделей, эта использует одну единую систему, что, по мнению Meta, в конечном счете приведет к уменьшению количества ошибок и задержек, а также к повышению качества.

Хотя большинство новых ИИ последних месяцев указывают на ненадежность использования больших языковых моделей для предоставления точной правдивой информации, языковой перевод — это то, для чего эти модели действительно хорошо подходят.