Meta випустила голосовий перекладач на основі штучного інтелекту, який працює зі 100 мовами
Джерело:
The VergeУ вівторок компанія Meta зробила крок до створення універсального перекладача, випустивши нову модель Seamless M4T AI. Вона працює як з усним мовленням, так і з текстом.
За словами компанії, технологія вже здатна швидко та ефективно розпізнавати цілих 100 мов, виводячи результати на 35 мовах. При цьому ввід даних і вивід результату можливий не лише текстом, а й у вигляді живого мовлення. Якщо Seamless M4T AI видаватиме кращий результат, ніж нинішній перекладач Meta у Facebook і Threads, це буде великим досягненням.
Дивіться також Смартокуляри від Meta повністю провалились, але компанія все одно випустить друге покоління
Що відомо
У своєму блозі компанія Meta описує нову систему перекладу як першу мультимодальну та багатомовну модель перекладу зі штучним інтелектом "все в одному". Найцікавіше, що вона випускається за ліцензією Creative Commons CC BY-NC 4.0, що дозволяє дослідникам повторювати її, створювати на її основі свої продукти.
Seamless M4T, що розшифровується як Massively Multilingual and Multimodal Machine Translation, може розуміти, коли користувачі змінюють мову посеред речення, що може допомогти при використанні моделі для перекладу слів людей, які змішують різні мови під час розмови.
Сучасні перекладачі справляються лише з одним або кількома етапами розпізнавання, перекладу й синтезу мовлення. Тож часто нам доводиться поєднувати багато моделей в одну: спочатку система робить аудіозапис, потім передає його для транскрибації іншій системі, отриманий текст перекладається в третій, а далі четвертий модуль озвучує отримані слова знову в мовлення. Це обертається зниженням продуктивності. Але тут інший випадок.
SeamlessM4T – це уніфікована багатомовна модель, що означає, що вона не покладається на проміжні моделі для отримання результатів. Інші каскадні системи для усного перекладу часто роблять так: розпізнавання мовлення, переклад тексту, генерація тексту в мовлення. SeamlessM4T робить це за один прохід,
– каже науковий керівник Meta Research Пако Гусман.
Для SeamlessM4T доступні такі режими перекладу:
- Мовлення – текст.
- Мовлення – мовлення.
- Текст – текст.
- Текст – мовлення.
На відміну від інших моделей, ця використовує одну єдину систему, що, на думку Meta, в кінцевому підсумку призведе до зменшення кількості помилок і затримок, а також до підвищення якості.
Хоча більшість нових ШІ останніх місяців вказують на ненадійність використання великих мовних моделей для надання точної правдивої інформації, мовний переклад — це те, для чого ці моделі насправді добре підходять.