Укр Рус
20 ноября, 18:30
3

Украинский ИИ-стартап научит чат-боты говорить на "соловьином" и суржике

Основні тези
  • Украинский стартап Respeecher запустил украиноязычный сервис Text-to-speech, обеспечивающий естественное звучание без искусственного акцента, позволяя ИИ-ассистентам общаться на чистом украинском или суржике.
  • Сервис предлагает различные голоса и возможность интеграции с существующими системами через API, обеспечивая быструю генерацию аудио, с акцентом на безопасность и этику использования.

Украинский ИИ-стартап Respeecher, известный работой с клонированием голосов для Netflix, HBO и Paramount, представил украиноязычный сервис Text-to-speech. Его главное преимущество - естественное звучание, которое не имеет искусственного "пластмассового" акцента, характерного для иностранных платформ. Технология позволит ИИ-ассистентам и чат-ботам брендов общаться на чистом украинском или суржике.

Новый украиноязычный сервис Text-to-speech (преобразование текста в речь) от Respeecher предлагает аутентичное, живое звучание. СТО и соучредитель Respeecher Дмитрий Белевцов объяснил, что их цель – заставить заставить ИИ-ассистентов банков, телеком-компаний и других брендов в Украине "наконец-то заговорить на настоящем украинском: со всей его пластичностью, уникальностью, диалектами и даже суржиком, а главное без пластмассового акцента, как это делают сейчас иностранные ИИ сервисы". Он отметил, что именно украинский стартап, имея сотни часов записей на украинском языке, может лучше натренировать большую языковую модель (LLM) для передачи самобытности и пластичности языка об этом Respeecher рассказал 24 Каналу.

Смотрите также Новый проект "Прометей" во главе с Безосом собирается изменить мир

Чем новый Text-to-speech от Respeecher отличается от зарубежных аналогов?

Как работает платформа? Любой зарегистрированный пользователь получает возможность конвертировать свой текст в аудио. Доступна библиотека голосов с разным гендером, возрастом, тембром и тональностью. Из каталога можно выбрать тот голос, который лучше всего подходит для конкретной цели: озвучивание подкаста, аудиокниги, рекламы или анонса. Для компаний, которые уже имеют ИИ-ассистентов или чат-боты, предусмотрена возможность интеграции с новым украиноязычным сервисом с помощью API.

Создатели технологии уверяют, что аудио генерируется практически в режиме реального времени, а задержка передачи звука составляет лишь 100–200 миллисекунд, что "быстрее, чем щелкнуть мышкой". Также существует опция тренировки речевой модели на голосе работника компании или известной личности, чтобы именно ее голосом звучал ИИ-ассистент. Основатели убеждены, что хотя другие голосовые компании могут не отставать по скорости, качество их TTS-сервисов хуже из-за неестественного, роботизированного звучания.

Отдельное внимание Respeecher уделяет вопросам безопасности и этики. Это особенно актуально на фоне роста случаев голосовых мошенничеств в мире – например, инцидента в Гонконге, где у финансиста выманили 25 миллионов, создав дипфейк голоса финдиректора, или использование дипфейка голоса Джо Байдена в США для антиагитации. По этическим соображениям стартап не предоставляет возможности клонировать голос человека без его согласия. Голосовые актеры, которые позволяют добавить свой голос в каталог, получают 25% роялти. Кроме того, для предотвращения злоупотребления, команда Respeecher проводит модерацию всех созданных аудиозаписей.

Как работают детекторы ИИ-контента?

С распространением инструментов искусственного интеллекта растет потребность в методах, позволяющих отличить контент, созданный человеком, от сгенерированного машиной. На рынке появляются специальные "детекторы ИИ", которые обещают решить эту проблему. Но как они функционируют и насколько точны их результаты в реальных условиях?

Для детекции изображений иногда анализируют встроенные метаданные, которые некоторые ИИ-инструменты добавляют к файлу. Например, инструмент Content Credentials позволяет отследить историю редактирований файла, если он создавался в совместимом программном обеспечении. Как и в случае с текстом, изображения могут сравнивать с базами данных, содержащих образцы контента, сгенерированного ИИ. Некоторые разработчики также начали добавлять к результатам работы своих систем скрытые водяные знаки – паттерны, незаметные для человека, но распознаваемые специальными алгоритмами. Впрочем, ни одна из крупных компаний еще не предоставила публичного доступа к своим инструментам распознавания.