OpenAI клонирует голос любого человека всего за 15 секунд его записи

Александр Гайдамашко

Источник:

OpenAI

Иллюстративное фото / Freepik

OpenAI представила новую технологию искусственного интеллекта, которая может клонировать голос на основе всего 15 секунд аудио. Она является расширением уже существующего API преобразования текста в речь компании.

Детали

OpenAI только что объявила, что недавно провела небольшую предварительную демонстрацию нового инструмента под названием Voice Engine. Это технология клонирования голоса, которая может имитировать любого говорящего, анализируя 15-секундный аудиоролик. Компания заявляет, что она генерирует "естественное звучание речи" с "эмоциональными и реалистичными голосами".

Смотрите также OpenAI может позволить создание контента для взрослых с помощью генератора видео Sora

Технология базируется на уже существующем API компании для преобразования текста в речь и находится в разработке с 2022 года. OpenAI уже использует версию инструментария для работы с предустановленными голосами, доступными в текущем API преобразования текста в речь и функции "Чтение вслух". В официальном блоге компании есть несколько образцов, и они звучат очень похоже на настоящий голос.

В OpenAI говорят, что видят эту технологию полезной для помощи в чтении, переводе и помощи тем, кто страдает от расстройств речи. Компания напомнила о пилотной программе Университета Брауна, которая помогла пациенту с проблемами речи, создав клон голоса, извлеченный из аудио, записанного когда-то для школьного проекта.

Проблемы

Несмотря на потенциальные преимущества, мошенники непременно злоупотребляли бы этой технологией для создания фальшивых голосов. Учитывая это, Voice Engine еще не совсем готов к полноценному выпуску, поскольку существуют серьезные проблемы с конфиденциальностью, которые должны быть решены до полного развертывания.

OpenAI признает, что эта технология имеет "серьезные риски, которые особенно актуальны в год выборов". Компания заявляет, что учитывает отзывы "американских и международных партнеров из правительства, СМИ, индустрии развлечений, образования, гражданского общества и других сфер", чтобы обеспечить запуск продукта с минимальным уровнем риска. Все участники предварительного тестирования согласились с политикой использования OpenAI, которая запрещает выдавать себя за другое лицо без согласия или законного права.

Кроме того, любой, кто использует технологию, должен будет сообщить своей аудитории, что голоса генерируются искусственным интеллектом. OpenAI внедрила меры безопасности, такие как водяные знаки для отслеживания происхождения любого аудио и "проактивный мониторинг" того, как используется система. Когда продукт будет официально запущен, появится "список запрещенных голосов", который будет выявлять и предотвращать использование сгенерированных искусственным интеллектом спикеров, которые слишком похожи на известных людей.

Когда ждать

Относительно того, когда можно ждать выпуск, OpenAI пока ничего не говорит. По слухам известно, что Voice Engine может стоить 15 долларов за миллион символов, что составляет около 162 500 слов – примерно длина романа Стивена Кинга "Сияние". Это дешевле, чем аналогичные продукты конкурентов и может звучать как бюджетный способ создать аудиокнигу. В маркетинговых материалах также упоминается версия "HD", которая стоит вдвое дороже, но компания не объясняет, как именно она будет работать.