OpenAI клонує голос будь-якої людини лише за 15 секунд його запису

Олександр Гайдамашко

Джерело:

OpenAI

Основні тези

OpenAI представила новий інструмент Voice Engine, який клонує голоси за 15-секундним аудіозразком.
Технологія може бути використана для допомоги в читанні та перекладі, але потребує усунення проблем з конфіденційністю.
OpenAI співпрацює з партнерами та впроваджує заходи безпеки, включаючи заборону використання згенерованих голосів без згоди.
Запуск Voice Engine ще не має точної дати.

OpenAI клонує будь-який голос за 15 доларів

Ілюстративне фото / Freepik

OpenAI представила нову технологію штучного інтелекту, яка може клонувати голос на основі лише 15 секунд аудіо. Вона є розширенням уже існуючого API перетворення тексту в мовлення компанії.

Деталі

OpenAI щойно оголосила про те, що нещодавно провела невелику попередню демонстрацію нового інструменту під назвою Voice Engine. Це технологія клонування голосу, яка може імітувати будь-якого мовця, аналізуючи 15-секундний аудіозразок. Компанія заявляє, що вона генерує "природне звучання мови" з "емоційними й реалістичними голосами".

Дивіться також OpenAI може дозволити створення контенту для дорослих за допомогою генератора відео Sora

Технологія базується на вже існуючому API компанії для перетворення тексту в мовлення і знаходиться в розробці з 2022 року. OpenAI вже використовує версію інструментарію для роботи з попередньо встановленими голосами, доступними в поточному API перетворення тексту в мовлення та функції "Читання вголос". В офіційному блозі компанії є кілька зразків, і вони звучать дуже схоже на справжній голос.

В OpenAI кажуть, що бачать цю технологію корисною для допомоги в читанні, перекладі та допомозі тим, хто страждає від розладів мовлення. Компанія нагадала про пілотну програму Університету Брауна, яка допомогла пацієнту з проблемами мовлення, створивши клон голосу, витягнутий з аудіо, записаного колись для шкільного проєкту.

Проблеми

Попри потенційні переваги, шахраї неодмінно зловживали б цією технологією для створення фальшивих голосів. З огляду на це, Voice Engine ще не зовсім готовий до повноцінного випуску, оскільки існують серйозні проблеми з конфіденційністю, які повинні бути вирішені до повного розгортання.

OpenAI визнає, що ця технологія має "серйозні ризики, які особливо актуальні у рік виборів". Компанія заявляє, що враховує відгуки "американських і міжнародних партнерів з уряду, ЗМІ, індустрії розваг, освіти, громадянського суспільства та інших сфер", щоб забезпечити запуск продукту з мінімальним рівнем ризику. Всі учасники попереднього тестування погодилися з політикою використання OpenAI, яка забороняє видавати себе за іншу особу без згоди або законного права.

Крім того, будь-хто, хто використовує технологію, повинен буде повідомити свою аудиторію, що голоси генеруються штучним інтелектом. OpenAI впровадила заходи безпеки, такі як водяні знаки для відстеження походження будь-якого аудіо та "проактивний моніторинг" того, як використовується система. Коли продукт буде офіційно запущено, з'явиться "список заборонених голосів", який виявлятиме та запобігатиме використанню згенерованих штучним інтелектом спікерів, які надто схожі на відомих людей.

Коли чекати

Щодо того, коли можна чекати на випуск, OpenAI поки що нічого не каже. З чуток відомо, що Voice Engine може коштувати 15 доларів за мільйон символів, що становить близько 162 500 слів – приблизно довжина роману Стівена Кінга "Сяйво". Це дешевше, ніж аналогічні продукти конкурентів і може звучати як бюджетний спосіб створити аудіокнигу. У маркетингових матеріалах також згадується версія "HD", яка коштує вдвічі дорожче, але компанія не пояснює, як саме вона буде працювати.