OpenAI показала голосовой ИИ нового поколения – он переводит разговоры в реальном времени

Артур Зайонц

Основные тезисы

OpenAI представила три новые аудиомодели: GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper, которые улучшают естественное голосовое общение и перевод в реальном времени.
Модели используются в различных сервисах как недвижимости, туристических услуг и платформе Vimeo для транскрипции речи, с различными тарифами для каждой модели.

ИИ научился слушать, думать и говорить одновременно – OpenAI представила новые аудиомодели / Unsplash / Digital Trends

OpenAI представила новое поколение голосовых моделей искусственного интеллекта, способных вести живые диалоги, переводить речь в реальном времени и выполнять сложные действия без пауз и задержек.

OpenAI анонсировала сразу три новые аудиомодели для своей Realtime API – GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Компания позиционирует их как важный шаг к более естественному голосовому общению между людьми и искусственным интеллектом. Об этом пишет Digital Trends.

Как новые голосовые модели OpenAI меняют общение с ИИ?

Главной новинкой стала модель GPT-Realtime-2. Она получила логику и возможности мышления уровня GPT-5, но адаптированные для живых голосовых разговоров. На практике это означает, что ИИ теперь способен не только отвечать на реплики пользователя, но и удерживать контекст длительного диалога, выполнять сложные многошаговые задачи и параллельно работать с несколькими инструментами.

Во время демонстрации модель могла озвучивать свои действия в реальном времени фразами вроде "проверяю ваш календарь" или "сейчас найду информацию". Такой подход создает эффект общения не с ботом, а с полноценным цифровым ассистентом.

Одной из ключевых особенностей GPT-Realtime-2 стало увеличенное контекстное окно до 128 тысяч токенов. Благодаря этому система может поддерживать значительно более длинные и логичные разговоры без потери предыдущего контекста. Разработчики также получили возможность регулировать "интенсивность мышления" модели в зависимости от сложности запроса – это позволяет балансировать между скоростью ответа и глубиной анализа.

Не менее заметной новинкой стала GPT-Realtime-Translate. Именно ее автор материала назвал ближайшим аналогом "универсального переводчика" из "Star Trek". Модель поддерживает перевод речи в реальном времени для более 70 языков на входе и 13 языков на выходе.

Особенно впечатляющим моментом во время демонстрации стала ситуация, когда к разговору присоединился еще один человек с другим языком. Система смогла без задержек переводить обоих собеседников на английский в режиме реального времени. Фактически это позволяет людям общаться между собой без знания общего языка.

Третья модель – GPT-Realtime-Whisper – ориентирована на мгновенную транскрипцию речи. В отличие от многих современных систем распознавания голоса, которые ждут завершения фразы или предложения, эта модель работает потоково. Текст появляется одновременно с тем, как человек говорит.

Такой подход может быть особенно полезным для автоматических субтитров, создания заметок во время встреч, онлайн-конференций и других сервисов, где скорость обработки речи критически важна.

Как пишет Techcrunch, пока OpenAI открыла доступ к новым моделям преимущественно для разработчиков. Однако компания уже показала примеры того, как бизнес начинает интегрировать эти технологии в свои сервисы.

В частности, сервис недвижимости Zillow тестирует голосового помощника, который может искать дома и сразу бронировать просмотры на основе голосового запроса пользователя. Туристический сервис Priceline использует модель для проверки рейсов и отелей, отмены бронирований и оформления новых заказов. Платформа Vimeo интегрирует систему для транскрипции речи в реальном времени.

OpenAI также раскрыла стартовые тарифы на новые модели. GPT-Realtime-Whisper стоит от 0,017 доллара за минуту работы, GPT-Realtime-Translate – от 0,034 доллара за минуту. Для GPT-Realtime-2 используется другая схема оплаты – 32 доллара за 1 миллион входящих аудиотокенов.

Появление таких моделей может существенно изменить рынок голосовых ассистентов, переводчиков и систем автоматизации. Если раньше голосовой ИИ преимущественно работал по схеме "запрос – ответ", то теперь компании постепенно переходят к созданию систем, которые способны вести непрерывный диалог, выполнять задачи и адаптироваться к живому общению.