OpenAI анонсувала одразу три нові аудіомоделі для своєї Realtime API – GPT-Realtime-2, GPT-Realtime-Translate і GPT-Realtime-Whisper. Компанія позиціонує їх як важливий крок до більш природного голосового спілкування між людьми та штучним інтелектом. Про це пише Digital Trends.

Дивіться також ChatGPT нарешті може відповісти на питання, яке було йому не під силу всі 4 роки

Як нові голосові моделі OpenAI змінюють спілкування з ШІ?

Головною новинкою стала модель GPT-Realtime-2. Вона отримала логіку та можливості мислення рівня GPT-5, але адаптовані для живих голосових розмов. На практиці це означає, що ШІ тепер здатен не лише відповідати на репліки користувача, а й утримувати контекст тривалого діалогу, виконувати складні багатокрокові завдання та паралельно працювати з кількома інструментами.

Під час демонстрації модель могла озвучувати свої дії в реальному часі фразами на кшталт "перевіряю ваш календар" або "зараз знайду інформацію". Такий підхід створює ефект спілкування не з ботом, а з повноцінним цифровим асистентом.

Однією з ключових особливостей GPT-Realtime-2 стало збільшене контекстне вікно до 128 тисяч токенів. Завдяки цьому система може підтримувати значно довші та логічніші розмови без втрати попереднього контексту. Розробники також отримали можливість регулювати "інтенсивність мислення" моделі залежно від складності запиту – це дозволяє балансувати між швидкістю відповіді та глибиною аналізу.

Не менш помітною новинкою стала GPT-Realtime-Translate. Саме її автор матеріалу назвав найближчим аналогом "універсального перекладача" зі "Star Trek". Модель підтримує переклад мовлення в реальному часі для понад 70 мов на вході та 13 мов на виході.

Особливо вражаючим моментом під час демонстрації стала ситуація, коли до розмови долучилася ще одна людина з іншою мовою. Система змогла без затримок перекладати обох співрозмовників англійською в режимі реального часу. Фактично це дозволяє людям спілкуватися між собою без знання спільної мови.

Третя модель – GPT-Realtime-Whisper – орієнтована на миттєву транскрипцію мовлення. На відміну від багатьох сучасних систем розпізнавання голосу, які чекають завершення фрази або речення, ця модель працює потоково. Текст з'являється одночасно з тим, як людина говорить.

Такий підхід може бути особливо корисним для автоматичних субтитрів, створення нотаток під час зустрічей, онлайн-конференцій та інших сервісів, де швидкість обробки мовлення критично важлива.

Як пише Techcrunch, наразі OpenAI відкрила доступ до нових моделей переважно для розробників. Проте компанія вже показала приклади того, як бізнес починає інтегрувати ці технології у свої сервіси.

Зокрема, сервіс нерухомості Zillow тестує голосового помічника, який може шукати будинки та одразу бронювати перегляди на основі голосового запиту користувача. Туристичний сервіс Priceline використовує модель для перевірки рейсів і готелів, скасування бронювань та оформлення нових замовлень. Платформа Vimeo інтегрує систему для транскрипції мовлення в реальному часі.

OpenAI також розкрила стартові тарифи на нові моделі. GPT-Realtime-Whisper коштує від 0,017 долара за хвилину роботи, GPT-Realtime-Translate – від 0,034 долара за хвилину. Для GPT-Realtime-2 використовується інша схема оплати – 32 долари за 1 мільйон вхідних аудіотокенів.

Поява таких моделей може суттєво змінити ринок голосових асистентів, перекладачів і систем автоматизації. Якщо раніше голосовий ШІ переважно працював за схемою "запит – відповідь", то тепер компанії поступово переходять до створення систем, які здатні вести безперервний діалог, виконувати завдання та адаптуватися до живого спілкування.