Как сообщили в официальном блоге сервиса, разработчики уже начали внедрять новые голосовые и графические возможности. Они позволят "говорить голосом или показывать ChatGPT, о чем вы говорите".

Смотрите также Автор "Игры престолов" вместе с другими писателями подает в суд на разработчиков ChatGPT

Как это работает

Разработчики привели несколько примеров работы новых функций:

  • Пользователь сможет сфотографировать какую-нибудь вещь или памятку архитектуры и расспросить бота о них или обсудить интересные детали.
  • Можно сфотографировать содержимое холодильника и вместе с ChatGPT придумать, что приготовить.
  • Чтобы сосредоточиться на определенной части изображения, вы можете использовать инструмент рисования и обвести конкретный участок, который нужно анализировать.
  • Решить математическую задачу из учебника, сфотографировав ее и попросив у ChatGPT подсказку.
  • Вы можете использовать голос, чтобы вести диалог со своим ассистентом, как с Siri, Alexa или Google Ассистентом. К примеру, попросить рассказать сказку для ребенка на ночь или попросить озвучить ту или иную информацию.

Голосовая функция основана на новой модели преобразования текста в речь, которая способна генерировать звучание, похожее на человеческое, из текста и нескольких секунд образца речи.

Мы сотрудничали с профессиональными актерами для создания каждого голоса. Мы также используем Whisper, нашу систему распознавания языка с открытым исходным кодом, чтобы превратить ваши произнесенные слова в текст,
– пишут разработчики.

В течение следующих двух недель новые возможности будут запущены для пользователей тарифных планов Plus и Enterprise. Голосовой режим появится на iOS и Android, а изображения будут доступны на всех платформах.