Поумнел: ChatGPT теперь поймет, что вы ему говорите и показываете

Александр Гайдамашко

Источник:

OpenAI

ChatGPT добавляет новые голосовые функции и работу с изображениями

ChatGPT / Freepik

OpenAI продолжает развивать свой чат-бот, добавляя ему новые функции. В этот раз компания, по ее собственному заявлению, позволила искусственному интеллекту "видеть, слышать и говорить", взаимодействуя с пользователем.

Как сообщили в официальном блоге сервиса, разработчики уже начали внедрять новые голосовые и графические возможности. Они позволят "говорить голосом или показывать ChatGPT, о чем вы говорите".

Как это работает

Разработчики привели несколько примеров работы новых функций:

Пользователь сможет сфотографировать какую-нибудь вещь или памятку архитектуры и расспросить бота о них или обсудить интересные детали.
Можно сфотографировать содержимое холодильника и вместе с ChatGPT придумать, что приготовить.
Чтобы сосредоточиться на определенной части изображения, вы можете использовать инструмент рисования и обвести конкретный участок, который нужно анализировать.
Решить математическую задачу из учебника, сфотографировав ее и попросив у ChatGPT подсказку.
Вы можете использовать голос, чтобы вести диалог со своим ассистентом, как с Siri, Alexa или Google Ассистентом. К примеру, попросить рассказать сказку для ребенка на ночь или попросить озвучить ту или иную информацию.

Голосовая функция основана на новой модели преобразования текста в речь, которая способна генерировать звучание, похожее на человеческое, из текста и нескольких секунд образца речи.

Мы сотрудничали с профессиональными актерами для создания каждого голоса. Мы также используем Whisper, нашу систему распознавания языка с открытым исходным кодом, чтобы превратить ваши произнесенные слова в текст,
– пишут разработчики.

В течение следующих двух недель новые возможности будут запущены для пользователей тарифных планов Plus и Enterprise. Голосовой режим появится на iOS и Android, а изображения будут доступны на всех платформах.