Что такое GPT-4o
Сегодня ChatGPT имеет два способа доступа. Существует бесплатный уровень, основанный на GPT 3.5, который является мощным, но не имеет расширенных функций, таких как загрузка файлов, пользовательские GPT, доступ к интернету и многое другое. Существует также платный уровень, который использует самую новую модель, GPT-4. Теперь же OpenAI открывает доступ к GPT-4o, новой модели, которая еще быстрее GPT-4, и при этом позволяет запустить много премиум-функций для бесплатных пользователей.
Смотрите также ChatGPT может стать хорошей альтернативой Google с новой функцией поиска
Сэм Альтман говорит, что GPT-4o "по своей сути является мультимодельным" (собственно, буква "о" здесь означает "omni", то есть мультимодальные возможности модели), что отражает способность использовать текст, изображения, видео и голос как входные данные для взаимодействия. Все это, по словам компании, приближает нас к "гораздо более естественному взаимодействию человека с компьютером". Вы можете общаться с ИИ как с помощью только одного вида данных, так и с помощью комбинации текста, аудио и фото, а затем получите сгенерированные выходные данные также во всех трех форматах.
Кроме того, новая модель будет стоить вдвое дешевле для пользователей API (для тех, кто, например, хочет подключить его к своему сайту, для рабочих нужд или иного).
Функции, теперь доступны для пользователей бесплатного ChatGPT, будут включать следующее:
- Интеллектуальные возможности уровня GPT-4.
- Доступ к интернету.
- Расширенный анализ данных и создание диаграмм.
- Обсуждайте сделанные фотографии в чате, спрашивая о различных деталях на снимках.
- Загружайте файлы для помощи в их обобщении, написании или анализе.
- Открытие и использование файлов GPT и GPT Store.
- Создайте больше полезных возможностей с помощью функции "Память".
Все это звучит не очень убедительно и вроде не тянет на революционность, но подождите, дальше идут демонстрации. Нам, в частности, показали конкретные примеры применения. Модель способна распознавать эмоции, позволяет прерывать речь посреди разговора и реагирует почти так же быстро, как человек во время разговора, а также имеет приятный голос, который владеет интонациями и передает живость и настроение.
Смотрите также GPT-4 приблизился к врачам по уровню оценки зрения
Что умеет GPT-4o
Во время презентации OpenAI продемонстрировала, как GPT-4o переводит разговорную речь в реальном времени. Ведущие презентации попросили ChatGPT в режиме разговора слушать, что ему говорят на английском, а затем объяснить собеседнику, который владеет только итальянским, что было только что сказано. После того как второй человек отвечал на итальянском, ИИ объяснил, что было в его ответе. Все это произошло не в дословном переводе, а конечно естественным языком, который полностью передал суть.
Еще одно демонстрационное видео показывает другие применения этой функции. Например, попросить ИИ рассказать что-то о здании, которое видно в этот момент на видео, предоставить исторические данные о Букингемском дворце. ChatGPT также правильно определил, что смотрит на уток, и рассказал, что они делают, а затем помогает пользователю найти на улице такси и остановить конкретную машину.
Одной из впечатляющих новых демонстраций обновления ChatGPT стало использование живого видео для получения подсказок от ИИ в режиме реального времени и в обычной разговорной манере. В одном из видео мужчина здоровается с искусственным интеллектом, начинает с ним разговор, а затем просит оценить место, которое в этот момент видно через камеру смартфона. ИИ отвечает, описывая свои предположения относительно того, каким может быть назначение комнаты. Что интересно, машина угадала сначала, что там будет какая-то презентация с анонсом, а потом и то, что это анонс нового продукта OpenAI.
Разговор продолжается дальше, и искусственный интеллект генерирует удивленную реакцию и соответствующие интонации, слыша, что анонс касается его самого.
Также было продемонстрировано взаимодействие с линейными уравнениями (ИИ помог решить уравнения на бумаге в режиме реального времени), а также с тем, как ChatGPT смотрит на чье-то лицо (после того, как ему было сказано не принимать во внимание предыдущие изображения) и использует это изображение для определения настроения человека. Еще одна впечатляющая демонстрация – как ИИ предоставляет рекомендации по глубокому дыханию одному из руководителей OpenAI, просто прислушиваясь к его дыханию!
Следующей впечатляющей демонстрацией была прокачанная аудиовзаимодействие с ChatGPT. Теперь пользователь может не только перебивать фразы ИИ, но и значительно лучше управлять чат-ботом с помощью голоса, используя такие команды, как "быть более драматичным" или "звучать больше как робот", регулируя звучание голоса ChatGPT. Вот, как это работает на практике:
Еще одна полезная возможность – это ассистент в видеозвонках:
GPT-4o также может записывать ваши виртуальные встречи, выделяя голоса разных людей и транскрибируя в текст каждую отдельную фразу спикеров, разделяя их по лицам.
Также в наличии:
- Понимание/отладка программного кода с помощью голосовых команд.
- Размещение логотипа или иного изображения/знака на изображении.
- Преобразование фото в карикатуру, стилизованный рисунок и другая обработка снимков.
- Создание постеров из ваших фото, даже если это два отдельных изображения, которые надо совместить в одно.
- Синтез анимированных 3D-объектов.
- Добавление теста к изображениям, даже если это много строк.
Смотрите также ChatGPT теперь можно использовать без регистрации: как это работает
Больше о GPT-4o
В OpenAI заявили, что GPT-4o учился на тексте, зрительном восприятии и аудио, а это означает, что все входные и выходные данные обрабатываются одной нейронной сетью. Это отличается от предыдущих моделей компании, GPT-3.5 и GPT-4, которые позволяли пользователям задавать вопросы, просто разговаривая, но потом транскрибировали речь в текст. Это лишало интонации и эмоций и делало взаимодействие более медленным.
OpenAI делает новую модель доступной для всех, включая бесплатных пользователей ChatGPT, в течение следующих нескольких недель, а также выпускает десктопную версию ChatGPT, сначала для Mac, к которой платные пользователи получили доступ вчера. Это весьма странно, учитывая, что Microsoft, разработавшая ОС Windows, вложила в компанию и в этот ИИ более 10 миллиардов долларов.
Объявление OpenAI состоялось за день до Google I/O, ежегодной конференции для разработчиков. На ней мы также ожидаем чего-то интересного об искусственном интеллекте Gemini. Поэтому теперь особенно интересно, будет ли Google чем ответить.