Невероятно: OpenAI представила бесплатную модель ИИ GPT-4o от которой отвисает челюсть

Александр Гайдамашко

Основные тезисы

OpenAI представила бесплатную модель ИИ GPT-4o, поражающую своими возможностями.
Новая модель GPT-4o позволяет пользователям бесплатно пользоваться премиум-функциями, которые ранее были доступны только за плату.
Модель GPT-4o является мультимодельной, способной взаимодействовать с текстом, изображениями, видео и голосом.

ChatGPT выходит на новый уровень после обновления до GPT-4o

ChatGPT / OpenAI

Ажиотаж вокруг новой итерации ChatGPT зашкаливает со вчерашнего вечера, ведь компания OpenAI представила технологию, которая оставляет далеко позади всех конкурентов. GPT-4o - не просто чат-бот или голосовой ассистент. Это новое поколение искусственного интеллекта, которое выходит на совершенно новый уровень возможностей. И все это полностью бесплатно!

Что такое GPT-4o

Сегодня ChatGPT имеет два способа доступа. Существует бесплатный уровень, основанный на GPT 3.5, который является мощным, но не имеет расширенных функций, таких как загрузка файлов, пользовательские GPT, доступ к интернету и многое другое. Существует также платный уровень, который использует самую новую модель, GPT-4. Теперь же OpenAI открывает доступ к GPT-4o, новой модели, которая еще быстрее GPT-4, и при этом позволяет запустить много премиум-функций для бесплатных пользователей.

Сэм Альтман говорит, что GPT-4o "по своей сути является мультимодельным" (собственно, буква "о" здесь означает "omni", то есть мультимодальные возможности модели), что отражает способность использовать текст, изображения, видео и голос как входные данные для взаимодействия. Все это, по словам компании, приближает нас к "гораздо более естественному взаимодействию человека с компьютером". Вы можете общаться с ИИ как с помощью только одного вида данных, так и с помощью комбинации текста, аудио и фото, а затем получите сгенерированные выходные данные также во всех трех форматах.

Кроме того, новая модель будет стоить вдвое дешевле для пользователей API (для тех, кто, например, хочет подключить его к своему сайту, для рабочих нужд или иного).

Функции, теперь доступны для пользователей бесплатного ChatGPT, будут включать следующее:

Интеллектуальные возможности уровня GPT-4.
Доступ к интернету.
Расширенный анализ данных и создание диаграмм.
Обсуждайте сделанные фотографии в чате, спрашивая о различных деталях на снимках.
Загружайте файлы для помощи в их обобщении, написании или анализе.
Открытие и использование файлов GPT и GPT Store.
Создайте больше полезных возможностей с помощью функции "Память".

Все это звучит не очень убедительно и вроде не тянет на революционность, но подождите, дальше идут демонстрации. Нам, в частности, показали конкретные примеры применения. Модель способна распознавать эмоции, позволяет прерывать речь посреди разговора и реагирует почти так же быстро, как человек во время разговора, а также имеет приятный голос, который владеет интонациями и передает живость и настроение.

Что умеет GPT-4o

Во время презентации OpenAI продемонстрировала, как GPT-4o переводит разговорную речь в реальном времени. Ведущие презентации попросили ChatGPT в режиме разговора слушать, что ему говорят на английском, а затем объяснить собеседнику, который владеет только итальянским, что было только что сказано. После того как второй человек отвечал на итальянском, ИИ объяснил, что было в его ответе. Все это произошло не в дословном переводе, а конечно естественным языком, который полностью передал суть.

Еще одно демонстрационное видео показывает другие применения этой функции. Например, попросить ИИ рассказать что-то о здании, которое видно в этот момент на видео, предоставить исторические данные о Букингемском дворце. ChatGPT также правильно определил, что смотрит на уток, и рассказал, что они делают, а затем помогает пользователю найти на улице такси и остановить конкретную машину.

Одной из впечатляющих новых демонстраций обновления ChatGPT стало использование живого видео для получения подсказок от ИИ в режиме реального времени и в обычной разговорной манере. В одном из видео мужчина здоровается с искусственным интеллектом, начинает с ним разговор, а затем просит оценить место, которое в этот момент видно через камеру смартфона. ИИ отвечает, описывая свои предположения относительно того, каким может быть назначение комнаты. Что интересно, машина угадала сначала, что там будет какая-то презентация с анонсом, а потом и то, что это анонс нового продукта OpenAI.

Разговор продолжается дальше, и искусственный интеллект генерирует удивленную реакцию и соответствующие интонации, слыша, что анонс касается его самого.

Также было продемонстрировано взаимодействие с линейными уравнениями (ИИ помог решить уравнения на бумаге в режиме реального времени), а также с тем, как ChatGPT смотрит на чье-то лицо (после того, как ему было сказано не принимать во внимание предыдущие изображения) и использует это изображение для определения настроения человека. Еще одна впечатляющая демонстрация – как ИИ предоставляет рекомендации по глубокому дыханию одному из руководителей OpenAI, просто прислушиваясь к его дыханию!

Следующей впечатляющей демонстрацией была прокачанная аудиовзаимодействие с ChatGPT. Теперь пользователь может не только перебивать фразы ИИ, но и значительно лучше управлять чат-ботом с помощью голоса, используя такие команды, как "быть более драматичным" или "звучать больше как робот", регулируя звучание голоса ChatGPT. Вот, как это работает на практике:

Еще одна полезная возможность – это ассистент в видеозвонках:

GPT-4o также может записывать ваши виртуальные встречи, выделяя голоса разных людей и транскрибируя в текст каждую отдельную фразу спикеров, разделяя их по лицам.

Также в наличии:

Понимание/отладка программного кода с помощью голосовых команд.
Размещение логотипа или иного изображения/знака на изображении.
Преобразование фото в карикатуру, стилизованный рисунок и другая обработка снимков.
Создание постеров из ваших фото, даже если это два отдельных изображения, которые надо совместить в одно.
Синтез анимированных 3D-объектов.
Добавление теста к изображениям, даже если это много строк.

Больше о GPT-4o

В OpenAI заявили, что GPT-4o учился на тексте, зрительном восприятии и аудио, а это означает, что все входные и выходные данные обрабатываются одной нейронной сетью. Это отличается от предыдущих моделей компании, GPT-3.5 и GPT-4, которые позволяли пользователям задавать вопросы, просто разговаривая, но потом транскрибировали речь в текст. Это лишало интонации и эмоций и делало взаимодействие более медленным.

OpenAI делает новую модель доступной для всех, включая бесплатных пользователей ChatGPT, в течение следующих нескольких недель, а также выпускает десктопную версию ChatGPT, сначала для Mac, к которой платные пользователи получили доступ вчера. Это весьма странно, учитывая, что Microsoft, разработавшая ОС Windows, вложила в компанию и в этот ИИ более 10 миллиардов долларов.

Объявление OpenAI состоялось за день до Google I/O, ежегодной конференции для разработчиков. На ней мы также ожидаем чего-то интересного об искусственном интеллекте Gemini. Поэтому теперь особенно интересно, будет ли Google чем ответить.