OpenAI обновляет свою функцию генерирования изображений, и она впечатляет

Александр Гайдамашко

Основные тезисы

OpenAI обновляет функцию генерирования изображений в ChatGPT, позволяя пользователям создавать высококачественные изображения непосредственно в чате.
Новая модель GPT-4o обеспечивает улучшение рендеринга текста, контекстного понимания и фотореализма, что делает ее полезной для различных применений, включая создание инфографики и рекламной графики.
OpenAI обучала GPT-4o на общедоступных данных и данных партнеров.

OpenAI обновляет генерацию изображений в ChatGPT – впечатляющие результаты

ChatGPT / Unsplash

OpenAI объявила, что вскоре все пользователи смогут создавать изображения непосредственно в ChatGPT. Больше не нужно будет переключаться на Dall-E. Это первое крупное обновление возможностей генерации изображений ChatGPT за более чем год, и первые примеры очень многообещающие.

Генерирование по-новому

Новая функция генерирования изображений ожидается не только для пользователей подписок Plus, Pro и Team, но и, что самое важное, для бесплатных также. Это будет инструмент генерации изображений по умолчанию в модели 4o, поэтому вам не нужно будет открывать Dall-E каждый раз, когда вы захотите создать картинку. Эта функция также появится в Sora, сообщает 24 Канал со ссылкой на TechCrunch.

Компания заявляет, что платформа будет генерировать высококачественные изображения на основе ваших подсказок, проведенного разговора или загруженных файлов. В последнем случае она сможет редактировать уже существующие изображения на основе подсказок, включая изображения людей. Например, вы сможете изменить одежду, дорисовать какие-то детали или изменить фон.

Новая модель генерирования изображений OpenAI также может похвастаться значительными улучшениями в рендеринге текста и контекстном понимании.

Эти новые инструменты предназначены как для личного, так и для профессионального использования. OpenAI приводит несколько примеров того, где этот тип генерации изображений может быть полезным: создание инфографики, рекламной графики для социальных сетей и изображений с большим количеством текста. Компания даже показала один из примеров работы новой модели:

Инфографика на тему дисперсии света, которая демонстрирует призму, которая разделяет белый свет на спектр цветов
Инфографика на тему дисперсии света, которая демонстрирует призму, которая разделяет белый свет на спектр цветов. Можно увидеть, что работа с текстовыми надписями не просто вышла на новый уровень, она идеальна / Фото OpenAI

Пример работы генератора изображений в составе GPT-4o
Пример работы генератора изображений в составе GPT-4o / Фото OpenAI

Компания заявляет, что функция предлагает "мощный потенциал для фотореализма, включая точность света, тени и текстуры".
Она также обладает способностью понимать контекст. OpenAI утверждает, что это может быть использовано для создания "плаката птиц, найденных в Центральном парке" или "визуализации эпохи истории искусства, о которой ранее говорилось в разговоре".

Чтобы запустить новую функцию обработки изображений, OpenAI обучала GPT-4o на "общедоступных данных", а также на собственных данных, полученных в результате партнерства с такими компаниями, как Shutterstock.

Многие поставщики генеративного ИИ рассматривают обучающие данные как конкурентное преимущество, поэтому они держат их и любую информацию, связанную с ними, в тайне. Детали учебных данных также являются потенциальным источником судебных исков, связанных с интеллектуальной собственностью, что является еще одним сдерживающим фактором для компаний, которые не хотят раскрывать много информации.

Мы уважаем права художников в том, как мы делаем результат, и у нас есть политика, которая не позволяет нам создавать изображения, непосредственно имитирующие работу любого живого художника,
– сказал Брэд Лайткап, главный операционный директор OpenAI.

Все это построено на GPT-4o, модели ИИ, которая была впервые выпущена в прошлом году. Буква "o" в названии означает "omni", что указывает на мультимодальные возможности модели. Именно это обеспечивает многие из вышеупомянутых функций, например, возможность работать над загруженными файлами.

Еще немного примеров работы генератора изображений

Пример работы генератора изображений в составе GPT-4o
Это сгенерированное изображение прекрасно отображает текст различными шрифтами / Фото Marc Hoag/OpenAI

В следующем случае художник Мэтт Менендес попросил ИИ превратить его рисунок в картинку:

В другом случае ученый-биомедик и иммунолог сгенерировал целый комикс о жизни иммунных T-клеток, и результат выглядит просто невероятно качественно:

Пример работы генератора изображений в составе GPT-4o
Еще один пример работы генератора изображений в составе GPT-4o, который показывает строение клетки / Фото Derya Unutmaz/OpenAI

Следующие два случая показывают:

Фотореалистичное изображение на фермерском рынке, которое якобы сделано в 2006 году. На изображении даже можно увидеть дату съемки.
Промпт звучал так: "Создай фотореалистичное изображение двух ведьм в возрасте 20 лет (одна с пепельными каштановыми волосами, другая с длинными волнистыми каштановыми волосами), которые читают уличные знаки".