Генерирование по-новому

Новая функция генерирования изображений ожидается не только для пользователей подписок Plus, Pro и Team, но и, что самое важное, для бесплатных также. Это будет инструмент генерации изображений по умолчанию в модели 4o, поэтому вам не нужно будет открывать Dall-E каждый раз, когда вы захотите создать картинку. Эта функция также появится в Sora, сообщает 24 Канал со ссылкой на TechCrunch.

Смотрите также OpenAI открыл важную AI-функцию ChatGPT для всех пользователей без ограничений

Компания заявляет, что платформа будет генерировать высококачественные изображения на основе ваших подсказок, проведенного разговора или загруженных файлов. В последнем случае она сможет редактировать уже существующие изображения на основе подсказок, включая изображения людей. Например, вы сможете изменить одежду, дорисовать какие-то детали или изменить фон.

Новая модель генерирования изображений OpenAI также может похвастаться значительными улучшениями в рендеринге текста и контекстном понимании.

Эти новые инструменты предназначены как для личного, так и для профессионального использования. OpenAI приводит несколько примеров того, где этот тип генерации изображений может быть полезным: создание инфографики, рекламной графики для социальных сетей и изображений с большим количеством текста. Компания даже показала один из примеров работы новой модели:

Инфографика на тему дисперсии света, которая демонстрирует призму, которая разделяет белый свет на спектр цветов
Инфографика на тему дисперсии света, которая демонстрирует призму, которая разделяет белый свет на спектр цветов. Можно увидеть, что работа с текстовыми надписями не просто вышла на новый уровень, она идеальна / Фото OpenAI

Пример работы генератора изображений в составе GPT-4o
Пример работы генератора изображений в составе GPT-4o / Фото OpenAI

  • Компания заявляет, что функция предлагает "мощный потенциал для фотореализма, включая точность света, тени и текстуры".
  • Она также обладает способностью понимать контекст. OpenAI утверждает, что это может быть использовано для создания "плаката птиц, найденных в Центральном парке" или "визуализации эпохи истории искусства, о которой ранее говорилось в разговоре".

Чтобы запустить новую функцию обработки изображений, OpenAI обучала GPT-4o на "общедоступных данных", а также на собственных данных, полученных в результате партнерства с такими компаниями, как Shutterstock.

Многие поставщики генеративного ИИ рассматривают обучающие данные как конкурентное преимущество, поэтому они держат их и любую информацию, связанную с ними, в тайне. Детали учебных данных также являются потенциальным источником судебных исков, связанных с интеллектуальной собственностью, что является еще одним сдерживающим фактором для компаний, которые не хотят раскрывать много информации.

Мы уважаем права художников в том, как мы делаем результат, и у нас есть политика, которая не позволяет нам создавать изображения, непосредственно имитирующие работу любого живого художника,
– сказал Брэд Лайткап, главный операционный директор OpenAI.

Все это построено на GPT-4o, модели ИИ, которая была впервые выпущена в прошлом году. Буква "o" в названии означает "omni", что указывает на мультимодальные возможности модели. Именно это обеспечивает многие из вышеупомянутых функций, например, возможность работать над загруженными файлами.

Еще немного примеров работы генератора изображений

Пример работы генератора изображений в составе GPT-4o
Это сгенерированное изображение прекрасно отображает текст различными шрифтами / Фото Marc Hoag/OpenAI

В следующем случае художник Мэтт Менендес попросил ИИ превратить его рисунок в картинку:

В другом случае ученый-биомедик и иммунолог сгенерировал целый комикс о жизни иммунных T-клеток, и результат выглядит просто невероятно качественно:

Пример работы генератора изображений в составе GPT-4o
Еще один пример работы генератора изображений в составе GPT-4o, который показывает строение клетки / Фото Derya Unutmaz/OpenAI

Следующие два случая показывают:

  • Фотореалистичное изображение на фермерском рынке, которое якобы сделано в 2006 году. На изображении даже можно увидеть дату съемки.
  • Промпт звучал так: "Создай фотореалистичное изображение двух ведьм в возрасте 20 лет (одна с пепельными каштановыми волосами, другая с длинными волнистыми каштановыми волосами), которые читают уличные знаки".