OpenAI оновлює свою функцію генерування зображень, і вона вражає

Олександр Гайдамашко

Основні тези

OpenAI оновлює функцію генерування зображень у ChatGPT, дозволяючи користувачам створювати високоякісні зображення безпосередньо в чаті.
Нова модель GPT-4o забезпечує поліпшення рендерингу тексту, контекстного розуміння та фотореалізму, що робить її корисною для різних застосувань, включно із створенням інфографіки та рекламної графіки.
OpenAI навчала GPT-4o на загальнодоступних даних і даних партнерів.

OpenAI оновлює генерацію зображень у ChatGPT – вражаючі результати

ChatGPT / Unsplash

OpenAI оголосила, що незабаром усі користувачі зможуть створювати зображення безпосередньо в ChatGPT. Більше не потрібно буде перемикатися на Dall-E. Це перше велике оновлення можливостей генерації зображень ChatGPT за більш ніж рік, і перші приклади є дуже багатообіцяючими.

Генерування по-новому

Нова функція генерування зображень очікується не лише для користувачів підписок Plus, Pro і Team, а й, що найважливіше, для безкоштовних також. Це буде інструмент генерації зображень за замовчуванням у моделі 4o, тож вам не потрібно буде відкривати Dall-E щоразу, коли ви захочете створити картинку. Ця функція також з'явиться в Sora, повідомляє 24 Канал з посиланням на TechCrunch.

Дивіться також OpenAI відкрив важливу AI-функцію ChatGPT для всіх користувачів без обмежень

Компанія заявляє, що платформа буде генерувати високоякісні зображення на основі ваших підказок, проведеної розмови або завантажених файлів. В останньому випадку вона зможе редагувати вже існуючі зображення на основі підказок, включно з зображеннями людей. Наприклад, ви зможете змінити одяг, домалювати якісь деталі чи змінити фон.

Нова модель генерування зображень OpenAI також може похвалитися значними покращеннями в рендерингу тексту та контекстному розумінні.

Ці нові інструменти призначені як для особистого, так і для професійного використання. OpenAI наводить кілька прикладів того, де цей тип генерації зображень може бути корисним: створення інфографіки, рекламної графіки для соціальних мереж і зображень з великою кількістю тексту. Компанія навіть показала один з прикладів роботи нової моделі:

Інфографіка на тему дисперсії світла, яка демонструє призму, яка розділяє біле світло на спектр кольорів
Інфографіка на тему дисперсії світла, яка демонструє призму, яка розділяє біле світло на спектр кольорів. Можна побачити, що робота з текстовими написами не просто вийшла на новий рівень, вона ідеальна / Фото OpenAI

Приклад роботи генератора зображень у складі GPT-4o
Приклад роботи генератора зображень у складі GPT-4o / Фото OpenAI

Компанія заявляє, що функція пропонує "потужний потенціал для фотореалізму, включаючи точність світла, тіні та текстури".

Вона також має здатність розуміти контекст. OpenAI стверджує, що це може бути використано для створення "плакату птахів, знайдених у Центральному парку" або "візуалізації епохи історії мистецтва, про яку раніше йшлося в розмові".

Щоб запустити нову функцію обробки зображень, OpenAI навчала GPT-4o на "загальнодоступних даних", а також на власних даних, отриманих у результаті партнерства з такими компаніями, як Shutterstock.

Багато постачальників генеративного ШІ розглядають навчальні дані як конкурентну перевагу, тому вони тримають їх і будь-яку інформацію, пов'язану з ними, в таємниці. Деталі навчальних даних також є потенційним джерелом судових позовів, пов'язаних з інтелектуальною власністю, що є ще одним стримуючим фактором для компаній, які не хочуть розкривати багато інформації.

Ми поважаємо права художників у тому, як ми робимо результат, і у нас є політика, яка не дозволяє нам створювати зображення, що безпосередньо імітують роботу будь-якого живого художника,
– сказав Бред Лайткап, головний операційний директор OpenAI.

Усе це побудовано на GPT-4o, моделі ШІ, яка була вперше випущена минулого року. Буква "o" в назві означає "omni", що вказує на мультимодальні можливості моделі. Саме це забезпечує багато з вищезгаданих функцій, наприклад, можливість працювати над завантаженими файлами.

Ще трохи прикладів роботи генератора зображень

Приклад роботи генератора зображень у складі GPT-4o
Це згенероване зображення чудово відображає текст різними шрифтами / Фото Marc Hoag/OpenAI

У наступному випадку художник Метт Менендес попросив ШІ перетворити його малюнок на картинку:

В іншому випадку вчений-біомедик та імунолог згенерував цілий комікс про життя імунних T-клітин, і результат виглядає просто неймовірно якісно:

Приклад роботи генератора зображень у складі GPT-4o
Ще один приклад роботи генератора зображень у складі GPT-4o, який показує будову клітини / Фото Derya Unutmaz/OpenAI

Наступні два випадки показують:

Фотореалістичне зображення на фермерському ринку, яке нібито зроблене у 2006 році. На зображенні навіть можна побачити дату зйомки.
Промпт звучав так: "Створи фотореалістичне зображення двох відьом у віці 20 років (одна з попелястим каштановим волоссям, інша з довгим хвилястим каштановим волоссям), які читають вуличні знаки".