Google запускає неймовірно круту ШІ-модель для редагування зображень

Основні тези

Google випускає оновлення Gemini 2.5 Flash Image для редагування зображень, яке дозволяє зберігати реалістичність об'єктів під час змін.
Оновлення включає нові функції, такі як поєднання зображень, змішування стилів та багатоетапне редагування, з можливістю збереження всіх змін.

Компанія Google представила значне оновлення для свого штучного інтелекту Gemini, що стосується генерації та редагування зображень. Нова модель пропонує користувачам набагато більше творчого контролю та розв'язує одну з ключових проблем попередніх версій – збереження реалістичності об'єктів під час численних змін.

Що саме змінилось у роботі з зображеннями?

Оновлення, яке отримало назву Gemini 2.5 Flash Image, вже доступне для всіх користувачів у застосунку Gemini. Цікаво, що до офіційного анонсу ця технологія від команди Google DeepMind проходила анонімне тестування на краудсорсинговій платформі LMArena, де здобула популярність під кодовою назвою "nano banana", пише 24 Канал з посиланням на 9to5google.

Дивіться також Функція Gem тепер доступна всім у Google Gemini: ось чому вам обов'язково потрібно її спробувати

Ключовим нововведенням стала послідовність у зображеннях. Головна мета розробників полягала в тому, щоб риси обличчя людей, зовнішність домашніх тварин та інші важливі деталі залишалися незмінними від одного відредагованого зображення до іншого. Раніше користувачі стикалися з проблемою, коли після кількох правок, наприклад, зміни зачіски чи фону, людина на фото могла виглядати інакше, що робило результат неприродним. Тепер Gemini зберігає схожість, навіть якщо ви захочете "перевдягнути" людину в костюм матадора або помістити її в атмосферу 90-х років.

Приклади роботи нової моделі: відео

Окрім цього, з'явилося кілька нових розширених функцій для редагування:

Поєднання зображень. Тепер можна завантажити декілька фотографій і попросити Gemini об'єднати їх в одну сцену. Наприклад, можна створити зображення, де жінка з одного фото обіймає собаку з іншого, і все це відбувається на баскетбольному майданчику з третього зображення.
Змішування стилів. Ця функція дозволяє застосувати стиль одного зображення до об'єкта на іншому. Як приклад, Google наводить можливість перетворити візерунок з квітки на дизайн сукні.

Приклад роботи нової моделі: відео

Багатоетапне редагування. Користувачі можуть вносити зміни в зображення послідовно, крок за кроком, не втрачаючи при цьому попередні результати. Наприклад, можна спершу візуалізувати, як виглядатиме порожня кімната з новим кольором стін, а потім додати туди конкретні меблі.

Приклад роботи нової моделі: відео

Для забезпечення прозорості всі зображення, створені або змінені за допомогою Gemini, матимуть видимий водяний знак "ai", а також невидиму мітку SynthID, яка сигналізує, що контент був згенерований штучним інтелектом.

Оновлення вже почало розгортатися для всіх користувачів Gemini, включно з безкоштовною версією, а також для розробників через Gemini API та платформу Vertex AI.