Google запускает невероятно крутую ИИ-модель для редактирования изображений

Основні тези

Google выпускает обновление Gemini 2.5 Flash Image для редактирования изображений, которое позволяет сохранять реалистичность объектов во время изменений.
Обновление включает новые функции, такие как сочетание изображений, смешивания стилей и многоэтапное редактирование, с возможностью сохранения всех изменений.

Компания Google представила значительное обновление для своего искусственного интеллекта Gemini, касающееся генерации и редактирования изображений. Новая модель предлагает пользователям гораздо больше творческого контроля и решает одну из ключевых проблем предыдущих версий – сохранение реалистичности объектов во время многочисленных изменений.

Что именно изменилось в работе с изображениями?

Обновление, которое получило название Gemini 2.5 Flash Image, уже доступно для всех пользователей в приложении Gemini. Интересно, что до официального анонса эта технология от команды Google DeepMind проходила анонимное тестирование на краудсорсинговой платформе LMArena, где получила популярность под кодовым названием "nano banana", пишет 24 Канал со ссылкой на 9to5google.

Ключевым нововведением стала последовательность в изображениях. Главная цель разработчиков заключалась в том, чтобы черты лица людей, внешность домашних животных и другие важные детали оставались неизменными от одного отредактированного изображения к другому. Ранее пользователи сталкивались с проблемой, когда после нескольких правок, например, изменения прически или фона, человек на фото мог выглядеть иначе, что делало результат неестественным. Теперь Gemini сохраняет сходство, даже если вы захотите "переодеть" человека в костюм матадора или поместить его в атмосферу 90-х годов.

Примеры работы новой модели: видео

Кроме этого, появилось несколько новых расширенных функций для редактирования:

Сочетание изображений. Теперь можно загрузить несколько фотографий и попросить Gemini объединить их в одну сцену. Например, можно создать изображение, где женщина с одного фото обнимает собаку с другого, и все это происходит на баскетбольной площадке с третьего изображения.
Смешивание стилей. Эта функция позволяет применить стиль одного изображения к объекту на другом. В качестве примера, Google приводит возможность превратить узор из цветка в дизайн платья.

Пример работы новой модели: видео

Многоэтапное редактирование. Пользователи могут вносить изменения в изображение последовательно, шаг за шагом, не теряя при этом предыдущие результаты. Например, можно сначала визуализировать, как будет выглядеть пустая комната с новым цветом стен, а затем добавить туда конкретную мебель.

Пример работы новой модели: видео

Для обеспечения прозрачности все изображения, созданные или измененные с помощью Gemini, будут иметь видимый водяной знак "ai", а также невидимую метку SynthID, которая сигнализирует, что контент был сгенерирован искусственным интеллектом.

Обновление уже начало разворачиваться для всех пользователей Gemini, включая бесплатную версию, а также для разработчиков через Gemini API и платформу Vertex AI.