Google розкрила секрет якісних AI-зображень: як правильно писати запити

Археологи натрапили на сліди Чорної Бороди та інших піратів у легендарній гавані Нассау / Unsplash / Solen Feyissa

Якість зображень, створених штучним інтелектом, часто залежить не лише від самої моделі, а й від того, як сформульовано запит. Google опублікувала рекомендації, які допомагають отримувати точніші та реалістичніші результати.

Компанія Google оприлюднила новий посібник із написання ефективних текстових запитів для генерації зображень за допомогою штучного інтелекту. Рекомендації створені насамперед для нової моделі Gemini Omni, але більшість порад однаково корисні для інших популярних AI-систем, що працюють із зображеннями та відео. Про це пише Socialmediatoday.

Дивіться також Google випускає чергову бету для Android 17: що принесло оновлення

Які деталі варто вказувати у запитах до ШІ?

Нещодавно Google представила Gemini Omni – свою найсучаснішу модель для створення візуального контенту. Інструмент здатний генерувати реалістичні зображення та відео на основі текстових описів, а також підтримує розширені функції редагування.

У компанії зазначають, що головною причиною невдалих результатів часто є недостатньо деталізовані або нечіткі запити користувачів. Саме тому Google вирішила пояснити, які елементи опису найбільше впливають на кінцевий результат.

Починайте з опису ракурсу та композиції

Одним із найважливіших параметрів є спосіб побудови кадру. Google радить одразу вказувати, який саме план потрібен: крупний, середній чи широкий.

Для відео варто також описувати рух камери. Наприклад, чи має камера плавно наближатися до об'єкта, рухатися збоку або створювати ефект польоту над місцевістю. Такі уточнення допомагають системі краще зрозуміти задум автора та сформувати відповідну композицію.

У Google наголошують, що сучасні моделі добре розуміють природну мову, тому користувачам варто максимально конкретно описувати бажаний результат. Замість загальних формулювань краще уточнювати, чи має зображення виглядати реалістичним, кінематографічним, мультяшним або футуристичним.

Чим точніше описано стиль, тим ближчим до очікуваного буде результат.

Наприклад, запит "футуристичне місто в стилі наукової фантастики з неоновим освітленням" дасть значно кращий результат, ніж просто "місто майбутнього".

Освітлення допомагає створити атмосферу

Google також рекомендує приділяти увагу освітленню сцени. У запиті варто зазначати не лише джерело світла, а й характер освітлення. Це може бути сонячне світло, вуличний ліхтар, захід сонця або світло від рекламних вивісок. Також корисно описувати загальний настрій сцени. Наприклад, чи повинна вона виглядати затишною, загадковою, напруженою або драматичною.

Саме освітлення часто визначає емоційне сприйняття готового зображення. Деталі локації роблять сцену переконливішою За словами фахівців Google, багато користувачів надто поверхово описують місце дії.

Якщо дія відбувається в лісі, варто вказати тип дерев, особливості місцевості, наявність каміння, водойм або інших елементів пейзажу. Якщо сцена відбувається в місті, корисно уточнити архітектуру, стан вулиць або характер забудови. Такі деталі дозволяють штучному інтелекту точніше відтворити задуману картину.

Не забувайте про дію та взаємодію об'єктів

Окрему увагу Google радить приділяти опису того, що відбувається в кадрі. Важливо зазначати, хто саме присутній на сцені, що роблять персонажі та як вони взаємодіють між собою або з навколишнім середовищем. Наприклад, замість короткого запиту "лицар на коні" краще написати: "лицар у срібних обладунках мчить верхи через поле під час грози, а кінь здіймає бризки з калюж".

Чим більше зрозумілих деталей містить опис дії, тим точніше модель зможе відтворити задум. Хоча рекомендації були підготовлені для Gemini Omni, вони фактично відображають загальні принципи роботи більшості сучасних генераторів зображень і відео.

Усі популярні AI-моделі краще справляються із завданнями, коли отримують чіткий опис композиції, стилю, освітлення, локації та дій персонажів. Тому новий посібник Google може стати корисним не лише для користувачів Gemini, а й для тих, хто працює з іншими інструментами генеративного штучного інтелекту.