Apple нарешті випускає свій перший повноцінний штучний інтелект: що він уміє

8 лютого 2024, 11:01
Читать новость на русском

Джерело:

arXiv

Дослідники Apple випустили нову модель ШІ, котра дозволяє користувачам простою мовою описати, що вони хочуть змінити на фотографії. Вам більше не потрібні спеціалізовані програми для редагування фотографій.

Як це працює

Модель MGIE, над якою Apple працювала разом з Каліфорнійським університетом у Санта-Барбарі, дозволяє обрізати, змінювати розмір, перевертати та додавати фільтри до зображень за допомогою текстових підказок.

Дивіться також Усе ваше життя стане навчальним полігоном для нового штучного інтелекту Марка Цукерберга

MGIE, що розшифровується як MLLM-Guided Image Editing, можна застосовувати як для простих, так і складних завдань редагування зображень, таких як зміна певних об'єктів на фотографії, щоб надати їм іншої форми або зробити їх яскравішими.

Модель поєднує в собі два різних способи використання мультимодальних мовних моделей. Спочатку вона вчиться інтерпретувати підказки користувача. Потім вона "уявляє", як виглядатиме редагування (наприклад, прохання зробити небо на фотографії блакитнішим перетворюється на збільшення яскравості на частині зображення, присвяченій небу).

Редагуючи фото за допомогою MGIE, користувачі просто вводять текстом те, що вони хочуть змінити в зображенні. У статті використано приклад редагування зображення піци пепероні. Прохання "зробити її більш здоровою" додає овочеву начинку. Фотографія тигрів у Сахарі виглядає темною, але після того, як користувач просить "додати більше контрасту, щоб імітувати більше світла", знімок стає яскравішим.


Приклади використання ШІ від Apple / Скриншот 24 Каналу

Apple зробила MGIE доступним для завантаження через GitHub, а також випустила вебдемонстрацію Hugging Face Spaces, повідомляє VentureBeat. Компанія не повідомила, які у неї плани на модель після завершення досліджень. Імовірно, вона стане частиною iOS і постачатиметься в складі смартфонів iPhone.

Деякі платформи для створення зображень, такі як DALL-E 3 від OpenAI, можуть виконувати прості завдання з редагування фотографій, які вони створюють за допомогою введення тексту. Творець Photoshop, компанія Adobe, до якої більшість людей звертається для редагування зображень, також має власну модель редагування зі штучним інтелектом. Її модель Firefly AI забезпечує генеративну заливку, яка додає згенеровані фони до фотографій, а також може замінити цілі шматки фотографії на те, що вам потрібно – достатньо лише виділити область і написати свій запит.

Apple досі не була великим гравцем у сфері генеративного ШІ, на відміну від Microsoft, Meta або Google, але генеральний директор Apple Тім Кук заявив, що компанія хоче додати більше функцій ШІ на свої пристрої цього року.