Деталі розробки

Південнокорейські вчені застосували спеціальну техніку, яка називається "дистиляція знань", щоб зменшити розмір моделі генерації зображень з відкритим кодом, відомої як Stable Diffusion XL. У своїй базові версії вона має 2,56 мільярда параметрів, які ШІ отримав під час навчання. Найменша ж версія нової моделі, відома як "KOALA", має лише 700 мільйонів параметрів, але при цьому таке урізання, судячи з усього, не позначилося на якості кінцевих робіт. Це також означає, що модель досить компактна, щоб працювати швидко й не потребувати дорогого та енергоємного обладнання.

Дивіться також OpenAI представляє Sora: нову ШІ модель може перетворити текст у відео вражаючої якості

Якщо ви користувалися одним із сучасних генераторів зображень, наприклад DALL·E від OpenAI чи аналогом від Google, то знаєте, що такі системи потребують певного часу на видачу результату. Але творці KOALA та ще чотирьох подібних моделей, окрім неї, обіцяють 8 разів швидшу роботу.

Ці п'ять версій включають три види генератора зображень "KOALA", який генерує зображення на основі введеного тексту, і дві версії "Ko-LLaVA", який може відповідати на текстові запитання за допомогою зображень або відео.

Інструменти можуть працювати на недорогих графічних процесорах (GPU) і потребує приблизно 8 гігабайтів оперативної пам'яті й недорогого графічного процесора для обробки запитів на відміну від більших моделей, які потребують висококласних промислових GPU.

Які результати

  • Під час тестувань KOALA згенерувала зображення на основі підказки "фотографія астронавта, який читає книгу під місяцем на Марсі" за 1,6 секунди.
  • DALL·E 2 від OpenAI згенерував зображення на основі тієї ж підказки за 12,3 секунди.
  • DALL·E 3 – за 13,7 секунди.

Тепер вчені планують інтегрувати розроблену ними технологію в існуючі сервіси генерації зображень, освітні послуги, виробництво контенту та інші напрямки бізнесу.