Представлен генератор изображений, работающий в 8 раз быстрее, чем лучший инструмент OpenAI
Новый инструмент искусственного интеллекта может генерировать изображения менее чем за две секунды. Но это не единственное его преимущество, ведь работает он даже на дешевом и маломощном оборудовании.
Детали разработки
Южнокорейские ученые применили специальную технику, которая называется "дистилляция знаний", чтобы уменьшить размер модели генерации изображений с открытым кодом, известной как Stable Diffusion XL. В своей базовой версии она имеет 2,56 миллиарда параметров, которые ИИ получил во время обучения. Наименьшая же версия новой модели, известная как "KOALA", имеет лишь 700 миллионов параметров, но при этом такое урезание, судя по всему, не сказалось на качестве конечных работ. Это также означает, что модель достаточно компактная, чтобы работать быстро и не нуждаться в дорогом и энергоемком оборудовании.
Смотрите также OpenAI представляет Sora: новая ИИ модель может превратить текст в видео впечатляющего качества
Если вы пользовались одним из современных генераторов изображений, например DALL-E от OpenAI или аналогом от Google, то знаете, что такие системы требуют определенного времени на выдачу результата. Но создатели KOALA и еще четырех подобных моделей, кроме нее, обещают 8 раз более быструю работу.
Эти пять версий включают три вида генератора изображений "KOALA", который генерирует изображения на основе введенного текста, и две версии "Ko-LLaVA", который может отвечать на текстовые вопросы с помощью изображений или видео.
Инструменты могут работать на недорогих графических процессорах (GPU) и требует примерно 8 гигабайт оперативной памяти и недорогого графического процессора для обработки запросов в отличие от более крупных моделей, которые требуют высококлассных промышленных GPU.
Какие результаты
- Во время тестирований KOALA сгенерировала изображение на основе подсказки "фотография астронавта, читающего книгу под луной на Марсе" за 1,6 секунды.
- DALL-E 2 от OpenAI сгенерировал изображение на основе той же подсказки за 12,3 секунды.
- DALL-E 3 – за 13,7 секунды.
Теперь ученые планируют интегрировать разработанную ими технологию в существующие сервисы генерации изображений, образовательные услуги, производство контента и другие направления бизнеса.