Gemini запускає генерацію музики для всіх за допомогою Lyria 3

Олександр Гайдамашко

Основні тези

Google розширює можливості Gemini, додаючи функцію генерації музики за допомогою моделі Lyria 3.
Функція доступна користувачам у різних країнах, включаючи Україну.

Gemini генерує музику через Lyria 3 – як працює нова функція Google

Gemini отримав генерацію музики / 9to5Google

Google розширює можливості Gemini і додає новий тип контенту – музику. Тепер чат-бот може створювати короткі треки з вокалом або без нього, орієнтуючись на текстові описи, зображення чи відео. Функція поступово стає доступною користувачам у різних країнах, у тому числі й в Україні.

Як працює музична генерація в Gemini?

Лабораторія Google DeepMind інтегрувала у застосунок Gemini свою найсучаснішу модель генерації музики – Lyria 3. Раніше технологія була доступна переважно через хмарні інструменти для розробників, зокрема Vertex AI. Тепер її винесли безпосередньо в інтерфейс чат-бота, пише Beebom.

Дивіться також Sony навчилася боротися з ШІ в піснях: як вона це робитиме

У новій версії моделі користувачеві більше не потрібно прописувати текст пісні окремо. Якщо в запиті є лише опис настрою, жанру або теми, система самостійно створить слова. За бажанням можна отримати інструментальний трек.

Lyria 3 дозволяє:

Задавати жанр і настрій композиції.
Вказувати тип вокалу.
Описувати темп і звучання.
Використовувати особисті спогади або внутрішні жарти як основу сюжету.

Наприклад, можна попросити створити трек у стилі 80-х про дитинство, або інструментальну мелодію без слів. Модель формує приблизно 30-секундну композицію – фактично музичний ескіз.

Lyria 3 у складі Gemini
Lyria 3 у складі Gemini / Скриншот 24 Каналу

Фото і відео як основа для треку

Окрім текстових підказок, Gemini приймає зображення та відео. Завантажене фото може стати основою для створення пісні з текстом, який відповідає атмосфері знімка. Аналогічно працює й відео – модель аналізує візуальний контекст і підлаштовує настрій композиції.

До кожного треку автоматично генерується обкладинка за допомогою моделі Nano Banana, що спрощує поширення композиції у соцмережах або через пряме посилання.

Авторські права та захист контенту

У своєму блозі Google наголошує, що інструмент створений для "оригінального самовираження", а не для копіювання відомих артистів. Якщо в запиті згадується конкретний виконавець, система інтерпретує це як загальне стилістичне натхнення, а не спробу відтворити голос чи звучання.

Усі згенеровані аудіофайли містять цифровий водяний знак SynthID, зазначає Ars Technica. Користувач може завантажити будь-який трек у Gemini та перевірити, чи створений він за допомогою штучного інтелекту Google. Раніше аналогічна система вже застосовувалася для зображень і відео.

Компанія визнає, що механізми захисту не є безпомилковими, тому передбачено можливість скарг у разі потенційного порушення прав.

Доступність і обмеження

Функція вже запускається глобально для користувачів віком від 18 років. Підтримуються такі мови: англійська, німецька, іспанська, французька, гінді, японська, корейська та португальська. Надалі Google обіцяє розширити мовну підтримку та покращити якість генерації.

Передплатники Google AI Plus, Pro та Ultra отримають вищі ліміти використання, хоча точні параметри компанія поки не розкриває.

Паралельно Lyria 3 інтегрують у Dream Track для YouTube Shorts, що дозволить авторам створювати власні ШІ-саундтреки для коротких відео.