Як працює музична генерація в Gemini?

Лабораторія Google DeepMind інтегрувала у застосунок Gemini свою найсучаснішу модель генерації музики – Lyria 3. Раніше технологія була доступна переважно через хмарні інструменти для розробників, зокрема Vertex AI. Тепер її винесли безпосередньо в інтерфейс чат-бота, пише Beebom.

Дивіться також Sony навчилася боротися з ШІ в піснях: як вона це робитиме

У новій версії моделі користувачеві більше не потрібно прописувати текст пісні окремо. Якщо в запиті є лише опис настрою, жанру або теми, система самостійно створить слова. За бажанням можна отримати інструментальний трек.

Lyria 3 дозволяє:

  • Задавати жанр і настрій композиції.
  • Вказувати тип вокалу.
  • Описувати темп і звучання.
  • Використовувати особисті спогади або внутрішні жарти як основу сюжету.

Наприклад, можна попросити створити трек у стилі 80-х про дитинство, або інструментальну мелодію без слів. Модель формує приблизно 30-секундну композицію – фактично музичний ескіз.

Lyria 3 у складі Gemini
Lyria 3 у складі Gemini / Скриншот 24 Каналу

Фото і відео як основа для треку

Окрім текстових підказок, Gemini приймає зображення та відео. Завантажене фото може стати основою для створення пісні з текстом, який відповідає атмосфері знімка. Аналогічно працює й відео – модель аналізує візуальний контекст і підлаштовує настрій композиції.

До кожного треку автоматично генерується обкладинка за допомогою моделі Nano Banana, що спрощує поширення композиції у соцмережах або через пряме посилання.

Авторські права та захист контенту

У своєму блозі Google наголошує, що інструмент створений для "оригінального самовираження", а не для копіювання відомих артистів. Якщо в запиті згадується конкретний виконавець, система інтерпретує це як загальне стилістичне натхнення, а не спробу відтворити голос чи звучання.

Усі згенеровані аудіофайли містять цифровий водяний знак SynthID, зазначає Ars Technica. Користувач може завантажити будь-який трек у Gemini та перевірити, чи створений він за допомогою штучного інтелекту Google. Раніше аналогічна система вже застосовувалася для зображень і відео.

Компанія визнає, що механізми захисту не є безпомилковими, тому передбачено можливість скарг у разі потенційного порушення прав.

Доступність і обмеження

Функція вже запускається глобально для користувачів віком від 18 років. Підтримуються такі мови: англійська, німецька, іспанська, французька, гінді, японська, корейська та португальська. Надалі Google обіцяє розширити мовну підтримку та покращити якість генерації.

Передплатники Google AI Plus, Pro та Ultra отримають вищі ліміти використання, хоча точні параметри компанія поки не розкриває.

Паралельно Lyria 3 інтегрують у Dream Track для YouTube Shorts, що дозволить авторам створювати власні ШІ-саундтреки для коротких відео.