Как работает музыкальная генерация в Gemini?

Лаборатория Google DeepMind интегрировала в приложение Gemini свою самую современную модель генерации музыки – Lyria 3. Ранее технология была доступна преимущественно через облачные инструменты для разработчиков, в частности Vertex AI. Теперь ее вынесли непосредственно в интерфейс чат-бота, пишет Beebom.

Смотрите также Sony научилась бороться с ИИ в песнях: как она это будет делать

В новой версии модели пользователю больше не нужно прописывать текст песни отдельно. Если в запросе есть только описание настроения, жанра или темы, система самостоятельно создаст слова. При желании можно получить инструментальный трек.

Lyria 3 позволяет:

  • Задавать жанр и настроение композиции.
  • Указывать тип вокала.
  • Описывать темп и звучание.
  • Использовать личные воспоминания или внутренние шутки как основу сюжета.

Например, можно попросить создать трек в стиле 80-х о детстве, или инструментальную мелодию без слов. Модель формирует примерно 30-секундную композицию – фактически музыкальный эскиз.

Lyria 3 в составе Gemini
Lyria 3 в составе Gemini / Скриншот 24 Канала

Фото и видео как основа для трека

Кроме текстовых подсказок, Gemini принимает изображения и видео. Загруженное фото может стать основой для создания песни с текстом, который соответствует атмосфере снимка. Аналогично работает и видео – модель анализирует визуальный контекст и подстраивает настроение композиции.

К каждому треку автоматически генерируется обложка с помощью модели Nano Banana, что упрощает распространение композиции в соцсетях или через прямую ссылку.

Авторские права и защита контента

В своем блоге Google отмечает, что инструмент создан для "оригинального самовыражения", а не для копирования известных артистов. Если в запросе упоминается конкретный исполнитель, система интерпретирует это как общее стилистическое вдохновение, а не попытку воспроизвести голос или звучание.

Все сгенерированные аудиофайлы содержат цифровой водяной знак SynthID, отмечает Ars Technica. Пользователь может загрузить любой трек в Gemini и проверить, создан ли он с помощью искусственного интеллекта Google. Ранее аналогичная система уже применялась для изображений и видео.

Компания признает, что механизмы защиты не являются безошибочными, поэтому предусмотрена возможность жалоб в случае потенциального нарушения прав.

Доступность и ограничения

Функция уже запускается глобально для пользователей в возрасте от 18 лет. Поддерживаются следующие языки: английский, немецкий, испанский, французский, хинди, японский, корейский и португальский. В дальнейшем Google обещает расширить языковую поддержку и улучшить качество генерации.

Подписчики Google AI Plus, Pro и Ultra получат более высокие лимиты использования, хотя точные параметры компания пока не раскрывает.

Параллельно Lyria 3 интегрируют в Dream Track для YouTube Shorts, что позволит авторам создавать собственные ИИ-саундтреки для коротких видео.