Новый искусственный интеллект от Google создает музыку по текстовому описанию

Александр Гайдамашко

Источник:

Google

Иллюстративное фото / Marcela Laskoski

Сегодня на рынке можно найти массу нейросетей для любых целей. У нас есть ChatGPT для создания текста, DALL-E для создания изображений и новый VALL-E для имитации голоса человека. Теперь пришло время музыки.

За разработкой стоит компания Google. Она разработала нейросетевой сервис MusicLM, задача которого состоит в создании музыкальных произведений. Примеры работ можно прослушать на демо-сайте.

Интересно Искусственный интеллект от Microsoft имитирует любой человеческий голос

Как это работает

MusicLM создает музыку по текстовым запросам. Пользователь может задать жанр, настроение, темп и другие желаемые нюансы.

Мы представляем MusicLM – модель, генерирующую высококачественную музыку по текстовым описаниям, вроде "успокаивающая скрипичная мелодия, подкрепленная искаженным гитарным рифом",
– рассказывают разработчики на сайте.

MusicLM рассматривает процесс условной генерации музыки как иерархическую задачу моделирования последовательности и генерирует музыку с частотой 24 килогерца, которая остается неизменной в течение нескольких минут. Разработчики уверяют, что MusicLM превосходит предыдущие системы как по качеству звука, так и по соблюдению текстового описания.

Нейросеть также может объединять несколько разных произведений в одно общее. Для этого в инструкции нужно указать описания для каждого из них.

Кроме того, можно выбрать уровень владения инструментами — например, для того, чтобы композицию якобы сыграл начинающий музыкант или, наоборот, виртуоз.
Инструкции также могут быть представлены и в форме звуков. Например, пользователь напевает или насвистывает мелодию, а нейросеть адаптирует ее до полноценного трека с учетом стиля.

Нейросеть не лишена недостатков. Иногда можно заметить искажение в звуке, а генерировать вокал она хоть и пытается, но почти не умеет — вместо осмысленных слов выходит какая-то неразбериха.

Испытать MusicLM самостоятельно пока не получится, поскольку технология находится на начальной стадии разработки и доступна только ее создателям.