Компания Google представила новую генеративную нейросеть под названием MusicLM. Это новая модель ИИ, которая умеет генерировать качественную музыку по текстовому описанию. Для обучения нейросети использовалось 280 часов музыкальных композиций. В итоге она умеет генерировать музыку разных жанров по абстрактному описанию в духе «успокаивающая мелодия скрипки» и т.п. Также доступна генерация музыки по картинке и описанию для нее.

Google

MusicLM генерирует музыку при частоте дискретизации 24 кГц в любом жанре и с любыми инструментами, которые указаны в описании. На страничке проекта выложены примеры композиций, которые сгенерированы по детальному описанию. Это «оптимистичный саундтрек для аркадной игры с гитарными рифами», «медленное регги с басом, барабаном и электрогитарой». Некоторые примеры неожиданно качественные и в них даже есть вокал. В других много шумов и скаженных звуков. Однако результаты все равно впечатляют. MusicLM еще в разработке, лично испытать возможности ИИ не получится.

Стоит отметить, что уже есть проект генерации музыки на базе нейросети Stable Diffusion с помощью визуальных спектрограмм. И эта модель ИИ доступна для публичного и коммерческого использования.

На фоне успехов популярной нейросети Midjourney для генерации изображений, нельзя исключать что в будущем нейросети частично заменять людей при создании аудио-визуального контента.

Источник:
The Verge