Разработчики Stable Diffusion запустили Stable Audio для генерации музыки по текстовому описанию

Запущена новая модель генеративного ИИ от разработчиков из Stability AI. Эта команда известна благодаря популярному ИИ Stable Diffusion для генерации качественных картинок по текстовому описанию. Новый ИИ Stable Audio генерирует музыкальные композиции на базе текстового описания.

В основе Stable Audio технологии методы, которые применялись при разработке Stable Diffusion, но нейросеть обучалась на музыкальных данных. Stable Audio включает вариационный автокодировщик (VAE), текстовый кодировщик и модель условной диффузии на основе U-Net. Для интерпретации текста и связей между словам и звуками используется модель CLAP. Stable Audio работает напрямую с необработанными аудиосэмплами для обеспечения высокого качества вывода. Модель обучалась на более чем 800 000 фрагментах лицензионной музыки из аудиотеки AudioSparks.

Сервис Stable Audio будет доступен бесплатно или в Pro-версии за 12 долларов в месяц. Бесплатная версия позволяет генерировать 20 треков в месяц продолжительностью до 20 секунд, версия Pro позволяет выполнять до 500 генераций при длительности треков до 90 секунд.

Источники:
VentureBeat
Stability AI

Еще новости:

В продаже замечены игровые ПК с видеокартами GeForce RTX 5060 и RTX 5060 Ti

Eidos Montreal пыталась возродить Deus Ex

ASUS подготовила прошивку для ROG Astral GeForce RTX 5080 с увеличенным максимальным TGP

Последние обзоры:

Обзор беспроводной hot-swap клавиатуры HATOR Icefall Pro Wireless

Обзор и тестирование материнской платы ASUS TUF Gaming B850-Plus WiFi для платформы AM5

Обзор и тестирование видеокарты ASUS TUF Gaming GeForce RTX 5090 32GB OC Edition. Сравнение с GeForce RTX 4090 и другими оппонентами