Запущена новая модель генеративного ИИ от разработчиков из Stability AI. Эта команда известна благодаря популярному ИИ Stable Diffusion для генерации качественных картинок по текстовому описанию. Новый ИИ Stable Audio генерирует музыкальные композиции на базе текстового описания.
В основе Stable Audio технологии методы, которые применялись при разработке Stable Diffusion, но нейросеть обучалась на музыкальных данных. Stable Audio включает вариационный автокодировщик (VAE), текстовый кодировщик и модель условной диффузии на основе U-Net. Для интерпретации текста и связей между словам и звуками используется модель CLAP. Stable Audio работает напрямую с необработанными аудиосэмплами для обеспечения высокого качества вывода. Модель обучалась на более чем 800 000 фрагментах лицензионной музыки из аудиотеки AudioSparks.
Сервис Stable Audio будет доступен бесплатно или в Pro-версии за 12 долларов в месяц. Бесплатная версия позволяет генерировать 20 треков в месяц продолжительностью до 20 секунд, версия Pro позволяет выполнять до 500 генераций при длительности треков до 90 секунд.
Источники:
VentureBeat
Stability AI