Розробники Stable Diffusion запустили Stable Audio для створення музики за текстовим описом

Запущено нову модель генеративного ШІ від компанії Stability AI. Ця команда відома завдяки популярному ШІ Stable Diffusion для створення якісних зображень за текстовим описом. Новий ШІ Stable Audio генерує музичні композиції на основі текстового опису.

В основі технології Stable Audio методи, які застосовувалися при розробці Stable Diffusion, але нейромережа навчалася на музичних даних. Stable Audio включає варіаційний автокодувальник (VAE), текстовий кодувальник та модель умовної дифузії на основі U-Net. Для інтерпретації тексту та зв'язків між словами та звуками використовується модель CLAP. Stable Audio працює безпосередньо з необробленими аудіосемплами для забезпечення високої якості виводу. Модель навчалася на більш ніж 800 тисяч фрагментах ліцензійної музики з аудіотеки AudioSparks.

Сервіс Stable Audio буде доступний безплатно або в Pro-версії за 12 доларів на місяць. Безплатна версія дозволяє генерувати 20 треків на місяць тривалістю до 20 секунд, версія Pro дозволяє виконувати до 500 генерацій за тривалості треків до 90 секунд.

Джерела:
VentureBeat
Stability AI

Ще новини:

З’явилися результати тестування Nvidia Blackwell та AMD MI325X у тестах MLPerf Inference

Оприлюднено список ігор для Nintendo Switch 2, які вийдуть цього року

AMD приписують підготовку відеокарти Radeon RX 9070 GRE на урізаному чипі Navi 48