Запущено нову модель генеративного ШІ від компанії Stability AI. Ця команда відома завдяки популярному ШІ Stable Diffusion для створення якісних зображень за текстовим описом. Новий ШІ Stable Audio генерує музичні композиції на основі текстового опису.

В основі технології Stable Audio методи, які застосовувалися при розробці Stable Diffusion, але нейромережа навчалася на музичних даних. Stable Audio включає варіаційний автокодувальник (VAE), текстовий кодувальник та модель умовної дифузії на основі U-Net. Для інтерпретації тексту та зв'язків між словами та звуками використовується модель CLAP. Stable Audio працює безпосередньо з необробленими аудіосемплами для забезпечення високої якості виводу. Модель навчалася на більш ніж 800 тисяч фрагментах ліцензійної музики з аудіотеки AudioSparks.

Сервіс Stable Audio буде доступний безплатно або в Pro-версії за 12 доларів на місяць. Безплатна версія дозволяє генерувати 20 треків на місяць тривалістю до 20 секунд, версія Pro дозволяє виконувати до 500 генерацій за тривалості треків до 90 секунд.

Джерела:
VentureBeat
Stability AI