Розробники Stable Diffusion запустили Stable Audio для створення музики за текстовим описом

Запущено нову модель генеративного ШІ від компанії Stability AI. Ця команда відома завдяки популярному ШІ Stable Diffusion для створення якісних зображень за текстовим описом. Новий ШІ Stable Audio генерує музичні композиції на основі текстового опису.

В основі технології Stable Audio методи, які застосовувалися при розробці Stable Diffusion, але нейромережа навчалася на музичних даних. Stable Audio включає варіаційний автокодувальник (VAE), текстовий кодувальник та модель умовної дифузії на основі U-Net. Для інтерпретації тексту та зв'язків між словами та звуками використовується модель CLAP. Stable Audio працює безпосередньо з необробленими аудіосемплами для забезпечення високої якості виводу. Модель навчалася на більш ніж 800 тисяч фрагментах ліцензійної музики з аудіотеки AudioSparks.

Сервіс Stable Audio буде доступний безплатно або в Pro-версії за 12 доларів на місяць. Безплатна версія дозволяє генерувати 20 треків на місяць тривалістю до 20 секунд, версія Pro дозволяє виконувати до 500 генерацій за тривалості треків до 90 секунд.

Джерела:
VentureBeat
Stability AI

Ще новини:

Оголошено рекомендовану ціну Nintendo Switch 2. На консолі вийдуть Cyberpunk 2077, Elden Ring та інші ААА-ігри

Статистика Steam: частка систем із процесорами AMD зросла до рекордного показника

Nintendo оголосила дату релізу портативної консолі Switch 2

Останні огляди:

Огляд та тестування відеокарти ASUS TUF Gaming GeForce RTX 5090 32GB OC Edition. Порівняння з GeForce RTX 4090 та іншими опонентами

Огляд та тестування процесора Intel Core Ultra 7 265K та платформи LGA 1851. Черговий «плиточний» представник

Огляд 14″ хромбука-трансформера Acer Chromebook Plus Spin 514