Stability AI — компания, которую знают по Stable Diffusion — выпустила новое семейство аудиомоделей Stable Audio 3.0. Флагманская версия генерирует полноценные музыкальные треки длиной до 6 минут 20 секунд.

Всего в линейке четыре модели: два варианта Small (459M параметров каждый), Medium (1,4B) и Large (2,7B). Маленькие работают прямо на устройстве и выдают треки до двух минут. Средняя и большая справляются с полными композициями — с музыкальной структурой и сохранением мелодии на протяжении всего трека.

Для сравнения: предыдущая открытая версия, Stable Audio Open, генерировала максимум 47 секунд. 6 минут 20 секунд — более чем вдвое дольше того, на что был способен Stable Audio 2.0.

Small SFX, Small и Medium доступны с открытыми весами — их можно скачать, модифицировать и встраивать в свои проекты. Large работает только через API или в режиме self-hosting. Компаниям с выручкой выше $1 млн потребуется enterprise-лицензия.

Важный момент: модели обучены на лицензированных данных. Stability AI ещё в прошлом году заключила соглашения с Warner Music Group и Universal Music Group. На фоне судебных разбирательств вокруг Suno и Udio это не мелкая деталь — это попытка заранее закрыть юридическую уязвимость.

Компания также строит продукты для профессиональных музыкантов. Возглавить это направление позвали Итана Каплана — бывшего директора по цифровым продуктам в Universal Audio и Fender.

Открытые веса уже доступны, Large — через API.

Похожие материалы

Opus 5 обогнала Fable 5 по бенчмаркам — и стоит дешевле

ChatGPT научили выполнять задачи на компьютере по голосовой команде

«ОТП Банк» встроил оплату Perplexity прямо в свое приложение