Stable Audio Open 開源 AI 模型發(fā)布：48.6 萬(wàn)個(gè)樣本訓(xùn)練，可創(chuàng)建 47 秒短音頻 / 音效等

2024/6/6 14:15:01 來源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 6 月 6 日消息，Stability AI 立足 Stable Diffusion 文生圖模型，進(jìn)一步向音頻領(lǐng)域拓展，推出了 Stable Audio Open，可以基于用戶輸入的提示詞，生成高質(zhì)量音頻樣本。

Stable Audio Open 最長(zhǎng)可以創(chuàng)建 47 秒的音樂，非常適合鼓點(diǎn)、樂器旋律、環(huán)境音和擬聲音效，該開源模型基于 transforms 擴(kuò)散模型（DiT），在自動(dòng)編碼器的潛在空間中操作，提高生成音頻的質(zhì)量和多樣性。

Stable Audio Open 目前已經(jīng)開源，IT之家附上相關(guān)鏈接，感興趣的用戶可以在 HuggingFace 上試用。據(jù)說它使用了來自 FreeSound 和 Free Music Archive 等音樂庫(kù)的 486000 多種采樣進(jìn)行訓(xùn)練。

Stability AI 公司表示：“雖然它可以生成簡(jiǎn)短的音樂片段，但并不適合完整的歌曲、旋律或人聲”。

Stable Audio Open 和 Stable Audio 2.0 不同是，前者為開源模型，專注于短音頻片段和音效，而后者能夠生成最長(zhǎng) 3 分鐘的完整音頻。

《Stability AI 推出 Stable Audio，基于文本生成最長(zhǎng) 90 秒音頻》

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Stable Audio Open 開源 AI 模型發(fā)布：48.6 萬(wàn)個(gè)樣本訓(xùn)練，可創(chuàng)建 47 秒短音頻 / 音效等

相關(guān)文章

Stable Audio Open 開源 AI 模型發(fā)布：48.6 萬(wàn)個(gè)樣本訓(xùn)練，可創(chuàng)建 47 秒短音頻 / 音效等