設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Stable Audio Open 開源 AI 模型發(fā)布:48.6 萬(wàn)個(gè)樣本訓(xùn)練,可創(chuàng)建 47 秒短音頻 / 音效等

2024/6/6 14:15:01 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 6 月 6 日消息,Stability AI 立足 Stable Diffusion 文生圖模型,進(jìn)一步向音頻領(lǐng)域拓展,推出了 Stable Audio Open,可以基于用戶輸入的提示詞,生成高質(zhì)量音頻樣本。

Stable Audio Open 最長(zhǎng)可以創(chuàng)建 47 秒的音樂,非常適合鼓點(diǎn)、樂器旋律、環(huán)境音和擬聲音效,該開源模型基于 transforms 擴(kuò)散模型(DiT),在自動(dòng)編碼器的潛在空間中操作,提高生成音頻的質(zhì)量和多樣性。

Stable Audio Open 目前已經(jīng)開源,IT之家附上相關(guān)鏈接,感興趣的用戶可以在 HuggingFace 上試用。據(jù)說它使用了來自 FreeSound 和 Free Music Archive 等音樂庫(kù)的 486000 多種采樣進(jìn)行訓(xùn)練。

Stability AI 公司表示:“雖然它可以生成簡(jiǎn)短的音樂片段,但并不適合完整的歌曲、旋律或人聲”。

Stable Audio Open 和 Stable Audio 2.0 不同是,前者為開源模型,專注于短音頻片段和音效,而后者能夠生成最長(zhǎng) 3 分鐘的完整音頻。

相關(guān)閱讀:

Stable Audio 2.0 發(fā)布:生成最長(zhǎng) 3 分鐘音頻,能幫音樂家補(bǔ)全創(chuàng)意作品

Stability AI 推出 Stable Audio,基于文本生成最長(zhǎng) 90 秒音頻

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AIStable Audio Open
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知