IT之家 6 月 6 日消息,Stability AI 立足 Stable Diffusion 文生圖模型,進(jìn)一步向音頻領(lǐng)域拓展,推出了 Stable Audio Open,可以基于用戶輸入的提示詞,生成高質(zhì)量音頻樣本。
Stable Audio Open 最長(zhǎng)可以創(chuàng)建 47 秒的音樂,非常適合鼓點(diǎn)、樂器旋律、環(huán)境音和擬聲音效,該開源模型基于 transforms 擴(kuò)散模型(DiT),在自動(dòng)編碼器的潛在空間中操作,提高生成音頻的質(zhì)量和多樣性。
Stable Audio Open 目前已經(jīng)開源,IT之家附上相關(guān)鏈接,感興趣的用戶可以在 HuggingFace 上試用。據(jù)說它使用了來自 FreeSound 和 Free Music Archive 等音樂庫(kù)的 486000 多種采樣進(jìn)行訓(xùn)練。
Stability AI 公司表示:“雖然它可以生成簡(jiǎn)短的音樂片段,但并不適合完整的歌曲、旋律或人聲”。
Stable Audio Open 和 Stable Audio 2.0 不同是,前者為開源模型,專注于短音頻片段和音效,而后者能夠生成最長(zhǎng) 3 分鐘的完整音頻。
相關(guān)閱讀:
《Stable Audio 2.0 發(fā)布:生成最長(zhǎng) 3 分鐘音頻,能幫音樂家補(bǔ)全創(chuàng)意作品》
《Stability AI 推出 Stable Audio,基于文本生成最長(zhǎng) 90 秒音頻》
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。