設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Stability AI 推出 Stable Video Diffusion 模型,可根據(jù)圖片生成視頻

2023/11/22 16:52:10 來源:IT之家 作者:遠(yuǎn)洋 責(zé)編:遠(yuǎn)洋
感謝IT之家網(wǎng)友 溯波 的線索投遞!

IT之家 11 月 22 日消息,專注于開發(fā)人工智能(AI)產(chǎn)品的初創(chuàng)公司 Stability AI 發(fā)布了其最新的 AI 模型 ——Stable Video Diffusion。這款模型能夠通過現(xiàn)有圖片生成視頻,是基于之前發(fā)布的 Stable Diffusion 文本轉(zhuǎn)圖片模型的延伸,也是目前為止市面上少有的能夠生成視頻的 AI 模型之一。

不過,這款模型目前并不是對所有人開放的。Stable Video Diffusion 目前處于 Stability AI 所謂的“研究預(yù)覽”階段。想要使用這款模型的人必須同意一些使用條款,其中規(guī)定了 Stable Video Diffusion 的預(yù)期應(yīng)用場景(例如“教育或創(chuàng)意工具”、“設(shè)計(jì)和其他藝術(shù)過程”等)和非預(yù)期的場景(例如“對人或事件的事實(shí)或真實(shí)的表達(dá)”)。

Stable Video Diffusion 實(shí)際上是由兩個模型組成的 ——SVD 和 SVD-XT。SVD 可以將靜態(tài)圖片轉(zhuǎn)化為 14 幀的 576×1024 的視頻。SVD-XT 使用相同的架構(gòu),但將幀數(shù)提高到 24。兩者都能以每秒 3 到 30 幀的速度生成視頻。

根據(jù) Stability AI 隨 Stable Video Diffusion 一起發(fā)布的一篇白皮書,SVD 和 SVD-XT 最初是在一個包含數(shù)百萬視頻的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,然后在一個規(guī)模較小的數(shù)據(jù)集上進(jìn)行了“微調(diào)”,這個數(shù)據(jù)集只有幾十萬到一百萬左右的視頻片段。這些視頻的來源并不十分清楚,白皮書暗示許多是來自公開的研究數(shù)據(jù)集,所以無法判斷是否有任何版權(quán)問題。

SVD 和 SVD-XT 都能生成質(zhì)量相當(dāng)高的四秒鐘的視頻,Stability AI 博客上精心挑選的樣本看起來可以與 Meta 最近的視頻生成模型以及谷歌和 AI 初創(chuàng)公司 Runway 和 Pika Labs 的 AI 生成視頻相媲美。

IT之家注意到,Stable Video Diffusion 也有局限性,Stability AI 對此也很坦誠,他們稱這些模型不能生成沒有運(yùn)動或緩慢的攝像機(jī)平移的視頻,也不能通過文本進(jìn)行控制,也不能渲染文字(至少不能清晰地渲染),也不能一致地“正確地”生成人臉和人物。

雖然還是早期階段,Stability AI 指出這些模型非常具有擴(kuò)展性,可以適應(yīng)諸如生成物體的 360 度視圖等用例。

Stability AI 最終的目標(biāo)似乎是將其商業(yè)化,稱 Stable Video Diffusion 在“廣告、教育、娛樂等領(lǐng)域”都有潛在的應(yīng)用。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Stability AI,AI人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知