近日,Picsart AI Resarch 等團(tuán)隊(duì)聯(lián)合發(fā)布了 StreamingT2V,可以生成長(zhǎng)達(dá) 1200 幀、時(shí)長(zhǎng)為 2 分鐘的視頻,一舉超越 Sora。
同時(shí),作為開(kāi)源世界的強(qiáng)大組件,StreamingT2V 可以無(wú)縫兼容 SVD 和 animatediff 等模型。
120 秒超長(zhǎng) AI 視頻模型來(lái)了!不但比 Sora 長(zhǎng),而且免費(fèi)開(kāi)源!
Picsart AI Resarch 等團(tuán)隊(duì)聯(lián)合發(fā)布了 StreamingT2V,可以生成長(zhǎng)達(dá) 1200 幀、時(shí)長(zhǎng)為 2 分鐘的視頻,同時(shí)質(zhì)量也很不錯(cuò)。
論文地址:https://arxiv.org/ pdf / 2403.14773.pdf
Demo 試用:https://huggingface.co/ spaces / PAIR / StreamingT2V
開(kāi)源代碼:https://github.com/ Picsart-AI-Research / StreamingT2V
并且,作者表示,兩分鐘并不是模型的極限,就像之前 Runway 的視頻可以延長(zhǎng)一樣,StreamingT2V 理論上可以做到無(wú)限長(zhǎng)。
在 Sora 之前,Pika、Runway、Stable Video Diffusion(SVD)等視頻生成模型,一般只能生成幾秒鐘的視頻,最多延長(zhǎng)到十幾秒。
Sora 一出,60 秒的時(shí)長(zhǎng)直接秒殺一眾模型,Runway 的 CEO Cristóbal Valenzuela 當(dāng)天便發(fā)推表示:比賽開(kāi)始了。
—— 這不,120 秒的超長(zhǎng) AI 視頻說(shuō)來(lái)就來(lái)了。
這下雖說(shuō)不能馬上撼動(dòng) Sora 的統(tǒng)治地位,但至少在時(shí)長(zhǎng)上扳回一城。
更重要的是,StreamingT2V 作為開(kāi)源世界的強(qiáng)大組件,可以兼容 SVD 和 animatediff 等項(xiàng)目,更好地促進(jìn)開(kāi)源生態(tài)的發(fā)展:
通過(guò)放出的例子來(lái)看,目前兼容的效果還稍顯抽象,但技術(shù)進(jìn)步只是時(shí)間的問(wèn)題,卷起來(lái)才是最重要的~
總有一天我們都能用上「開(kāi)源的 Sora」,—— 你說(shuō)是吧?OpenAI。
免費(fèi)開(kāi)玩
目前,StreamingT2V 已在 GitHub 開(kāi)源,同時(shí)還在 huggingface 上提供了免費(fèi)試玩,等不了了,小編馬上開(kāi)測(cè):
不過(guò)貌似服務(wù)器負(fù)載太高,上面的這個(gè)不知道是不是等待時(shí)間,反正小編沒(méi)能成功。
目前試玩的界面可以輸入文字和圖片兩種提示,后者需要在下面的高級(jí)選項(xiàng)中開(kāi)啟。
兩個(gè)生成按鈕中,F(xiàn)aster Preview 指的是分辨率更低、時(shí)長(zhǎng)更短的視頻。
小編于是轉(zhuǎn)戰(zhàn)另一個(gè)測(cè)試平臺(tái)(https://replicate.com/ camenduru / streaming-t2v),終于獲得一次測(cè)試機(jī)會(huì),以下是文字提示:
A beautiful girl with short hair wearing a school uniform is walking on the spring campus
不過(guò)可能由于小編的要求比較復(fù)雜,導(dǎo)致生成的效果多少有點(diǎn)驚悚,諸位可以根據(jù)自己的經(jīng)驗(yàn)自行嘗試。
以下是 huggingface 上給出的一些成功案例:
StreamingT2V
「世界名畫(huà)」
Sora 的橫空出世曾帶來(lái)巨大的轟動(dòng),使得前一秒還閃閃發(fā)光的 Pika、Runway、SVD 等模型,直接變成了「前 Sora 時(shí)代」的作品。
不過(guò)就如同 StreamingT2V 的作者所言,pre-Sora days 的模型也有自己的獨(dú)特魅力。
模型架構(gòu)
StreamingT2V 是一種先進(jìn)的自回歸技術(shù),可以創(chuàng)建具有豐富運(yùn)動(dòng)動(dòng)態(tài)的長(zhǎng)視頻,而不會(huì)出現(xiàn)任何停滯。
它確保了整個(gè)視頻的時(shí)間一致性,與描述性文本緊密對(duì)齊,并保持了高幀級(jí)圖像質(zhì)量。
現(xiàn)有的文本到視頻擴(kuò)散模型,主要集中在高質(zhì)量的短視頻生成(通常為 16 或 24 幀)上,直接擴(kuò)展到長(zhǎng)視頻時(shí),會(huì)出現(xiàn)質(zhì)量下降、表現(xiàn)生硬或者停滯等問(wèn)題。
AI 生成視頻
而通過(guò)引入 StreamingT2V,可以將視頻擴(kuò)展到 80、240、600、1200 幀,甚至更長(zhǎng),并具有平滑過(guò)渡,在一致性和運(yùn)動(dòng)性方面優(yōu)于其他模型。
StreamingT2V 的關(guān)鍵組件包括:
(i)稱為條件注意力模塊(CAM)的短期記憶塊,它通過(guò)注意機(jī)制根據(jù)從前一個(gè)塊中提取的特征來(lái)調(diào)節(jié)當(dāng)前一代,從而實(shí)現(xiàn)一致的塊過(guò)渡;
(ii)稱為外觀保留模塊(APM)的長(zhǎng)期記憶塊,它從第一個(gè)視頻塊中提取高級(jí)場(chǎng)景和對(duì)象特征,以防止模型忘記初始場(chǎng)景;
(iii)一種隨機(jī)混合方法,該方法能夠?qū)o(wú)限長(zhǎng)的視頻自動(dòng)回歸應(yīng)用視頻增強(qiáng)器,而不會(huì)出現(xiàn)塊之間的不一致。
上面是 StreamingT2V 的整體流水線圖。在初始化階段,第一個(gè) 16 幀塊由文本到視頻模型合成。在流式處理 T2V 階段中,將自動(dòng)回歸生成更多幀的新內(nèi)容。
最后,在流優(yōu)化階段,通過(guò)應(yīng)用高分辨率文本到短視頻模型,并配備上面提到的隨機(jī)混合方法,生成的長(zhǎng)視頻(600、1200 幀或更多)會(huì)自動(dòng)回歸增強(qiáng)。
上圖展示了 StreamingT2V 方法的整體結(jié)構(gòu):條件注意力模塊(CAM)作為短期記憶,外觀保留模塊(APM)擴(kuò)展為長(zhǎng)期記憶。CAM 使用幀編碼器對(duì)前一個(gè)塊上的視頻擴(kuò)散模型(VDM)進(jìn)行條件處理。
CAM 的注意力機(jī)制保證了塊和視頻之間的平滑過(guò)渡,同時(shí)具有高運(yùn)動(dòng)量。
APM 從錨幀中提取高級(jí)圖像特征,并將其注入到 VDM 的文本交叉注意力中,這樣有助于在視頻生成過(guò)程中保留對(duì)象 / 場(chǎng)景特征。
條件注意模塊
研究人員首先預(yù)訓(xùn)練一個(gè)文本到(短)視頻模型(Video-LDM),然后使用 CAM(前一個(gè)區(qū)塊的一些短期信息),對(duì) Video-LDM 進(jìn)行自回歸調(diào)節(jié)。
CAM 由一個(gè)特征提取器和一個(gè)特征注入器組成,整合到 Video-LDM 的 UNet 中,特征提取器使用逐幀圖像編碼器 E。
對(duì)于特征注入,作者使 UNet 中的每個(gè)遠(yuǎn)程跳躍連接,都關(guān)注 CAM 通過(guò)交叉注意力生成的相應(yīng)特征。
CAM 使用前一個(gè)塊的最后一個(gè) Fconditional 幀作為輸入,交叉注意力能夠?qū)⒒灸P偷?F 幀調(diào)節(jié)為 CAM。
相比之下,稀疏編碼器使用卷積進(jìn)行特征注入,因此需要額外的 F ? Fzero 值幀(和掩碼)作為輸入,以便將輸出添加到基本模型的 F 幀中。這會(huì)導(dǎo)致 SparseCtrl 的輸入不一致,導(dǎo)致生成的視頻嚴(yán)重不一致。
外觀保存模塊
自回歸視頻生成器通常會(huì)忘記初始對(duì)象和場(chǎng)景特征,從而導(dǎo)致嚴(yán)重的外觀變化。
為了解決這個(gè)問(wèn)題,外觀保留模塊(APM)利用第一個(gè)塊的固定錨幀中包含的信息來(lái)整合長(zhǎng)期記憶。這有助于在視頻塊生成之間維護(hù)場(chǎng)景和對(duì)象特征。
為了使 APM 能夠平衡錨幀的引導(dǎo)和文本指令的引導(dǎo),作者建議:
(i)將錨幀的 CLIP 圖像標(biāo)記,與文本指令中的 CLIP 文本標(biāo)記混合,方法是使用線性層將剪輯圖像標(biāo)記擴(kuò)展到 k = 8,在標(biāo)記維度上連接文本和圖像編碼,并使用投影塊。
(ii) 為每個(gè)交叉注意力層引入了一個(gè)權(quán)重 α∈R(初始化為 0),以使用來(lái)自加權(quán)總和 x 的鍵和值,來(lái)執(zhí)行交叉注意力。
自動(dòng)回歸視頻增強(qiáng)
為了進(jìn)一步提高文本到視頻結(jié)果的質(zhì)量和分辨率,這里利用高分辨率(1280x720)文本到(短)視頻模型(Refiner Video-LDM)來(lái)自動(dòng)回歸增強(qiáng)生成視頻的 24 幀塊。
使用文本到視頻模型作為 24 幀塊的細(xì)化器 / 增強(qiáng)器,是通過(guò)向輸入視頻塊添加大量噪聲,并使用文本到視頻擴(kuò)散模型去噪來(lái)完成的。
然而,獨(dú)立增強(qiáng)每個(gè)塊的簡(jiǎn)單方法會(huì)導(dǎo)致不一致的過(guò)渡:
作者通過(guò)在連續(xù)塊之間使用共享噪聲,并利用隨機(jī)混合方法來(lái)解決這個(gè)問(wèn)題。
對(duì)比測(cè)試
上圖是 DynamiCrafter-XL 和 StreamingT2V 的視覺(jué)比較,使用相同的提示。
X-T 切片可視化顯示,DynamiCrafter-XL 存在嚴(yán)重的塊不一致和重復(fù)運(yùn)動(dòng)。相比之下,StreamingT2V 則可以無(wú)縫過(guò)渡、不斷發(fā)展。
現(xiàn)有方法不僅容易出現(xiàn)時(shí)間不一致和視頻停滯,而且隨著時(shí)間的推移,它們會(huì)受到物體外觀 / 特征變化,和視頻質(zhì)量下降的影響(例如下圖中的 SVD)。
原因是,由于僅對(duì)前一個(gè)塊的最后一幀進(jìn)行調(diào)節(jié),它們忽略了自回歸過(guò)程的長(zhǎng)期依賴性。
在上圖的視覺(jué)比較中(80 幀長(zhǎng)度、自回歸生成視頻),StreamingT2V 生成長(zhǎng)視頻而不會(huì)出現(xiàn)運(yùn)動(dòng)停滯。
AI 長(zhǎng)視頻能做什么
各家都在卷的視頻生成,最直觀的應(yīng)用場(chǎng)景,可能是電影或者游戲。
用 AI 生成的電影片段(Pika,Midjourney,Magnific):
Runway 甚至搞了個(gè) AI 電影節(jié):
不過(guò)另一個(gè)答案是什么呢?
世界模型
長(zhǎng)視頻創(chuàng)造的虛擬世界,是 Agent 和人形機(jī)器人最好的訓(xùn)練環(huán)境,當(dāng)然前提是足夠長(zhǎng),也足夠真實(shí)(符合物理世界的邏輯)。
也許未來(lái)的某一天,那里也會(huì)是我們?nèi)祟惖纳婵臻g。
參考資料:
https://github.com/Picsart-AI-Research/StreamingT2V
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。