IT之家 8 月 6 日消息,阿里團(tuán)隊(duì)最新推出了 AI 視頻生成框架 Tora,同時(shí)集成了文本、視覺和軌跡條件用于生成視頻,是基于軌跡導(dǎo)向的擴(kuò)散變換器(DiT)技術(shù)。
Tora 由一個(gè)軌跡提取器(TE)、一個(gè)時(shí)空 DiT 和一個(gè)運(yùn)動引導(dǎo)融合器(MGF)組成:
TE 使用 3D 視頻壓縮網(wǎng)絡(luò)將任意軌跡編碼為分層時(shí)空運(yùn)動補(bǔ)丁。
MGF 將運(yùn)動貼片集成到 DiT 模塊中,以生成遵循軌跡的連貫視頻。
Tora 無縫契合 DiT 設(shè)計(jì),支持制作最長 204 幀、720P 分辨率的視頻,可以精確控制不同持續(xù)時(shí)間、寬高比和分辨率的視頻內(nèi)容。大量實(shí)驗(yàn)證明,Tora 在實(shí)現(xiàn)高運(yùn)動保真度方面表現(xiàn)出色,同時(shí)還能細(xì)致模擬物理世界的運(yùn)動。
其獨(dú)特設(shè)計(jì)理念融合文本、視覺和軌跡條件,精準(zhǔn)控制視頻內(nèi)容,模擬物理世界運(yùn)動規(guī)律,為電影特效制作、虛擬現(xiàn)實(shí)領(lǐng)域帶來無限可能。
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。