中國首個 Sora 級模型 Vidu 發(fā)布：可生成最長 16 秒、最高 1080P 視頻

2024/4/27 13:17:17 來源：IT之家作者：故淵責編：故淵

評論：

感謝IT之家網(wǎng)友 Hi_World 的線索投遞！

IT之家 4 月 27 日消息，生數(shù)科技今天出席中關(guān)村論壇未來人工智能先鋒論壇，攜手清華大學正式發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型 ——Vidu，被媒體和業(yè)內(nèi)人士認為是國內(nèi)首個 Sora 級別的視頻大模型。

根據(jù)官方描述，Vidu 模型融合 Diffusion 與 Transformer，開創(chuàng)性創(chuàng)建了 U-ViT，支持一鍵生成長達 16 秒、分辨率高達 1080P 的高清視頻內(nèi)容。

中國首個 Sora 級模型 Vidu 發(fā)布：可生成最長 16 秒、最高 1080P 視頻

官方宣傳資料中演示了“畫室中的一艘船駛向鏡頭”、其海浪、船的效果非常逼真。

中國首個 Sora 級模型 Vidu 發(fā)布：可生成最長 16 秒、最高 1080P 視頻

官方表示 Vidu 不僅能夠模擬真實物理世界，還擁有豐富想象力，具備多鏡頭生成、時空一致性高等特點。

Vidu 是自 Sora 發(fā)布之后，全球率先取得重大突破的視頻大模型，性能全面對標國際頂尖水平，并在加速迭代提升中。

Vidu 的快速突破源自于團隊在貝葉斯機器學習和多模態(tài)大模型的長期積累和多項原創(chuàng)性成果。

其核心技術(shù) U-ViT 架構(gòu)由團隊于 2022 年 9 月提出，早于 Sora 采用的 DiT 架構(gòu)，是全球首個 Diffusion 與 Transformer 融合的架構(gòu)。

2023 年 3 月，團隊開源了全球首個基于 U-ViT 融合架構(gòu)的多模態(tài)擴散模型 UniDiffuser，率先完成了 U-ViT 架構(gòu)的大規(guī)?？蓴U展性驗證。

中國首個 Sora 級模型 Vidu 發(fā)布：可生成最長 16 秒、最高 1080P 視頻

IT之家附上參考地址

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

相關(guān)文章