IT之家 4 月 27 日消息,生數(shù)科技今天出席中關(guān)村論壇未來人工智能先鋒論壇,攜手清華大學正式發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型 ——Vidu,被媒體和業(yè)內(nèi)人士認為是國內(nèi)首個 Sora 級別的視頻大模型。
根據(jù)官方描述,Vidu 模型融合 Diffusion 與 Transformer,開創(chuàng)性創(chuàng)建了 U-ViT,支持一鍵生成長達 16 秒、分辨率高達 1080P 的高清視頻內(nèi)容。
官方宣傳資料中演示了“畫室中的一艘船駛向鏡頭”、其海浪、船的效果非常逼真。
官方表示 Vidu 不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點。
Vidu 是自 Sora 發(fā)布之后,全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平,并在加速迭代提升中。
Vidu 的快速突破源自于團隊在貝葉斯機器學習和多模態(tài)大模型的長期積累和多項原創(chuàng)性成果。
其核心技術(shù) U-ViT 架構(gòu)由團隊于 2022 年 9 月提出,早于 Sora 采用的 DiT 架構(gòu),是全球首個 Diffusion 與 Transformer 融合的架構(gòu)。
2023 年 3 月,團隊開源了全球首個基于 U-ViT 融合架構(gòu)的多模態(tài)擴散模型 UniDiffuser,率先完成了 U-ViT 架構(gòu)的大規(guī)??蓴U展性驗證。
IT之家附上參考地址
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。