設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
苹果 20 周年纪念版 iPhone 曝光    《哪吒 2》出品方要做 3A 游戏

豆包開源視頻生成模型 VideoWorld:首創(chuàng)免語言模型依賴認(rèn)知世界

2025/2/10 14:42:51 來源:IT之家 作者:清源 責(zé)編:清源

IT之家 2 月 10 日消息,豆包大模型團(tuán)隊(duì)聯(lián)合北京交通大學(xué)、中國科學(xué)技術(shù)大學(xué)共同開發(fā)的視頻生成實(shí)驗(yàn)?zāi)P汀癡ideoWorld”今日開源。不同于 Sora 、DALL-E 、Midjourney 等主流多模態(tài)模型,VideoWorld 在業(yè)界首次實(shí)現(xiàn)無需依賴語言模型,即可認(rèn)知世界。

據(jù)介紹,現(xiàn)有模型大多依賴語言或標(biāo)簽數(shù)據(jù)學(xué)習(xí)知識,很少涉及純視覺信號的學(xué)習(xí)。然而,語言并不能捕捉真實(shí)世界中的所有知識。例如折紙、打領(lǐng)結(jié)等復(fù)雜任務(wù),難以通過語言清晰表達(dá)。而 VideoWorld 去掉語言模型,實(shí)現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務(wù)。

同時(shí),它基于一種潛在動態(tài)模型,可高效壓縮視頻幀間的變化信息,顯著提升知識學(xué)習(xí)效率和效果。在不依賴任何強(qiáng)化學(xué)習(xí)搜索或獎(jiǎng)勵(lì)函數(shù)機(jī)制前提下,VideoWorld 達(dá)到了專業(yè) 5 段 9x9 圍棋水平,并能夠在多種環(huán)境中,執(zhí)行機(jī)器人任務(wù)。

IT之家附有關(guān)地址如下:

  • 論文鏈接:https://arxiv.org/abs/2501.09781

  • 代碼鏈接:https://github.com/bytedance/VideoWorld

  • 項(xiàng)目主頁:https://maverickren.github.io/VideoWorld.github.io

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:豆包,視頻生成模型
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知