設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上,規(guī)劃推理最高提速 512 倍,還 cue 了何愷明的 MAE

量子位 2022/6/25 13:32:18 責(zé)編:瀟公子

人類的預(yù)測能力 + ViT,會產(chǎn)生什么樣的化學(xué)反應(yīng)?會讓機(jī)器人的行動規(guī)劃能力又快又準(zhǔn)。

這是李飛飛團(tuán)隊的最新研究 ——MaskViT,通過 MVM,掩碼視覺建模對 Transformer 進(jìn)行預(yù)訓(xùn)練,從而建立視頻預(yù)測模型。

結(jié)果顯示,MaskViT 不僅能生成 256*256 視頻,還可以讓機(jī)器人行動規(guī)劃的推理速度最高提高了 512 倍。

來看看這是項什么樣的研究?

從人類身上找靈感

神經(jīng)科學(xué)領(lǐng)域的研究表明,人類的認(rèn)知、感知能力是有一種預(yù)測機(jī)制來支持的。這種對世界的預(yù)測模型,可以用來模擬、評估和選擇不同的可能行動。對人類來說,這一過程是快速和準(zhǔn)確的。

如果能賦予機(jī)器人類似的預(yù)測能力。那么他們就可以在復(fù)雜的動態(tài)環(huán)境中快速規(guī)劃、執(zhí)行各類任務(wù)。

比如,通過視覺模型來預(yù)測控制,也許就是一種方式,但也對算力和準(zhǔn)確性提出了更高的要求。于是,李飛飛團(tuán)隊就想到了最近諸多進(jìn)展的 ViT 架構(gòu),以及以何愷明 MAE 為代表的基于 MVM,Masked Visual Modeling 這一自監(jiān)督預(yù)訓(xùn)練表征。

但具體要操作起來,仍有不少的技術(shù)挑戰(zhàn)。

一方面,全局注意力機(jī)制的復(fù)雜度與輸入序列長度的平方呈正比,導(dǎo)致視頻處理成本過高。另一方面,視頻預(yù)測任務(wù)和自回歸掩碼視覺預(yù)訓(xùn)練之間存在不一致。實際測試時,模型必須從頭預(yù)測完整的未來幀序列,導(dǎo)致視頻預(yù)測質(zhì)量不好。

基于這樣的背景,李飛飛團(tuán)隊提出了 MaskViT—— 通過掩碼視覺建模對 Transformer 進(jìn)行預(yù)訓(xùn)練,從而建立視頻預(yù)測模型。

具體有兩種設(shè)計決策。

首先,為了提高記憶和訓(xùn)練效率,使用了兩種類型的窗口注意力:空間注意力和時空注意力。其次,訓(xùn)練過程中掩碼的 token 比例是可變的。在推理階段,視頻是通過迭代細(xì)化生成的,其中按照掩碼調(diào)度函數(shù)逐步降低掩碼率。

實驗結(jié)果

研究團(tuán)隊在三個不同數(shù)據(jù)集,以及四個不同指標(biāo)來評估了 MaskViT。結(jié)果顯示,跟以往先進(jìn)的方法比較,MaskViT 都表現(xiàn)出了更好的性能,可生成分辨率達(dá) 256 × 256 的視頻。

還在 BAIR 進(jìn)行了消融實驗。

隨后,團(tuán)隊還展示了真實機(jī)器人使用 MaskViT 進(jìn)行實時規(guī)劃的效果。

推理速度最高可提升 512 倍。

研究人員表示,本次工作表明,可以通過最小的領(lǐng)域知識,利用掩碼視覺建模的一般框架,賦予像智能體強(qiáng)大的預(yù)測模型。但同時表示,也具有一定的局限性。比如在每幀量化時會出現(xiàn)閃爍偽影,尤其是在 RoboNet 這種有靜態(tài)背景的視頻中。

還有如果要擴(kuò)大視頻預(yù)測的規(guī)模,也仍然具有挑戰(zhàn)性,特別是那種有大量攝像機(jī)運(yùn)動的場景。未來,他們將探索把這一視頻預(yù)測方法整合到更復(fù)雜的規(guī)劃算法中。值得一提的是,在今年 5 月,何愷明團(tuán)隊曾提出過視頻版 MAE,并發(fā)現(xiàn)最佳掩蔽率高達(dá) 90%。

論文鏈接:

https://arxiv.org/abs/2206.11894

項目鏈接:

https://maskedvit.github.io/

何愷明論文:

https://arxiv.org/abs/2205.09113

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:李飛飛,機(jī)器人,推理

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知