人類的預(yù)測能力 + ViT,會產(chǎn)生什么樣的化學(xué)反應(yīng)?會讓機(jī)器人的行動規(guī)劃能力又快又準(zhǔn)。
這是李飛飛團(tuán)隊的最新研究 ——MaskViT,通過 MVM,掩碼視覺建模對 Transformer 進(jìn)行預(yù)訓(xùn)練,從而建立視頻預(yù)測模型。
結(jié)果顯示,MaskViT 不僅能生成 256*256 視頻,還可以讓機(jī)器人行動規(guī)劃的推理速度最高提高了 512 倍。
來看看這是項什么樣的研究?
從人類身上找靈感
神經(jīng)科學(xué)領(lǐng)域的研究表明,人類的認(rèn)知、感知能力是有一種預(yù)測機(jī)制來支持的。這種對世界的預(yù)測模型,可以用來模擬、評估和選擇不同的可能行動。對人類來說,這一過程是快速和準(zhǔn)確的。
如果能賦予機(jī)器人類似的預(yù)測能力。那么他們就可以在復(fù)雜的動態(tài)環(huán)境中快速規(guī)劃、執(zhí)行各類任務(wù)。
比如,通過視覺模型來預(yù)測控制,也許就是一種方式,但也對算力和準(zhǔn)確性提出了更高的要求。于是,李飛飛團(tuán)隊就想到了最近諸多進(jìn)展的 ViT 架構(gòu),以及以何愷明 MAE 為代表的基于 MVM,Masked Visual Modeling 這一自監(jiān)督預(yù)訓(xùn)練表征。
但具體要操作起來,仍有不少的技術(shù)挑戰(zhàn)。
一方面,全局注意力機(jī)制的復(fù)雜度與輸入序列長度的平方呈正比,導(dǎo)致視頻處理成本過高。另一方面,視頻預(yù)測任務(wù)和自回歸掩碼視覺預(yù)訓(xùn)練之間存在不一致。實際測試時,模型必須從頭預(yù)測完整的未來幀序列,導(dǎo)致視頻預(yù)測質(zhì)量不好。
基于這樣的背景,李飛飛團(tuán)隊提出了 MaskViT—— 通過掩碼視覺建模對 Transformer 進(jìn)行預(yù)訓(xùn)練,從而建立視頻預(yù)測模型。
具體有兩種設(shè)計決策。
首先,為了提高記憶和訓(xùn)練效率,使用了兩種類型的窗口注意力:空間注意力和時空注意力。其次,訓(xùn)練過程中掩碼的 token 比例是可變的。在推理階段,視頻是通過迭代細(xì)化生成的,其中按照掩碼調(diào)度函數(shù)逐步降低掩碼率。
實驗結(jié)果
研究團(tuán)隊在三個不同數(shù)據(jù)集,以及四個不同指標(biāo)來評估了 MaskViT。結(jié)果顯示,跟以往先進(jìn)的方法比較,MaskViT 都表現(xiàn)出了更好的性能,可生成分辨率達(dá) 256 × 256 的視頻。
還在 BAIR 進(jìn)行了消融實驗。
隨后,團(tuán)隊還展示了真實機(jī)器人使用 MaskViT 進(jìn)行實時規(guī)劃的效果。
推理速度最高可提升 512 倍。
研究人員表示,本次工作表明,可以通過最小的領(lǐng)域知識,利用掩碼視覺建模的一般框架,賦予像智能體強(qiáng)大的預(yù)測模型。但同時表示,也具有一定的局限性。比如在每幀量化時會出現(xiàn)閃爍偽影,尤其是在 RoboNet 這種有靜態(tài)背景的視頻中。
還有如果要擴(kuò)大視頻預(yù)測的規(guī)模,也仍然具有挑戰(zhàn)性,特別是那種有大量攝像機(jī)運(yùn)動的場景。未來,他們將探索把這一視頻預(yù)測方法整合到更復(fù)雜的規(guī)劃算法中。值得一提的是,在今年 5 月,何愷明團(tuán)隊曾提出過視頻版 MAE,并發(fā)現(xiàn)最佳掩蔽率高達(dá) 90%。
論文鏈接:
https://arxiv.org/abs/2206.11894
項目鏈接:
https://maskedvit.github.io/
何愷明論文:
https://arxiv.org/abs/2205.09113
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。