首頁 > IT資訊>業(yè)界

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

量子位 2022/6/25 13:32:18 責(zé)編：瀟公子

評論：

人類的預(yù)測能力 + ViT，會產(chǎn)生什么樣的化學(xué)反應(yīng)？會讓機(jī)器人的行動規(guī)劃能力又快又準(zhǔn)。

這是李飛飛團(tuán)隊的最新研究 ——MaskViT，通過 MVM，掩碼視覺建模對 Transformer 進(jìn)行預(yù)訓(xùn)練，從而建立視頻預(yù)測模型。

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

結(jié)果顯示，MaskViT 不僅能生成 256*256 視頻，還可以讓機(jī)器人行動規(guī)劃的推理速度最高提高了 512 倍。

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

來看看這是項什么樣的研究？

從人類身上找靈感

神經(jīng)科學(xué)領(lǐng)域的研究表明，人類的認(rèn)知、感知能力是有一種預(yù)測機(jī)制來支持的。這種對世界的預(yù)測模型，可以用來模擬、評估和選擇不同的可能行動。對人類來說，這一過程是快速和準(zhǔn)確的。

如果能賦予機(jī)器人類似的預(yù)測能力。那么他們就可以在復(fù)雜的動態(tài)環(huán)境中快速規(guī)劃、執(zhí)行各類任務(wù)。

比如，通過視覺模型來預(yù)測控制，也許就是一種方式，但也對算力和準(zhǔn)確性提出了更高的要求。于是，李飛飛團(tuán)隊就想到了最近諸多進(jìn)展的 ViT 架構(gòu)，以及以何愷明 MAE 為代表的基于 MVM，Masked Visual Modeling 這一自監(jiān)督預(yù)訓(xùn)練表征。

但具體要操作起來，仍有不少的技術(shù)挑戰(zhàn)。

一方面，全局注意力機(jī)制的復(fù)雜度與輸入序列長度的平方呈正比，導(dǎo)致視頻處理成本過高。另一方面，視頻預(yù)測任務(wù)和自回歸掩碼視覺預(yù)訓(xùn)練之間存在不一致。實際測試時，模型必須從頭預(yù)測完整的未來幀序列，導(dǎo)致視頻預(yù)測質(zhì)量不好。

基于這樣的背景，李飛飛團(tuán)隊提出了 MaskViT—— 通過掩碼視覺建模對 Transformer 進(jìn)行預(yù)訓(xùn)練，從而建立視頻預(yù)測模型。

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

具體有兩種設(shè)計決策。

首先，為了提高記憶和訓(xùn)練效率，使用了兩種類型的窗口注意力：空間注意力和時空注意力。其次，訓(xùn)練過程中掩碼的 token 比例是可變的。在推理階段，視頻是通過迭代細(xì)化生成的，其中按照掩碼調(diào)度函數(shù)逐步降低掩碼率。

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

實驗結(jié)果

研究團(tuán)隊在三個不同數(shù)據(jù)集，以及四個不同指標(biāo)來評估了 MaskViT。結(jié)果顯示，跟以往先進(jìn)的方法比較，MaskViT 都表現(xiàn)出了更好的性能，可生成分辨率達(dá) 256 × 256 的視頻。

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

還在 BAIR 進(jìn)行了消融實驗。

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

隨后，團(tuán)隊還展示了真實機(jī)器人使用 MaskViT 進(jìn)行實時規(guī)劃的效果。

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

推理速度最高可提升 512 倍。

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

研究人員表示，本次工作表明，可以通過最小的領(lǐng)域知識，利用掩碼視覺建模的一般框架，賦予像智能體強(qiáng)大的預(yù)測模型。但同時表示，也具有一定的局限性。比如在每幀量化時會出現(xiàn)閃爍偽影，尤其是在 RoboNet 這種有靜態(tài)背景的視頻中。

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

還有如果要擴(kuò)大視頻預(yù)測的規(guī)模，也仍然具有挑戰(zhàn)性，特別是那種有大量攝像機(jī)運(yùn)動的場景。未來，他們將探索把這一視頻預(yù)測方法整合到更復(fù)雜的規(guī)劃算法中。值得一提的是，在今年 5 月，何愷明團(tuán)隊曾提出過視頻版 MAE，并發(fā)現(xiàn)最佳掩蔽率高達(dá) 90%。

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

論文鏈接：

https://arxiv.org/abs/2206.11894

項目鏈接：

https://maskedvit.github.io/

何愷明論文：

https://arxiv.org/abs/2205.09113

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

李飛飛團(tuán)隊將 ViT 用在機(jī)器人身上，規(guī)劃推理最高提速 512 倍，還 cue 了何愷明的 MAE

從人類身上找靈感

實驗結(jié)果

相關(guān)文章