設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

機器人領域出了個「RoboGPT」:一個模型處理不同感官輸入,來自谷歌

量子位 2022/12/15 18:16:01 責編:遠生

懶得打掃房間,那就直接交給機器人來做吧。

想吃零食了,機器人也能幫你服務,薯片和紙巾都給你貼心備好。

而且,這個機器人只需要一個單一的預訓練模型,就能從不同的感官輸入 (如視覺、文本等)中生成命令,來執(zhí)行多種任務。

要知道,在以往機器人執(zhí)行命令時,處理這些不同的任務時,IO 規(guī)范、神經(jīng)網(wǎng)絡體系結構和目標等都是不一樣的。

現(xiàn)在,這個問題谷歌解決了,他們研究出了適用于機器人領域的 Transformer 模型:RT-1,甚至被人戲稱為 RoboGPT。

圖源:推特 @Jim Fan

更重要的是,RT-1 代碼已開源!

具體原理

先來整體看看 RT-1,它執(zhí)行任務主要依靠的就是:7+3+1

所謂 7,是指它的手臂有 7 個自由度,分別是 x,y,z,滾動,俯仰,偏航,手爪開口。

3 是指基礎運動的三個維度,即在地面運動時的 x,y,偏航。

1 則指 RT-1 的整體控制,即切換這三種模式:控制手臂,基礎運動,或終止任務。

圖源:Everyday Robots

而 RT-1 執(zhí)行任務時,它的底層邏輯還是純粹的監(jiān)督式學習,要做好監(jiān)督式學習,就得具備兩個條件:

豐富的數(shù)據(jù)集 和強大的神經(jīng)結構。

首先是數(shù)據(jù)集,RT-1 是在一個大規(guī)模的、真實世界的機器人數(shù)據(jù)集上進行訓練的,可以用 4 個數(shù)字來概括:13 萬、700+、13、17,分別表示:

包括 13 萬個片段;

涵蓋 700 多個任務;

使用了 13 個機器人;

歷時 17 個月。

然后就是 RT-1 的結構了,它執(zhí)行任務的過程如下圖所示。

具體來說,圖像和文本先通過 ImageNet 預訓練的卷積神經(jīng)網(wǎng)絡(EfficientNet)進行處理。

在這其中,為了確保文本和圖像同路能夠很好地被整合在一起,RT-1 還使用了 FiLM 層,這是一種通過語言嵌入來調(diào)節(jié)視覺活動的經(jīng)典技術。

這樣一來,RT-1 便能很好地提取與手頭任務相關的視覺特征。

然后這些視覺特征會被 Token Learner 模塊計算成一組緊湊的 token 傳遞給 Transformer,這使得機器人的推理速度能夠提高 2.4 倍以上

接下來 Transformer 會來處理這些 token 并產(chǎn)生離散化的操作 token,而操作 token 便是一開始說的那個 7+3+1 了。

通過控制手臂,基礎運動以及模式便能夠執(zhí)行任務了。

在執(zhí)行任務的整個過程中,RT-1 還會以 3Hz 的頻率執(zhí)行閉環(huán)控制和命令操作,直到產(chǎn)生終止操作或用完預先設置的時間步驟數(shù)。

不過話說回來,既然這個機器人能夠執(zhí)行多任務,那它執(zhí)行通用任務時的能力到底如何呢?

研究人員分別測試了 RT-1 對干擾物數(shù)量(第一行)、不同背景和環(huán)境(第二行)以及真實場景(第三行)的魯棒性。

并與其他基于模仿學習的基線進行比較,結果如下圖所示(第一項為訓練期間的表現(xiàn))。

顯而易見,在每個任務類別中,RT-1 都明顯優(yōu)于以前的模型。

研究團隊

這個機器人來自谷歌,研究團隊的成員也比較龐大,分別來自三個研究團隊:

首先是 Robotics at Google,它是 Google Research 下的一個細分領域團隊,目前正在探索“如何教機器人可轉(zhuǎn)移的技能”。

并且他們也在不斷公開其訓練的數(shù)據(jù),以幫助推進這一領域的最先進水平。

然后是 Everyday Robots ,它是 X-登月工廠的一個細分領域團隊,和谷歌團隊一起工作,目前他們正在制造一種新型機器人,一個可以自學的,可以幫助任何人做任何事情的通用機器人。

還有就是 Google Research,它是 Google 公司內(nèi)部進行各種最先進技術研究的部門,他們也有自己的開源項目,在 GitHub 公開。

項目地址:

https://github.com/google-research/robotics_transformer

論文地址:

https://arxiv.org/abs/2212.06817

參考鏈接:

  • https://robotics-transformer.github.io/

本文來自微信公眾號:量子位 (ID:QbitAI),作者:Pine

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:機器人,谷歌

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知