設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

新出生的機器狗,打滾 1 小時后自己掌握走路,吳恩達開山大弟子最新成果

量子位 2022/6/30 14:25:49 責(zé)編:長河

現(xiàn)在,讓機械狗自己打滾一個小時,它就能學(xué)會走路了!

步態(tài)看著相當有模有樣:

還能扛住大棍子的一通狂懟:

就算是摔了個四仰八叉,翻個身自己又站起來了:

如此看來,訓(xùn)機械狗和普通訓(xùn)狗真是要沒什么兩樣了啊。

這就是 UC 伯克利大學(xué)帶來的最新成果,讓機器人直接在實際環(huán)境中訓(xùn)練學(xué)習(xí),不再依賴于模擬器。

應(yīng)用這一方法,研究人員在短時間內(nèi)訓(xùn)練出了 4 個機器人。

比如開頭看到的 1 小時學(xué)會走路的機械狗;

還有 2 個機械臂,在 8-10 小時實戰(zhàn)抓取后,表現(xiàn)接近于人類水平;

以及一個擁有計算機視覺的小機器人,在自己摸索 2 小時后,能絲滑地滾動到指定位置。

該研究由 Pieter Abbeel 等人提出,Pieter Abbeel 是吳恩達的第一位博士生,前不久他剛剛獲得 2021 ACM 計算獎(ACM Prize in Computing)。

目前,該方法的所有軟件基礎(chǔ)架構(gòu)已經(jīng)開源。

一個叫做“空想家”的算法

本文方法的 pipeline 大致可分為 4 步:

第一步,是先把機器人放在真實環(huán)境里,收集數(shù)據(jù)。

第二步,把這些數(shù)據(jù)傳輸?shù)?Replay Buffer。這一步驟就是利用歷史數(shù)據(jù)進行訓(xùn)練、“總結(jié)經(jīng)驗”,高效利用收集到的樣本。

第三步,World Model 會對已有經(jīng)驗進行學(xué)習(xí),然后“腦補”出策略。

第四步,再用演員評論家(Actor Critic)算法來提升策略梯度法的性能。

然后循環(huán)往復(fù),將已經(jīng)提煉出的辦法再使用到機器人身上,最后達到一種“自己摸索學(xué)習(xí)”的感覺。

具體來看,這里的核心環(huán)節(jié)是 World Model。

World Models 是 2018 年由 DAVID HA 等人提出的一種快速無監(jiān)督學(xué)習(xí)方式,獲得了 NIPS 2018 的 Oral Presentation。

它的核心理念是認為人類是基于已有經(jīng)驗,形成了一個心理世界模型,我們所做的決定和行動都是基于這個內(nèi)部模型。

比如人類在打棒球時,做出反應(yīng)的速度遠比視覺信息傳達到大腦中的快,那么在這種情況下還能正確回球的原因,就是因為大腦已經(jīng)做出了本能的預(yù)測。

此前,基于 World Model 這種“腦補”的學(xué)習(xí)方法,谷歌提出了 Dreamer 這種可擴展的強化學(xué)習(xí)方法。

這一次提出的方法是在此基礎(chǔ)上,叫做 DayDreamer。

(貌似可以叫做空想家?)

具體來看,World Model 就是一個智能體模型。

它包括一個視覺感知組件,能將看到的圖像壓縮成一個低維的表征向量作為模型輸入。

同時還有一個記憶組件,可以基于歷史信息,對未來的表征向量做出預(yù)測。

最后,還包括一個決策組件,它能基于視覺感知組件、決策組件的表征向量,決定采取怎樣的動作。

現(xiàn)在,我們回到本次 UC 伯克利學(xué)者提出的方法。

不難發(fā)現(xiàn),其中 World Model Learning 部分的邏輯就是一個經(jīng)驗積累的過程,Behavior Learning 部分則是一個動作輸出的過程。

本篇論文方法的提出,主要解決了機器人訓(xùn)練中兩方面的問題:

效率和準確率。

一般來說,訓(xùn)練機器人的常規(guī)方法是強化學(xué)習(xí),通過反復(fù)實驗來調(diào)整機器人的運作。

不過這種方法往往需要非常大量的測試,才能達到很好的效果。

不僅效率低下,而且訓(xùn)練需要付出的成本也不低。

后來,不少人提出在模擬器中對機器人進行訓(xùn)練,可以很好增效降本。

但是本文作者認為,模擬器訓(xùn)練方法在準確性方面的表現(xiàn)還是不夠好,只有真實的環(huán)境才能讓機器人達到最好的效果。

從結(jié)果來看,在訓(xùn)練機器狗的過程中,只花 10 分鐘時間,機器狗就能適應(yīng)自己的行為了。

和 SAC 方法對比來看,效果有明顯提升。

在機械臂訓(xùn)練過程中,這一新方法還克服了視覺定位和稀疏獎勵的挑戰(zhàn),幾小時內(nèi)的訓(xùn)練成果明顯優(yōu)于其他方法。

研究團隊

值得一提的是,本次帶來新成果的研究團隊成員,也非常令人矚目。

其中,Pieter Abbeel 是吳恩達的開山大弟子。

他現(xiàn)在是 UC 伯克利電氣工程和計算機科學(xué)教授,伯克利機器人學(xué)習(xí)實驗室主任,伯克利 AI 研究院共同主任,曾加入過 OpenAI。

前不久,他還獲得了 2021 ACM 計算獎(ACM Prize in Computing),以表彰其在機器人學(xué)習(xí)方面的貢獻。

與此同時,他還是 AI 機器人公司 Covariant 的聯(lián)合創(chuàng)始人。

另一位 Ken Goldberg,也是 AI 領(lǐng)域的頂級專家。

他現(xiàn)在是 UC 伯克利工程教授,研究方向為強化學(xué)習(xí)、人機交互等。

2005 年,他被評選為 IEEE 院士。

與此同時,Goldberg 還是一位藝術(shù)家,是 UC 伯克利藝術(shù)、科技文化研討會的奠基人。

此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner 三人為共同一作。

其中 Philipp Wu 還只是 UC 伯克利一位大四的學(xué)生。

One More Thing

在觀看機械狗訓(xùn)練的視頻時,我們發(fā)現(xiàn)研究人員使用的 Unitree 機械狗,這個品牌來自中國企業(yè)宇樹科技,之前登上過春晚的機器小牛,也來自它家。

而且,最近宇樹機器狗集體進行 Go1 測試的視頻曝光,還在國外火了一波。

論文地址:

https://danijar.com/project/daydreamer/

參考鏈接:

https://worldmodels.github.io/

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:機器狗,AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知