1 月 19 日,瑞士蘇黎世聯(lián)邦理工學院的一項新成果登上國際學術(shù)頂刊 Science(《科學》)的子刊 Science Robotics(《科學?機器人學》)。研究人員推出一個類似機器狗的四足機器人,這個機器人能夠結(jié)合外部感知和本體感知,爬上 120 米高的山僅需要 31 分鐘,比人類徒步花費的時間還要快 4 分鐘。
山上往往都由濕滑地面上的陡峭路段、高高的臺階、碎石和布滿樹根的森林小徑組成,能在偏遠和危險環(huán)境中自主操作的腿式機器人,將幫助人類探索海拔較高的未知領(lǐng)域。
外部感知對于快速和節(jié)能的運動至關(guān)重要,機器人在接觸地形之前感知地形可以提前規(guī)劃和適應(yīng)步態(tài),以保持速度和穩(wěn)定性。
瑞士蘇黎世聯(lián)邦理工學院機器人系統(tǒng)實驗室機器人學教授馬可?赫特(Marco Hutter)領(lǐng)導(dǎo)的研究小組,聯(lián)合學校的衍生公司 ANYbotics,推出了商業(yè)化的腿式四足機器人 ANYmal,這個機器人能夠穿越多種類型的復(fù)雜地形。
▲ ANYmal 與其他四足機器人跨越障礙物對比
論文鏈接:
https://www.science.org/ doi / 10.1126 / scirobotics.abk2822
一、不依賴傳感器,自主判斷速度快慢
為了在困難的地形上前進,人類和動物會自動將其環(huán)境的視覺感知與他們的腿和手的本體感覺結(jié)合起來。這使他們能夠輕松應(yīng)對濕滑或松軟的地面,并較容易地四處走動。不過,到目前為止,腿式機器人只能在有限的范圍內(nèi)做到這一點。
“原因是激光傳感器和攝像頭記錄的有關(guān)直接環(huán)境的信息通常不完整且模棱兩可?!焙仗匮芯啃〗M的博士生、該研究的主要作者三木隆弘(Takahiro Miki)解釋說。
機器人能夠利用外部感知來行動,是該項技術(shù)中的一項重大挑戰(zhàn)。首先,山上的雪、植被和水表面的反射率高,機器人會將它們視為無法踩到或完全消失的障礙物;其次,由于山上有灰塵、霧氣,能見度低,或者由于光線反射、植被遮擋機器人身上的傳感器,這些都可能會導(dǎo)致傳感器的感知度降低。
受這些因素影響,機器人腿部運動比較通用的解決方案是靠本體感覺,這也嚴重限制了其運動速度,因為機器人需要先親身感受地形,然后再調(diào)整步態(tài)。
“這就是為什么像 ANYmal 這樣的機器人必須能夠自己決定,何時信任對環(huán)境的視覺感知并快速前進,何時最好謹慎行事,小步前進?!比韭『胝f。
▲ ANYmal 爬樓梯
二、控制器快速避障,10 秒前進 4 米多
赫特領(lǐng)導(dǎo)的研究小組提出的這種更加通用的解決方案,他們整合了機器人腿部運動的外部感受和本體感受。研究人員開發(fā)的具有高魯棒性和速度的腿式運動控制器,采用了基于注意力的循環(huán)編碼器。該編碼器可以集成本體感受和外部感受輸入,并經(jīng)過端到端的訓練,讓機器人學習無縫組合不同的感知模式。
“機器人已經(jīng)學會將其環(huán)境的視覺感知與本體感覺,也就是基于直接的腿部接觸的觸覺結(jié)合起來。這使它能夠更快、更有效地應(yīng)對崎嶇地形,最重要的是,更穩(wěn)健。”赫特說,未來,ANYmal 可以用于任何對人類來說太危險,或?qū)ζ渌麢C器人來說也難以通過的地方。
機器人在現(xiàn)實世界中實際行動之前,科學家們在虛擬訓練營中為這個四足機器人設(shè)置了眾多障礙,以便于它能找到克服多種障礙的理想方式,以及它何時可以依賴環(huán)境數(shù)據(jù)、何時可以忽略這些數(shù)據(jù)。
赫特說:“在實驗中評估機器人外部感知很重要。”研究人員在模擬的附加實驗中,他們還比較了各種階梯和樓梯地形中,機器人行動的成功率,以進一步定量評估其性能。
▲ ANYmal 上樓梯
在評估過程中,研究人員向機器人發(fā)出 0.7m / s 的固定前進速度指令,持續(xù) 10 秒,并收集了 300 個實驗數(shù)據(jù)來計算成功率。實驗成功的標準是機器人的行動距離是否超過 4 米。研究結(jié)果顯示,這個四足機器人的控制器性能明顯優(yōu)于基線,可以穿越更多類型的地形范圍。
▲ ANYmal 于其他機器人行動對比
三、教師 + 學生模型訓練,訓練迭代 1000 個環(huán)境
研究小組還采用了教師-學生模式來對機器人進行訓練。在訓練過程中,赫特將信息策略的控制頻率設(shè)置為 50 Hz,每個環(huán)境收集 250 個時間段的軌跡數(shù)據(jù),形成一次訓練迭代。隨后他們將模擬環(huán)境并行化,以同時執(zhí)行 1000 個環(huán)境的訓練。
對于教師模型,研究人員采用深度增強學習 PPO 算法,這個算法模型可以有效衡量機器人的步長。在將觀察結(jié)果匯總觀察之前,他們會使用運行平均值和標準偏差對其進行標準化,不同的實驗會在每一次訓練中以指數(shù)形式更新。
對于學生模型,赫特說:“我們在 300 個環(huán)境中進行了推廣,并為一次訓練迭代收集了 400 個時間段的軌跡?!辈⑶以谟柧殞W生模型時,實驗過程沒有高度樣本噪音干擾。
“通過這種訓練,機器人能夠在以前從未見過的情況下掌握最困難的自然地形?!焙仗卣f,“即使直接環(huán)境中的傳感器數(shù)據(jù)模棱兩可或含糊不清,這也有效。”
▲ ANYmal 與其他四足機器人避障對比
根據(jù)赫特的說法,ANYmal 會依靠其本體感覺安全行事,這樣的話機器人行動就做到了兩全其美,能夠結(jié)合外部感知的速度和效率以及本體感知的安全性。
結(jié)語:機器人或能幫助人類探索未知領(lǐng)域
在實際應(yīng)用場景中,ANYmal 在自主探索狹窄隧道、洞穴和城市基礎(chǔ)設(shè)施的地下系統(tǒng)的同時,還能自動快速地克服許多障礙物和困難地形。
機器人的快速避障和感知能力進一步提升,在未來,各種極端條件下,比如地震之后、核災(zāi)難之后或是森林火災(zāi)期間,對人類來說太危險以及其他機器人無法應(yīng)對困難地形的地方,像 ANYmal 這樣的機器人都可以派上大用場。
近年來,機器人研究的應(yīng)用在不斷擴展,機器人行動結(jié)合本體感受和外部感受等技術(shù),都在解決很多機器人運動的難題,該領(lǐng)域未來在人類未知領(lǐng)域的探索應(yīng)用場景可能會進一步擴大。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。