設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
QQ 音乐会员歌曲单日播放设备数调整    微软解释 TPM 2.0 重要性

破解機(jī)器人抓取透明物體難題,地瓜機(jī)器人 & CASIA 單目新方案發(fā)布

2025/3/5 17:55:28 來源:IT之家 作者:汪淼 責(zé)編:汪淼

IT之家 3 月 5 日消息,全球機(jī)器人領(lǐng)域頂會 ICRA 2025(IEEE 機(jī)器人與自動化國際會議)日前公布了論文錄用結(jié)果,地瓜機(jī)器人主導(dǎo)研發(fā)的 DOSOD 開放詞匯目標(biāo)檢測算法與 MODEST 單目透明物體抓取算法成功入選。

作為機(jī)器人執(zhí)行各項任務(wù)中繞不開的操作對象,水杯、試管、窗戶等透明物體在人類生活中無處不在。然而,透明物體復(fù)雜的折射和反射特性給機(jī)器人感知造成了很大困難。在大多數(shù) RGB 圖像中的透明物體往往缺乏清晰的紋理,而容易與背景混為一體。此外,商用深度相機(jī)也難以準(zhǔn)確捕捉這些物體的深度信息,導(dǎo)致深度圖缺失或噪聲過多,從而限制了機(jī)器人在多個領(lǐng)域的廣泛應(yīng)用。

為了解決透明物體的抓取問題,地瓜機(jī)器人聯(lián)合中科院自動化所(簡稱:CASIA)多模態(tài)人工智能系統(tǒng)全國重點(diǎn)實(shí)驗室,推出了針對透明物體的單目深度估計和語義分割的多任務(wù)框架(簡稱:MODEST)。該框架借助創(chuàng)新性的語義和幾何融合模塊,結(jié)合獨(dú)特的特征迭代更新策略,提升了深度估計和語義分割的效果,尤其在抓取成功率和系統(tǒng)泛化性方面取得了突破性進(jìn)展。

圖片

MODEST 算法框架作為通用抓取模型的前置模塊,即插即用,且無需依賴額外傳感器,僅靠單張 RGB 圖像,便可實(shí)現(xiàn)透明物體的抓取,效果上甚至要優(yōu)于其它雙目和多視圖的方法,可以應(yīng)用于智能工廠、實(shí)驗室自動化、智慧家居等場景,降低設(shè)備成本并提升機(jī)器人對透明物體的操作能力。

圖片

MODEST 主要聚焦于透明物體的深度估計,通過設(shè)計的語義和幾何結(jié)合的多任務(wù)框架,獲取物體準(zhǔn)確的深度信息,之后結(jié)合基于點(diǎn)云的抓取網(wǎng)絡(luò)實(shí)現(xiàn)透明物體的抓取。相當(dāng)于在通用抓取網(wǎng)絡(luò)前面增加一個針對透明物體的增強(qiáng)模塊。

MODEST 模型的整體架構(gòu)如圖所示,輸入為單目 RGB 圖像,輸出為透明物體的分割結(jié)果和場景深度預(yù)測。網(wǎng)絡(luò)主要由編碼、重組、語義幾何融合和迭代解碼四個模塊組成。輸入圖像首先經(jīng)過基于 ViT 的編碼模塊進(jìn)行處理,隨后重組為對應(yīng)分割和深度兩個分支的多尺度特征。在融合模塊中對兩組特征進(jìn)行混合和增強(qiáng),最后通過多次迭代逐步更新特征,并獲得最終預(yù)測結(jié)果。

圖片

地瓜機(jī)器人將算法遷移到真實(shí)機(jī)器人平臺,開展了透明物體抓取實(shí)驗。平臺主要由 UR 機(jī)械臂和深度相機(jī)構(gòu)成,在借助 MODEST 方法進(jìn)行透明物體精確感知的基礎(chǔ)之上,采用 GraspNet 進(jìn)行抓取位姿的生成。在多個透明物體上的實(shí)驗結(jié)果表明,MODEST 方法在真實(shí)平臺上具有良好的魯棒性和泛化性(IT之家注:魯棒性是指系統(tǒng)在面對內(nèi)部結(jié)構(gòu)或外部環(huán)境變化時,仍能保持其功能穩(wěn)定運(yùn)行的能力)。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:機(jī)器人,地瓜機(jī)器人
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知