靈初智能發(fā)布首個基于強化學習的端到端具身模型 Psi R0，雙靈巧手協(xié)同進行復雜操作

2024/12/30 14:20:52 來源：IT之家作者：沛霖（實習） 責編：沛霖

評論：

IT之家 12 月 30 日消息，靈初智能發(fā)布首個基于強化學習（RL）的端到端具身模型 Psi R0。

IT之家獲悉，該模型支持雙靈巧手協(xié)同進行復雜操作，將多個技能串聯(lián)混訓，生成具有推理能力的智能體，從而完成并閉環(huán)長程靈巧操作任務。并且，Psi R0 還可以實現(xiàn)跨物品、跨場景級別的泛化。

以電商場景為例，商品打包是典型的長程任務作業(yè)，需對上萬件商品進行抓取，掃碼，放置，塑料袋打結等多個操作。Psi R0 能夠使用雙靈巧手流暢地完成這一系列動作（官方稱此系列動作在客戶現(xiàn)場可以取代一個完整工位），成為首個基于強化學習訓練完成長程靈巧操作任務的具身機器人。

靈初智能發(fā)布首個基于強化學習的端到端具身模型 Psi R0，雙靈巧手協(xié)同進行復雜操作

官方表示，基于 RL 的 Psi R0 模型，使用海量仿真數(shù)據(jù)訓練出雙手操作的智能體，并通過雙向訓練框架串聯(lián)多技能，在業(yè)界率先完成開放環(huán)境中的長程任務，具備較強的泛化能力與較高的魯棒性（robustness）。

這一技能訓練框架從物體時空軌跡抽象出關鍵信息以構建通用目標函數(shù)，從而解決獎勵函數(shù)難設計的問題。在后訓練階段，通過少量高質(zhì)量真機數(shù)據(jù)對齊，進一步提升長程任務的成功率。

靈初智能發(fā)布首個基于強化學習的端到端具身模型 Psi R0，雙靈巧手協(xié)同進行復雜操作

除此之外，雙向訓練框架中的轉(zhuǎn)移可行性函數(shù)發(fā)揮著重要作用，它能夠微調(diào)技能以提高串聯(lián)的成功率與泛化性，同時賦予模型自主切換技能的能力，使其在遭遇操作失敗時能夠迅速調(diào)整策略，確保高成功率。

靈初智能發(fā)布首個基于強化學習的端到端具身模型 Psi R0，雙靈巧手協(xié)同進行復雜操作

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結果僅供參考，IT之家所有文章均包含本聲明。

靈初智能發(fā)布首個基于強化學習的端到端具身模型 Psi R0，雙靈巧手協(xié)同進行復雜操作