Vision Pro 又現(xiàn)火爆新玩法,這回還和具身智能聯(lián)動(dòng)了~
就像這樣,MIT 小哥利用 Vision Pro 的手部追蹤功能,成功實(shí)現(xiàn)了對機(jī)器狗的實(shí)時(shí)控制。
不僅開門這樣的動(dòng)作能精準(zhǔn) get:
也幾乎沒什么延時(shí)。
Demo 一出,不僅網(wǎng)友們大贊鵝妹子嚶,各路具身智能研究人員也嗨了。
比如這位準(zhǔn)清華叉院博士生:
還有人大膽預(yù)測:這就是我們與下一代機(jī)器互動(dòng)的方式。
項(xiàng)目如何實(shí)現(xiàn),作者小哥樸英孝(Younghyo Park)已經(jīng)在 GitHub 上開源。相關(guān) App 可以直接在 Vision Pro 的 App Store 上下載。
用 Vision Pro 訓(xùn)練機(jī)器狗
具體來看看作者小哥開發(fā)的 App——Tracking Steamer。
顧名思義,這個(gè)應(yīng)用程序旨在利用 Vision Pro 追蹤人類動(dòng)作,并將這些動(dòng)作數(shù)據(jù)實(shí)時(shí)傳輸?shù)酵?WiFi 下的其他機(jī)器人設(shè)備上。
動(dòng)作追蹤的部分,主要依靠蘋果的 ARKit 庫來實(shí)現(xiàn)。
其中頭部追蹤調(diào)用的是 queryDeviceAnchor。用戶可以通過長按數(shù)字表冠來重置頭部框架到當(dāng)前位置。
手腕和手指追蹤則通過 HandTrackingProvider 實(shí)現(xiàn)。它能夠追蹤左右手腕相對于地面框架的位置和方向,以及每只手 25 個(gè)手指關(guān)節(jié)相對于手腕框架的姿態(tài)。
網(wǎng)絡(luò)通信方面,這個(gè) App 使用 gRPC 作為網(wǎng)絡(luò)通信協(xié)議來流式傳輸數(shù)據(jù)。這使得數(shù)據(jù)能被更多設(shè)備訂閱,包括 Linux、Mac 和 Windows 設(shè)備。
另外,為了方便數(shù)據(jù)傳輸,作者小哥還準(zhǔn)備了一個(gè) Python API,讓開發(fā)者能夠通過編程方式訂閱和接收從 Vision Pro 流式傳輸?shù)淖粉檾?shù)據(jù)。
API 返回的數(shù)據(jù)是字典形式,包含頭部、手腕、手指的 SE (3) 姿態(tài)信息,即三維位置和方向。開發(fā)者可以直接在 Python 中處理這些數(shù)據(jù),用于對機(jī)器人的進(jìn)一步分析和控制。
就像不少專業(yè)人士所指出的那樣,別看機(jī)器狗的動(dòng)作還是由人類控制,事實(shí)上,相比于“操控”本身,結(jié)合模仿學(xué)習(xí)算法,人類在這個(gè)過程中,更像是機(jī)器人的教練。
而 Vision Pro 通過追蹤用戶的動(dòng)作,提供了一種直觀、簡單的交互方式,使得非專業(yè)人員也能夠?yàn)闄C(jī)器人提供精準(zhǔn)的訓(xùn)練數(shù)據(jù)。
作者本人也在論文中寫道:
在不久的將來,人們可能會像日常戴眼鏡一樣佩戴 Vision Pro 這樣的設(shè)備,想象一下我們可以從這個(gè)過程中收集多少數(shù)據(jù)!
這是一個(gè)充滿前景的數(shù)據(jù)源,機(jī)器人可以從中學(xué)習(xí)到,人類是如何與現(xiàn)實(shí)世界交互的。
最后,提醒一下,如果你想上手試一試這個(gè)開源項(xiàng)目,那么除了必備一臺 Vision Pro 之外,還需要準(zhǔn)備:
蘋果開發(fā)者賬戶
Vision Pro 開發(fā)者配件(Developer Strap,售價(jià) 299 美元)
安裝了 Xcode 的 Mac 電腦
嗯,看樣子還是得先讓蘋果賺一筆了(doge)。
項(xiàng)目鏈接:
本文來自微信公眾號:量子位 (ID:QbitAI),作者:魚羊
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。