AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

新智元 2024/2/6 13:56:44 責(zé)編：清源

評(píng)論：

【新智元導(dǎo)讀】近日，來自麻省理工的研究團(tuán)隊(duì)發(fā)表了 Ddog 項(xiàng)目，只需一副眼鏡就可以控制四足機(jī)器人，幫助特殊人群重獲希望

還記得之前的 AI 讀心術(shù)嗎？最近，「心想事成」的能力再次進(jìn)化 —— 人類可以通過自己的想法直接控制機(jī)器人了！

來自麻省理工的研究人員發(fā)表了 Ddog 項(xiàng)目，通過自己開發(fā)的腦機(jī)接口（BCI）設(shè)備，控制波士頓動(dòng)力的機(jī)器狗 Spot。狗狗可以按照人類的想法，移動(dòng)到特定區(qū)域、幫人拿東西、或者拍照等。

而且，相比于之前需要使用布滿了傳感器的頭套才能「讀心」，本次的腦機(jī)接口設(shè)備以一副無線眼鏡（AttentivU）的形式出現(xiàn)！

視頻中展示的行為也許比較簡(jiǎn)單，但這個(gè)系統(tǒng)的目的是將 Spot 改造為能夠?yàn)榛加屑∥s側(cè)索硬化癥（ALS）、腦癱或脊髓損傷等疾病的人士提供基本溝通工具。

整個(gè)系統(tǒng)的運(yùn)行只需要兩部 iPhone 和一副眼鏡，卻能給這些已經(jīng)對(duì)生活失去希望的人帶去實(shí)際的幫助和關(guān)懷。

并且，我們將在相關(guān)的論文中看到，這個(gè)系統(tǒng)實(shí)際上建立在非常復(fù)雜的工程之上。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

論文地址：點(diǎn)此查看

Ddog 系統(tǒng)使用 AttentivU 作為腦機(jī)接口系統(tǒng)，傳感器嵌入到鏡框中，用來測(cè)量一個(gè)人的腦電圖（EEG）或大腦活動(dòng)，以及眼電圖或眼球運(yùn)動(dòng)。

這項(xiàng)研究的基礎(chǔ)是 MIT 的 Brain Switch，一種實(shí)時(shí)的閉環(huán) BCI，允許用戶與看護(hù)人進(jìn)行非語(yǔ)言和實(shí)時(shí)的交流。

Ddog 系統(tǒng)成功率為 83.4%，并且，這是在個(gè)人助理用例中首次將無線、非視覺 BCI 系統(tǒng)與 Spot 集成。

我們可以看到腦機(jī)接口設(shè)備的進(jìn)化之路，以及開發(fā)者的一些思考。

在此之前，研究團(tuán)隊(duì)就已經(jīng)完成了腦機(jī)接口與智能家居的交互，而現(xiàn)在完成了控制能夠移動(dòng)和操作的機(jī)器人。

這些研究給了特殊人群一絲光明，讓他們有活下去的希望，甚至未來可以生活得更好。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

相比于章魚一樣的傳感器頭套，下面這個(gè)眼鏡確實(shí)酷多了。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

根據(jù)美國(guó)國(guó)家罕見疾病組織的數(shù)據(jù)，目前美國(guó)有 30000 名 ALS 患者，且估計(jì)每年診斷出 5000 例新病例。此外，根據(jù)《腦癱指南》，大約有 100 萬(wàn)美國(guó)人患有腦癱。

這些人中的許多人已經(jīng)或最終將失去走路、穿衣、說話、寫作甚至呼吸的能力。

雖然確實(shí)存在通信輔助工具，但大多數(shù)是允許用戶使用計(jì)算機(jī)進(jìn)行通信的眼睛凝視設(shè)備。允許用戶與周圍世界互動(dòng)的系統(tǒng)并不多。

這種 BCI 四足機(jī)器人系統(tǒng)作為一個(gè)早期的原型，為現(xiàn)代個(gè)人助理機(jī)器人的未來發(fā)展鋪平了道路。

希望在未來的迭代中，我們能看到更加驚人的能力。

腦控四足機(jī)器人

在這項(xiàng)工作中，研究人員探索了無線和可穿戴 BCI 設(shè)備如何控制四足機(jī)器人 —— 波士頓動(dòng)力公司的 Spot。

研究人員開發(fā)的設(shè)備通過嵌入眼鏡架中的電極測(cè)量用戶的腦電圖（EEG）和眼電圖（EOG）活動(dòng)。

用戶在心中回答一系列問題（「是」或「否」），每個(gè)問答都對(duì)應(yīng)一組預(yù)置的 Spot 操作。

比如提示 Spot 穿過一個(gè)房間，拿起一個(gè)對(duì)象（如一瓶水），然后為用戶取回它。

機(jī)器人與 BCI

時(shí)至今日，腦電圖仍然是最實(shí)用和最適用的非侵入性腦機(jī)接口方法之一。

BCI 系統(tǒng)可以使用內(nèi)源性（自發(fā)）或外源性（誘發(fā)）信號(hào)進(jìn)行控制。

在外源性腦機(jī)接口中，當(dāng)一個(gè)人注意外部刺激（如視覺或聽覺線索）時(shí)，就會(huì)出現(xiàn)誘發(fā)信號(hào)。

這種方法的優(yōu)點(diǎn)包括極簡(jiǎn)的訓(xùn)練以及高達(dá) 60 位 / 分鐘的高比特率，但這需要用戶始終關(guān)注刺激，從而限制了其在現(xiàn)實(shí)生活中的適用性。而且，用戶在使用外源性 BCI 時(shí)會(huì)很快感到疲倦。

在內(nèi)源性腦機(jī)接口中，控制信號(hào)獨(dú)立于任何外部刺激產(chǎn)生，可以由用戶按需完全執(zhí)行。對(duì)于那些有感覺障礙的用戶來說，這提供了一種更自然和直觀的交互方式，用戶可以自發(fā)地向系統(tǒng)發(fā)出命令。

不過這種方法通常需要更長(zhǎng)的訓(xùn)練時(shí)間，并且比特率較低。

使用腦機(jī)接口的機(jī)器人應(yīng)用通常適用于需要幫助的人群，它們通常包括輪椅和外骨骼。

下圖展示了截至 2023 年腦機(jī)接口和機(jī)器人技術(shù)的最新進(jìn)展。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

四足機(jī)器人通常用于在復(fù)雜的工作環(huán)境或國(guó)防應(yīng)用中為用戶提供支持。

最著名的四足機(jī)器人之一是波士頓動(dòng)力公司的 Spot，它可以攜帶高達(dá) 15 公斤的有效載荷，并迭代繪制隧道等維護(hù)站點(diǎn)的地圖。房地產(chǎn)和采礦業(yè)也在采用 Spot 等四足機(jī)器人，幫助監(jiān)控具有復(fù)雜物流的工作現(xiàn)場(chǎng)。

本文使用移動(dòng) BCI 解決方案控制的 Spot 機(jī)器人，并基于心算任務(wù)，總體架構(gòu)命名為 Ddog。

Ddog 架構(gòu)

下圖展示了 Ddog 的總體結(jié)構(gòu)：

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

Ddog 是一個(gè)自主應(yīng)用程序，用戶能夠通過 BCI 的輸入控制 Spot 機(jī)器人，而應(yīng)用程序使用語(yǔ)音向用戶及其護(hù)理人員提供反饋。

該系統(tǒng)設(shè)計(jì)為完全離線或完全在線工作。在線版本具有一組更高級(jí)的機(jī)器學(xué)習(xí)模型，以及更好的微調(diào)模型，對(duì)于本地設(shè)備也更省電。

整個(gè)系統(tǒng)為真實(shí)場(chǎng)景而設(shè)計(jì)，并允許對(duì)大多數(shù)零件進(jìn)行快速迭代。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

在客戶端，用戶通過移動(dòng)應(yīng)用程序與腦機(jī)接口設(shè)備（AttentivU）進(jìn)行交互，該應(yīng)用程序使用低功耗藍(lán)牙（BLE）協(xié)議與設(shè)備進(jìn)行通信。

用戶的移動(dòng)設(shè)備與另一部控制 Spot 機(jī)器人的手機(jī)進(jìn)行通信，以實(shí)現(xiàn)代理、操縱、導(dǎo)航，最終為用戶提供幫助。

手機(jī)之間的通信可以通過 Wi-Fi 或移動(dòng)網(wǎng)絡(luò)。負(fù)責(zé)控制的手機(jī)建立一個(gè) Wi-Fi 熱點(diǎn)，Ddog 和用戶的手機(jī)都連接到這個(gè)熱點(diǎn)。使用在線模式時(shí)，還可以連接到云上運(yùn)行的模型。

服務(wù)端

服務(wù)器端使用 Kubernetes（K8S）集群，每個(gè)集群都部署在自己的 Virtual Private Cloud（VPC）中。

云在專用 VPC 內(nèi)工作，通常部署在更靠近最終用戶的同一可用區(qū)中，使每個(gè)服務(wù)的響應(yīng)延遲最小化。

集群中的每個(gè)容器都設(shè)計(jì)為單一用途（微服務(wù)架構(gòu)），每個(gè)服務(wù)都是一個(gè)正在運(yùn)行的 AI 模型，它們的任務(wù)包括：導(dǎo)航、映射、計(jì)算機(jī)視覺、操縱、定位和代理。

映射：從不同來源收集有關(guān)機(jī)器人周圍環(huán)境信息的服務(wù)。它映射靜態(tài)的不可移動(dòng)數(shù)據(jù)（一棵樹、一棟建筑物、一堵墻），但也收集隨時(shí)間變化的動(dòng)態(tài)數(shù)據(jù)（一輛車、一個(gè)人）。

導(dǎo)航：基于在先前服務(wù)中收集和擴(kuò)充的地圖數(shù)據(jù)，導(dǎo)航服務(wù)負(fù)責(zé)在空間和時(shí)間上構(gòu)建 A 點(diǎn)和 B 點(diǎn)之間的路徑。它還負(fù)責(zé)構(gòu)建替代路線，以及估計(jì)所需的時(shí)間。

計(jì)算機(jī)視覺：從機(jī)器人攝像頭收集視覺數(shù)據(jù)，并利用手機(jī)的數(shù)據(jù)增強(qiáng)，生成空間和時(shí)間表示。此服務(wù)還嘗試分割每個(gè)視覺點(diǎn)并識(shí)別對(duì)象。

云負(fù)責(zé)訓(xùn)練與 BCI 相關(guān)的模型，包括腦電圖（EEG）、眼電圖（EOG）和慣性測(cè)量單元（IMU）。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

部署在手機(jī)上的離線模型運(yùn)行數(shù)據(jù)收集和聚合，同時(shí)也使用 TensorFlow 的移動(dòng)端模型（針對(duì)更小的 RAM 和基于 ARM 的 CPU 進(jìn)行了優(yōu)化）進(jìn)行實(shí)時(shí)推理。

視覺和操作

用于部署分割模型的原始版本是利用 LIDAR 數(shù)據(jù)的單個(gè) TensorFlow 3D 模型。之后，作者將其擴(kuò)展到少樣本模型，并通過運(yùn)行神經(jīng)輻射場(chǎng)（NeRF）和 RGBD 數(shù)據(jù)的補(bǔ)充模型進(jìn)行增強(qiáng)。

Ddog 收集的原始數(shù)據(jù)是從五個(gè)攝像頭匯總而來的。每個(gè)攝像頭都可以提供灰度、魚眼、深度和紅外數(shù)據(jù)。手臂的夾持器內(nèi)部還有第六個(gè)攝像頭，具有 4K 分辨率和 LED 功能，配合預(yù)訓(xùn)練的 TensorFlow 模型檢測(cè)對(duì)象。

點(diǎn)云由激光雷達(dá)數(shù)據(jù)以及由 Ddog 和手機(jī)的 RGBD 數(shù)據(jù)生成。數(shù)據(jù)采集完成后，通過單一坐標(biāo)系進(jìn)行歸一化處理，并與匯集了所有成像和 3D 定位數(shù)據(jù)的全局狀態(tài)相匹配。

操作完全取決于安裝在 Ddog 上的機(jī)械臂夾持器的質(zhì)量，下圖的夾具由波士頓動(dòng)力公司制造。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

實(shí)驗(yàn)中將用例限制在與預(yù)定義位置中的對(duì)象進(jìn)行基本交互。

作者繪制了一個(gè)大的實(shí)驗(yàn)室空間，將其設(shè)置為一個(gè)「公寓」，其中包含「廚房」區(qū)域（有一個(gè)裝有不同杯子和瓶子的托盤）、「客廳」區(qū)域（帶枕頭的小沙發(fā)和小咖啡桌），和「窗口休息室」區(qū)域。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

用例的數(shù)量在不斷增長(zhǎng)，因此覆蓋大多數(shù)用例的唯一方法是部署一個(gè)系統(tǒng)以連續(xù)運(yùn)行一段時(shí)間，并使用數(shù)據(jù)來優(yōu)化此類序列和體驗(yàn)。

AttentivU

腦電圖數(shù)據(jù)是從 AttentivU 設(shè)備收集的。AttentivU 眼鏡的電極由天然銀制成，根據(jù)國(guó)際 10-20 電極放置系統(tǒng)，位于 TP9 和 TP10 位置。該眼鏡還包括位于鼻托的兩個(gè) EOG 電極和一個(gè)位于 Fpz 位置的 EEG 參比電極。

這些傳感器可以提供所需的信息，并在需要時(shí)支持實(shí)時(shí)、閉環(huán)的干預(yù)。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

設(shè)備具有 EEG 和 EOG 兩種模式，可用于實(shí)時(shí)捕捉注意力、參與度、疲勞和認(rèn)知負(fù)荷的信號(hào)。EEG 已被用作清醒和睡眠之間過渡的神經(jīng)生理學(xué)指標(biāo)，

而 EOG 基于測(cè)量眼球運(yùn)動(dòng)過程中由于角膜-視網(wǎng)膜偶極子特性而誘導(dǎo)的生物電信號(hào)。研究表明，眼球運(yùn)動(dòng)與執(zhí)行某些任務(wù)所需的記憶訪問類型相關(guān)，并且是視覺參與、注意力和嗜睡的良好衡量標(biāo)準(zhǔn)。

實(shí)驗(yàn)

首先將腦電圖數(shù)據(jù)分成幾個(gè)窗口。將每個(gè)窗口定義為 1 秒長(zhǎng)的 EEG 數(shù)據(jù)持續(xù)時(shí)間，與前一個(gè)窗口有 75% 的重疊。

然后是數(shù)據(jù)預(yù)處理和清理。使用 50 Hz 陷波濾波器和通帶為 0.5 Hz 至 40 Hz 的帶通濾波器的組合對(duì)數(shù)據(jù)進(jìn)行濾波，以確保消除電力線噪聲和不需要的高頻。

接下來，作者創(chuàng)建了偽影拒絕算法。如果兩個(gè)連續(xù) epoch 之間的絕對(duì)功率差大于預(yù)定義的閾值，則拒絕某個(gè) epoch。

在分類的最后一步，作者混合使用不同的光譜波段功率比來跟蹤每個(gè)受試者基于任務(wù)的心理活動(dòng)。對(duì)于 MA，該比率為（alpha / delta）。對(duì)于 WA，該比值為（delta / low Beta），對(duì)于 ME，該比值為（delta / alpha）。

然后，使用變化點(diǎn)檢測(cè)算法來跟蹤這些比率的變化。這些比率的突然增加或減少表明用戶精神狀態(tài)發(fā)生了變化。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

對(duì)于患有 ALS 的受試者，本文的模型在 MA 任務(wù)中達(dá)到了 73% 的準(zhǔn)確率，在 WA 任務(wù)中達(dá)到了 74% 的準(zhǔn)確率，在 ME 任務(wù)中達(dá)到了 60% 的準(zhǔn)確率。

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

參考資料：

https://www.therobotreport.com/ddog-mit-project-connects-brain-computer-interface-spot-robot/

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真

腦控四足機(jī)器人

機(jī)器人與 BCI

Ddog 架構(gòu)

實(shí)驗(yàn)

相關(guān)文章

AI 讀心術(shù)再升級(jí)！一副眼鏡直接控制波士頓機(jī)器狗，腦控機(jī)器人成真