中科院訓練獼猴玩《吃豆人》游戲

2022/5/27 22:54:14 來源：IT之家作者：汪淼責編：汪淼

評論：

IT之家 5 月 27 日消息，中科院發(fā)布消息，近日，eLife 在線發(fā)表了題為《獼猴在吃豆人游戲中的分層組合策略》的研究論文。該研究由中國科學院腦科學與智能技術卓越創(chuàng)新中心（神經(jīng)科學研究所）、靈長類神經(jīng)生物學國家重點實驗室楊天明研究組完成。

該研究設計了一種新穎有趣的實驗范式 —— 吃豆人游戲，并訓練獼猴學會使用搖桿完成該游戲范式的主要任務。該研究將復雜的行為范式和人工智能建模結(jié)合，定量探究了獼猴解決復雜問題的啟發(fā)式行為策略特點，為闡釋大腦實現(xiàn)高級認知功能的計算機制提供了全新方法和重要啟發(fā)。

中科院訓練獼猴玩《吃豆人》游戲

據(jù)介紹，日常生活中，人們大部分的重要目標通常超出簡單決策的實現(xiàn)范疇，而這些目標可以通過設計一系列縝密的基礎策略組合來實現(xiàn)。個體可以根據(jù)當前的情況優(yōu)先考慮每一種策略的收益和風險，并在較容易完成的子任務中具體問題具體分析。

高度動態(tài)變化的環(huán)境會時刻伴隨著出乎意料的意外和干擾，因此保持相機而變的靈活性在決策過程中至關重要。盡管研究動物的復雜行為和潛在的神經(jīng)機制在神經(jīng)科學和認知科學領域是持續(xù)受到關注的科學問題，但大部分的動物行為范式復雜程度，均不足以支持研究動物如何簡化動態(tài)多樣的策略以完成復雜的高級認知任務。

中科院訓練獼猴玩《吃豆人》游戲

為解決這些問題，該研究改編經(jīng)典街機游戲吃豆人（圖 A），并訓練獼猴學會使用操縱桿來控制吃豆人在一個封閉的迷宮中運動收集食物，獼猴避開敵人追擊將獲得實時果汁作為獎勵。在經(jīng)過一段時間的訓練后，獼猴能夠理解游戲中各個元素和獎勵懲罰之前的關聯(lián)，并依次相應地做出連續(xù)的運動抉擇，來躲避敵人的追擊，獲取更多的獎勵，甚至在特定規(guī)則下對敵人實現(xiàn)反殺。雖然該游戲高度動態(tài)且元素復雜，但本質(zhì)上它比較類似動物野外覓食任務，這或是該研究成功訓練動物的關鍵要素。

為定量地描述獼猴行為策略的特點，科研人員利用機器學習和統(tǒng)計方法，動態(tài)擬合匹配游戲玩法與多個智能策略模型。這種多智能體協(xié)作決策模型也是人工智能領域?qū)崿F(xiàn)吃豆人游戲最高分數(shù)的設計關鍵。該計算模型設計了一組策略基組，策略基組中每個策略均只解決游戲中一個子任務，例如覓食最近的食物、躲避敵人追擊或通過能量豆食物改變敵人的狀態(tài)。

該模型將不同的策略基組對比擬合到到獼猴的游戲行為數(shù)據(jù)中，推斷策略的動態(tài)權重。該計算模型對獼猴手柄運動的預測準確率達 90% 以上。更重要的是，策略動態(tài)權重分析發(fā)現(xiàn)，獼猴通過使用分而治之的啟發(fā)式方法，在每個時間只關注游戲的一個子任務，分布式地解決這些問題，從而實現(xiàn)游戲總體目標的優(yōu)化。研究發(fā)現(xiàn)獼猴能夠在時序上組合這些策略基組，構建更復雜的復合策略，來處理特定的更有挑戰(zhàn)性的任務。研究表明，獼猴能夠優(yōu)化掌握一套策略基組，并采用分層決策的方式來解決復雜的任務（圖 B）。

本研究著眼于系統(tǒng)認知神經(jīng)科學和人工智能廣泛關注的交叉領域，將復雜的行為范式和嚴謹?shù)挠嬎憬＿M行結(jié)合，為未來探索靈長類動物的高級認知提供了重要的實驗證據(jù)和新穎的分析方法。IT之家了解到，研究工作得到科技部、中科院、上海市科學技術委員會和國家自然科學基金委員會的支持。

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：吃豆人，中科院

中科院訓練獼猴玩《吃豆人》游戲

相關文章