IT之家 12 月 4 日消息,由英國 DeepMind 公司開發(fā)的人工智能“DeepNash”,通過“虛張聲勢”類欺詐手段在《西洋陸軍棋 / 戰(zhàn)略圍棋 (Stratego)》中擊敗了具有專家水平的真人玩家,它甚至可以為了勝利而故意犧牲掉重要棋子,這一行為在 AI 研究中具有十分重要的意義。
相關(guān)研究報告已經(jīng)發(fā)表在國際性科學雜志《新科學家(New Scientist)》中,DOI:10.1126/science.add4679。
這項研究的學者表示,它代表了一種“非同尋常的結(jié)果”,因為 Stratego 圈內(nèi)人士認為“這是用現(xiàn)代技術(shù)所無法實現(xiàn)的”。
在 Stratego 中,每個玩家控制 40 個不同等級的棋子在 10×10 方格的棋盤上進行博弈。如果雙方在棋盤上遭遇,排名更高的棋子將擊敗排名較低的棋子,但你看不到對方棋子的身份,但這一點就可能造成無數(shù)的“意外”,而這并不是窮舉法可以簡單破解的。
簡單來說,Stratego 就是一款類似軍旗的策略型棋盤游戲,其規(guī)則簡單到可以供幼兒玩耍,但其策略之深度是成年人也難以吃透的。從“策略”角度來看,Stratego 這種戰(zhàn)棋要比國際象棋、圍棋或撲克牌有著更多的變數(shù),難度系數(shù)也更高。
DeepMind 研究者 Julien Perolat 表示,“對我們來說,它最令人意外的行為是 [AI] 能夠犧牲具有價值的棋子來獲取有關(guān)對手所制定策略的信息”。
多年來,Stratego 一直作為 AI 研究的下一個前沿領(lǐng)域之一進行攻關(guān),旨在測試 AI 能否如同人類一般做出相對激進、謹慎,或是布局長遠的行為,歸根結(jié)底還是考察 AI 對于游戲邏輯的判斷和臨場決策的能力。
Julien Perolat 和他同事在此介紹了一種新的方法,它能讓 AI 來更好地學習該游戲。他們利用這種新方法開發(fā)了一個名為 DeepNash 的 AI 機器人,它能在該游戲的最復雜版本“Stratego Classic”中展示出堪比人類專家級的表現(xiàn)。
IT之家了解到,DeepNash 的核心是一種強化學習算法“R-NaD”。為制作 DeepNash,Perolat 和團隊將 R-NaD 與深度神經(jīng)網(wǎng)絡架構(gòu)結(jié)合,從而使其在高端競技層面進行博弈策略的學習和思考。
最終,DeepNash 與各種最先進的 Stratego 機器人和專業(yè)玩家進行了博弈測試,而它最終也成果戰(zhàn)勝了所有其它的機器人,并在 Gravon (一個互聯(lián)網(wǎng)游戲平臺,也是 Stratego 的最大在線平臺) 上擊敗了各路具有專家級水平的真人玩家,截止報告發(fā)布時已經(jīng)在該平臺排名前三,而它的對手絲毫沒有意識到網(wǎng)線對面竟然是個 AI。
除此之位,DeepMind AI 在對抗頂級戰(zhàn)略游戲機器人時也取得了 97% 的勝率,其中不乏一些曾贏得世界錦標賽的機器人。
“優(yōu)秀的棋手往往會記住對手的棋子并預測他們的核心布局,”馬耳他大學的 Georgios Yannakakis 說,“DeepNash 兩者都做得很好 —— 當然 AI 可能在記憶力方面比人更有優(yōu)勢 ,而且他還會用有趣且不可預測的方式進行游戲,例如虛張聲勢。”
賓夕法尼亞州卡內(nèi)基梅隆大學的 Tuomas Sandholm 表示,DeepNash 博弈論可以證明 AI 在與其他人打交道的非博弈情況下也是有用的,例如在商業(yè)和國防領(lǐng)域。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。