設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AAAI 2022 大獎(jiǎng)出爐:中科院德州撲克程序 AlphaHoldem 獲獎(jiǎng),已達(dá)人類專業(yè)玩家水平

雷峰網(wǎng) 2022/2/28 13:05:45 責(zé)編:長河

近日,人工智能國際頂會(huì) AAAI 2022 正在召開,大會(huì)論文獎(jiǎng)也陸續(xù)公布。AI 科技評(píng)論獲知,中國科學(xué)院自動(dòng)化所的興軍亮教授團(tuán)隊(duì)獲得 AAAI 2022 的卓越論文獎(jiǎng)(Distinguished Paper)!

AAAI 2022

AAAI 的英文全稱是“Association for the Advance of Artificial Intelligence”(美國人工智能協(xié)會(huì))。該協(xié)會(huì)是人工智能領(lǐng)域的主要學(xué)術(shù)組織之一,具有一定的學(xué)術(shù)權(quán)威性。

興軍亮團(tuán)隊(duì)此次獲獎(jiǎng)的工作是他們所開發(fā)的輕量型德州撲克 AI 程序 ——AlphaHoldem。據(jù)介紹,該系統(tǒng)的決策速度較 DeepStack 的速度提升超 1000 倍,與高水平德州撲克選手對(duì)抗的結(jié)果表明其已經(jīng)達(dá)到了人類專業(yè)玩家水平。

論文名稱:《AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning》

作者團(tuán)隊(duì):趙恩民,閆仁業(yè),李金秋,李凱,興軍亮

1 德州撲克 AI 的意義

與圍棋任務(wù)相比,德州撲克是一項(xiàng)更能考驗(yàn)基于信息不完備導(dǎo)致對(duì)手不確定的智能博弈技術(shù)。

德州撲克是國際上最為流行的撲克游戲,由于最早起源于 20 世紀(jì)初美國德克薩斯州而得名。

德州撲克的規(guī)則是使用去掉王牌的一副撲克牌,共 52 張牌,至少 2 人參與,至多 22 人,一般參與人數(shù)為兩人和十人之間。

游戲開始時(shí),首先為每個(gè)玩家發(fā)兩張私有牌作為各自的“底牌”,隨后將五張公共牌依次按三張、一張、一張朝上發(fā)出。在發(fā)完兩張私有牌、三張共有牌、第四張公共牌、第五張公共牌后玩家都可以多次無限制押注,這四輪押注分別稱為“翻牌前”、“翻牌”、“轉(zhuǎn)牌”、“河牌”。圖 1 展示了一場德州撲克游戲的完整流程示意。

兩人無限注德州撲克一次游戲過程示意

▲ 圖 1:兩人無限注德州撲克一次游戲過程示意

經(jīng)過四輪押注之后,若仍不能分出勝負(fù),游戲進(jìn)入“攤牌”階段,所有玩家亮出各自底牌并與公共牌組合成五張牌,成牌最大者獲勝。圖 2 給出了德州撲克不同組合的牌型解釋和大小。

德州撲克不同牌型大小說明和比較

▲ 圖 2:德州撲克不同牌型大小說明和比較

德州撲克博弈的問題復(fù)雜度很大,兩人無限注德州撲克的決策空間復(fù)雜度超過 10 的 161 次方;其次,德州撲克博弈過程屬于典型的回合制動(dòng)態(tài)博弈過程,游戲參與者每一步?jīng)Q策都依賴于上一步的決策結(jié)果,同時(shí)對(duì)后面的決策步驟產(chǎn)生影響;另外,德州撲克博弈屬于典型的不完美信息博弈,博弈過程中玩家各自底牌信息不公開使得每個(gè)玩家信息都不完備,玩家在每一步?jīng)Q策時(shí)都要充分考慮對(duì)手的各種可能情況,這就涉及到對(duì)手行為與心理建模、欺詐與反欺詐等諸多問題。

研究者認(rèn)為,由于德州撲克游戲規(guī)則又非常簡單且邊界確定,特別適合作為一個(gè)虛擬實(shí)驗(yàn)環(huán)境對(duì)博弈的相關(guān)基礎(chǔ)理論方法和核心技術(shù)算法進(jìn)行深入探究。

近年來,國際研究者在德州撲克這一大規(guī)模不完美信息博弈問題的優(yōu)化求解中也取得了長足進(jìn)步。

比如,之前加拿大阿爾伯特大學(xué)和美國卡內(nèi)基梅隆大學(xué)的研究者就設(shè)計(jì)出 AI 程序 DeepStack 和 Libratus,并先后在兩人無限注德州撲克中均戰(zhàn)勝了人類專業(yè)選手,隨后卡內(nèi)基梅隆大學(xué)設(shè)計(jì)的 Pluribus 又在六人無限注德州撲克中戰(zhàn)勝了人類專業(yè)選手。

但目前主流德州撲克 AI 背后的核心思想是利用反事實(shí)遺憾最小化(Counterfactual Regret Minimization, CFR)算法逼近納什均衡策略。

具體來說,首先利用抽象(Abstraction)技術(shù) [3][7] 壓縮德?lián)涞臓顟B(tài)和動(dòng)作空間,從而減小博弈樹的規(guī)模,然后在縮減過的博弈樹上進(jìn)行 CFR 算法迭代。

這些方法嚴(yán)重依賴于人類專家知識(shí)進(jìn)行博弈樹抽象,并且 CFR 算法需要對(duì)博弈樹的狀態(tài)結(jié)點(diǎn)進(jìn)行不斷地采樣遍歷和迭代優(yōu)化,即使經(jīng)過模型縮減后仍需要耗費(fèi)大量的計(jì)算和存儲(chǔ)資源。例如,DeepStack 使用了 153 萬的 CPU 時(shí)以及 1.3 萬的 GPU 時(shí)訓(xùn)練最終 AI,在對(duì)局階段需要一個(gè) GPU 進(jìn)行 1000 次 CFR 的迭代過程,平均每個(gè)動(dòng)作的計(jì)算需耗時(shí) 3 秒。Libratus 消耗了大于 300 萬的 CPU 時(shí)生成初始策略,每次決策需要搜索 4 秒以上。

這樣大量的計(jì)算和存儲(chǔ)資源的消耗嚴(yán)重阻礙了德?lián)?AI 的進(jìn)一步研究和發(fā)展;同時(shí),CFR 框架很難直接拓展到多人德?lián)洵h(huán)境中,增加玩家數(shù)量將導(dǎo)致博弈樹規(guī)模呈指數(shù)增長。另外,博弈樹抽象不僅需要大量的領(lǐng)域知識(shí)而且會(huì)不可避免地丟失一些對(duì)決策起到至關(guān)作用的信息。

AAAI 2022大獎(jiǎng)出爐!中科院德州撲克程序AlphaHoldem獲卓越論文獎(jiǎng)

2 AlphaHoldem 是何方神圣?

這個(gè)問題也吸引了很多中國研究者,中科院自動(dòng)化所的興軍亮教授團(tuán)隊(duì)便是其中之一。去年 12 月,他領(lǐng)導(dǎo)的博弈學(xué)習(xí)研究組針對(duì)德州撲克任務(wù),提出了一種高水平、輕量化的兩人無限注德州撲克 AI 程序 ——AlphaHoldem。

不同于已有的基于 CFR 算法的德州撲克 AI,中科院博弈學(xué)習(xí)研究組所提出的架構(gòu)是基于端到端的深度強(qiáng)化學(xué)習(xí)算法(如圖 4 所示)。

端到端學(xué)習(xí)德州撲克 AI 學(xué)習(xí)框架

▲ 圖 4:端到端學(xué)習(xí)德州撲克 AI 學(xué)習(xí)框架

根據(jù)團(tuán)隊(duì)介紹,AlphaHoldem 采用 Actor-Critic 學(xué)習(xí)框架,其輸入是卡牌和動(dòng)作的編碼,然后通過偽孿生網(wǎng)絡(luò)(結(jié)構(gòu)相同參數(shù)不共享)提取特征,并將一種改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法與一種新型的自博弈學(xué)習(xí)算法相結(jié)合,在不借助任何領(lǐng)域知識(shí)的情況下,直接從牌面信息端到端地學(xué)習(xí)候選動(dòng)作進(jìn)行決策。

他們還指出,AlphaHoldem 的成功得益于其采用了一種高效的狀態(tài)編碼來完整地描述當(dāng)前及歷史狀態(tài)信息、一種基于 Trinal-Clip PPO 損失的深度強(qiáng)化學(xué)習(xí)算法來大幅提高訓(xùn)練過程的穩(wěn)定性和收斂速度、以及一種新型的 Best-K 自博弈方式來有效地緩解德?lián)洳┺闹写嬖诘牟呗钥酥茊栴}。

AlphaHoldem 使用了 1 臺(tái)包含 8 塊 GPU 卡的服務(wù)器,經(jīng)過三天的自博弈學(xué)習(xí)后,戰(zhàn)勝了 Slumbot 和 DeepStack。每次決策時(shí),AlphaHoldem 都僅用了不到 3 毫秒,比 DeepStack 速度提升超過了 1000 倍。同時(shí),AlphaHoldem 與四位高水平德州撲克選手對(duì)抗 1 萬局的結(jié)果表明其已經(jīng)達(dá)到了人類專業(yè)玩家水平。

3 團(tuán)隊(duì)部分成員介紹

AAAI 2022大獎(jiǎng)出爐!中科院德州撲克程序AlphaHoldem獲卓越論文獎(jiǎng)

趙恩民,論文一作。中國科學(xué)院自動(dòng)化研究所模式識(shí)別與智能系統(tǒng)專業(yè)博士四年級(jí)研究生,2018 年于清華大學(xué)獲得工學(xué)學(xué)士學(xué)位。研究方向?yàn)橛?jì)算機(jī)撲克和深度強(qiáng)化學(xué)習(xí)。

AAAI 2022大獎(jiǎng)出爐!中科院德州撲克程序AlphaHoldem獲卓越論文獎(jiǎng)

興軍亮,中國科學(xué)院自動(dòng)化研究所研究員、博士生導(dǎo)師、特聘青年骨干,中國科學(xué)院大學(xué)崗位教授,中國科學(xué)院人工智能創(chuàng)新研究院創(chuàng)新專家組專家。興教授 2012 年畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,獲工學(xué)博士學(xué)位。

此外,他還是美國電器與電子工程學(xué)會(huì)(IEEE)高級(jí)會(huì)員、美國《科學(xué)》雜志中國官方公眾號(hào)特邀評(píng)論員、中國計(jì)算機(jī)學(xué)會(huì)(CCF)高級(jí)會(huì)員、計(jì)算機(jī)視覺專委會(huì)委員。

他的主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺和計(jì)算機(jī)博弈。目前已在包括頂級(jí)國際期刊如 TPAMI、IJCV、AI 以及頂級(jí)國際會(huì)議上如 ICCV、CVPR、AAAI、IJCAI 上發(fā)表論文 100 多篇,谷歌學(xué)術(shù)引用超過 10000 次,出版計(jì)算機(jī)視覺譯著 2 部,參與撰寫深度學(xué)習(xí)領(lǐng)域著作 1 部、人工智能領(lǐng)域著作 1 部。

曾獲清華大學(xué)計(jì)算機(jī)系“學(xué)術(shù)新秀”、“谷歌學(xué)者”、多次頂級(jí)國際和國內(nèi)會(huì)議最佳論文獎(jiǎng)等榮譽(yù)和獎(jiǎng)勵(lì),以及十余次在人臉識(shí)別、車輛識(shí)別、視頻識(shí)別等國際和國內(nèi)挑戰(zhàn)賽中獲獎(jiǎng)。

目前作為項(xiàng)目和課題負(fù)責(zé)人承擔(dān)多項(xiàng)國家重點(diǎn)項(xiàng)目,研發(fā)的視覺感知相關(guān)技術(shù)在國家廣電總局、華為、微軟等得到了多次驗(yàn)證應(yīng)用和落地推廣,取得了良好的經(jīng)濟(jì)效益和社會(huì)價(jià)值。

近年來主要圍繞深度強(qiáng)化學(xué)習(xí)相關(guān)的智能感知和決策問題,研發(fā)了多款針對(duì)不同游戲的博弈決策 AI,其中研發(fā)的星際爭霸 AI 曾獲 2017 年 IEEE CIG 星際爭霸 AI 第 2 名,研發(fā)的德州撲克 AI 程序 AlphaHoldem 勝率超過了目前公開的最好德州撲克 AI 程序 DeepStack,速度提升超過 1000 倍。開放了學(xué)界首個(gè)大規(guī)模不完美信息博弈平臺(tái) OpenHoldem。

4 AAAI 2022 其他獲獎(jiǎng)工作

杰出論文獎(jiǎng):

論文名稱:Online Certification of Preference-Based Fairness for Personalized Recommender Systems

作者團(tuán)隊(duì):Virginie Do,Sam Corbett-Davies,Jamal Atif, Nicolas Usunier

杰出學(xué)生論文獎(jiǎng):

論文名稱:InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation

作者團(tuán)隊(duì):Pierre Colombo,Chloé Clavel,Pablo Piantanida

卓越論文獎(jiǎng):

除了中科院興軍亮團(tuán)隊(duì)的 AlphaHoldem,還有 5 篇工作獲得 AAAI 2022“卓越論文獎(jiǎng)”。分別如下

論文名稱:Certified Symmetry and Dominance Breaking for Combinatorial Optimisation

作者團(tuán)隊(duì):Bart Bogaerts,Stephan Gocht,Ciaran McCreesh,Jakob Nordstr?m

論文名稱:Online Elicitation of Necessarily Optimal Matchings

作者團(tuán)隊(duì):Jannik Peters

論文名稱:Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian Noise

作者團(tuán)隊(duì):Thom S. Badings, Alessandro Abate,Nils Jansen,David Parker,Hasan A. Poonawala,Marielle Stoelinga

論文名稱:Subset Approximation of Pareto Regions with Bi-objective A

作者團(tuán)隊(duì):Jorge A. Baier,Carlos Hernández,Nicolás Rivera

論文名稱:The SoftCumulative Constrain with Quadratic Penalty

作者團(tuán)隊(duì):Yanick Ouellet,Claude-Guy Quimper

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,人工智能,德州撲克

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知