據(jù)外媒報道,Open-Ended Learning Team(開放式學(xué)習小組)在 Deepmind 的 Blog 上發(fā)表了一篇關(guān)于訓(xùn)練一個無需與人類交互數(shù)據(jù)就能玩不同游戲的 AI 智能體(AI agents)的文章。
一般來說,需要先給智能體提供一部分新游戲的數(shù)據(jù),再讓它自我進行游戲訓(xùn)練,從而在該游戲中取得更好的成績。但目前的智能體,如果不從頭開始學(xué)習,它就無法完成新游戲或新任務(wù)。團隊的目的是省略前面的步驟,創(chuàng)造出的智能體能直接在新游戲中自我探索,并在復(fù)雜的游戲環(huán)境中取得好成績。
▲ AI agents
團隊希望該文章能提供給其他研究人員另一條新思路,以創(chuàng)造更具適應(yīng)性(more adaptive)、普遍能力(generally capable)更強的 AI 智能體。同時,他們邀請感興趣的人士一同加入研究。
一、專門為訓(xùn)練 AI 造了個游戲場地
當 AI 智能體在訓(xùn)練游戲時,缺乏數(shù)據(jù)(每個游戲的數(shù)據(jù)都是單獨的)是導(dǎo)致強化學(xué)習(reinforcement learning,RL) 效果不佳的主要原因。這就意味著如果想讓智能體可以完成所有任務(wù),就需要讓它把每一款游戲(任務(wù))都訓(xùn)練了,否則它們在遇到新游戲的時候就只能“干瞪眼”。
團隊創(chuàng)建了一個 3D 游戲環(huán)境,稱之為“XLand”,該環(huán)境能夠容納多位玩家共同游戲。這種環(huán)境使得團隊能夠制定新的學(xué)習算法,而這種算法能動態(tài)地控制一個智能體進行游戲訓(xùn)練。
▲ Xland
因為 XLand 可以通過編程指定(programmatically specified),所以該游戲空間能夠以自動和算法(automated and algorithmic)的方式生成數(shù)據(jù)(該數(shù)據(jù)可以訓(xùn)練智能體)。同時,XLand 中的任務(wù)涉及多個玩家,其他玩家的行為會加大 AI 智能體所面臨的挑戰(zhàn)。這些復(fù)雜的非線性交互(隨機性)為訓(xùn)練提供了理想的數(shù)據(jù)源,因為有時訓(xùn)練環(huán)境中的微小變化可能會給智能體帶來不一樣的挑戰(zhàn)。
二、任務(wù)難度要“剛剛好”
團隊研究的核心是深度強化學(xué)習在神經(jīng)網(wǎng)絡(luò)中的作用(尤其是在智能體的訓(xùn)練中)。團隊使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(neural network architecture)提供了一種關(guān)注智能體內(nèi)部循環(huán)狀態(tài)(internal recurrent state)的機制,通過預(yù)測智能體所玩游戲的子目標(subgoals)來幫助引導(dǎo)智能體的注意力(預(yù)測游戲任務(wù)并引導(dǎo)智能體前往)。團隊發(fā)現(xiàn)這個目標關(guān)注智能體 (goal-attentive agent,GOAT) 有學(xué)習了一般能力的政策的能力(GOAT 方案使得智能體更具適應(yīng)性)。
▲ 預(yù)測智能體的子目標
團隊還預(yù)測任務(wù)訓(xùn)練的難度會影響智能體的總體能力。因此,他們使用動態(tài)任務(wù)生成(dynamic task generation)對智能體的訓(xùn)練任務(wù)分配進行更改,并不斷優(yōu)化,生成的每個任務(wù)既不是太難也不是太容易,而是剛好適合訓(xùn)練。在這之后,他們使用基于群體的訓(xùn)練 (population based training,PBT) 來調(diào)整動態(tài)任務(wù)的生成參數(shù),以提高智能體的總體能力。最后,團隊將多個訓(xùn)練運行串聯(lián)在一起,這樣每一代智能體都可以從上一代智能體中啟動(智能體迭代)。
三、智能體有啟發(fā)式行為?
團隊在對智能體進行了五代訓(xùn)練后,發(fā)現(xiàn)其學(xué)習能力和性能都在持續(xù)提升。在 XLand 的 4,000 個世界中玩過大約 700,000 個游戲后,最后一代的每個智能體都經(jīng)歷了 2000 億次(200 billion)訓(xùn)練步驟,得到了 340 萬(3.4 million)個任務(wù)的結(jié)果。
目前,團隊的智能體已經(jīng)能夠順利完成每次程序生成的測試任務(wù),而且測試數(shù)據(jù)顯示,智能體的能力(相比于上一代)有了整體的提高。
除此之外,團隊還發(fā)現(xiàn)智能體表現(xiàn)出一般的啟發(fā)式行為(heuristic behaviours),如實驗(experimentation),該行為出現(xiàn)在于許多任務(wù)中,而不是專門針對單個任務(wù)的行為。團隊有觀察到智能體在游戲中使用不同的工具,包括利用障礙物來遮擋自己、利用物品創(chuàng)建坡道。隨著訓(xùn)練的進展,智能體還偶爾會出現(xiàn)與其他玩家合作的行為,但目前團隊還不能確認這是否是有意識的行為。
結(jié)語:“自學(xué)”讓 AI 更智能
Open-Ended Learning Team 正在訓(xùn)練一個新的智能體,它不需要從頭開始訓(xùn)練數(shù)據(jù),就能適應(yīng)新的游戲。這個智能體將比僅使用強化學(xué)習方法的智能體更加“智能”。
大量的數(shù)據(jù)訓(xùn)練一直以來是人工智能發(fā)展繞不開的難題,此次如果能大量減少訓(xùn)練數(shù)據(jù),并使其獲得跨領(lǐng)域的自主學(xué)習能力,那么人工智能的能力將能得到進一步的提升。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。