通用人工智能,還得看 DeepMind。這回,只一個模型,使用相同的權(quán)重,不僅把看家本領(lǐng)雅達利游戲玩得飛起。
和人類聊聊天、看圖寫話也不在話下。甚至還能在現(xiàn)實環(huán)境里控制機械臂,讓其聽從指令完成任務(wù)!
模型名為 Gato,西班牙語中的“貓”。
按照 DeepMind 的說法,這只貓貓可以使用具有相同權(quán)重的同一個神經(jīng)網(wǎng)絡(luò),適應(yīng)各種不同的環(huán)境。
具體而言,DeepMind 讓它在 604 個不同的任務(wù)上接受了訓(xùn)練,這些任務(wù)模式完全不同,需要觀察的元素和行為規(guī)則也不同。
而 Gato 不僅在 450 個任務(wù)中都超過了專家水平的 50%,在 23 個雅達利游戲上表現(xiàn)還超過人類平均分。
DeepMind CEO 哈薩比斯直接說:
這是我們目前最通用的智能體。
這一最新成果一發(fā)布,當(dāng)即就在 AI 圈子里掀起熱議。
有 AI 研究者指出:
Gato 令人印象深刻。只需要在云上花費 5 萬美元,就能完成對它的訓(xùn)練。
這點錢只是 PaLM 訓(xùn)練費用 1100 萬美元的一個零頭。用 PaLM 的預(yù)算完全可以將 Gato 擴展 100 倍,而這很可能是行之有效的。
PaLM 是谷歌發(fā)布的 5400 億參數(shù)語言模型。
有人直接祭出了 AlphaStar 架構(gòu)和 Gato 架構(gòu)的對比:
Zoom AI 杰出科學(xué)家 Awni Hannun 則直接感嘆起過去 5 周以來,谷歌 / DeepMind 釋出成果之密集。
所以這只來自 DeepMind 的“貓貓”,究竟怎么一回事?
一個 Transformer 搞定一切
對于研究方法,DeepMind 只用一句話就解釋明白了:
我們受到語言大模型的啟發(fā),用類似的方法把模型能力拓展到文本之外的領(lǐng)域。
沒錯,這次立功的又是語言大模型中常用的 Transformer 架構(gòu)。
Transformer 的本質(zhì)就是把一個序列轉(zhuǎn)換 (transform) 成另一個序列。
所以要想讓它掌握各種不同任務(wù),首先就需要把各類數(shù)據(jù)都編碼成序列。
文本自不必說,天然就是序列信息,可用經(jīng)典的 SentencePiece 編碼。
圖像,ViT 已經(jīng)打好樣,先按 16x16 像素分割,再給每個像素編上號處理成序列。
玩游戲時的按鍵輸入同樣是序列,屬于離散值,比如懂得都懂的“上上下下左右左右 BABA”。
操縱機器人時的傳感器信號和關(guān)節(jié)力矩屬于連續(xù)值,也通過一系列采樣和編碼處理成離散序列。
最終,所有序列數(shù)據(jù)都交給同一個 Transformer 處理。
整個 Gato 模型使用的訓(xùn)練數(shù)據(jù)總體上偏向游戲和機器人控制任務(wù),596 個任務(wù)占了 85.3%。視覺和自然語言任務(wù)只占 14.7%。
模型架構(gòu)上,為了簡潔和可擴展性,就在最經(jīng)典的原版 Transformer 基礎(chǔ)上小改,具體參數(shù)如下:
24 層 11.8 億參數(shù)版的 Gato,在谷歌 16x16 Cloud TPUv3 切片上訓(xùn)練了大約 4 天。
到了部署階段,Gato 對于視覺和語言任務(wù)就像傳統(tǒng) Transformer 和 ViT 那樣運行。
對于游戲和機器人控制的行為模式則可以理解為“走一步看一步”。
首先給出一個任務(wù)提示,比如游戲操作或機器人動作,作為輸出序列的開頭。
接下來 Gato 會觀察當(dāng)前的環(huán)境,對動作向量進行一次自回歸采樣,執(zhí)行動作后環(huán)境發(fā)生變化,再重復(fù)這個過程……
那么這樣訓(xùn)練出來的 Gato,在各項任務(wù)中到底表現(xiàn)如何?
僅靠 12 億參數(shù)成為多面手
玩游戲方面,Gato 的表現(xiàn)可以用一張圖來總結(jié)。
x 軸是訓(xùn)練集之中專家水平的百分比,其中 0 代表一個隨機參數(shù)模型的水平。
y 軸是 Gato 超過或達到對應(yīng)專家水平的任務(wù)數(shù)量。
最終結(jié)果,Gato 在 604 個任務(wù)中,有 450 個超過了專家水平的 50%。
更詳細的結(jié)果如下:
雅達利游戲測試中,Gato 在 23 個游戲上表現(xiàn)超過人類平均分,11 個游戲上比人類得分高一倍。
這些游戲包括經(jīng)典的乒乓球、賽車,也包括射擊、格斗等多種類型。
在 Bengio 團隊推出的 BabyAI 測試上,Gato 幾乎在所有關(guān)卡達到了專家水平的 80%,最難的幾個 Boss 關(guān)達到 75%。與之前 BabyAI 榜單上的兩個模型水平相當(dāng)(分別為 77% 和 90%),但這兩個模型都針對性的用了上百萬個演示來訓(xùn)練。
▲ BabyAI 關(guān)卡示例
在 Meta-World 上(虛擬環(huán)境中操作機械臂),Gato 在全部 45 個任務(wù)中,有 44 個超過專家水平的 50%,35 個超過 80%,3 個超過 90%。
▲ Meta-World 任務(wù)示例
操縱真實機器人方面,與之前模型對比也不遑多讓。
至于視覺和文本任務(wù) DeepMind 這次至少為了驗證通用模型的可行性,沒有做跑分,而是給了一些示例。
△ 描述圖像
▲ 聊天對話
最后,DeepMind 還對 Gato 模型的可擴展性做了評估。
雖然當(dāng)前 Gato 在每一個單獨任務(wù)上都還比不上 SOTA 結(jié)果,但實驗結(jié)果表明,隨著參數(shù)、數(shù)據(jù)和硬件的增加,Gato 模型的性能還有成比例上漲的空間。
另外,Gato 在少樣本學(xué)習(xí)上也表現(xiàn)出一定潛力。
DeepMind 認(rèn)為,這樣一個通用模型將來可通過提示或微調(diào)迅速學(xué)習(xí)新的任務(wù),再也不用為每個任務(wù)都重頭訓(xùn)練一個大模型了。
通用人工智能還有多遠?
看完 Gato 如此表現(xiàn),網(wǎng)友們的“大受震撼”也就不奇怪了。
甚至還有人認(rèn)為,AGI(通用人工智能)近在眼前。
當(dāng)然,反對 / 質(zhì)疑的聲音也不小。
比如始終沖在給人工智能潑冷水一線的馬庫斯,這次也第一時間開了炮:
仔細看看第 10 頁。無論模型有多大,大型語言模型標(biāo)志性的不靠譜和錯誤信息仍然存在。
但不管怎么說,DeepMind 在通用人工智能方向上的努力都在不斷涌現(xiàn)出新成果。
事實上,無論是 2013 年驚艷了谷歌的雅達利游戲 AI,還是名滿全球的 AlphaGo、AlphaStar,DeepMind 透過這些階段性成果想要達成的終極目標(biāo),一直都通向通用人工智能這個關(guān)鍵詞。
去年,DeepMind 首席研究科學(xué)家、倫敦大學(xué)學(xué)院教授 David Silver 還領(lǐng)銜發(fā)布了一篇同樣引起不少討論的文章:Reward is Enough。
論文認(rèn)為,強化學(xué)習(xí)作為基于獎勵最大化的人工智能分支,足以推動通用人工智能的發(fā)展。
而據(jù) Gato 團隊成員透露,這只“貓貓”已經(jīng)在 DeepMind 內(nèi)部孕育了 2 年時間。
此次 Gato 是以有監(jiān)督方式進行離線訓(xùn)練的,但論文也強調(diào),原則上,同樣可以采用離線或在線強化學(xué)習(xí)的方式對其進行訓(xùn)練。
而就在一周前,DeepMind 發(fā)布了一個新視頻,其中說到:
我們接下來要做一件大事(the next big thing),那意味著需要去嘗試很多人們認(rèn)為過于困難的事情。但我們一定要去嘗試一下。
現(xiàn)在看來,這個 next big thing 就是指 AGI 了。
論文地址:
https://www.deepmind.com/publications/a-generalist-agent
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。