設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

英偉達(dá) AI 智能體接入 GPT-4,完勝 AutoGPT,自主寫代碼獨(dú)霸我的世界,無需人類插手

新智元 2023/5/29 12:17:10 責(zé)編:夢(mèng)澤

給游戲行業(yè)來點(diǎn) GPT-4 式震撼?這個(gè)叫 Voyager 的智能體不僅可以根據(jù)游戲的反饋?zhàn)灾饔?xùn)練,而且還能自行寫代碼推動(dòng)游戲任務(wù)。

繼斯坦福的 25 人小鎮(zhèn)后,AI 智能體又出爆款新作了。

最近,英偉達(dá) AI 科學(xué)家 Jim Fan 等人把 GPT-4 整進(jìn)了「我的世界」(Minecraft)—— 提出了一個(gè)全新的 AI 智能體 Voyager。

Voyager 的厲害之處在于,它不僅性能完勝 AutoGPT,而且還可以在游戲中進(jìn)行全場(chǎng)景的終身學(xué)習(xí)!

比起之前的 SOTA,Voyager 獲得的物品多出了 3.3 倍,旅行距離變長(zhǎng)了 2.3 倍,解鎖關(guān)鍵技能樹的速度快了 15.3 倍。

對(duì)此,網(wǎng)友直接震驚了:我們離通用人工智能 AGI,又近了一步。

所以,未來的游戲,就是由大模型帶動(dòng) NPC 來玩的吧?

真?數(shù)字生命

接入 GPT-4 之后,Voyager 根本不用人類操心,完全就是自學(xué)成才。

它不僅掌握了挖掘、建房屋、收集、打獵這些基本的生存技能,還學(xué)會(huì)了自個(gè)進(jìn)行開放式探索。

它會(huì)自己去到不同的城市,路過一片片海洋,一座座金字塔,甚至還會(huì)自己搭建傳送門。

通過自我驅(qū)動(dòng),它不斷探索著這個(gè)神奇的世界,擴(kuò)充著自己的物品和裝備,配備不同等級(jí)的盔甲,用盾牌格擋傷害,用柵欄圈養(yǎng)動(dòng)物……

論文地址:https://arxiv.org/ abs / 2305.16291

項(xiàng)目地址:https://voyager.minedojo.org/

Voyager 的英勇事跡包括但不限于 ——

大戰(zhàn)末影人

造基地

挖紫水晶

挖金子

收集仙人掌

打獵

釣魚

數(shù)字生命的潛能究竟有多大?我們只知道,現(xiàn)在 Voyager 仍然在 Minecraft 中一刻不停地探索,不斷擴(kuò)展著自己的疆域。

「訓(xùn)練」無需梯度下降

此前,AI 領(lǐng)域的一大挑戰(zhàn)就是,構(gòu)建具有通用能力的具身智能體,讓它們?cè)陂_放世界中自主探索,自行發(fā)展新技能。

以往,學(xué)界都是采用強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí),但這些方法在系統(tǒng)化的探索、可解釋性和泛化性等方面,表現(xiàn)往往差強(qiáng)人意。

大語(yǔ)言模型的出現(xiàn),給構(gòu)建具身智能體帶來了全新的可能性。因?yàn)榛?LLM 的智能體可以利用預(yù)訓(xùn)練模型中蘊(yùn)含的世界知識(shí),生成一致的行動(dòng)計(jì)劃或可執(zhí)行策略,這就非常適合應(yīng)用于游戲和機(jī)器人之類的任務(wù)。

此前,斯坦福研究者構(gòu)建出生活著 25 個(gè) AI 智能體的虛擬小鎮(zhèn),震驚了 AI 社區(qū)

這種智能體還有一個(gè)好處就是,不需要具體化的自然語(yǔ)言處理任務(wù)。

然而,這些智能體仍然無法擺脫這樣的缺陷 —— 無法終身學(xué)習(xí),因而不能在較長(zhǎng)時(shí)間跨度上逐步獲取知識(shí),并且將它們積累下來。

而這項(xiàng)工作最重要的意義就在于,GPT-4 開啟了一種新的范式:這個(gè)過程中是靠代碼執(zhí)行「訓(xùn)練」,而非靠梯度下降。

Jim Fan 解釋道:我們?cè)?BabyAGI / AutoGPT 之前就有了這個(gè)想法,花了很多時(shí)間找出最好的無梯度架構(gòu)

「訓(xùn)練模型」是 Voyager 迭代式構(gòu)建的技能代碼庫(kù),而非浮點(diǎn)數(shù)矩陣。通過這種方法,團(tuán)隊(duì)正在將無梯度架構(gòu)推向極限。

在這種情況下訓(xùn)練出的智能體,已經(jīng)具備了同人類一樣的終身學(xué)習(xí)能力。

比如,Voyager 如果發(fā)現(xiàn)自己處在沙漠而非森林中,就會(huì)知道學(xué)會(huì)收集沙子和仙人掌就比學(xué)會(huì)收集鐵礦更重要。

而且,它不僅能根據(jù)目前的技能水平和世界狀態(tài)明確自己最合適的任務(wù),還能根據(jù)反饋不斷完善技能,保存在記憶中,留在下次調(diào)用。

所以,我們離硅基生命出現(xiàn)還有多遠(yuǎn)?

剛剛回到 OpenAI 的 Karpathy 對(duì)這個(gè)工作表示盛贊:這是個(gè)用于高級(jí)技能的「無梯度架構(gòu)」。在這里,LLM 就相當(dāng)于是前額葉皮層,通過代碼生成了較低級(jí)的 mineflayer API。

Karpathy 回憶起,在 2016 年左右,智能體在 Minecraft 環(huán)境中的表現(xiàn)還很讓人絕望。當(dāng)時(shí)的 RL 只能從超稀疏的獎(jiǎng)勵(lì)中隨機(jī)地探索執(zhí)行長(zhǎng)期任務(wù)的方式,讓人感覺非常 stuck。

而現(xiàn)在,這個(gè)障礙已經(jīng)在很大程度上被解除了 —— 正確的做法是另辟蹊徑,首先訓(xùn)練 LLM 從互聯(lián)網(wǎng)文本上學(xué)習(xí)世界知識(shí)、推理和工具使用(尤其是編寫代碼),然后直接把問題拋給它們。

最后他感慨道:如果我在 2016 年就讀到這種對(duì)智能體的「無梯度」方法,我肯定會(huì)大吃一驚。

微博大 V「寶玉 xp」也對(duì)這個(gè)工作給予了高度評(píng)價(jià) ——

真的是了不起的嘗試,整個(gè)代碼都是開源的,這種自動(dòng)生成任務(wù)-> 自動(dòng)寫代碼執(zhí)行任務(wù)-> 保存一個(gè)代碼庫(kù)可以重用的思路,應(yīng)該是可以很容易應(yīng)用到其他領(lǐng)域。

Voyager

與其他 AI 研究中常用的游戲不同,Minecraft 并沒有強(qiáng)加預(yù)定義的終點(diǎn)目標(biāo)或固定的劇情線,而是提供了一個(gè)具有無盡可能性的游樂場(chǎng)。

對(duì)于一個(gè)有效的終身學(xué)習(xí)智能體來說,它應(yīng)該具有與人類玩家類似的能力:

1. 根據(jù)其當(dāng)前的技能水平和世界狀態(tài)提出適當(dāng)?shù)娜蝿?wù),例如,如果它發(fā)現(xiàn)自己是在沙漠而不是森林中,就會(huì)在學(xué)習(xí)收集鐵之前學(xué)習(xí)收集沙子和仙人掌

2. 基于環(huán)境反饋來完善技能,并將掌握的技能記入記憶,以便在類似情況下重復(fù)使用(例如,與僵尸戰(zhàn)斗與與蜘蛛戰(zhàn)斗類似)

3. 持續(xù)探索世界,以自我驅(qū)動(dòng)的方式尋找新的任務(wù)。

為了讓 Voyager 具有上述這些能力,來自英偉達(dá)、加州理工學(xué)院、得克薩斯大學(xué)奧斯汀分校和亞利桑那州立大學(xué)的團(tuán)隊(duì)提出了 3 個(gè)關(guān)鍵組件:

1. 一個(gè)迭代提示機(jī)制,能結(jié)合游戲反饋、執(zhí)行錯(cuò)誤和自我驗(yàn)證來改進(jìn)程序

2. 一個(gè)技能代碼庫(kù),用來存儲(chǔ)和檢索復(fù)雜行為

3. 一個(gè)自動(dòng)教程,可以最大化智能體的探索

首先,Voyager 會(huì)嘗試使用一個(gè)流行的 Minecraft JavaScript API(Mineflayer)來編寫一個(gè)實(shí)現(xiàn)特定目標(biāo)的程序。

雖然程序在第一次嘗試時(shí)就出錯(cuò)了,但是游戲環(huán)境反饋和 JavaScript 執(zhí)行錯(cuò)誤(如果有的話)會(huì)幫助 GPT-4 改進(jìn)程序。

左:環(huán)境反饋。GPT-4 意識(shí)到在制作木棒之前還需要 2 塊木板。

右: 執(zhí)行錯(cuò)誤。GPT-4 意識(shí)到它應(yīng)該制作一把木斧,而不是一把「相思木」斧,因?yàn)?Minecraft 中并沒有「相思木」斧。

通過提供智能體當(dāng)前的狀態(tài)和任務(wù),GPT-4 會(huì)告訴程序是否完成了任務(wù)。

此外,如果任務(wù)失敗了,GPT-4 還會(huì)提出批評(píng),建議如何完成任務(wù)。

自我驗(yàn)證

其次,Voyager 通過在向量數(shù)據(jù)庫(kù)中存儲(chǔ)成功的程序,逐步建立一個(gè)技能庫(kù)。每個(gè)程序可以通過其文檔字符串的嵌入來檢索。

復(fù)雜的技能是通過組合簡(jiǎn)單的技能來合成的,這會(huì)使 Voyager 的能力隨著時(shí)間的推移迅速增長(zhǎng),并緩解災(zāi)難性遺忘。

上:添加技能。每個(gè)技能都由其描述的嵌入索引,可以在將來的類似情況中檢索。

下:檢索技能。當(dāng)面對(duì)自動(dòng)課程提出的新任務(wù)時(shí),會(huì)進(jìn)行查詢并識(shí)別前 5 個(gè)相關(guān)技能。

第三,自動(dòng)課程會(huì)根據(jù)智能體當(dāng)前的技能水平和世界狀態(tài),提出合適的探索任務(wù)。

例如,如果它發(fā)現(xiàn)自己在沙漠而非森林中,就學(xué)習(xí)采集沙子和仙人掌,而不是鐵。

具體來說,課程是由 GPT-4 基于「發(fā)現(xiàn)盡可能多樣化的東西」這個(gè)目標(biāo)生成的。

自動(dòng)課程

實(shí)驗(yàn)

接下來,讓我們看一些實(shí)驗(yàn)!

團(tuán)隊(duì)將 Voyager 與其他基于 LLM 的智能體技術(shù)進(jìn)行了系統(tǒng)性的比較,比如 ReAct、Reflexion,以及在 Minecraft 中廣受歡迎的 AutoGPT。

在 160 次提示迭代中,Voyager 發(fā)現(xiàn)了 63 個(gè)獨(dú)特的物品,比之前的 SOTA 多出 3.3 倍。

尋求新奇的自動(dòng)課程自然會(huì)驅(qū)使 Voyager 進(jìn)行廣泛的旅行。即使沒有明確的指示,Voyager 也會(huì)遍歷更長(zhǎng)的距離(2.3 倍),訪問更多的地形。

相比之下,之前的方法就顯得非?!笐猩ⅰ沽?,經(jīng)常會(huì)在一小片區(qū)域里兜圈子。

地圖探索率

那么,經(jīng)過終身學(xué)習(xí)后的「訓(xùn)練模型」—— 技能庫(kù),表現(xiàn)如何呢?

團(tuán)隊(duì)清空了物品 / 護(hù)甲,生成了一個(gè)新的世界,并用從未見過的任務(wù)對(duì)智能體進(jìn)行了測(cè)試。

可以看到,Voyager 解決任務(wù)的速度明顯比其他方法更快。

值得注意的是,從終身學(xué)習(xí)中構(gòu)建的技能庫(kù)不僅提高了 Voyager 的性能,也提升了 AutoGPT 的性能。

這表明,技能庫(kù)作為一種通用工具,可以有效地作為一個(gè)即插即用的方法來提高性能。

零樣本泛化

上圖中的數(shù)字是三次試驗(yàn)中提示迭代的平均值。迭代次數(shù)越少,方法越有效??梢钥吹剑琕oyager 解決了所有的任務(wù),而 AutoGPT 經(jīng)過 50 次提示迭代都無法解決。

此外,與其他方法相比,Voyager 在解鎖木工具上快了 15.3 倍,石工具快 8.5 倍,鐵工具快 6.4 倍。而且擁有技能庫(kù)的 Voyager 是唯一解鎖鉆石工具的。

技能樹掌握情況(木工具 → 石工具 → 鐵工具 → 鉆石工具)

目前,Voyager 只支持文本,但在未來可以通過視覺感知進(jìn)行增強(qiáng)。

在團(tuán)隊(duì)進(jìn)行的一個(gè)初步研究中,人類可以像一個(gè)圖像標(biāo)注模型一樣,向智能體提供反饋。

從而讓 Voyager 能夠構(gòu)建復(fù)雜的 3D 結(jié)構(gòu),比如地獄門和房子。

結(jié)果表明,Voyager 的性能優(yōu)于所有替代方案。此外,GPT-4 在代碼生成方面也明顯優(yōu)于 GPT-3.5。

消融實(shí)驗(yàn)

結(jié)論

Voyager 是第一個(gè)由 LLM 驅(qū)動(dòng)、可以終身學(xué)習(xí)的具身智能體。它可以利用 GPT-4 不停地探索世界,開發(fā)越來越復(fù)雜的技能,并始終能在沒有人工干預(yù)的情況下進(jìn)行新的發(fā)現(xiàn)。

在發(fā)現(xiàn)新物品、解鎖 Minecraft 技術(shù)樹、穿越多樣化地形,以及將其學(xué)習(xí)到的技能庫(kù)應(yīng)用于新生成世界中的未知任務(wù)方面,Voyager 表現(xiàn)出了優(yōu)越的性能。

對(duì)于通用智能體的開發(fā)來說,無需調(diào)整模型參數(shù)的 Voyager 是可以作為一個(gè)起點(diǎn)的。

參考資料:

  • https://voyager.minedojo.org/

本文來自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知