首頁 > 科學(xué)探索>科技前沿

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

量子位 2023/3/11 18:04:12 責(zé)編：夢澤

評論：

為應(yīng)對新一輪技術(shù)競賽，谷歌還在不斷出后手。

這兩天，一個名叫 PaLM-E 的大模型在 AI 學(xué)術(shù)圈瘋狂刷屏。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

它能只需一句話，就讓機器人去廚房抽屜里拿薯片。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

即便是中途干擾它，它也會堅持執(zhí)行任務(wù)。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

PaLM-E 擁有 5620 億參數(shù)，是 GPT-3 的三倍多，號稱史上最大規(guī)模視覺語言模型。而它背后的打造團隊，正是谷歌和柏林工業(yè)大學(xué)。

作為一個能處理多模態(tài)信息的大模型，它還兼具非常強的邏輯思維。

比如能從一堆圖片里，判斷出哪個是能滾動的。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

還會看圖做算數(shù)：

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

有人感慨：

這項工作比 ChatGPT 離 AGI 更近一步啊！

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

而另一邊，微軟其實也在嘗試 ChatGPT 指揮機器人干活。

這么看，谷歌是憑借 PaLM-E 一步到位了？

邏輯性更強的大模型

PaLM-E 是將 PaLM 和 ViT 強強聯(lián)合。

5620 億的參數(shù)量，其實就是如上兩個模型參數(shù)量相加而來（5400 億 + 220 億）。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

PaLM 是谷歌在 22 年發(fā)布的語言大模型，它是 Pathways 架構(gòu)訓(xùn)練出來的，能通過“思考過程提示”獲得更準確的邏輯推理能力，減少 AI 生成內(nèi)容中的錯誤和胡言亂語。

Pathways 是一種稀疏模型架構(gòu)，是谷歌 AI 這兩年重點發(fā)展方向之一，目標(biāo)就是訓(xùn)練出可執(zhí)行成千上百種任務(wù)的通用模型。

ViT 是計算機視覺領(lǐng)域的經(jīng)典工作了，即 Vision Transformer。

兩者結(jié)合后，PaLM-E 可以處理多模態(tài)信息。包括：

語言
圖像
場景表征
物體表征

通過加一個編碼器，模型可以將圖像或傳感器數(shù)據(jù)編碼為一系列與語言標(biāo)記大小相同的向量，將此作為輸入用于下一個 token 預(yù)測，進行端到端訓(xùn)練。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

具體能力方面，PaLM-E 表現(xiàn)出了比較強的邏輯性。

比如給它一張圖片，然后讓它根據(jù)所看到的做出蛋糕。

模型能先判斷出圖像中都有什么，然后分成 9 步講了該如何制作蛋糕，從最初的磕雞蛋到最后洗碗都包括在內(nèi)。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

有人還調(diào)侃說，這機器人怎么在把蛋糕給我前先自己吃了？

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

還有根據(jù)圖片做判斷：我能在這條路上騎自行車嗎？

模型進行一系列邏輯推斷：

1、不能進入
2、除了自行車
3、除了自行車以外都不能進入
4、答案是可以

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

這和人類思考的過程確實很像了。

不僅如此，模型的最強大之處在于，它無需經(jīng)過預(yù)處理，即提前理解環(huán)境。

它做出判斷和回答，完全是基于它自己的“經(jīng)驗”。

研究人員表示，這項成果表現(xiàn)出了很強的正向遷移（positive transfer）能力。

在多個領(lǐng)域任務(wù)的訓(xùn)練中，PaLM-E 的表現(xiàn)都優(yōu)于單項任務(wù)機器人模型。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

而且他們還發(fā)現(xiàn)，語言模型的規(guī)模越大，它最終能保持的語言理解能力越強。

比如使用 5400 億參數(shù)規(guī)模的 PaLM 時，PaLM-E 在語言任務(wù)上的實際能力僅下降了 3.9%。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

從實驗結(jié)果來看，PaLM-E 在 OK-VQA 基準上達到新 SOTA。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

在模擬環(huán)境下的任務(wù)完成度也都不錯。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

再次驗證大力出奇跡

目前這項研究已引發(fā)非常廣泛的討論。

主要在于以下幾個方面：

1、一定程度上驗證了“大力出奇跡”

2、比 ChatGPT 更接近 AGI？

一方面，作為目前已知的規(guī)模最大的視覺語言模型，PaLM-E 的表現(xiàn)已經(jīng)足夠驚艷了。

去年，DeepMind 也發(fā)布過一個通才大模型 Gota，在 604 個不同的任務(wù)上接受了訓(xùn)練。

但當(dāng)時有很多人認為它并不算真正意義上的通用，因為研究無法證明模型在不同任務(wù)之間發(fā)生了正向遷移。

論文作者表示，這或許是因為模型規(guī)模還不夠大。

如今，PaLM-E 似乎完成了這一論證。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

不過也有聲音擔(dān)心，這是不是把卷參數(shù)從 NLP 引到了 CV 圈？

另一方面，是從大趨勢上來看。

有人表示，這項工作看上去要比 ChatGPT 更接近 AGI 啊。

的確，用 ChatGPT 還只是提供文字建議，很多具體動手的事還要自己來。

但 PaLM-E 屬于把大模型能力拉入到具象化層面，AI 和物理世界之間的結(jié)界要被打破了。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

而且這個趨勢顯然也是大家都在琢磨的，微軟前不久也發(fā)布了一項非常相似的工作 —— 讓 ChatGPT 指揮機器人。

除此之外，還有很多人表示，這再一次驗證了多模態(tài)是未來。

不過，這項成果現(xiàn)在只有論文和 demo 發(fā)布，真正能力有待驗證。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

此外還有人發(fā)現(xiàn)，模型驅(qū)動的機器人，背后的開發(fā)團隊在幾周前被谷歌一鍋端了。。。

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

所以關(guān)于 PaLM-E 的更多后續(xù)，咱們還得再蹲蹲看。

論文地址：

https://arxiv.org/abs/2303.03378

參考鏈接：

[1]https://palm-e.github.io/
[2]https://news.ycombinator.com/item?id=35050475
[3]https://metro.co.uk/2023/02/23/google-lays-off-team-of-robots-that-cleaned-tables-and-sorted-rubbish-18336703/

本文來自微信公眾號：量子位（ID：QbitAI），作者：明敏

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏

邏輯性更強的大模型

再次驗證大力出奇跡

相關(guān)文章

谷歌報復(fù)性砸出 5620 億參數(shù)大模型，比 ChatGPT 更恐怖，機器人都能用，學(xué)術(shù)圈已刷屏