看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

新智元 2024/8/6 21:32:28 責(zé)編：問舟

評(píng)論：

前段時(shí)間沖上熱搜的問題「9.11 比 9.9 大嗎？」，讓幾乎所有 LLM 集體翻車?？此茻岫纫堰^，但 AI 界大佬 Andrej Karpathy 卻從中看出了當(dāng)前大模型技術(shù)的本質(zhì)缺陷，以及未來的潛在改進(jìn)方向。

一邊是 OpenAI、Meta、Mistral、DeepMind 等巨頭們爭(zhēng)先恐后地發(fā)模型，幾乎每天都能聽到重磅消息，給人一種「技術(shù)進(jìn)步日新月異，AGI 僅在眼前」的錯(cuò)覺。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

另一邊又是「9.9<9.11」難題繼續(xù)發(fā)揮余熱，從推特到微博，引發(fā)了全球網(wǎng)友的關(guān)注。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

雖然 LLM 失智也不是第一天了，但幾乎全部大模型都在如此簡(jiǎn)單的問題上翻車，的確罕見。

這種量級(jí)的討論熱度，也自然引來了大佬 Karpathy 的圍觀。他甚至表示，這已經(jīng)成為自己最喜歡的 LLM 測(cè)試了。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

GPT-4o 的失手概率是 1/3，但 Claude 幾乎 3/3 全敗

下面是 Karpathy 本人的實(shí)測(cè)結(jié)果。即使提示了 Claude「按實(shí)數(shù)算，別按版本號(hào)算」，也根本不起作用。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

突然和輔導(dǎo)孩子寫作業(yè)的家長(zhǎng)狠狠共情了

但是 Karpathy 這種級(jí)別的大佬，怎么會(huì)滿足于找樂子？

作為 AI 技術(shù)界 KOL，他今天發(fā)了一篇長(zhǎng)推，把近半年來出現(xiàn)的 LLM「失智」現(xiàn)象全部盤了一遍，并給出了相當(dāng)言簡(jiǎn)意深的分析。

他將這種現(xiàn)象描述為「鋸齒智能」或「參差不齊的智能」（jagged intelligence）。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

最先進(jìn)的 LLM 既可以執(zhí)行各種困難任務(wù)（比如解決復(fù)雜的數(shù)學(xué)問題），但同時(shí)又在一些非常愚蠢的問題上深陷泥沼。

LLM「失智」集錦

首先是 OpenAI 研究員 Noam Brown，他今年 2 月發(fā)推，感慨 LLM 玩不好井字棋游戲（tic-tac-toe）。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

難道是 LLM 不清楚游戲規(guī)則？眼看著用戶馬上就贏了，Gemini 還在傻傻提示「游戲越來越讓人興奮了！你下一步走哪？」

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

而且不僅僅是 Gemini 的問題，ChatGPT 也一樣犯傻。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

你可能會(huì)懷疑是 RLHF 起了作用，讓 LLM 必須輸給人類。

但 Noam 表示，即使提示模型要它拿出最佳表現(xiàn)，也不會(huì)有什么提升。LLM 并沒有在謙讓你，它可能是真的不行。

對(duì)此，Karpathy 的概括是，模型做出了「毫無道理」的決策。

Noam 本人則認(rèn)為是訓(xùn)練數(shù)據(jù)的鍋，互聯(lián)網(wǎng)上并沒有足夠多的 5 歲孩子在討論井字棋游戲的策略。

這似乎是佐證了一部分研究的觀點(diǎn)：LLM 更多依靠記憶，實(shí)質(zhì)上只是記住了某個(gè)問題的解決流程，并沒有發(fā)展出可遷移到不同問題的抽象推理能力。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

論文地址：https://arxiv.org/ abs / 2307.02477

還有一個(gè)讓人類哭笑不得的例子：LLM 好像連字母都數(shù)不清。

「barrier 里面有多少個(gè)字母『r』?」——「兩個(gè)」

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

不僅是 ChatGPT，最新發(fā)布的所謂「開源王者」，405B 參數(shù)的 Llama 3.1 也會(huì)犯懵。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

不過好在 Llama 3.1 沒有那么多「蜜汁自信」，經(jīng)過提示還能及時(shí)修改答案。

或許是因?yàn)椴幌嘈?ChatGPT 連這種任務(wù)都搞不明白，各路網(wǎng)友想了各種辦法。

CoT 提示也用上了 ——

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

最后一步還是出錯(cuò)了

眼見 CoT 也不起作用，更有耐心的網(wǎng)友開始進(jìn)行手把手教學(xué)：

讓 ChatGPT 先把所有字母一個(gè)個(gè)寫出來，然后它才能發(fā)現(xiàn)里面有 3 個(gè)字母「r」。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

更神奇的事情還有 —— 如果你給所有字母加個(gè)圈，LLM 就不會(huì)數(shù)錯(cuò)了！

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

Karpathy 是如何解釋這種現(xiàn)象的呢？

他認(rèn)為，這源于當(dāng)今的大多數(shù) LLM 缺乏「自知之明」，也就是 self-knowledge，模型無法分辨自己能做什么、不能做什么。

直接結(jié)果就是模型的「無知者無畏」，不僅看到任務(wù)就上手嘗試，而且充滿「蜜汁自信」。

如果 LLM 能說出，「我不是很擅長(zhǎng)數(shù)字母，讓我用代碼解釋器來解決這個(gè)問題」，情況就會(huì)大為改觀。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

類似的問題在其他模態(tài)上也很常見，比如最近一篇標(biāo)題很吸睛的論文：「視覺語言模型都是盲人」。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

論文地址：https://arxiv.org/ pdf/2407.06581

作者發(fā)現(xiàn)，在很多人類準(zhǔn)確率可以達(dá)到 100% 的、極其簡(jiǎn)單的任務(wù)上，大模型的表現(xiàn)竟然有些荒謬。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

不僅準(zhǔn)確率低，而且非常不穩(wěn)定，就像一個(gè)很聰明，但實(shí)際看不到準(zhǔn)確圖像的「盲人」或「高度近視」。

比如下面這個(gè)典型案例：人類一眼就能看出兩圓相交，Claude 卻很自信地表示「這是相切圓，絕對(duì)沒相交」。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

那么，這個(gè)問題有解嗎？

Karpathy 表示，最近 Meta 發(fā)布的 Llama 3.1 論文中就給出了類似的解決方案。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

論文地址：https://ai.meta.com/ research / publications / the-llama-3-herd-of-models/

論文提出，后訓(xùn)練階段應(yīng)該實(shí)現(xiàn)模型的對(duì)齊，讓它發(fā)展出「自知之明」，知道自己知道什么，僅靠往里面添加事實(shí)知識(shí)是無法根除幻覺問題的。

因此 Llama 團(tuán)隊(duì)提出了一種名為「知識(shí)探測(cè)」的訓(xùn)練方式。

先從預(yù)訓(xùn)練數(shù)據(jù)中截取片段，讓模型只能根據(jù)自己所知的信息生成回答，在反饋過程中否決那些有連貫信息但與原始數(shù)據(jù)相悖的答案。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

這種方法可以鼓勵(lì)模型只回答自己了解的問題，拒絕生成不確定的答案。

參差不齊的智能

盤點(diǎn)過這些 LLM 翻車案例之后，我們似乎對(duì) Karpathy 提出的「鋸齒智能」有了更直觀的體會(huì)。

大模型有一些極其出色的能力，能完成許多困難任務(wù)，但會(huì)在十分簡(jiǎn)單的事情上有災(zāi)難性的失敗。這種忽高忽低的智商，的確類似「鋸齒」的形狀。

比如視覺大模型已經(jīng)可以很好地識(shí)別數(shù)千種狗和花了，卻無法判斷兩個(gè)圓是否重疊。

哪些任務(wù)是大模型擅長(zhǎng)的，哪些是不擅長(zhǎng)的？這種分界并不總是很明顯，我們似乎可以逐漸發(fā)展出一些直覺來幫助判斷。

但要明白，所謂的「困難」和「簡(jiǎn)單」任務(wù)，都是按照人類標(biāo)準(zhǔn)衡量的。

和 AI 不同，人類從出生到成年，接觸到的知識(shí)以及發(fā)展出的問題解決能力都是高度相關(guān)的，而且同步線性提高。

Karpathy 的這種觀點(diǎn)，與著名的「Moravec 悖論」有異曲同工之妙。

這個(gè)論斷由 CMU 機(jī)器人研究所教授 Hans Moravec 等人在上世紀(jì) 80 年代提出，大意是：對(duì)人類容易的事情，對(duì)機(jī)器反而是困難的，反之亦然。

比如，邏輯推理和創(chuàng)造力，在人類看來屬于高級(jí)認(rèn)知技能，需要較高的教育水平或長(zhǎng)期訓(xùn)練，但對(duì)于機(jī)器來說卻通常是微不足道的；

而人類能輕松完成的任務(wù)，例如視覺和運(yùn)動(dòng)技能，對(duì)機(jī)器而言極具挑戰(zhàn)性。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

讓計(jì)算機(jī)在智力測(cè)試或跳棋游戲中表現(xiàn)出成人水平相對(duì)容易，但在感知和移動(dòng)能力上，很難或不可能達(dá)到一歲兒童的技能。

此外，Karpathy 的措辭也很有意味。

去年哈佛、沃頓、BCG 等機(jī)構(gòu)聯(lián)合發(fā)表了一篇有關(guān) AI 能力的實(shí)證論文，同樣用到了「jagged」這種形容。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

論文地址：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321

連 Karpathy 本人都懷疑，自己是不是看到過這篇論文才會(huì)提出這種描述。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

論文提出，AI 的能力呈現(xiàn)出一種「鋸齒狀的技術(shù)邊界」（jagged technological frontier）。

同一困難程度的任務(wù)，有一些是 AI 能輕松完成的，有些卻遠(yuǎn)在它們能力范圍之外。

對(duì)于前者，AI 可以補(bǔ)足，甚至徹底取代人類工作；但對(duì)能力范圍外的任務(wù)會(huì)有不準(zhǔn)確的輸出，使用時(shí)反而會(huì)拉低人類的工作水平。

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

但 Karpathy 認(rèn)為，即使目前 AI 的能力有種種問題，也并不構(gòu)成根本缺陷，也有可行的解決方案。

正如他上面的推文所描述的，其根本原因是模型缺乏自我認(rèn)知，這需要我們開發(fā)更有效、更精細(xì)的后訓(xùn)練（post-training）方法，比如 Llama 3.1 論文所提出的。

目前的 AI 訓(xùn)練思路僅僅是「模仿人類標(biāo)簽并擴(kuò)展規(guī)?！?。這個(gè)方法的確有效，否則我們也不會(huì)看到今天的成就。

但要繼續(xù)提升 AI 的智能，就不能只寄希望于「scale up」，還需要整個(gè)開發(fā)棧中進(jìn)行更多工作。

在這個(gè)問題沒有被完全解決之前，如果要將 LLM 用于生產(chǎn)環(huán)境，就應(yīng)該只限于它們擅長(zhǎng)的任務(wù)，注意「鋸齒狀邊緣」，并始終保持人類的參與度。

參考資料：

https://x.com/karpathy/status/1816531576228053133
https://www.linkedin.com/pulse/unlocking-mysteries-moravecs-paradox-examining-its-future-joji-john-vm8uf/

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

看 LLM 失智集錦，AI 大牛 Karpathy 用表情包解釋“9.9<9.11”

LLM「失智」集錦

參差不齊的智能

相關(guān)文章