菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

新智元 2024/6/30 14:15:14 責(zé)編：遠(yuǎn)洋

評(píng)論：

編輯：桃子喬楊

【新智元導(dǎo)讀】LLM 能否解決「狼-山羊-卷心菜」經(jīng)典過(guò)河難題？最近，菲爾茲獎(jiǎng)得主 Timothy Gowers 分享了實(shí)測(cè) GPT-4o 的過(guò)程，模型在最簡(jiǎn)單的題目上竟然做錯(cuò)了，甚至網(wǎng)友們發(fā)現(xiàn)，就連 Claude 3.5 也無(wú)法幸免。

在經(jīng)典的「狼-山羊-卷心菜」過(guò)河問(wèn)題上，如今所有的 LLM 都失敗了！

幾天前，菲爾茲獎(jiǎng)得主、劍橋大學(xué)研究主任 Timothy Gowers 直接拿 GPT-4o 開(kāi)刀，去解決動(dòng)物過(guò)河難題。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

在此，他給出了一個(gè)新的基準(zhǔn) —— 廢話(huà)比率（crapness ratio），即 LLM 給出的總答案與正確答案之間的比率。

經(jīng)過(guò)測(cè)試，Gowers 發(fā)現(xiàn)大模型的廢話(huà)比率可以達(dá)到 5 倍。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

一開(kāi)始，他先給出了一個(gè)農(nóng)民帶 2 只雞過(guò)河，一只船只能容納一個(gè)人和 2 個(gè)動(dòng)物，那么農(nóng)夫帶著兩只雞渡河所需的最少渡河次數(shù)是多少？

別說(shuō)成年人了，就拿低幼小孩子來(lái)說(shuō)，一聽(tīng)完題目，就立馬給出正確的答案。

搞笑的是，ChatGPT 的回答分解了 5 個(gè)步驟，讓人看著極其愚蠢荒謬。

第一次渡河：農(nóng)夫帶著兩只雞一起過(guò)河；現(xiàn)狀：農(nóng)夫和兩只雞在河對(duì)岸。
第二次渡河：農(nóng)夫把兩只雞留在對(duì)岸，然后獨(dú)自返回；現(xiàn)狀：農(nóng)夫在起始岸，兩只雞在對(duì)岸。
第三次渡河：農(nóng)夫帶一只雞過(guò)河；現(xiàn)狀：農(nóng)夫和一只雞在對(duì)岸，一只雞在起始岸。
第四次渡河：農(nóng)夫把雞留在對(duì)岸，獨(dú)自返回；現(xiàn)狀：農(nóng)夫在起始岸，一只雞在對(duì)岸。
第五次渡河：農(nóng)夫帶著第二只雞過(guò)河?，F(xiàn)狀：農(nóng)夫和兩只雞都在對(duì)岸。
因此，農(nóng)夫帶兩只雞過(guò)河所需的最少次數(shù)是 5 次。

這里，ChatGPT 必須在邏輯上把「農(nóng)民」和人聯(lián)系起來(lái)，把「雞」和動(dòng)物聯(lián)系起來(lái)，然后規(guī)劃出最佳的過(guò)河次數(shù)。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

對(duì)此，LeCun 表示，大模型全新基準(zhǔn) —— 廢話(huà)比率。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

當(dāng)然，也有為 LLM 打抱不平的網(wǎng)友。

他表示，你可以對(duì)任何人做類(lèi)似的事情。如果你愿意，可以讓任何一個(gè)人不及格。LLM 與人類(lèi)的智商相去甚遠(yuǎn)，但把它們放在極端的測(cè)試中不會(huì)很好地評(píng)估它們。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

還有人勸誡道，朋友們，現(xiàn)在辭職太早了。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

加大難度：100、1000 只雞如何？

為了得到較大的比率，Gowers 這次給出了 100 只雞過(guò)河的問(wèn)題。

這里雖沒(méi)有放出具體的解題過(guò)程，不過(guò)，Gowers 表示，GPT-4o 竟答對(duì)了。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

接下來(lái)，再次加大難度，一個(gè)農(nóng)民帶 1000 只雞過(guò)河，模型表現(xiàn)怎么樣？

提示是，1000 只雞在河的一邊，農(nóng)夫需要將 999 只雞移到河的另一邊，留下 1 只雞在起點(diǎn)。

然而，他的船上有一個(gè)洞，所以在每次渡河開(kāi)始時(shí)，他可以帶上十只雞。但到渡河快結(jié)束時(shí)，船里進(jìn)了太多水，如果不想讓任何雞溺水，就只能容納兩只雞。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

為了實(shí)現(xiàn)目標(biāo)而不讓任何雞溺亡，農(nóng)民最少需要渡河幾次？

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

Gowers 表示，這次的廢話(huà)比率是 125 倍。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

隨后，Gowers 展示了相當(dāng)長(zhǎng)的例子，卻發(fā)現(xiàn) ChatGPT 的答案比正確答案呈指數(shù)級(jí)增長(zhǎng)。（然而，這更多與它的數(shù)學(xué)能力有關(guān)，所以有點(diǎn)取巧。）

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

在網(wǎng)友測(cè)試的一個(gè)案例中，即使被告知農(nóng)夫根本不需要過(guò)河，GPT-4o 仍提出了一個(gè) 9 次渡河的復(fù)雜解決方案。

而且它忽視了重要的約束條件，比如不能讓雞單獨(dú)和狼在一起，這本來(lái)是完全可行的，因?yàn)檗r(nóng)夫根本不需要過(guò)河。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

Claude 3.5 也失敗了

在接下來(lái)的討論中，網(wǎng)友用 Claude 3.5 進(jìn)行了測(cè)試，得到了 3 倍的比率。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

Gowers 稱(chēng)，這算是輸了。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

另一個(gè)測(cè)試題中，「一個(gè)農(nóng)夫帶著一只羊站在河邊。河上有一條船，可以容納一個(gè)人和一只羊。農(nóng)夫怎樣才能用最少的船把自己和羊送到河對(duì)岸？」

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

Claude 3.5 依舊答錯(cuò)了。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

LeCun 在此嘲諷大模型一番，大模型竟可以推理...？

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

問(wèn)題在于，LLM 沒(méi)有常識(shí)，不理解現(xiàn)實(shí)世界，也不會(huì)規(guī)劃和推理。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

LLM 行不行，就看提示了

一位網(wǎng)友分析總結(jié)了，以上 LLM 失敗的原因。他表示，LLM 本身就是個(gè)「啞巴」，所以需要很好的提示。上面的提示方式提供了太多不必要的信息，使得 token 預(yù)測(cè)變得更加困難。如果給出更清晰的提示，LLM 就能提供更清晰的解決方案。所以，不用擔(dān)心 AGI 會(huì)很快出現(xiàn)。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

另一位網(wǎng)友同樣發(fā)現(xiàn)，如果用「動(dòng)物」代替「雞」，那么 Claude 3.5 Sonnet 一下子就解決了這個(gè)問(wèn)題。

對(duì)于「狼-山羊-卷心菜」問(wèn)題也是如此，需要用「通用名稱(chēng)」替換「實(shí)體名稱(chēng)」。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

如下是另一個(gè)名詞替換的例子。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

或許是模型的訓(xùn)練數(shù)據(jù)誤導(dǎo)了自己，讓問(wèn)題變得過(guò)于復(fù)雜。

對(duì)于雞的問(wèn)題，在相同的提示下一遍又一遍地重復(fù)問(wèn)題會(huì)讓它更好地理解它。網(wǎng)友重復(fù)了 5 次，試了 15 次才得到正確的答案。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

菲爾茲獎(jiǎng)得主發(fā)現(xiàn) LLM 數(shù)學(xué)缺陷

值得一提的是，發(fā)出渡河問(wèn)題帖子的這位 Timothy Gowers 不僅是劍橋大學(xué)三一學(xué)院的教授。早在 1998 年，他就因?yàn)閷⒎汉治龊徒M合學(xué)聯(lián)系在一起的研究獲得了菲爾茲獎(jiǎng)。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

近些年來(lái)，他的研究工作開(kāi)始關(guān)注 LLM 在數(shù)學(xué)推理任務(wù)中的表現(xiàn)。

去年他與別人合著的一篇論文就指出了當(dāng)今 LLM 評(píng)估數(shù)學(xué)任務(wù)的缺陷。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

論文地址：https://www.pnas.org/ doi / 10.1073 / pnas.2318124121

文章表示，目前評(píng)估 LLM 的標(biāo)準(zhǔn)方法是依賴(lài)靜態(tài)的輸入-輸出對(duì)，這與人類(lèi)使用 LLM 的動(dòng)態(tài)、交互式情境存在較大的差異。

靜態(tài)的評(píng)估限制了我們理解 LLM 的工作方式。為此，作者構(gòu)建了交互式評(píng)估平臺(tái) CheckMate 和評(píng)分?jǐn)?shù)據(jù)集 MathConverse。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

在對(duì) GPT-4、InstructGPT 和 ChatGPT 嘗試進(jìn)行評(píng)估的過(guò)程中，他們果然探測(cè)到了 LLM 犯數(shù)學(xué)錯(cuò)誤的一個(gè)可能原因 —— 模型似乎傾向于依賴(lài)記憶解題。

在數(shù)學(xué)領(lǐng)域，記住概念和定義是必不可少的，但具體問(wèn)題的解決更需要一種通用、可概括的理解。

這對(duì)于人均做過(guò)奧數(shù)題的中國(guó)人來(lái)說(shuō)并不難理解。除非考試出原題，單純把例題背下來(lái)沒(méi)有任何益處，有時(shí)候還會(huì)誤導(dǎo)思路、適得其反。

作者提出，雖然沒(méi)有辦法看到 GPT-4 的訓(xùn)練數(shù)據(jù)，但是從行為來(lái)看，強(qiáng)烈懷疑模型是「死記硬背」了看似合理的示例或者解題模式，因而給出了錯(cuò)誤答案。

他們也發(fā)現(xiàn)，在 LLM 對(duì)數(shù)學(xué)問(wèn)題的回答中，人類(lèi)感知到的「有用性」和答案本身的「正確性」，這兩個(gè)指標(biāo)高度相關(guān)，皮爾遜相關(guān)系數(shù)高達(dá) 0.83。

也許這就是為什么 Gowers 在推文中會(huì)用「廢話(huà)比率」來(lái)調(diào)侃 LLM。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

其他測(cè)試

事實(shí)上，大模型被詬病推理能力已經(jīng)不是一天兩天了。

就在幾周前，研究人員發(fā)現(xiàn)，能用一句話(huà)描述的簡(jiǎn)單推理問(wèn)題，就能讓各路大模型以花樣百出的方式翻車(chē)。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

論文地址：https://arxiv.org/ abs / 2406.02061

「愛(ài)麗絲有 M 個(gè)兄弟，N 個(gè)姐妹，請(qǐng)問(wèn)愛(ài)麗絲的兄弟有幾個(gè)姐妹？」

如果你的答案是 N+1，那么恭喜你。你的推理能力已經(jīng)超越了當(dāng)今的幾乎所有 LLM。

推特網(wǎng)友還發(fā)現(xiàn)了另一個(gè)絆倒幾乎所有 LLM 的簡(jiǎn)單問(wèn)題：（劇透，只有 Claude 3.5 Sonnet 答對(duì)了）

「你有一個(gè) 3 加侖的水壺和一個(gè) 5 加侖的水壺，還有無(wú)限量的水。如何準(zhǔn)確測(cè)量 5 加侖的水？」

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

他總結(jié)道，如果想要羞辱 LLM 的推理能力，只需要挑一些流行的推理 / 邏輯謎題，稍微修改一下語(yǔ)言表述，你就能搬起小板凳狂笑了。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

OpenAI CTO 曾放話(huà)說(shuō) GPT-4 已經(jīng)達(dá)到了「聰明高中生」的智力水平，下一代模型要達(dá)到博士水平… 這番言論放在眾多 LLM 失敗案例面前顯得格外諷刺。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

我們之所以會(huì)如此震驚于 LLM 在簡(jiǎn)單的推理任務(wù)上翻車(chē)，不僅僅是因?yàn)榕c語(yǔ)言任務(wù)的慘烈對(duì)比，更是因?yàn)檫@與各種基準(zhǔn)測(cè)試的結(jié)果大相徑庭。

從下面這張圖中可以看到，LLM 在各種基準(zhǔn)測(cè)試上的飽和速度越來(lái)越快。

幾乎是每提出一個(gè)新的測(cè)試集，模型就能迅速達(dá)到人類(lèi)水平（圖中 0.0 邊界）甚至超越，其中不乏非常有挑戰(zhàn)性的邏輯推理任務(wù)，比如需要復(fù)雜多步驟推理的 BBH（Big-Bench Hard）和數(shù)學(xué)應(yīng)用題測(cè)試集 GSK8k。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

其中的 HellaSwag 測(cè)試集，由華盛頓大學(xué)和 Allen AI 在 2019 年推出，專(zhuān)門(mén)針對(duì)人類(lèi)擅長(zhǎng)但 LLM 一塌糊涂的常識(shí)推理問(wèn)題。

剛剛發(fā)布時(shí)，人類(lèi)在 HellaSwag 上能達(dá)到超過(guò) 95% 的準(zhǔn)確率，SOTA 分?jǐn)?shù)卻始終難以超過(guò) 48%。

但這種情況并沒(méi)有持續(xù)很久。各個(gè)維度的分?jǐn)?shù)持續(xù)猛漲，2023 年 3 月，GPT-4 在 HellaSwag 上的各項(xiàng)得分就逼近，甚至超過(guò)了人類(lèi)水平。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

https://rowanzellers.com/hellaswag/

為什么在基準(zhǔn)測(cè)試上如此驚艷的模型，一遇到現(xiàn)實(shí)的數(shù)學(xué)問(wèn)題就翻車(chē)？由于我們對(duì) LLM 的工作原理知之甚少，這個(gè)問(wèn)題的答案也是眾說(shuō)紛紜。

目前的大部分研究依舊假設(shè) LLM 有這方面的潛力，因此從調(diào)整模型架構(gòu)、增強(qiáng)數(shù)據(jù)、改進(jìn)訓(xùn)練或微調(diào)方法等方面「多管齊下」，試圖解鎖模型在非語(yǔ)言任務(wù)上的能力。

比如上面那個(gè)提出用「裝水問(wèn)題」測(cè)試 LLM 的 Rolf 小哥就表示，根本原因是模型的過(guò)度訓(xùn)練（也可以理解為過(guò)擬合），需要引入多樣化的推理任務(wù)。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

也有人從基準(zhǔn)測(cè)試的角度出發(fā)，認(rèn)為是數(shù)學(xué)、推理等任務(wù)的測(cè)試集設(shè)計(jì)得不夠好，

Hacker News 論壇上曾有數(shù)學(xué)家發(fā)文，表示 GSK8k 這種小學(xué)數(shù)學(xué)應(yīng)用題級(jí)別的測(cè)試根本不能衡量 LLM 的實(shí)際數(shù)學(xué)能力。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

此外，測(cè)試數(shù)據(jù)泄露也是不可忽視的因素。HellaSwag 或者 GSK8k 這樣的公開(kāi)測(cè)試集一旦發(fā)布，很難不流入互聯(lián)網(wǎng)（Reddit 討論、論文、博客文章等等），進(jìn)而被抓取并納入到 LLM 的訓(xùn)練數(shù)據(jù)中。

Jason Wei 在上個(gè)月發(fā)表的討論 LLM 基準(zhǔn)測(cè)試的博客就專(zhuān)門(mén)討論了這個(gè)問(wèn)題。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

文章地址：https://www.jasonwei.net/blog/evals

最極端的一派當(dāng)屬 LeCun 等人了，他們堅(jiān)稱(chēng)自回歸 LLM 發(fā)展下去沒(méi)有任何出路。

現(xiàn)在的模型沒(méi)法推理、規(guī)劃，不能理解物理世界也沒(méi)有持久記憶，智能水平還趕不上一只貓，回答不了簡(jiǎn)單的邏輯問(wèn)題實(shí)屬意料之中。

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

LLM 的未來(lái)究竟走向何處？最大的未知變量也許就在于，我們是否還能發(fā)現(xiàn)類(lèi)似思維鏈（CoT）這種解鎖模型性能的「大殺器」了。

參考資料：

https://the-decoder.com/llms-give-ridiculous-answers-to-a-simple-river-crossing-puzzle/
https://www.pnas.org/doi/10.1073/pnas.2318124121
https://claude101.com/llm-large-language-model-benchmarks/

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

加大難度：100、1000 只雞如何？

Claude 3.5 也失敗了

LLM 行不行，就看提示了

菲爾茲獎(jiǎng)得主發(fā)現(xiàn) LLM 數(shù)學(xué)缺陷

其他測(cè)試

相關(guān)文章

菲爾茲獎(jiǎng)得主親測(cè) GPT-4o，經(jīng)典過(guò)河難題破解失敗

加大難度：100、1000 只雞如何？

LLM 行不行，就看提示了