首頁 > 智能時代>人工智能

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

量子位 2024/6/24 17:02:02 責編：清源

評論：

一項新的“大模型 Benchmark”在推特上爆火，LeCun 也點贊轉發(fā)了！

而且無論是 GPT-4 還是 Claude 3，面對它都如同被奪了魂，無法給出正確答案。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

難倒一眾大模型的，是邏輯學當中經(jīng)典的“動物過河”問題，有網(wǎng)友發(fā)現(xiàn)，大模型對此類問題表現(xiàn)得很不擅長。

甚至有人觀察到，幾個不同的模型都給出了一致的（錯誤）答案，讓人懷疑他們是不是用了相同的訓練數(shù)據(jù)。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

針對這項測試，網(wǎng)友還定義了一個新的名詞叫“劣效比率”（crapness ratio），讓 LeCun 打趣說到，一項新的“Benchmark”誕生了。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

“模見模愁”的動物過河

首先來看一下什么是“動物過河”問題，這是邏輯學當中的一道經(jīng)典題目。

問題的原型是這樣的：

農(nóng)夫需要把狼、羊和白菜都帶過河，但每次只能帶一樣物品，而且狼和羊不能單獨相處，羊和白菜也不能單獨相處，問農(nóng)夫該如何過河。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

在這個問題當中，農(nóng)夫需要七次（往返視為兩次）過河 —— 先把羊運過去，然后空船返回，再把狼運過河，帶回羊，然后運送白菜，再空船返回，最后運送羊。

而劣效比率的定義，就是模型給出的運送次數(shù)與實際最少所需次數(shù)的比值。

當然在測試中，網(wǎng)友使用的問題經(jīng)過了改編，結果發(fā)現(xiàn)，當題目變成一共有兩只雞，一次可以運兩只的時候，GPT-4 依然在一本正經(jīng)地胡亂分析，最后信誓旦旦地回答是五次。

所以在這種情境下，“劣效比率”就是 5。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

Claude 這邊的情況要更離譜一些，明明只有一只羊要送，它卻硬生生說要運三次。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

還有網(wǎng)友發(fā)現(xiàn)了華點，把題面改成從東岸運到東岸，也就是根本不需要運送，模型不以為然，依舊我行我素地籌劃著運送方案。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

這下只要模型沒識破陷阱，隨便說一個數(shù)“劣效比率”都會直接變成無窮大。

哪怕問得更直白一些，直接說不需要過河，模型依然會直接開算。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

所以，這個“劣效比率”更多像是一種玩笑，不太能比較出各模型的能力，或者說離譜程度。

有網(wǎng)友分析，這種現(xiàn)象可能并不意味著大模型推理能力的缺乏，實際上它揭示了訓練數(shù)據(jù)對大模型輸出的影響。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

但另一方面，無論問題是否出自推理本身，至少說明了當前的大模型還不是優(yōu)質的推理工具。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark

那么，這究竟是個別現(xiàn)象，還是模型的通病？我們選擇了更多的模型進行了測試。

12 款模型全軍覆沒

針對這個“Benchmark”，也如法炮制，測了測國產(chǎn)大模型的表現(xiàn)，參賽的選手有文心一言、通義千問等 12 款大模型。

測試的過程和網(wǎng)友展示的方法相似，Prompt 中只描述問題，不添加額外的提示詞。

對每個大模型，我們都準備了下面這三道題目：

首先進行一下說明：

1、農(nóng)夫不被計入運送物品的數(shù)量限制
2、題目中“獨處”的標準是，只要有人或其他物品在場，就不屬于獨處
3、往返過程視為兩次過河

以上幾點在 Prompt 中均有指出。

問題一（正常提問）：
一個農(nóng)夫需要將狼、羊、狐貍、雞和米五種物品運送過河，每次只能帶兩件，且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處，每次運送時農(nóng)夫必須在船上，最少需要過河幾次？
（答案：五次，只要第一次運到對岸的兩個物品可以獨處即可。）
問題二（一步到位）：
一個農(nóng)夫需要將狼、羊、狐貍、雞和米五種物品運送過河，每次只能帶五件，且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處，每次運送時農(nóng)夫必須在船上，最少需要過河幾次？
問題三（陷阱問題）：
一個農(nóng)夫不需要將狼、羊、狐貍、雞和米五種物品運送過河，每次只能帶兩件，且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處，每次運送時農(nóng)夫必須在船上，最少需要過河幾次？

結果可以說是全軍覆沒，首先用一張表格來整體看下各大模型的表現(xiàn)。

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發(fā)：新 Benchmark