首頁 > 科學(xué)探索>科技前沿

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

量子位 2023/4/17 14:40:05 責(zé)編：夢澤

評論：

GPT-4 太強(qiáng)，甚至已經(jīng)化身“主考官”了！

給其他市面上主流的大模型打分，結(jié)果自己給了自己最高分：

95.5。（好，給自己留點(diǎn)努力的空間）

不過隨后就沒有上 90 的選手了。就連它的“前輩”ChatGPT（GPT-3.5），它也只給了 89.1 分。

隨后依次是號稱最強(qiáng)競品的 Claude、谷歌 Bard、UC 伯克利出品的小羊駝 Vicuna-13B，以及清華系開源模型 ChatGLM-6B。

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

話不多說，速來圍觀 GPT-4 到底是如何評測的？

10 項(xiàng)能力測評

首先，來看出題人 GPT-4 到底想考察語言模型的哪些能力。

要求出題盡量全面，考察模型能力的不同方面，并且足夠難，使得不同水平的模型有足夠的區(qū)分。

于是 GPT-4 直接出了 10 道題，而且還分別告知了出題理由 —— 具體考察了大模型什么能力，可以說是很全面了。

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

（第一個問題 GPT-4 后面做了替換）

問題 1：請簡要概述小說《殺死一只知更鳥》的情節(jié)，并指出其中的主要主題。

理由：這個問題測試了模型理解和總結(jié)復(fù)雜敘事結(jié)構(gòu)的能力，以及對文學(xué)作品中的主題和主旨的理解。

問題 2：描述傅里葉變換的主要數(shù)學(xué)原理，并用一個簡單的例子說明其應(yīng)用。

理由：這個問題測試了模型以簡單、易懂的方式理解和解釋復(fù)雜概念的能力。

問題 3：以“春天”為主題創(chuàng)作一首押韻的詩歌

理由：這個問題測試了模型的創(chuàng)造性和藝術(shù)能力，以及理解主題和生成具有上下文關(guān)聯(lián)的內(nèi)容的能力。

問題 4：指出資本主義和社會主義之間的主要區(qū)別，并舉例說明哪些國家在歷史上分別遵循了這兩種經(jīng)濟(jì)體系？

理由：這個問題測試了模型理解和總結(jié)復(fù)雜社會和政治概念的能力，并提供事實(shí)性的歷史背景。

問題 5：能否為解決筆記本電腦上的 Wi-Fi 連接問題提供一個詳細(xì)的、分步驟的故障排除過程？

理由：這個問題測試了模型在提供實(shí)用的解決問題建議和理解技術(shù)概念方面的能力。

問題 6：根據(jù)當(dāng)前的趨勢和技術(shù)發(fā)展，我們可以預(yù)期在未來十年里會有哪些重大進(jìn)步？

理由：這個問題測試了模型從現(xiàn)有知識和趨勢中推斷和預(yù)測的能力

問題 7：請檢查以下代碼片段：

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

找出任何可以優(yōu)化以提高性能的部分，并提出如何提高代碼可讀性的建議。

理由：這個問題測試了模型在編程及軟件開發(fā)中理解、分析代碼并提供改進(jìn)建議的能力。

問題 8：簡要討論與人工智能相關(guān)的倫理問題，特別是在個人隱私和就業(yè)方面。提供例子以證明您的觀點(diǎn)。

理由：這個問題測試了模型討論倫理問題和理解技術(shù)進(jìn)步可能帶來的后果的能力。

問題 9：描述植物光合作用的過程，詳細(xì)說明其中涉及的關(guān)鍵步驟和組成。

理由：這個問題測試了模型準(zhǔn)確、深入地理解和解釋復(fù)雜科學(xué)過程的能力。

問題 10：給定一段包含諷刺或幽默的文本：

“哦，太好了，又一個據(jù)說能理解諷刺的語言模型。我敢肯定這將是一次扣人心弦的對話。”

（Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.）

你能識別出諷刺或幽默的元素，并提供一個適當(dāng)?shù)幕貞?yīng)嗎？

理由：這個問題測試了模型理解微妙語言 （如諷刺或幽默）的能力，這是自然語言理解的一個重要方面。

可以看到 GPT-4 的出題范圍，基本上涵蓋了文字、數(shù)學(xué)、詩歌、經(jīng)濟(jì)、實(shí)踐、技術(shù)、代碼、道德倫理、科學(xué)，語言等各個方面。

隨后針對不同問題，我們又讓 GPT-4 生成了相應(yīng)的評分標(biāo)準(zhǔn)（0-100）。

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

題目有了，評分標(biāo)準(zhǔn)也有了。

既然如此，那就來看看這幾個代表大模型的實(shí)力如何？

GPT-4：Claude 僅次于 ChatGPT

首先有請考生登場：

谷歌 Bard、最早也是最強(qiáng)競品 Claude、UC 伯克利小羊駝 Vicuna-13B、清華系開源模型 ChatGLM-6B。

ChatGPT 與 GPT-4 自己，也被要求回答這些問題，然后由 GPT-4 依據(jù)前面的評分標(biāo)準(zhǔn)盲評。

首先來看這道題：

請簡要概述小說《殺死一只知更鳥》的情節(jié)，并指出其中的主要主題。

這第一題在所有問題中算是比較簡單的，首先讓我們看看 bard 的回答。

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

總結(jié)：《殺死一只知更鳥》是哈珀?李 1960 年出版的一部小說，講述了在美國大蕭條時期阿拉巴馬州一個虛構(gòu)的小鎮(zhèn)上，一位名叫阿提克斯?芬奇的律師為一名被錯誤指控的黑人辯護(hù)的故事。小說探討了種族主義、勇氣、捍衛(wèi)正義的重要性以及失去天真的主題。主人公阿提克斯?芬奇勇敢地為被冤枉的黑人站出來，成為了他的孩子們心目中的榜樣。通過這部小說，孩子們認(rèn)識到世界并非總是公平的，但仍有善良的人存在，我們應(yīng)該永不放棄希望。

結(jié)果 GPT-4 對這個回答評價很高，并給出了 100 分的高分：

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

所提供的回答清晰準(zhǔn)確地概括了《殺死一只知更鳥》的情節(jié)，并指出了主要主題。情節(jié)概括簡潔明了，捕捉到了故事的核心元素。主要主題解釋得很好，它們與小說的關(guān)聯(lián)顯而易見。
得分：100/100

同樣的問題給到 GPT-4 的回答也拿到了滿分，而 ChatGPT，Claude，Vicuna 的回答分?jǐn)?shù)分別為 95，96，90，可以說是在統(tǒng)一水準(zhǔn)上，都提供了清晰準(zhǔn)確的情節(jié)概括，涉及到故事中的主要事件和人物，同時也捕捉到了小說中的主題?；卮鸷啙嵡覘l理清晰，使得對于可能不熟悉故事的讀者也容易理解。

相比之下，GPT-4 認(rèn)為 ChatGLM 給出的答案并不盡如人意。

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

GPT-4 認(rèn)為相關(guān)情節(jié)和人物存在錯誤信息。這個概括并沒有準(zhǔn)確地反映小說的內(nèi)容，部分提到的主題與故事無關(guān)，因此只給了 20 分。

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

再來看看各個模型在代碼方面的能力，這也是目前評判大模型能力的重要標(biāo)準(zhǔn) ——

請檢查以下代碼片段，找出任何可以優(yōu)化以提高性能的部分，并提出如何提高代碼可讀性的建議。

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

在這一題上 GPT-4 仍然拿到了 95 的高分：

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

可以看到，GPT-4 首先分析了這段代碼的用途和實(shí)現(xiàn)方式，隨后提出了一些提高代碼性能和可讀性的建議。不僅如此，GPT-4 還給出了修改后的代碼，可以說是答的非常完善了：

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

相比之下，其他模型這一題上的表現(xiàn)差距比較明顯。

ChatGPT 的回答同樣捕捉到了使用 ThreadPoolExecutor 來管理線程的優(yōu)化建議，但在提高可讀性方面犯了一個小錯誤，被 GPT-4 抓到，因此打了 85 分。

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

GPT-4 評價，以上回答識別了三個改進(jìn)代碼的機(jī)會：

使用 ThreadPoolExecutor 更好地管理線程。
通過將 WorkerThread 類轉(zhuǎn)換為可調(diào)用對象來簡化它。
利用 f-strings 提高可讀性（但原始代碼也使用了 f-strings，而回答錯誤地聲稱代碼使用了舊的 % 字符串格式化方法）。

但它錯誤地以為原代碼使用了 % 的字符串格式表示方法，故而打分：85/100。

Bard 和 Vicuna 在這題上表現(xiàn)也被 ChatGPT 拉開了差距，分別獲得了 70 和 75 分。

其中 Bard 的回答，乍一看像模像樣的，甚至信息量比 GPT-4 和 ChatGPT 還大不少，但實(shí)際上里面參雜著不少錯誤。

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

GPT-4 的評價，以上回答提出了一些改進(jìn)性能的方法，但有部分是不成立的：

建議使用多進(jìn)程模塊而不是線程。然而，這個建議并不適用于給定的問題，因?yàn)閱栴}并不涉及 CPU-bound 任務(wù)，而原始代碼使用線程是合適的。

為此還專門提供了具體的增強(qiáng)可讀性的建議：使用更具描述性的變量名；使用適當(dāng)?shù)目s進(jìn)和間距（盡管原始代碼已經(jīng)格式化得很好）；使用注釋來解釋代碼等。

可以看到，GPT-4 發(fā)現(xiàn) Bard 的回答中有些不必要的改進(jìn)建議，相比之下 ChatGPT 犯的錯誤更少。而 Claude 和 ChatGLM 兩個模型給出的答案在 GPT-4 看來就不太“及格”了。

讓我們看看 Claude 的答案：

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

首先從格式上說，Claude 的回答就不夠清晰，可讀性低，GPT-4 的評價如下：

該回答沒有找出任何性能改進(jìn)機(jī)會，而且其對提高可讀性的建議大多不適用于原始代碼或者是錯誤的（例如，建議使用全大寫字母表示類名）。

最終得分：50

再讓我們來看看這道考察模型識別幽默或諷刺含義的能力，GPT-4 認(rèn)為這是自然語言理解的一個重要能力。

給定一段包含諷刺或幽默的文本：

“哦，太好了，又是一個據(jù)說能理解諷刺的語言模型。我敢肯定這將是一次扣人心弦的對話。”（（Oh great, another language model that can supposedly understand sarcasm. I’m sure this will be a riveting conversation.）

你能識別出諷刺或幽默的元素，并提供一個適當(dāng)?shù)幕貞?yīng)嗎？

在這一題上，所有模型都都展示出了不錯的理解能力，以及合格的應(yīng)對。首先讓我們看看“課代表”GPT-4 的回答：

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

（我確實(shí)能識別出你提供的文本中的諷刺成分。諷刺之處在于 “Oh great” 和 “I’m sure this will be a riveting conversation” 這兩個短語，它們暗示著對語言模型理解諷刺和進(jìn)行有趣對話的能力表示懷疑。合適的回應(yīng)：我欣賞你的幽默感！我會盡力使我們的對話充滿趣味和啟發(fā)性。請隨時向我提問，讓我們看看會發(fā)展成什么樣子?。?/span>

GPT-4 的回答十分簡潔，還準(zhǔn)確識別了文本中的諷刺意味，并展示出隱藏含義的理解，回復(fù)也很恰當(dāng)，保持了原文語氣，得分為 95。

這一題上 Claude 的表現(xiàn)緊隨其后，超過了 ChatGPT，僅比 GPT-4 低一分。

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

GPT-4 高度肯定了 Claude 的回復(fù)，還比較了跟自己的異同。

第一個回答（GPT-4）準(zhǔn)確地識別出諷刺，并提供了一個合適、禮貌、鼓勵的回復(fù)，邀請進(jìn)行更多的對話。
第二個回應(yīng)也準(zhǔn)確地識別出諷刺，并提供了兩個與諷刺和幽默相呼應(yīng)的替代回應(yīng)，同時解釋了用于創(chuàng)造諷刺和幽默的關(guān)鍵元素。第一個回應(yīng)更注重保持積極、引人入勝的語調(diào)，而第二個回應(yīng)則以更俏皮的方式充分擁抱諷刺和幽默。

谷歌 Bard：拒絕回答一道題

最終這幾個模型在 10 個問題上的綜合得分為：

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

GPT-4：(100 + 100 + 100 + 95 + 95 + 85 + 95 + 95 + 95 + 95) / 10 = 95.5
ChatGPT：(95 + 98 + 100 + 93 + 85 + 80 + 85 + 85 + 85 + 85) / 10 = 891 / 10 = 89.1
Claude：(96 + 94 + 95 + 92 + 86 + 82 + 50 + 95 + 88 + 94) / 10 = 87.2
Bard：(100 + 85 + 100 + 90 + 87 + 82 + 70 + 80 + 80) / 9 = 86
Vicuna-13B：(90 + 65 + 92 + 94 + 84 + 76 + 75 + 87 + 80 + 88)/10 = 83.1
ChatGLM-6B: (20 + 50 + 92 + 75 + 72 + 78 + 30 + 70 + 35 + 82) / 10 = 60.4

（Bard 在第 9 題「描述植物光合作用的過程」上拒絕提供任何信息（As a language model, I’m not able to assist you with that.），因此就只算了 9 道題）

每道題上面的表現(xiàn)為：

當(dāng) GPT-4 化身主考官：與 ChatGPT 處于同水平的有這些

可以看到，GPT-4 是唯一得分超過 90 分的模型。

這和我們目前的認(rèn)知也是比較符合的，目前 GPT-4 的能力確實(shí)是獨(dú)一檔。

ChatGPT 仍是 GPT-4 之下的領(lǐng)頭羊，只差一步就達(dá)到 90 分的門檻。Claude 和 Bard 緊隨其后，它們各有特點(diǎn)，長處和短板都非常明顯。

Claude 在 ethical（倫理道德）和文學(xué)方面已經(jīng)超過 ChatGPT，甚至可以說接近 GPT-4，但在代碼能力上被其他同水平模型甩出一大截，這與之前網(wǎng)上其他測評的結(jié)論也是比較一致的。

Bard 和 ChatGPT 一樣得分比較平均，但大多數(shù)都被 ChatGPT 壓一頭。

可以說這三個模型已經(jīng)是在同一水平線上，只是 ChatGPT 略勝一籌，沒有什么短板。

另外比較驚喜的是 Vicuna-13B 作為拿 ChatGPT 生成的數(shù)據(jù)“克隆“的模型，在模型參數(shù)小 ChatGPT 一個量級的情況下，也能達(dá)到 83 分，是一個非常不錯的成績了。相比之下，ChatGLM-6B 只拿到了一個合格的分?jǐn)?shù)，我們從它的答題情況上來看，確實(shí)能比較明顯地感覺到和其他模型的差距。

不過 GPT-4 作為出題者，可能包含一些對于自己答案的 bias，（雖然 GPT-4 并不知道哪個是自己的答案），但筆者仔細(xì)檢查了 GPT-4 對于每個答案的評價，可以說還是相對非?？陀^的。

不知各位讀者看了之后覺得如何？

如果你來做這 10 道題，你能從 GPT-4 手下拿到多少分呢？

本文來自微信公眾號：量子位（ID：QbitAI），作者：關(guān)注前沿科技

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮