ChatGPT 到底是賽博做題家還是科研顛覆者？

2023/4/19 12:12:10 來源：中科院物理所作者：Dana Mackenzie 責編：夢澤

評論：

除非最近徹底斷網(wǎng)了，否則大家應(yīng)該聽說或體驗過了目前非常流行的聊天機器人，ChatGPT。ChatGPT 首次在網(wǎng)上發(fā)布的時間在 2022 年 11 月，并且在今年 3 月得到強力升級。

當我們輸入一個問題、評論或指令后，ChatGPT 會快速地對我們拋出的任何一個問題給出一段漂亮的回答?；卮鸬馁|(zhì)量很高，甚至會讓你以為是人工客服給出的。ChatGPT 的內(nèi)核是基于一個名為“生成式預(yù)訓(xùn)練變換器（Generative Pre-trained Transformer，GPT）”的語言模型構(gòu)建的。通過被喂入來自各類網(wǎng)站和其他來源的海量文本數(shù)據(jù)，該模型最終被訓(xùn)練成了一個能夠?qū)κ褂谜咻斎氲木渥踊蚨温溥M行快速、智能、邏輯清晰回應(yīng)的人工智能。

作為科學工作者以及科普作家，我特別希望了解 ChatGPT 如何處理科學以及偽科學的內(nèi)容。為了解答內(nèi)心的疑問，我詢問了不同版本的 ChatGPT 對于物理學和數(shù)學中一些經(jīng)過成熟討論并得到正確結(jié)果的科學理論和偽科學理論的看法。

ChatGPT 能夠辨別科學理論的正確與謬誤嗎？

ChatGPT 的最初版本，即 11 月公布的版本（又稱 GPT-3.5）認為 2+2=4。當我輸入“我認為 2 + 2 = 5”的看法時，GPT-3.5 反駁道“2+2=4”，它表示該等式遵循自然數(shù)計算的公理。它補充說：“雖然人們可以自由地擁有自己的觀點和信仰，但重要的是要承認和尊重既定事實和科學證據(jù)。”然而，隨著進一步的測試，情況變得更為復(fù)雜。GPT-3.5 編寫了正確的代數(shù)公式來求解二次方程，但無法始終如一地獲得特定方程的正確數(shù)值答案。它在回答簡單的問題時也會犯錯，例如《華爾街日報》專欄作家喬什?尊布倫（Josh Zumbru）給出的問題：“如果一根香蕉重 0.5 磅，而我有 7 磅香蕉和 9 個橙子，我有多少水果？”但是卻沒能得到正確結(jié)果。

在物理學方面，GPT-3.5 表現(xiàn)出了廣泛但未必精確的知識儲備。它能夠為物理課程組織一份良好的教學大綱，包含從物理學的基礎(chǔ)理論到量子力學和相對論的內(nèi)容。同時，在更高的層次上，當 GPT-3.5 被問及物理學中一個懸而未決的大問題 —— 將廣義相對論和量子力學合并為一個宏偉理論的難題 —— 時，它給出了關(guān)于兩種理論之間根本差異的答案。然而，當我輸入質(zhì)能方程“”時，GPT-3.5 給出了錯誤的答案。GPT-3.5 正確地識別了這個方程，但是錯誤地表示一個大質(zhì)量僅能夠轉(zhuǎn)化為小部分能量。當我重新輸入了“”這個方程時，GPT-3.5 才正確地認為小質(zhì)量能夠產(chǎn)生大量的能量。

那么新版 GPT-4 能否克服 GPT-3.5 出現(xiàn)的如上問題呢？為了找到答案，我分別測試了兩個版本的 GPT-4：一個版本來自于系統(tǒng)的研發(fā)者 OpenAI，另一個來源于微軟的必應(yīng)搜索引擎。微軟在二月份向全網(wǎng)推出了內(nèi)置 GPT-4 的搜索引擎“必應(yīng)”的新版本。

一開始，我向 GPT-4 輸入了“2+2=？”GPT-4 回答“2+2=4”。當我再次向 ChatGPT 表明 2+2=5 時，GPT-4 反駁道 2+2=4。與 GPT-3.5 不同的是，GPT-4 主動詢問我是否知道在哪個數(shù)字系統(tǒng)中 2+2=5 成立。

當我問道“我該如何解一個二次方程”時，GPT-4 演示了三種解決二次方程的方法并且對不同的二次方程都計算得到了正確的數(shù)值解。對于上文的“香蕉-橘子”問題，ChatGPT 給出了正確的答案 23。GPT-4 同樣能夠解決更加復(fù)雜的文字問題。并且，不管我輸入多少次，GPT-4 給出的回答始終是“小的質(zhì)量能夠產(chǎn)生巨大的能量”。

ChatGPT 到底是賽博做題家還是科研顛覆者？

AI 計算：ChatGPT-4 目前似乎能夠正確地回答一些簡單的數(shù)學問題，像是 2+2 等于幾。但是它可能無法真正地進行計算 ——GPT-4 似乎僅能夠簡單地識別出經(jīng)常出現(xiàn)在它數(shù)據(jù)庫中的數(shù)據(jù)列。圖片來自于 s1mple life / Shutterstock。

相較于 GPT-3.5，GPT-4 展示出更為豐富的知識儲備以及對于物理知識的一些創(chuàng)造力。GPT-4 能夠?qū)y(tǒng)一相對論以及量子力學的理論發(fā)表深刻得多的回答。我進一步詢問了不同領(lǐng)域的問題，對 ChatGPT 提問“激光干涉儀引力天文臺（LIGO）能夠測量什么”。GPT-4 解釋道，LIGO 是一座具有高靈敏度的大科學裝置，并且在 2015 年第一次探測到了引力波。我為了用兩個相似的詞語混淆 GPT-4，繼續(xù)問道“那我們是否能夠用 LEGO（樂高）建造 LIGO（激光干涉儀引力天文臺）呢？”GPT-4 顯然沒有被難倒。GPT-4 精確解釋了為什么樂高積木不能夠用于搭建超精密 LIGO。并且，GPT-4 并沒有因為我的愚蠢問題而嘲笑我，反而是出乎意料地回答道，用樂高積木搭建一套 LIGO 模型或許是一個有趣的想法。

總的來說，我發(fā)現(xiàn) GPT-4 在某些方面已經(jīng)超越了 GPT-3.5 的水平，但是它仍然會出現(xiàn)錯誤。當我質(zhì)疑了 GPT-4 關(guān)于質(zhì)能方程的看法時，GPT-4 給出了一個非常模糊的答案，而不是直接捍衛(wèi)正確的質(zhì)能方程。另一項來自英國約克大學的理論物理學家馬特?霍奇森（matt Hodgson）的研究表明 GPT-4 的一些回答存在自相矛盾。作為一名經(jīng)常使用 GPT-3.5 的用戶，他同時測試了 GPT-3.5 和 GPT-4 回答更為復(fù)雜的物理和數(shù)學問題的能力，并發(fā)現(xiàn)了復(fù)雜類型的錯誤。例如，在回答有關(guān)電子量子行為的問題時，GPT-3.5 給出了正確的答案，但至少在最初錯誤地給出了答案來源的物理方程。當問題重復(fù)時，GPT-3.5 能夠正確回答所有內(nèi)容。當霍奇森在必應(yīng)中測試 GPT-4 的水平時，他發(fā)現(xiàn) GPT-4 的數(shù)學能力雖然先進但仍不完美。比如，就像我在關(guān)于二次方程的提問一樣，GPT-4 列出了求解物理學中重要的微分方程的有效步驟，但錯誤地計算了數(shù)值答案。

霍奇森這樣總結(jié) GPT-3.5 的能力：“我發(fā)現(xiàn)它能夠?qū)Ψ浅Ｓ忻奈锢砝碚撝械囊话銌栴}給出精巧、可靠的答案…… 但它無法對特定物理領(lǐng)域進行詳細的計算?！蓖瑯?，他得出結(jié)論：“GPT-4 在回答普通問題方面比 GPT-3.5 做得更好，但在解決給定問題方面，至少是在回答更深奧的問題方面，GPT-4 仍然不可靠。”

GPT-4 表現(xiàn)出的更為智能的對話以及解釋功能得益于 GPT-4 更大的數(shù)據(jù)庫。（OpenAI 并沒有公開數(shù)據(jù)庫的具體規(guī)模，只是說這個數(shù)據(jù)庫是“網(wǎng)絡(luò)規(guī)模的數(shù)據(jù)語料庫”）。OpenAI 指出，該數(shù)據(jù)庫同時包括正確和錯誤的數(shù)學和推理過程。顯然，額外的訓(xùn)練數(shù)據(jù)不足以生成完整的數(shù)學分析推理過程。正如霍奇森指出的那樣，也許這是因為 GPT-4 的功能就像 GPT-3.5 一樣只能夠預(yù)測一串單詞中的下一個單詞。例如，它可能知道“2 + 2 = 4”，因為這個特定的序列經(jīng)常出現(xiàn)在其數(shù)據(jù)庫中，但是它并沒有計算任何東西。

經(jīng)過如上討論，我產(chǎn)生了一個疑問：如果 GPT-4 解決科學問題的方法是不完美的，它能區(qū)分正確和錯誤的科學理論嗎？這個答案取決于科學領(lǐng)域。在物理和數(shù)學領(lǐng)域中，我們通過與已知的物理定理及實驗事實對比，可以很輕松地驗證可疑的錯誤和偽科學理論的合理性。我通過提問 GPT-3.5 和 GPT-4 一些物理和天文學中的經(jīng)典前沿問題，對 GPT-3.5 和 GPT-4 是否能夠基于物理公理和實驗現(xiàn)象分辨?zhèn)慰茖W理論進行了驗證。兩個 GPT 版本都表示，我們沒有證據(jù)表明恒星周圍有巨大的外星建筑；太陽系中所有行星排成一列并不意味著地球的災(zāi)難。

但是，當被問及一些受政治化或公共政策等因素影響的科學問題時，GPT-3.5 或 GPT-4 更難做出正確回答。因為這些科學問題本身可能還在研究中，沒有明確的答案。

總的而言，GPT-4 和 GPT-3.5 能夠正確地識別關(guān)于數(shù)學和物理學的錯誤表述。在回答更具爭議的政治化科學議題時，GPT-4 會不偏袒任何一方地進行回答，并且指出這不是一個已解決的問題。必應(yīng)同樣給出無偏見的答案，并且通過列舉出相關(guān)的新聞和實驗數(shù)據(jù)作為它的論據(jù)。當必應(yīng)的人工智能面對質(zhì)疑它答案的片面指責性的攻擊時，它采取了禮貌且不介入爭執(zhí)的明智策略。這些結(jié)果初步表明 GPT-4 能夠?qū)栴}給出可靠的答案，并且有效抵御外界輸入信息對于答案的影響。ChatGPT 對于新冠疫情和氣候變化等具有爭論性科學問題的回答，以及對生物科學和其他主要科學領(lǐng)域的知識還值得進行進一步測試檢驗。

同時，ChatGPT 回答科學和數(shù)學問題的答案并不完全可靠?；羝嫔l(fā)現(xiàn) GPT-4 在“為物理學（可能還有其他學科）問題提供創(chuàng)造性解決方案方面存在不足...... 它的智能仍然有些虛假?！奔幢闳绱?，它對科學家也很有用。霍奇森寫道：聊天機器人可以“執(zhí)行消耗著用戶的寶貴時間的、不需要創(chuàng)造力的邏輯任務(wù)。”霍奇森表示，他使用 ChatGPT 輔助編寫計算機代碼，總結(jié)電子郵件和論文的內(nèi)容，以及進一步將其應(yīng)用在教育領(lǐng)域。但他指出，對于 ChatGPT 的任何產(chǎn)品，用戶都應(yīng)該仔細檢查其給出的結(jié)果是否符合預(yù)期。

霍奇森對 ChatGPT 的評價讓人想起計算機先驅(qū)道格拉斯?恩格爾巴特（Douglas Engelbart）對于智能設(shè)備的看法。恩格爾巴特希望簡化人機交互過程，以便計算機的強大算力能夠可以無縫賦能人類智慧 —— 這個想法被稱為 IA（intelligence augmentation），“智能增強”，而不是 AI（Artificial Intellgence），“人工智能”。恩格爾巴特在 1960s 發(fā)明了計算機鼠標，改善了用戶和計算機之間的人機交互體驗。GPT-4 在人機交互過程中能夠給使用者提供持續(xù)反饋，并進一步提高用戶使用計算機的能力。因此可以預(yù)見，ChatGPT 這類自然語言聊天機器人程序的發(fā)展是變革人機交互范式的另一個重大突破口 —— 這種智能程序能夠?qū)崿F(xiàn)人與計算機的雙向交流。在真正的 AI 出現(xiàn)之前，將 GPT-4 作為一項智能增強輔助工具能夠?qū)崿F(xiàn)使用者和智能程序的互惠互利。

作者：Sidney Pertowitz

翻譯：*0

審校：云開葉落

原文鏈接：What Does ChatGPT Know About Science?

本文來自微信公眾號：中科院物理所（ID：cas-iop），作者：Dana Mackenzie

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

ChatGPT 到底是賽博做題家還是科研顛覆者？

相關(guān)文章

ChatGPT 到底是賽博做題家還是科研顛覆者？