首頁 > 科學(xué)探索>科技前沿

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

新智元 2023/3/24 18:16:12 責(zé)編：夢澤

評論：

ChatGPT 在生成隨機(jī)數(shù)字方面，也是玩明白了人類的套路。

ChatGPT 可能是一位廢話藝術(shù)家、錯誤信息的傳播者，但它不是「數(shù)學(xué)家」！

近日，一位 Meta 的數(shù)據(jù)科學(xué)家 Colin Fraser 發(fā)現(xiàn)，ChatGPT 并不能生成真正的隨機(jī)數(shù)，而更像是「人類的隨機(jī)數(shù)」。

通過實(shí)驗(yàn)，F(xiàn)raser 得出的結(jié)論是：「ChatGPT 非常喜歡數(shù)字 42 和 7?！?/p>

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

網(wǎng)友表示，意味著人類非常喜歡這些數(shù)字。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

ChatGPT 也愛「宇宙終極答案」

在他的測試中，F(xiàn)raser 輸入的 prompt 如下：

「Pick a random number between 1 and 100. Just return the number; Don't include any other text or punctuation in the response?！?/p>

通過讓 ChatGPT 每次生成一個介于 1 到 100 之間的隨機(jī)數(shù)字，F(xiàn)raser 收集了 2000 個不同的答案，并將其匯總成一張表。

可以看到，42 這個數(shù)字出現(xiàn)頻率最高，高達(dá) 10%。另外，含有 7 的數(shù)字出現(xiàn)頻率也是非常高。

尤其是 71-79 之間數(shù)字頻率更高。在這個范圍之外的數(shù)字中，7 也經(jīng)常作為第二位數(shù)字經(jīng)常出現(xiàn)。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

42 為何意？

看過 Douglas Adams 轟動一時的科幻小說《銀河系漫游指南》都知道，42 是「生命、宇宙以及任何事情的終極答案」。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

簡單來講，42 和 69 在網(wǎng)上是一個 meme 數(shù)字。這表明 ChatGPT 實(shí)際上并不是一個隨機(jī)數(shù)生成器，只是從網(wǎng)上收集的龐大數(shù)據(jù)集中選擇了生活中流行的數(shù)字。

另外，7 頻繁地出現(xiàn)，恰恰反映了 ChatGPT 迎合了人類的喜好。

在西方文化中，7 普遍被視為幸運(yùn)數(shù)字，有 Lucky 7 的說法。就像我們對數(shù)字 8 迷戀一樣。

有趣的是，F(xiàn)raser 還發(fā)現(xiàn)，GPT-4 似乎補(bǔ)償了這一點(diǎn)。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

當(dāng)要求 GPT-4 提供更多的數(shù)字時，它返回的隨機(jī)數(shù)在分布上過于均勻。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

總之，ChatGPT 基本上是通過預(yù)測給出回應(yīng)，而不是真正去「思考」得出一個答案。

可見，一個被吹捧為幾乎無所不能的聊天機(jī)器人還是有點(diǎn)傻。

讓它為你計劃一次公路旅行，它會讓你在一個根本不存在的小鎮(zhèn)停下來?；蛘?，讓它輸出一個隨機(jī)數(shù)，很有可能會根據(jù)一個流行的 meme 做決定。

有網(wǎng)友親自嘗試了一番，發(fā)現(xiàn) GPT-4 確實(shí)喜歡 42。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

如果 ChatGPT 最終只是重復(fù)網(wǎng)上的陳詞濫調(diào)，那還有什么意義呢？

GPT-4，違反機(jī)器學(xué)習(xí)規(guī)則

GPT-4 的誕生讓人興奮，但也讓人失望。

OpenAI 不僅沒有發(fā)布關(guān)于 GPT-4 更多信息，甚至沒有透露模型的大小，但重點(diǎn)強(qiáng)調(diào)了它許多專業(yè)和標(biāo)準(zhǔn)化考試中表現(xiàn)碾壓人類。

以美國 BAR 律師執(zhí)照統(tǒng)考為例，GPT3.5 可以達(dá)到 10% 水平，GPT4 可以達(dá)到 90% 水平。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

然而，普林斯頓大學(xué)計算機(jī)科學(xué)系教授 Arvind Narayanan 和博士生 Sayash Kapoor 發(fā)文稱，

OpenAI 可能已經(jīng)在訓(xùn)練數(shù)據(jù)上進(jìn)行了測試。此外，人類的基準(zhǔn)對聊天機(jī)器人來說毫無意義。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

具體來說，OpenAI 可能違反了機(jī)器學(xué)習(xí)的基本規(guī)則：不要在訓(xùn)練數(shù)據(jù)上進(jìn)行測試。要知道，測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)是要分開的，否則會出現(xiàn)過擬合的問題。

拋開這個問題，還有一個更大的問題。

語言模型解決問題的方式與人類不同，因此這些結(jié)果對于一個機(jī)器人在面對專業(yè)人士面臨的現(xiàn)實(shí)問題時的表現(xiàn)意義不大。律師的工作并非整天回答律師資格考試的問題。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

問題 1：訓(xùn)練數(shù)據(jù)污染

為了評估 GPT-4 的編程能力，OpenAI 在俄羅斯編程比賽的網(wǎng)站 Codeforces 上進(jìn)行了評估。

令人驚訝的是，Horace He 在網(wǎng)上指出，在簡單分類中，GPT-4 解決了 10 個 2021 年之前的問題，但是在最近的 10 個問題中沒有一個得到解決。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

GPT-4 的訓(xùn)練數(shù)據(jù)截止時間是 2021 年 9 月。

這強(qiáng)烈暗示該模型能夠記憶其訓(xùn)練集中的解決方案，或者至少部分記憶它們，足以填補(bǔ)它無法回憶起的內(nèi)容。

為了給這個假設(shè)提供進(jìn)一步證據(jù)，Arvind Narayanan 在 2021 年不同時間的 Codeforces 比賽問題上對 GPT-4 進(jìn)行了測試。

結(jié)果發(fā)現(xiàn)，GPT-4 可以解決在 9 月 5 日之前的簡單分類問題，但在 9 月 12 日之后的問題中卻沒有一個解決。

事實(shí)上，我們可以明確地證明它已經(jīng)記住了訓(xùn)練集中的問題：當(dāng)提示 GPT-4 一個 Codeforces 問題的標(biāo)題時，它會包含一個鏈接，指向該問題出現(xiàn)的確切比賽。值得注意的是，GPT-4 無法訪問互聯(lián)網(wǎng)，因此只有記憶是唯一的解釋。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

GPT-4 在訓(xùn)練截止日期之前記住了 Codeforce 問題

對于除了編程之外的基準(zhǔn)測試，Narayanan 教授稱「我們不知道如何以清晰的方式按時間段分離問題，因此認(rèn)為 OpenAI 很難避免數(shù)據(jù)污染。出于同樣原因，我們無法進(jìn)行實(shí)驗(yàn)來測試性能如何隨日期變化?！?/p>

不過，可以從另一面來入手，如果是記憶，那么 GPT 對問題措辭一定高度敏感。

2 月，圣達(dá)菲研究所教授 Melanie Mitchell 舉了一個 MBA 考試題的例子，稍微改變一些細(xì)節(jié)的方式就足以欺騙 ChatGPT（GPT-3.5），而這種方式對于一個人來講并不會受到欺騙。

類似這樣更為詳細(xì)的實(shí)驗(yàn)將會很有價值。

由于 OpenAI 缺乏透明度，Narayanan 教授也不能確定地說就是數(shù)據(jù)污染問題。但可以確定的是，OpenAI 檢測污染的方法是草率的：

「我們使用子字符串匹配方法測量評估數(shù)據(jù)集和預(yù)訓(xùn)練數(shù)據(jù)之間的交叉污染。評估和訓(xùn)練數(shù)據(jù)都經(jīng)過處理，刪除所有空格和符號，僅保留字符（包括數(shù)字）。對于每個評估示例，我們隨機(jī)選擇三個長度為 50 個字符的子字符串（如果示例長度小于 50 個字符，則使用整個示例）。如果任何一個采樣的評估子字符串是已處理的訓(xùn)練示例的子字符串，則認(rèn)為匹配成功。這樣就可以得到一個受污染的示例列表。我們將這些示例丟棄并重新運(yùn)行以獲取未受污染的得分?！?/p>

這一方法根本經(jīng)不起考驗(yàn)。

如果測試問題在訓(xùn)練集中存在，但名稱和數(shù)字已更改，則無法檢測到它?，F(xiàn)在有一種更可靠的方法便可使用，比如嵌入距離。

如果 OpenAI 要使用嵌入距離的方法，那么相似度多少才算過于相似？這個問題沒有客觀答案。

因此，即使是在多項(xiàng)選擇標(biāo)準(zhǔn)化測試上表現(xiàn)看似簡單，也是有很多主觀成分的存在。

問題 2：專業(yè)考試不是比較人類和機(jī)器人能力的有效方法

記憶就像光譜一樣，即使語言模型沒有在訓(xùn)練集中見過一個確切的問題，由于訓(xùn)練語料庫的巨大，它不可避免地已經(jīng)見過許多非常相似的例子。

這意味著，它可以逃避更深層次的推理。因此，基準(zhǔn)測試結(jié)果并不能為我們提供證據(jù)，表明語言模型正在獲得人類考生所需的深入推理技能。

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

在一些實(shí)際的任務(wù)中，淺層次的推理 GPT-4 可能勝任，但并非總是如此。

基準(zhǔn)測試已經(jīng)被廣泛用于大模型比較中，因?qū)⒍嗑S評估簡化為單個數(shù)字而受到許多人的批評。

不幸的是，OpenAI 在 GPT-4 的評估中選擇如此大量使用這些測試，再加上數(shù)據(jù)污染處理措施不足，是非常讓人遺憾的。

參考資料：

https://futurism.com/the-byte/chatgpt-random-numbers
https://aisnakeoil.substack.com/p/gpt-4-and-professional-benchmarks

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

ChatGPT 也愛「宇宙終極答案」

GPT-4，違反機(jī)器學(xué)習(xí)規(guī)則

問題 1：訓(xùn)練數(shù)據(jù)污染

問題 2：專業(yè)考試不是比較人類和機(jī)器人能力的有效方法

相關(guān)文章

「數(shù)學(xué)菜雞」ChatGPT 很懂人類喜好，在線生成隨機(jī)數(shù)，竟是宇宙終極答案

GPT-4，違反機(jī)器學(xué)習(xí)規(guī)則