文字序順不響影 GPT-4 閱讀理解，別的大模型都不行

量子位 2023/12/4 15:51:36 責(zé)編：遠(yuǎn)洋

評論：

研表究明，漢字序順并不定一影閱響讀（對于英文來說，則是每一個單詞中的字母順序）。

現(xiàn)在，日本東京大學(xué)的一項實驗發(fā)現(xiàn)，這個“定理”居然也適合 GPT-4。

比如面對這樣一段“鬼畫符”，幾乎里面每一個單詞的每一個字母都被打亂：

oJn amRh wno het 2023 Meatsrs ermtnoTuna no duySan taatgsuAu ntaaNloi Gflo bClu, gnelcinhi ish ifsrt nereg ecatkjnad ncedos raecer jroam。

但 GPT-4 居然完美地恢復(fù)出了原始句子（紅框部分）：

文字序順不響影 GPT-4 閱讀理解，別的大模型都不行

原來是一個叫做 Jon Rahm 的人贏得了 2023 年美國大師賽（高爾夫）的故事。

并且，如果你直接就這段亂碼對 GPT-4 進(jìn)行提問，它也能先理解再給出正確答案，一點兒也不影響閱讀：

文字序順不響影 GPT-4 閱讀理解，別的大模型都不行

對此，研究人員感到非常吃驚：

按理說亂碼單詞會對模型的 tokenization 處理造成嚴(yán)重干擾，GPT-4 居然和人類一樣不受影響，這有點違反直覺啊。

文字序順不響影 GPT-4 閱讀理解，別的大模型都不行

值得一提的是，這項實驗也測試了其他大模型，但它們?nèi)继魬?zhàn)失敗 —— 有且僅有 GPT-4 成功。

具體怎么說？

文字順序不影響 GPT-4 閱讀

為了測試大模型抗文字錯亂干擾的能力，作者構(gòu)建了一個專門的測試基準(zhǔn)：Scrambled Bench。

它共包含兩類任務(wù)：

一是加擾句子恢復(fù)（ScrRec），即測試大模型恢復(fù)亂序句子的能力。

它的量化指標(biāo)包括一個叫做恢復(fù)率（RR）的東西，可以簡單理解為大模型恢復(fù)單詞的比例。

二是加擾問答（ScrQA），測量大模型在上下文材料中的單詞被打亂時正確理解并回答問題的能力。

由于每個模型本身的能力并不相同，我們不好直接用準(zhǔn)確性來評估這一項任務(wù)，因此作者在此采用了一個叫做相對性能增益（RPG）的量化指標(biāo)。

具體測試素材則選自三個數(shù)據(jù)庫：

一個是 RealtimeQA，它每周公布當(dāng)前 LLM 不太可能知道的最新消息；

第二個是 DREAM（Sun et al.，2019），一個基于對話的多項選擇閱讀綜合數(shù)據(jù)集；

最后是 AQuARAT，一個需要多步推理才能解決的數(shù)學(xué)問題數(shù)據(jù)集。

對于每個數(shù)據(jù)集，作者從中挑出題目，并進(jìn)行不同程度和類型的干擾，包括：

1、隨機加擾（RS），即對每一個句子，隨機選擇一定比例（20%、50%、100%）的單詞，對這些單詞中的所有字母進(jìn)行打亂（數(shù)字不變）。

2、保持每個單詞的第一個字母不變，剩下的隨意排列（KF）。

3、保持每個單詞的首字母和最后一個字母不變，剩下的隨機打亂（KFL）。

參與測試的模型有很多，文章正文主要報告了以下幾個：

text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b 和 Llama-2-70b。

首先來看不同干擾類型的影響。

如下圖所示：

在 KFL 設(shè)置中（即首尾字母不變），不管是加擾句子恢復(fù)還是加擾問答任務(wù)，模型之間的性能差距都不大。

然而，隨著干擾難度越來越高（變?yōu)?KF 和 RS 后），模型的性能都迎來顯著下降 —— 除了 GPT-4。

具體而言，在加擾句子恢復(fù)（ScrRec）任務(wù)中，GPT-4 的恢復(fù)率始終高于 95%，在加擾問答（ScrQA）任務(wù)中，GPT-4 的相對準(zhǔn)確性也都始終維在 85%-90% 左右。

相比之下，其他模型有的都掉到了不足 20%。

文字序順不響影 GPT-4 閱讀理解，別的大模型都不行

其次是不同加擾率的影響。

如下圖所示，可以看到，在加擾句子恢復(fù)（ScrRec）任務(wù)中，隨著一個句子中被干擾的單詞數(shù)量越來越多，直至 100% 之后，只有 GPT-3.5-turbo 和 GPT-4 的性能沒有顯著變化，當(dāng)然，GPT-4 還是比 GPT-3.5 優(yōu)先了很大一截。

文字序順不響影 GPT-4 閱讀理解，別的大模型都不行

而在加擾問答（ScrQA）任務(wù)中，隨著句子中被打亂的單詞數(shù)量越來越多，所有模型性能都出現(xiàn)了都顯著下降，且差距越來越大。

但在其中，GPT-4 還能以 87.8% 的成績保持遙遙領(lǐng)先，并且下降幅度也是最輕微的。

所以簡單總結(jié)來說就是：

大多數(shù)模型都可以處理一定比例的干擾文本，但到極端程度時（比如單詞全部打亂），就只有 GPT-4 表現(xiàn)最好，只有 GPT-4 面對完全混亂的詞序，幾乎不怎么被影響。

GPT-4 還擅長分詞

在文章最后，作者指出：

除了打亂單詞字母順序之外，還可以研究插入字母、替換字母等情況的影響。

唯一的問題是，由于 GPT-4 為閉源，大家也不好調(diào)查為什么 GPT-4 可以不被詞序影響。

有網(wǎng)友發(fā)現(xiàn)，除了本文所證明的情況，GPT-4 也非常擅長將下面這一段完全連起來的英文：

UNDERNEATHTHEGAZEOFORIONSBELTWHERETHESEAOFTRA
NQUILITYMEETSTHEEDGEOFTWILIGHTLIESAHIDDENTROV
EOFWISDOMFORGOTTENBYMANYCOVETEDBYTHOSEINTHEKN
OWITHOLDSTHEKEYSTOUNTOLDPOWER

正確分隔開來：

Underneath the gaze of Orion’s belt, where the Sea of Tranquility meets the edge of twilight, lies a hidden trove of wisdom, forgotten by many, coveted by those in the know. It holds the keys to untold power.

按理來說，這種分詞操作是一件很麻煩的事兒，通常需要動態(tài)編程等操作。

GPT-4 表現(xiàn)出來的能力再次讓這位網(wǎng)友感到驚訝。

他還把這段內(nèi)容放進(jìn)了 OpenA 官方的 tokenizer 工具，發(fā)現(xiàn) GPT-4 看到的 token 其實是這樣的：

UNDER NE AT HT HE GA Z EOF OR ION SB EL TW HER ET HE SEA OF TRA

這里面除了“UNDER”、“SEA”和“OF”之外，幾乎剩下的所有 token 都看起來“毫無邏輯”，這更加使人費解了。

文字序順不響影 GPT-4 閱讀理解，別的大模型都不行

對此，大伙是怎么看的呢？

參考鏈接：

[1]https://arxiv.org/abs/2311.18805
[2]https://news.ycombinator.com/item?id=38506140

本文來自微信公眾號：量子位（ID：QbitAI），作者：豐色

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

文字序順不響影 GPT-4 閱讀理解，別的大模型都不行

文字順序不影響 GPT-4 閱讀

GPT-4 還擅長分詞

相關(guān)文章