專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

新智元 2024/4/19 21:24:36 責(zé)編：問(wèn)舟

評(píng)論：

針對(duì)大模型偶發(fā)腦回路故障難題，最新研究 GlitchHunter 收集了大量故障詞元，并針對(duì)不同情況進(jìn)行分類(lèi)，極大改善了大模型的輸出質(zhì)量。

如今，大型語(yǔ)言模型（LLM）已經(jīng)成為了我們生活中的好幫手。

當(dāng)用戶(hù)使用大模型時(shí)，模型首先會(huì)將輸入的內(nèi)容拆分成一個(gè)個(gè)的詞元（token），通過(guò)分析這些詞元來(lái)生成答案，為我們解答疑惑、提供建議、翻譯外語(yǔ)、撰寫(xiě)報(bào)告??????但是，你能想象大模型也會(huì)出錯(cuò)嗎？

想象一下，你正在使用最新款的智能手機(jī)，它快速、聰明、幾乎可以做任何你想要的事情。

但偶爾，你發(fā)現(xiàn)手機(jī)的一兩個(gè)按鍵不按常理出牌 —— 比如說(shuō)，你按下「S」，它偏偏跳出「E」，或者干脆點(diǎn)了沒(méi)反應(yīng)，那估計(jì)用的時(shí)候就只想砸手機(jī)了。

大模型中存在一些故障詞元（glitch token），一個(gè)個(gè)本應(yīng)協(xié)助模型流暢運(yùn)行的小小詞元，偏偏要搞點(diǎn)小破壞。

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

針對(duì)這個(gè)情況，由華中科技大學(xué)、南洋理工大學(xué)等高校聯(lián)合組成的研究團(tuán)隊(duì)近日發(fā)表了一項(xiàng)研究，該工作已經(jīng)被軟件工程領(lǐng)域國(guó)際頂級(jí)會(huì)議 ——FSE 2024 接收。

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

論文鏈接：https://arxiv.org/ abs / 2404.09894

項(xiàng)目鏈接：https://sites.google.com/ view / glitchhunter-fse2024 / glitchhunter

該研究是第一個(gè)關(guān)于故障詞元的全面研究，并且研究中針對(duì)故障詞元的檢測(cè)方法為減少大模型中與分詞（tokenizer）相關(guān)的錯(cuò)誤提供了有意義的見(jiàn)解。

簡(jiǎn)單來(lái)說(shuō)，這項(xiàng)研究就像是在告訴我們：在大模型的世界里，有些小故障不僅僅是小插曲，它們可以大大影響模型的輸出質(zhì)量。通過(guò)識(shí)別出這些故障，可以更好地理解和優(yōu)化這些聰明但偶爾會(huì)犯糊涂的大型語(yǔ)言模型。

論文簡(jiǎn)介

這篇工作中，作者首先提出了一個(gè)實(shí)證研究來(lái)了解故障詞元在大語(yǔ)言模型中的存在性與普遍性。作者調(diào)查了包括 GPT-4，Llama-2 在內(nèi)的七種熱門(mén)的大模型，其中包含了三種不同的分詞器，總共分析了十八萬(wàn)個(gè)不同的詞元。

作者要求大模型完成針對(duì)詞元的三個(gè)基礎(chǔ)且簡(jiǎn)單的任務(wù)：復(fù)現(xiàn)，拼寫(xiě)以及求長(zhǎng)度。根據(jù)不同的詞元的完成情況，作者從完成形式上不能完成任務(wù)的詞元分為了如下圖所示的 5 個(gè)種類(lèi)。在此基礎(chǔ)上，只要這個(gè)詞元不能夠完成以上的三個(gè)任務(wù)之一，他就會(huì)被標(biāo)記為故障詞元。

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

實(shí)證研究的第二個(gè)問(wèn)題是對(duì)故障詞元的形式進(jìn)行分類(lèi)。這些詞元有些是不同單詞的組合，一些是無(wú)意義字母的堆疊，還有一些是單純的無(wú)意義的符號(hào)。作者通過(guò)人工標(biāo)注的方法，將這些所有的故障詞元分為了表所示的 5 個(gè)種類(lèi)。

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

實(shí)證研究的第三個(gè)問(wèn)題故障詞元在真實(shí)的數(shù)據(jù)集中的存在情況。作者研究了包括 Alpaca，ShareGPT 在內(nèi)的用于大模型微調(diào)的主流數(shù)據(jù)集，發(fā)現(xiàn)在每個(gè)數(shù)據(jù)集中平均有 2% 以上的故障詞元。這說(shuō)明了故障詞元在數(shù)據(jù)集中很普遍，而且很可能會(huì)影響到使用這些數(shù)據(jù)集進(jìn)行微調(diào)的模型的效果。

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

在實(shí)證研究中作者還發(fā)現(xiàn)，故障詞元在嵌入空間中有聚集效應(yīng)，這便啟發(fā)作者可以通過(guò)聚類(lèi)的算法來(lái)完成針對(duì)故障詞元的識(shí)別工作。

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

作者基于上述的發(fā)現(xiàn)構(gòu)建了 GlitchHunter，一種用于檢測(cè)大模型中故障詞元的自動(dòng)化工具，主要依賴(lài)迭代聚類(lèi)技術(shù)來(lái)識(shí)別潛在的故障詞元群組，整個(gè)檢測(cè)流程分為幾個(gè)步驟：

- 構(gòu)建詞元嵌入圖 (TEG, Token Embedding Graph)：首先，GlitchHunter 會(huì)構(gòu)建一個(gè)包括所有詞元及其相應(yīng)的嵌入向量的詞元嵌入圖，來(lái)展示所有詞元在嵌入空間中的位置和相互之間的關(guān)系。

- 候選聚類(lèi)：接著，GlitchHunter 在詞元嵌入圖上尋找緊密聚集的詞元，使用 Leiden 聚類(lèi)算法形成潛在的故障詞元群組，這些詞元通常有相似的特征。

- 假設(shè)檢驗(yàn)：在每個(gè)詞元群組內(nèi)，GlitchHunter 進(jìn)行假設(shè)檢驗(yàn)，通過(guò)分析群組內(nèi)詞元的行為和輸出結(jié)果來(lái)找出群組內(nèi)行為顯著偏離預(yù)期規(guī)范的詞元，確定哪些群組實(shí)際上包含故障詞元。

- 更新與迭代：選定包含故障詞元的群組后，這些詞元會(huì)被整合到一個(gè)更新的詞元嵌入圖中。隨后，GlitchHunter 會(huì)繼續(xù)進(jìn)行聚類(lèi)和檢測(cè)，直到詞元嵌入圖不再經(jīng)歷任何更新，即沒(méi)有新的故障詞元被發(fā)現(xiàn)。

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

通過(guò)這種方法，GlitchHunter 能夠有效地在大數(shù)據(jù)集中快速定位并處理故障詞元，減少錯(cuò)誤輸出，提高語(yǔ)言模型的整體質(zhì)量和可靠性。

為了驗(yàn)證 GlitchHunter 的效果，本文采用了幾項(xiàng)關(guān)鍵指標(biāo)來(lái)比較 GlitchHunter 與幾種基線方法的性能，包括隨機(jī)抽樣、基于規(guī)則的隨機(jī)抽樣和 K-means 聚類(lèi)。評(píng)估結(jié)果顯示，GlitchHunter 在各個(gè)測(cè)試模型中普遍表現(xiàn)出色。

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

首先，GlitchHunter 的真陽(yáng)性率（True Positive Rate）顯著高于其他方法，這表明它在實(shí)際檢測(cè)到故障詞元的準(zhǔn)確性方面表現(xiàn)優(yōu)異。同時(shí)，其精確度（Precision）達(dá)到接近或等于 100%，遠(yuǎn)高于其他比較方法，這反映了其在識(shí)別故障詞元時(shí)的高精確性。

在召回率（Recall）方面，GlitchHunter 同樣展現(xiàn)了較高的性能，有效地識(shí)別了大部分存在的故障詞元，確保了較少的遺漏。

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

此外，GlitchHunter 相較于完整遍歷詞元表的方法，顯著減少了所需的時(shí)間和處理的詞元數(shù)量，展示了其在達(dá)到高性能的同時(shí)保持了較低的資源開(kāi)銷(xiāo)。這些評(píng)估結(jié)果充分驗(yàn)證了 GlitchHunter 在實(shí)際應(yīng)用中提高 LLM 輸出質(zhì)量和可靠性的潛力，證明了其作為故障詞元檢測(cè)工具的有效性和實(shí)用性。

未來(lái)工作

在這個(gè)工作中，作者完成了對(duì)故障詞元的系統(tǒng)性探究，但是對(duì)于故障詞元出現(xiàn)的原因以及如何進(jìn)行修復(fù)并未進(jìn)行過(guò)多的探討，而這也是進(jìn)行故障詞元研究的終極目標(biāo)：解決掉所有這樣的故障詞元，完善大語(yǔ)言模型對(duì)于每一個(gè)詞元的理解。

參考資料：

https://arxiv.org/abs/2404.09894

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%

論文簡(jiǎn)介

未來(lái)工作

相關(guān)文章

專(zhuān)治大模型說(shuō)胡話：華科大等高校提出首個(gè)“故障 token”檢測(cè)方法，精確度 100%