“別讓大模型被基準評估給坑了”。
這是一項最新研究的題目,來自人民大學信息學院、高瓴人工智能學院和伊利諾伊大學厄巴納-香檳分校。
研究發(fā)現(xiàn),基準測試中相關(guān)數(shù)據(jù)意外被用于模型訓練的現(xiàn)象,變得越來越常見了。
因為預訓練語料中包含很多公開文本資料,而評估基準也建立在這些信息之上,本來這種情況就在所難免。
現(xiàn)在隨著大模型試圖搜集更多公開數(shù)據(jù),問題正在加重。要知道,這種數(shù)據(jù)重疊帶來的危害非常大。
不僅會導致模型部分測試分數(shù)虛高,還會使模型泛化能力下降、不相關(guān)任務(wù)表現(xiàn)驟降。甚至可能讓大模型在實際應用中產(chǎn)生“危害”。
所以這項研究正式發(fā)出警告,并通過多項模擬測試驗證了可能誘發(fā)的實際危害,具體來看。
大模型“被漏題”很危險
研究主要通過模擬極端泄露數(shù)據(jù)的情況,來測試觀察大模型會產(chǎn)生的影響。
極端泄露數(shù)據(jù)的方式有四種:
使用 MMLU 的訓練集
使用 MMLU 以外所有測試基準的訓練集
使用所有訓練集 + 測試 prompt
使用所有訓練集、測試集和測試 prompt(這是最極端情況,僅為實驗模擬,正常情況下不會發(fā)生)
然后研究人員給 4 個大模型進行“投毒”,然后再觀察它們在不同 benchmark 中的表現(xiàn),主要評估了在問答、推理、閱讀理解等任務(wù)中的表現(xiàn)。
使用的模型分別是:
GPT-Neo(1.3B)
phi-1.5(1.3B)
OpenLLaMA(3B)
LLaMA-2(7B)
同時使用 LLaMA(13B / 30B / 65B)作為對照組。
結(jié)果發(fā)現(xiàn),當大模型的預訓練數(shù)據(jù)中包含了某一個評測基準的數(shù)據(jù),它會在這一評測基準中表現(xiàn)更好,但在其他不相關(guān)任務(wù)中的表現(xiàn)會下降。
比如使用 MMLU 數(shù)據(jù)集訓練后,多個大模型在 MMLU 測試中分數(shù)提高的同時,在常識基準 HSwag、數(shù)學基準 GSM8K 中分數(shù)下降。
這表明大模型的泛化能力受到影響。
另一方面,還可能造成不相關(guān)測試分數(shù)虛高。
如上給大模型進行“投毒”的四個訓練集中僅包含少量中文數(shù)據(jù),但是大模型被“投毒”后,在 C3(中文基準測試)中的分數(shù)卻都變高了。
這種升高是不合理的。
這種訓練數(shù)據(jù)泄露的情況,甚至會導致模型測試分數(shù),異常超越更大模型的表現(xiàn)。
比如 phi-1.5(1.3B)在 RACE-M 和 RACE-H 上的表現(xiàn)優(yōu)于 LLaMA65B,后者是前者規(guī)模的 50 倍。
但這種分數(shù)升高沒有意義,只是作弊罷了。
更嚴重的是,哪怕是沒有被泄露數(shù)據(jù)的任務(wù),也會受到影響,表現(xiàn)下降。
下表中可以看到,在代碼任務(wù) HEval 中,兩個大模型都出現(xiàn)了分數(shù)大幅下降的情況。
同時被泄露數(shù)據(jù)后,大模型的微調(diào)提升遠不如未被泄露情況。
對于發(fā)生數(shù)據(jù)重疊 / 泄露的情況,本項研究分析了各種可能。比如大模型預訓練語料和基準測試數(shù)據(jù)都會選用公開文本(網(wǎng)頁、論文等),所以發(fā)生重疊在所難免。
而且當前大模型評估都是在本地進行,或者是通過 API 調(diào)用來獲得結(jié)果。這種方式無法嚴格檢查一些不正常的數(shù)值提升。以及當下大模型的預訓練語料都被各方視為核心機密,外界無法評估。所以導致了大模型被意外“投毒”的情況發(fā)生。
那該如何規(guī)避這一問題呢?研究團隊也出了一些建議。
如何規(guī)避?
研究團隊給出了三點建議:
第一,實際情況中很難完全避免數(shù)據(jù)重疊,所以大模型應該采用多個基準測試進行更全面的評估。
第二,對于大模型開發(fā)者,應該要對數(shù)據(jù)進行脫敏,公開訓練語料的詳細構(gòu)成。
第三,對于基準測試維護人員,應該提供基準測試數(shù)據(jù)來源,分析數(shù)據(jù)被污染的風險,使用更多樣化的提示進行多次評估。
不過團隊也表示本次研究中還存在一定局限。比如沒有對不同程度數(shù)據(jù)泄露進行系統(tǒng)性測試,以及沒能在預訓練中直接引入數(shù)據(jù)泄露進行模擬等。
本次研究由中國人民大學信息學院、高瓴人工智能學院和伊利諾伊大學香檳分校的多位學者共同帶來。在研究團隊中我們發(fā)現(xiàn)了兩位數(shù)據(jù)挖掘領(lǐng)域大佬:文繼榮和韓家煒。
文繼榮教授現(xiàn)任中國人民大學高瓴人工智能學院院長、中國人民大學信息學院院長。主要研究方向為信息檢索、數(shù)據(jù)挖掘、機器學習、大規(guī)模神經(jīng)網(wǎng)絡(luò)模型的訓練與應用。
韓家煒教授領(lǐng)銜是數(shù)據(jù)挖掘領(lǐng)域?qū)<遥F(xiàn)為伊利諾伊大學香檳分校計算機系教授,美國計算機協(xié)會院士和 IEEE 院士。
論文地址:
https://arxiv.org/abs/2311.01964
本文來自微信公眾號:量子位 (ID:QbitAI),作者:明敏
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。