設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

GPT-5 將死于 GPT-4 背刺?牛津劍橋研究警告:AI 訓(xùn) AI 成「劇毒」,會讓模型崩潰

新智元 2023/6/18 21:24:06 責(zé)編:夢澤

最差的人類語料,也要勝過 AI 生成的文本。

隨著 GPT-4、Stable Diffusion 和 Midjourney 的爆火,越來越多的人開始在工作和生活中引入生成式 AI 技術(shù)。

甚至,有人已經(jīng)開始嘗試用 AI 生成的數(shù)據(jù)來訓(xùn)練 AI 了。難道,這就是傳說中的「數(shù)據(jù)永動機」?

然而,來自牛津、劍橋、帝國理工等機構(gòu)研究人員發(fā)現(xiàn),如果在訓(xùn)練時大量使用 AI 內(nèi)容,會引發(fā)模型崩潰(model collapse),造成不可逆的缺陷。

也就是,隨著時間推移,模型就會忘記真實基礎(chǔ)數(shù)據(jù)部分。即使在幾乎理想的長期學(xué)習(xí)狀態(tài)下,這個情況也無法避免。

因此研究人員呼吁,如果想要繼續(xù)保持大規(guī)模數(shù)據(jù)帶來的模型優(yōu)越性,就必須認真對待人類自己寫出來的文本。

論文地址:https://arxiv.org/ abs / 2305.17493v2

但現(xiàn)在的問題在于 —— 你以為的「人類數(shù)據(jù)」,可能并不是「人類」寫的。

洛桑聯(lián)邦理工學(xué)院(EPFL)的最新研究稱,預(yù)估 33%-46% 的人類數(shù)據(jù)都是由 AI 生成的。

訓(xùn)練數(shù)據(jù),都是「垃圾」

毫無疑問,現(xiàn)在的大語言模型已經(jīng)進化出了相當強大的能力,比如 GPT-4 可以在某些場景下生成與人類別無二致的文本。

但這背后的一個重要原因是,它們的訓(xùn)練數(shù)據(jù)大部分來源于過去幾十年人類在互聯(lián)網(wǎng)上的交流。

如果未來的語言模型仍然依賴于從網(wǎng)絡(luò)上爬取數(shù)據(jù)的話,就不可避免地要在訓(xùn)練集中引入自己生成的文本。

對此,研究人員預(yù)測,等 GPT 發(fā)展到第 n 代的時候,模型將會出現(xiàn)嚴重的崩潰問題。

那么,在這種不可避免會抓取到 LLM 生成內(nèi)容的情況下,為模型的訓(xùn)練準備由人類生產(chǎn)的真實數(shù)據(jù),就變得尤為重要了。

大名鼎鼎的亞馬遜數(shù)據(jù)眾包平臺 Mechanical Turk(MTurk)從 2005 年啟動時就已經(jīng)成為許多人的副業(yè)選擇。

科研人員可以發(fā)布各種瑣碎的人類智能任務(wù),比如給圖像標注、調(diào)查等,應(yīng)有盡有。

而這些任務(wù)通常是計算機和算法無法處理的,甚至,MTurk 成為一些預(yù)算不夠的科研人員和公司的「最佳選擇」。

就連貝索斯還將 MTurk 的眾包工人戲稱為「人工人工智能」。

除了 MTurk,包括 Prolific 在內(nèi)的眾包平臺已經(jīng)成為研究人員和行業(yè)實踐者的核心,能夠提供創(chuàng)建、標注和總結(jié)各種數(shù)據(jù)的方法,以便進行調(diào)查和實驗。

然而,來自 EPFL 的研究發(fā)現(xiàn),在這個人類數(shù)據(jù)的關(guān)鍵來源上,有近乎一半的數(shù)據(jù)都是標注員用 AI 創(chuàng)建的。

論文地址:https://arxiv.org/ abs / 2306.07899v1

模型崩潰

而最開始提到的「模型崩潰」,就是在給模型投喂了太多來自 AI 的數(shù)據(jù)之后,帶來的能夠影響多代的退化。

也就是,新一代模型的訓(xùn)練數(shù)據(jù)會被上一代模型的生成數(shù)據(jù)所污染,從而對現(xiàn)實世界的感知產(chǎn)生錯誤的理解。

更進一步,這種崩潰還會引發(fā)比如基于性別、種族或其他敏感屬性的歧視問題,尤其是如果生成 AI 隨著時間的推移學(xué)會在其響應(yīng)中只生成某個種族,而「忘記」其他種族的存在。

而且,除了大語言模型,模型崩潰還會出現(xiàn)在變分自編碼器(VAE)、高斯混合模型上。

需要注意的是,模型崩潰的過程與災(zāi)難性遺忘(catastrophic forgetting)不同,模型不會忘記以前學(xué)過的數(shù)據(jù),而是開始把模型的錯誤想法曲解為現(xiàn)實,并且還會強化自己對錯誤想法的信念。

舉個例子,比如模型在一個包含 100 張貓圖片的數(shù)據(jù)集上進行訓(xùn)練,其中有 10 張藍毛貓,90 張黃毛貓。

模型學(xué)到的結(jié)論是,黃毛貓更普遍,同時會傾向于把藍毛貓想象的比實際更偏黃,所以在被要求生成新數(shù)據(jù)時可能會返回一些類似綠毛貓的結(jié)果。

而隨著時間的推移,藍毛的原始特征在多個訓(xùn)練 epoch 中逐漸被侵蝕,直接從藍色變成了綠色,最終再演變?yōu)辄S色,這種漸進的扭曲和丟失少數(shù)特征的現(xiàn)象就是模型崩潰。

具體來說,模型崩潰可以分為兩種情況:

1. 早期模型崩潰(early model collapse),模型開始丟失有關(guān)分布尾部的信息;

2. 后期模型崩潰(late model collapse),模型與原始分布的不同模式糾纏在一起,并收斂到一個與原始分布幾乎沒有相似之處的分布,往往方差也會非常小。

與此同時,研究人員也總結(jié)出了造成模型崩潰的兩個主要原因:

其中,在更多的時候,我們會得到一種級聯(lián)效應(yīng),即單個不準確的組合會導(dǎo)致整體誤差的增加。

1. 統(tǒng)計近似誤差(Statistical approximation error)

在重采樣的每一步中,信息中非零概率都可能會丟失,導(dǎo)致出現(xiàn)統(tǒng)計近似誤差,當樣本數(shù)量趨于無限會逐漸消失,該誤差是導(dǎo)致模型崩潰的主要原因。

2. 函數(shù)近似誤差(Functional approximation error)

該誤差主要源于模型中的函數(shù)近似器表達能力不足,或者有時在原始分布支持之外的表達能力太強。

眾所周知,神經(jīng)網(wǎng)絡(luò)在極限情況下是通用的函數(shù)近似器,但實際上這種假設(shè)并不總是成立的,特別是神經(jīng)網(wǎng)絡(luò)可以在原始分布的支持范圍之外引入非零似然。

舉個簡單例子,如果我們試圖用一個高斯分布來擬合兩個高斯的混合分布,即使模型具有關(guān)于數(shù)據(jù)分布的完美信息,模型誤差也是不可避免的。

需要注意的是,在沒有統(tǒng)計誤差的情況下,函數(shù)近似誤差只會發(fā)生在第一代,一旦新的分布能被函數(shù)近似器描述出來,就會在各代模型中保持完全相同的分布。

可以說,模型強大的近似能力是一把雙刃劍:其表達能力可能會抵消統(tǒng)計噪聲,從而更好地擬合真實分布,但同樣也會使噪聲復(fù)雜化。

對此,論文共同一作 Ilia Shumailov 表示:「生成數(shù)據(jù)中的錯誤會累積,最終迫使從生成數(shù)據(jù)中學(xué)習(xí)的模型進一步錯誤地理解現(xiàn)實。而且模型崩潰發(fā)生得非??欤P蜁杆偻涀畛鯇W(xué)習(xí)的大部分原始數(shù)據(jù)?!?/p>

解決方法

好在,研究人員發(fā)現(xiàn),我們還是有辦法來避免模型崩潰的。

第一種方法是保留原始的、完全或名義上由人類生成的數(shù)據(jù)集的高質(zhì)量副本,并避免與 AI 生成的數(shù)據(jù)混合,然后定期使用這些數(shù)據(jù)對模型進行重新訓(xùn)練,或者完全從頭訓(xùn)練一遍模型。

第二種避免回復(fù)質(zhì)量下降并減少 AI 模型中的錯誤或重復(fù)的方法是將全新的、干凈的、由人類生成的數(shù)據(jù)集重新引入訓(xùn)練中。

為了防止模型崩潰,開發(fā)者需要確保原始數(shù)據(jù)中的少數(shù)派在后續(xù)數(shù)據(jù)集中得到公正的表征。

數(shù)據(jù)需要仔細備份,并覆蓋所有可能的邊界情況;在評估模型的性能時,需要考慮到模型將要處理的數(shù)據(jù),甚至是最不可信的數(shù)據(jù)。

隨后,當重新訓(xùn)練模型時,還需要確保同時包括舊數(shù)據(jù)和新數(shù)據(jù),雖然會增加訓(xùn)練的成本,但至少在某種程度上有助于緩解模型崩潰。

不過,這些方法必須要內(nèi)容制作者或 AI 公司采取某種大規(guī)模的標記機制,來區(qū)分 AI 生成的內(nèi)容和人類生成的內(nèi)容。

目前,有一些開箱即用的解決方案,比如 GPTZero,OpenAI Detector,或 Writer 在簡單的文本上工作得很好。

然而,在一些特殊的文本中,這些方法并不能有效執(zhí)行。比如,在 EPFL 研究中有 ChatGPT 合成的 10 個總結(jié),而 GPTZero 只檢測到 6 個是合成的。

對此,研究人員通過微調(diào)自己的模型來檢測 AI 的使用,發(fā)現(xiàn) ChatGPT 在編寫本文時是最常用的 LLM。

對于構(gòu)建的檢測 AI 數(shù)據(jù)的方法,研究人員利用原始研究中的答案和用 ChatGPT 合成的數(shù)據(jù),訓(xùn)練了一個定制的「合成-真實分類器」。

然后用這個分類器來估計重新進行的任務(wù)中合成答案的普遍性。

具體來講,研究人員首先使用真正由人類撰寫的 MTurk 回應(yīng),和合成 LLM 生成的回應(yīng),來訓(xùn)練特定任務(wù)的「合成-真實分類器」。

其次,將這個分類器用于 MTurk 的真實回應(yīng)(其中眾包人可能使用,也可能沒有依賴 LLM),以估計 LLM 使用的普遍性。

最后,研究者確認了結(jié)果的有效性,在事后比較分析擊鍵數(shù)據(jù)與 MTurk 的回應(yīng)。

實驗結(jié)果顯示,這個模型在正確識別人工智能文本方面高達 99% 的準確率。

此外,研究人員用擊鍵數(shù)據(jù)驗證了結(jié)果,發(fā)現(xiàn):

- 完全在 MTurk 文本框中寫的總結(jié)(不太可能是合成的)都被歸類為真實的;

- 在粘貼的總結(jié)中,提取式總結(jié)和 LLM 的使用有明顯區(qū)別。

具體來講,人工智能生成的文本通常與原始總結(jié)幾乎沒有相似之處。這表明 AI 模型正在生成新文本,而不是復(fù)制和粘貼原始內(nèi)容的一部分。

「人類數(shù)據(jù)」很重要

現(xiàn)在,人們普遍擔心 LLM 將塑造人類的「信息生態(tài)系統(tǒng)」,也就是說,在線可獲得的大部分信息都是由 LLM 生成的。

使用綜合生成數(shù)據(jù)訓(xùn)練的 LLM 的性能明顯降低,就像 Ilia Shumailov 所稱會讓模型患上「癡呆癥」。

而這個問題將會變得更加嚴重,因為隨著 LLM 的普及,眾包工作者們已經(jīng)廣泛使用 ChatGPT 等各種 LLM。

但對于人類內(nèi)容創(chuàng)作者來說,這是一個好消息,提高工作效率的同時,還賺到了錢。

但是,若想挽救 LLM 不陷于崩潰的邊緣,還是需要真實的「人類數(shù)據(jù)」。

1. 人類數(shù)據(jù)在科學(xué)中仍然是至關(guān)重要的

2. 在合成數(shù)據(jù)上訓(xùn)練模型可能會帶來偏見和意識形態(tài)永久化

3. 隨著模型變得流行和更好 / 多模態(tài),采用率只會增加

總的來說,由人類生成的原始數(shù)據(jù)可以更好地表示世界,雖然也可能包含某些劣質(zhì)、概率較低的數(shù)據(jù);而生成式模型往往只會過度擬合流行數(shù)據(jù),并對概率更低的數(shù)據(jù)產(chǎn)生誤解。

那么,在充斥著生成式 AI 工具和相關(guān)內(nèi)容的未來,人類制作的內(nèi)容或許會比今天更有價值,尤其是作為 AI 原始訓(xùn)練數(shù)據(jù)的來源。

參考資料:

  • https://arxiv.org/abs/2306.07899v1

  • https://arxiv.org/abs/2305.17493v2

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:人工智能,ChatGPT

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知