首頁 > 科學(xué)探索>科技前沿

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

新智元 2023/5/25 12:49:02 責(zé)編：夢澤

評論：

RLHF 并沒有那么重要！Meta 最新 650 億參數(shù)模型 LIMA，僅用 1000 個樣本，實現(xiàn)與 GPT-4 相匹敵的性能。

人人都知，讓 ChatGPT 稱霸天下的秘密武器，就是人類反饋強化學(xué)習(xí)（RLHF）。

而現(xiàn)在，Meta AI 等機構(gòu)的爆火研究 LIMA 直接打破這一規(guī)則，直言 RLHF 并沒有那么重要！

論文一出，直接在 AI 圈炸了鍋！

就連 LeCun 忍不住發(fā)推炫一番：LIMA：LLaMa-65B+1000 監(jiān)督樣本 = GPT-4 / Bard 級別的性能。

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

正如標(biāo)題所稱，LIMA 是「Less is More for Alignment」，暗示著一個強大的預(yù)訓(xùn)練 AI 模型，通過幾個樣本就足以實現(xiàn)高質(zhì)量的結(jié)果。

而 LIMA 僅在 1000 個精心挑選的樣本上微調(diào) LLaMa-65B，而且無需 RLHF，就實現(xiàn)了與 GPT-4 和 Bard 相媲美的性能。

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

論文地址：https://arxiv.org/ abs / 2305.11206

論文中，研究人員將這一突破稱為「表面對齊假設(shè)」（Superficial Alignment Hypothesis）。

實驗證明了，大語言模型在預(yù)訓(xùn)練階段就已習(xí)得大部分知識，僅用有限的指令微調(diào)數(shù)據(jù)，足以教會模型產(chǎn)生高質(zhì)量的內(nèi)容。

高質(zhì)量的數(shù)據(jù)就可以克服小樣本量？訓(xùn)練這樣模型的成本是多少，這是否意味著小型 LLM 玩家可以與 OpenAI / 谷歌競爭？

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

還有網(wǎng)友質(zhì)疑，GPT-4 在 57% 情況中擊敗 LIMA，還能說性能相當(dāng)？

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

RLHF 并非王者？

大語言模型經(jīng)過預(yù)訓(xùn)練，能在大規(guī)模上預(yù)測下一個 token，讓其學(xué)習(xí)通用表征。這些表征可以轉(zhuǎn)移到幾乎任何語言理解或生成任務(wù)中。

為了實現(xiàn)這種轉(zhuǎn)移，人們已經(jīng)提出各種「對齊」語言模型的方法，主要側(cè)重在百萬級 token 上進行指令調(diào)優(yōu)。

而最近采用較多的是，從人類反饋中進行強化學(xué)習(xí)（RLHF）。這些反饋便是在與人類標(biāo)注者進行數(shù)百萬次互動中收集的。

ChatGPT 令人深刻的表現(xiàn)，主要歸功于 RLHF。根據(jù) OpenAI 的思路，RLHF 分為三步。

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

然而，現(xiàn)有的對齊方法代價是高昂的，需要大量算力，以及專門的數(shù)據(jù)才能實現(xiàn)像 ChatGPT 一樣的性能。

Meta AI 卻要逆行其道，證明了，一個預(yù)訓(xùn)練語言模型可以通過簡單地微調(diào)精心挑選的 1000 個樣本，就能實現(xiàn)強大的性能。

在此，研究人員提出「表面對齊假設(shè)」（Superficial Alignment Hypothesis），假設(shè)「對齊」可以是一個簡單的過程，。

在這個過程中，模型的知識和能力幾乎完全是在預(yù)訓(xùn)練期間學(xué)習(xí)的，而「對齊」只告訴模型學(xué)習(xí)與用戶交互的風(fēng)格或格式

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

為了驗證這個假設(shè)，Meta 等研究者挑選了 1000 個近似于真實用戶提示，以及高質(zhì)量響應(yīng)的樣本。

他們從其他研究論文、WikiHow、StackExchange 和 Reddit 等來源進行手動挑選，訓(xùn)練數(shù)據(jù)的總量大約是 750,000 個 token。

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

訓(xùn)練提示（輸入）、響應(yīng)（輸出）以及測試提示的來源

此外，研究者手動編寫了 250 個提示和響應(yīng)的樣本，同時對任務(wù)的多樣性進行了優(yōu)化。

最后，研究人員對預(yù)訓(xùn)練 LLaMa 65B 模型在 1000 個樣本集上進行微調(diào)，并進行了人類評估。

評估結(jié)果

Meta 將 LIMA 與 5 個模型基準(zhǔn)進行了比較：（在 2023 年 4 月期間，對所有基準(zhǔn)的響應(yīng)進行了采樣）

Alpaca 65B—— 利用 52,000 個樣本對 LLaMa 65B 微調(diào)后得到的大模型

DaVinci003—— 基于 RLHF 訓(xùn)練的大語言模型

Bard—— 基于谷歌的 PaLM 模型

Claude—— 通過強化學(xué)習(xí) Constitutional AI 訓(xùn)練的 52B 參數(shù)模型

GPT-4—— 目前使用 RLHF 訓(xùn)練的最強的模型

為了比較 LIMA 和其他 SOTA 模型，Meta 為每個測試提示生成一個單一的響應(yīng)。

然后，要求人類參與者將 LIMA 的輸出與每個基準(zhǔn)進行比較，并標(biāo)記他們更喜歡哪一個。

在人類偏好研究中，盡管 Alpaca 65B 的訓(xùn)練數(shù)據(jù)量是 LIMA 的 52 倍，但它產(chǎn)生的輸出往往比 LIMA 的不如人意。

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

讓人大跌眼鏡的是，DaVinci003 也是同樣的情況，雖然程度較小。該模型使用了 RLHF 進行訓(xùn)練，這本應(yīng)是一種更優(yōu)越的對齊方法。

而 Bard 在 42% 的時間中，其產(chǎn)生的回答優(yōu)于 LIMA。這也意味著，剩下的 58% 時間里，LIMA 的響應(yīng)至少和 Bard 一樣優(yōu)秀。

最后，研究者發(fā)現(xiàn)，雖然 Claude 和 GPT-4 通常表現(xiàn)得比 LIMA 更好，但在一些情況下，LIMA 實際上能產(chǎn)生更好的回答。

另外，諷刺的是，在 GPT-4 的偏好研究中，有 19% 的時間，GPT-4 更喜歡 LIMA 的輸出。

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

「表面對齊假設(shè)」

Meta 將這一發(fā)現(xiàn)定義為「表面對齊假設(shè)」（Superficial Alignment Hypothesis）。

它表明，所謂預(yù)訓(xùn)練后的對齊階段，主要是讓模型學(xué)會一種特定的風(fēng)格或格式，這種風(fēng)格或格式在與用戶交互時可以被模型回憶起來。

因此，「微調(diào)」更多是關(guān)于風(fēng)格，而不是實質(zhì)。

LIMA 的結(jié)果表明，實際上，利用簡單的方法就可以解決對齊和微調(diào) AI 模型這類復(fù)雜問題。

這與諸如 OpenAI 的 RLHF 那些，特別繁瑣和復(fù)雜的微調(diào)過程，形成了鮮明的對比。

不過，LIMA 也不是萬能的。Meta 認(rèn)為，該方法存在兩個明顯的局限：

第一，用高質(zhì)量的示例構(gòu)建數(shù)據(jù)集是一種非常具有挑戰(zhàn)性的方法，很難擴展。

第二，LIMA 并不像已經(jīng)有產(chǎn)品的模型那樣強大，比如 GPT-4。

團隊表示，雖然 LIMA 的生成結(jié)果，在大部分情況下質(zhì)量都很高。但一個「對抗性的提示」或一個「不走運的樣本」，依然會讓模型產(chǎn)生不理想的答案。

Yann LeCun 對 GPT-4 和類似模型背后努力的相對貶值采取了務(wù)實的看法。

他將大型語言模型看作是近期的一個元素，至少在中期內(nèi)不會「在沒有重大變化」的情況下發(fā)揮作用。

以上，主要評估是根據(jù)最先進的模型對 LIMA 進行評估，但需要明確的是，其中一些模型實際上已經(jīng)在訓(xùn)練期間使用了數(shù)百萬真實用戶的提示。

對此，研究人員通過手動分析 50 個隨機示例來進行絕對的評估。

并將每個示例標(biāo)記成 3 個類別：Fail，響應(yīng)不符合提示符的要求；Pass，響應(yīng)符合；Excellent，對提示提供了優(yōu)秀的響應(yīng)。

實驗結(jié)果顯示，50% 的 LIMA 回答被認(rèn)為是優(yōu)秀的，它能夠遵循所有的 50 個分析提示中的 44 個。

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

如下，LIMA 針對育兒建議和生成食譜的示例進行的輸出。

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

另外，一個僅在 1000 個樣本上微調(diào)的模型在多輪對話中表現(xiàn)又如何？

在零樣本上，LIMA 的響應(yīng)出奇地連貫，并引用了前面對話的信息。在 10 次對話中，LIMA 有 3 次未能遵循提示。

為了提高對話能力，研究人員收集了 30 個多輪對話。其中 10 個是由作者手動編寫，20 個來自 Stack Exchange，并根據(jù)助手風(fēng)格進行編輯。

研究者使用組合的 1,030 個示例對預(yù)訓(xùn)練模型進行微調(diào)，得到一個新版本的 LIMA，并針對相同的提示進行了 10 次實時對話。

實驗發(fā)現(xiàn)加入這 30 個示例后生成質(zhì)量顯著提升，優(yōu)質(zhì)響應(yīng)比例從 45.2％提高到 76.1％！

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

LIMA 如何以「少」勝「多」

團隊通過消融實驗，研究了訓(xùn)練數(shù)據(jù)多樣性、質(zhì)量和數(shù)量的影響。

Meta 發(fā)現(xiàn)，為了對齊目的，提高輸入多樣性和輸出質(zhì)量有可測量的正面效應(yīng)，而單獨增加數(shù)量卻沒有。

實驗設(shè)置

團隊在各種數(shù)據(jù)集上微調(diào)了一個擁有 70 億參數(shù)的 LLaMa 模型，并控制了相同的超參數(shù)。

團隊對每個測試集提示抽取 5 個回應(yīng)，并通過讓 ChatGPT（GPT-3.5 Turbo）在 1-6 的 Likert 量表上評級回應(yīng)的幫助性來評估回應(yīng)質(zhì)量。

多樣性

為了測試提示多樣性的影響，同時控制質(zhì)量和數(shù)量，團隊比較了在質(zhì)量過濾后的 Stack Exchange 數(shù)據(jù)和 wikiHow 數(shù)據(jù)上的訓(xùn)練效果。

圖 5 顯示，更多樣的 Stack Exchange 數(shù)據(jù)顯著提升了模型的性能。

質(zhì)量

為了測試響應(yīng)質(zhì)量的影響，團隊從 Stack Exchange 抽取了 2000 個沒有任何質(zhì)量或風(fēng)格過濾的示例，并比較了在這個數(shù)據(jù)集和過濾后的數(shù)據(jù)集上訓(xùn)練的模型。

圖 5 顯示，在過濾和未過濾的數(shù)據(jù)源上訓(xùn)練的模型之間存在著 0.5 點的差異。

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

數(shù)量

在眾多機器學(xué)習(xí)設(shè)置中，都會采用增加示例數(shù)量的策略，來提升性能。

為了測試其影響，團隊從 Stack Exchange 中抽取了呈指數(shù)增長的訓(xùn)練集。

但實際上，如圖 6 所示，數(shù)據(jù)翻倍的訓(xùn)練集并未改善響應(yīng)質(zhì)量。

如此一來也暗示了，對齊的規(guī)模法則不必然只受數(shù)量影響，而更可能是在保持高質(zhì)量響應(yīng)的同時，提升提示的多樣性。

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

作者介紹

Chunting Zhou 是 Meta AI 的一名研究科學(xué)家。

2022 年 5 月，她在卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所獲得博士學(xué)位，在那里從事自然語言處理工作，導(dǎo)師是 Graham Neubig。Zhou 的主要研究興趣在于自然語言處理和機器學(xué)習(xí)的交叉領(lǐng)域，并對開發(fā)對分布變化具有魯棒性的方法感興趣，目的是學(xué)習(xí)模型能夠在各種群體中表現(xiàn)統(tǒng)一。

此外，Zhou 還研究生成模型，及其在自然語言處理任務(wù)中的應(yīng)用。

參考資料：

https://arxiv.org/abs/2305.11206

本文來自微信公眾號：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊

RLHF 并非王者？

評估結(jié)果

「表面對齊假設(shè)」

LIMA 如何以「少」勝「多」

實驗設(shè)置

多樣性

質(zhì)量

數(shù)量

作者介紹

相關(guān)文章

不用 RLHF，匹敵 GPT-4，Meta 發(fā)布 LIMA 65B，1000 個樣本性能飛升，LeCun 轉(zhuǎn)贊