首頁 > 智能時代>人工智能

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

新智元 2023/9/5 23:22:44 責編：遠洋

評論：

【新智元導讀】ChatGPT 橫空出世后，RLHF 成為研究人員關(guān)注的焦點。谷歌最新研究提出，不用人類標注，AI 標注偏好后，也能取得與 RLHF 一樣的效果。

如果說，RLHF 中的「人類」被取代，可行嗎？

谷歌團隊的最新研究提出了，用大模型替代人類，進行偏好標注，也就是 AI 反饋強化學習（RLAIF）。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

論文地址：https://arxiv.org/ abs / 2309.00267

結(jié)果發(fā)現(xiàn)，RLAIF 可以在不依賴人類標注員的情況下，產(chǎn)生與 RLHF 相當?shù)母倪M效果，勝率 50%。

同時，谷歌研究再次證明了 RLAIF 和 RLHF，比起監(jiān)督微調(diào)（SFT）勝率都超過了 70%。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

如今，大型語言模型訓練中一個關(guān)鍵部分便是 RLHF。人類通過對 AI 輸出的質(zhì)量進行評級，讓回應(yīng)更加有用。

但是，這需要付出很多的努力，包括讓許多標注人員暴露在 AI 輸出的有害內(nèi)容中。

既然 RLAIF 能夠與 RLHF 相媲美，未來模型不需要人類反饋，也可以通過自循環(huán)來改進。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

RLHF 不需要人類了

當前，RLHF 已經(jīng)成為微調(diào)大模型的核心方法，包括 ChatGPT、Bard 等模型都采用這一范式。

具體來說，RLHF 分為三步：預訓練一個監(jiān)督微調(diào) LLM；收集數(shù)據(jù)訓練一個獎勵模型；用 RL 微調(diào)模型。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

有了 RLHF，大模型可以針對復雜的序列級目標進行優(yōu)化，而傳統(tǒng)的 SFT 很難區(qū)分這些目標。

然而，一個非常現(xiàn)實的問題是，RLHF 需要大規(guī)模高質(zhì)量的人類標注數(shù)據(jù)，另外這些數(shù)據(jù)能否可以取得一個優(yōu)勝的結(jié)果。

在谷歌這項研究之前，Anthropic 研究人員是第一個探索使用 AI 偏好來訓練 RL 微調(diào)的獎勵模型。

他們首次在「Constitutional AI」中提出了 RLAIF，發(fā)現(xiàn) LLM 與人類判斷表現(xiàn)出高度一致，甚至在某些任務(wù)上，表現(xiàn)優(yōu)于人類。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

但是，這篇研究沒有將人類與人工智能反饋做對比，因此，RLAIF 是否可以替代 RLHF 尚未得到終極答案。

谷歌最新研究，主要就是解決這個問題。

研究人員在模型摘要任務(wù)中，直接比較了 RLAIF 和 RLHF。

給定 1 個文本和 2 個候選答案，使用現(xiàn)成的 LLM 給出一個偏好標注。

然后，根據(jù) LLM 偏好和對比損失訓練獎勵模型（RM）。最后，通過強化學習微調(diào)策略模型，利用獎勵模型給出獎勵。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

那么，谷歌與 Anthropic 提出的 RLAIF 方法有什么不同？

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

谷歌自己在文中解釋道，

- 谷歌：根據(jù) AI 標注的偏好訓練獎勵模型，然后進行 RL 微調(diào)。

- Constitutional AI：通過迭代，要求 LLM 根據(jù)憲法生成更好的響應(yīng)，來改進監(jiān)督學習模型。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

AI 自標注，自我改進

谷歌在最新研究中提出的 RLAIF 方法，過程是怎樣的？

大語言模型進行偏好標注

研究人員用「現(xiàn)成的」LLM 來標注對兩個候選項之間的偏好。

這是一個針對一般用途進行預訓練或指令調(diào)整的模型，但未針對特定下游任務(wù)進行微調(diào)。給定一段文本和兩個候選摘要，LLM 被要求評價哪個摘要更好。LLM 的輸入結(jié)構(gòu)如下：

1. 序言

介紹和描述手頭任務(wù)的說明

2. 多個樣本實例（可選）

一段文本、一對摘要、思路的基本原理和偏好判斷

3.要標注的樣本

一段文本和一對要標注的摘要

4.結(jié)尾

提示 LLM 的結(jié)束字符串（例如「Preferred Summary=」）

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

在給 LLM 提供輸入后，研究人員獲得生成 token「1」和「2」的對數(shù)概率，并計算 softmax 以獲得偏好分布。

從 LLM 獲取偏好標注的方法有很多，例如從模型中解碼自由形式的響應(yīng)并啟發(fā)式地提取偏好（例如：output=「the first summary is better」），或者將偏好分布表示為單熱表示 (one-hot representation)。然而，研究人員沒有嘗試這些替代方案，因為他們的方法已經(jīng)產(chǎn)生了很高的準確性。

研究人員試驗了兩種類型的序言：第一種是「Base」，它簡單地詢問「哪個摘要更好？」，第二種是「OpenAI」，它模仿了生成 OpenAI TL;DR 偏好數(shù)據(jù)集的人類偏好標注器的評級指令，包含有關(guān)構(gòu)成強摘要的詳細信息。如下圖所示。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

研究人員還通過在提示中添加少量樣本來嘗試上下文學習，其中手動選擇樣本來涵蓋不同的主題。解決位置偏差。

之前的研究結(jié)果表明，向 LLM 展示候選項的順序可能會影響 LLM 判斷更喜歡的候選項。研究人員發(fā)現(xiàn)證據(jù)表明存在這種位置偏差，尤其是對于較小尺寸的標注 LLM 。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

為了減輕偏好標注中的位置偏差，研究人員對每對候選項進行兩次推理，候選項提交給 LLM 的順序二次推理是相反的。然后對兩個推推理的結(jié)果進行平均以獲得最終的偏好分布。

思維鏈推理

研究人員嘗試從 AI 標注器中引出思維鏈 (COT) 推理，以提高與人類偏好的一致性。

研究人員替換標準的結(jié)尾提示（例如將「Preferred Summary=」替換為「Consider the coherence, accuracy, coverage, and over-all quality of each summary and explain which one is better. Rationale：」），然后解碼一個 LLM 的回復。

最后，研究人員將原始提示、響應(yīng)和原始結(jié)尾字符串“Preferred Summary=”連接在一起，并按照第 3.1 節(jié)中的評分過程來獲得偏好分布。具體過程見下圖。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

在零樣本提示中，LLM 沒有給出推理應(yīng)該是什么樣子的示例，而在少量樣本提示中，研究人員提供了模型要遵循的 COT 推理示例。示例請參見下圖。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

自洽性（Self-Consistency）

對于思維鏈提示，研究人員還嘗試了自洽性 —— 一種通過對多個推理路徑進行采樣并聚合每個路徑末尾產(chǎn)生的最終答案來改進思維鏈推理的技術(shù)。

使用非零解碼溫度（non-zero decoding temperature）對多個思維鏈基本原理進行采樣，然后按照上一節(jié)中的方法獲得每個思維鏈的 LLM 偏好分布。然后對結(jié)果進行平均以獲得最終的偏好分布。

AI 反饋的強化學習

在 LLM 對偏好進行標注后，將訓練獎勵模型 (RM) 來預測偏好。由于研究人員的方法產(chǎn)生軟標注（Soft Label），他們采用 RM 生成的獎勵分數(shù)的 softmax 的交叉熵損失（cross-entropy loss），而不是獎勵模型中提到的損失。

Softmax 將 RM 的無界分數(shù)（unbounded scores）轉(zhuǎn)換為概率分布。

在 AI 標注數(shù)據(jù)集上訓練 RM 可以被視為模型蒸餾的一種形式，特別是因為研究人員的 AI 標注器通常比 RM 更大、更強。

另一種方法是繞過 RM 并直接使用 AI 反饋作為 RL 中的獎勵信號，盡管這種方法的計算成本更高，因為 AI 標注器比 RM 更大。

通過經(jīng)過訓練的 RM，研究人員使用適用于語言建模領(lǐng)域的 Advantage Actor Critic (A2C) 算法的修改版本進行強化學習。

評價

研究人員通過三個指標評估他們的結(jié)果 - AI 標注器對齊、配對準確度和勝率。

AI 標注器對齊時用來衡量 AI 標注偏好相對于人類偏好的準確性。

對于單個示例，將軟人工智能標注的偏好轉(zhuǎn)換為二進制表示。如果標注與目標人類偏好一致則分配 1，否則分配 0。

配對準確性是衡量經(jīng)過訓練的獎勵模型相對于一組保留的人類偏好的準確性。

給定共享上下文和一對候選響應(yīng)，如果根據(jù)人類標注，RM 對首選候選的評分高于非首選候選，則配對準確度為 1。否則該值為 0。該數(shù)量是多個示例的平均值，以衡量 RM 的總體精度。

勝率通過衡量人類更喜歡一項策略頻率來評估兩項策略的端到端質(zhì)量。

給定一個輸入和兩次生成結(jié)果，人類標注者選擇首選哪一個生成結(jié)果。策略 A 優(yōu)于策略 B 的實例百分比稱為「A 對 B 的勝率」。

實驗細節(jié)

研究人員使用由 OpenAI 管理的經(jīng)過過濾的 Reddit TL;DR 數(shù)據(jù)集。TL;DR 包含來自 Reddit 的約 300 萬個帖子，涉及各種主題（也稱為「subreddits」）以及原作者撰寫的帖子摘要。

數(shù)據(jù)還經(jīng)過 OpenAI 過濾，以確保高質(zhì)量，其中包括使用普通大眾可以理解的 Reddit 主題白名單。

此外，僅包含摘要中含有 24 到 48 個標注的帖子。過濾后的數(shù)據(jù)集包含 123,169 個帖子，其中約 5% 作為驗證集。

有關(guān)數(shù)據(jù)集的更多詳細信息可以在原始論文中找到。此外，OpenAI 從過濾后的 TL;DR 數(shù)據(jù)集中整理了一個人類偏好數(shù)據(jù)集。

對于給定的帖子，根據(jù)不同的策略生成兩個候選摘要，并要求標注器對他們喜歡的摘要進行評分?？倲?shù)據(jù)集包含大約 92k 成對比較。

LLM 標注

為了評估 AI 標注技術(shù)的有效性（例如提示、自洽性），研究人員從 TL;DR 偏好數(shù)據(jù)集中選擇示例，其中人類標注者會偏好置信度更高的摘要。

研究人員在數(shù)據(jù)集訓練分割的隨機 15% 子集上評估 AI 標注器對齊，以實現(xiàn)更快的實驗迭代，生成 2851 個評估示例。

對于獎勵模型訓練，TL;DR 偏好數(shù)據(jù)集的完整訓練分割由 LLM 標注并用于訓練，無論置信度分數(shù)如何。

模型訓練

研究人員使用 PaLM 2 Extra-Small (XS) 作為初始檢查點，在 OpenAI 過濾后的 TL;DR 數(shù)據(jù)集上訓練 SFT 模型。

然后，研究人員從 SFT 模型初始化 RM，并在 OpenAI 的 TL;DR 人類偏好數(shù)據(jù)集上訓練它們。

對于表 1 和 5.1 中的結(jié)果，研究人員使用 PaLM 2L 生成 AI 標注的偏好，使用「OpenAI + COT 0-shot」提示（，沒有自洽性，然后在完整的偏好上訓練 RM 數(shù)據(jù)集。

對于強化學習，研究人員使用 Advantage Actor Critic (A2C) 來訓練策略。策略和價值模型都是從 SFT 模型初始化的。研究人員使用過濾后的 Reddit TL;DR 數(shù)據(jù)集作為初始狀態(tài)來推出他們的策略。

人類評估

研究人員收集了 1200 個人類評級來評估 RLHF 和 RLAIF 策略。對于每項評級任務(wù)，評估人員都會收到一篇帖子和 4 個根據(jù)不同策略（RLAIF、RLHF、SFT 和人類參考各一個）生成的摘要，并要求按照質(zhì)量順序?qū)λ鼈冞M行排名，不存在任何聯(lián)系。

帖子取自 TL;DR 監(jiān)督微調(diào)數(shù)據(jù)集的保留集，該數(shù)據(jù)集未用于任何其他評估。一旦收集了這些排名，就可以計算任意兩項策略的勝率。

勝率 50%，打平手

RLAIF vs. RLHF

文章開篇，已經(jīng)介紹了谷歌將 RLAIF 與 RLHF 相比較的優(yōu)勢，結(jié)果表明，兩種方法有著相似的性能。

具體來說，與基線 SFT 相比較，在 71% 的情況下，人類評估者更喜歡 RLAIF。73% 的情況下，RLHF 優(yōu)于 SFT。

研究人員還直接比較了 RLAIF 和 RLHF 的勝率，發(fā)現(xiàn)它們受歡迎程度是等同的 —— 即勝率都是 50%。

為了進一步了解這兩種策略的差異，谷歌對其生成的摘要進行了定性比較。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

另外，他們還將 RLAIF 和 RLHF 摘要與人工編寫的參考摘要進行比較。79% 的情況下，RLAIF 生成的摘要優(yōu)于參考摘要，80% 的情況下，RLHF 結(jié)果優(yōu)于參考摘要。

可見，RLAIF 和 RLHF 與參考摘要之間的勝率只差 1%，并沒有顯著的差異。

值得注意的是，研究人員還發(fā)現(xiàn)，RLHF 策略出現(xiàn)幻覺的頻率，往往高于 RLAIF，如上表紅色標注的文字。

在控制摘要長度后，RLAIF 和 RLHF 策略仍然優(yōu)于基線 SFT，并取得了相似的勝率。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

這些結(jié)果表明，RLAIF 不需要依賴于人工標注，是 RLHF 的可行替代方案。

提示技巧

在使用提示技巧中，谷歌團隊嘗試了三種類型的提示技術(shù)，preamble specificity、CoT、少樣本上下文學習。

結(jié)果發(fā)現(xiàn)，通過詳細的 OpenAI 序言進行提示，并進行 CoT 推理，AI 標注器可以取得 78% 的一致性。

而情境學習不會提高準確性，甚至可能會使準確性變得更糟。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

自洽性

研究人員使用 4 和 16 個樣本進行自洽性實驗，解碼溫度為 1。

以 T = 1 對多個思維鏈原理進行采樣，結(jié)果與人類偏好的一致性較低。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

大模型標注器的規(guī)模

研究還發(fā)現(xiàn)，擴大大模型標注器的參數(shù)規(guī)模，可能會產(chǎn)生更高質(zhì)量的偏好標注。

偏好示例數(shù)量

獎勵模型的準確性如何隨訓練示例進行變化？

研究人員發(fā)現(xiàn)，需要經(jīng)過數(shù)千個示例訓練后，獎勵模型的性能接近于完整數(shù)據(jù)集的訓練。

RLHF 再也不需要人類了！谷歌團隊研究證明 AI 標注已達人類水平

結(jié)論

研究人員證明了 RLAIF 可以在不依賴人類標注者的情況下產(chǎn)生與 RLHF 相當?shù)母倪M。

雖然這項工作凸顯了 RLAIF 的潛力，但依然有一些局限性。

首先，這項研究僅探討了總結(jié)任務(wù)，關(guān)于其他任務(wù)的泛化性還需要進一步研究。

其次，研究人員沒有估計 LLM 推理在經(jīng)濟成本上是否比人工標注更有優(yōu)勢。

此外，還有一些有趣的問題值得研究，例如 RLHF 與 RLAIF 相結(jié)合是否可以優(yōu)于單一的一種方法，使用 LLM 直接分配獎勵的效果如何，改進 AI 標注器對齊是否會轉(zhuǎn)化為改進的最終策略，以及是否使用 LLM 與策略模型大小相同的標注器可以進一步改進策略（即模型是否可以「自我改進」）。