【新智元導(dǎo)讀】ChatGPT 橫空出世后,RLHF 成為研究人員關(guān)注的焦點(diǎn)。谷歌最新研究提出,不用人類標(biāo)注,AI 標(biāo)注偏好后,也能取得與 RLHF 一樣的效果。
如果說,RLHF 中的「人類」被取代,可行嗎?
谷歌團(tuán)隊(duì)的最新研究提出了,用大模型替代人類,進(jìn)行偏好標(biāo)注,也就是 AI 反饋強(qiáng)化學(xué)習(xí)(RLAIF)。
結(jié)果發(fā)現(xiàn),RLAIF 可以在不依賴人類標(biāo)注員的情況下,產(chǎn)生與 RLHF 相當(dāng)?shù)母倪M(jìn)效果,勝率 50%。
同時(shí),谷歌研究再次證明了 RLAIF 和 RLHF,比起監(jiān)督微調(diào)(SFT)勝率都超過了 70%。
如今,大型語言模型訓(xùn)練中一個(gè)關(guān)鍵部分便是 RLHF。人類通過對 AI 輸出的質(zhì)量進(jìn)行評級,讓回應(yīng)更加有用。
但是,這需要付出很多的努力,包括讓許多標(biāo)注人員暴露在 AI 輸出的有害內(nèi)容中。
既然 RLAIF 能夠與 RLHF 相媲美,未來模型不需要人類反饋,也可以通過自循環(huán)來改進(jìn)。
RLHF 不需要人類了
當(dāng)前,RLHF 已經(jīng)成為微調(diào)大模型的核心方法,包括 ChatGPT、Bard 等模型都采用這一范式。
具體來說,RLHF 分為三步:預(yù)訓(xùn)練一個(gè)監(jiān)督微調(diào) LLM;收集數(shù)據(jù)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型;用 RL 微調(diào)模型。
有了 RLHF,大模型可以針對復(fù)雜的序列級目標(biāo)進(jìn)行優(yōu)化,而傳統(tǒng)的 SFT 很難區(qū)分這些目標(biāo)。
然而,一個(gè)非?,F(xiàn)實(shí)的問題是,RLHF 需要大規(guī)模高質(zhì)量的人類標(biāo)注數(shù)據(jù),另外這些數(shù)據(jù)能否可以取得一個(gè)優(yōu)勝的結(jié)果。
在谷歌這項(xiàng)研究之前,Anthropic 研究人員是第一個(gè)探索使用 AI 偏好來訓(xùn)練 RL 微調(diào)的獎(jiǎng)勵(lì)模型。
他們首次在「Constitutional AI」中提出了 RLAIF,發(fā)現(xiàn) LLM 與人類判斷表現(xiàn)出高度一致,甚至在某些任務(wù)上,表現(xiàn)優(yōu)于人類。
但是,這篇研究沒有將人類與人工智能反饋?zhàn)鰧Ρ?,因此,RLAIF 是否可以替代 RLHF 尚未得到終極答案。
谷歌最新研究,主要就是解決這個(gè)問題。
研究人員在模型摘要任務(wù)中,直接比較了 RLAIF 和 RLHF。
給定 1 個(gè)文本和 2 個(gè)候選答案,使用現(xiàn)成的 LLM 給出一個(gè)偏好標(biāo)注。
然后,根據(jù) LLM 偏好和對比損失訓(xùn)練獎(jiǎng)勵(lì)模型(RM)。最后,通過強(qiáng)化學(xué)習(xí)微調(diào)策略模型,利用獎(jiǎng)勵(lì)模型給出獎(jiǎng)勵(lì)。
那么,谷歌與 Anthropic 提出的 RLAIF 方法有什么不同?
谷歌自己在文中解釋道,
- 谷歌:根據(jù) AI 標(biāo)注的偏好訓(xùn)練獎(jiǎng)勵(lì)模型,然后進(jìn)行 RL 微調(diào)。
- Constitutional AI:通過迭代,要求 LLM 根據(jù)憲法生成更好的響應(yīng),來改進(jìn)監(jiān)督學(xué)習(xí)模型。
AI 自標(biāo)注,自我改進(jìn)
谷歌在最新研究中提出的 RLAIF 方法,過程是怎樣的?
大語言模型進(jìn)行偏好標(biāo)注
研究人員用「現(xiàn)成的」LLM 來標(biāo)注對兩個(gè)候選項(xiàng)之間的偏好。
這是一個(gè)針對一般用途進(jìn)行預(yù)訓(xùn)練或指令調(diào)整的模型,但未針對特定下游任務(wù)進(jìn)行微調(diào)。給定一段文本和兩個(gè)候選摘要,LLM 被要求評價(jià)哪個(gè)摘要更好。LLM 的輸入結(jié)構(gòu)如下:
1. 序言
介紹和描述手頭任務(wù)的說明
2. 多個(gè)樣本實(shí)例(可選)
一段文本、一對摘要、思路的基本原理和偏好判斷
3.要標(biāo)注的樣本
一段文本和一對要標(biāo)注的摘要
4.結(jié)尾
提示 LLM 的結(jié)束字符串(例如「Preferred Summary=」)
在給 LLM 提供輸入后,研究人員獲得生成 token「1」和「2」的對數(shù)概率,并計(jì)算 softmax 以獲得偏好分布。
從 LLM 獲取偏好標(biāo)注的方法有很多,例如從模型中解碼自由形式的響應(yīng)并啟發(fā)式地提取偏好(例如:output=「the first summary is better」),或者將偏好分布表示為單熱表示 (one-hot representation)。然而,研究人員沒有嘗試這些替代方案,因?yàn)樗麄兊姆椒ㄒ呀?jīng)產(chǎn)生了很高的準(zhǔn)確性。
研究人員試驗(yàn)了兩種類型的序言:第一種是「Base」,它簡單地詢問「哪個(gè)摘要更好?」,第二種是「OpenAI」,它模仿了生成 OpenAI TL;DR 偏好數(shù)據(jù)集的人類偏好標(biāo)注器的評級指令,包含有關(guān)構(gòu)成強(qiáng)摘要的詳細(xì)信息。如下圖所示。
研究人員還通過在提示中添加少量樣本來嘗試上下文學(xué)習(xí),其中手動(dòng)選擇樣本來涵蓋不同的主題。解決位置偏差。
之前的研究結(jié)果表明,向 LLM 展示候選項(xiàng)的順序可能會(huì)影響 LLM 判斷更喜歡的候選項(xiàng)。研究人員發(fā)現(xiàn)證據(jù)表明存在這種位置偏差,尤其是對于較小尺寸的標(biāo)注 LLM 。
為了減輕偏好標(biāo)注中的位置偏差,研究人員對每對候選項(xiàng)進(jìn)行兩次推理,候選項(xiàng)提交給 LLM 的順序二次推理是相反的。然后對兩個(gè)推推理的結(jié)果進(jìn)行平均以獲得最終的偏好分布。
思維鏈推理
研究人員嘗試從 AI 標(biāo)注器中引出思維鏈 (COT) 推理,以提高與人類偏好的一致性。
研究人員替換標(biāo)準(zhǔn)的結(jié)尾提示(例如將「Preferred Summary=」替換為「Consider the coherence, accuracy, coverage, and over-all quality of each summary and explain which one is better. Rationale:」),然后解碼一個(gè) LLM 的回復(fù)。
最后,研究人員將原始提示、響應(yīng)和原始結(jié)尾字符串“Preferred Summary=”連接在一起,并按照第 3.1 節(jié)中的評分過程來獲得偏好分布。具體過程見下圖。
在零樣本提示中,LLM 沒有給出推理應(yīng)該是什么樣子的示例,而在少量樣本提示中,研究人員提供了模型要遵循的 COT 推理示例。示例請參見下圖。
自洽性(Self-Consistency)
對于思維鏈提示,研究人員還嘗試了自洽性 —— 一種通過對多個(gè)推理路徑進(jìn)行采樣并聚合每個(gè)路徑末尾產(chǎn)生的最終答案來改進(jìn)思維鏈推理的技術(shù)。
使用非零解碼溫度(non-zero decoding temperature)對多個(gè)思維鏈基本原理進(jìn)行采樣,然后按照上一節(jié)中的方法獲得每個(gè)思維鏈的 LLM 偏好分布。然后對結(jié)果進(jìn)行平均以獲得最終的偏好分布。
AI 反饋的強(qiáng)化學(xué)習(xí)
在 LLM 對偏好進(jìn)行標(biāo)注后,將訓(xùn)練獎(jiǎng)勵(lì)模型 (RM) 來預(yù)測偏好。由于研究人員的方法產(chǎn)生軟標(biāo)注(Soft Label),他們采用 RM 生成的獎(jiǎng)勵(lì)分?jǐn)?shù)的 softmax 的交叉熵?fù)p失(cross-entropy loss),而不是獎(jiǎng)勵(lì)模型中提到的損失。
Softmax 將 RM 的無界分?jǐn)?shù)(unbounded scores)轉(zhuǎn)換為概率分布。
在 AI 標(biāo)注數(shù)據(jù)集上訓(xùn)練 RM 可以被視為模型蒸餾的一種形式,特別是因?yàn)檠芯咳藛T的 AI 標(biāo)注器通常比 RM 更大、更強(qiáng)。
另一種方法是繞過 RM 并直接使用 AI 反饋?zhàn)鳛?RL 中的獎(jiǎng)勵(lì)信號(hào),盡管這種方法的計(jì)算成本更高,因?yàn)?AI 標(biāo)注器比 RM 更大。
通過經(jīng)過訓(xùn)練的 RM,研究人員使用適用于語言建模領(lǐng)域的 Advantage Actor Critic (A2C) 算法的修改版本進(jìn)行強(qiáng)化學(xué)習(xí)。
評價(jià)
研究人員通過三個(gè)指標(biāo)評估他們的結(jié)果 - AI 標(biāo)注器對齊、配對準(zhǔn)確度和勝率。
AI 標(biāo)注器對齊時(shí)用來衡量 AI 標(biāo)注偏好相對于人類偏好的準(zhǔn)確性。
對于單個(gè)示例,將軟人工智能標(biāo)注的偏好轉(zhuǎn)換為二進(jìn)制表示。如果標(biāo)注與目標(biāo)人類偏好一致則分配 1,否則分配 0。
配對準(zhǔn)確性是衡量經(jīng)過訓(xùn)練的獎(jiǎng)勵(lì)模型相對于一組保留的人類偏好的準(zhǔn)確性。
給定共享上下文和一對候選響應(yīng),如果根據(jù)人類標(biāo)注,RM 對首選候選的評分高于非首選候選,則配對準(zhǔn)確度為 1。否則該值為 0。該數(shù)量是多個(gè)示例的平均值,以衡量 RM 的總體精度。
勝率通過衡量人類更喜歡一項(xiàng)策略頻率來評估兩項(xiàng)策略的端到端質(zhì)量。
給定一個(gè)輸入和兩次生成結(jié)果,人類標(biāo)注者選擇首選哪一個(gè)生成結(jié)果。策略 A 優(yōu)于策略 B 的實(shí)例百分比稱為「A 對 B 的勝率」。
實(shí)驗(yàn)細(xì)節(jié)
研究人員使用由 OpenAI 管理的經(jīng)過過濾的 Reddit TL;DR 數(shù)據(jù)集。TL;DR 包含來自 Reddit 的約 300 萬個(gè)帖子,涉及各種主題(也稱為「subreddits」)以及原作者撰寫的帖子摘要。
數(shù)據(jù)還經(jīng)過 OpenAI 過濾,以確保高質(zhì)量,其中包括使用普通大眾可以理解的 Reddit 主題白名單。
此外,僅包含摘要中含有 24 到 48 個(gè)標(biāo)注的帖子。過濾后的數(shù)據(jù)集包含 123,169 個(gè)帖子,其中約 5% 作為驗(yàn)證集。
有關(guān)數(shù)據(jù)集的更多詳細(xì)信息可以在原始論文中找到。此外,OpenAI 從過濾后的 TL;DR 數(shù)據(jù)集中整理了一個(gè)人類偏好數(shù)據(jù)集。
對于給定的帖子,根據(jù)不同的策略生成兩個(gè)候選摘要,并要求標(biāo)注器對他們喜歡的摘要進(jìn)行評分??倲?shù)據(jù)集包含大約 92k 成對比較。
LLM 標(biāo)注
為了評估 AI 標(biāo)注技術(shù)的有效性(例如提示、自洽性),研究人員從 TL;DR 偏好數(shù)據(jù)集中選擇示例,其中人類標(biāo)注者會(huì)偏好置信度更高的摘要。
研究人員在數(shù)據(jù)集訓(xùn)練分割的隨機(jī) 15% 子集上評估 AI 標(biāo)注器對齊,以實(shí)現(xiàn)更快的實(shí)驗(yàn)迭代,生成 2851 個(gè)評估示例。
對于獎(jiǎng)勵(lì)模型訓(xùn)練,TL;DR 偏好數(shù)據(jù)集的完整訓(xùn)練分割由 LLM 標(biāo)注并用于訓(xùn)練,無論置信度分?jǐn)?shù)如何。
模型訓(xùn)練
研究人員使用 PaLM 2 Extra-Small (XS) 作為初始檢查點(diǎn),在 OpenAI 過濾后的 TL;DR 數(shù)據(jù)集上訓(xùn)練 SFT 模型。
然后,研究人員從 SFT 模型初始化 RM,并在 OpenAI 的 TL;DR 人類偏好數(shù)據(jù)集上訓(xùn)練它們。
對于表 1 和 5.1 中的結(jié)果,研究人員使用 PaLM 2L 生成 AI 標(biāo)注的偏好,使用「OpenAI + COT 0-shot」提示(,沒有自洽性,然后在完整的偏好上訓(xùn)練 RM 數(shù)據(jù)集。
對于強(qiáng)化學(xué)習(xí),研究人員使用 Advantage Actor Critic (A2C) 來訓(xùn)練策略。策略和價(jià)值模型都是從 SFT 模型初始化的。研究人員使用過濾后的 Reddit TL;DR 數(shù)據(jù)集作為初始狀態(tài)來推出他們的策略。
人類評估
研究人員收集了 1200 個(gè)人類評級來評估 RLHF 和 RLAIF 策略。對于每項(xiàng)評級任務(wù),評估人員都會(huì)收到一篇帖子和 4 個(gè)根據(jù)不同策略(RLAIF、RLHF、SFT 和人類參考各一個(gè))生成的摘要,并要求按照質(zhì)量順序?qū)λ鼈冞M(jìn)行排名,不存在任何聯(lián)系。
帖子取自 TL;DR 監(jiān)督微調(diào)數(shù)據(jù)集的保留集,該數(shù)據(jù)集未用于任何其他評估。一旦收集了這些排名,就可以計(jì)算任意兩項(xiàng)策略的勝率。
勝率 50%,打平手
RLAIF vs. RLHF
文章開篇,已經(jīng)介紹了谷歌將 RLAIF 與 RLHF 相比較的優(yōu)勢,結(jié)果表明,兩種方法有著相似的性能。
具體來說,與基線 SFT 相比較,在 71% 的情況下,人類評估者更喜歡 RLAIF。73% 的情況下,RLHF 優(yōu)于 SFT。
研究人員還直接比較了 RLAIF 和 RLHF 的勝率,發(fā)現(xiàn)它們受歡迎程度是等同的 —— 即勝率都是 50%。
為了進(jìn)一步了解這兩種策略的差異,谷歌對其生成的摘要進(jìn)行了定性比較。
另外,他們還將 RLAIF 和 RLHF 摘要與人工編寫的參考摘要進(jìn)行比較。79% 的情況下,RLAIF 生成的摘要優(yōu)于參考摘要,80% 的情況下,RLHF 結(jié)果優(yōu)于參考摘要。
可見,RLAIF 和 RLHF 與參考摘要之間的勝率只差 1%,并沒有顯著的差異。
值得注意的是,研究人員還發(fā)現(xiàn),RLHF 策略出現(xiàn)幻覺的頻率,往往高于 RLAIF,如上表紅色標(biāo)注的文字。
在控制摘要長度后,RLAIF 和 RLHF 策略仍然優(yōu)于基線 SFT,并取得了相似的勝率。
這些結(jié)果表明,RLAIF 不需要依賴于人工標(biāo)注,是 RLHF 的可行替代方案。
提示技巧
在使用提示技巧中,谷歌團(tuán)隊(duì)嘗試了三種類型的提示技術(shù),preamble specificity、CoT、少樣本上下文學(xué)習(xí)。
結(jié)果發(fā)現(xiàn),通過詳細(xì)的 OpenAI 序言進(jìn)行提示,并進(jìn)行 CoT 推理,AI 標(biāo)注器可以取得 78% 的一致性。
而情境學(xué)習(xí)不會(huì)提高準(zhǔn)確性,甚至可能會(huì)使準(zhǔn)確性變得更糟。
自洽性
研究人員使用 4 和 16 個(gè)樣本進(jìn)行自洽性實(shí)驗(yàn),解碼溫度為 1。
以 T = 1 對多個(gè)思維鏈原理進(jìn)行采樣,結(jié)果與人類偏好的一致性較低。
大模型標(biāo)注器的規(guī)模
研究還發(fā)現(xiàn),擴(kuò)大大模型標(biāo)注器的參數(shù)規(guī)模,可能會(huì)產(chǎn)生更高質(zhì)量的偏好標(biāo)注。
偏好示例數(shù)量
獎(jiǎng)勵(lì)模型的準(zhǔn)確性如何隨訓(xùn)練示例進(jìn)行變化?
研究人員發(fā)現(xiàn),需要經(jīng)過數(shù)千個(gè)示例訓(xùn)練后,獎(jiǎng)勵(lì)模型的性能接近于完整數(shù)據(jù)集的訓(xùn)練。
結(jié)論
研究人員證明了 RLAIF 可以在不依賴人類標(biāo)注者的情況下產(chǎn)生與 RLHF 相當(dāng)?shù)母倪M(jìn)。
雖然這項(xiàng)工作凸顯了 RLAIF 的潛力,但依然有一些局限性。
首先,這項(xiàng)研究僅探討了總結(jié)任務(wù),關(guān)于其他任務(wù)的泛化性還需要進(jìn)一步研究。
其次,研究人員沒有估計(jì) LLM 推理在經(jīng)濟(jì)成本上是否比人工標(biāo)注更有優(yōu)勢。
此外,還有一些有趣的問題值得研究,例如 RLHF 與 RLAIF 相結(jié)合是否可以優(yōu)于單一的一種方法,使用 LLM 直接分配獎(jiǎng)勵(lì)的效果如何,改進(jìn) AI 標(biāo)注器對齊是否會(huì)轉(zhuǎn)化為改進(jìn)的最終策略,以及是否使用 LLM 與策略模型大小相同的標(biāo)注器可以進(jìn)一步改進(jìn)策略(即模型是否可以「自我改進(jìn)」)。
網(wǎng)友熱議
谷歌發(fā)表了兩篇關(guān)于 RL 的論文:
1. RLAIF:訓(xùn)練與人類反饋類似的獎(jiǎng)勵(lì)模型
2. ReST:使用生成模型促進(jìn)自訓(xùn)練將這兩篇論文結(jié)合起來,可以滿足那些對數(shù)據(jù)饑渴的人工智能算法
半個(gè)月前,谷歌 DeepMind 剛剛提出了一個(gè)新算法 ReST,為了使大規(guī)模語言模型與人類偏好保持一致。
具體通過離線強(qiáng)化學(xué)習(xí)方法,改進(jìn)大型語言模型的翻譯質(zhì)量,以更好地符合人類偏好。
一位研究人員表示,根據(jù)定性測試,Anthropic 的 Claude 模型似乎比 GPT-4 弱。這可能是 RLHF / RLAIF 方法或預(yù)訓(xùn)練造成的。目前還不清楚這些方法在實(shí)際應(yīng)用中的泛化效果是否更好,即使它們在學(xué)術(shù)基準(zhǔn)上的表現(xiàn)更好。
我不會(huì)說這降低了人工標(biāo)注的重要性,但有一點(diǎn)可以肯定,人工智能反饋的 RL 可以降低成本。人工標(biāo)注對于泛化仍然極其重要,而 RLHF+RLAIF 混合方法比任何單一方法都要好。
大部分網(wǎng)友認(rèn)為論文是很大的突破,但也有網(wǎng)友覺得這和 Anthropic 在幾個(gè)月前提出的 Constitute Claude 中的 RLAIF 似乎沒有本質(zhì)的區(qū)別。
參考資料:
https://arxiv.org/abs/2309.00267
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。