87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

新智元 2024/8/2 17:11:42 責(zé)編：問(wèn)舟

評(píng)論：

谷歌 DeepMind 推出 LLM 自動(dòng)評(píng)估模型 FLAMe 系列，F(xiàn)LAMe-RM-24B 模型在 RewardBench 上表現(xiàn)卓越，以 87.8% 準(zhǔn)確率領(lǐng)先 GPT-4o。大語(yǔ)言模型都卷起來(lái)了，模型越做越大，token 越來(lái)越多，輸出越來(lái)越長(zhǎng)。

那么問(wèn)題來(lái)了，如何有效地評(píng)估大語(yǔ)言模型的長(zhǎng)篇大論呢？要是輸出長(zhǎng)度長(zhǎng)了但胡言亂語(yǔ)輸出質(zhì)量差，又臭又長(zhǎng)，豈不是白搭?

首先能想到的方法就是人工評(píng)估。人工評(píng)估雖然對(duì)于評(píng)價(jià)模型性能至關(guān)重要，但受到主觀性、評(píng)估者之間的差異性以及廣泛評(píng)估的高成本的限制。

考慮到這些因素，谷歌 DeepMind 研究團(tuán)隊(duì)提出了自動(dòng)評(píng)估解決方案 FLAMe。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

論文地址：https://arxiv.org/ abs / 2407.10817

模型本身在經(jīng)歷多輪大規(guī)模指令任務(wù)調(diào)整后，可以遵循一套新的指令，使它們適合用作模型輸出的自動(dòng)評(píng)估器。

一方面，為了使 LLM 自動(dòng)評(píng)分更加合理、準(zhǔn)確并與人類偏好保持一致，對(duì)人類判斷的數(shù)據(jù)收集極其重要。

然而，獲得這些判斷數(shù)據(jù)既昂貴又耗時(shí)。從以前的研究中收集現(xiàn)有的人類評(píng)估貌似可行，但面臨著缺乏標(biāo)準(zhǔn)、文檔數(shù)據(jù)不充分、數(shù)據(jù)隱私和專有權(quán)等問(wèn)題。

另一方面，直接使用模型輸出進(jìn)行自動(dòng)評(píng)分器訓(xùn)練可提供一致性，但也存在風(fēng)險(xiǎn)，包括強(qiáng)化偏見(jiàn)和幻覺(jué)。

此外，它可能違反專有 LLM 服務(wù)的使用條款，條款禁止使用其模型的輸出來(lái)開(kāi)發(fā)競(jìng)爭(zhēng)模型。

為了解決這些限制和顯著降低成本，谷歌引入了一個(gè)用于自動(dòng)評(píng)分的大型基礎(chǔ)模型系列----FLAMe。

FLAMe 模型的主要優(yōu)勢(shì)和貢獻(xiàn)是：

- 數(shù)據(jù)收集：僅使用獲得許可的數(shù)據(jù)集，并對(duì)人類評(píng)估結(jié)果進(jìn)行標(biāo)準(zhǔn)化。共包含 102 個(gè)評(píng)估任務(wù)、530 萬(wàn)條人類評(píng)估意見(jiàn)。為了促進(jìn)未來(lái)的研究，論文公開(kāi)了所有數(shù)據(jù)集來(lái)源。

- LLM 自動(dòng)評(píng)分器：既包括使用多任務(wù)組合來(lái)訓(xùn)練通用 LLM 自動(dòng)評(píng)分器 (FLAMe) ，也包括針對(duì)下游應(yīng)用程序優(yōu)化過(guò)的 LLM 自動(dòng)評(píng)分器 ( FLAMe-RM 和 FLAMe-Opt-RM）。

在 12 個(gè)自動(dòng)評(píng)分器評(píng)估基準(zhǔn)中的 8 個(gè)基準(zhǔn)上，F(xiàn)LAMe 及其變體的自動(dòng)評(píng)分性能優(yōu)于用專有數(shù)據(jù)訓(xùn)練的 GPT-4o、Gemini-1.5-Pro 等模型。

- 計(jì)算高效的多任務(wù)訓(xùn)練：引入了一種計(jì)算更為高效的方法，使用創(chuàng)新的微調(diào)策略來(lái)優(yōu)化目標(biāo)分布的多個(gè)任務(wù)，顯著減少計(jì)算量來(lái)實(shí)現(xiàn)更佳的性能。

自動(dòng)評(píng)估方法

為了將人工評(píng)估的流程自動(dòng)化，作者對(duì) LLM 任務(wù)和評(píng)估標(biāo)準(zhǔn)進(jìn)行了細(xì)致的定義。

數(shù)據(jù)收集

和領(lǐng)域內(nèi)很多科技巨頭的做法形成鮮明對(duì)比的是，DeepMind 這篇論文不僅披露了使用的數(shù)據(jù)集列表，而且從數(shù)據(jù)收集步驟開(kāi)始，就堅(jiān)持了幾個(gè)公認(rèn)正確但很難做到的原則。

首先，為了論文的透明度和可復(fù)現(xiàn)，作者僅使用 HuggingFace、TensorFlow 這些平臺(tái)上的公共開(kāi)源數(shù)據(jù)集，以及得到原作者許可的 GitHub 庫(kù)。

為了避免 GPT-4 等模型生成數(shù)據(jù)帶來(lái)的不準(zhǔn)確性和潛在法律問(wèn)題，作者只使用了帶有人工標(biāo)注的數(shù)據(jù)集，并涵蓋了各種任務(wù)類型（圖 3）和 LLM 能力（圖 4）。

最終用于訓(xùn)練的數(shù)據(jù)集含有 102 項(xiàng)評(píng)估任務(wù)、共 530 萬(wàn)條經(jīng)過(guò)標(biāo)準(zhǔn)化處理的人類評(píng)估意見(jiàn)。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

任務(wù)類型主要包含以下四種：

- 成對(duì)評(píng)估（pairwise evaluation）：比較兩個(gè)響應(yīng)結(jié)果并確定偏好

- 逐點(diǎn)評(píng)估（pointwise evaluation）：對(duì)單個(gè)響應(yīng)結(jié)果的指定屬性進(jìn)行打分

- 分類：將單個(gè)響應(yīng)劃分為某個(gè)預(yù)定義類別，例如：模型輸出是否遵循說(shuō)明？（是 / 否）

-開(kāi)放式評(píng)估：自由形式、不受限制的評(píng)估結(jié)果

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

按照評(píng)估的 LLM 能力劃分?jǐn)?shù)據(jù)集，則大致有 6 類能力：

- 一般響應(yīng)質(zhì)量：包括有用性、連貫性、流暢性、創(chuàng)造力、復(fù)雜性和冗長(zhǎng)性等多個(gè)屬性，以及指令跟隨能力

- 事實(shí)性 / 內(nèi)容出處：針對(duì) LLM 應(yīng)用中日益重要的幻覺(jué)問(wèn)題，幾個(gè)數(shù)據(jù)集都用于評(píng)估響應(yīng)輸出的事實(shí)準(zhǔn)確性及其基礎(chǔ)，看模型提出的聲明是否有源文檔作為依據(jù)

- 數(shù)學(xué)推理：區(qū)分 LLM 生成數(shù)學(xué)解題方案的正確或錯(cuò)誤

- 編碼：涵蓋 Python、JavaScript、Java、C++、Go 和 Rus 等流行編程語(yǔ)言，訓(xùn)練 FLAMe 從備選答案中選出正確程序或修復(fù)程序

- 安全性：為了使 FLAMe 能夠識(shí)別出更有幫助且無(wú)害的模型響應(yīng)

- 指令微調(diào)：結(jié)合數(shù)據(jù)集中的指令微調(diào)數(shù)據(jù)和人類編寫(xiě)的響應(yīng)，幫助保留模型的指令微調(diào)能力

統(tǒng)一任務(wù)格式

精心選擇好合適的數(shù)據(jù)集后，作者受到 T5 統(tǒng)一任務(wù)格式的啟發(fā)，將所有數(shù)據(jù)都標(biāo)準(zhǔn)化為統(tǒng)一的「文本到文本」格式。這種靈活的格式可以輕松適應(yīng)上述各種評(píng)估任務(wù)。

任務(wù)定義、評(píng)估指令和所需的輸出字段被列在輸入的 INSTRUCTION 部分，具體的輸入內(nèi)容和目標(biāo)輸出分別放在 CONTEXT 和 EVALUATION 部分（圖 2）。

其中任務(wù)定義和評(píng)估指令都經(jīng)過(guò)精心設(shè)計(jì)，確保一致性和標(biāo)準(zhǔn)化，并忠實(shí)于原始數(shù)據(jù)集。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

模型訓(xùn)練

為了訓(xùn)練出通用 LLM 自動(dòng)評(píng)估器，能夠在推理過(guò)程中提示它們執(zhí)行各種任務(wù)。實(shí)驗(yàn)訓(xùn)練了三種模型變體：

FLAMe，通用評(píng)分器；
FLAMe-RM，用 FLAMe 初始化，并均勻混合了四個(gè)成對(duì)評(píng)估數(shù)據(jù)集進(jìn)行微調(diào)，性能評(píng)估標(biāo)準(zhǔn)包括聊天對(duì)話、推理和安全性；
FLAMe-Opt-RM，使用獎(jiǎng)勵(lì)模型優(yōu)化的混合權(quán)重進(jìn)行訓(xùn)練，并使用尾部補(bǔ)丁微調(diào)策略（tail-patch fine-tuning）。

FLAMe

從基準(zhǔn)訓(xùn)練方法開(kāi)始，使用監(jiān)督多任務(wù)訓(xùn)練的方式，對(duì) PaLM-2-24B 模型進(jìn)行指令微調(diào)，進(jìn)行固定數(shù)量的 30K 訓(xùn)練步驟。

采用示例比例混合權(quán)重（examples-proportiaonal mixture weights），每個(gè)任務(wù)采樣上限為為 2^16，以避免對(duì)大型數(shù)據(jù)集進(jìn)行過(guò)采樣。

FLAMe 模型顯著提高了對(duì)各種 held-out 任務(wù)的泛化能力，在許多任務(wù)上優(yōu)于 GPT-4、Claude-3 和 Llama-3 等模型。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

以上數(shù)據(jù)能夠證明 FLAMe 具有的的基礎(chǔ)功能，即進(jìn)行大規(guī)模多任務(wù)指令微調(diào)，可以讓模型發(fā)展出通用的質(zhì)量評(píng)估能力。

然而，F(xiàn)LAMe 對(duì)于獎(jiǎng)勵(lì)模型評(píng)估等專門(mén)的下游應(yīng)用來(lái)說(shuō)并不是最佳的，因此論文進(jìn)一步提出針對(duì)特定下游分布的模型變體。

FLAMe-RM

受 FLAMe 研究結(jié)果的啟發(fā)，作者更加深入地研究了 FLAMe 的拓展，將其作為進(jìn)一步微調(diào)特定下游應(yīng)用的起點(diǎn)。

作者采用了大量獎(jiǎng)勵(lì)模型評(píng)估作為案例研究。通過(guò)在四個(gè)成對(duì)評(píng)估數(shù)據(jù)集的混合上微調(diào) FLAMe 來(lái)創(chuàng)建 FLAMe-RM。

數(shù)據(jù)集包括：HelpSteer、PRM800K、CommitPack 和 HH-RLHF Harmless。

由于 FLAMe 已經(jīng)在這些數(shù)據(jù)集上進(jìn)行了訓(xùn)練，因此僅對(duì)其進(jìn)行 50 個(gè)步驟的微調(diào)。

由此產(chǎn)生的 FLAMe-RM 模型將原始 FLAMe 的 RewardBench 總體得分從 86.0% 準(zhǔn)確率提高到 87.8%。

值得注意的是，F(xiàn)LAMe-RM-24B 是專門(mén)在許可數(shù)據(jù)上訓(xùn)練的性能最佳的生成模型，超過(guò)了 GPT-4 (85.9%) 和 GPT-4o (84.7%)。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

FLAMe-Opt-RM

雖然 FLAM 在許多任務(wù)中表現(xiàn)良好，但它需要大量的訓(xùn)練才能在某些專門(mén)的下游應(yīng)用程序（例如 RewardBench）上獲得強(qiáng)大的性能。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

為了解決這個(gè)問(wèn)題，研究引入了一種尾部補(bǔ)丁消融策略（tail-patch ablation），該策略分析每個(gè)數(shù)據(jù)集對(duì)目標(biāo)分布的影響。

這能夠幫助找到多任務(wù)混合中各個(gè)數(shù)據(jù)集的最佳比例，從而有效地優(yōu)化混合權(quán)重超參數(shù)。

通過(guò)這種優(yōu)化過(guò)的混合數(shù)據(jù)微調(diào) PaLM-2-24B 僅需要 5000 步，相比 RewardBench 上的基線模型（86.0%）實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的性能 (87.0%)，而且所用的訓(xùn)練數(shù)據(jù)也減少了約 25 倍。

研究直接根據(jù) RewardBench 性能變化（由于缺乏開(kāi)發(fā)集）優(yōu)化了多任務(wù)混合。

值得注意的是，研究的目標(biāo)不是實(shí)現(xiàn)最佳的 RewardBench 結(jié)果，而是展示如何針對(duì)目標(biāo)分布進(jìn)行多任務(wù)混合的優(yōu)化方法。

通過(guò)測(cè)試發(fā)現(xiàn)，和 FLAMe-RM 一樣，微調(diào)進(jìn)一步提高了 RewardBench 性能。

此外，F(xiàn)LAMe-Opt-RM 在其他 held-out 任務(wù)中的優(yōu)秀表現(xiàn)表明，moxing 并沒(méi)有過(guò)度擬合 RewardBench，這證實(shí)了 FLAMe-Opt-RM 在不同任務(wù)中的廣泛適用性。

訓(xùn)練細(xì)節(jié)

研究使用了 PaLM-2-24B 模型對(duì) FLAMe 和 FLAMe-Opt-RM 進(jìn)行初始化，并在 Flan 集合上進(jìn)行指令調(diào)整，分別訓(xùn)練 30000 步和 5000 步，然后將 FLAMe 進(jìn)一步微調(diào) 50 步以創(chuàng)建 FLAMe-RM。

模型使用 T5X 和 Adam 優(yōu)化器進(jìn)行訓(xùn)練，學(xué)習(xí)率為 0.0001，dropout 為 0.05。

FLAMe 在 256 個(gè) PU 芯片上進(jìn)行訓(xùn)練，批大小為 32，而 FLAMe-RM 和 FLAMe-Opt-RM 使用 128 個(gè) TPU 芯片，批大小為 8。

評(píng)估實(shí)驗(yàn)

討論過(guò) FLAMe 系列模型的構(gòu)建方法后，作者使用了包含 12 個(gè)自動(dòng)評(píng)分器基準(zhǔn)的評(píng)估套件，將 FLAMe 與幾個(gè)流行的 LLM-as-a-Judge 自動(dòng)評(píng)分器進(jìn)行對(duì)比。

12 個(gè)基準(zhǔn)中，只有 HelpSteer 作為 held-in 驗(yàn)證，其余的 RewardBench、LLM-AggreFact 等 11 個(gè)作為 held-out 測(cè)試。

評(píng)估數(shù)據(jù)同樣涵蓋了 53 個(gè)任務(wù)，但為了降低模型 API 成本，每個(gè)測(cè)試集（除 RewardBench）僅隨機(jī)抽取 256 個(gè)樣本。

對(duì)比的基線包括 Llama-3-70B-Instruct、Mixtral8×7B、Claude-3-Opus 等流行的 LLM-as-a-Judge 模型，以及 RewardBench 官方排行榜上列出的 Gemini-1.5-Pro、Nemotron-4-340B-Reward 等。

FLAMe 的 3 種模型變體都參與了評(píng)估，而且還包括了進(jìn)行指令微調(diào)前的 PaLM-2-24B，以更好說(shuō)明 FLAMe 訓(xùn)練的效果。

表 1 列舉了 FLAMe 系列在 12 個(gè)基準(zhǔn)上與流行基線模型的對(duì)比。

其中 8 個(gè)都取得了最優(yōu)性能，尤其是 Contr Search 和 HelpSteer 上相比次優(yōu)模型有大幅度提升，讓我們看到了「許可數(shù)據(jù)」超越「專有數(shù)據(jù)」的希望。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

在 RewardBench 排行榜上，截止 7 月 15 日，F(xiàn)LAMe-RM-24B 在所有生成模型中排名第 2（僅次于 Gemini-1.5-Pro），在所有模型中排名第 6，在 4 個(gè)類別中都取得了強(qiáng)勁表現(xiàn)。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

雖然 RewardBench 是評(píng)估獎(jiǎng)勵(lì)模型時(shí)被廣泛使用的基準(zhǔn)，但作者也在實(shí)驗(yàn)時(shí)發(fā)現(xiàn)了其中的評(píng)估偏差問(wèn)題，比如有對(duì)輸出答案的長(zhǎng)度偏好，以及偏愛(ài)「sorry」、「I'm sorry」等短語(yǔ)。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

RewardBench4 個(gè)類別任務(wù)對(duì)響應(yīng)長(zhǎng)度的不同偏好

在 AggreFact 基準(zhǔn)的結(jié)果中（表 3），F(xiàn)LAMe-24B 獲得了整體最佳性能，比 GPT-4o 高出將近 1 分。

在總共 4 個(gè)類別的用例中，F(xiàn)LAMe 系列變體在其中 3 個(gè)取得了最優(yōu)性能，僅在 Long-formQA 上表現(xiàn)不佳，與表 1 中 LFQA Eval 的結(jié)果相一致。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

此外，上述 3 個(gè)表格中都能發(fā)現(xiàn)，相比原有的 PALM-2-24B，經(jīng)過(guò)訓(xùn)練后的 FLAMe-24B 性能有大幅度的提升，證明了 FLAMe 訓(xùn)練方法的有效性。

分析

模型大小、數(shù)據(jù)集大小和數(shù)據(jù)質(zhì)量等因素在最近的多任務(wù)學(xué)習(xí)和指令調(diào)優(yōu)工作中已經(jīng)得到了廣泛的研究。

論文更加著重探索 LLM 自動(dòng)評(píng)分器固有的潛在偏見(jiàn)，這也是影響評(píng)估準(zhǔn)確性的一個(gè)重要方面。

另外，F(xiàn)LAMe 對(duì)于 AI 開(kāi)發(fā)還有許多潛在用途，例如對(duì)高質(zhì)量響應(yīng)數(shù)據(jù)進(jìn)行采樣。

自動(dòng)評(píng)分器偏差分析

對(duì) LLM 自動(dòng)評(píng)估器（LLM-as-a-Judge autorater）的常見(jiàn)批評(píng)主要涉及他們對(duì)某些判斷的偏見(jiàn)。

通過(guò)在自動(dòng)評(píng)估器偏見(jiàn)基準(zhǔn) CoBBLEr 上評(píng)估 FLAMe 及其變體，論文發(fā)現(xiàn) FLAMe 模型比其他流行的 LLM 自動(dòng)評(píng)估器的偏見(jiàn)要小得多。

CoBBLEr 主要測(cè)量 LLM 自動(dòng)評(píng)估器中的 6 種偏見(jiàn):

順序: 自動(dòng)評(píng)估器對(duì)回復(fù)順序是否有偏好?

同情心: 當(dāng)使用生成響應(yīng)的 LLM 的實(shí)際名稱（例如「GPT-4」）而不是「Model A」等別名時(shí)，自動(dòng)評(píng)估者的判斷會(huì)改變嗎?

長(zhǎng)度: 自動(dòng)評(píng)估器是否會(huì)偏好較長(zhǎng)或較短的輸出?

以自我為中心: 自動(dòng)評(píng)估器是否偏愛(ài)自己生成的輸出?

見(jiàn)風(fēng)使舵: 自動(dòng)評(píng)估器是否會(huì)被「90% 的人更喜歡回答 A」這樣的句子所左右?

注意力：自動(dòng)評(píng)估器是否被不相關(guān)的上下文信息干擾

評(píng)估結(jié)果如表 4 所示，可以看到，相比其他基線模型，F(xiàn)LAMe 系列在大部分維度都表現(xiàn)出明顯較低的偏見(jiàn)，而且總體偏見(jiàn)值最低。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

使用 FLAMe 對(duì)解碼輸出重新排序

最后，研究還探索了 LLM 自動(dòng)評(píng)估器在從多個(gè)響應(yīng)中選擇最佳輸出方面的應(yīng)用，這種方法稱為「Best-of-N」采樣。

實(shí)驗(yàn)中使用了 OpenAI 的 3 個(gè)代碼生成模型，并通過(guò)循環(huán)機(jī)制（round-robin）讓 FLAMe 分別對(duì)它們生成的 10 個(gè)代碼樣本進(jìn)行重新排名，然后使用排名靠前的代碼示例，在 HumanEval Python 基準(zhǔn)中測(cè)試其性能。

結(jié)果表明，F(xiàn)LAMe 在所有三個(gè)模型中都顯著提高了 pass@1 準(zhǔn)確率。

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

值得注意的是，F(xiàn)LAMe 將 CodeGen16B 的 pass@1 準(zhǔn)確率從 21.2 提高到 31.1，與 Oracle 排名器 (46.9) 的差距縮小了近 40%。

結(jié)論與討論

FLAMe 是一系列基礎(chǔ)自動(dòng)評(píng)估器模型，可以執(zhí)行各種質(zhì)量評(píng)估任務(wù)。訓(xùn)練所用的數(shù)據(jù)不僅大規(guī)模而且多樣化，僅來(lái)自許可數(shù)據(jù)集，包含標(biāo)準(zhǔn)化的人類評(píng)估意見(jiàn)且經(jīng)過(guò)精心設(shè)計(jì)。

研究展示了 FLAMe 強(qiáng)大的零樣本泛化能力，在許多懸而未決的任務(wù)中，其性能優(yōu)于使用 GPT-4 和 Claude-3 等專有數(shù)據(jù)訓(xùn)練的模型。

FLAMe 還可以有效地作為進(jìn)一步下游微調(diào)的強(qiáng)大起點(diǎn)。FLAMe-RM 變體針對(duì)獎(jiǎng)勵(lì)模型評(píng)估進(jìn)行了微調(diào)，盡管僅在許可數(shù)據(jù)上進(jìn)行訓(xùn)練，但仍是 RewardBench 上表現(xiàn)最好的生成模型之一，其性能優(yōu)于 GPT-4-0125 和 GPT-4o。

此外，論文提出了一種計(jì)算效率更高的方法，使用新穎的尾部補(bǔ)丁微調(diào)策略來(lái)優(yōu)化目標(biāo)分布的多任務(wù)混合 FLAMe 模型，以顯著減少的計(jì)算量提供有競(jìng)爭(zhēng)力的性能。

FLAMe 變體在 12 個(gè)自動(dòng)評(píng)估基準(zhǔn)中的 8 個(gè)優(yōu)于流行的專有 LLM-as-aJudge 模型，涵蓋 53 項(xiàng)質(zhì)量評(píng)估任務(wù)，包括 RewardBench 和 LLM-AggreFact。

最后，分析表明，與 CoBBLEr 自動(dòng)評(píng)分器偏差基準(zhǔn)上流行的 LLM-as-a-Judge 模型相比，F(xiàn)LAMe 表現(xiàn)出明顯較低的偏見(jiàn)，同時(shí)能夠有效地識(shí)別代碼生成的高質(zhì)量響應(yīng)。

局限性和未來(lái)工作

由于評(píng)估標(biāo)準(zhǔn)不斷變化以及評(píng)估新的 LLM 功能的需要，評(píng)估 LLM 具有挑戰(zhàn)性，通過(guò)開(kāi)源貢獻(xiàn)擴(kuò)大我們的數(shù)據(jù)收集范圍可以解決這個(gè)問(wèn)題。

此外，模型主要在上下文長(zhǎng)度為 2048 個(gè) token 的英語(yǔ)數(shù)據(jù)上進(jìn)行訓(xùn)練，可能在多語(yǔ)言或長(zhǎng)上下文上表現(xiàn)不佳。

在未來(lái)的版本中，作者計(jì)劃包括對(duì)更多具有更長(zhǎng)上下文的多語(yǔ)言數(shù)據(jù)集的訓(xùn)練。

最后，這項(xiàng)工作一直以有監(jiān)督的多任務(wù)方式訓(xùn)練 FLAMe 模型。探索 RLHF 和 DPO 等其他訓(xùn)練方法是未來(lái)工作的一個(gè)有希望的方向。

道德考慮和道德風(fēng)險(xiǎn)

針對(duì)預(yù)訓(xùn)練和指令微調(diào)的 LLMs 工作概述的所有注意事項(xiàng)和風(fēng)險(xiǎn)也都適用于 LLM 自動(dòng)評(píng)估器，研究也都遵循標(biāo)準(zhǔn)實(shí)踐來(lái)負(fù)責(zé)任地開(kāi)發(fā) FLAMe 模型。

此外，由于評(píng)估能力和評(píng)估質(zhì)量的增強(qiáng)，LLM 自動(dòng)評(píng)估器也帶來(lái)了新的風(fēng)險(xiǎn)。

首先，模型可能會(huì)繼承并放大人類評(píng)估的偏見(jiàn)，導(dǎo)致不公平或歧視性的結(jié)果。

例如，該模型可能會(huì)復(fù)制訓(xùn)練數(shù)據(jù)中與種族、性別或其他敏感屬性相關(guān)的偏見(jiàn)，這可能會(huì)損害某些群體利益。

其次，過(guò)度依賴 LLM 自動(dòng)評(píng)估器可能會(huì)導(dǎo)致需要人類理解和同理心的決策不經(jīng)思考而只根據(jù) LLM 判定。

為了減輕這些風(fēng)險(xiǎn)，模型開(kāi)發(fā)和使用的透明度，以及偏見(jiàn)處理、數(shù)據(jù)匿名化和納入不同觀點(diǎn)等強(qiáng)有力的措施，對(duì)于促進(jìn)公平、問(wèn)責(zé)和可信度至關(guān)重要。

參考資料：

https://x.com/tuvllms/status/1813249272474968315

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

87.8% 準(zhǔn)確率趕超 GPT-4o 登頂！谷歌 DeepMind 發(fā)布自動(dòng)評(píng)估模型 FLAMe

自動(dòng)評(píng)估方法

數(shù)據(jù)收集

統(tǒng)一任務(wù)格式

模型訓(xùn)練

FLAMe

FLAMe-RM

FLAMe-Opt-RM

訓(xùn)練細(xì)節(jié)

評(píng)估實(shí)驗(yàn)

分析

自動(dòng)評(píng)分器偏差分析

使用 FLAMe 對(duì)解碼輸出重新排序

結(jié)論與討論

局限性和未來(lái)工作

道德考慮和道德風(fēng)險(xiǎn)

相關(guān)文章