算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

新智元 2022/12/13 17:57:07 責(zé)編：遠(yuǎn)生

評(píng)論：

語(yǔ)言模型越來(lái)越厲害，也越來(lái)越大。如何在不擴(kuò)大規(guī)模的情況下提升模型性能？谷歌 AI 想出了一個(gè)「強(qiáng)強(qiáng)聯(lián)合」的好點(diǎn)子。

近年來(lái)，語(yǔ)言模型（LM）在自然語(yǔ)言處理（NLP）研究中變得更加突出，在實(shí)踐中也越來(lái)越有影響力。一般來(lái)說(shuō)，擴(kuò)大模型的規(guī)模已被證明可以提升在一系列 NLP 任務(wù)中的性能。

不過(guò)，擴(kuò)大模型規(guī)模的挑戰(zhàn)也是顯而易見(jiàn)的：訓(xùn)練新的、更大的模型需要大量的計(jì)算資源。此外，新的模型往往是從頭開(kāi)始訓(xùn)練的，無(wú)法利用以前的模型的訓(xùn)練權(quán)重。

對(duì)于這個(gè)問(wèn)題，谷歌的研究人員探討了兩種互補(bǔ)的方法，在不額外消耗大量計(jì)算資源的情況下，大幅提高現(xiàn)有語(yǔ)言模型的性能。

首先，在「Transcending Scaling Laws with 0.1% Extra Compute」一文中，研究人員介紹了 UL2R，這是一個(gè)輕量級(jí)的第二階段預(yù)訓(xùn)練模型，使用一個(gè)混合 enoisers 目標(biāo)。UL2R 提高了一系列任務(wù)的性能，甚至在以前具有接近隨機(jī)性能的任務(wù)上釋放出突發(fā)性能。

算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

論文鏈接：https://arxiv.org/ pdf / 2210.11399.pdf

另外，在「Scaling Instruction-Finetuned Language Models」中，探討了在一個(gè)以指令為措辭的數(shù)據(jù)集上微調(diào)語(yǔ)言模型的問(wèn)題，這個(gè)過(guò)程我們稱(chēng)為 "Flan"。這種方法不僅提高了性能，而且還提高了語(yǔ)言模型對(duì)用戶輸入的可用性。

算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

論文鏈接：https://arxiv.org/ abs / 2210.11416

最后，F(xiàn)lan 和 UL2R 可以作為互補(bǔ)技術(shù)結(jié)合在一個(gè)名為 Flan-U-PaLM 540B 的模型中，該模型在一系列具有挑戰(zhàn)性的評(píng)估基準(zhǔn)中，比未經(jīng)調(diào)整的 PaLM 540B 模型表現(xiàn)高出 10%。

UL2R 的訓(xùn)練

傳統(tǒng)上，大多數(shù)語(yǔ)言模型都是在因果語(yǔ)言建模目標(biāo)上進(jìn)行預(yù)訓(xùn)練，使模型能夠預(yù)測(cè)序列中的下一個(gè)詞（如 GPT-3 或 PaLM）或去噪目標(biāo)，其中模型學(xué)習(xí)從損壞的單詞序列中恢復(fù)原句（如 T5）。

盡管在語(yǔ)言建模目標(biāo)中存在一些權(quán)衡，即因果關(guān)系的語(yǔ)言模型在長(zhǎng)句生成方面表現(xiàn)更好，而在去噪目標(biāo)上訓(xùn)練的語(yǔ)言模型在微調(diào)方面表現(xiàn)更好，但在之前的工作中，研究人員表明，包括這兩個(gè)目標(biāo)的混合 enoisers 目標(biāo)在兩種情況下都能取得更好的性能。

不過(guò)，在不同的目標(biāo)上從頭開(kāi)始對(duì)大型語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練，在計(jì)算上是很困難的。因此，我們提出了 UL2 修復(fù)（UL2R），這是一個(gè)用 UL2 目標(biāo)繼續(xù)預(yù)訓(xùn)練的附加階段，只需要相對(duì)較少的計(jì)算量。

我們將 UL2R 應(yīng)用于 PaLM，并將產(chǎn)生的新語(yǔ)言模型稱(chēng)為 U-PaLM。

在實(shí)證評(píng)估中，我們發(fā)現(xiàn)，只需少量的 UL2 訓(xùn)練，模型就會(huì)有大幅改善。

例如，通過(guò)在 PaLM 540B 的中間檢查點(diǎn)上使用 UL2R，可以達(dá)到 PaLM 540B 在最終檢查點(diǎn)的性能，同時(shí)使用了 2 倍的計(jì)算量。當(dāng)然，將 UL2R 應(yīng)用于最終的 PaLM 540B 檢查點(diǎn)也會(huì)帶來(lái)巨大的改進(jìn)。

算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

PaLM 540B 和 U-PaLM 540B 在 26 個(gè) NLP 基準(zhǔn)上的計(jì)算與模型性能對(duì)比。U-PaLM 540B 繼續(xù)訓(xùn)練 PaLM，計(jì)算量非常小，但在性能上有很大的提升。

使用 UL2R 的另一個(gè)好處是，它在一些任務(wù)上的性能比純粹在因果語(yǔ)言建模目標(biāo)上訓(xùn)練的模型好得多。例如，有許多 BIG-Bench 任務(wù)具備所謂「新興能力」，即只有在足夠大的語(yǔ)言模型中才有的能力。

雖然最常見(jiàn)的發(fā)現(xiàn)新興能力的方式是通過(guò)擴(kuò)大模型規(guī)模，但 UL2R 實(shí)際上可以在不擴(kuò)大模型規(guī)模的情況下激發(fā)新興能力。

算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

比如在 BIG-Bench 的導(dǎo)航任務(wù)中，衡量模型進(jìn)行狀態(tài)跟蹤的能力，除了 U-PaLM，所有模型的訓(xùn)練 FLOPs 少于 10^23 個(gè)。另一個(gè)例子是 BIG-Bench 的 Snarks 任務(wù)，該任務(wù)衡量模型檢測(cè)諷刺語(yǔ)言的能力。

對(duì)于來(lái)自 BIG-Bench 的兩種能力，展示了新興的任務(wù)性能，U-PaLM 由于使用了 UL2R 目標(biāo)，所以在較小的模型規(guī)模下實(shí)現(xiàn)了新興性能。

指令微調(diào)

在第二篇論文中，我們探討了指令微調(diào)，這涉及到在一組以指令為措辭的 NLP 數(shù)據(jù)集上對(duì) LM 進(jìn)行微調(diào)。

在之前的工作中，我們將指令微調(diào)應(yīng)用于 62 個(gè) NLP 任務(wù)的 137B 參數(shù)模型，比如回答一個(gè)小問(wèn)題，對(duì)電影表達(dá)的情感進(jìn)行分類(lèi)，或者將句子翻譯成西班牙語(yǔ)等。

在這項(xiàng)工作中，我們?cè)诔^(guò) 1.8K 的任務(wù)上微調(diào)了 540B 參數(shù)的語(yǔ)言模型。此外，以前的工作只對(duì)有少量例證的語(yǔ)言模型（如 MetaICL）或無(wú)例證的零例證語(yǔ)言模型（如 FLAN、T0）進(jìn)行微調(diào)，而我們對(duì)兩者的組合都進(jìn)行了微調(diào)。

我們還包括思維鏈微調(diào)數(shù)據(jù)，這使得模型能夠進(jìn)行多步驟推理。我們把我們改進(jìn)的方法稱(chēng)為 "Flan"，用于微調(diào)語(yǔ)言模型。

值得注意的是，即使在 1.8K 的任務(wù)上進(jìn)行微調(diào)，與預(yù)訓(xùn)練相比，F(xiàn)lan 只用了一小部分的計(jì)算量（對(duì)于 PaLM 540B，F(xiàn)lan 只需要預(yù)訓(xùn)練計(jì)算量的 0.2%）。

算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

在 1.8K 個(gè)以指令形式表述的任務(wù)上對(duì)語(yǔ)言模型進(jìn)行微調(diào)，并在新任務(wù)上對(duì)模型進(jìn)行評(píng)估，這些任務(wù)不包括在微調(diào)中。分別在有 / 無(wú)示例的情況下進(jìn)行微調(diào)（即 0-shot 和 few-shot），以及有 / 無(wú)思維鏈的情況下進(jìn)行微調(diào)，使模型可以在一系列評(píng)估場(chǎng)景中推廣開(kāi)來(lái)。

本文中，一系列規(guī)模的 LM 進(jìn)行了指令-微調(diào)，目的是研究同時(shí)擴(kuò)大語(yǔ)言模型的規(guī)模和增加微調(diào)任務(wù)數(shù)量的共同效果。

算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

例如，對(duì)于 PaLM 類(lèi)語(yǔ)言模型，包括 8B、62B 和 540B 參數(shù)規(guī)格。在四個(gè)具有挑戰(zhàn)性的基準(zhǔn)評(píng)估標(biāo)準(zhǔn)（MMLU、BBH、TyDiQA 和 MGSM）上評(píng)估了我們的模型，發(fā)現(xiàn)擴(kuò)大參數(shù)數(shù)量和微調(diào)任務(wù)數(shù)量都能提高在此前未見(jiàn)的新任務(wù)上的性能表現(xiàn)。

擴(kuò)大到 540B 的參數(shù)模型和使用 1.8K 的微調(diào)任務(wù)都能提高性能。上圖 y 軸是四個(gè)評(píng)估套件（MMLU、BBH、TyDiQA 和 MGSM）的歸一化均值。

除了更好的性能之外，指令微調(diào) LM 能夠在推理時(shí)對(duì)用戶的指令做出反應(yīng)，而不需要少量的示例或提示工程。這使得 LM 在一系列的輸入中更加方便用戶。例如，沒(méi)有指令微調(diào)的 LM 有時(shí)會(huì)重復(fù)輸入或不能遵循指令，但指令微調(diào)可以減輕這種錯(cuò)誤。

算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

我們的指令微調(diào)語(yǔ)言模型 Flan-PaLM 與沒(méi)有指令微調(diào)的 PaLM 模型相比，對(duì)指令的反應(yīng)更好。

強(qiáng)強(qiáng)聯(lián)合，實(shí)現(xiàn)「1+1>2」

最后，我們表明，UL2R 和 Flan 可以結(jié)合起來(lái)訓(xùn)練 Flan-U-PaLM 模型。

由于 Flan 使用來(lái)自 NLP 任務(wù)的新數(shù)據(jù)，并能實(shí)現(xiàn)零點(diǎn)指令跟蹤，我們將 Flan 作為 UL2R 之后的次選方法。

我們?cè)俅螌?duì)四個(gè)基準(zhǔn)套件進(jìn)行評(píng)估，發(fā)現(xiàn) Flan-U-PaLM 模型優(yōu)于只有 UL2R（U-PaLM）或只有 Flan（Flan-PaLM）的 PaLM 模型。此外，當(dāng)與思維鏈和自洽性相結(jié)合時(shí)，F(xiàn)lan-U-PaLM 在 MMLU 基準(zhǔn)上達(dá)到了新的 SOTA，得分達(dá)到 75.4%。

算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

與只使用 UL2R（U-PaLM）或只使用 Flan（Flan-U-PaLM）相比，將 UL2R 和 Flan（Flan-U-PaLM）結(jié)合起來(lái)會(huì)帶來(lái)最佳性能：四個(gè)評(píng)估套件（MMLU、BBH、TyDiQA 和 MGSM）的歸一化平均值。

總的來(lái)說(shuō)，UL2R 和 Flan 是兩種互補(bǔ)的方法，用于改進(jìn)預(yù)訓(xùn)練的語(yǔ)言模型。UL2R 使用相同的數(shù)據(jù)使 LM 適應(yīng) denoisers 的混合目標(biāo)，而 Flan 則利用超過(guò) 1.8K NLP 任務(wù)的訓(xùn)練數(shù)據(jù)來(lái)教模型遵循指令。

隨著語(yǔ)言模型變得更大，像 UL2R 和 Flan 這樣無(wú)需大量計(jì)算就能提高一般性能的技術(shù)，可能會(huì)變得越來(lái)越有吸引力。

參考資料：

https://ai.googleblog.com/2022/11/better-language-models-without-massive.html

本文來(lái)自微信公眾號(hào)：新智元（ID：AI_era），編輯：David

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

UL2R 的訓(xùn)練

指令微調(diào)

強(qiáng)強(qiáng)聯(lián)合，實(shí)現(xiàn)「1+1>2」

相關(guān)文章

算力就這么點(diǎn)，為了提升語(yǔ)言模型性能，谷歌想了個(gè)新點(diǎn)子

強(qiáng)強(qiáng)聯(lián)合，實(shí)現(xiàn)「1+1>2」