缺數(shù)據(jù)不是問題,直接用 GPT-4 生成的指令就夠了,標(biāo)注員恐怕要失業(yè)了!
「指令」(Instruction)是 ChatGPT 模型取得突破性進(jìn)展的關(guān)鍵因素,可以讓語言模型的輸出更符合「人類的偏好」。
但指令的標(biāo)注工作需要耗費(fèi)大量的人力,即便有了開源的語言模型,資金不足的學(xué)術(shù)機(jī)構(gòu)、小公司也很難訓(xùn)練出自己 ChatGPT.
最近微軟的研究人員利用之前提出的 Self-Instruct 技術(shù),首次嘗試使用 GPT-4 模型來自動(dòng)生成語言模型所需的微調(diào)指令數(shù)據(jù)。
論文鏈接:https://arxiv.org/ pdf / 2304.03277.pdf
代碼鏈接:https://github.com/ Instruction-Tuning-with-GPT-4 / GPT-4-LLM
在基于 Meta 開源的 LLaMA 模型上的實(shí)驗(yàn)結(jié)果表明,由 GPT-4 生成的 5.2 萬條英語和漢語 instruction-following 數(shù)據(jù)在新任務(wù)中的表現(xiàn)優(yōu)于以前最先進(jìn)的模型生成的指令數(shù)據(jù),研究人員還從 GPT-4 中收集反饋和比較數(shù)據(jù),以便進(jìn)行全面的評(píng)估和獎(jiǎng)勵(lì)模式訓(xùn)練。
訓(xùn)練數(shù)據(jù)
數(shù)據(jù)收集
研究人員重用了斯坦福大學(xué)發(fā)布的 Alpaca 模型用到的 5.2 萬條指令,其中每條指令都描述了模型應(yīng)該執(zhí)行的任務(wù),并遵循與 Alpaca 相同的 prompting 策略,同時(shí)考慮有輸入和無輸入的情況,作為任務(wù)的可選上下文或輸入;使用大型語言模型對(duì)指令輸出答案。
在 Alpaca 數(shù)據(jù)集中,輸出是使用 GPT-3.5(text-davinci-003)生成的,但在這篇論文中,研究人員選擇使用 GPT-4 來生成數(shù)據(jù),具體包括以下四個(gè)數(shù)據(jù)集:
1. 英文 Instruction-Following Data:對(duì)于在 Alpaca 中收集的 5.2 萬條指令,為每一條指令都提供一個(gè)英文 GPT-4 答案。
未來的工作為遵循迭代的過程,使用 GPT-4 和 self-instruct 構(gòu)建一個(gè)全新的數(shù)據(jù)集。
2. 中文 Instruction-Following Data:使用 ChatGPT 將 5.2 萬條指令翻譯成中文,并要求 GPT-4 用中文回答這些指令,并以此建立一個(gè)基于 LLaMA 的中文 instruction-following 模型,并研究指令調(diào)優(yōu)的跨語言泛化能力。
3. 對(duì)比數(shù)據(jù)(Comparison Data):要求 GPT-4 對(duì)自己的回復(fù)提供從 1 到 10 的評(píng)分,并對(duì) GPT-4, GPT-3.5 和 OPT-IML 這三個(gè)模型的回復(fù)進(jìn)行評(píng)分,以訓(xùn)練獎(jiǎng)勵(lì)模型。
4. 非自然指令的答案:GPT-4 的答案是在 6.8 萬條(指令,輸入,輸出)三元組的數(shù)據(jù)集上解碼的,使用該子集來量化 GPT-4 和指令調(diào)優(yōu)后的模型在規(guī)模上的差距。
數(shù)據(jù)統(tǒng)計(jì)
研究人員對(duì)比了 GPT-4 和 GPT-3.5 的英語輸出回復(fù)集合:對(duì)于每個(gè)輸出,都提取了根動(dòng)詞(root verb)和直接賓語名詞(direct-object noun),在每個(gè)輸出集上計(jì)算了獨(dú)特的動(dòng)詞-名詞對(duì)的頻率。
可以看到,GPT-4 傾向于生成比 GPT-3.5 更長(zhǎng)的序列,Alpaca 中 GPT-3.5 數(shù)據(jù)的長(zhǎng)尾現(xiàn)象比 GPT-4 的輸出分布更明顯,可能是因?yàn)?Alpaca 數(shù)據(jù)集涉及到一個(gè)迭代的數(shù)據(jù)收集過程,在每次迭代中去除相似的指令實(shí)例,在目前的一次性數(shù)據(jù)生成中是沒有的。
盡管這個(gè)過程很簡(jiǎn)單,但 GPT-4 生成的 instruction-following 數(shù)據(jù)表現(xiàn)出更強(qiáng)大的對(duì)齊性能。
指令調(diào)優(yōu)語言模型
Self-Instruct 調(diào)優(yōu)
研究人員基于 LLaMA 7B checkpoint 有監(jiān)督微調(diào)后訓(xùn)練得到了兩個(gè)模型:LLaMA-GPT4 是在 GPT-4 生成的 5.2 萬條英文 instruction-following 數(shù)據(jù)上訓(xùn)練的;LLaMA-GPT4-CN 是在 GPT-4 的 5.2 萬條中文 instruction-following 數(shù)據(jù)上訓(xùn)練的。
兩個(gè)模型被用來研究 GPT-4 的數(shù)據(jù)質(zhì)量以及在一種語言中進(jìn)行指令調(diào)優(yōu)的 LLMs 時(shí)的跨語言泛化特性。
獎(jiǎng)勵(lì)模型
從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)旨在使 LLM 行為與人類的偏好相一致,以使語言模型的輸出對(duì)人類更加有用。
RLHF 的一個(gè)關(guān)鍵組成部分是獎(jiǎng)勵(lì)建模,其問題可以被表述為一個(gè)回歸任務(wù),以預(yù)測(cè)給定提示和回復(fù)的獎(jiǎng)勵(lì)評(píng)分,該方法通常需要大規(guī)模的比較數(shù)據(jù),即對(duì)同一提示的兩個(gè)模型反應(yīng)進(jìn)行比較。
現(xiàn)有的開源模型,如 Alpaca、Vicuna 和 Dolly,由于標(biāo)注對(duì)比數(shù)據(jù)的成本很高,所以沒有用到 RLHF,并且最近的研究表明,GPT-4 能夠識(shí)別和修復(fù)自己的錯(cuò)誤,并準(zhǔn)確判斷回復(fù)的質(zhì)量。
為了促進(jìn)對(duì) RLHF 的研究,研究人員使用 GPT-4 創(chuàng)建了對(duì)比數(shù)據(jù);為了評(píng)估數(shù)據(jù)質(zhì)量,研究人員訓(xùn)練一個(gè)基于 OPT 1.3B 的獎(jiǎng)勵(lì)模型,以對(duì)不同的回復(fù)進(jìn)行評(píng)分:對(duì)一個(gè)提示和 K 個(gè)回復(fù),GPT-4 為每個(gè)回復(fù)提供一個(gè) 1 到 10 之間的評(píng)分。
實(shí)驗(yàn)結(jié)果
在 GPT-4 數(shù)據(jù)上評(píng)估以前從未見過的任務(wù)的 self-instruct 調(diào)優(yōu)模型的性能仍然是一項(xiàng)困難的任務(wù)。
由于主要目標(biāo)是評(píng)估模型理解和遵守各種任務(wù)指示的能力,為了實(shí)現(xiàn)這一點(diǎn),研究人員利用三種類型的評(píng)估,并通過研究結(jié)果證實(shí),「利用 GPT-4 生成數(shù)據(jù)」相比其他機(jī)器自動(dòng)生成的數(shù)據(jù)來說是一種有效的大型語言模型指令調(diào)優(yōu)方法。
人類評(píng)估
為了評(píng)估該指令調(diào)優(yōu)后的大型語言模型對(duì)齊質(zhì)量,研究人員遵循之前提出的對(duì)齊標(biāo)準(zhǔn):如果一個(gè)助手是有幫助的、誠實(shí)的和無害的(HHH),那它就是與人類評(píng)估標(biāo)準(zhǔn)對(duì)齊的,這些標(biāo)準(zhǔn)也被廣泛用于評(píng)估人工智能系統(tǒng)與人類價(jià)值觀的一致性程度。
幫助性(helpfulness):是否能幫助人類實(shí)現(xiàn)他們的目標(biāo),一個(gè)能夠準(zhǔn)確回答問題的模型是有幫助的。
誠實(shí)性(honesty):是否提供真實(shí)信息,并在必要時(shí)表達(dá)其不確定性以避免誤導(dǎo)人類用戶,一個(gè)提供虛假信息的模型是不誠實(shí)的。
無害性(harmlessness):是否不會(huì)對(duì)人類造成傷害,一個(gè)產(chǎn)生仇恨言論或提倡暴力的模型不是無害的。
基于 HHH 對(duì)齊標(biāo)準(zhǔn),研究人員使用眾包平臺(tái) Amazon Mechanical Turk 對(duì)模型生成結(jié)果進(jìn)行人工評(píng)估。
文中提出的兩個(gè)模型分別在 GPT-4 和 GPT-3 生成的數(shù)據(jù)上進(jìn)行了微調(diào),可以看到 LLaMA-GPT4 以 51.2% 的占比在幫助性上要大大優(yōu)于在 GPT-3 上微調(diào)的 Alpaca(19.74%),而在誠實(shí)性和 無害性標(biāo)準(zhǔn)下,則基本處于平局狀態(tài),GPT-3 要略勝一籌。
在和原版 GPT-4 對(duì)比時(shí),可以發(fā)現(xiàn)二者在三個(gè)標(biāo)準(zhǔn)上也是相當(dāng)一致的,即 GPT-4 指令調(diào)優(yōu)后的 LLaMA 表現(xiàn)與原始的 GPT-4 類似。
GPT-4 自動(dòng)評(píng)估
受 Vicuna 的啟發(fā),研究人員也選擇用 GPT-4 來評(píng)估不同聊天機(jī)器人模型對(duì) 80 個(gè)未見過的問題所生成回答的質(zhì)量,從 LLaMA-GPT-4 (7B) 和 GPT-4 模型中收集回復(fù),并從以前的研究中獲得其他模型的答案,然后要求 GPT-4 對(duì)兩個(gè)模型之間的回復(fù)質(zhì)量進(jìn)行評(píng)分,評(píng)分范圍從 1 到 10,并將結(jié)果與其他強(qiáng)競(jìng)爭(zhēng)模型 (ChatGPT 和 GPT-4) 進(jìn)行比較。
評(píng)估結(jié)果顯示,反饋數(shù)據(jù)和獎(jiǎng)勵(lì)模型對(duì)提高 LLaMA 的性能是有效的;用 GPT-4 對(duì) LLaMA 進(jìn)行指令調(diào)優(yōu),往往比用 text-davinci-003 調(diào)優(yōu)(即 Alpaca)和不調(diào)優(yōu)(即 LLaMA)的性能更高;7B LLaMA GPT4 的性能超過了 13B Alpaca 和 LLaMA,但和 GPT-4 等大型商業(yè)聊天機(jī)器人相比,仍有差距。
進(jìn)一步研究中文聊天機(jī)器人的性能時(shí),首先使用 GPT-4 將聊天機(jī)器人的問題也從英文翻譯成中文,用 GPT-4 獲得答案,可以得到兩個(gè)有趣的觀察結(jié)果:
1. 可以發(fā)現(xiàn) GPT-4 評(píng)價(jià)的相對(duì)分?jǐn)?shù)指標(biāo)是相當(dāng)一致的,無論是在不同的對(duì)手模型(即 ChatGPT 或 GPT-4)和語言(即英語或中文)方面。
2. 僅就 GPT-4 的結(jié)果而言,翻譯后的回復(fù)比中文生成的回復(fù)表現(xiàn)得更好,可能是因?yàn)?GPT-4 是在比中文更豐富的英文語料庫中訓(xùn)練的,所以具有更強(qiáng)的英文 instruction-following 能力。
非自然指令評(píng)估(Unnatural Instruction Evaluation)
從平均 ROUGE-L 得分來看,Alpaca 優(yōu)于 LLaMA-GPT 4 和 GPT-4,可以注意到,LLaMA-GPT4 和 GPT4 在 ground truth 回復(fù)長(zhǎng)度增加時(shí)逐漸表現(xiàn)得更好,最終在長(zhǎng)度超過 4 時(shí)表現(xiàn)出更高的性能,意味著當(dāng)場(chǎng)景更具創(chuàng)造性時(shí),可以更好地遵循指令。
在不同的子集中,LLaMA-GPT4 跟 GPT-4 的行為相差無幾;當(dāng)序列長(zhǎng)度較短時(shí),LLaMA-GPT4 和 GPT-4 都能生成包含簡(jiǎn)單的基本事實(shí)答案的回復(fù),但會(huì)增加額外的詞語,使回復(fù)更像聊天,可能會(huì)導(dǎo)致 ROUGE-L 得分降低。
參考資料:
https://arxiv.org/pdf/2304.03277.pdf
本文來自微信公眾號(hào):新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。