IT之家 1 月 23 日消息,谷歌日前發(fā)布新聞稿,介紹了一款專為大語言模型設(shè)計的 ASPIRE 訓練框架,該框架號稱可以增強 AI 模型的選擇性預(yù)測能力。
谷歌提到,當下大語言模型在自然語言理解和生成內(nèi)容方面發(fā)展迅速,已被用于構(gòu)建各種創(chuàng)新應(yīng)用,但要應(yīng)用于高風險決策類場合依然不妥。這是由于模型預(yù)測具有不確定性及“幻覺”可能,因此谷歌開發(fā)了一款 ASPIRE 訓練框架,為系列模型引入了“可信度”機制,即 —— 模型會輸出一系列答案,每個答案都會具有正確概率評分。
在技術(shù)層面,IT之家注意到該訓練框架主要分為三階段,分別為“特定任務(wù)調(diào)整”、“答案采樣”和“自我評估學習”。
其中“特定任務(wù)調(diào)整”階段是對已接受過基礎(chǔ)訓練的大型語言模型進行深入訓練,專注于強化模型的預(yù)測能力。研究人員主要為模型引入一系列可調(diào)參數(shù),在特定任務(wù)的訓練數(shù)據(jù)集上微調(diào)預(yù)訓練語言模型,從而提升模型預(yù)測性能,讓模型能夠更好地解決特定問題。
第二階段為“答案采樣”,經(jīng)過特定微調(diào)后,模型可以利用先前學習到的可調(diào)參數(shù),為每個訓練問題生成不同的答案,并創(chuàng)建用于自我評估學習的數(shù)據(jù)集,生成一系列可信度較高的答案。研究人員同時使用 “集束搜索(Beam Search)”方法及 Rouge-L 算法來評估答案的質(zhì)量,并將生成的答案及評分重新輸入給模型開啟第三階段。
而在第三階段“自我評估學習”中,研究人員為模型添加一組可調(diào)參數(shù),專門用于提升模型自我評估能力。該階段的目標是讓模型學會“自己判斷輸出的答案準確性”,從而讓大語言模型在生成答案時,還會附上答案的正確概率評分。
谷歌研究人員使用 CoQA、TriviaQA 和 SQuAD 三個問答數(shù)據(jù)集來驗證 ASPIRE 訓練框架的成果,據(jù)稱“經(jīng)過 ASPIRE 調(diào)整的 OPT-2.7B 小模型,表現(xiàn)遠超更大的 OPT-30B 模型”。而這項實驗結(jié)果也同時表明,只要經(jīng)過適當?shù)恼{(diào)整,即使是小語言模型,在部分場景下也可以超越大語言模型。
研究人員總結(jié)稱,ASPIRE 框架訓練能夠顯著提升大語言模型輸出準確率,即使是較小的模型,也可以在經(jīng)過微調(diào)后進行“準確且有自信”的預(yù)測。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。