IT之家 11 月 7 日消息,微軟亞洲研究院聯(lián)合北京大學(xué)、西安交通大學(xué)等高校,提出了一項(xiàng)名為“從錯(cuò)誤中學(xué)習(xí)(Learning from Mistake,LeMA)”的 AI 訓(xùn)練方法,號(hào)稱可以通過模仿人類學(xué)習(xí)知識(shí)的過程,來改進(jìn) AI 推理能力。
當(dāng)下 OpenAI GPT-4 和谷歌 aLM-2 等大語言模型在自然語言處理(NLP)任務(wù),及思維鏈(chain-of-thought,CoT)推理的數(shù)學(xué)難題任務(wù)中都有不錯(cuò)的表現(xiàn)。
但例如 LLaMA-2 及 Baichuan-2 等開源大模型,在處理相關(guān)問題時(shí)則有待加強(qiáng)。為了提升開源這些大語言模型的思維鏈推理能力,研究團(tuán)隊(duì)提出了 LeMA 方法。這種方法主要是模仿人類的學(xué)習(xí)過程,通過“從錯(cuò)誤中學(xué)習(xí)”,以改進(jìn)模型的推理能力。
IT之家發(fā)現(xiàn),研究人員的方法是使用一對(duì)包含“錯(cuò)誤解答”與“修正后正確答案”的數(shù)據(jù)來微調(diào)相關(guān)模型。為取得相關(guān)數(shù)據(jù),研究人員收集了 5 個(gè)不同大語言模型(包括 LLaMA 及 GPT 系列)的錯(cuò)誤答案和推理過程,再以 GPT-4 作為“訂正者”,提供修正后的正確答案。
據(jù)悉,修正后的正確答案中包含三類信息,分別是原推理過程中錯(cuò)誤片段、原推理過程出錯(cuò)的原因、以及如何修正原方法以獲得正確答案。
研究人員采用 GSM8K 及 MATH,來測(cè)試 LeMa 訓(xùn)練法對(duì) 5 個(gè)開源大模型的效果,結(jié)果顯示,以改進(jìn)過的 LLaMA-2-70B 為例,在 GSM8K 的準(zhǔn)確率分別為 83.5% 及 81.4%,在 MATH 則分別為 25.0% 及 23.6%。
目前研究人員已將 LeMA 的相關(guān)資料公開在 GitHub 上,感興趣的小伙伴們可以點(diǎn)此跳轉(zhuǎn)。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。