IT之家 12 月 14 日消息,“360 智腦”官方公眾號(hào)昨日(12 月 13 日)發(fā)布博文,宣布推出 360 自研 AI 大模型 360gpt2-o1,推理能力顯著提升,在數(shù)學(xué)和邏輯推理任務(wù)上表現(xiàn)出色。
該模型通過(guò)合成數(shù)據(jù)優(yōu)化、模型后訓(xùn)練和“慢思考”范式實(shí)現(xiàn)了技術(shù)突破,并在多項(xiàng)權(quán)威評(píng)測(cè)中取得了優(yōu)異成績(jī)。
在多項(xiàng)基礎(chǔ)數(shù)學(xué)評(píng)測(cè)(如 MATH、高考數(shù)學(xué))以及權(quán)威數(shù)學(xué)競(jìng)賽(包括 AIME24、AMC23)中,360gpt2-o1 均取得了顯著的成績(jī),不僅超越了前代模型 360gpt2-pro,也優(yōu)于 GPT-4o 模型。
在數(shù)學(xué)競(jìng)賽評(píng)測(cè)中,360gpt2-o1 超過(guò)了阿里巴巴最新開(kāi)源的 o1 系列模型 QWQ-32B-preview。IT之家附上該模型整體架構(gòu)如下:
優(yōu)化合成數(shù)據(jù)
該模型通過(guò)指令合成、質(zhì)量 / 多樣性篩選等方法,解決了高質(zhì)量數(shù)學(xué)與邏輯推理數(shù)據(jù)稀缺的問(wèn)題,有效擴(kuò)充了訓(xùn)練數(shù)據(jù)集。
模型后訓(xùn)練
該模型采用兩階段訓(xùn)練策略,先用小模型生成多樣化的推理路徑,再用大模型進(jìn)行 RFT 訓(xùn)練和強(qiáng)化學(xué)習(xí)訓(xùn)練,提升模型推理能力和反思糾錯(cuò)能力。
“慢思考”范式
利用蒙特卡洛樹搜索探索多樣化解決方案,并引入 LLM 進(jìn)行錯(cuò)誤驗(yàn)證和糾錯(cuò),模擬人類逐步推理和反思的過(guò)程,最終形成包含反思、驗(yàn)證、糾錯(cuò)和回溯的長(zhǎng)思維鏈。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。