設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

360gpt2-o1 上線:“會(huì)思考”的國(guó)產(chǎn)大模型,探索 AI 推理新極限

2024/12/14 10:43:50 來(lái)源:IT之家 作者:故淵 責(zé)編:故淵
感謝IT之家網(wǎng)友 有鯽雪狐 的線索投遞!

IT之家 12 月 14 日消息,“360 智腦”官方公眾號(hào)昨日(12 月 13 日)發(fā)布博文,宣布推出 360 自研 AI 大模型 360gpt2-o1,推理能力顯著提升,在數(shù)學(xué)和邏輯推理任務(wù)上表現(xiàn)出色。

該模型通過(guò)合成數(shù)據(jù)優(yōu)化、模型后訓(xùn)練和“慢思考”范式實(shí)現(xiàn)了技術(shù)突破,并在多項(xiàng)權(quán)威評(píng)測(cè)中取得了優(yōu)異成績(jī)。

在多項(xiàng)基礎(chǔ)數(shù)學(xué)評(píng)測(cè)(如 MATH、高考數(shù)學(xué))以及權(quán)威數(shù)學(xué)競(jìng)賽(包括 AIME24、AMC23)中,360gpt2-o1 均取得了顯著的成績(jī),不僅超越了前代模型 360gpt2-pro,也優(yōu)于 GPT-4o 模型。

在數(shù)學(xué)競(jìng)賽評(píng)測(cè)中,360gpt2-o1 超過(guò)了阿里巴巴最新開(kāi)源的 o1 系列模型 QWQ-32B-preview。IT之家附上該模型整體架構(gòu)如下:

優(yōu)化合成數(shù)據(jù)

該模型通過(guò)指令合成、質(zhì)量 / 多樣性篩選等方法,解決了高質(zhì)量數(shù)學(xué)與邏輯推理數(shù)據(jù)稀缺的問(wèn)題,有效擴(kuò)充了訓(xùn)練數(shù)據(jù)集。

模型后訓(xùn)練

該模型采用兩階段訓(xùn)練策略,先用小模型生成多樣化的推理路徑,再用大模型進(jìn)行 RFT 訓(xùn)練和強(qiáng)化學(xué)習(xí)訓(xùn)練,提升模型推理能力和反思糾錯(cuò)能力。

“慢思考”范式

利用蒙特卡洛樹搜索探索多樣化解決方案,并引入 LLM 進(jìn)行錯(cuò)誤驗(yàn)證和糾錯(cuò),模擬人類逐步推理和反思的過(guò)程,最終形成包含反思、驗(yàn)證、糾錯(cuò)和回溯的長(zhǎng)思維鏈。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:360,AI
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知