<span id="4ftzd"></span>

首頁(yè)

最會(huì)買

設(shè)置

日夜間

隨系統(tǒng)

淺色

深色
主題色
黑色

訂閱

軟媒應(yīng)用

App客戶端
要知App
軟媒魔方

首頁(yè) > 智能時(shí)代>人工智能

360gpt2-o1 上線：“會(huì)思考”的國(guó)產(chǎn)大模型，探索 AI 推理新極限

2024/12/14 10:43:50 來(lái)源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

感謝IT之家網(wǎng)友有鯽雪狐的線索投遞！

IT之家 12 月 14 日消息，“360 智腦”官方公眾號(hào)昨日（12 月 13 日）發(fā)布博文，宣布推出 360 自研 AI 大模型 360gpt2-o1，推理能力顯著提升，在數(shù)學(xué)和邏輯推理任務(wù)上表現(xiàn)出色。

該模型通過(guò)合成數(shù)據(jù)優(yōu)化、模型后訓(xùn)練和“慢思考”范式實(shí)現(xiàn)了技術(shù)突破，并在多項(xiàng)權(quán)威評(píng)測(cè)中取得了優(yōu)異成績(jī)。

在多項(xiàng)基礎(chǔ)數(shù)學(xué)評(píng)測(cè)（如 MATH、高考數(shù)學(xué)）以及權(quán)威數(shù)學(xué)競(jìng)賽（包括 AIME24、AMC23）中，360gpt2-o1 均取得了顯著的成績(jī)，不僅超越了前代模型 360gpt2-pro，也優(yōu)于 GPT-4o 模型。

360gpt2-o1 上線：“會(huì)思考”的國(guó)產(chǎn)大模型，探索 AI 推理新極限

360gpt2-o1 上線：“會(huì)思考”的國(guó)產(chǎn)大模型，探索 AI 推理新極限

在數(shù)學(xué)競(jìng)賽評(píng)測(cè)中，360gpt2-o1 超過(guò)了阿里巴巴最新開(kāi)源的 o1 系列模型 QWQ-32B-preview。IT之家附上該模型整體架構(gòu)如下：

360gpt2-o1 上線：“會(huì)思考”的國(guó)產(chǎn)大模型，探索 AI 推理新極限

優(yōu)化合成數(shù)據(jù)

該模型通過(guò)指令合成、質(zhì)量 / 多樣性篩選等方法，解決了高質(zhì)量數(shù)學(xué)與邏輯推理數(shù)據(jù)稀缺的問(wèn)題，有效擴(kuò)充了訓(xùn)練數(shù)據(jù)集。

360gpt2-o1 上線：“會(huì)思考”的國(guó)產(chǎn)大模型，探索 AI 推理新極限

模型后訓(xùn)練

該模型采用兩階段訓(xùn)練策略，先用小模型生成多樣化的推理路徑，再用大模型進(jìn)行 RFT 訓(xùn)練和強(qiáng)化學(xué)習(xí)訓(xùn)練，提升模型推理能力和反思糾錯(cuò)能力。

360gpt2-o1 上線：“會(huì)思考”的國(guó)產(chǎn)大模型，探索 AI 推理新極限

“慢思考”范式

利用蒙特卡洛樹搜索探索多樣化解決方案，并引入 LLM 進(jìn)行錯(cuò)誤驗(yàn)證和糾錯(cuò)，模擬人類逐步推理和反思的過(guò)程，最終形成包含反思、驗(yàn)證、糾錯(cuò)和回溯的長(zhǎng)思維鏈。

360gpt2-o1 上線：“會(huì)思考”的國(guó)產(chǎn)大模型，探索 AI 推理新極限

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

相關(guān)文章

關(guān)鍵詞：360，AI

日榜
周榜
月榜

軟媒旗下網(wǎng)站： IT之家最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件： 軟媒手機(jī)APP應(yīng)用魔方最會(huì)買要知