IT之家 1 月 12 日消息,本周,來自加州大學(xué)伯克利分校 Sky Computing 實(shí)驗(yàn)室的研究團(tuán)隊(duì) NovaSky 發(fā)布了一款名為 Sky-T1-32B-Preview 的推理模型。該模型在多項(xiàng)關(guān)鍵基準(zhǔn)測(cè)試中的表現(xiàn)可與 OpenAI 早期版本的 o1 模型相媲美。值得注意的是,Sky-T1-32B-Preview 似乎是首個(gè)真正意義上的開源推理模型,其訓(xùn)練數(shù)據(jù)集和代碼均已公開,用戶可以從零開始復(fù)現(xiàn)該模型。
NovaSky 團(tuán)隊(duì)在博客中透露,Sky-T1-32B-Preview 的訓(xùn)練成本不到 450 美元(IT之家備注:當(dāng)前約 3306 元人民幣),遠(yuǎn)低于以往同類模型的數(shù)百萬美元。這一突破得益于合成訓(xùn)練數(shù)據(jù)的廣泛應(yīng)用,合成數(shù)據(jù)是由其他模型生成的數(shù)據(jù),能夠顯著降低訓(xùn)練成本。例如,AI 公司 Writer 最近發(fā)布的 Palmyra X 004 模型幾乎完全依賴合成數(shù)據(jù)訓(xùn)練,開發(fā)成本僅為 70 萬美元。
與大多數(shù) AI 模型不同,推理模型具備自我事實(shí)核查能力,能夠有效避免一些常見錯(cuò)誤。盡管推理模型在解決問題時(shí)通常比非推理模型需多花費(fèi)幾秒到幾分鐘,但在物理、科學(xué)和數(shù)學(xué)等領(lǐng)域,其可靠性更高。
NovaSky 團(tuán)隊(duì)表示,Sky-T1 的訓(xùn)練數(shù)據(jù)由阿里巴巴的 QwQ-32B-Preview 推理模型生成,隨后經(jīng)過精心篩選,并利用 OpenAI 的 GPT-4o-mini 對(duì)數(shù)據(jù)進(jìn)行重構(gòu),使其更易于處理。訓(xùn)練這款擁有 320 億參數(shù)的模型僅耗時(shí)約 19 小時(shí),使用了 8 臺(tái) Nvidia H100 GPU。(參數(shù)數(shù)量大致對(duì)應(yīng)模型的解決問題能力。)
在性能方面,Sky-T1 在 MATH500(一組“競(jìng)賽級(jí)”數(shù)學(xué)挑戰(zhàn))上的表現(xiàn)優(yōu)于 o1 的早期預(yù)覽版本,同時(shí)在 LiveCodeBench 的編程評(píng)估中也表現(xiàn)更佳。然而,在 GPQA-Diamond 測(cè)試中(包含物理學(xué)、生物學(xué)和化學(xué)領(lǐng)域的研究生水平問題),Sky-T1 略遜于 o1 預(yù)覽版。
需要指出的是,OpenAI 已發(fā)布的 o1 正式版比預(yù)覽版更強(qiáng)大,且預(yù)計(jì)未來幾周內(nèi)將推出性能更優(yōu)的推理模型 o3。盡管如此,NovaSky 團(tuán)隊(duì)表示,Sky-T1 只是他們開發(fā)開源推理模型的起點(diǎn)。
團(tuán)隊(duì)在博客中寫道:“未來,我們將專注于開發(fā)更具效率的模型,同時(shí)保持強(qiáng)大的推理性能,并探索先進(jìn)技術(shù)以進(jìn)一步提升模型在測(cè)試時(shí)的效率和準(zhǔn)確性。請(qǐng)繼續(xù)關(guān)注我們?cè)谶@些激動(dòng)人心的項(xiàng)目上取得的進(jìn)展?!?/p>
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。