設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

DeepSeek R1 Preview 模型亮相,代碼能力與 OpenAI o1 相當且確認開源

量子位 2025/1/19 22:19:33 責編:汪淼

DeepSeek 版 o1,有消息了。

還未正式發(fā)布,已在代碼基準測試 LiveCodeBench 霸榜前三,表現(xiàn)與 OpenAI o1 的中檔推理設置相當。

注意了,這不是在 DeepSeek 官方 App 已經(jīng)能試玩的 DeepSeek-R1-Lite-Preview(輕量預覽版)。

而是摘掉了輕量版的帽子,稱為 DeepSeek-R1-Preview(預覽版),意味著替換了規(guī)模更大的基礎模型。

LiveCodeBench 團隊透露,他們正在與 DeepSeek 合作評估新模型的能力,在合作過程中,DeepSeek 團隊還幫他們找出并解決了評分系統(tǒng)的一些 bug。

與此同時,他們還曬出了目前僅有的一張 DeepSeek-R1-Preview 的思考過程。

鑒于 DeepSeek 此前已宣布 R1 模型將開源,有網(wǎng)友表示,與 OpenAI o1 編程能力相當?shù)拈_源模型即將發(fā)布,2025 年的編程就只剩下按 Tab 鍵了。

DeepSeek 推理大模型滿血版

兩個月前,DeepSeek 在官網(wǎng)上線 DeepSeek-R1-Lite-Preview 時曾透露:

DeepSeek-R1-Lite-Preview 使用強化學習訓練,推理含大量反思和驗證,遵循新的 Scaling Laws—— 推理越長,表現(xiàn)越強。

在 AIME 測試基準中,隨著推理長度的增加,DeepSeek-R1-Lite-Preview 表現(xiàn)出穩(wěn)定的得分提升。

DeepSeek-R1-Lite 推理的特點在網(wǎng)友們的后續(xù)測試中也得到了驗證:

在某些情況下,模型似乎能夠在生成推理步驟時自我糾正,表現(xiàn)出類似原生“自我反思”的能力。不過,沒有訓練數(shù)據(jù)、模型架構和技術報告 / 論文的細節(jié),很難確認這一點。

期待未來的開源模型和 API!

摘掉 Lite 的帽子,變成 DeepSeek-R1-Preview,意味著換了更大的基礎模型。

之前 Lite 版就在難度較高數(shù)學和代碼任務上超越 o1-preview,大幅領先 GPT-4o。

這次在 LiveCodeBench 上,這次的 DeepSeek-R1-Preview 的表現(xiàn)又與 OpenAI o1-Medium 相當,網(wǎng)友們更加期待開源模型和 API 了。

LiveCodeBench 由 UC 伯克利、MIT 和康奈爾大學團隊推出,旨在對大模型的代碼能力進行全面且無污染的評估。

具體避免測試數(shù)據(jù)泄露的方法,是隨著時間的推移不斷從人類的編程競賽平臺收集新的題目。

除了代碼生成,還會評估模型在代碼自修復、執(zhí)行和測試輸出預測等方面的能力。這樣實時更新、確保公平性和可靠性的測試方法,獲得了開發(fā)者社區(qū)的認可。

還有程序猿喊話 Cursor 直接把 R1-Preview 集成到 Agent mode 里:

One More Thing

趕在春節(jié)前,許多還在做訓練的國產(chǎn)大模型團隊,都把自家模型更新了一遍。OpenAI 似乎要趁這邊放假開始搞事情了(狗頭),阿爾特曼發(fā)帖透露:

o3-mini 完成外部合作測試,已確定最終版,將在幾周內(nèi)推出,會同時上線 API 和 ChatGPT。

在后續(xù)對話中,阿爾特曼還確認了未來模型更多基本情況:

  • o3-mini 的速度會非???/p>

  • o3-mini 大多數(shù)情況下不如 o1-pro

  • o3 pro 收費從 $200 / 月起步

  • OpenAI 正在關注如何讓 AI 一次性輸出更多內(nèi)容

  • 2025 年計劃把 GPT 系列和 o 系列合并

本文來自微信公眾號:量子位(ID:QbitAI),作者:夢晨、西風,原標題《DeepSeek 新模型霸榜,代碼能力與 OpenAI o1 相當且確認開源,網(wǎng)友:今年編程只剩 Tab 鍵》

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:DeepSeek,開源模型,代碼AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知