設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

AI 編程能力哪家強?阿里通義千問 Qwen 推 CodeElo 基準(zhǔn),OpenAI o1-mini 奪冠超 90% 人類程序員

2025/1/4 13:32:24 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 1 月 4 日消息,阿里通義千問 Qwen 最新推出 CodeElo 基準(zhǔn)測試,通過和人類程序員對比的 Elo 評級系統(tǒng),來評估大語言模型(LLM)的編程水平。

項目背景

大語言模型的 AI 場景應(yīng)用之一,就是生成、補全代碼,只是現(xiàn)階段評估編程真實能力方面存在諸多挑戰(zhàn)。

包括 LiveCodeBench 和 USACO 在內(nèi)的現(xiàn)有基準(zhǔn)測試均存在局限性,缺乏健壯的私有測試用例,不支持專門的判斷系統(tǒng),并且經(jīng)常使用不一致的執(zhí)行環(huán)境。

CodeElo:借力 CodeForces,打造更精準(zhǔn)的 LLM 評估體系

IT之家注:Qwen 研究團隊為了解決這些挑戰(zhàn),推出了 CodeElo 基準(zhǔn)測試,旨在利用與人類程序員比較的 Elo 評級系統(tǒng),來評估 LLM 的編程競賽水平。

CodeElo 的題目來自 CodeForces 平臺,該平臺以其嚴(yán)格的編程競賽而聞名,通過直接向 CodeForces 平臺提交解決方案,CodeElo 確保了評估的準(zhǔn)確性,解決了誤報等問題,并支持需要特殊評判機制的題目。此外,Elo 評級系統(tǒng)反映了人類的排名,可以有效比較 LLM 和人類參賽者的表現(xiàn)。

CodeElo 三大核心要素:全面、穩(wěn)健、標(biāo)準(zhǔn)化

CodeElo 基于三個關(guān)鍵要素:

  • 全面的問題選擇: 題目按比賽分區(qū)、難度級別和算法標(biāo)簽進(jìn)行分類,提供全面評估。

  • 穩(wěn)健的評估方法: 提交的代碼在 CodeForces 平臺上進(jìn)行測試,利用其特殊評估機制確保準(zhǔn)確判斷,無需隱藏測試用例,并提供可靠反饋。

  • 標(biāo)準(zhǔn)化的評級計算: Elo 評級系統(tǒng)評估代碼的正確性,考慮問題難度,并對錯誤進(jìn)行懲罰,激勵高質(zhì)量的解決方案,為評估編碼模型提供了細(xì)致有效的工具。

測試結(jié)果

在對 30 個開源 LLM 和 3 個專有 LLM 進(jìn)行測試后,OpenAI 的 o1-mini 模型表現(xiàn)最佳,Elo 評分為 1578,超過了 90% 的人類參與者;開源模型中,QwQ-32B-Preview 以 1261 分位居榜首。

然而,許多模型在解決簡單問題時仍顯吃力,通常排名在人類參與者的后 20%。分析顯示,模型在數(shù)學(xué)和實現(xiàn)等類別表現(xiàn)出色,但在動態(tài)規(guī)劃和樹形算法方面存在不足。

此外,模型使用 C++ 編碼時表現(xiàn)更佳,這與競技程序員的偏好一致,這些結(jié)果突出了 LLM 需要改進(jìn)的領(lǐng)域。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI阿里,通義千問,Qwen

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知