AI 編程能力哪家強(qiáng)？阿里通義千問 Qwen 推 CodeElo 基準(zhǔn)，OpenAI o1-mini 奪冠超 90% 人類程序員

2025/1/4 13:32:24 來源：IT之家作者：故淵責(zé)編：故淵

評(píng)論：

IT之家 1 月 4 日消息，阿里通義千問 Qwen 最新推出 CodeElo 基準(zhǔn)測試，通過和人類程序員對(duì)比的 Elo 評(píng)級(jí)系統(tǒng)，來評(píng)估大語言模型（LLM）的編程水平。

項(xiàng)目背景

大語言模型的 AI 場景應(yīng)用之一，就是生成、補(bǔ)全代碼，只是現(xiàn)階段評(píng)估編程真實(shí)能力方面存在諸多挑戰(zhàn)。

包括 LiveCodeBench 和 USACO 在內(nèi)的現(xiàn)有基準(zhǔn)測試均存在局限性，缺乏健壯的私有測試用例，不支持專門的判斷系統(tǒng)，并且經(jīng)常使用不一致的執(zhí)行環(huán)境。

CodeElo：借力 CodeForces，打造更精準(zhǔn)的 LLM 評(píng)估體系

IT之家注：Qwen 研究團(tuán)隊(duì)為了解決這些挑戰(zhàn)，推出了 CodeElo 基準(zhǔn)測試，旨在利用與人類程序員比較的 Elo 評(píng)級(jí)系統(tǒng)，來評(píng)估 LLM 的編程競賽水平。

CodeElo 的題目來自 CodeForces 平臺(tái)，該平臺(tái)以其嚴(yán)格的編程競賽而聞名，通過直接向 CodeForces 平臺(tái)提交解決方案，CodeElo 確保了評(píng)估的準(zhǔn)確性，解決了誤報(bào)等問題，并支持需要特殊評(píng)判機(jī)制的題目。此外，Elo 評(píng)級(jí)系統(tǒng)反映了人類的排名，可以有效比較 LLM 和人類參賽者的表現(xiàn)。

CodeElo 三大核心要素：全面、穩(wěn)健、標(biāo)準(zhǔn)化

AI 編程能力哪家強(qiáng)？阿里通義千問 Qwen 推 CodeElo 基準(zhǔn)，OpenAI o1-mini 奪冠超 90% 人類程序員

CodeElo 基于三個(gè)關(guān)鍵要素：

全面的問題選擇: 題目按比賽分區(qū)、難度級(jí)別和算法標(biāo)簽進(jìn)行分類，提供全面評(píng)估。
穩(wěn)健的評(píng)估方法: 提交的代碼在 CodeForces 平臺(tái)上進(jìn)行測試，利用其特殊評(píng)估機(jī)制確保準(zhǔn)確判斷，無需隱藏測試用例，并提供可靠反饋。
標(biāo)準(zhǔn)化的評(píng)級(jí)計(jì)算: Elo 評(píng)級(jí)系統(tǒng)評(píng)估代碼的正確性，考慮問題難度，并對(duì)錯(cuò)誤進(jìn)行懲罰，激勵(lì)高質(zhì)量的解決方案，為評(píng)估編碼模型提供了細(xì)致有效的工具。

測試結(jié)果

在對(duì) 30 個(gè)開源 LLM 和 3 個(gè)專有 LLM 進(jìn)行測試后，OpenAI 的 o1-mini 模型表現(xiàn)最佳，Elo 評(píng)分為 1578，超過了 90% 的人類參與者；開源模型中，QwQ-32B-Preview 以 1261 分位居榜首。

AI 編程能力哪家強(qiáng)？阿里通義千問 Qwen 推 CodeElo 基準(zhǔn)，OpenAI o1-mini 奪冠超 90% 人類程序員

然而，許多模型在解決簡單問題時(shí)仍顯吃力，通常排名在人類參與者的后 20%。分析顯示，模型在數(shù)學(xué)和實(shí)現(xiàn)等類別表現(xiàn)出色，但在動(dòng)態(tài)規(guī)劃和樹形算法方面存在不足。

此外，模型使用 C++ 編碼時(shí)表現(xiàn)更佳，這與競技程序員的偏好一致，這些結(jié)果突出了 LLM 需要改進(jìn)的領(lǐng)域。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 編程能力哪家強(qiáng)？阿里通義千問 Qwen 推 CodeElo 基準(zhǔn)，OpenAI o1-mini 奪冠超 90% 人類程序員

項(xiàng)目背景

CodeElo：借力 CodeForces，打造更精準(zhǔn)的 LLM 評(píng)估體系

CodeElo 三大核心要素：全面、穩(wěn)健、標(biāo)準(zhǔn)化

測試結(jié)果

相關(guān)文章

CodeElo：借力 CodeForces，打造更精準(zhǔn)的 LLM 評(píng)估體系

CodeElo 三大核心要素：全面、穩(wěn)健、標(biāo)準(zhǔn)化