IT之家 1 月 4 日消息,阿里通義千問 Qwen 最新推出 CodeElo 基準(zhǔn)測試,通過和人類程序員對比的 Elo 評級系統(tǒng),來評估大語言模型(LLM)的編程水平。
項目背景
大語言模型的 AI 場景應(yīng)用之一,就是生成、補全代碼,只是現(xiàn)階段評估編程真實能力方面存在諸多挑戰(zhàn)。
包括 LiveCodeBench 和 USACO 在內(nèi)的現(xiàn)有基準(zhǔn)測試均存在局限性,缺乏健壯的私有測試用例,不支持專門的判斷系統(tǒng),并且經(jīng)常使用不一致的執(zhí)行環(huán)境。
CodeElo:借力 CodeForces,打造更精準(zhǔn)的 LLM 評估體系
IT之家注:Qwen 研究團隊為了解決這些挑戰(zhàn),推出了 CodeElo 基準(zhǔn)測試,旨在利用與人類程序員比較的 Elo 評級系統(tǒng),來評估 LLM 的編程競賽水平。
CodeElo 的題目來自 CodeForces 平臺,該平臺以其嚴(yán)格的編程競賽而聞名,通過直接向 CodeForces 平臺提交解決方案,CodeElo 確保了評估的準(zhǔn)確性,解決了誤報等問題,并支持需要特殊評判機制的題目。此外,Elo 評級系統(tǒng)反映了人類的排名,可以有效比較 LLM 和人類參賽者的表現(xiàn)。
CodeElo 三大核心要素:全面、穩(wěn)健、標(biāo)準(zhǔn)化
CodeElo 基于三個關(guān)鍵要素:
全面的問題選擇: 題目按比賽分區(qū)、難度級別和算法標(biāo)簽進(jìn)行分類,提供全面評估。
穩(wěn)健的評估方法: 提交的代碼在 CodeForces 平臺上進(jìn)行測試,利用其特殊評估機制確保準(zhǔn)確判斷,無需隱藏測試用例,并提供可靠反饋。
標(biāo)準(zhǔn)化的評級計算: Elo 評級系統(tǒng)評估代碼的正確性,考慮問題難度,并對錯誤進(jìn)行懲罰,激勵高質(zhì)量的解決方案,為評估編碼模型提供了細(xì)致有效的工具。
測試結(jié)果
在對 30 個開源 LLM 和 3 個專有 LLM 進(jìn)行測試后,OpenAI 的 o1-mini 模型表現(xiàn)最佳,Elo 評分為 1578,超過了 90% 的人類參與者;開源模型中,QwQ-32B-Preview 以 1261 分位居榜首。
然而,許多模型在解決簡單問題時仍顯吃力,通常排名在人類參與者的后 20%。分析顯示,模型在數(shù)學(xué)和實現(xiàn)等類別表現(xiàn)出色,但在動態(tài)規(guī)劃和樹形算法方面存在不足。
此外,模型使用 C++ 編碼時表現(xiàn)更佳,這與競技程序員的偏好一致,這些結(jié)果突出了 LLM 需要改進(jìn)的領(lǐng)域。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。