開源代碼大模型的王座,再次易主!
來自素有“歐洲 OpenAI”之稱的 Mistral,用 22B 參數(shù)量表現(xiàn)超越了 70B 的 Code Llama。
模型名為 Codestral,將代碼的英文 Code 與公司名結(jié)合而成。
在 80 多種編程語言上進(jìn)行過訓(xùn)練后,Codestral 用更少的參數(shù)實(shí)現(xiàn)了更高的性能,窗口長度也達(dá)到了 32k,相比之前一眾 4k、8k 的模型大幅增加。
而且已經(jīng)有人表示,GPT-4o 和 Claude3-Opus 都失敗的代碼編輯任務(wù),被 Codestral 成功解決了。
于是有網(wǎng)友直言,Codestral 的推出,直接改寫了多語言代碼模型的游戲規(guī)則。
另一方面,還有網(wǎng)友直接 @了知名本地大模型框架 Ollama,希望能夠支持 Codestral,結(jié)果 Ollama 這邊也迅速響應(yīng),在請(qǐng)求發(fā)出后 1 個(gè)小時(shí)就增加了對(duì) Codestral 的支持。
那么,Codestral 在測(cè)試中都取得了哪些成績呢?
開源編程模型的新王者
Codestral 的參數(shù)量為 22B,支持 32k 的上下文窗口。
在開發(fā)過程中,研究人員使用了 80 多種編程語言的代碼數(shù)據(jù)對(duì) Codestral 進(jìn)行了訓(xùn)練。
其中既包括 Python、Java、C++ 和 Bash 等這些流行語言,也有像 Fortran、COBOL 這樣的古早語言。
值得一提的是,其中的 COBOL 誕生于 1959 年,但至今全球仍有 43% 的銀行系統(tǒng)依賴它,然而另一方面,現(xiàn)在會(huì)用的人數(shù)卻寥寥無幾,而且普遍年事已高。
AI 工具對(duì) COBOL 的支持,或許將成為解決 COBOL 人才極度緊缺問題的一種途徑。
說回到 Codestral,雖然參數(shù)量只有不到三分之一,但測(cè)評(píng)成績已經(jīng)大幅超過了 70B 的 Code Llama。
對(duì)于 Python 語言,研發(fā)團(tuán)隊(duì)使用了 HumanEval(pass@1)和 MBPP 評(píng)估了 Codestral 的 Python 代碼生成能力,用 CruxEval 來評(píng)估輸出預(yù)測(cè),以及用 RepoBench 評(píng)估 Codestral 在遠(yuǎn)程存儲(chǔ)庫中的代碼補(bǔ)全能力。
結(jié)果,Codestral 在其中的三項(xiàng)測(cè)試中都取得了最佳成績,并對(duì) Llama 3 和 Code Llama 形成了全面超越。
數(shù)據(jù)庫方面,在針對(duì) SQL 的 Spider 測(cè)試中,Codestral 的表現(xiàn)也與通用模型 Llama3 十分接近。
對(duì)于其他一些編程語言,Codestral 和通用版 Llama3 各有勝負(fù),平均成績則小幅超過了 Llama3,但相對(duì)于 Code Llama 的優(yōu)勢(shì)是十分明顯的。
另外,Codestral 還支持 FIM(fill-in-the-middle),也就是可以對(duì)現(xiàn)有代碼進(jìn)行填充補(bǔ)全。
在 Python、JS 和 Java 三種語言當(dāng)中,Codestral 都取得了接近或超過 90% 的 HumanEvalFIM 評(píng)分,平均成績 91.6%,超過了參數(shù)量更大的 DeepSeek Coder 33B。
速度方面,使用在線對(duì)話版本,只要三秒鐘就能構(gòu)建出一個(gè)帶有頂部 banner 和側(cè)邊欄的 HTML 框架。
不僅性能表現(xiàn)優(yōu)異,形式上,Codestral 支持的使用方式也多種多樣。
Mistral 已經(jīng)把模型權(quán)重上傳到了 HuggingFace,有條件的可以自行下載部署。
以及 LangChain、LlamaIndex,還有開頭提到的 Ollama 等這些大模型框架,以及 Mistral 自家的開發(fā)者平臺(tái) La Plateforme 當(dāng)中都已經(jīng)支持使用 Codestral。
專屬 API 也正在趕來的路上,正在進(jìn)行為期 8 周的測(cè)試,期間開發(fā)者可以免費(fèi)使用。
如果還是不會(huì)部署的話,也可以到 Mistral 的在線對(duì)話平臺(tái) Le Chat 當(dāng)中,直接使用網(wǎng)頁進(jìn)行對(duì)話。
當(dāng)然,開發(fā)者更關(guān)心的,可能還是能不能集成到 IDE 中使用。
對(duì)此,官方暫未推出原生的 IDE 支持,不過已經(jīng)有 Continue.dev、Tabnine 等第三方插件支持了 Codestral,可以通過這些插件在 VSCode 和 JetBrains 系列 IDE 中使用。
One More Thing
與 Codestral 一同官宣的,還有 Mistral 全新的“非生產(chǎn)”(Non-Production)許可協(xié)議,簡稱 MNPL。
本次發(fā)布的 CodeStral 使用的許可協(xié)議也正是 MNPL,按照規(guī)定僅可用于研究目的,不能進(jìn)行商用。
并且,這份協(xié)議對(duì)“非商用”的界定也十分嚴(yán)格,即使僅將其用于公司內(nèi)部事務(wù)也不被允許。
有開源作者就此吐槽,他們用我代碼的時(shí)候從未征求我的意見,為什么還反過來要求我遵守他們的規(guī)定,這實(shí)在是太荒謬了。
而 Mistral 這邊的解釋則是,如果放開商業(yè)用途,可能無法得到使用者對(duì)模型研發(fā)的貢獻(xiàn)。
官方同時(shí)也表示,雖然 Codestral 不能商用,但并不意味著之后的其他開源模型也是如此,同時(shí)明確表示后續(xù)會(huì)繼續(xù)發(fā)布基于 Apache 2.0 協(xié)議的其他模型。
參考鏈接:
[1]https://mistral.ai/news/codestral/
[2]https://x.com/GuillaumeLample/status/1795820710750744839
[3]https://www.theverge.com/2024/5/29/24166334/mistral-debuts-a-coding-assistant-called-codestral
本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:克雷西
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。