北大推出“最強(qiáng)編程助手”：代碼大模型 CodeShell-7B 開(kāi)源，性能霸榜

2023/10/19 16:48:33 來(lái)源：IT之家作者：漾仔（實(shí)習(xí)） 責(zé)編：漾仔

評(píng)論：

IT之家 10 月 19 日消息，北京大學(xué)軟件工程國(guó)家工程研究中心知識(shí)計(jì)算實(shí)驗(yàn)室聯(lián)合四川天府銀行 AI 實(shí)驗(yàn)室，今天正式開(kāi)源旗下 70 億參數(shù)的代碼大模型 CodeShell，號(hào)稱(chēng)“同等規(guī)模最強(qiáng)代碼基座”。

官方已經(jīng)在 GitHub 開(kāi)源了模型、相關(guān)配套方案及 IDE 插件，支持商用，感興趣的小伙伴們可以在此前往。

▲ 圖源官方 GitHub 項(xiàng)目

IT之家從項(xiàng)目詳情中獲悉，CodeShell-7B 基于 5000 億 Tokens 進(jìn)行了冷啟動(dòng)訓(xùn)練，上下文窗口長(zhǎng)度為 8192，架構(gòu)設(shè)計(jì)上融合了 StarCoder 和 Llama 兩者的核心特性。

官方聲稱(chēng)，CodeShell 的原始訓(xùn)練數(shù)據(jù)基于自家爬取的 Github 數(shù)據(jù)、Stack 和 StarCoder 數(shù)據(jù)集，以及少量“高質(zhì)量的中英文數(shù)據(jù)”，這些預(yù)訓(xùn)練數(shù)據(jù)均經(jīng)過(guò)了“數(shù)據(jù)判重、數(shù)據(jù)過(guò)濾規(guī)則、數(shù)據(jù)質(zhì)量模型一系列流水線”。

CodeShell 構(gòu)建了包含 7 萬(wàn)個(gè)詞的詞表，中文、英文、代碼的壓縮比分別為 2.83、3.29、3.21，支持中英文和代碼的平衡且高效的編解碼。

具體性能方面，為了獲得最大的分布式訓(xùn)練效率，Codeshell 基于 Megatron-LM，聲稱(chēng)“在 Attention 算子優(yōu)化、數(shù)據(jù)預(yù)處理、數(shù)據(jù)加載、日志輸出、狀態(tài)監(jiān)控、分布式訓(xùn)練管理等方面進(jìn)行了深度定制”，支持 Flash Attention2 加速，訓(xùn)練吞吐量達(dá)到了每 GPU 每秒 3400 Token 的業(yè)界先進(jìn)水平。

在代碼評(píng)估基準(zhǔn) HumanEval 和 MBPP 中，CodeShell 超過(guò)了 CodeLlama-7B 和 StarCodeBase-7B，在 humaneval 的其它編程語(yǔ)言評(píng)測(cè)中，如 JavaScript、Java、C++，CodeShell 依然性能領(lǐng)先。

北大推出“最強(qiáng)編程助手”：代碼大模型 CodeShell-7B 開(kāi)源，性能霸榜

▲ 圖源官方 GitHub 項(xiàng)目

官方還介紹了基于 CodeShell 打造的“全能代碼助手模型”CodeShell-Chat，該 AI 工具支持“對(duì)話”、“代碼生成”、“代碼補(bǔ)齊”、“代碼注釋”、“代碼檢查”與“測(cè)試用例生成”等功能。

而在 IDE 插件方面，該插件目前支持 VSCode 和 IntelliJ IDEA，適用于各種主流編程語(yǔ)言，并提供了“專(zhuān)注模式”和“交互模式”，以提升開(kāi)發(fā)者效率。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

北大推出“最強(qiáng)編程助手”：代碼大模型 CodeShell-7B 開(kāi)源，性能霸榜

相關(guān)文章

北大推出“最強(qiáng)編程助手”：代碼大模型 CodeShell-7B 開(kāi)源，性能霸榜