IT之家 10 月 19 日消息,北京大學(xué)軟件工程國家工程研究中心知識計算實驗室聯(lián)合四川天府銀行 AI 實驗室,今天正式開源旗下 70 億參數(shù)的代碼大模型 CodeShell,號稱“同等規(guī)模最強代碼基座”。
官方已經(jīng)在 GitHub 開源了模型、相關(guān)配套方案及 IDE 插件,支持商用,感興趣的小伙伴們可以在此前往。
IT之家從項目詳情中獲悉,CodeShell-7B 基于 5000 億 Tokens 進行了冷啟動訓(xùn)練,上下文窗口長度為 8192,架構(gòu)設(shè)計上融合了 StarCoder 和 Llama 兩者的核心特性。
官方聲稱,CodeShell 的原始訓(xùn)練數(shù)據(jù)基于自家爬取的 Github 數(shù)據(jù)、Stack 和 StarCoder 數(shù)據(jù)集,以及少量“高質(zhì)量的中英文數(shù)據(jù)”,這些預(yù)訓(xùn)練數(shù)據(jù)均經(jīng)過了“數(shù)據(jù)判重、數(shù)據(jù)過濾規(guī)則、數(shù)據(jù)質(zhì)量模型一系列流水線”。
CodeShell 構(gòu)建了包含 7 萬個詞的詞表,中文、英文、代碼的壓縮比分別為 2.83、3.29、3.21,支持中英文和代碼的平衡且高效的編解碼。
具體性能方面,為了獲得最大的分布式訓(xùn)練效率,Codeshell 基于 Megatron-LM,聲稱“在 Attention 算子優(yōu)化、數(shù)據(jù)預(yù)處理、數(shù)據(jù)加載、日志輸出、狀態(tài)監(jiān)控、分布式訓(xùn)練管理等方面進行了深度定制”,支持 Flash Attention2 加速,訓(xùn)練吞吐量達到了每 GPU 每秒 3400 Token 的業(yè)界先進水平。
在代碼評估基準 HumanEval 和 MBPP 中,CodeShell 超過了 CodeLlama-7B 和 StarCodeBase-7B,在 humaneval 的其它編程語言評測中,如 JavaScript、Java、C++,CodeShell 依然性能領(lǐng)先。
官方還介紹了基于 CodeShell 打造的“全能代碼助手模型”CodeShell-Chat,該 AI 工具支持“對話”、“代碼生成”、“代碼補齊”、“代碼注釋”、“代碼檢查”與“測試用例生成”等功能。
而在 IDE 插件方面,該插件目前支持 VSCode 和 IntelliJ IDEA,適用于各種主流編程語言,并提供了“專注模式”和“交互模式”,以提升開發(fā)者效率。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。