設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

北大推出“最強(qiáng)編程助手”:代碼大模型 CodeShell-7B 開(kāi)源,性能霸榜

2023/10/19 16:48:33 來(lái)源:IT之家 作者:漾仔(實(shí)習(xí)) 責(zé)編:漾仔

IT之家 10 月 19 日消息,北京大學(xué)軟件工程國(guó)家工程研究中心知識(shí)計(jì)算實(shí)驗(yàn)室聯(lián)合四川天府銀行 AI 實(shí)驗(yàn)室,今天正式開(kāi)源旗下 70 億參數(shù)的代碼大模型 CodeShell,號(hào)稱(chēng)“同等規(guī)模最強(qiáng)代碼基座”

官方已經(jīng)在 GitHub 開(kāi)源了模型、相關(guān)配套方案及 IDE 插件,支持商用,感興趣的小伙伴們可以在此前往。

▲ 圖源 官方 GitHub 項(xiàng)目

IT之家從項(xiàng)目詳情中獲悉,CodeShell-7B 基于 5000 億 Tokens 進(jìn)行了冷啟動(dòng)訓(xùn)練,上下文窗口長(zhǎng)度為 8192,架構(gòu)設(shè)計(jì)上融合了 StarCoder 和 Llama 兩者的核心特性

官方聲稱(chēng),CodeShell 的原始訓(xùn)練數(shù)據(jù)基于自家爬取的 Github 數(shù)據(jù)、Stack 和 StarCoder 數(shù)據(jù)集,以及少量“高質(zhì)量的中英文數(shù)據(jù)”,這些預(yù)訓(xùn)練數(shù)據(jù)均經(jīng)過(guò)了“數(shù)據(jù)判重、數(shù)據(jù)過(guò)濾規(guī)則、數(shù)據(jù)質(zhì)量模型一系列流水線”。

CodeShell 構(gòu)建了包含 7 萬(wàn)個(gè)詞的詞表,中文、英文、代碼的壓縮比分別為 2.83、3.29、3.21,支持中英文和代碼的平衡且高效的編解碼。

具體性能方面,為了獲得最大的分布式訓(xùn)練效率,Codeshell 基于 Megatron-LM,聲稱(chēng)“在 Attention 算子優(yōu)化、數(shù)據(jù)預(yù)處理、數(shù)據(jù)加載、日志輸出、狀態(tài)監(jiān)控、分布式訓(xùn)練管理等方面進(jìn)行了深度定制”,支持 Flash Attention2 加速,訓(xùn)練吞吐量達(dá)到了每 GPU 每秒 3400 Token 的業(yè)界先進(jìn)水平。

在代碼評(píng)估基準(zhǔn) HumanEval 和 MBPP 中,CodeShell 超過(guò)了 CodeLlama-7B 和 StarCodeBase-7B,在 humaneval 的其它編程語(yǔ)言評(píng)測(cè)中,如 JavaScript、Java、C++,CodeShell 依然性能領(lǐng)先。

▲ 圖源 官方 GitHub 項(xiàng)目

官方還介紹了基于 CodeShell 打造的“全能代碼助手模型”CodeShell-Chat,該 AI 工具支持“對(duì)話”、“代碼生成”、“代碼補(bǔ)齊”、“代碼注釋”、“代碼檢查”與“測(cè)試用例生成”等功能。

而在 IDE 插件方面,該插件目前支持 VSCode 和 IntelliJ IDEA,適用于各種主流編程語(yǔ)言,并提供了“專(zhuān)注模式”和“交互模式”,以提升開(kāi)發(fā)者效率。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI,大模型Codeshell7B
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知