商湯“書生?浦語”2.0 大語言模型開源：200K 上下文，一次可讀 30 萬漢字

2024/1/17 13:06:37 來源：IT之家作者：汪淼責(zé)編：汪淼

評(píng)論：

IT之家 1 月 17 日消息，商湯科技與上海 AI 實(shí)驗(yàn)室聯(lián)合香港中文大學(xué)和復(fù)旦大學(xué)今日發(fā)布了新一代大語言模型書生?浦語 2.0（InternLM2）。

據(jù)介紹，InternLM2 是在 2.6 萬億 token 的語料上訓(xùn)練得到的。沿襲第一代書生?浦語（InternLM）設(shè)定，InternLM2 包含 7B 及 20B 兩種參數(shù)規(guī)格及基座、對(duì)話等版本，繼續(xù)開源，提供免費(fèi)商用授權(quán)。

目前，浦語背后的數(shù)據(jù)清洗過濾技術(shù)已經(jīng)歷三輪迭代升級(jí)，號(hào)稱僅使用約 60% 的訓(xùn)練數(shù)據(jù)即可達(dá)到使用第二代數(shù)據(jù)訓(xùn)練 1T tokens 的性能表現(xiàn)。

與第一代 InternLM 相比，InternLM2 在大規(guī)模高質(zhì)量的驗(yàn)證語料上的 Loss 分布整體左移，表明其語言建模能力增強(qiáng)。

通過拓展訓(xùn)練窗口大小和位置編碼改進(jìn)，InternLM2 支持 20 萬 tokens 的上下文，能夠一次性接受并處理約 30 萬漢字（約五六百頁的文檔）的輸入內(nèi)容。

下面表格對(duì)比了 InternLM2 各版本與 ChatGPT（GPT-3.5）以及 GPT-4 在典型評(píng)測(cè)集上的表現(xiàn)。可以看到，InternLM2 在 20B 參數(shù)的中等規(guī)模上，整體表現(xiàn)接近 ChatGPT。

IT之家附開源鏈接：

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

商湯“書生?浦語”2.0 大語言模型開源：200K 上下文，一次可讀 30 萬漢字

Github：

HuggingFace：

ModelScope：

相關(guān)文章

商湯“書生?浦語”2.0 大語言模型開源：200K 上下文，一次可讀 30 萬漢字