設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
中国联通上线 iPhone eSIM 网站    华为 2024 年净利润 626 亿元

浪潮信息發(fā)布“源 2.0”基礎大模型,千億參數(shù)代碼開源

2023/11/27 17:53:37 來源:IT之家 作者:汪淼 責編:汪淼
感謝IT之家網(wǎng)友 HH_KK 的線索投遞!

IT之家 11 月 27 日消息,浪潮信息今日發(fā)布了“源 2.0”基礎大模型,并宣布全面開源。源 2.0 基礎大模型包括 1026 億、518 億、21 億等三種參數(shù)規(guī)模的模型。

據(jù)介紹,源 2.0 通過使用中英文書籍、百科、論文等高質(zhì)量中英文資料,降低了互聯(lián)網(wǎng)語料內(nèi)容占比。為了獲取中文數(shù)學數(shù)據(jù),浪潮信息清洗了從 2018 年至今約 10PB 的互聯(lián)網(wǎng)數(shù)據(jù),但僅獲取到了約 10GB 的數(shù)學數(shù)據(jù)。

為了更高效地獲得相對匱乏的高質(zhì)量中文數(shù)學及代碼數(shù)據(jù)集,源 2.0 采用了基于大模型的數(shù)據(jù)生產(chǎn)及過濾方法,在保證數(shù)據(jù)的多樣性的同時也在每一個類別上提升數(shù)據(jù)質(zhì)量。

圖片

算力方面,源 2.0 采用了非均勻流水并行的方法,綜合運用流水線并行 + 優(yōu)化器參數(shù)并行 + 數(shù)據(jù)并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現(xiàn)顯存瓶頸導致的訓練效率降低的問題。

圖片

源 2.0 在評測上進行了代碼生成、數(shù)學問題求解、事實問答方面的能力測試,測試結(jié)果顯示,源 2.0 整體表現(xiàn)處于中上水平。

圖片

源 2.0 采用全面開源策略,全系列模型參數(shù)和代碼均可免費下載使用。IT之家附 GitHub 頁面和論文鏈接:

代碼開源鏈接:

https://github.com/IEIT-Yuan/Yuan-2.0

論文鏈接:

https://github.com/IEIT-Yuan/Yuan-2.0/blob/main/docs/Yuan2.0_paper.pdf

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:浪潮,大模型
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知