IT之家 6 月 3 日消息,昆侖萬(wàn)維今日宣布開(kāi)源 2 千億稀疏大模型 Skywork-MoE,基于之前昆侖萬(wàn)維開(kāi)源的 Skywork-13B 模型中間 checkpoint 擴(kuò)展而來(lái),號(hào)稱是首個(gè)完整將 MoE Upcycling 技術(shù)應(yīng)用并落地的開(kāi)源千億 MoE 大模型,也是首個(gè)支持用單臺(tái) RTX 4090 服務(wù)器(8 張 RTX 4090 顯卡)推理的開(kāi)源千億 MoE 大模型。
據(jù)介紹,本次開(kāi)源的 Skywork-MoE 模型隸屬于天工 3.0 的研發(fā)模型系列,是其中的中檔大小模型(Skywork-MoE-Medium),模型的總參數(shù)量為 146B,激活參數(shù)量 22B,共有 16 個(gè) Expert,每個(gè) Expert 大小為 13B,每次激活其中的 2 個(gè) Expert。
天工 3.0 還訓(xùn)練了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)兩檔 MoE 模型,并不在此次開(kāi)源之列。
根據(jù)官方測(cè)試,在相同的激活參數(shù)量 20B(推理計(jì)算量)下,Skywork-MoE 能力接近 70B 的 Dense 模型,使得模型的推理成本有近 3 倍的下降。同時(shí) Skywork-MoE 的總參數(shù)大小比 DeepSeekV2 的總參數(shù)大小要小 1/3,用更小的參數(shù)規(guī)模做到了相近的能力。
Skywork-MoE 的模型權(quán)重、技術(shù)報(bào)告完全開(kāi)源,免費(fèi)商用,無(wú)需申請(qǐng),IT之家附鏈接如下:
模型權(quán)重下載:
https://huggingface.co/Skywork/Skywork-MoE-base
https://huggingface.co/Skywork/Skywork-MoE-Base-FP8
模型開(kāi)源倉(cāng)庫(kù):https://github.com/SkyworkAI/Skywork-MoE
模型技術(shù)報(bào)告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf
模型推理代碼:(支持 8 x 4090 服務(wù)器上 8 bit 量化加載推理) https://github.com/SkyworkAI/vllm
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。