“全球首創(chuàng)”單臺(tái) RTX 4090 服務(wù)器推理，昆侖萬(wàn)維開(kāi)源 2 千億稀疏大模型天工 MoE

2024/6/3 18:11:54 來(lái)源：IT之家作者：汪淼責(zé)編：汪淼

評(píng)論：

IT之家 6 月 3 日消息，昆侖萬(wàn)維今日宣布開(kāi)源 2 千億稀疏大模型 Skywork-MoE，基于之前昆侖萬(wàn)維開(kāi)源的 Skywork-13B 模型中間 checkpoint 擴(kuò)展而來(lái)，號(hào)稱是首個(gè)完整將 MoE Upcycling 技術(shù)應(yīng)用并落地的開(kāi)源千億 MoE 大模型，也是首個(gè)支持用單臺(tái) RTX 4090 服務(wù)器（8 張 RTX 4090 顯卡）推理的開(kāi)源千億 MoE 大模型。

據(jù)介紹，本次開(kāi)源的 Skywork-MoE 模型隸屬于天工 3.0 的研發(fā)模型系列，是其中的中檔大小模型（Skywork-MoE-Medium），模型的總參數(shù)量為 146B，激活參數(shù)量 22B，共有 16 個(gè) Expert，每個(gè) Expert 大小為 13B，每次激活其中的 2 個(gè) Expert。

天工 3.0 還訓(xùn)練了 75B （Skywork-MoE-Small）和 400B （Skywork-MoE-Large）兩檔 MoE 模型，并不在此次開(kāi)源之列。

根據(jù)官方測(cè)試，在相同的激活參數(shù)量 20B（推理計(jì)算量）下，Skywork-MoE 能力接近 70B 的 Dense 模型，使得模型的推理成本有近 3 倍的下降。同時(shí) Skywork-MoE 的總參數(shù)大小比 DeepSeekV2 的總參數(shù)大小要小 1/3，用更小的參數(shù)規(guī)模做到了相近的能力。

Skywork-MoE 的模型權(quán)重、技術(shù)報(bào)告完全開(kāi)源，免費(fèi)商用，無(wú)需申請(qǐng)，IT之家附鏈接如下：

模型權(quán)重下載：

https://huggingface.co/Skywork/Skywork-MoE-base

https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

模型開(kāi)源倉(cāng)庫(kù)：https://github.com/SkyworkAI/Skywork-MoE
模型技術(shù)報(bào)告：https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf
模型推理代碼：（支持 8 x 4090 服務(wù)器上 8 bit 量化加載推理） https://github.com/SkyworkAI/vllm

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

“全球首創(chuàng)”單臺(tái) RTX 4090 服務(wù)器推理，昆侖萬(wàn)維開(kāi)源 2 千億稀疏大模型天工 MoE

相關(guān)文章