設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

“全球首創(chuàng)”單臺(tái) RTX 4090 服務(wù)器推理,昆侖萬(wàn)維開(kāi)源 2 千億稀疏大模型天工 MoE

2024/6/3 18:11:54 來(lái)源:IT之家 作者:汪淼 責(zé)編:汪淼

IT之家 6 月 3 日消息,昆侖萬(wàn)維今日宣布開(kāi)源 2 千億稀疏大模型 Skywork-MoE,基于之前昆侖萬(wàn)維開(kāi)源的 Skywork-13B 模型中間 checkpoint 擴(kuò)展而來(lái),號(hào)稱是首個(gè)完整將 MoE Upcycling 技術(shù)應(yīng)用并落地的開(kāi)源千億 MoE 大模型,也是首個(gè)支持用單臺(tái) RTX 4090 服務(wù)器(8 張 RTX 4090 顯卡)推理的開(kāi)源千億 MoE 大模型。

據(jù)介紹,本次開(kāi)源的 Skywork-MoE 模型隸屬于天工 3.0 的研發(fā)模型系列,是其中的中檔大小模型(Skywork-MoE-Medium),模型的總參數(shù)量為 146B,激活參數(shù)量 22B,共有 16 個(gè) Expert,每個(gè) Expert 大小為 13B,每次激活其中的 2 個(gè) Expert。

天工 3.0 還訓(xùn)練了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)兩檔 MoE 模型,并不在此次開(kāi)源之列。

根據(jù)官方測(cè)試,在相同的激活參數(shù)量 20B(推理計(jì)算量)下,Skywork-MoE 能力接近 70B 的 Dense 模型,使得模型的推理成本有近 3 倍的下降。同時(shí) Skywork-MoE 的總參數(shù)大小比 DeepSeekV2 的總參數(shù)大小要小 1/3,用更小的參數(shù)規(guī)模做到了相近的能力。

圖片

Skywork-MoE 的模型權(quán)重、技術(shù)報(bào)告完全開(kāi)源,免費(fèi)商用,無(wú)需申請(qǐng),IT之家附鏈接如下:

  •  模型權(quán)重下載:

https://huggingface.co/Skywork/Skywork-MoE-base

https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:昆侖萬(wàn)維,開(kāi)源模型

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知