首届人形机器人半程马拉松冠亚季军出炉    中国移动下调全国亲情网资费

DeepSeek 開(kāi)源進(jìn)度 3/5:深度學(xué)習(xí)利器 DeepGEMM

2025/2/26 9:22:24 來(lái)源:IT之家 作者:清源 責(zé)編:清源
感謝IT之家網(wǎng)友 刺客、昵稱(chēng)已起煩、HH_KK 的線(xiàn)索投遞!

IT之家 2 月 26 日消息,DeepSeek“開(kāi)源周”的進(jìn)度今日來(lái)到 3/5:支持稠密和混合專(zhuān)家模型 (MoE) 的 FP8 矩陣乘法 (GEMM) 庫(kù),用以驅(qū)動(dòng) V3 / R1 模型的訓(xùn)練和推理。

  • 在 Hopper GPU 上可實(shí)現(xiàn)高達(dá) 1350+ FP8 TFLOPS 性能

  • 無(wú)復(fù)雜依賴(lài),代碼簡(jiǎn)潔如教程

  • 完全采用即時(shí)編譯技術(shù)(Just-In-Time)

  • 核心代碼僅約 300 行 —— 在大多數(shù)矩陣尺寸下超越了專(zhuān)家優(yōu)化的內(nèi)核

  • 支持稠密布局和兩種 MoE 布局

IT之家附開(kāi)源鏈接:https://github.com/deepseek-ai/DeepGEMM

官方介紹大意如下:

DeepGEMM 是一個(gè)專(zhuān)為高效且清晰的 FP8 通用矩陣乘法(GEMM)設(shè)計(jì)的庫(kù),具備 DeepSeek-V3 所提出的精細(xì)化縮放能力。它支持普通的 GEMM 以及 Mix-of-Experts (MoE) 分組 GEMM。

該庫(kù)基于 CUDA 編寫(xiě),在安裝時(shí)無(wú)需預(yù)編譯,而是通過(guò)輕量級(jí)的即時(shí)編譯(JIT)模塊,在運(yùn)行時(shí)動(dòng)態(tài)編譯所有內(nèi)核。

目前,DeepGEMM 僅支持 NVIDIA Hopper 張量核心。為了應(yīng)對(duì) FP8 張量核心累加不精確的問(wèn)題,它使用了 CUDA 核心的兩級(jí)累加(提升)方法。雖然它借鑒了部分 CUTLASS 和 CuTe 的理念,但并未過(guò)度依賴(lài)它們的模板或代數(shù)結(jié)構(gòu)。

DeepGEMM 的設(shè)計(jì)簡(jiǎn)潔,核心內(nèi)核函數(shù)只有大約 300 行代碼,方便學(xué)習(xí) Hopper FP8 矩陣乘法和優(yōu)化技術(shù)。

盡管采用輕量設(shè)計(jì),DeepGEMM 在多種矩陣形狀下的性能表現(xiàn)與專(zhuān)家優(yōu)化的庫(kù)相當(dāng),甚至更好。

我們?cè)?H800 上,使用 NVCC 12.8 測(cè)試了 DeepSeek-V3 / R1 推理中可能用到的各種矩陣形狀(包括預(yù)填充和解碼,但不涉及張量并行)。所有加速指標(biāo)都是相對(duì)于我們內(nèi)部精心優(yōu)化的 CUTLASS 3.6 實(shí)現(xiàn)計(jì)算的。

DeepGEMM 在某些矩陣形狀下的表現(xiàn)不盡如人意,歡迎有興趣的朋友提交優(yōu)化 PR。

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:DeepSeek
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會(huì)買(mǎi) - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買(mǎi) 要知