IT之家 3 月 7 日消息,美團搜推機器學習團隊 3 月 4 日公布最新首發(fā)開源成果,實現(xiàn)對 DeepSeek R1 模型基本無損的 INT8 精度量化。
DeepSeek R1 原生版本的模型權(quán)重為 FP8 數(shù)據(jù)格式,對 GPU 芯片類型有嚴格限制,僅能被英偉達新型 GPU 支持(如 Ada、Hopper 架構(gòu)芯片),其他型號 GPU(如 A100)無法直接部署。
目前,量化代碼已經(jīng)合入到了開源 LLM 推理框架 SGLang,量化模型已經(jīng)發(fā)布到了 Hugging Face 社區(qū),方便用戶使用。官方測試,滿血版 DeepSeek R1 部署 A100,基于 INT8 量化,相比 BF16 實現(xiàn) 50% 吞吐提升。
IT之家附開源地址:
https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。