IT之家 11 月 3 日消息,今天,寒武紀(jì)發(fā)布第三代云端 AI 芯片思元 370、基于思元 370 的兩款加速卡 MLU370-S4 和 MLU370-X4、全新升級的 Cambricon Neuware 軟件棧。
▲ 寒武紀(jì)第三代云端 AI 芯片思元 370
IT之家獲悉,基于 7nm 制程工藝,思元 370 是寒武紀(jì)首款采用 chiplet(芯粒)技術(shù)的 AI 芯片,集成了 390 億個晶體管,最大算力高達 256TOPS (INT8),是寒武紀(jì)第二代產(chǎn)品思元 270 算力的 2 倍。
憑借寒武紀(jì)最新智能芯片架構(gòu) MLUarch03,相較于峰值算力的提升,思元 370 實測性能表現(xiàn)更為優(yōu)秀:以 ResNet-50 為例,MLU370-S4 加速卡(半高半長)實測性能為同尺寸主流 GPU 的 2 倍;MLU370-X4 加速卡(全高全長)實測性能與同尺寸主流 GPU 相當(dāng),能效則大幅領(lǐng)先。
▲ 寒武紀(jì) MLU370-S4(左)與 MLU370-X4 加速卡
思元 370 也是國內(nèi)第一顆支持 LPDDR5 內(nèi)存的云端 AI 芯片,內(nèi)存帶寬是上一代產(chǎn)品的 3 倍,訪存能效達 GDDR6 的 1.5 倍。
同時,寒武紀(jì)全新升級了 Cambricon Neuware 軟件棧,新增推理加速引擎 MagicMind,實現(xiàn)訓(xùn)推一體,顯著提升了開發(fā)部署的效率,降低用戶的學(xué)習(xí)成本、開發(fā)成本和運營成本。
寒武紀(jì)發(fā)布了新一代智能處理器架構(gòu) MLUarch03,擁有新一代張量運算單元,內(nèi)置 Supercharger 模塊大幅提升各類卷積效率;采用全新的多算子硬件融合技術(shù),在軟件融合的基礎(chǔ)上大幅減少算子執(zhí)行時間;片上通訊帶寬是上一代 MLUarch02 的 2 倍、片上共享緩存容量最高是 MLUarch02 的 2.75 倍;推出全新 MLUv03 指令集,更完備,更高效且向前兼容。
▲ Supercharger 和多算子硬件融合技術(shù)
有 7nm 先進工藝和全新 MLUarch03 架構(gòu)的加持,思元 370 芯片算力最高可達 256TOPS (INT8),是上一代產(chǎn)品思元 270 算力的 2 倍。相較于峰值算力的提升,思元 370 在實測性能和能效方面的表現(xiàn)更為優(yōu)秀:以 ResNet-50 為例,MLU370-S4 加速卡(半高半長)實測性能為同尺寸主流 GPU 的 2 倍;MLU370-X4 加速卡(全高全長)實測性能與同尺寸主流 GPU 相當(dāng),能效則大幅領(lǐng)先。
▲ 7nm 先進工藝和全新 MLUarch03 架構(gòu)加持,
思元 370 實測性能和實測能效超市場主流 GPU 產(chǎn)品
* 測試環(huán)境:
MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU 數(shù)據(jù):ResNet-50 來自于相關(guān)產(chǎn)品官網(wǎng),Transformer、VGG16、YOLOv3 均取自實測最大吞吐性能。
思元 370 全面加強了 FP16、BF16 以及 FP32 的浮點算力,同時支持推理和訓(xùn)練任務(wù)。此外,思元 370 還是國內(nèi)第一顆支持 LPDDR5 的云端 AI 芯片,內(nèi)存帶寬是上一代產(chǎn)品的 3 倍,訪存能效達 GDDR6 的 1.5 倍。
▲ 寒武紀(jì)智能芯片架構(gòu)演進
思元 370 采用 chiplet(芯粒)技術(shù),在一顆芯片中封裝 2 顆 AI 計算芯粒(MLU-Die),每一個 MLU-Die 具備獨立的 AI 計算單元、內(nèi)存、IO 以及 MLU-Fabric 控制和接口,通過 MLU-Fabric 保證兩個 MLU-Die 間的高速通訊,可以通過不同 MLU-Die 組合規(guī)格多樣化的產(chǎn)品,為用戶提供適用不同場景的高性價比 AI 芯片。
▲ 思元 370 采用 chiplet 技術(shù),可實現(xiàn)不同算力、內(nèi)存和編解碼器的組合
MLU-Fabric 是實現(xiàn)芯粒技術(shù)的關(guān)鍵所在。它為兩個 MLU-Die 提供低功耗、低延時和超高帶寬的互聯(lián),支持芯片上實現(xiàn)統(tǒng)一的內(nèi)存獲取和地址映射,創(chuàng)建虛擬通路避免進程死鎖,支持?jǐn)?shù)據(jù)校驗錯誤發(fā)生時進行數(shù)據(jù)重傳,保證數(shù)據(jù)準(zhǔn)確性。
得益于芯粒技術(shù),思元 370 可通過不同的組合為客戶提供更多樣化的產(chǎn)品選擇,此次寒武紀(jì)發(fā)布了兩款加速卡,未來還將推出更多基于思元 370 的產(chǎn)品。
MagicMind 是寒武紀(jì)全新打造的推理加速引擎,也是業(yè)界首個基于 MLIR 圖編譯技術(shù)達到商業(yè)化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、自動后端代碼生成及優(yōu)化。在 MLU、GPU、CPU 訓(xùn)練好的算法模型上,借助 MagicMind,用戶僅需投入極少的開發(fā)成本,即可將推理業(yè)務(wù)部署到寒武紀(jì)全系列產(chǎn)品上,并獲得頗具競爭力的性能。
MagicMind 的優(yōu)勢不僅在于可以提供極致的性能、可靠的精度以及簡潔的編程接口,讓用戶能夠?qū)W⒂跇I(yè)務(wù)本身,無需理解芯片更多底層細(xì)節(jié)就可實現(xiàn)模型的快速高效部署,MagicMind 插件化的設(shè)計還可以滿足在性能或功能上追求差異化競爭力的客戶需求。
▲ 推理加速引擎 MagicMind 是寒武紀(jì)軟件棧 Cambricon Neuware 全新升級的重要組成部分
為了加快用戶端到端業(yè)務(wù)落地的速度,減少模型訓(xùn)練研發(fā)到模型部署之間的繁瑣流程,寒武紀(jì)的統(tǒng)一基礎(chǔ)軟件平臺 Cambricon Neuware 整合了訓(xùn)練和推理的全部底層軟件棧,包括底層驅(qū)動、運行時庫、算子庫以及工具鏈等,將 MagicMind 和深度學(xué)習(xí)框架 Tensorflow,Pytorch 深度融合,實現(xiàn)訓(xùn)推一體。依托于訓(xùn)推一體,在寒武紀(jì)全系列計算平臺上,從云端到邊緣端,用戶均可以無縫地完成從模型訓(xùn)練到推理部署的全部流程,進行靈活的訓(xùn)練推理業(yè)務(wù)混布和潮汐式的業(yè)務(wù)切換,可快速響應(yīng)業(yè)務(wù)變化,提升算力利用率,降低運營成本。
在通用性方面,Cambricon Neuware 支持 FP32、FP16 混合精度、BF16 和自適應(yīng)精度訓(xùn)練等多種訓(xùn)練方式并提供靈活高效的訓(xùn)練工具,高性能算子庫已完整覆蓋視覺、語音、自然語言處理和搜索推薦等典型深度學(xué)習(xí)應(yīng)用,可滿足用戶對于算子覆蓋率以及模型精度的需求。
全新推理加速引擎 MagicMind 和訓(xùn)推一體特性,將為用戶帶來更為便捷、高效的開發(fā)體驗,大幅降低學(xué)習(xí)成本、開發(fā)成本和運營成本。
思元 370 升級了視頻圖像編解碼單元,可提供更高效的視頻處理能力和更優(yōu)的編碼質(zhì)量,支持更復(fù)雜、更繁重、低延時要求的計算機視覺任務(wù)。
解碼方面,思元 370 集成了強大的媒體性能,可支持 132 路 1080p 視頻解碼或 10 路 8K 視頻解碼。編碼方面,全新編碼器通過靈活的碼率優(yōu)化(RDO)控制、多參考幀、二次編碼等特性組合,在相同圖像質(zhì)量(全高清視頻 PSNR)的情況下比上一代產(chǎn)品節(jié)省 42% 帶寬,有效降低帶寬成本。
▲ 思元 370 視頻編碼質(zhì)量顯著提升
* 測試環(huán)境:
MLU270-S4:SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz
MLU370-S4:NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz
視頻內(nèi)容:BQTerrace_1920x1080_60.yuv
寒武紀(jì)高在思元 370 芯片內(nèi)置安全模塊,切實保障用戶信息安全。思元 370 是寒武紀(jì)第一顆支持國內(nèi)外主流加密標(biāo)準(zhǔn)的云端芯片,支持用戶數(shù)據(jù)、深度學(xué)習(xí)模型的加解密以及計算結(jié)果的加密輸出,通過信任根的方式,保障 AI 芯片在啟動及運行過程中加載的所有代碼的安全性,還支持遠程認(rèn)證,用戶可在業(yè)務(wù)運行過程中遠程驗證 AI 環(huán)境安全性。通過多方面的安全特性,思元 370 系列產(chǎn)品將更好地確保用戶 AI 業(yè)務(wù)安全。
▲ 安全啟動驗證過程
此次發(fā)布中,兩款基于思元 370 的加速卡正式亮相:高密度、半高半長、功耗 75W 的 MLU370-S4 智能加速卡和高性能、全高全長、功耗 150W 的 MLU370-X4 智能加速卡。與上一代產(chǎn)品相比,370 系列加速卡在性能、能效方面都有更為卓越的表現(xiàn)。例如,對標(biāo)準(zhǔn) ResNet-50v1 進行軟件定制優(yōu)化后,MLU370-X4 加速卡性能高達 30204fps。
▲ 寒武紀(jì) MLU370-S4 加速卡
在 Cambricon Neuware SDK 上實測,在常用的 4 個深度學(xué)習(xí)網(wǎng)絡(luò)模型上,MLU370-S4 加速卡的性能平均接近市場主流 70W GPU 的 2 倍。而在能效方面,MLU370-S4 優(yōu)勢更為明顯,處理相同 AI 任務(wù)相較于 70W GPU 用電量減少 50% 以上,將有力地幫助用戶實現(xiàn)“雙碳”目標(biāo)。
▲ 相比主流同尺寸 GPU 產(chǎn)品,
MLU370-S4 加速卡性能優(yōu)勢明顯
* 測試環(huán)境:
MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU 數(shù)據(jù)來自于相關(guān)產(chǎn)品官網(wǎng)。
MLU370-S4 加速卡在解碼方面具有強勁競爭力,相較于同尺寸 GPU,可提供 3 倍的解碼能力和 1.5 倍的編碼能力??傮w而言,MLU370-S4 加速卡的能效出色,體積小巧,可在服務(wù)器中實現(xiàn)高密度部署。
▲ 寒武紀(jì) MLU370-X4 加速卡
MLU370-X4 加速卡的優(yōu)勢則表現(xiàn)為高性能,算力可達 256TOPS (INT8),加強了 FP16、FP32 的計算性能,新增 BF16 計算類型。
在 Cambricon Neuware SDK 上實測,常用的 4 個深度學(xué)習(xí)網(wǎng)絡(luò)模型中,MLU370-X4 加速卡與市場主流 150W GPU 相比,性能表現(xiàn) 2 項持平 2 項更優(yōu),實測能效則為 GPU 的 2 倍。比如 YOLOv3 網(wǎng)絡(luò)中,MLU370-X4 的性能是 150W GPU 性能的 1.5 倍,能效為 GPU 的 2.5 倍。
▲ 相比主流 GPU 產(chǎn)品,MLU370-X4 性能領(lǐng)先
* 測試環(huán)境:
MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU 數(shù)據(jù):ResNet-50 來自于相關(guān)產(chǎn)品官網(wǎng),Transformer、VGG16、YOLOv3 均取自實測最大吞吐性能。
▲ MLU370-S4、MLU370-X4 加速卡規(guī)格
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。