寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

2021/11/3 18:46:56 來源：IT之家作者：瀟公子 責(zé)編：瀟公子

評論：

IT之家 11 月 3 日消息，今天，寒武紀(jì)發(fā)布第三代云端 AI 芯片思元 370、基于思元 370 的兩款加速卡 MLU370-S4 和 MLU370-X4、全新升級的 Cambricon Neuware 軟件棧。

▲ 寒武紀(jì)第三代云端 AI 芯片思元 370

IT之家獲悉，基于 7nm 制程工藝，思元 370 是寒武紀(jì)首款采用 chiplet（芯粒）技術(shù)的 AI 芯片，集成了 390 億個晶體管，最大算力高達 256TOPS (INT8)，是寒武紀(jì)第二代產(chǎn)品思元 270 算力的 2 倍。

憑借寒武紀(jì)最新智能芯片架構(gòu) MLUarch03，相較于峰值算力的提升，思元 370 實測性能表現(xiàn)更為優(yōu)秀：以 ResNet-50 為例，MLU370-S4 加速卡（半高半長）實測性能為同尺寸主流 GPU 的 2 倍；MLU370-X4 加速卡（全高全長）實測性能與同尺寸主流 GPU 相當(dāng)，能效則大幅領(lǐng)先。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 寒武紀(jì) MLU370-S4（左）與 MLU370-X4 加速卡

思元 370 也是國內(nèi)第一顆支持 LPDDR5 內(nèi)存的云端 AI 芯片，內(nèi)存帶寬是上一代產(chǎn)品的 3 倍，訪存能效達 GDDR6 的 1.5 倍。

同時，寒武紀(jì)全新升級了 Cambricon Neuware 軟件棧，新增推理加速引擎 MagicMind，實現(xiàn)訓(xùn)推一體，顯著提升了開發(fā)部署的效率，降低用戶的學(xué)習(xí)成本、開發(fā)成本和運營成本。

寒武紀(jì)發(fā)布了新一代智能處理器架構(gòu) MLUarch03，擁有新一代張量運算單元，內(nèi)置 Supercharger 模塊大幅提升各類卷積效率；采用全新的多算子硬件融合技術(shù)，在軟件融合的基礎(chǔ)上大幅減少算子執(zhí)行時間；片上通訊帶寬是上一代 MLUarch02 的 2 倍、片上共享緩存容量最高是 MLUarch02 的 2.75 倍；推出全新 MLUv03 指令集，更完備，更高效且向前兼容。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ Supercharger 和多算子硬件融合技術(shù)

有 7nm 先進工藝和全新 MLUarch03 架構(gòu)的加持，思元 370 芯片算力最高可達 256TOPS (INT8)，是上一代產(chǎn)品思元 270 算力的 2 倍。相較于峰值算力的提升，思元 370 在實測性能和能效方面的表現(xiàn)更為優(yōu)秀：以 ResNet-50 為例，MLU370-S4 加速卡（半高半長）實測性能為同尺寸主流 GPU 的 2 倍；MLU370-X4 加速卡（全高全長）實測性能與同尺寸主流 GPU 相當(dāng)，能效則大幅領(lǐng)先。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 7nm 先進工藝和全新 MLUarch03 架構(gòu)加持，

思元 370 實測性能和實測能效超市場主流 GPU 產(chǎn)品

* 測試環(huán)境：

MLU370-S4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

MLU370-X4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 數(shù)據(jù)：ResNet-50 來自于相關(guān)產(chǎn)品官網(wǎng)，Transformer、VGG16、YOLOv3 均取自實測最大吞吐性能。

思元 370 全面加強了 FP16、BF16 以及 FP32 的浮點算力，同時支持推理和訓(xùn)練任務(wù)。此外，思元 370 還是國內(nèi)第一顆支持 LPDDR5 的云端 AI 芯片，內(nèi)存帶寬是上一代產(chǎn)品的 3 倍，訪存能效達 GDDR6 的 1.5 倍。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 寒武紀(jì)智能芯片架構(gòu)演進

思元 370 采用 chiplet（芯粒）技術(shù)，在一顆芯片中封裝 2 顆 AI 計算芯粒（MLU-Die），每一個 MLU-Die 具備獨立的 AI 計算單元、內(nèi)存、IO 以及 MLU-Fabric 控制和接口，通過 MLU-Fabric 保證兩個 MLU-Die 間的高速通訊，可以通過不同 MLU-Die 組合規(guī)格多樣化的產(chǎn)品，為用戶提供適用不同場景的高性價比 AI 芯片。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 思元 370 采用 chiplet 技術(shù)，可實現(xiàn)不同算力、內(nèi)存和編解碼器的組合

MLU-Fabric 是實現(xiàn)芯粒技術(shù)的關(guān)鍵所在。它為兩個 MLU-Die 提供低功耗、低延時和超高帶寬的互聯(lián)，支持芯片上實現(xiàn)統(tǒng)一的內(nèi)存獲取和地址映射，創(chuàng)建虛擬通路避免進程死鎖，支持?jǐn)?shù)據(jù)校驗錯誤發(fā)生時進行數(shù)據(jù)重傳，保證數(shù)據(jù)準(zhǔn)確性。

得益于芯粒技術(shù)，思元 370 可通過不同的組合為客戶提供更多樣化的產(chǎn)品選擇，此次寒武紀(jì)發(fā)布了兩款加速卡，未來還將推出更多基于思元 370 的產(chǎn)品。

MagicMind 是寒武紀(jì)全新打造的推理加速引擎，也是業(yè)界首個基于 MLIR 圖編譯技術(shù)達到商業(yè)化部署能力的推理引擎。MagicMind 支持跨框架的模型解析、自動后端代碼生成及優(yōu)化。在 MLU、GPU、CPU 訓(xùn)練好的算法模型上，借助 MagicMind，用戶僅需投入極少的開發(fā)成本，即可將推理業(yè)務(wù)部署到寒武紀(jì)全系列產(chǎn)品上，并獲得頗具競爭力的性能。

MagicMind 的優(yōu)勢不僅在于可以提供極致的性能、可靠的精度以及簡潔的編程接口，讓用戶能夠?qū)Ｗ⒂跇I(yè)務(wù)本身，無需理解芯片更多底層細(xì)節(jié)就可實現(xiàn)模型的快速高效部署，MagicMind 插件化的設(shè)計還可以滿足在性能或功能上追求差異化競爭力的客戶需求。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 推理加速引擎 MagicMind 是寒武紀(jì)軟件棧 Cambricon Neuware 全新升級的重要組成部分

為了加快用戶端到端業(yè)務(wù)落地的速度，減少模型訓(xùn)練研發(fā)到模型部署之間的繁瑣流程，寒武紀(jì)的統(tǒng)一基礎(chǔ)軟件平臺 Cambricon Neuware 整合了訓(xùn)練和推理的全部底層軟件棧，包括底層驅(qū)動、運行時庫、算子庫以及工具鏈等，將 MagicMind 和深度學(xué)習(xí)框架 Tensorflow，Pytorch 深度融合，實現(xiàn)訓(xùn)推一體。依托于訓(xùn)推一體，在寒武紀(jì)全系列計算平臺上，從云端到邊緣端，用戶均可以無縫地完成從模型訓(xùn)練到推理部署的全部流程，進行靈活的訓(xùn)練推理業(yè)務(wù)混布和潮汐式的業(yè)務(wù)切換，可快速響應(yīng)業(yè)務(wù)變化，提升算力利用率，降低運營成本。

在通用性方面，Cambricon Neuware 支持 FP32、FP16 混合精度、BF16 和自適應(yīng)精度訓(xùn)練等多種訓(xùn)練方式并提供靈活高效的訓(xùn)練工具，高性能算子庫已完整覆蓋視覺、語音、自然語言處理和搜索推薦等典型深度學(xué)習(xí)應(yīng)用，可滿足用戶對于算子覆蓋率以及模型精度的需求。

全新推理加速引擎 MagicMind 和訓(xùn)推一體特性，將為用戶帶來更為便捷、高效的開發(fā)體驗，大幅降低學(xué)習(xí)成本、開發(fā)成本和運營成本。

思元 370 升級了視頻圖像編解碼單元，可提供更高效的視頻處理能力和更優(yōu)的編碼質(zhì)量，支持更復(fù)雜、更繁重、低延時要求的計算機視覺任務(wù)。

解碼方面，思元 370 集成了強大的媒體性能，可支持 132 路 1080p 視頻解碼或 10 路 8K 視頻解碼。編碼方面，全新編碼器通過靈活的碼率優(yōu)化（RDO）控制、多參考幀、二次編碼等特性組合，在相同圖像質(zhì)量（全高清視頻 PSNR）的情況下比上一代產(chǎn)品節(jié)省 42% 帶寬，有效降低帶寬成本。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 思元 370 視頻編碼質(zhì)量顯著提升

* 測試環(huán)境：

MLU270-S4：SYS-4029GP-TRT/2x Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz

MLU370-S4：NF5280M5/2x Intel Xeon Gold 5218R CPU @ 2.1GHz

視頻內(nèi)容：BQTerrace_1920x1080_60.yuv

寒武紀(jì)高在思元 370 芯片內(nèi)置安全模塊，切實保障用戶信息安全。思元 370 是寒武紀(jì)第一顆支持國內(nèi)外主流加密標(biāo)準(zhǔn)的云端芯片，支持用戶數(shù)據(jù)、深度學(xué)習(xí)模型的加解密以及計算結(jié)果的加密輸出，通過信任根的方式，保障 AI 芯片在啟動及運行過程中加載的所有代碼的安全性，還支持遠(yuǎn)程認(rèn)證，用戶可在業(yè)務(wù)運行過程中遠(yuǎn)程驗證 AI 環(huán)境安全性。通過多方面的安全特性，思元 370 系列產(chǎn)品將更好地確保用戶 AI 業(yè)務(wù)安全。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 安全啟動驗證過程

此次發(fā)布中，兩款基于思元 370 的加速卡正式亮相：高密度、半高半長、功耗 75W 的 MLU370-S4 智能加速卡和高性能、全高全長、功耗 150W 的 MLU370-X4 智能加速卡。與上一代產(chǎn)品相比，370 系列加速卡在性能、能效方面都有更為卓越的表現(xiàn)。例如，對標(biāo)準(zhǔn) ResNet-50v1 進行軟件定制優(yōu)化后，MLU370-X4 加速卡性能高達 30204fps。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 寒武紀(jì) MLU370-S4 加速卡

在 Cambricon Neuware SDK 上實測，在常用的 4 個深度學(xué)習(xí)網(wǎng)絡(luò)模型上，MLU370-S4 加速卡的性能平均接近市場主流 70W GPU 的 2 倍。而在能效方面，MLU370-S4 優(yōu)勢更為明顯，處理相同 AI 任務(wù)相較于 70W GPU 用電量減少 50% 以上，將有力地幫助用戶實現(xiàn)“雙碳”目標(biāo)。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 相比主流同尺寸 GPU 產(chǎn)品，

MLU370-S4 加速卡性能優(yōu)勢明顯

* 測試環(huán)境：

MLU370-S4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 數(shù)據(jù)來自于相關(guān)產(chǎn)品官網(wǎng)。

MLU370-S4 加速卡在解碼方面具有強勁競爭力，相較于同尺寸 GPU，可提供 3 倍的解碼能力和 1.5 倍的編碼能力。總體而言，MLU370-S4 加速卡的能效出色，體積小巧，可在服務(wù)器中實現(xiàn)高密度部署。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 寒武紀(jì) MLU370-X4 加速卡

MLU370-X4 加速卡的優(yōu)勢則表現(xiàn)為高性能，算力可達 256TOPS (INT8)，加強了 FP16、FP32 的計算性能，新增 BF16 計算類型。

在 Cambricon Neuware SDK 上實測，常用的 4 個深度學(xué)習(xí)網(wǎng)絡(luò)模型中，MLU370-X4 加速卡與市場主流 150W GPU 相比，性能表現(xiàn) 2 項持平 2 項更優(yōu)，實測能效則為 GPU 的 2 倍。比如 YOLOv3 網(wǎng)絡(luò)中，MLU370-X4 的性能是 150W GPU 性能的 1.5 倍，能效為 GPU 的 2.5 倍。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ 相比主流 GPU 產(chǎn)品，MLU370-X4 性能領(lǐng)先

* 測試環(huán)境：

MLU370-X4：NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6

GPU 數(shù)據(jù)：ResNet-50 來自于相關(guān)產(chǎn)品官網(wǎng)，Transformer、VGG16、YOLOv3 均取自實測最大吞吐性能。

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

▲ MLU370-S4、MLU370-X4 加速卡規(guī)格

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

寒武紀(jì)官方詳解云端 AI 芯片思元 370：采用新一代智能處理器架構(gòu) MLUarch03

相關(guān)文章