11 分鐘內(nèi)訓(xùn)練一遍 GPT-3,8 秒訓(xùn)完 BERT。
這就是英偉達(dá)給 AI 圈的一點(diǎn)“小小震撼”。
在最新 MLPerf 訓(xùn)練基準(zhǔn)測試中,英偉達(dá) H100 集群,橫掃八項(xiàng)測試,全部創(chuàng)下新紀(jì)錄,并且在大語言模型任務(wù)中表現(xiàn)尤為突出!
在大語言模型任務(wù)中,H100 集群的加速性能逼近線性增長。
即隨著集群處理器數(shù)量增加,加速效果也幾乎同比增加。
這意味著在集群內(nèi) GPU 之間的通信效率非常高。
除此之外,H100 還完成了推薦算法、CV、醫(yī)學(xué)圖像識(shí)別以及語音識(shí)別等任務(wù),是唯一一個(gè)參加 8 項(xiàng)測試的集群。
而在算力就是生產(chǎn)力的時(shí)代下,這波成績意味著什么,懂得都懂。
據(jù)悉,本次測試系統(tǒng)由英偉達(dá)和 Inflection AI 聯(lián)合開發(fā),在云廠商 CoreWeave 上托管。
單節(jié)點(diǎn)性能增長明顯
這次 MLPerf Training v3.0 中增加了兩項(xiàng)新任務(wù):
大語言模型(基于 GPT-3)
推薦算法
這意味著測試任務(wù)包含了更大的數(shù)據(jù)集和更先進(jìn)的模型。
如上刷新各項(xiàng)記錄的,是由 3584 塊 H100 組成的超大集群。
它的具體成績?nèi)缦拢?/p>
這是本輪測試中,英偉達(dá)拿出的最大集群。
實(shí)際上他們還提交了一個(gè)包含 768 塊 H100 的集群進(jìn)行測試,并分別在云上和本地部署。
結(jié)果顯示二者性能幾乎完全相同。
更進(jìn)一步還論證了隨著集群中顯卡數(shù)量的增加,其性能提升可以接近線性增長。
(NVIDIA Pre-Eos 為本地部署,NVIDIA+CoreWeave 為云上部署)
除此之外,這輪測試中英偉達(dá)還刷新了單節(jié)點(diǎn)加速記錄。
和 6 個(gè)月前 MLPef Training v2.1 的數(shù)據(jù)比較,單個(gè) DGX H100 系統(tǒng)(8 塊 H100 組成)在各項(xiàng)任務(wù)中平均提速 17%。
和 A100 Tensor Core GPU 相比,最高能提速 3.1 倍(BERT 任務(wù))。
這些加速效果的實(shí)現(xiàn),主要得益于兩個(gè)方面。
一方面是 H100 本身就足夠強(qiáng)悍。
H100 基于最新 Hopper 架構(gòu),采用臺(tái)積電 4nm 工藝,集成 800 億個(gè)晶體管,較 A100 增加了 260 億個(gè)。
內(nèi)核數(shù)量達(dá)到前所未有的 16896 個(gè),是 A100 的 2.5 倍。
由于面向 AI 計(jì)算,H100 中專門搭載了 Transformer Engine,讓大模型訓(xùn)練速度可直接 ×6。
另一方面則是依賴集群內(nèi)的加速網(wǎng)絡(luò)。
這里使用的是英偉達(dá) Quantum-2 InfiniBand 網(wǎng)絡(luò),是該網(wǎng)絡(luò)架構(gòu)的第七代。
官網(wǎng)介紹,加速網(wǎng)絡(luò)能夠提供軟件定義網(wǎng)絡(luò)、網(wǎng)絡(luò)內(nèi)計(jì)算、性能隔離、優(yōu)越加速引擎、RDMA 和最快達(dá) 400Gb / s 的安全加速。
據(jù)悉,共有 90 個(gè)系統(tǒng)參與最新一輪測試,其中 82 個(gè)使用了英偉達(dá)的 GPU,英特爾方面有 7 個(gè)系統(tǒng)參與。
英特爾的加速系統(tǒng)使用了 64-96 Intel Xeon Platinum 8380 處理器和 256-389 Intel Habana Gaudi2 加速器。
其高配系統(tǒng)完成 LLM 的訓(xùn)練時(shí)間為 311 分鐘。
基于這次報(bào)告的測試結(jié)果,有分析師表示他感受到的最大震撼不是 H100 本身的性能,而是在云上訓(xùn)練 AI 實(shí)現(xiàn)的卓越效果。
那么這次和英偉達(dá)合作的云廠商 CoreWeave 是誰?聯(lián)合開發(fā)系統(tǒng) Inflection AI 又來者何人?
計(jì)算集群還會(huì)進(jìn)一步擴(kuò)大
首先來看 CoreWeave。
它成立于 2017 年,是一家大型云廠商,號(hào)稱提供業(yè)內(nèi)最快、最靈活的大規(guī)模 GPU 計(jì)算資源,提供渲染、機(jī)器學(xué)習(xí)等云上方案,速度比大型公共云快 35 倍,成本低 80%。
而這家云廠商很受科技巨頭青睞,英偉達(dá)在此之前沒少 cue 過它。
5 月,CoreWeave 拿下 2 億美元融資,主要來自對沖基金 Magnetar Capital,B 輪總?cè)谫Y額達(dá)到 4.21 億美元。
6 月,有消息稱微軟與 CoreWeave 簽署 AI 算力協(xié)議,用于計(jì)算基礎(chǔ)設(shè)施,未來數(shù)年內(nèi)的投資金額可能數(shù)十億美元。
英偉達(dá)也向 CoreWeave 投資了 1 億美元,4 月時(shí)它的估值為 20 億美元。
另一家 AI 初創(chuàng)公司 Inflection AI 由 DeepMind 創(chuàng)始成員穆斯塔法?蘇萊曼(Mustafa Suleyman)等人創(chuàng)立。
這家公司成立于 22 年 3 月,已拿下 2.25 億美元融資,估值超 12 億美元。
公司已經(jīng)開發(fā)出了一個(gè)大語言模型 Pi,正是在 H100 集群上訓(xùn)練出來的。
據(jù)了解,Pi 的定位是幫助人類更好和計(jì)算機(jī)交互,它能通過聊天內(nèi)容來逐漸了解用戶,然后提供更加個(gè)性化的回答,類似于個(gè)人智能管家的感覺。
Inflection AI 的最新 Blog 里表示,基于目前的合作,他們計(jì)劃在未來幾個(gè)月內(nèi)進(jìn)一步擴(kuò)大底層計(jì)算基礎(chǔ)設(shè)施的規(guī)模。
參考鏈接:
[1]https://blogs.nvidia.com/blog/2023/06/27/generative-ai-debut-mlperf/?continueFlag=685ee2dc8db6455efed731baa85e2741
[2]https://developer.nvidia.com/blog/breaking-mlperf-training-records-with-nvidia-h100-gpus/
[3]https://www.forbes.com/sites/stevemcdowell/2023/06/27/nvidia-h100-dominates-new-mlperf-v30-benchmark-results/?sh=62b226c35e99
本文來自微信公眾號(hào):量子位 (ID:QbitAI),作者:明敏
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。