【新智元導(dǎo)讀】全美 TOP 5 的機(jī)器學(xué)習(xí)博士痛心發(fā)帖自曝,自己實(shí)驗(yàn)室里 H100 數(shù)目是 0!這也引起了 ML 社區(qū)的全球網(wǎng)友大討論。顯然,相比普林斯頓、哈佛這樣動輒三四百塊 H100 的 GPU 大戶,更常見的是 GPU 短缺的「窮人」。同一個(gè)實(shí)驗(yàn)室的博士,甚至?xí)r常會出現(xiàn)需要爭搶 GPU 的情況。
全美 TOP 5 高校的機(jī)器學(xué)習(xí)博士,實(shí)驗(yàn)室卻連一塊 H100 都沒有?
最近,這位網(wǎng)友在 reddit 上發(fā)的這個(gè)帖子,立刻引發(fā)了社區(qū)大討論 ——
大家發(fā)現(xiàn),普林斯頓、哈佛這樣的「GPU 豪門」,手上的 H100 至少以三四百塊打底,然而絕大多數(shù) ML 博士,卻連一塊 H100 都用不上……
不同學(xué)校、機(jī)構(gòu)之間的 GPU「貧富差距」,竟然已經(jīng)到了如此懸殊的地步?
大部分實(shí)驗(yàn)室,比斯坦福還差多了
兩個(gè)月前,AI 教母李飛飛曾在采訪中表示,斯坦福的自然語言處理(NLP)小組只有 64 塊 A100 GPU。
面對學(xué)術(shù)界如此匱乏的 AI 資源,李飛飛可謂是痛心疾首。
而這位發(fā)帖的網(wǎng)友也表示,自己在攻讀博士學(xué)位期間(全美排名前五的學(xué)校),計(jì)算資源是一個(gè)主要的瓶頸。
如果能有更多高性能的 GPU,計(jì)算時(shí)間會顯著縮短,研究進(jìn)度也會快很多。
所以,他的實(shí)驗(yàn)室里到底有多少 H100 呢?答案是 ——0。
他向網(wǎng)友們發(fā)出提問:你們實(shí)驗(yàn)室里都有多少 GPU?能從亞馬遜、英偉達(dá)那里拿到額外的算力贊助嗎?
年輕的研究者們紛紛自曝自己所在學(xué)?;蚬镜?GPU 情況,暴露出的事實(shí),讓所有人大為驚訝。
1 張 2080Ti+1 張 3090,已是全部
一位似乎是亞洲的網(wǎng)友表示,雖然自己的研究方向是計(jì)算機(jī)視覺(CV)并不是機(jī)器學(xué)習(xí),但在 2019 年剛開始時(shí),只能夠使用一塊 2080 Ti 顯卡。
2021 年,有機(jī)會使用一臺配備 V100 和 RTX 8000 顯卡的服務(wù)器。
2022 年,獲得了使用一塊 3090 顯卡的權(quán)限。
2023 年,能夠使用另一個(gè)實(shí)驗(yàn)室的一組服務(wù)器,這些服務(wù)器包括 12 塊 2080 Ti、5 塊 3090 和 8 塊 A100 顯卡。同年,還獲得了一項(xiàng)計(jì)算資助,可以使用 A100 顯卡三個(gè)月。
2024 年,學(xué)校購買了一臺配有 8 塊 H100 顯卡的服務(wù)器,并允許試用一個(gè)月。
此外,在 2021 年到 2023 年期間,也可以從一個(gè)本地學(xué)術(shù)提供商那里按小時(shí)租用 GPU。
除了 2080 Ti 和 3090 這兩張顯卡外,大多數(shù)這些資源都是共享的。
題主問:這里的「a」就是字面意義上的「一個(gè)」么?
網(wǎng)友表示,是的,就是這么艱苦……
有人現(xiàn)身表示,自己可太慘了:沒有顯卡,沒有 credits。因?yàn)樗诖髮W(xué)無法提供幫助,只能讓實(shí)習(xí)公司幫自己獲得一些。
一位 2022 年底畢業(yè)的博士也自曝稱,實(shí)驗(yàn)室專用的服務(wù)器共搭載了差不多 30 塊 GPU,其中每臺服務(wù)器配有 4 張顯卡。(由于購買時(shí)間不同,性能也參差不齊)
不過,同一實(shí)驗(yàn)室里搶 GPU 的事情還是時(shí)有發(fā)生。
對此,有網(wǎng)友總結(jié)道,0 GPU 很常見。
理由也非常簡單:我們并不需要開著法拉利來學(xué)車。而且在開始,機(jī)器學(xué)習(xí)的基礎(chǔ)是線代、統(tǒng)計(jì)和編程,之后才是硬件流程的優(yōu)化。
而 GPU 嚴(yán)重匱乏的問題,在我國高校的實(shí)驗(yàn)室內(nèi)也很普遍。
甚至,有博主發(fā)帖稱,某大學(xué)的課程竟要求學(xué)生自備算力設(shè)備。
五人一組的學(xué)生,至少擁有 2 塊 3090/4090,或者是 1 塊 40G A100,才能完成課程要求的 LLM 訓(xùn)練任務(wù)。
那么問題來了,為何高校自己不能多采購一些 GPU 呢?
知友「網(wǎng)癮大爺」表示,高校直接購買 GPU 非常不劃算。LLM 訓(xùn)練參數(shù)規(guī)模增大,需要的是多機(jī)多卡,以及讓卡之間串聯(lián)的網(wǎng)絡(luò)。
不僅有學(xué)習(xí)成本、還有維護(hù)成本,這對于高校來說投入之大。所以比較常見的方式是,去租用服務(wù)器。
清華計(jì)算機(jī)系在讀博士孫恒提出了同樣的問題,卡可以買,但問題是,放在哪?
當(dāng)然,有人在負(fù)重前行,自然也有人歲月靜好。
比如下面這些學(xué)校,相比起來就要「富?!沟枚嗔?。
「H100,我們也就幾百塊吧」
有網(wǎng)友透露,普林斯頓語言與智能研究所(PLI)和哈佛 Kempner 研究所擁有最大的計(jì)算集群,分別配備了 300 塊和 400 塊 H100 GPU。
而這個(gè)信息,也得到了一位普林斯頓研究者的佐證 ——
在普林斯頓,可以使用的集群有三種。
- 小組集群有所不同,但對于 10 個(gè)人來說,32 塊 GPU 的分配很合理
- 部門集群的資源更多,不過也需要看具體的部門
- 大學(xué)集群 Della 則擁有(128x2)+(48x4)個(gè) A100 和(96x8)個(gè) H100
總之,普林斯頓和哈佛都可以說是顯卡大戶。
此外,也有網(wǎng)友爆料說,UT Austin 擁有 600 塊 H100。
蒙特利爾大學(xué)的博士生表示,自己的實(shí)驗(yàn)室大約有 500 塊 GPU,主要是 A100 40GB 和 80GB。
德國亞琛工業(yè)大學(xué)的網(wǎng)友表示,學(xué)校提供了一個(gè)包含 52 塊 GPU 節(jié)點(diǎn)的計(jì)算集群,每個(gè)節(jié)點(diǎn)配備 4 塊 H100 GPU。
這些資源當(dāng)然是所有院系共享的,其他一些機(jī)構(gòu)也能使用。
不過,即使是學(xué)生,每個(gè)月也會分配到一定的集群使用時(shí)間。如果你需要更多的計(jì)算時(shí)間,可以申請不同規(guī)模的專用計(jì)算項(xiàng)目。
「我非常喜歡這個(gè)系統(tǒng),能夠使用它,對我來說是一次改變研究進(jìn)程的機(jī)會。」
對如此充沛的算力,題主表示非常羨慕。
另一位歐洲的網(wǎng)友也表示,自己的實(shí)驗(yàn)室有大約 16 塊實(shí)驗(yàn)室專用的 A100 GPU,并且還能通過幾個(gè)不同的額外集群訪問更多的 GPU。
由于這些集群有很多用戶,所以具體規(guī)模很難估計(jì),但每個(gè)集群大約每年提供 12 萬 GPU 小時(shí)的計(jì)算時(shí)間。
不過,超過 80GB 的 GPU 內(nèi)存需求是一個(gè)瓶頸。目前來說,總共能用的約為 5 塊 H100。
類似的,這位網(wǎng)友所在的實(shí)驗(yàn)室,也相當(dāng)富裕:
「我們實(shí)驗(yàn)室有 8 塊 H100 和 8 塊 L40S,專供 5 名博士生和 3 名博士后免費(fèi)使用?!?/p>
最后,截取一些「凡爾賽」網(wǎng)友的發(fā)言。
比如,這位在云計(jì)算供應(yīng)商工作的網(wǎng)友就表示,這個(gè)帖子很有趣,因?yàn)樽约壕共恢?H100 是這么稀有。
或者,從單位分不到顯卡,那就干脆自己買一塊。??
緊俏的 H100,為何如此重要
最近,英偉達(dá)的市值一度突破 3.3 萬億美元,登頂全球第一。
這背后最耀眼的明星,莫過于它的 H100 GPU 了。
跟普通芯片不同的是,H100 內(nèi)的 800 億個(gè)晶體管排列在內(nèi)核中,這些內(nèi)核被調(diào)整為高速處理數(shù)據(jù),而非生成圖形。
成立于 1993 年的英偉達(dá),押注并行工作的能力有一天將使自己的芯片在游戲之外發(fā)揮價(jià)值,他們賭對了。
在訓(xùn)練 LLM 時(shí),H100 比前代 A100 快四倍,在回復(fù)用戶提示時(shí)快 30 倍。對于急于訓(xùn)練 LLM 執(zhí)行新任務(wù)的公司來說,性能優(yōu)勢至關(guān)重要。
也正是因此,全世界生成式 AI 的浪潮,正在轉(zhuǎn)化為英偉達(dá)的實(shí)際收入。而 H100 的需求如此之大,以至于許多客戶不得不等待六個(gè)月才能收貨。
Nebius AI 的 IaaS 技術(shù)產(chǎn)品經(jīng)理 Igor,探討了 H100、L4、L40、A100、V100 這些最流行的芯片之間的差異,并確定了每種 GPU 模型表現(xiàn)最佳的工作負(fù)載。
談到芯片之間的差異之前,重要的是強(qiáng)調(diào) Transformer 神經(jīng)網(wǎng)絡(luò)和數(shù)值精度的一些相關(guān)屬性。
數(shù)值精度的作用
如果沒有對 FP8 精度的硬件支持,英偉達(dá)的 H100、L4 和 L40 不可能取得巨大的成功,這對于 Transformer 模型尤其重要。
但是,是什么讓對 FP8 的支持如此重要呢?讓我們深入了解一下。
FP 是「浮點(diǎn)」的縮寫,它是關(guān)于模型存儲在 RAM 中,并在其操作中使用的數(shù)字的精度。
最重要的是,這些數(shù)字決定了模型輸出的質(zhì)量。
以下是一些關(guān)鍵的數(shù)字格式 ——
FP64,即雙精度浮點(diǎn)格式,是一種每個(gè)數(shù)字占用 64 位內(nèi)存的格式。
雖然這種格式未在機(jī)器學(xué)習(xí)中使用,但它在科學(xué)領(lǐng)域占有一席之地。
FP32 和 FP16:長期以來,F(xiàn)P32 是所有深度學(xué)習(xí)計(jì)算的事實(shí)標(biāo)準(zhǔn)。
然而,數(shù)據(jù)科學(xué)家后來發(fā)現(xiàn),將模型參數(shù)轉(zhuǎn)換為 FP16 格式,可以減少內(nèi)存消耗并加快計(jì)算速度,而且似乎不會影響質(zhì)量。
結(jié)果,F(xiàn)P16 就成為了新的黃金標(biāo)準(zhǔn)。
TF32,也是另一種至關(guān)重要的格式。
在進(jìn)入張量內(nèi)核上處理 FP32 值的計(jì)算之前,這些值可以在驅(qū)動程序級別自動轉(zhuǎn)換為 TF32 格式,而無需更改代碼。
顯然,TF32 雖然略有不同,但能提供更快的計(jì)算速度。也就是說,可以通過模型在張量內(nèi)核上解釋 FP32 的方式進(jìn)行編碼。
INT8:這是一種整數(shù)格式,不涉及浮點(diǎn)數(shù)。
訓(xùn)練后,模型參數(shù)可以轉(zhuǎn)換為其他占用內(nèi)存較少的類型,例如 INT8。這種技術(shù)稱為訓(xùn)練后量化,可以減少內(nèi)存需求并加快推理速度。它為許多模型架構(gòu)創(chuàng)造了奇跡,不過 Transformer 是一個(gè)例外。
Transformer 無法在訓(xùn)練后進(jìn)行轉(zhuǎn)換,以降低推理的硬件要求。量化感知訓(xùn)練等創(chuàng)新技術(shù)確實(shí)在訓(xùn)練過程中提供了一種解決方法,但重新訓(xùn)練現(xiàn)有模型有可能成本高昂,而且極具挑戰(zhàn)性。
FP8:此格式解決了上述問題,尤其是 Transformer 模型。
可以采用預(yù)訓(xùn)練的 Transformer 模型,將其參數(shù)轉(zhuǎn)換為 FP8 格式,然后從 A100 切換到 H100。
甚至我們可以在不進(jìn)行轉(zhuǎn)換的情況下做到這一點(diǎn),并仍然獲得性能,只是因?yàn)?H100 速度更快。
借助 FP8,只需大約四分之一的顯卡即可推斷出具有相同性能和負(fù)載的相同模型。
另外,使用 FP8 進(jìn)行混合精度訓(xùn)練也很不錯(cuò) —— 這個(gè)過程會完成得更快,需要更少的 RAM,并且在稍后的推理階段不再需要轉(zhuǎn)換,因?yàn)槟P偷膮?shù)可能已經(jīng)是 FP8 的參數(shù)。
ML、HPC 和圖形的關(guān)鍵 GPU 規(guī)格及性能基準(zhǔn)
下面讓我們來討論一下,GPU 規(guī)格的演變及其突出功能。
請?zhí)貏e注意上圖中的前兩行:RAM 數(shù)量及其帶寬。
ML 模型必須緊密適合運(yùn)行時(shí)環(huán)境可訪問的 GPU。否則,我們將需要多個(gè) GPU 進(jìn)行訓(xùn)練。在推理過程中,通??梢詫⑺袃?nèi)容都安裝在單個(gè)芯片上。
注意 SXM 和 PCIe 接口之間的區(qū)別。英偉達(dá)的工作人員只是根據(jù)我們自己或我們的云提供商已有的服務(wù)器來區(qū)分它們。
如果設(shè)置包括帶有 PCI 插槽的標(biāo)準(zhǔn)服務(wù)器,并且不想為 GPU 直接連接到主板的專用機(jī)器(SXM)花錢,那么 H100 PCIe 就是我們的最佳選擇。
當(dāng)然,它的規(guī)格可能比 SXM 版本要弱,但它與標(biāo)準(zhǔn)緊湊型服務(wù)器完全兼容。
但是,如果我們想從頭開始構(gòu)建頂級集群,并且也能負(fù)擔(dān)得起,那么 H100 SXM5 顯然是更好的選擇。
各種 GPU 在訓(xùn)練和推理中的性能指標(biāo),則可以依據(jù)下圖 ——
圖表源自 Tim Dettmers 的這篇著名文章《深度學(xué)習(xí)應(yīng)該使用哪些 GPU:我在深度學(xué)習(xí)中使用 GPU 的經(jīng)驗(yàn)和建議》
H100 SXM 指標(biāo)用作 100% 基準(zhǔn),所有其他指標(biāo)均相對于此進(jìn)行標(biāo)準(zhǔn)化。
該圖表顯示,H100 GPU 上的 8 位推理,比相同 GPU 模型上的 16 位推理快 37%。這是由于硬件支持 FP8 精度計(jì)算。
所謂「硬件支持」,是指將數(shù)據(jù)從 RAM 移動到張量核心進(jìn)行計(jì)算的整個(gè)低級管線。在此過程中,各種緩存開始發(fā)揮作用。
而在 A100 中,由于硬件級別不支持 FP8,此類 GPU 上的 8 位推理速度并不會更快。來自 RAM 的緩存僅以與 FP16 格式相同的速度處理數(shù)字。
更詳細(xì)的圖表如下 ——
你肯定注意到了,某些 RTX 顯卡在 AI 任務(wù)中的結(jié)果也不錯(cuò)。通常,它們的內(nèi)存比起數(shù)據(jù)中心專用卡要少,并且不支持集群,但它們的價(jià)格顯然便宜很多。
所以,如果計(jì)劃用于內(nèi)部實(shí)驗(yàn)的本地基礎(chǔ)設(shè)施,也可以考慮這類 RTX 顯卡。
然而,GeForce 驅(qū)動程序 EULA 直接禁止在數(shù)據(jù)中心使用此類卡,所以任何云提供商都無權(quán)在服務(wù)中使用它們。
現(xiàn)在,我們再比較一下圖形和視頻處理相關(guān)任務(wù)中的 GPU。以下是與此類用例相關(guān)的關(guān)鍵規(guī)范:
我們需要再次關(guān)注 RAM 大小和帶寬。另外,還要注意 RT 核心的獨(dú)特性能指標(biāo),以及解碼器和編碼器計(jì)數(shù),這些專用芯片負(fù)責(zé)壓縮和解壓縮視頻源。
「圖形模式」行會指示 GPU 是否可以切換到面向圖形的模式 (WDDM)。
H100 完全沒有這個(gè)功能;A100 有此功能,但也會受限,因此不一定實(shí)用。
形成鮮明對比的是,L4 和 L40 配備了這種模式,因此它們被定位為適用于各種任務(wù)(包括圖形和訓(xùn)練)的多功能卡。
英偉達(dá)在有些材料中甚至首先將它們作為面向圖形的卡進(jìn)行營銷。然而,它們也非常適合機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理,至少沒有任何硬性技術(shù)障礙。
而用戶來說,這些數(shù)字意味著 H100 變體以及 A100 都不適合以圖形為中心的任務(wù)。
V100 有可能充當(dāng)處理圖形工作負(fù)載虛擬工作站的 GPU。
L40 是資源最密集的 4K 游戲體驗(yàn)無可爭議的冠軍,而 L4 支持 1080p 游戲。這兩種卡還能以各自的分辨率渲染視頻。
總結(jié)
我們可以得出下表,根據(jù)不同顯卡的設(shè)計(jì)目的,展示了不同顯卡的特性。
該表中有兩個(gè)主要用例類別:純粹專注于計(jì)算的任務(wù)(「計(jì)算」)和包含可視化的任務(wù)(「圖形」)。
我們已經(jīng)知道,A100 和 H100 完全不適合圖形,而 L4 和 L40 則是為此量身定制的。
乍一看,你可能會覺得 A100 或 L40 的推理能力同樣出色。然而,有一些細(xì)微差別需要考慮。
在「HPC」一列中,顯示了是否可以將多個(gè)主機(jī)合并到單個(gè)集群中。
在推理中,很少需要集群 —— 但這取決于模型的大小。關(guān)鍵是確保模型適合主機(jī)上所有 GPU 的內(nèi)存。
如果模型超出了此邊界,或者主機(jī)無法為其組合 RAM 容納足夠的 GPU,那么就需要 GPU 集群。
L40 和 L4 的可擴(kuò)展性受到單個(gè)主機(jī)功能的限制,H100 和 A100 則沒有這個(gè)限制。
我們應(yīng)該在 ML 工作負(fù)載中選擇哪種 GPU 呢?推薦如下 ——
L4:經(jīng)濟(jì)實(shí)惠的通用 GPU,適用于各種用例。它是一款入門級模型,是通往 GPU 加速計(jì)算世界的門戶。
L40:針對生成式 AI 推理和視覺計(jì)算工作負(fù)載進(jìn)行了優(yōu)化。
A100:為傳統(tǒng) CNN 網(wǎng)絡(luò)的單節(jié)點(diǎn)訓(xùn)練提供了卓越的性價(jià)比。
H100:BigNLP、LLMs 和 Transformer 的最佳選擇。它還非常適合分布式訓(xùn)練場景以及推理。
圖形場景可分為三組:流式傳輸、虛擬桌面和渲染農(nóng)場。如果沒有視頻輸入模型,那么它就不是圖形場景。這就是推理,而此類任務(wù)最好被描述為人工智能視頻。
卡可以處理加密的視頻源,并且 A100 配備了硬件視頻解碼器來完成此類任務(wù)。這些解碼器將饋送轉(zhuǎn)換為數(shù)字格式,使用神經(jīng)網(wǎng)絡(luò)對其進(jìn)行增強(qiáng),然后將其傳回。
在整個(gè)過程中,顯示器上不會出現(xiàn)任何視覺內(nèi)容,因此雖然 H100 和 A100 可以熟練地訓(xùn)練與視頻或圖像相關(guān)的模型,但它們實(shí)際上并不產(chǎn)生任何視頻。
這就是另一個(gè)故事了。
參考資料:
https://www.reddit.com/r/MachineLearning/comments/1dlsogx/d_academic_ml_labs_how_many_gpus/
https://medium.com/nebius/nvidia-h100-and-other-gpus-which-are-relevant-for-your-ml-workload-15af0b26b919
本文來自微信公眾號:新智元(ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。