設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

全球哄搶 H100!英偉達(dá)成 GPU 霸主,首席科學(xué)家揭秘成功四要素

新智元 2023/9/10 23:16:49 責(zé)編:遠(yuǎn)洋

【新智元導(dǎo)讀】英偉達(dá)首席科學(xué)家揭秘英偉達(dá) GPU 能如此成功的 4 個(gè)主要原因,4 個(gè)關(guān)鍵數(shù)據(jù)帶來(lái)持續(xù)的行業(yè)競(jìng)爭(zhēng)力。

如今的英偉達(dá),穩(wěn)坐 GPU 霸主王座。

ChatGPT 誕生后,帶來(lái)生成式 AI 大爆發(fā),徹底掀起了全球的算力爭(zhēng)奪戰(zhàn)。

前段時(shí)間,一篇文章揭露,全球?qū)?H100 總需求量超 43 萬(wàn)張,而且這樣的趨勢(shì)至少持續(xù)到 2024 年底。

過去的 10 年里,英偉達(dá)成功地將自家芯片在 AI 任務(wù)上的性能提升了千倍。

對(duì)于一個(gè)剛剛邁入萬(wàn)億美元的公司來(lái)說(shuō),是如何取得成功的?

近日,英偉達(dá)首席科學(xué)家 Bill Dally 在硅谷舉行的 IEEE 2023 年熱門芯片研討會(huì)上,發(fā)表了關(guān)于高性能微處理器的主題演講。

在他演講 PPT 中的一頁(yè),總結(jié)了英偉達(dá)迄今為止取得成功的 4 個(gè)要素。

摩爾定律在英偉達(dá)的「神奇魔法」中只占很小的一部分,而全新「數(shù)字表示」占據(jù)很大一部分。

英偉達(dá)如何在 10 年內(nèi)將其 GPU 在 AI 任務(wù)上的性能提高了千倍

把以上所有這些加在一起,你就會(huì)得到「黃氏定律」(Huang's Law)。

黃教主曾表示,「由于圖形處理器的出現(xiàn),摩爾定律已經(jīng)站不住腳了,代之以一個(gè)新的超強(qiáng)定律。」

數(shù)字表示:16 倍提升

Dally 表示,總的來(lái)說(shuō),我們最大的收獲是來(lái)自更好的「數(shù)字表示」。

這些數(shù)字,代表著神經(jīng)網(wǎng)絡(luò)的「關(guān)鍵參數(shù)」。

其中一個(gè)參數(shù)是權(quán)重,模型中神經(jīng)元與神經(jīng)元之間的連接強(qiáng)度。

另一個(gè)是激活度,神經(jīng)元的加權(quán)輸入之和乘以多少才能決定它是否激活,從而將信息傳播到下一層。

在 P100 之前,英偉達(dá) GPU 使用單精度浮點(diǎn)數(shù)來(lái)表示這些權(quán)重。

根據(jù) IEEE 754 標(biāo)準(zhǔn)定義,這些數(shù)字長(zhǎng)度為 32 位,其中 23 位表示分?jǐn)?shù),8 位基本上是分?jǐn)?shù)的指數(shù),還有 1 位表示數(shù)字的符號(hào)。

但機(jī)器學(xué)習(xí)研究人員很快發(fā)現(xiàn),在許多計(jì)算中,可以使用不太精確的數(shù)字,而神經(jīng)網(wǎng)絡(luò)仍然會(huì)給出同樣精確的答案。

這樣做的明顯優(yōu)勢(shì)是,如果機(jī)器學(xué)習(xí)的關(guān)鍵計(jì)算 —— 乘法和累加 —— 需要處理更少的比特,可以使邏輯變得更快、更小、更高效。

因此,在 P100 中,英偉達(dá)使用了半精度 FP16。

谷歌甚至提出了自己的版本,稱作 bfloat16。

兩者的區(qū)別在于分?jǐn)?shù)位和指數(shù)位的相對(duì)數(shù)量:分?jǐn)?shù)位提供精度,指數(shù)位提供范圍。Bfloat16 的范圍位數(shù)與 FP32 相同,因此在兩種格式之間來(lái)回切換更容易。

回到現(xiàn)在,英偉達(dá)領(lǐng)先的圖形處理器 H100,可以使用 8 位數(shù)完成大規(guī)模 Transformer 神經(jīng)網(wǎng)絡(luò)的某些任務(wù),如 ChatGPT 和其他大型語(yǔ)言模型。

然而,英偉達(dá)卻發(fā)現(xiàn)這不是一個(gè)萬(wàn)能的解決方案。

例如,英偉達(dá)的 Hopper 圖形處理器架構(gòu)實(shí)際上使用兩種不同的 FP8 格式進(jìn)行計(jì)算,一種精度稍高,另一種范圍稍大。英偉達(dá)的特殊優(yōu)勢(shì)在于知道何時(shí)使用哪種格式。

Dally 和他的團(tuán)隊(duì)有各種各樣有趣的想法,可以從更少的比特中榨取更多的人工智能性能。顯然,浮點(diǎn)系統(tǒng)顯然并不理想。

一個(gè)主要問題是,無(wú)論數(shù)字有多大或多小,浮點(diǎn)精度都非常一致。

但是神經(jīng)網(wǎng)絡(luò)的參數(shù)不使用大數(shù),而是主要集聚在 0 附近。因此,英偉達(dá)的 R&D 重點(diǎn)是尋找有效的方法來(lái)表示數(shù)字,以便它們?cè)?0 附近更準(zhǔn)確。

復(fù)雜指令:12.5 倍

「提取和解碼指令的開銷遠(yuǎn)遠(yuǎn)超過執(zhí)行簡(jiǎn)單算術(shù)操作的開銷,」 Dally 說(shuō)道。

他以一個(gè)乘法指令為例,執(zhí)行這個(gè)指令的固定開銷達(dá)到了執(zhí)行數(shù)學(xué)運(yùn)算本身所需的 1.5 焦耳的 20 倍。通過將 GPU 設(shè)計(jì)為在單個(gè)指令中執(zhí)行大規(guī)模計(jì)算,而不是一系列的多個(gè)指令,英偉達(dá)有效地降低了單個(gè)計(jì)算的開銷,取得了巨大的收益。

Dally 表示,雖然仍然存在一些開銷,但在復(fù)雜指令的情況下,這些開銷會(huì)分?jǐn)偟礁嗟臄?shù)學(xué)運(yùn)算中。例如,復(fù)雜指令整數(shù)矩陣乘積累加(IMMA)的開銷僅占數(shù)學(xué)計(jì)算能量成本的 16%。

摩爾定律:2.5 倍

保持摩爾定律的有效性需要數(shù)十億美元的投資、非常復(fù)雜的工程上的設(shè)計(jì),甚至還會(huì)帶來(lái)國(guó)際關(guān)系的不穩(wěn)定。但這些投入都不是造成英偉達(dá) GPU 的成功的主要原因。

英偉達(dá)一直在使用全球最先進(jìn)的制造技術(shù)來(lái)生產(chǎn) GPU——H100 采用臺(tái)積電的的 N5(5 納米)工藝制造。這家芯片工廠直到 2022 年底才開始建設(shè)它的其下一代 N3 工藝。在建好之前,N5 就是業(yè)內(nèi)最頂尖的制造工藝。

稀疏性:2 倍

將這些網(wǎng)絡(luò)變得「稀疏」以減少計(jì)算負(fù)荷是一項(xiàng)棘手的工作。

但是在 A100,H100 的前身中,英偉達(dá)引入了他們的新技術(shù):「結(jié)構(gòu)化稀疏性」。這種硬件設(shè)計(jì)可以強(qiáng)制實(shí)現(xiàn)每四個(gè)可能的剪枝事件中的兩次,從而帶來(lái)了一種新的更小的矩陣計(jì)算。

Dally 表示:「我們?cè)谙∈栊苑矫娴墓ぷ魃形唇Y(jié)束。我們需要再對(duì)激活函數(shù)進(jìn)行加工,并且權(quán)重中也可以有更大的稀疏性?!?/p>

參考資料:

https://spectrum.ieee.org/nvidia-gpu

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:英偉達(dá),人工智能

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知