設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

揭秘 ChatGPT 背后天價(jià)超算,上萬(wàn)顆英偉達(dá) A100,燒光微軟數(shù)億美元

新智元 2023/3/14 18:45:11 責(zé)編:夢(mèng)澤

ChatGPT 背后,是微軟超級(jí)昂貴的超級(jí)計(jì)算機(jī),耗資數(shù)億美元,用了英偉達(dá)數(shù)萬(wàn)顆芯片。

ChatGPT 能成為如今火遍全球的頂流模型,少不了背后超強(qiáng)的算力。

數(shù)據(jù)顯示,ChatGPT 的總算力消耗約為 3640PF-days(即假如每秒計(jì)算一千萬(wàn)億次,需要計(jì)算 3640 天)。

那么,作為依托的那臺(tái)微軟專為 OpenAI 打造的超級(jí)計(jì)算機(jī),又是如何誕生的呢?

周一,微軟在官博上連發(fā)兩文,親自解密這臺(tái)超級(jí)昂貴的超級(jí)計(jì)算機(jī),以及 Azure 的重磅升級(jí) —— 加入成千上萬(wàn)張英偉達(dá)最強(qiáng)的 H100 顯卡以及更快的 InfiniBand 網(wǎng)絡(luò)互連技術(shù)。

基于此,微軟也官宣了最新的 ND H100 v5 虛擬機(jī),具體規(guī)格如下:

  • 8 個(gè) NVIDIA H100 Tensor Core GPU 通過下一代 NVSwitch 和 NVLink 4.0 互聯(lián)

  • 每個(gè) GPU 有 400 Gb / s 的 NVIDIA Quantum-2 CX7 InfiniBand,每個(gè)虛擬機(jī)有 3.2Tb / s 的無(wú)阻塞胖樹型網(wǎng)絡(luò)

  • NVSwitch 和 NVLink 4.0 在每個(gè)虛擬機(jī)的 8 個(gè)本地 GPU 之間具有 3.6TB / s 的雙向帶寬

  • 第四代英特爾至強(qiáng)可擴(kuò)展處理器

  • PCIE Gen5 到 GPU 互連,每個(gè) GPU 有 64GB / s 帶寬

  • 16 通道 4800MHz DDR5 DIMM

數(shù)億美元撐起來的算力

大約五年前,OpenAI 向微軟提出了一個(gè)大膽的想法 —— 建立一個(gè)可以永遠(yuǎn)改變?nèi)藱C(jī)交互方式的人工智能系統(tǒng)。

當(dāng)時(shí),沒人能想到,這將意味著 AI 可以用純語(yǔ)言創(chuàng)造出人類所描述的任何圖片,人類可以用聊天機(jī)器人來寫詩(shī)、寫歌詞、寫論文、寫郵件、寫菜單……

為了建立這個(gè)系統(tǒng),OpenAI 需要很多算力 —— 可以真正支撐起超大規(guī)模計(jì)算的那種。

但問題是,微軟能做到嗎?

畢竟,當(dāng)時(shí)既沒有能滿足 OpenAI 需要的硬件,也無(wú)法確定在 Azure 云服務(wù)中構(gòu)建這樣龐大的超級(jí)計(jì)算機(jī)會(huì)不會(huì)直接把系統(tǒng)搞崩。

隨后,微軟便開啟了一段艱難的摸索。

微軟 Azure 高性能計(jì)算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell(左)和微軟戰(zhàn)略合作伙伴關(guān)系高級(jí)總監(jiān) Phil Waymouth(右)

為了構(gòu)建支持 OpenAI 項(xiàng)目的超級(jí)計(jì)算機(jī),它斥資數(shù)億美元,在 Azure 云計(jì)算平臺(tái)上將幾萬(wàn)個(gè) Nvidia A100 芯片連接在一起,并改造了服務(wù)器機(jī)架。

此外,為了給 OpenAI 量身打造這個(gè)超算平臺(tái),微軟十分盡心,一直在密切關(guān)注著 OpenAI 的需求,隨時(shí)了解他們?cè)谟?xùn)練 AI 時(shí)最關(guān)鍵的需要。

這么一個(gè)大工程,成本究竟是多少呢?微軟負(fù)責(zé)云計(jì)算和人工智能的執(zhí)行副總裁 Scott Guthrie 不愿透露具體數(shù)目,但他表示,「可能不止」幾億美元。

OpenAI 出的難題

微軟負(fù)責(zé)戰(zhàn)略合作伙伴關(guān)系的高管 Phil Waymouth 指出,OpenAI 訓(xùn)練模型所需要的云計(jì)算基礎(chǔ)設(shè)施規(guī)模,是業(yè)內(nèi)前所未有的。

呈指數(shù)級(jí)增長(zhǎng)的網(wǎng)絡(luò) GPU 集群規(guī)模,超過了業(yè)內(nèi)任何人試圖構(gòu)建的程度。

微軟之所以下定決心與 OpenAI 合作,是因?yàn)閳?jiān)信,這種前所未有的基礎(chǔ)設(shè)施規(guī)模將改變歷史,造出全新的 AI,和全新的編程平臺(tái),為客戶提供切實(shí)符合他們利益的產(chǎn)品和服務(wù)。

現(xiàn)在看來,這幾億美元顯然沒白花 —— 寶押對(duì)了。

在這臺(tái)超算上,OpenAI 能夠訓(xùn)練的模型越來越強(qiáng)大,并且解鎖了 AI 工具令人驚嘆的功能,幾乎開啟人類第四次工業(yè)革命的 ChatGPT,由此誕生。

非常滿意的微軟,在 1 月初又向 OpenAI 狂砸 100 億美元。

可以說,微軟突破 AI 超算界限的雄心,已經(jīng)得到了回報(bào)。而這背后體現(xiàn)的,是從實(shí)驗(yàn)室研究,到 AI 產(chǎn)業(yè)化的轉(zhuǎn)變。

目前,微軟的辦公軟件帝國(guó)已經(jīng)初具規(guī)模。

ChatGPT 版必應(yīng),可以幫我們搜索假期安排;Viva Sales 中的聊天機(jī)器人可以幫營(yíng)銷人員寫郵件;GitHub Copilot 可以幫開發(fā)者續(xù)寫代碼;Azure OpenAI 服務(wù)可以讓我們?cè)L問 OpenAI 的大語(yǔ)言模型,還能訪問 Azure 的企業(yè)級(jí)功能。

和英偉達(dá)聯(lián)手

其實(shí),在去年 11 月,微軟就曾官宣,要與 Nvidia 聯(lián)手構(gòu)建「世界上最強(qiáng)大的 AI 超級(jí)計(jì)算機(jī)之一」,來處理訓(xùn)練和擴(kuò)展 AI 所需的巨大計(jì)算負(fù)載。

這臺(tái)超級(jí)計(jì)算機(jī)基于微軟的 Azure 云基礎(chǔ)設(shè)施,使用了數(shù)以萬(wàn)計(jì)個(gè) Nvidia H100 和 A100Tensor Core GPU,及其 Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺(tái)。

Nvidia 在一份聲明中表示,這臺(tái)超級(jí)計(jì)算機(jī)可用于研究和加速 DALL-E 和 Stable Diffusion 等生成式 AI 模型。

隨著 AI 研究人員開始使用更強(qiáng)大的 GPU 來處理更復(fù)雜的 AI 工作負(fù)載,他們看到了 AI 模型更大的潛力,這些模型可以很好地理解細(xì)微差別,從而能夠同時(shí)處理許多不同的語(yǔ)言任務(wù)。

簡(jiǎn)單來說,模型越大,你擁有的數(shù)據(jù)越多,你能訓(xùn)練的時(shí)間越長(zhǎng),模型的準(zhǔn)確性就越好。

但是這些更大的模型很快就會(huì)到達(dá)現(xiàn)有計(jì)算資源的邊界。而微軟明白,OpenAI 需要的超級(jí)計(jì)算機(jī)是什么樣子,需要多大的規(guī)模。

這顯然不是說,單純地購(gòu)買一大堆 GPU 并將它們連接在一起之后,就可以開始協(xié)同工作的東西。

微軟 Azure 高性能計(jì)算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell 表示:「我們需要讓更大的模型訓(xùn)練更長(zhǎng)的時(shí)間,這意味著你不僅需要擁有最大的基礎(chǔ)設(shè)施,你還必須讓它長(zhǎng)期可靠地運(yùn)行。」

Azure 全球基礎(chǔ)設(shè)施總監(jiān) Alistair Speirs 表示,微軟必須確保它能夠冷卻所有這些機(jī)器和芯片。比如,在較涼爽的氣候下使用外部空氣,在炎熱的氣候下使用高科技蒸發(fā)冷卻器等。

此外,由于所有的機(jī)器都是同時(shí)啟動(dòng)的,所以微軟還不得不考慮它們和電源的擺放位置。就像你在廚房里同時(shí)打開微波爐、烤面包機(jī)和吸塵器時(shí)可能會(huì)發(fā)生的情況,只不過是數(shù)據(jù)中心的版本。

大規(guī)模 AI 訓(xùn)練

完成這些突破,關(guān)鍵在哪里?

難題就是,如何構(gòu)建、操作和維護(hù)數(shù)萬(wàn)個(gè)在高吞吐量、低延遲 InfiniBand 網(wǎng)絡(luò)上互連的共置 GPU。

這個(gè)規(guī)模,已經(jīng)遠(yuǎn)遠(yuǎn)超出了 GPU 和網(wǎng)絡(luò)設(shè)備供應(yīng)商測(cè)試的范圍,完全是一片未知的領(lǐng)域。沒有任何人知道,在這種規(guī)模下,硬件會(huì)不會(huì)崩。

微軟 Azure 高性能計(jì)算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell 解釋道,在 LLM 的訓(xùn)練過程中,涉及到的大規(guī)模計(jì)算通常會(huì)被劃分到一個(gè)集群中的數(shù)千個(gè) GPU 上。

在被稱為 allreduce 的階段,GPU 之間會(huì)互相交換它們所做工作的信息。此時(shí)就需要通過 InfiniBand 網(wǎng)絡(luò)進(jìn)行加速,從而讓 GPU 在下一塊計(jì)算開始之前完成。

Nidhi Chappell 表示,由于這些工作跨越了數(shù)千個(gè) GPU,因此除了要確?;A(chǔ)設(shè)施的可靠外,還需要大量很多系統(tǒng)級(jí)優(yōu)化才能實(shí)現(xiàn)最佳的性能,而這是經(jīng)過許多代人的經(jīng)驗(yàn)總結(jié)出來的。

所謂系統(tǒng)級(jí)優(yōu)化,其中就包括能夠有效利用 GPU 和網(wǎng)絡(luò)設(shè)備的軟件。

在過去的幾年里,微軟已經(jīng)開發(fā)出了這種技術(shù),在使訓(xùn)練具有幾十萬(wàn)億個(gè)參數(shù)的模型的能力得到增長(zhǎng)的同時(shí),降低了訓(xùn)練和在生產(chǎn)中提供這些模型的資源要求和時(shí)間。

Waymouth 指出,微軟和合作伙伴也一直在逐步增加 GPU 集群的容量,發(fā)展 InfiniBand 網(wǎng)絡(luò),看看他們能在多大程度上推動(dòng)保持 GPU 集群運(yùn)行所需的數(shù)據(jù)中心基礎(chǔ)設(shè)施,包括冷卻系統(tǒng)、不間斷電源系統(tǒng)和備用發(fā)電機(jī)。

微軟 AI 平臺(tái)公司副總裁 Eric Boyd 表示,這種為大型語(yǔ)言模型訓(xùn)練和下一波 AI 創(chuàng)新而優(yōu)化的超算能力,已經(jīng)可以在 Azure 云服務(wù)中直接獲得。

并且微軟通過與 OpenAI 的合作,積累了大量經(jīng)驗(yàn),當(dāng)其他合作方找來、想要同樣的基礎(chǔ)設(shè)施時(shí),微軟也可以提供。

現(xiàn)在,微軟的 Azure 數(shù)據(jù)中心已經(jīng)覆蓋了全球 60 多個(gè)地區(qū)。

全新虛擬機(jī):ND H100 v5

在上面這個(gè)基礎(chǔ)架構(gòu)上,微軟一直在繼續(xù)改進(jìn)。

今天,微軟就官宣了全新的可大規(guī)模擴(kuò)展虛擬機(jī),這些虛擬機(jī)集成了最新的 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)。

通過虛擬機(jī),微軟可以向客戶提供基礎(chǔ)設(shè)施,根據(jù)任何 AI 任務(wù)的規(guī)模進(jìn)行擴(kuò)展。據(jù)微軟稱,Azure 的新 ND H100 v5 虛擬機(jī)為開發(fā)者提供卓越的性能,同時(shí)調(diào)用數(shù)千個(gè) GPU。

參考資料:

  • https://news.microsoft.com/source/features/ai/how-microsofts-bet-on-azure-unlocked-an-ai-revolution/

本文來自微信公眾號(hào):新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:ChatGPT,微軟,超級(jí)計(jì)算機(jī)

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知