揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

新智元 2023/3/14 18:45:11 責(zé)編：夢(mèng)澤

評(píng)論：

ChatGPT 背后，是微軟超級(jí)昂貴的超級(jí)計(jì)算機(jī)，耗資數(shù)億美元，用了英偉達(dá)數(shù)萬(wàn)顆芯片。

ChatGPT 能成為如今火遍全球的頂流模型，少不了背后超強(qiáng)的算力。

數(shù)據(jù)顯示，ChatGPT 的總算力消耗約為 3640PF-days（即假如每秒計(jì)算一千萬(wàn)億次，需要計(jì)算 3640 天）。

那么，作為依托的那臺(tái)微軟專為 OpenAI 打造的超級(jí)計(jì)算機(jī)，又是如何誕生的呢？

周一，微軟在官博上連發(fā)兩文，親自解密這臺(tái)超級(jí)昂貴的超級(jí)計(jì)算機(jī)，以及 Azure 的重磅升級(jí) —— 加入成千上萬(wàn)張英偉達(dá)最強(qiáng)的 H100 顯卡以及更快的 InfiniBand 網(wǎng)絡(luò)互連技術(shù)。

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

基于此，微軟也官宣了最新的 ND H100 v5 虛擬機(jī)，具體規(guī)格如下：

8 個(gè) NVIDIA H100 Tensor Core GPU 通過下一代 NVSwitch 和 NVLink 4.0 互聯(lián)
每個(gè) GPU 有 400 Gb / s 的 NVIDIA Quantum-2 CX7 InfiniBand，每個(gè)虛擬機(jī)有 3.2Tb / s 的無(wú)阻塞胖樹型網(wǎng)絡(luò)
NVSwitch 和 NVLink 4.0 在每個(gè)虛擬機(jī)的 8 個(gè)本地 GPU 之間具有 3.6TB / s 的雙向帶寬
第四代英特爾至強(qiáng)可擴(kuò)展處理器
PCIE Gen5 到 GPU 互連，每個(gè) GPU 有 64GB / s 帶寬
16 通道 4800MHz DDR5 DIMM

數(shù)億美元撐起來的算力

大約五年前，OpenAI 向微軟提出了一個(gè)大膽的想法 —— 建立一個(gè)可以永遠(yuǎn)改變?nèi)藱C(jī)交互方式的人工智能系統(tǒng)。

當(dāng)時(shí)，沒人能想到，這將意味著 AI 可以用純語(yǔ)言創(chuàng)造出人類所描述的任何圖片，人類可以用聊天機(jī)器人來寫詩(shī)、寫歌詞、寫論文、寫郵件、寫菜單……

為了建立這個(gè)系統(tǒng)，OpenAI 需要很多算力 —— 可以真正支撐起超大規(guī)模計(jì)算的那種。

但問題是，微軟能做到嗎？

畢竟，當(dāng)時(shí)既沒有能滿足 OpenAI 需要的硬件，也無(wú)法確定在 Azure 云服務(wù)中構(gòu)建這樣龐大的超級(jí)計(jì)算機(jī)會(huì)不會(huì)直接把系統(tǒng)搞崩。

隨后，微軟便開啟了一段艱難的摸索。

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

微軟 Azure 高性能計(jì)算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell（左）和微軟戰(zhàn)略合作伙伴關(guān)系高級(jí)總監(jiān) Phil Waymouth（右）

為了構(gòu)建支持 OpenAI 項(xiàng)目的超級(jí)計(jì)算機(jī)，它斥資數(shù)億美元，在 Azure 云計(jì)算平臺(tái)上將幾萬(wàn)個(gè) Nvidia A100 芯片連接在一起，并改造了服務(wù)器機(jī)架。

此外，為了給 OpenAI 量身打造這個(gè)超算平臺(tái)，微軟十分盡心，一直在密切關(guān)注著 OpenAI 的需求，隨時(shí)了解他們?cè)谟?xùn)練 AI 時(shí)最關(guān)鍵的需要。

這么一個(gè)大工程，成本究竟是多少呢？微軟負(fù)責(zé)云計(jì)算和人工智能的執(zhí)行副總裁 Scott Guthrie 不愿透露具體數(shù)目，但他表示，「可能不止」幾億美元。

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

OpenAI 出的難題

微軟負(fù)責(zé)戰(zhàn)略合作伙伴關(guān)系的高管 Phil Waymouth 指出，OpenAI 訓(xùn)練模型所需要的云計(jì)算基礎(chǔ)設(shè)施規(guī)模，是業(yè)內(nèi)前所未有的。

呈指數(shù)級(jí)增長(zhǎng)的網(wǎng)絡(luò) GPU 集群規(guī)模，超過了業(yè)內(nèi)任何人試圖構(gòu)建的程度。

微軟之所以下定決心與 OpenAI 合作，是因?yàn)閳?jiān)信，這種前所未有的基礎(chǔ)設(shè)施規(guī)模將改變歷史，造出全新的 AI，和全新的編程平臺(tái)，為客戶提供切實(shí)符合他們利益的產(chǎn)品和服務(wù)。

現(xiàn)在看來，這幾億美元顯然沒白花 —— 寶押對(duì)了。

在這臺(tái)超算上，OpenAI 能夠訓(xùn)練的模型越來越強(qiáng)大，并且解鎖了 AI 工具令人驚嘆的功能，幾乎開啟人類第四次工業(yè)革命的 ChatGPT，由此誕生。

非常滿意的微軟，在 1 月初又向 OpenAI 狂砸 100 億美元。

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

可以說，微軟突破 AI 超算界限的雄心，已經(jīng)得到了回報(bào)。而這背后體現(xiàn)的，是從實(shí)驗(yàn)室研究，到 AI 產(chǎn)業(yè)化的轉(zhuǎn)變。

目前，微軟的辦公軟件帝國(guó)已經(jīng)初具規(guī)模。

ChatGPT 版必應(yīng)，可以幫我們搜索假期安排；Viva Sales 中的聊天機(jī)器人可以幫營(yíng)銷人員寫郵件；GitHub Copilot 可以幫開發(fā)者續(xù)寫代碼；Azure OpenAI 服務(wù)可以讓我們?cè)L問 OpenAI 的大語(yǔ)言模型，還能訪問 Azure 的企業(yè)級(jí)功能。

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

和英偉達(dá)聯(lián)手

其實(shí)，在去年 11 月，微軟就曾官宣，要與 Nvidia 聯(lián)手構(gòu)建「世界上最強(qiáng)大的 AI 超級(jí)計(jì)算機(jī)之一」，來處理訓(xùn)練和擴(kuò)展 AI 所需的巨大計(jì)算負(fù)載。

這臺(tái)超級(jí)計(jì)算機(jī)基于微軟的 Azure 云基礎(chǔ)設(shè)施，使用了數(shù)以萬(wàn)計(jì)個(gè) Nvidia H100 和 A100Tensor Core GPU，及其 Quantum-2 InfiniBand 網(wǎng)絡(luò)平臺(tái)。

Nvidia 在一份聲明中表示，這臺(tái)超級(jí)計(jì)算機(jī)可用于研究和加速 DALL-E 和 Stable Diffusion 等生成式 AI 模型。

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

隨著 AI 研究人員開始使用更強(qiáng)大的 GPU 來處理更復(fù)雜的 AI 工作負(fù)載，他們看到了 AI 模型更大的潛力，這些模型可以很好地理解細(xì)微差別，從而能夠同時(shí)處理許多不同的語(yǔ)言任務(wù)。

簡(jiǎn)單來說，模型越大，你擁有的數(shù)據(jù)越多，你能訓(xùn)練的時(shí)間越長(zhǎng)，模型的準(zhǔn)確性就越好。

但是這些更大的模型很快就會(huì)到達(dá)現(xiàn)有計(jì)算資源的邊界。而微軟明白，OpenAI 需要的超級(jí)計(jì)算機(jī)是什么樣子，需要多大的規(guī)模。

這顯然不是說，單純地購(gòu)買一大堆 GPU 并將它們連接在一起之后，就可以開始協(xié)同工作的東西。

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

微軟 Azure 高性能計(jì)算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell 表示：「我們需要讓更大的模型訓(xùn)練更長(zhǎng)的時(shí)間，這意味著你不僅需要擁有最大的基礎(chǔ)設(shè)施，你還必須讓它長(zhǎng)期可靠地運(yùn)行。」

Azure 全球基礎(chǔ)設(shè)施總監(jiān) Alistair Speirs 表示，微軟必須確保它能夠冷卻所有這些機(jī)器和芯片。比如，在較涼爽的氣候下使用外部空氣，在炎熱的氣候下使用高科技蒸發(fā)冷卻器等。

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

此外，由于所有的機(jī)器都是同時(shí)啟動(dòng)的，所以微軟還不得不考慮它們和電源的擺放位置。就像你在廚房里同時(shí)打開微波爐、烤面包機(jī)和吸塵器時(shí)可能會(huì)發(fā)生的情況，只不過是數(shù)據(jù)中心的版本。

大規(guī)模 AI 訓(xùn)練

完成這些突破，關(guān)鍵在哪里？

難題就是，如何構(gòu)建、操作和維護(hù)數(shù)萬(wàn)個(gè)在高吞吐量、低延遲 InfiniBand 網(wǎng)絡(luò)上互連的共置 GPU。

這個(gè)規(guī)模，已經(jīng)遠(yuǎn)遠(yuǎn)超出了 GPU 和網(wǎng)絡(luò)設(shè)備供應(yīng)商測(cè)試的范圍，完全是一片未知的領(lǐng)域。沒有任何人知道，在這種規(guī)模下，硬件會(huì)不會(huì)崩。

微軟 Azure 高性能計(jì)算和人工智能產(chǎn)品負(fù)責(zé)人 Nidhi Chappell 解釋道，在 LLM 的訓(xùn)練過程中，涉及到的大規(guī)模計(jì)算通常會(huì)被劃分到一個(gè)集群中的數(shù)千個(gè) GPU 上。

在被稱為 allreduce 的階段，GPU 之間會(huì)互相交換它們所做工作的信息。此時(shí)就需要通過 InfiniBand 網(wǎng)絡(luò)進(jìn)行加速，從而讓 GPU 在下一塊計(jì)算開始之前完成。

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

Nidhi Chappell 表示，由于這些工作跨越了數(shù)千個(gè) GPU，因此除了要確?；A(chǔ)設(shè)施的可靠外，還需要大量很多系統(tǒng)級(jí)優(yōu)化才能實(shí)現(xiàn)最佳的性能，而這是經(jīng)過許多代人的經(jīng)驗(yàn)總結(jié)出來的。

所謂系統(tǒng)級(jí)優(yōu)化，其中就包括能夠有效利用 GPU 和網(wǎng)絡(luò)設(shè)備的軟件。

在過去的幾年里，微軟已經(jīng)開發(fā)出了這種技術(shù)，在使訓(xùn)練具有幾十萬(wàn)億個(gè)參數(shù)的模型的能力得到增長(zhǎng)的同時(shí)，降低了訓(xùn)練和在生產(chǎn)中提供這些模型的資源要求和時(shí)間。

Waymouth 指出，微軟和合作伙伴也一直在逐步增加 GPU 集群的容量，發(fā)展 InfiniBand 網(wǎng)絡(luò)，看看他們能在多大程度上推動(dòng)保持 GPU 集群運(yùn)行所需的數(shù)據(jù)中心基礎(chǔ)設(shè)施，包括冷卻系統(tǒng)、不間斷電源系統(tǒng)和備用發(fā)電機(jī)。

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

微軟 AI 平臺(tái)公司副總裁 Eric Boyd 表示，這種為大型語(yǔ)言模型訓(xùn)練和下一波 AI 創(chuàng)新而優(yōu)化的超算能力，已經(jīng)可以在 Azure 云服務(wù)中直接獲得。

并且微軟通過與 OpenAI 的合作，積累了大量經(jīng)驗(yàn)，當(dāng)其他合作方找來、想要同樣的基礎(chǔ)設(shè)施時(shí)，微軟也可以提供。

現(xiàn)在，微軟的 Azure 數(shù)據(jù)中心已經(jīng)覆蓋了全球 60 多個(gè)地區(qū)。

全新虛擬機(jī)：ND H100 v5

在上面這個(gè)基礎(chǔ)架構(gòu)上，微軟一直在繼續(xù)改進(jìn)。

今天，微軟就官宣了全新的可大規(guī)模擴(kuò)展虛擬機(jī)，這些虛擬機(jī)集成了最新的 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡(luò)。

通過虛擬機(jī)，微軟可以向客戶提供基礎(chǔ)設(shè)施，根據(jù)任何 AI 任務(wù)的規(guī)模進(jìn)行擴(kuò)展。據(jù)微軟稱，Azure 的新 ND H100 v5 虛擬機(jī)為開發(fā)者提供卓越的性能，同時(shí)調(diào)用數(shù)千個(gè) GPU。

參考資料：

https://news.microsoft.com/source/features/ai/how-microsofts-bet-on-azure-unlocked-an-ai-revolution/

本文來自微信公眾號(hào)：新智元（ID：AI_era）

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元

數(shù)億美元撐起來的算力

OpenAI 出的難題

和英偉達(dá)聯(lián)手

大規(guī)模 AI 訓(xùn)練

全新虛擬機(jī)：ND H100 v5

相關(guān)文章

揭秘 ChatGPT 背后天價(jià)超算，上萬(wàn)顆英偉達(dá) A100，燒光微軟數(shù)億美元