設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

上萬顆英偉達(dá)芯片 + 微軟數(shù)億美元投資,帶你揭秘 ChatGPT 背后的超級計(jì)算機(jī)

2023/3/14 8:26:55 來源:鳳凰科技 作者:簫雨 責(zé)編:問舟
感謝IT之家網(wǎng)友 華南吳彥祖 的線索投遞!

北京時(shí)間 3 月 14 日消息,人工智能聊天機(jī)器人 ChatGPT 一經(jīng)推出便火爆全球,但外界可能不知道,ChatGPT 之所以能夠如此智能,背后依托的是微軟公司為它打造的一臺昂貴的超級計(jì)算機(jī)。

微軟超級計(jì)算機(jī)使用了上萬顆英偉達(dá)GPU

微軟超級計(jì)算機(jī)使用了上萬顆英偉達(dá) GPU

2019 年,當(dāng)微軟向 ChatGPT 開發(fā)商 OpenAI 投資 10 億美元時(shí),它同意為這家人工智能研究創(chuàng)業(yè)公司打造一臺龐大的尖端超級計(jì)算機(jī)。唯一的問題是:微軟沒有 OpenAI 需要的那樣的東西,也無法完全確定它能在 Azure 云服務(wù)中構(gòu)建這么大的東西而不會破壞它。

當(dāng)時(shí),OpenAI 正試圖訓(xùn)練一套規(guī)模越來越大的人工智能程序,也就是“模型”,后者正在吸收越來越大的數(shù)據(jù)量,學(xué)習(xí)越來越多的參數(shù)。這些參數(shù)是人工智能系統(tǒng)通過訓(xùn)練和再訓(xùn)練得出的變量。這意味著,OpenAI 需要在很長一段時(shí)間內(nèi)使用強(qiáng)大的云計(jì)算服務(wù)。

上萬顆芯片、數(shù)億投資

為了克服這一挑戰(zhàn),微軟不得不想辦法將數(shù)萬顆英偉達(dá) A100 圖形芯片 (訓(xùn)練人工智能模型的主力) 組合在一起,并改變服務(wù)器在機(jī)架上的位置以防止斷電。微軟負(fù)責(zé)云計(jì)算和人工智能的執(zhí)行副總裁斯科特?格思里 (Scott Guthrie) 不愿透露該項(xiàng)目的具體成本,但表示“可能不止”幾億美元。

“我們構(gòu)建了一個(gè)可以在超大規(guī)模范圍內(nèi)運(yùn)行并且可靠的系統(tǒng)架構(gòu)。這就是 ChatGPT 成為可能的原因,”微軟 Azure 人工智能基礎(chǔ)設(shè)施總經(jīng)理尼迪?查普爾 (Nidhi Chappell) 表示,“它是從中得出的一個(gè)模型,未來還會有很多很多其他的模型?!?/p>

ChatGPT靠的是超級計(jì)算機(jī)訓(xùn)練

ChatGPT 靠的是超級計(jì)算機(jī)訓(xùn)練

這項(xiàng)技術(shù)幫助 OpenAI 發(fā)布了 ChatGPT,后者在去年 11 月發(fā)布幾天后就吸引了 100 多萬用戶,現(xiàn)在正被納入其他公司的商業(yè)模式,從億萬富翁對沖基金創(chuàng)始人肯?格里芬 (Ken Griffin) 運(yùn)營的公司,到外賣公司 Instacart。隨著 ChatGPT 等生成式人工智能工具越來越受到企業(yè)和消費(fèi)者的興趣,微軟、亞馬遜公司和谷歌等云服務(wù)提供商將面臨更大的壓力,需要確保他們的數(shù)據(jù)中心能夠提供所需的巨大計(jì)算能力。

現(xiàn)在,微軟使用它為 OpenAI 構(gòu)建的同一套資源來訓(xùn)練和運(yùn)行自己的大型人工智能模型,包括上個(gè)月推出的新必應(yīng)搜索機(jī)器人。微軟還向其他客戶銷售該系統(tǒng)。作為微軟與 OpenAI 擴(kuò)大合作協(xié)議,追加 100 億美元投資的一部分,該軟件巨頭已經(jīng)在研究下一代人工智能超級計(jì)算機(jī)。

“我們不想把它打造成定制產(chǎn)品,它一開始是一個(gè)定制產(chǎn)品,但我們總是想辦法把它打造成通用型產(chǎn)品,這樣任何想訓(xùn)練大型語言模型的人都可以利用同樣的改進(jìn),”格思里在一次采訪中表示,“這真的能夠幫助我們成為使用更廣泛的人工智能云?!?/p>

訓(xùn)練一個(gè)龐大的人工智能模型需要在一個(gè)地方擁有大量相互連接的圖形處理單元,就像微軟組裝的人工智能超級計(jì)算機(jī)一樣。一旦模型投入使用,回答用戶提出的所有查詢 —— 稱之為推理 —— 需要稍微不同的設(shè)置。微軟還部署了用于推理的圖形芯片,但這些成千上萬個(gè)處理器在地理上分散在公司的 60 多個(gè)數(shù)據(jù)中心區(qū)域。微軟周一在一篇博客文章中表示,現(xiàn)在該公司正在為人工智能工作負(fù)載添加最新的英偉達(dá)圖形芯片 H100,以及最新版本的英偉達(dá) Infiniband 網(wǎng)絡(luò)技術(shù),以更快地共享數(shù)據(jù)。

微軟Azure云服務(wù)

微軟 Azure 云服務(wù)

目前,新必應(yīng)搜索仍處于預(yù)覽階段。微軟正在從等待名單中逐漸增加更多用戶。格思里的團(tuán)隊(duì)每天與大約 24 員工舉行會議,后者被稱之為“后勤維修人員”,這一稱呼原指一群在比賽中調(diào)整賽車的機(jī)械師。該小組的工作是弄明白如何讓更強(qiáng)的計(jì)算能力快速上線,以及解決突然出現(xiàn)的問題。

“這很像是一種碰頭會,就像是,‘嘿,任何人都有好主意,讓我們今天把它放在桌面上討論它,弄清楚好吧,我們可以在這里節(jié)省幾分鐘嗎? 我們可以節(jié)省幾個(gè)小時(shí)嗎? 幾天?’”格思里表示。

小錯(cuò)會釀成大禍

云服務(wù)依賴的是成千上萬個(gè)不同的部件和物品,包括服務(wù)器的各個(gè)部件、管道、建筑物的混凝土、不同的金屬和礦物,任何一個(gè)部件的推遲或供應(yīng)不足,無論多么微小,都可能導(dǎo)致功虧一簣。最近,維修人員不得不處理電纜托盤的短缺問題。電纜托盤是一種籃子狀的精巧裝置,用來固定從機(jī)器上脫落的電纜。因此,他們設(shè)計(jì)了一種新的電纜托盤,使得微軟可以自己制造,也可以找地方購買。格思里說,他們還在研究如何盡可能多地壓縮世界各地現(xiàn)有數(shù)據(jù)中心的服務(wù)器,這樣他們就不必等待新的大樓了。

當(dāng) OpenAI 或微軟訓(xùn)練一個(gè)大型 AI 模型時(shí),這些工作是一次性完成的。它被分配到所有的 GPU 上,某些時(shí)候各個(gè)單元需要相互交流來分享它們所做的工作。對于人工智能超級計(jì)算機(jī),微軟必須確保處理所有芯片之間通信的網(wǎng)絡(luò)設(shè)備能夠處理這種負(fù)載,并且必須開發(fā)出能夠充分利用 GPU 和網(wǎng)絡(luò)設(shè)備的軟件。該公司現(xiàn)在推出了一款軟件,可以訓(xùn)練具有數(shù)十萬億個(gè)參數(shù)的模型。

由于所有機(jī)器都是同時(shí)啟動的,微軟不得不考慮它們的放置位置和電源的位置。格思里說,否則,你最終會得到數(shù)據(jù)中心版本的結(jié)果,就像你在廚房里同時(shí)打開微波爐、烤面包機(jī)和吸塵器一樣。

新一代超級計(jì)算機(jī)

微軟 Azure 全球基礎(chǔ)設(shè)施總監(jiān)阿利斯泰爾?斯皮爾斯 (Alistair Speirs) 表示,該公司還必須確保能夠?yàn)樗羞@些機(jī)器和芯片降溫,并在較冷的氣候條件下使用蒸發(fā)、室外空氣,在炎熱的氣候條件下使用高科技沼澤冷卻器。

格思里稱,微軟將繼續(xù)開發(fā)定制服務(wù)器和芯片設(shè)計(jì),并想辦法優(yōu)化供應(yīng)鏈,以盡可能地提高速度、效率和節(jié)省成本。

“現(xiàn)在讓世界驚嘆的模型是建立在我們幾年前開始建造的超級計(jì)算機(jī)上的。新的模型將建立在我們正在訓(xùn)練的新型超級計(jì)算機(jī)上,這臺計(jì)算機(jī)更大,也更精密?!?/p>

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟OpenAI,ChatGPT人工智能,超計(jì)算機(jī)

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知