在美國田納西州東部的山區(qū),一臺名為 Frontier 的破紀(jì)錄超算為科學(xué)家提供了前所未有的機(jī)會,讓他們得以研究從原子到星系的一切。
超算建設(shè)如火如荼,無論是主權(quán) AI 還是科技巨頭,都在源源不斷地給英偉達(dá)輸血、建數(shù)據(jù)中心。
前段時間,馬斯克建成的有 10 萬張 H100 的 Colossus 集群,號稱是世界上最強(qiáng)大的 AI 訓(xùn)練系統(tǒng)。
而在這之前,截止到 2023 年 12 月,世界上運(yùn)算速度最快的超算,是位于美國田納西州橡樹嶺的 Frontier,也被稱為 OLCF-5。
Frontier 配備的是 AMD 的 CPU 和 GPU,有 5 萬個處理器(其中包含 3.8 萬個 GPU),運(yùn)算速度為 1.102 exaFLOPS,即每秒 1.102 百億億(1018)次浮點運(yùn)算。
這個速度甚至比 10 萬臺筆記本同時工作還要更快,而且在 2022 年首次亮相時,F(xiàn)rontier 還破了一個紀(jì)錄 —— 第一次突破了百億億次運(yùn)算速度的門檻。
之所以要追求如此卓越的速度和規(guī)模,是為了滿足各領(lǐng)域前沿科學(xué)研究中模擬計算的需要。
Frontier 十分擅長創(chuàng)建模擬,并能同時捕捉到大尺度的模式和小尺度的細(xì)節(jié),比如微小的云滴如何影響氣候變暖的速度。
如今,研究人員們從世界各地登錄 Frontier,創(chuàng)建從亞原子粒子到星系的一切尖端模型,包括模擬蛋白質(zhì)進(jìn)行藥物發(fā)現(xiàn)和涉及、模擬湍流以改進(jìn)飛機(jī)發(fā)動機(jī),以及訓(xùn)練能和谷歌、OpenAI 競爭的開源 LLM。
但是,就在今年四月的一天,Frontier 的運(yùn)作出現(xiàn)了一點意外。
Frontier 所在的田納西州橡樹嶺國家實驗室科學(xué)主任 Bronson Messer 表示,為了為了跟上世界各地科學(xué)家們的要求,F(xiàn)rontier 的功耗急劇上升,峰值達(dá)到了約 27 兆瓦,足以為大約 1 萬個家庭供電。
這也為超算的冷卻系統(tǒng)帶來了挑戰(zhàn),用 Messer 的話說,「機(jī)器像一條被燙傷的狗一樣在運(yùn)行」。
根據(jù) 2023 年的統(tǒng)計,F(xiàn)rontier 共有 1744 個用戶,遍布 18 個國家,貢獻(xiàn)的計算和數(shù)據(jù)支撐了至少 500 篇已經(jīng)公開發(fā)表的論文。
探秘 Frontier「大腦」內(nèi)部
和我們想象的場景類似,F(xiàn)rontier 所在的機(jī)房類似于一個倉庫,運(yùn)轉(zhuǎn)時發(fā)出的電子嗡嗡聲穩(wěn)定而輕柔。
機(jī)房中共有 74 個機(jī)架,每個節(jié)點分別包含 4 個 GPU 和 1 個 CPU。之所以有如此快的運(yùn)算速度,就是得益于龐大的 GPU 數(shù)量。
實驗室主任 Messer 形容道,「這些 GPU 運(yùn)行得非???,但也愚蠢至極,它們可以一遍又一遍地做同一件事?!惯@種同時處理多項運(yùn)算的功能對超算的快速工作非常有用,但除此之外,也沒什么其他任務(wù)了。
這種「愚蠢至極」的背后,是一種通用性,各領(lǐng)域的科學(xué)家都可以通過定制代碼來運(yùn)行 GPU。
Frontier 的運(yùn)轉(zhuǎn)日夜不停,同樣連軸轉(zhuǎn)的還有負(fù)責(zé)運(yùn)營、維護(hù)的工程團(tuán)隊。
負(fù)責(zé)建造這臺超算的工程師團(tuán)隊來自惠普公司,其中一位技術(shù)人員 Corey Edmonds 表示,他們有一個工程團(tuán)隊會對 Frontier 進(jìn)行持續(xù)監(jiān)控,判斷是否存在故障跡象。
比如其中一位夜班人員 Conner Cunningham 的工作時間就是晚 7 點到早 7 點,負(fù)責(zé)用十多個監(jiān)視器關(guān)注網(wǎng)絡(luò)和建筑物的安全,并監(jiān)控當(dāng)?shù)靥鞖?,確保 Frontier 正常運(yùn)轉(zhuǎn)。
實際上,大多數(shù)夜晚都是「平安夜」,Cunningham 一般只需要巡查幾次,其余時間都可以在工位上學(xué)習(xí)。
「這項工作有點像消防員,如果發(fā)生任何事,需要有人在崗監(jiān)控?!?/p>
助力大科學(xué)
雖然 Frontier 日夜不停地運(yùn)轉(zhuǎn),但研究人員想要申請到使用機(jī)會,也并不是一件容易的事。
科學(xué)主任 Messer 和其他 3 位同事負(fù)責(zé)使用提案的評估和批準(zhǔn),他們?nèi)ツ旯才鷾?zhǔn)了 131 個項目,通過率約為 1/4,申請人需要表明其項目需要利用整個超算系統(tǒng)才能獲批,一般用于對各種時間和空間尺度進(jìn)行建模。
Frontier 每年共有約 6500 萬個節(jié)點時(node-hour)可用,研究人員得到的最常見的分配額度為 50 萬個節(jié)點時,相當(dāng)于全系統(tǒng)連續(xù)運(yùn)行三天。
Messer 表示,相比其他數(shù)據(jù)中心,研究人員在 Frontier 上獲得的計算資源大約多出十倍。
有了更快的運(yùn)算速度、更多的計算資源,研究人員們就能做出更加雄心勃勃的「大科學(xué)」。
比如,在原子級精度精確地模擬生物過程,像是溶液中的蛋白質(zhì)或核酸如何與細(xì)胞其他部分發(fā)生相互作用。
今年 5 月,有學(xué)者用 Frontier 模擬了含有超過 1550 億個水分子的立方體形狀的水滴,大小約為人類頭發(fā)寬度的十分之一,是有史以來規(guī)模最大的原子級模擬之一。
短期內(nèi),研究人員希望模擬細(xì)胞器來為實驗室提供信息;此外他們還希望將這些高分辨率的模擬結(jié)果,與 X 射線自由電子激光器的超快成像相結(jié)合,以加速發(fā)現(xiàn)。
這些工作都是為今后更大的目標(biāo)做鋪墊 —— 從原子開始對整個細(xì)胞進(jìn)行建模。
有了 Frontier,氣候模型也變得更加精確。
去年,氣候科學(xué)家 Matt Norman 和其他研究人員使用 Frontier 運(yùn)行了分辨率為 3.25 公里的全球氣候模型,其中還結(jié)合了分辨率更加精細(xì)的復(fù)雜的云層運(yùn)動。
為了創(chuàng)建長達(dá)數(shù)十年的預(yù)測模型,F(xiàn)rontier 的計算能力是十分必要的,而且需要用上整個系統(tǒng)的算力才能做到。
對于一個適用于天氣和氣候預(yù)測的模型,至少需要每天進(jìn)行一年的模擬運(yùn)行。Frontier 每天可以模擬 1.26 年,這個速度可以使研究人員能夠創(chuàng)建比以前更準(zhǔn)確的 50 年預(yù)測。如果換到其他計算機(jī)上運(yùn)行,要達(dá)到相同的分辨率,同時考慮云的影響,計算速度則會慢得多。
在更大的宇宙級尺度上,F(xiàn)rontier 也能帶來更高的分辨率。
匹茲堡大學(xué)的天體物理學(xué)家 Evan Schneider 也在使用 Frontier,研究銀河系大小的星系如何隨著年齡的增長而演化。
他們創(chuàng)建的星系模型跨越四個數(shù)量級,最大規(guī)模可達(dá)約 10 萬光年。而在 Frontier 之前,以類似的分辨率模擬的最大結(jié)構(gòu)是矮星系,質(zhì)量約為五十分之一。
Frontier 對 AI 意味著什么
作為曾經(jīng)的世界第一,F(xiàn)rontier 的地位顯得更加獨特,因為這臺超算是為數(shù)不多的屬于公共部門的設(shè)備,而非由工業(yè)界主導(dǎo)。
由于 AI 領(lǐng)域的研究往往需要吞噬龐大的算力,學(xué)術(shù)界和工業(yè)界的成果存在巨大的鴻溝。
有學(xué)者統(tǒng)計過,2021 年,96% 的最大的 AI 模型來自工業(yè)界。平均而言,工業(yè)界模型的規(guī)模是學(xué)術(shù)模型的近 30 倍。
這種差異在投資金額方面也很明顯。美國的非國防公共機(jī)構(gòu)在 2021 年提供了 15 億美元支持 AI 研究。同年,全球工業(yè)界支出超過 3400 億美元。
而自從 GPT-4、Gemini Ultra 等商業(yè) LLM 發(fā)布以來,兩者之間的差距又被進(jìn)一步擴(kuò)大,這種投資鴻溝導(dǎo)致工業(yè)界和學(xué)術(shù)界可用的計算資源明顯不對稱。
由于工業(yè)界的模型開發(fā)以盈利為目的,往往會忽視很多技術(shù)發(fā)展中必須要面對的重要問題,比如基礎(chǔ)研究、低收入群體的需求、評估模型風(fēng)險、糾正模型偏見等等。
如果學(xué)術(shù)界要承擔(dān)起這些責(zé)任,就需要能和行業(yè)規(guī)模匹配的算力,這就是 Frontier 的用武之地。
一個最典型的例子,科技公司訓(xùn)練出的 LLM 往往保留不同程度的專有性,但研究者們往往會將自己開發(fā)的模型免費提供給任何人使用。
馬里蘭大學(xué)帕克分校的計算機(jī)科學(xué)家 Abhinav Bhatele 表示,這將有助于大學(xué)研究人員與公司競爭,「學(xué)術(shù)界人士訓(xùn)練類似規(guī)模模型的唯一方法是獲得像 Frontier 這樣的資源?!?/p>
Bhatele 認(rèn)為,F(xiàn)rontier 等設(shè)施在 AI 領(lǐng)域就是發(fā)揮著這種至關(guān)重要的作用,讓更多的人參與到技術(shù)開發(fā)中,共享成果。
但值得注意的是,這場國家之間、科技公司和非營利機(jī)構(gòu)間的算力基礎(chǔ)設(shè)施競賽,依舊在持續(xù),能力強(qiáng)大如 Frontier 也終會有跌落的一天。
橡樹嶺實驗室已經(jīng)在規(guī)劃 Frontier 的繼任者,名為 Discovery,計算速度將提升 3~5 倍。
作為參考,F(xiàn)rontier 相比 2014 年的最快的超算天河二號 A 快了 35 倍,比 2004 年最快的超算 Earth Simulator 快 3.3 萬倍。
研究人員仍然渴望更快的速度,但工程師們面臨著持續(xù)的挑戰(zhàn),其中一方面就是能源。
Frontier 的能源效率相比 Summit 就提升了 4 倍多,很大程度上是源于不同的冷卻方案。
Frontier 使用室溫水進(jìn)行冷卻,與 Summit 使用冷水不同。Frontier 總能耗的大約 3%~4% 用于冷卻,而 Summit 的這一比例為 10%。
與 Summit 使用冷凍水不同。Frontier 總能耗的大約 3-4% 用于冷卻,而 Summit 的這一比例為 10%。
多年來,能源效率一直是構(gòu)建更先進(jìn)超算的關(guān)鍵瓶頸,而在可預(yù)見的將來,這個瓶頸估計會持續(xù)存在。
實驗室主任 Messer 表示,「我們本可以在 2012 年建造一臺百億億次級別的超算,但提供動力的成本太高了,需要多一兩個數(shù)量級的電力?!?/p>
參考資料:
本文來自微信公眾號:微信公眾號(ID:null),作者:喬楊,原標(biāo)題《Nature:探秘世界最快超算的一天》
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。