首頁 > 科學(xué)探索>科技前沿

Nature：探秘世界最快超算 Frontier 的一天

新智元 2024/9/16 12:38:15 責(zé)編：汪淼

評論：

在美國田納西州東部的山區(qū)，一臺名為 Frontier 的破紀(jì)錄超算為科學(xué)家提供了前所未有的機(jī)會，讓他們得以研究從原子到星系的一切。

超算建設(shè)如火如荼，無論是主權(quán) AI 還是科技巨頭，都在源源不斷地給英偉達(dá)輸血、建數(shù)據(jù)中心。

前段時間，馬斯克建成的有 10 萬張 H100 的 Colossus 集群，號稱是世界上最強(qiáng)大的 AI 訓(xùn)練系統(tǒng)。

而在這之前，截止到 2023 年 12 月，世界上運算速度最快的超算，是位于美國田納西州橡樹嶺的 Frontier，也被稱為 OLCF-5。

Frontier 配備的是 AMD 的 CPU 和 GPU，有 5 萬個處理器（其中包含 3.8 萬個 GPU），運算速度為 1.102 exaFLOPS，即每秒 1.102 百億億（10¹⁸）次浮點運算。

這個速度甚至比 10 萬臺筆記本同時工作還要更快，而且在 2022 年首次亮相時，F(xiàn)rontier 還破了一個紀(jì)錄 —— 第一次突破了百億億次運算速度的門檻。

Frontier 超算的覆蓋面積比兩個籃球場還要大

▲ Frontier 超算的覆蓋面積比兩個籃球場還要大

之所以要追求如此卓越的速度和規(guī)模，是為了滿足各領(lǐng)域前沿科學(xué)研究中模擬計算的需要。

Frontier 十分擅長創(chuàng)建模擬，并能同時捕捉到大尺度的模式和小尺度的細(xì)節(jié)，比如微小的云滴如何影響氣候變暖的速度。

如今，研究人員們從世界各地登錄 Frontier，創(chuàng)建從亞原子粒子到星系的一切尖端模型，包括模擬蛋白質(zhì)進(jìn)行藥物發(fā)現(xiàn)和涉及、模擬湍流以改進(jìn)飛機(jī)發(fā)動機(jī)，以及訓(xùn)練能和谷歌、OpenAI 競爭的開源 LLM。

但是，就在今年四月的一天，Frontier 的運作出現(xiàn)了一點意外。

Frontier 所在的田納西州橡樹嶺國家實驗室科學(xué)主任 Bronson Messer 表示，為了為了跟上世界各地科學(xué)家們的要求，F(xiàn)rontier 的功耗急劇上升，峰值達(dá)到了約 27 兆瓦，足以為大約 1 萬個家庭供電。

Nature：探秘世界最快超算 Frontier 的一天

這也為超算的冷卻系統(tǒng)帶來了挑戰(zhàn)，用 Messer 的話說，「機(jī)器像一條被燙傷的狗一樣在運行」。

根據(jù) 2023 年的統(tǒng)計，F(xiàn)rontier 共有 1744 個用戶，遍布 18 個國家，貢獻(xiàn)的計算和數(shù)據(jù)支撐了至少 500 篇已經(jīng)公開發(fā)表的論文。

探秘 Frontier「大腦」內(nèi)部

和我們想象的場景類似，F(xiàn)rontier 所在的機(jī)房類似于一個倉庫，運轉(zhuǎn)時發(fā)出的電子嗡嗡聲穩(wěn)定而輕柔。

機(jī)房中共有 74 個機(jī)架，每個節(jié)點分別包含 4 個 GPU 和 1 個 CPU。之所以有如此快的運算速度，就是得益于龐大的 GPU 數(shù)量。

實驗室主任 Messer 形容道，「這些 GPU 運行得非?？欤灿薮乐翗O，它們可以一遍又一遍地做同一件事?！惯@種同時處理多項運算的功能對超算的快速工作非常有用，但除此之外，也沒什么其他任務(wù)了。

這種「愚蠢至極」的背后，是一種通用性，各領(lǐng)域的科學(xué)家都可以通過定制代碼來運行 GPU。

Frontier 的運轉(zhuǎn)日夜不停，同樣連軸轉(zhuǎn)的還有負(fù)責(zé)運營、維護(hù)的工程團(tuán)隊。

負(fù)責(zé)建造這臺超算的工程師團(tuán)隊來自惠普公司，其中一位技術(shù)人員 Corey Edmonds 表示，他們有一個工程團(tuán)隊會對 Frontier 進(jìn)行持續(xù)監(jiān)控，判斷是否存在故障跡象。

比如其中一位夜班人員 Conner Cunningham 的工作時間就是晚 7 點到早 7 點，負(fù)責(zé)用十多個監(jiān)視器關(guān)注網(wǎng)絡(luò)和建筑物的安全，并監(jiān)控當(dāng)?shù)靥鞖?，確保 Frontier 正常運轉(zhuǎn)。

實際上，大多數(shù)夜晚都是「平安夜」，Cunningham 一般只需要巡查幾次，其余時間都可以在工位上學(xué)習(xí)。

「這項工作有點像消防員，如果發(fā)生任何事，需要有人在崗監(jiān)控。」

助力大科學(xué)

雖然 Frontier 日夜不停地運轉(zhuǎn)，但研究人員想要申請到使用機(jī)會，也并不是一件容易的事。

科學(xué)主任 Messer 和其他 3 位同事負(fù)責(zé)使用提案的評估和批準(zhǔn)，他們?nèi)ツ旯才鷾?zhǔn)了 131 個項目，通過率約為 1/4，申請人需要表明其項目需要利用整個超算系統(tǒng)才能獲批，一般用于對各種時間和空間尺度進(jìn)行建模。

Frontier 每年共有約 6500 萬個節(jié)點時（node-hour）可用，研究人員得到的最常見的分配額度為 50 萬個節(jié)點時，相當(dāng)于全系統(tǒng)連續(xù)運行三天。

Messer 表示，相比其他數(shù)據(jù)中心，研究人員在 Frontier 上獲得的計算資源大約多出十倍。

Frontier 擁有超過 5 萬個處理器，并采用液冷

▲ Frontier 擁有超過 5 萬個處理器，并采用液冷

有了更快的運算速度、更多的計算資源，研究人員們就能做出更加雄心勃勃的「大科學(xué)」。

比如，在原子級精度精確地模擬生物過程，像是溶液中的蛋白質(zhì)或核酸如何與細(xì)胞其他部分發(fā)生相互作用。

今年 5 月，有學(xué)者用 Frontier 模擬了含有超過 1550 億個水分子的立方體形狀的水滴，大小約為人類頭發(fā)寬度的十分之一，是有史以來規(guī)模最大的原子級模擬之一。

短期內(nèi)，研究人員希望模擬細(xì)胞器來為實驗室提供信息；此外他們還希望將這些高分辨率的模擬結(jié)果，與 X 射線自由電子激光器的超快成像相結(jié)合，以加速發(fā)現(xiàn)。

這些工作都是為今后更大的目標(biāo)做鋪墊 —— 從原子開始對整個細(xì)胞進(jìn)行建模。

有了 Frontier，氣候模型也變得更加精確。

Nature：探秘世界最快超算 Frontier 的一天

去年，氣候科學(xué)家 Matt Norman 和其他研究人員使用 Frontier 運行了分辨率為 3.25 公里的全球氣候模型，其中還結(jié)合了分辨率更加精細(xì)的復(fù)雜的云層運動。

為了創(chuàng)建長達(dá)數(shù)十年的預(yù)測模型，F(xiàn)rontier 的計算能力是十分必要的，而且需要用上整個系統(tǒng)的算力才能做到。

對于一個適用于天氣和氣候預(yù)測的模型，至少需要每天進(jìn)行一年的模擬運行。Frontier 每天可以模擬 1.26 年，這個速度可以使研究人員能夠創(chuàng)建比以前更準(zhǔn)確的 50 年預(yù)測。如果換到其他計算機(jī)上運行，要達(dá)到相同的分辨率，同時考慮云的影響，計算速度則會慢得多。

在更大的宇宙級尺度上，F(xiàn)rontier 也能帶來更高的分辨率。

匹茲堡大學(xué)的天體物理學(xué)家 Evan Schneider 也在使用 Frontier，研究銀河系大小的星系如何隨著年齡的增長而演化。

他們創(chuàng)建的星系模型跨越四個數(shù)量級，最大規(guī)?？蛇_(dá)約 10 萬光年。而在 Frontier 之前，以類似的分辨率模擬的最大結(jié)構(gòu)是矮星系，質(zhì)量約為五十分之一。

Frontier 對 AI 意味著什么

作為曾經(jīng)的世界第一，F(xiàn)rontier 的地位顯得更加獨特，因為這臺超算是為數(shù)不多的屬于公共部門的設(shè)備，而非由工業(yè)界主導(dǎo)。

由于 AI 領(lǐng)域的研究往往需要吞噬龐大的算力，學(xué)術(shù)界和工業(yè)界的成果存在巨大的鴻溝。

有學(xué)者統(tǒng)計過，2021 年，96% 的最大的 AI 模型來自工業(yè)界。平均而言，工業(yè)界模型的規(guī)模是學(xué)術(shù)模型的近 30 倍。

這種差異在投資金額方面也很明顯。美國的非國防公共機(jī)構(gòu)在 2021 年提供了 15 億美元支持 AI 研究。同年，全球工業(yè)界支出超過 3400 億美元。

而自從 GPT-4、Gemini Ultra 等商業(yè) LLM 發(fā)布以來，兩者之間的差距又被進(jìn)一步擴(kuò)大，這種投資鴻溝導(dǎo)致工業(yè)界和學(xué)術(shù)界可用的計算資源明顯不對稱。

由于工業(yè)界的模型開發(fā)以盈利為目的，往往會忽視很多技術(shù)發(fā)展中必須要面對的重要問題，比如基礎(chǔ)研究、低收入群體的需求、評估模型風(fēng)險、糾正模型偏見等等。

如果學(xué)術(shù)界要承擔(dān)起這些責(zé)任，就需要能和行業(yè)規(guī)模匹配的算力，這就是 Frontier 的用武之地。

一個最典型的例子，科技公司訓(xùn)練出的 LLM 往往保留不同程度的專有性，但研究者們往往會將自己開發(fā)的模型免費提供給任何人使用。

馬里蘭大學(xué)帕克分校的計算機(jī)科學(xué)家 Abhinav Bhatele 表示，這將有助于大學(xué)研究人員與公司競爭，「學(xué)術(shù)界人士訓(xùn)練類似規(guī)模模型的唯一方法是獲得像 Frontier 這樣的資源?！?/p>

Bhatele 認(rèn)為，F(xiàn)rontier 等設(shè)施在 AI 領(lǐng)域就是發(fā)揮著這種至關(guān)重要的作用，讓更多的人參與到技術(shù)開發(fā)中，共享成果。

但值得注意的是，這場國家之間、科技公司和非營利機(jī)構(gòu)間的算力基礎(chǔ)設(shè)施競賽，依舊在持續(xù)，能力強(qiáng)大如 Frontier 也終會有跌落的一天。

橡樹嶺實驗室已經(jīng)在規(guī)劃 Frontier 的繼任者，名為 Discovery，計算速度將提升 3～5 倍。

作為參考，F(xiàn)rontier 相比 2014 年的最快的超算天河二號 A 快了 35 倍，比 2004 年最快的超算 Earth Simulator 快 3.3 萬倍。

Nature：探秘世界最快超算 Frontier 的一天

研究人員仍然渴望更快的速度，但工程師們面臨著持續(xù)的挑戰(zhàn)，其中一方面就是能源。

Frontier 的能源效率相比 Summit 就提升了 4 倍多，很大程度上是源于不同的冷卻方案。

Frontier 使用室溫水進(jìn)行冷卻，與 Summit 使用冷水不同。Frontier 總能耗的大約 3%～4% 用于冷卻，而 Summit 的這一比例為 10%。

與 Summit 使用冷凍水不同。Frontier 總能耗的大約 3-4% 用于冷卻，而 Summit 的這一比例為 10%。

多年來，能源效率一直是構(gòu)建更先進(jìn)超算的關(guān)鍵瓶頸，而在可預(yù)見的將來，這個瓶頸估計會持續(xù)存在。

實驗室主任 Messer 表示，「我們本可以在 2012 年建造一臺百億億次級別的超算，但提供動力的成本太高了，需要多一兩個數(shù)量級的電力。」

參考資料：

https://www.nature.com/articles/d41586-024-02832-5

本文來自微信公眾號：微信公眾號（ID：null），作者：喬楊，原標(biāo)題《Nature：探秘世界最快超算的一天》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Nature：探秘世界最快超算 Frontier 的一天

探秘 Frontier「大腦」內(nèi)部

助力大科學(xué)

Frontier 對 AI 意味著什么

相關(guān)文章