【新智元導(dǎo)讀】AI 世界的進(jìn)化快得有點(diǎn)跟不上了。剛剛,全球最強(qiáng)最大 AI 芯片 WSE-3 發(fā)布,4 萬億晶體管 5nm 工藝制程。更厲害的是,WSE-3 打造的單個超算可訓(xùn)出 24 萬億參數(shù)模型,相當(dāng)于 GPT-4 / Gemini 的十倍大。
全球最快、最強(qiáng)的 AI 芯片面世,讓整個行業(yè)瞬間驚掉了下巴!
AI 芯片初創(chuàng)公司 Cerebras 重磅發(fā)布了「第三代晶圓級引擎」(WSE-3)。性能上,WSE-3 是上一代 WSE-2 的兩倍,且功耗依舊保持不變。
90 萬個 AI 核心,44GB 的片上 SRAM 存儲,讓 WSE-3 的峰值性能達(dá)到了 125 FP16 PetaFLOPS。
這相當(dāng)于 52 塊英偉達(dá) H100 GPU!
不僅如此,相比于 800 億個晶體管,芯片面積為 814 平方毫米的英偉達(dá) H100。
采用臺積電 5nm 制程的 WSE-3,不僅搭載了 40000 億個晶體管(50 倍),芯片面積更是高達(dá) 46225 平方毫米(57 倍)。
專為 AI 打造的計算能力
此前,在傳統(tǒng)的 GPU 集群上,研究團(tuán)隊不僅需要科學(xué)地分配模型,還必須在過程中處理各種復(fù)雜問題,比如處理器單元的內(nèi)存容量、互聯(lián)帶寬、同步機(jī)制等等,同時還要不斷調(diào)整超參數(shù)并進(jìn)行優(yōu)化實(shí)驗(yàn)。
更令人頭疼的是,最終的實(shí)現(xiàn)很容易因?yàn)樾⌒〉淖儎佣艿接绊懀@樣就會進(jìn)一步延長解決問題所需的總時間。
相比之下,WSE-3 的每一個核心都可以獨(dú)立編程,并且專為神經(jīng)網(wǎng)絡(luò)訓(xùn)練和深度學(xué)習(xí)推理中,所需的基于張量的稀疏線性代數(shù)運(yùn)算,進(jìn)行了優(yōu)化。
而團(tuán)隊也可以在 WSE-3 的加持下,以前所未有的速度和規(guī)模訓(xùn)練和運(yùn)行 AI 模型,并且不需要任何復(fù)雜分布式編程技巧。
單芯片實(shí)現(xiàn)集群級性能
其中,WSE-3 配備的 44GB 片上 SRAM 內(nèi)存均勻分布在芯片表面,使得每個核心都能在單個時鐘周期內(nèi)以極高的帶寬(21 PB/s)訪問到快速內(nèi)存 —— 是當(dāng)今地表最強(qiáng) GPU 英偉達(dá) H100 的 7000 倍。
超高帶寬,極低延遲
而 WSE-3 的片上互連技術(shù),更是實(shí)現(xiàn)了核心間驚人的 214 Pb / s 互連帶寬,是 H100 系統(tǒng)的 3715 倍。
單個 CS-3 可訓(xùn) 24 萬億參數(shù),大 GPT-4 十倍
由 WSE-3 組成的 CS-3 超算,可訓(xùn)練比 GPT-4 和 Gemini 大 10 倍的下一代前沿大模型。
再次打破了「摩爾定律」!2019 年 Cerebras 首次推出 CS-1,便打破了這一長達(dá) 50 年的行業(yè)法則。
官方博客中的一句話,簡直刷新世界觀:
在 CS-3 上訓(xùn)練一個萬億參數(shù)模型,就像在 GPU 上訓(xùn)練一個 10 億參數(shù)模型一樣簡單!
顯然,Cerebras 的 CS-3 強(qiáng)勢出擊,就是為了加速最新的大模型訓(xùn)練。
它配備了高達(dá) 1.2PB 的巨大存儲系統(tǒng),單個系統(tǒng)即可訓(xùn)出 24 萬億參數(shù)的模型 —— 為比 GPT-4 和 Gemini 大十倍的模型鋪平道路。
簡之,無需分區(qū)或重構(gòu),大大簡化訓(xùn)練工作流提高開發(fā)效率。
在 Llama 2、Falcon 40B、MPT-30B 以及多模態(tài)模型的真實(shí)測試中,CS-3 每秒輸出的 token 是上一代的 2 倍。
而且,CS-3 在不增加功耗 / 成本的情況下,將性能提高了一倍。
除此之外,為了跟上不斷升級的計算和內(nèi)存需求,Cerebras 提高了集群的可擴(kuò)展性。
上一代 CS-2 支持多達(dá) 192 個系統(tǒng)的集群,而 CS-3 可配置高達(dá) 2048 個系統(tǒng)集群,性能飆升 10 倍。
具體來說,由 2048 個 CS-3 組成的集群,可以提供 256 exafloop 的 AI 計算。
能夠在 24 小時內(nèi),從頭訓(xùn)練一個 Llama 70B 的模型。
相比之下,Llama2 70B 可是用了大約一個月的時間,在 Meta 的 GPU 集群上完成的訓(xùn)練。
與 GPU 系統(tǒng)的另一個不同是,Cerebras 晶圓規(guī)模集群可分離計算和內(nèi)存組件,讓開發(fā)者能輕松擴(kuò)展 MemoryX 單元中的內(nèi)存容量。
得益于 Cerebras 獨(dú)特的 Weight Streaming 架構(gòu),整個集群看起來與單個芯片無異。
換言之,一名 ML 工程師可以在一臺系統(tǒng)上開發(fā)和調(diào)試數(shù)萬億個參數(shù)模型,這在 GPU 領(lǐng)域是聞所未聞的。
具體來說,CS-3 除了為企業(yè)提供 24TB 和 36TB 這兩個版本外,還有面向超算的 120TB 和 1200TB 內(nèi)存版本。(之前的 CS-2 集群只有 1.5TB 和 12TB 可選)
單個 CS-3 可與單個 1200 TB 內(nèi)存單元配對使用,這意味著單個 CS-3 機(jī)架可以存儲模型參數(shù),比 10000 個節(jié)點(diǎn)的 GPU 集群多得多。
除此之外,與使用 GPU 相比,在 Cerebras 平臺上開發(fā)所需的代碼量還減少了高達(dá) 97%。
更令人震驚的數(shù)字是 —— 訓(xùn)練一個 GPT-3 規(guī)模的模型,僅需 565 行代碼!
Playground AI 創(chuàng)始人稱,GPT-3 正穩(wěn)步成為 AI 領(lǐng)域的新「Hello World」。在 Cerebras 上,一個標(biāo)準(zhǔn)的 GPT-3 規(guī)模的模型,只需 565 行代碼即可實(shí)現(xiàn),創(chuàng)下行業(yè)新紀(jì)錄。
首個世界最強(qiáng)芯片打造的超算來了
由 G42 和 Cerebras 聯(lián)手打造的超級計算機(jī) ——Condor Galaxy,是目前在云端構(gòu)建 AI 模型最簡單、最快速的解決方案。
它具備超過 16 ExaFLOPs 的 AI 計算能力,能夠在幾小時之內(nèi)完成對最復(fù)雜模型的訓(xùn)練,這一過程在傳統(tǒng)系統(tǒng)中可能需要數(shù)天。
其 MemoryX 系統(tǒng)擁有 TB 級別的內(nèi)存容量,能夠輕松處理超過 1000 億參數(shù)的大模型,大大簡化了大規(guī)模訓(xùn)練的復(fù)雜度。
與現(xiàn)有的基于 GPU 的集群系統(tǒng)不同,Condor Galaxy 在處理 GPT 這類大型語言模型,包括 GPT 的不同變體、Falcon 和 Llama 時,展現(xiàn)出了幾乎完美的擴(kuò)展能力。
這意味著,隨著更多的 CS-3 設(shè)備投入使用,模型訓(xùn)練的時間將按照幾乎完美的比例縮短。
而且,配置一個生成式 AI 模型只需幾分鐘,不再是數(shù)月,這一切只需一人便可輕松完成。
在簡化大規(guī)模 AI 計算方面,傳統(tǒng)系統(tǒng)因?yàn)樾枰诙鄠€節(jié)點(diǎn)之間同步大量處理器而遇到了難題。
而 Cerebras 的全片級計算系統(tǒng)(WSC)則輕松跨越這一障礙 —— 它通過無縫整合各個組件,實(shí)現(xiàn)了大規(guī)模并行計算,并提供了簡潔的數(shù)據(jù)并行編程界面。
此前,這兩家公司已經(jīng)聯(lián)手打造了世界上最大的兩臺 AI 超級計算機(jī):Condor Galaxy 1 和 Condor Galaxy 2,綜合性能達(dá)到 8exaFLOPs。
G42 集團(tuán)的首席技術(shù)官 Kiril Evtimov 表示:「我們正在建設(shè)的下一代 AI 超級計算機(jī) Condor Galaxy 3,具有 8exaFLOPs 的性能,很快將使我們的 AI 計算總產(chǎn)能達(dá)到 16exaFLOPs。」
如今,我們即將迎來新一波的創(chuàng)新浪潮,而全球 AI 革命的腳步,也再一次被加快了。
參考資料:
https://www.cerebras.net/
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。