設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌最強 AI 超算碾壓英偉達 A100,TPU v4 性能提升 10 倍,細節(jié)首次公開

新智元 2023/4/6 18:15:01 責編:夢澤

微軟為 ChatGPT 打造專用超算,砸下幾億美元,用了上萬張 A100?,F(xiàn)在,谷歌首次公布了自家 AI 超算的細節(jié) —— 性能相較上代 v3 提升 10 倍,比 A100 強 1.7 倍。此外,據(jù)說能和 H100 對打的芯片已經(jīng)在研發(fā)了。

雖然谷歌早在 2020 年,就在自家的數(shù)據(jù)中心上部署了當時最強的 AI 芯片 ——TPU v4。

但直到今年的 4 月 4 日,谷歌才首次公布了這臺 AI 超算的技術細節(jié)。

論文地址:https://arxiv.org/ abs / 2304.01433

相比于 TPU v3,TPU v4 的性能要高出 2.1 倍,而在整合 4096 個芯片之后,超算的性能更是提升了 10 倍。

另外,谷歌還聲稱,自家芯片要比英偉達 A100 更快、更節(jié)能。

與 A100 對打,速度快 1.7 倍

論文中,谷歌表示,對于規(guī)模相當?shù)南到y(tǒng),TPU v4 可以提供比英偉達 A100 強 1.7 倍的性能,同時在能效上也能提高 1.9 倍。

另外,谷歌超算速度還要比 Graphcore IPU Bow 快約 4.3 倍至 4.5 倍。

谷歌展示了 TPU v4 的封裝,以及 4 個安裝在電路板上的封裝。

與 TPU v3 一樣,每個 TPU v4 包含兩個 TensorCore(TC)。每個 TC 包含四個 128x128 矩陣乘法單元(MXU),一個具有 128 個通道(每個通道 16 個 ALU),以及 16 MiB 向量存儲器(VMEM)的向量處理單元(VPU)。

兩個 TC 共享一個 128 MiB 的公共存儲器(CMEM)。

值得注意的是,A100 芯片與谷歌第四代 TPU 同時上市,那么其具體性能對比如何?

谷歌分別展示了在 5 個 MLPerf 基準測試中每個 DSA 的最快性能。其中包括 BERT、ResNET、DLRM、RetinaNet、MaskRCNN。

其中,Graphcore IPU 在 BERT 和 ResNET 提交了結果。

如下展示了兩個系統(tǒng)在 ResNet 和 BERT 的結果,點之間的虛線是基于芯片數(shù)量的插值。

TPU v4 和 A100 的 MLPerf 結果都擴展到比 IPU 更大的系統(tǒng)(4096 個芯片對比 256 個芯片)。

對于相似規(guī)模的系統(tǒng),TPU v4 在 BERT 上比 A100 快 1.15 倍,比 IPU 快大約 4.3 倍。對于 ResNet,TPU v4 分別快 1.67 倍和大約 4.5 倍。

對于在 MLPerf 基準測試上的功耗使用情況,A100 平均上使用了 1.3 倍至 1.9 倍的功率。

峰值每秒浮點運算次數(shù)是否能預測實際性能?許多機器學習領域的人認為峰值每秒浮點運算次數(shù)是一個很好的性能代理指標,但實際上并非如此。

例如,盡管在峰值每秒浮點運算次數(shù)上僅具有 1.10 倍的優(yōu)勢,TPU v4 在兩個 MLPerf 基準測試上比 IPU Bow 在相同規(guī)模的系統(tǒng)上快 4.3 倍至 4.5 倍。

另一個例子是,A100 的峰值每秒浮點運算次數(shù)是 TPU v4 的 1.13 倍,但對于相同數(shù)量的芯片,TPU v4 卻快 1.15 倍至 1.67 倍。

如下如圖使用 Roofline 模型展示了峰值 FLOPS / 秒與內(nèi)存帶寬之間的關系。

那么,問題來了,谷歌為什么不和英偉達最新的 H100 比較?

谷歌表示,由于 H100 是在谷歌芯片推出后使用更新技術制造的,所以沒有將其第四代產(chǎn)品與英偉達當前的旗艦 H100 芯片進行比較。

不過谷歌暗示,它正在研發(fā)一款與 Nvidia H100 競爭的新 TPU,但沒有提供詳細信息。谷歌研究員 Jouppi 在接受路透社采訪時表示,谷歌擁有「未來芯片的生產(chǎn)線」。

TPU vs GPU

在 ChatGPT 和 Bard「決一死戰(zhàn)」的同時,兩個龐然大物也在幕后努力運行,以保持它們的運行 —— 英偉達 CUDA 支持的 GPU(圖形處理單元)和谷歌定制的 TPU(張量處理單元)。

換句話說,這已經(jīng)不再是關于 ChatGPT 與 Bard 的對抗,而是 TPU 與 GPU 之間的對決,以及它們?nèi)绾斡行У剡M行矩陣乘法。

由于在硬件架構方面的出色設計,英偉達的 GPU 非常適合矩陣乘法任務 —— 能有效地在多個 CUDA 核心之間實現(xiàn)并行處理。

因此從 2012 年開始,在 GPU 上訓練模型便成為了深度學習領域的共識,至今都未曾改變。

而隨著 NVIDIA DGX 的推出,英偉達能夠為幾乎所有的 AI 任務提供一站式硬件和軟件解決方案,這是競爭對手由于缺乏知識產(chǎn)權而無法提供的。

相比之下,谷歌則在 2016 年推出了第一代張量處理單元(TPU),其中不僅包含了專門為張量計算優(yōu)化的定制 ASIC(專用集成電路),并且還針對自家的 TensorFlow 框架進行了優(yōu)化。而這也讓 TPU 在矩陣乘法之外的其他 AI 計算任務中具有優(yōu)勢,甚至還可以加速微調和推理任務。

此外,谷歌 DeepMind 的研究人員還找到了一種能夠創(chuàng)造出更好矩陣乘法算法的方法 ——AlphaTensor。

然而,即便谷歌通過自研的技術和新興的 AI 計算優(yōu)化方法取得了良好的成果,但微軟與英偉達長久以來的深度合作,則通過利用各自在行業(yè)上的積累,同時擴大了雙方的競爭優(yōu)勢。

第四代 TPU

時間回到 21 年的谷歌 I / O 大會上,劈柴首次公布了谷歌最新一代 AI 芯片 TPU v4。

「這是我們在谷歌上部署的最快的系統(tǒng),對我們來說是一個具有歷史意義的里程碑?!?/p>

這次的改進已經(jīng)成為構建 AI 超算的公司之間競爭的關鍵點,因為像谷歌的 Bard、或 OpenAI 的 ChatGPT 類似的大型語言模型已經(jīng)在參數(shù)規(guī)模上實現(xiàn)爆炸式增長。

這意味著它們遠遠大于單個芯片所能存儲的容量,對算力需求是一個巨大的「黑洞」。

因此這些大模型必須分布在數(shù)千個芯片上,然后這些芯片必須協(xié)同工作數(shù)周,甚至更長時間來訓練模型。

目前,谷歌迄今為止公開披露的最大的語言模型 PaLM,有 5400 億參數(shù),便是在 50 天內(nèi)將其分割到兩臺 4000 芯片的超級計算機上進行訓練的。

谷歌表示,自家的超級計算機能夠輕松地重新配置芯片之間的連接,能夠避免問題,并進行性能調優(yōu)。

谷歌研究員 Norm Jouppi 和谷歌杰出工程師 David Patterson 在關于該系統(tǒng)的博客文章中寫道,

「電路交換使得繞過失效組件變得容易。這種靈活性甚至允許我們改變超算互連的拓撲結構,以加速機器學習模型的性能?!?/p>

盡管谷歌現(xiàn)在才發(fā)布有關其超級計算機的詳細信息,但自 2020 年以來,該超級計算機已在位于俄克拉荷馬州梅斯縣的數(shù)據(jù)中心內(nèi)上線。

谷歌表示,Midjourney 使用該系統(tǒng)訓練了其模型,最新版的 V5 讓所有人見識到圖像生成的驚艷。

最近,劈柴在接受紐約時報采訪稱,Bard 將從 LaMDA 轉到 PaLM 上。

現(xiàn)在有了 TPU v4 超算的加持,Bard 只會變得更強。

參考資料:

  • https://www.reuters.com/technology/google-says-its-ai-supercomputer-is-faster-greener-than-nvidia-2023-04-05/

  • https://analyticsindiamag.com/forget-chatgpt-vs-bard-the-real-battle-is-gpus-vs-tpus/

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:谷歌,Bard

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知