IT之家 3 月 12 日消息,Stability AI 近日發(fā)布新聞稿,表示在文生圖模型 Stable Diffusion 3 測試中,英特爾 Gaudi2 加速器比英偉達 H100 最多快 55%。
根據(jù)新聞稿,Stable Diffusion 3 模型參數(shù)范圍在 8 億到 80 億之間,本次測試使用的是 20 億參數(shù)版本。測試選手包括英偉達的 H100“Hopper” 80 GB、A100“Ampere” 80 GB 和英特爾 Gaudi2 96 GB 加速器。
在保持加速器和節(jié)點數(shù)量不變的情況下,英特爾 Gaudi2 陣列使用 2 個節(jié)點、16 個加速器和每個加速器 16 個恒定批處理大小(共 256 個),每秒可生成 927 幅圖像,而 H100 陣列每秒生成 595 幅圖像,A100 陣列每秒生成 381 幅圖像。
在節(jié)點數(shù)相同的情況下,Gaudi2 陣列每秒可生成 12654 幅圖像,每臺設(shè)備每秒可生成 49.4 幅圖像;而老一代 A100 "Ampere" 陣列每秒可生成 3992 幅圖像,每臺設(shè)備每秒可生成 15.6 幅圖像。
Stability AI 表示:
在使用 80 億參數(shù)的 Stable Diffusion 3 模型進行推理測試時候,Gaudi2 芯片的推理速度與使用基本 PyTorch 的 Nvidia A100 芯片相近。然而,經(jīng)過 TensorRT 優(yōu)化后,A100 芯片生成圖像的速度比高迪 2 快 40%。
我們預(yù)計,經(jīng)過進一步優(yōu)化后,Gaudi2 在該模型上的性能將很快超過 A100。在我們使用基本 PyTorch 的 SDXL 模型上進行的早期測試中,Gaudi2 在 3.2 秒內(nèi)生成了 30 steps 1024x1024 圖像,而 A100s 上的 PyTorch 為 3.6 秒,A100 上使用 TensorRT 的生成速度為 2.7 秒。
IT之家附上報告原文地址,感興趣的用戶可以深入閱讀。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。