設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

特斯拉 D1 芯片遭實名 diss:內(nèi)存到封裝都成問題

量子位 2021/9/3 19:15:10 責編:問舟

在今年特斯拉 AI 開放日上,D1 芯片風光無限。

獨特的晶圓封裝系統(tǒng) + 芯片設計,讓 D1 在訓練萬億參數(shù)級神經(jīng)網(wǎng)絡時,可以擁有數(shù)量級優(yōu)勢。特斯拉更在發(fā)布會上表示,它在性能上已經(jīng)完全碾壓英偉達 GPU 和谷歌 TPU。

不過,顛覆性的設計能夠帶來關注,也會遭到質(zhì)疑。

最近,半導體分析網(wǎng)站 SemiAnalysis 就表示:

D1 芯片存在一些重大技術問題。

內(nèi)存、成本上都有疑問

作為特斯拉首款 AI 訓練芯片,D1 芯片采用分布式結構和 7nm 工藝,搭載 500 億個晶體管、354 個訓練節(jié)點,實現(xiàn)了超高算力和超高帶寬。

根據(jù)特斯拉已經(jīng)透露的信息,SemiAnalysis 從以下幾個方面提出了質(zhì)疑:

首先是內(nèi)存問題。

SemiAnalysis 認為,D1 芯片無論在功能單元層面還是系統(tǒng)層面,想要達到他們所說的算力,內(nèi)存可能都不夠。

功能單元層面,D1 芯片的單個功能單元具有 1.25MB SRAM 緩存、1TFlop 的 FP16/CFP8 精度計算能力。

在芯片層面,裸片上沒有其他 SRAM 結構,只有 354 個單元的 1.25MB SRAM 來支撐。

基于設計相似的 IPU,SemiAnalysis 推測這種設計會導致嚴重的內(nèi)存缺陷,從而影響芯片的算力。

事實上,每個 IPU 芯片上 SRAM 的數(shù)量還是 D1 的兩倍,但它在性能上和英偉達 A100 比起來,劣勢依舊非常明顯。

在 BERT 和 ResNet50 訓練中,英偉達 A100 的速度分別是 IPU 的 1.54 倍和 1.43 倍。

其次,就是在成本問題上。

特斯拉 D1 芯片之間可以實現(xiàn)無縫融合,這使它能夠達到 8 TB/s 的 IO,比 ASIC 和英偉達高出一個數(shù)量級。

為了滿足這樣大的 IO,特斯拉采用了獨特的封裝方式,即 InFO_SoW。

這種封裝方式的特點就是可以夠大。

在發(fā)布會上,它們也展示了由 25 個 D1 芯片組成的訓練模塊。

但這種封裝方式在實際生產(chǎn)中的難度很高,出現(xiàn)報廢的情況會更多,由此也會導致成本突增。

除了這兩方面,SemiAnalysis 認為 D1 還有很多未解決的問題。

比如,在發(fā)布會現(xiàn)場被問到軟件方面的問題時,特斯拉工程師甚至回答他們完全沒有準備。

SRAM 方面的問題也亟需解決,否則將會面臨運行速度過快的風險。

以上種種,都導致特斯拉的開發(fā)人員需要對系統(tǒng)進行大量的優(yōu)化。

此外特斯拉透露,目前他們已經(jīng)部署的 D1 芯片只有 3000 個。

如此看來,D1 芯片的攤銷成本也是非常高了。

D1 真的在神壇之上嗎?

事實上,在特斯拉 AI 開放日的第二天,它的股價上漲甚至還不如英偉達。

可見投資界對于馬斯克帶來的新技術,也都非常冷靜。

有人表示,特斯拉把技術封鎖在自己的堡壘內(nèi),外界無法測評,也就無從得知它真正的優(yōu)勢和局限性。

這一次向特斯拉開懟的是 SemiAnalysis,它是一家半導體分析評論網(wǎng)站,首席分析師為 Dylan Patel,畢業(yè)于佐治亞大學特里商學院。

參考鏈接:

[1]https://semianalysis.com/the-tesla-dojo-chip-is-impressive-but-there-are-some-major-technical-issues/

[2]https://news.ycombinator.com/item?id=28361807

[3]https://www.linkedin.com/in/dylanpatelsa/

廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:芯片特斯拉,D1 芯片

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知