在今年特斯拉 AI 開放日上,D1 芯片風光無限。
獨特的晶圓封裝系統(tǒng) + 芯片設計,讓 D1 在訓練萬億參數(shù)級神經(jīng)網(wǎng)絡時,可以擁有數(shù)量級優(yōu)勢。特斯拉更在發(fā)布會上表示,它在性能上已經(jīng)完全碾壓英偉達 GPU 和谷歌 TPU。
不過,顛覆性的設計能夠帶來關注,也會遭到質(zhì)疑。
最近,半導體分析網(wǎng)站 SemiAnalysis 就表示:
D1 芯片存在一些重大技術問題。
內(nèi)存、成本上都有疑問
作為特斯拉首款 AI 訓練芯片,D1 芯片采用分布式結構和 7nm 工藝,搭載 500 億個晶體管、354 個訓練節(jié)點,實現(xiàn)了超高算力和超高帶寬。
根據(jù)特斯拉已經(jīng)透露的信息,SemiAnalysis 從以下幾個方面提出了質(zhì)疑:
首先是內(nèi)存問題。
SemiAnalysis 認為,D1 芯片無論在功能單元層面還是系統(tǒng)層面,想要達到他們所說的算力,內(nèi)存可能都不夠。
功能單元層面,D1 芯片的單個功能單元具有 1.25MB SRAM 緩存、1TFlop 的 FP16/CFP8 精度計算能力。
在芯片層面,裸片上沒有其他 SRAM 結構,只有 354 個單元的 1.25MB SRAM 來支撐。
基于設計相似的 IPU,SemiAnalysis 推測這種設計會導致嚴重的內(nèi)存缺陷,從而影響芯片的算力。
事實上,每個 IPU 芯片上 SRAM 的數(shù)量還是 D1 的兩倍,但它在性能上和英偉達 A100 比起來,劣勢依舊非常明顯。
在 BERT 和 ResNet50 訓練中,英偉達 A100 的速度分別是 IPU 的 1.54 倍和 1.43 倍。
其次,就是在成本問題上。
特斯拉 D1 芯片之間可以實現(xiàn)無縫融合,這使它能夠達到 8 TB/s 的 IO,比 ASIC 和英偉達高出一個數(shù)量級。
為了滿足這樣大的 IO,特斯拉采用了獨特的封裝方式,即 InFO_SoW。
這種封裝方式的特點就是可以夠大。
在發(fā)布會上,它們也展示了由 25 個 D1 芯片組成的訓練模塊。
但這種封裝方式在實際生產(chǎn)中的難度很高,出現(xiàn)報廢的情況會更多,由此也會導致成本突增。
除了這兩方面,SemiAnalysis 認為 D1 還有很多未解決的問題。
比如,在發(fā)布會現(xiàn)場被問到軟件方面的問題時,特斯拉工程師甚至回答他們完全沒有準備。
SRAM 方面的問題也亟需解決,否則將會面臨運行速度過快的風險。
以上種種,都導致特斯拉的開發(fā)人員需要對系統(tǒng)進行大量的優(yōu)化。
此外特斯拉透露,目前他們已經(jīng)部署的 D1 芯片只有 3000 個。
如此看來,D1 芯片的攤銷成本也是非常高了。
D1 真的在神壇之上嗎?
事實上,在特斯拉 AI 開放日的第二天,它的股價上漲甚至還不如英偉達。
可見投資界對于馬斯克帶來的新技術,也都非常冷靜。
有人表示,特斯拉把技術封鎖在自己的堡壘內(nèi),外界無法測評,也就無從得知它真正的優(yōu)勢和局限性。
這一次向特斯拉開懟的是 SemiAnalysis,它是一家半導體分析評論網(wǎng)站,首席分析師為 Dylan Patel,畢業(yè)于佐治亞大學特里商學院。
參考鏈接:
[1]https://semianalysis.com/the-tesla-dojo-chip-is-impressive-but-there-are-some-major-technical-issues/
[2]https://news.ycombinator.com/item?id=28361807
[3]https://www.linkedin.com/in/dylanpatelsa/
廣告聲明:文內(nèi)含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。