機(jī)器學(xué)習(xí)領(lǐng)域權(quán)威“跑分”MLPerf v1.1 訓(xùn)練榜單已出爐。
這次,在 BERT 模型的成績表上有一個(gè)“異?!钡臄?shù)字:1196.638(分鐘),來自谷歌。
怎么?谷歌訓(xùn)練一個(gè) BERT 要接近 1 天,別家都只要幾分鐘?
這其實(shí)是谷歌從未透露的巨型版本 BERT,參數(shù)規(guī)模有 4810 億,不是別人只有幾億參數(shù)那種的 BERT。
它也是谷歌今年在 MLPerf“非標(biāo)準(zhǔn)區(qū)”提交的一個(gè)作品:一共花了 2048 塊 TPUv4,約 20 小時(shí)訓(xùn)練而成!
▲ TPUv4 芯片機(jī)架,谷歌數(shù)據(jù)中心
有史以來最大版本的 BERT
標(biāo)準(zhǔn) BERT 模型(BERT Large)參數(shù)規(guī)模只有 3.4 億,而此次 4810 億的巨型 BERT 是有史以來最大的一個(gè)版本。
這倆之間直接差了好幾個(gè)數(shù)量級。
而谷歌表示,訓(xùn)練大型模型正是公司的“重中之重”(主要用于云服務(wù))。
所以此次他們根本沒有參加任何標(biāo)準(zhǔn)分區(qū)里的跑分評比,只在非標(biāo)準(zhǔn)區(qū)“釋放了自我”。
MLPerf 競賽有倆分區(qū):
Closed 區(qū)也就是標(biāo)準(zhǔn)區(qū),參賽商在 ResNet-50 等規(guī)定模型上跑分;
Open 區(qū)也就是非標(biāo)準(zhǔn)區(qū),參賽商可以嘗試任何規(guī)定以外的模型和方法來達(dá)到目標(biāo)性能。
在大多數(shù)參賽商都“擠”在標(biāo)準(zhǔn)區(qū)訓(xùn)練小規(guī)模的模型時(shí),谷歌員工“凡爾賽”道:
“在短短幾秒內(nèi)‘豪擲’4000 塊芯片來訓(xùn)練巨型 BERT 才是真的酷(爽)?!?/p>
谷歌由此也希望 MLPerf 基準(zhǔn)測試能引進(jìn)更多的大模型,因?yàn)樗麄冇X得現(xiàn)實(shí)中才不會像非標(biāo)準(zhǔn)區(qū)的參賽作品那樣用那么多芯片來訓(xùn)練那么小的模型。
而此次的巨型 BERT 性能也不賴,它的預(yù)測準(zhǔn)確率為 75%,比 MLPerf 要求的 72.2% 要高。
同時(shí),和標(biāo)準(zhǔn)區(qū)其他參賽商一樣,谷歌也用較少的文本數(shù)據(jù)樣本來達(dá)到目標(biāo)精度。
具體來說,標(biāo)準(zhǔn)區(qū)要求一個(gè)程序使用近 5 億個(gè) token 序列進(jìn)行訓(xùn)練,每個(gè)序列的長度大多為 128 個(gè) token。而 Google 只使用了大約 2000 萬個(gè)序列,不過每個(gè)序列的長度為 512token。
另外,完成這次工作的 2048 塊 TPU 系統(tǒng)一開始也是為了迎合公司的生產(chǎn)和研發(fā)需要,所以它并未“束之高閣”—— 目前已用于 Google Cloud 服務(wù)。
英偉達(dá)在標(biāo)準(zhǔn)區(qū)“戰(zhàn)績顯赫”
其余 MLPerf 結(jié)果,主要在“標(biāo)準(zhǔn)區(qū)”,一如既往,英偉達(dá)戰(zhàn)績最高。
比如它使用最新一代 GPU A100 的系統(tǒng)在訓(xùn)練 ResNet-50 花費(fèi)的時(shí)間上包攬前四,其中最快只需 21 秒 —— 比今年 6 月 24 秒的最高成績還快。
當(dāng)然,此戰(zhàn)績一共花了 4320 個(gè) A100,在 1080 個(gè) AMD 的 EPYC x86 處理器的幫助下并行完成。
但在不拼芯片和主機(jī)處理器的情況下,競爭對手可就碾壓起英偉達(dá)了。
其中英特爾 Habana 用 256 個(gè) Gaudi 加速芯片,只需 3.4 分鐘就訓(xùn)練好 ResNet-50。
Graphcore 則只需 3.8 分鐘,用了 256 塊 IPU 加速器芯片和 32 塊 AMD EPYC 主機(jī)處理器。
英偉達(dá)在配備 16 個(gè) EPYC 處理器的 64 路 A100 系統(tǒng)下,花了 4.5 分鐘。
打敗了英偉達(dá)的 Graphcore,則強(qiáng)調(diào)自己最看重性能和成本之間的平衡。
就比如 Graphcore 在 16 路系統(tǒng)上訓(xùn)練 ResNet-50 耗費(fèi) 28 分鐘,比英偉達(dá) DGX A100 系統(tǒng)快一分鐘,但他們用到的 POD-16 是 DGXA100 成本的一半。
此次參賽的其他廠商中,三星在電子訓(xùn)練普通版 BERT 的速度上獲得了第二名,僅為 25 秒?;?256 個(gè) AMD 芯片和 1024 個(gè)英偉達(dá) A100。
微軟的 Azure 云服務(wù)首次參賽,它使用 192 個(gè) AMD EPYC 處理器和 768 個(gè) A100 在醫(yī)療數(shù)據(jù)上訓(xùn)練圖像分割模型獲得了最高分。
同時(shí) Azure 也表示后續(xù)也會像谷歌那樣在非標(biāo)準(zhǔn)區(qū)提交一些成績,雖然微軟和英偉達(dá)在此前不久發(fā)布了目前最大的模型“威震天-圖靈”,但他們表示:
許多公司希望將人工智能用于專一目的,而非需要 4000 塊芯片才能運(yùn)行的巨型語言模型。
更多評分結(jié)果大家可以參考官網(wǎng)數(shù)據(jù)。
榜單地址:點(diǎn)此訪問
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。