首頁 > 科學(xué)探索>科技前沿

谷歌機(jī)器學(xué)習(xí)訓(xùn)練有史以來最大版本 BERT 模型，參數(shù)規(guī)模 4810 億

量子位 2021/12/3 15:16:26 責(zé)編：江離

評論：

機(jī)器學(xué)習(xí)領(lǐng)域權(quán)威“跑分”MLPerf v1.1 訓(xùn)練榜單已出爐。

這次，在 BERT 模型的成績表上有一個(gè)“異?！钡臄?shù)字：1196.638（分鐘），來自谷歌。

谷歌機(jī)器學(xué)習(xí)訓(xùn)練有史以來最大版本 BERT 模型，參數(shù)規(guī)模 4810 億

怎么？谷歌訓(xùn)練一個(gè) BERT 要接近 1 天，別家都只要幾分鐘？

這其實(shí)是谷歌從未透露的巨型版本 BERT，參數(shù)規(guī)模有 4810 億，不是別人只有幾億參數(shù)那種的 BERT。

它也是谷歌今年在 MLPerf“非標(biāo)準(zhǔn)區(qū)”提交的一個(gè)作品：一共花了 2048 塊 TPUv4，約 20 小時(shí)訓(xùn)練而成！

谷歌機(jī)器學(xué)習(xí)訓(xùn)練有史以來最大版本 BERT 模型，參數(shù)規(guī)模 4810 億

▲ TPUv4 芯片機(jī)架，谷歌數(shù)據(jù)中心

有史以來最大版本的 BERT

標(biāo)準(zhǔn) BERT 模型（BERT Large）參數(shù)規(guī)模只有 3.4 億，而此次 4810 億的巨型 BERT 是有史以來最大的一個(gè)版本。

這倆之間直接差了好幾個(gè)數(shù)量級。

而谷歌表示，訓(xùn)練大型模型正是公司的“重中之重”（主要用于云服務(wù)）。

所以此次他們根本沒有參加任何標(biāo)準(zhǔn)分區(qū)里的跑分評比，只在非標(biāo)準(zhǔn)區(qū)“釋放了自我”。

MLPerf 競賽有倆分區(qū)：

Closed 區(qū)也就是標(biāo)準(zhǔn)區(qū)，參賽商在 ResNet-50 等規(guī)定模型上跑分；

谷歌機(jī)器學(xué)習(xí)訓(xùn)練有史以來最大版本 BERT 模型，參數(shù)規(guī)模 4810 億

Open 區(qū)也就是非標(biāo)準(zhǔn)區(qū)，參賽商可以嘗試任何規(guī)定以外的模型和方法來達(dá)到目標(biāo)性能。

在大多數(shù)參賽商都“擠”在標(biāo)準(zhǔn)區(qū)訓(xùn)練小規(guī)模的模型時(shí)，谷歌員工“凡爾賽”道：

“在短短幾秒內(nèi)‘豪擲’4000 塊芯片來訓(xùn)練巨型 BERT 才是真的酷（爽）?！?/p>

谷歌機(jī)器學(xué)習(xí)訓(xùn)練有史以來最大版本 BERT 模型，參數(shù)規(guī)模 4810 億

谷歌由此也希望 MLPerf 基準(zhǔn)測試能引進(jìn)更多的大模型，因?yàn)樗麄冇X得現(xiàn)實(shí)中才不會像非標(biāo)準(zhǔn)區(qū)的參賽作品那樣用那么多芯片來訓(xùn)練那么小的模型。

而此次的巨型 BERT 性能也不賴，它的預(yù)測準(zhǔn)確率為 75%，比 MLPerf 要求的 72.2% 要高。

同時(shí)，和標(biāo)準(zhǔn)區(qū)其他參賽商一樣，谷歌也用較少的文本數(shù)據(jù)樣本來達(dá)到目標(biāo)精度。

具體來說，標(biāo)準(zhǔn)區(qū)要求一個(gè)程序使用近 5 億個(gè) token 序列進(jìn)行訓(xùn)練，每個(gè)序列的長度大多為 128 個(gè) token。而 Google 只使用了大約 2000 萬個(gè)序列，不過每個(gè)序列的長度為 512token。

另外，完成這次工作的 2048 塊 TPU 系統(tǒng)一開始也是為了迎合公司的生產(chǎn)和研發(fā)需要，所以它并未“束之高閣”—— 目前已用于 Google Cloud 服務(wù)。

英偉達(dá)在標(biāo)準(zhǔn)區(qū)“戰(zhàn)績顯赫”

其余 MLPerf 結(jié)果，主要在“標(biāo)準(zhǔn)區(qū)”，一如既往，英偉達(dá)戰(zhàn)績最高。

谷歌機(jī)器學(xué)習(xí)訓(xùn)練有史以來最大版本 BERT 模型，參數(shù)規(guī)模 4810 億

比如它使用最新一代 GPU A100 的系統(tǒng)在訓(xùn)練 ResNet-50 花費(fèi)的時(shí)間上包攬前四，其中最快只需 21 秒 —— 比今年 6 月 24 秒的最高成績還快。

當(dāng)然，此戰(zhàn)績一共花了 4320 個(gè) A100，在 1080 個(gè) AMD 的 EPYC x86 處理器的幫助下并行完成。

但在不拼芯片和主機(jī)處理器的情況下，競爭對手可就碾壓起英偉達(dá)了。

其中英特爾 Habana 用 256 個(gè) Gaudi 加速芯片，只需 3.4 分鐘就訓(xùn)練好 ResNet-50。

Graphcore 則只需 3.8 分鐘，用了 256 塊 IPU 加速器芯片和 32 塊 AMD EPYC 主機(jī)處理器。

英偉達(dá)在配備 16 個(gè) EPYC 處理器的 64 路 A100 系統(tǒng)下，花了 4.5 分鐘。

打敗了英偉達(dá)的 Graphcore，則強(qiáng)調(diào)自己最看重性能和成本之間的平衡。

谷歌機(jī)器學(xué)習(xí)訓(xùn)練有史以來最大版本 BERT 模型，參數(shù)規(guī)模 4810 億

就比如 Graphcore 在 16 路系統(tǒng)上訓(xùn)練 ResNet-50 耗費(fèi) 28 分鐘，比英偉達(dá) DGX A100 系統(tǒng)快一分鐘，但他們用到的 POD-16 是 DGXA100 成本的一半。

此次參賽的其他廠商中，三星在電子訓(xùn)練普通版 BERT 的速度上獲得了第二名，僅為 25 秒?；?256 個(gè) AMD 芯片和 1024 個(gè)英偉達(dá) A100。

微軟的 Azure 云服務(wù)首次參賽，它使用 192 個(gè) AMD EPYC 處理器和 768 個(gè) A100 在醫(yī)療數(shù)據(jù)上訓(xùn)練圖像分割模型獲得了最高分。

同時(shí) Azure 也表示后續(xù)也會像谷歌那樣在非標(biāo)準(zhǔn)區(qū)提交一些成績，雖然微軟和英偉達(dá)在此前不久發(fā)布了目前最大的模型“威震天-圖靈”，但他們表示：

許多公司希望將人工智能用于專一目的，而非需要 4000 塊芯片才能運(yùn)行的巨型語言模型。

更多評分結(jié)果大家可以參考官網(wǎng)數(shù)據(jù)。

榜單地址：點(diǎn)此訪問

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

谷歌機(jī)器學(xué)習(xí)訓(xùn)練有史以來最大版本 BERT 模型，參數(shù)規(guī)模 4810 億

有史以來最大版本的 BERT

英偉達(dá)在標(biāo)準(zhǔn)區(qū)“戰(zhàn)績顯赫”

相關(guān)文章

谷歌機(jī)器學(xué)習(xí)訓(xùn)練有史以來最大版本 BERT 模型，參數(shù)規(guī)模 4810 億