設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

谷歌機(jī)器學(xué)習(xí)訓(xùn)練有史以來(lái)最大版本 BERT 模型,參數(shù)規(guī)模 4810 億

量子位 2021/12/3 15:16:26 責(zé)編:江離

機(jī)器學(xué)習(xí)領(lǐng)域權(quán)威“跑分”MLPerf v1.1 訓(xùn)練榜單已出爐。

這次,在 BERT 模型的成績(jī)表上有一個(gè)“異?!钡臄?shù)字:1196.638(分鐘),來(lái)自谷歌。

怎么?谷歌訓(xùn)練一個(gè) BERT 要接近 1 天,別家都只要幾分鐘?

這其實(shí)是谷歌從未透露的巨型版本 BERT,參數(shù)規(guī)模有 4810 億,不是別人只有幾億參數(shù)那種的 BERT。

它也是谷歌今年在 MLPerf“非標(biāo)準(zhǔn)區(qū)”提交的一個(gè)作品:一共花了 2048 塊 TPUv4,約 20 小時(shí)訓(xùn)練而成!

▲ TPUv4 芯片機(jī)架,谷歌數(shù)據(jù)中心

有史以來(lái)最大版本的 BERT

標(biāo)準(zhǔn) BERT 模型(BERT Large)參數(shù)規(guī)模只有 3.4 億,而此次 4810 億的巨型 BERT 是有史以來(lái)最大的一個(gè)版本。

這倆之間直接差了好幾個(gè)數(shù)量級(jí)。

而谷歌表示,訓(xùn)練大型模型正是公司的“重中之重”(主要用于云服務(wù))。

所以此次他們根本沒有參加任何標(biāo)準(zhǔn)分區(qū)里的跑分評(píng)比,只在非標(biāo)準(zhǔn)區(qū)“釋放了自我”。

MLPerf 競(jìng)賽有倆分區(qū):

Closed 區(qū)也就是標(biāo)準(zhǔn)區(qū),參賽商在 ResNet-50 等規(guī)定模型上跑分;

Open 區(qū)也就是非標(biāo)準(zhǔn)區(qū),參賽商可以嘗試任何規(guī)定以外的模型和方法來(lái)達(dá)到目標(biāo)性能。

在大多數(shù)參賽商都“擠”在標(biāo)準(zhǔn)區(qū)訓(xùn)練小規(guī)模的模型時(shí),谷歌員工“凡爾賽”道:

“在短短幾秒內(nèi)‘豪擲’4000 塊芯片來(lái)訓(xùn)練巨型 BERT 才是真的酷(爽)?!?/p>

谷歌由此也希望 MLPerf 基準(zhǔn)測(cè)試能引進(jìn)更多的大模型,因?yàn)樗麄冇X得現(xiàn)實(shí)中才不會(huì)像非標(biāo)準(zhǔn)區(qū)的參賽作品那樣用那么多芯片來(lái)訓(xùn)練那么小的模型。

而此次的巨型 BERT 性能也不賴,它的預(yù)測(cè)準(zhǔn)確率為 75%,比 MLPerf 要求的 72.2% 要高。

同時(shí),和標(biāo)準(zhǔn)區(qū)其他參賽商一樣,谷歌也用較少的文本數(shù)據(jù)樣本來(lái)達(dá)到目標(biāo)精度。

具體來(lái)說(shuō),標(biāo)準(zhǔn)區(qū)要求一個(gè)程序使用近 5 億個(gè) token 序列進(jìn)行訓(xùn)練,每個(gè)序列的長(zhǎng)度大多為 128 個(gè) token。而 Google 只使用了大約 2000 萬(wàn)個(gè)序列,不過(guò)每個(gè)序列的長(zhǎng)度為 512token。

另外,完成這次工作的 2048 塊 TPU 系統(tǒng)一開始也是為了迎合公司的生產(chǎn)和研發(fā)需要,所以它并未“束之高閣”—— 目前已用于 Google Cloud 服務(wù)。

英偉達(dá)在標(biāo)準(zhǔn)區(qū)“戰(zhàn)績(jī)顯赫”

其余 MLPerf 結(jié)果,主要在“標(biāo)準(zhǔn)區(qū)”,一如既往,英偉達(dá)戰(zhàn)績(jī)最高。

比如它使用最新一代 GPU A100 的系統(tǒng)在訓(xùn)練 ResNet-50 花費(fèi)的時(shí)間上包攬前四,其中最快只需 21 秒 —— 比今年 6 月 24 秒的最高成績(jī)還快。

當(dāng)然,此戰(zhàn)績(jī)一共花了 4320 個(gè) A100,在 1080 個(gè) AMD 的 EPYC x86 處理器的幫助下并行完成。

但在不拼芯片和主機(jī)處理器的情況下,競(jìng)爭(zhēng)對(duì)手可就碾壓起英偉達(dá)了。

其中英特爾 Habana 用 256 個(gè) Gaudi 加速芯片,只需 3.4 分鐘就訓(xùn)練好 ResNet-50。

Graphcore 則只需 3.8 分鐘,用了 256 塊 IPU 加速器芯片和 32 塊 AMD EPYC 主機(jī)處理器。

英偉達(dá)在配備 16 個(gè) EPYC 處理器的 64 路 A100 系統(tǒng)下,花了 4.5 分鐘。

打敗了英偉達(dá)的 Graphcore,則強(qiáng)調(diào)自己最看重性能和成本之間的平衡。

就比如 Graphcore 在 16 路系統(tǒng)上訓(xùn)練 ResNet-50 耗費(fèi) 28 分鐘,比英偉達(dá) DGX A100 系統(tǒng)快一分鐘,但他們用到的 POD-16 是 DGXA100 成本的一半。

此次參賽的其他廠商中,三星在電子訓(xùn)練普通版 BERT 的速度上獲得了第二名,僅為 25 秒?;?256 個(gè) AMD 芯片和 1024 個(gè)英偉達(dá) A100。

微軟的 Azure 云服務(wù)首次參賽,它使用 192 個(gè) AMD EPYC 處理器和 768 個(gè) A100 在醫(yī)療數(shù)據(jù)上訓(xùn)練圖像分割模型獲得了最高分。

同時(shí) Azure 也表示后續(xù)也會(huì)像谷歌那樣在非標(biāo)準(zhǔn)區(qū)提交一些成績(jī),雖然微軟和英偉達(dá)在此前不久發(fā)布了目前最大的模型“威震天-圖靈”,但他們表示:

許多公司希望將人工智能用于專一目的,而非需要 4000 塊芯片才能運(yùn)行的巨型語(yǔ)言模型。

更多評(píng)分結(jié)果大家可以參考官網(wǎng)數(shù)據(jù)。

榜單地址:點(diǎn)此訪問

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:谷歌,BERT機(jī)器學(xué)習(xí)

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知