設置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟推出 ZeRO++ 技術,可顯著減少 AI 大模型訓練時間和成本

2023/6/27 12:28:28 來源:IT之家 作者:漾仔(實習) 責編:汪淼

IT之家 6 月 27 日消息,微軟研究人員日前推出了名為 ZeRO++ 的新技術,用于優(yōu)化在訓練大型 AI 模型時,容易遇到的數(shù)據(jù)傳輸成本和帶寬限制的難題,可顯著減少大模型訓練時間和成本。

據(jù)悉,ZeRO++ 建立在現(xiàn)有的 ZeRO 傳輸技術基礎上,并提供增強的通信策略,可提高訓練效率,同時減少訓練時間和成本。

▲ 圖源 微軟

為了減少參數(shù)通信量,ZeRO++ 可對權重進行量化,其利用基于塊的量化方法來保持訓練精度,這種優(yōu)化的量化過程相對原始 Zero 傳輸技術更快更準確。為了能夠盡量減少通信開銷,ZeRO++ 通過在每臺機器上保持完整的模型副本,以向 GPU 顯存換取通信帶寬。而在梯度通信方面,ZeRO++ 引入了一種名為 qgZ 的新的量化梯度通信方式,可以減少跨節(jié)點的流量和延遲。

▲ 圖源 微軟

這些改進的通信技術大大減少了通信量,微軟研究人員表示,與 ZeRO 相比,ZeRO++ 減少了高達 4 倍的通信量,提高了訓練吞吐量和效率。當在每個 GPU 上使用小批量大小時,在高帶寬集群中,ZeRO++ 相比 ZeRO-3 的吞吐量提高了 28% 至 36%。在低帶寬集群中,與 ZeRO-3 相比,ZeRO++ 實現(xiàn)了平均 2 倍的加速,使得大模型訓練在更多種類的集群上更為可行。

IT之家注:IT之家注意到,例如 Turing-NLG、ChatGPT 和 GPT-4 這樣的大型模型,其訓練需要跨多個 GPU 設備占用大量顯存和計算資源,而 ZeRO++ 引入了通信優(yōu)化策略,以克服在低帶寬集群上進行訓練時原有 ZeRO 傳輸技術的帶寬限制。目前微軟已經(jīng)放出了相關技術文檔,研究人員可以利用 ZeRO++ 更有效地訓練模型,在 AI 領域探索新的可能性。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關文章

關鍵詞:微軟 AI,ZeRO++
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應用 魔方 最會買 要知