首頁 > 科學探索>科技前沿

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

量子位 2022/11/24 16:15:01 責編：遠生

評論：

還在苦惱怎么給優(yōu)化器調(diào)整更好的參數(shù)嗎？

現(xiàn)在，谷歌大腦搞出了一個新的優(yōu)化器 VeLO，無需手動調(diào)整任何超參數(shù)，直接用就完事了。

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

與其他人工設計的如 Adam、AdaGrad 等算法不同，VeLO 完全基于 AI 構造，能夠很好地適應各種不同的任務。

當然，效果也更好。論文作者之一 Lucas Beyer 將 VeLO 與其他“重度”調(diào)參的優(yōu)化器進行了對比，性能不相上下：

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

有網(wǎng)友看到了一絲優(yōu)化器進步的曙光：

在 Adam 之后出現(xiàn)了不少優(yōu)化器，卻都表現(xiàn)得非常失敗。這個優(yōu)化器或許確實能表現(xiàn)更好。

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

所以，這個基于 AI 的優(yōu)化器是如何打造的？

VeLO 究竟是怎么打造的？

在訓練神經(jīng)網(wǎng)絡的過程中，優(yōu)化器（optimizer）是必不可少的一部分。

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

△ 神經(jīng)網(wǎng)絡訓練過程，圖源 Thomas Wolf

但 AI 模型應用都這么廣泛了，訓練 AI 模型用的優(yōu)化器卻仍然是人工設計的，聽起來多少有點不合理。

于是谷歌大腦的研究人員靈機一動：為何不用 AI 來做一個優(yōu)化器呢？

設計上，優(yōu)化器的原理基于元學習的思路，即從相關任務上學習經(jīng)驗，來幫助學習目標任務。

相比遷移學習，元學習更強調(diào)獲取元知識，它是一類任務上的通用知識，可以被泛化到更多任務上去。

基于這一思想，VeLO 也會吸收梯度并自動輸出參數(shù)更新，無需任何超參數(shù)調(diào)優(yōu)，并自適應需要優(yōu)化的各種任務。

架構上，AI 優(yōu)化器整體由 LSTM（長短期記憶網(wǎng)絡）和超網(wǎng)絡 MLP（多層感知機）構成。

其中每個 LSTM 負責設置多個 MLP 的參數(shù)，各個 LSTM 之間則通過全局上下文信息進行相互協(xié)作。

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

訓練上，AI 優(yōu)化器采用元訓練的方式，以參數(shù)值和梯度作為輸入，輸出需要更新的參數(shù)。

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

經(jīng)過 4000 個 TPU 月（一塊 TPU 運行 4000 個月的計算量）的訓練，集各種優(yōu)化任務之所長后，VeLO 終于橫空出世。

比人工調(diào)參優(yōu)化器效果更好

結(jié)果表明，VeLO 在 83 個任務上的加速效果超過了一系列當前已有的優(yōu)化器。

其中 y 軸是相比 Adam 加速的倍率，x 軸是任務的比例。

結(jié)果顯示，VeLO 不僅比無需調(diào)整超參數(shù)的優(yōu)化器效果更好，甚至比仔細調(diào)整過超參數(shù)的一些優(yōu)化器效果還好：

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

與“經(jīng)典老大哥”Adam 相比，VeLO 在所有任務上訓練加速都更快，其中 50% 以上的任務比調(diào)整學習率的 Adam 快 4 倍以上，14% 以上的任務中，VeLO 學習率甚至快上 16 倍。

而在 6 類學習任務（數(shù)據(jù)集 + 對應模型）的優(yōu)化效果上，VeLO 在其中 5 類任務上表現(xiàn)效果都與 Adam 相當甚至更好：

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

值得一提的是，這次 VeLO 也被部署在 JAX 中，看來谷歌是真的很大力推廣這個新框架了。

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

巴特，也有網(wǎng)友認為耗費 4000 個 TPU 月來訓練 VeLO，計算量成本過大：

雖然這個進展很重要，但它甚至都快趕上 GPT-3 的訓練量了。

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

目前 VeLO 已經(jīng)開源，感興趣的小伙伴們可以去試試這個新的 AI 優(yōu)化器。

One More Thing

前段時間，一位哈佛博士生提了個有意思的想法，得到不少人贊同：

更多論文的作者們也應該像演職員表一樣，公開自己在論文中的工作內(nèi)容。

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

Kareem Carr 是生物統(tǒng)計學領域的博士生，作者貢獻在生物論文中比較常見，不過之前在 AI 論文中見得不多。

現(xiàn)在，這篇谷歌大腦論文的作者們也這樣做了，誰寫的論文、誰搭建的框架一目了然：

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

不知道以后會不會成為機器學習圈的新風氣（手動狗頭）。

GitHub 地址：

https://github.com/google/learned_optimization/tree/main/learned_optimization/research/general_lopt

論文地址：

https://arxiv.org/abs/2211.09760

參考鏈接：

[1]https://twitter.com/jmes_harrison/status/1593422054971174912
[2]https://medium.com/huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78a#afeb
[3]https://mp.weixin.qq.com/s/QLzdW6CMkcXWQbGjtOBNwg

本文來自微信公眾號：量子位（ID：QbitAI），作者：蕭簫

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

關鍵詞：谷歌，AI

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

VeLO 究竟是怎么打造的？

比人工調(diào)參優(yōu)化器效果更好

One More Thing

相關文章

讓 AI 自己調(diào)整超參數(shù)，谷歌大腦新優(yōu)化器火了，自適應不同任務，83 個任務訓練加速比經(jīng)典 Adam 更快

VeLO 究竟是怎么打造的？