還在苦惱怎么給優(yōu)化器調(diào)整更好的參數(shù)嗎?
現(xiàn)在,谷歌大腦搞出了一個新的優(yōu)化器 VeLO,無需手動調(diào)整任何超參數(shù),直接用就完事了。
與其他人工設計的如 Adam、AdaGrad 等算法不同,VeLO 完全基于 AI 構造,能夠很好地適應各種不同的任務。
當然,效果也更好。論文作者之一 Lucas Beyer 將 VeLO 與其他“重度”調(diào)參的優(yōu)化器進行了對比,性能不相上下:
有網(wǎng)友看到了一絲優(yōu)化器進步的曙光:
在 Adam 之后出現(xiàn)了不少優(yōu)化器,卻都表現(xiàn)得非常失敗。這個優(yōu)化器或許確實能表現(xiàn)更好。
所以,這個基于 AI 的優(yōu)化器是如何打造的?
VeLO 究竟是怎么打造的?
在訓練神經(jīng)網(wǎng)絡的過程中,優(yōu)化器(optimizer)是必不可少的一部分。
但 AI 模型應用都這么廣泛了,訓練 AI 模型用的優(yōu)化器卻仍然是人工設計的,聽起來多少有點不合理。
于是谷歌大腦的研究人員靈機一動:為何不用 AI 來做一個優(yōu)化器呢?
設計上,優(yōu)化器的原理基于元學習的思路,即從相關任務上學習經(jīng)驗,來幫助學習目標任務。
相比遷移學習,元學習更強調(diào)獲取元知識,它是一類任務上的通用知識,可以被泛化到更多任務上去。
基于這一思想,VeLO 也會吸收梯度并自動輸出參數(shù)更新,無需任何超參數(shù)調(diào)優(yōu),并自適應需要優(yōu)化的各種任務。
架構上,AI 優(yōu)化器整體由 LSTM(長短期記憶網(wǎng)絡)和超網(wǎng)絡 MLP(多層感知機)構成。
其中每個 LSTM 負責設置多個 MLP 的參數(shù),各個 LSTM 之間則通過全局上下文信息進行相互協(xié)作。
訓練上,AI 優(yōu)化器采用元訓練的方式,以參數(shù)值和梯度作為輸入,輸出需要更新的參數(shù)。
經(jīng)過 4000 個 TPU 月(一塊 TPU 運行 4000 個月的計算量)的訓練,集各種優(yōu)化任務之所長后,VeLO 終于橫空出世。
比人工調(diào)參優(yōu)化器效果更好
結(jié)果表明,VeLO 在 83 個任務上的加速效果超過了一系列當前已有的優(yōu)化器。
其中 y 軸是相比 Adam 加速的倍率,x 軸是任務的比例。
結(jié)果顯示,VeLO 不僅比無需調(diào)整超參數(shù)的優(yōu)化器效果更好,甚至比仔細調(diào)整過超參數(shù)的一些優(yōu)化器效果還好:
與“經(jīng)典老大哥”Adam 相比,VeLO 在所有任務上訓練加速都更快,其中 50% 以上的任務比調(diào)整學習率的 Adam 快 4 倍以上,14% 以上的任務中,VeLO 學習率甚至快上 16 倍。
而在 6 類學習任務(數(shù)據(jù)集 + 對應模型)的優(yōu)化效果上,VeLO 在其中 5 類任務上表現(xiàn)效果都與 Adam 相當甚至更好:
值得一提的是,這次 VeLO 也被部署在 JAX 中,看來谷歌是真的很大力推廣這個新框架了。
巴特,也有網(wǎng)友認為耗費 4000 個 TPU 月來訓練 VeLO,計算量成本過大:
雖然這個進展很重要,但它甚至都快趕上 GPT-3 的訓練量了。
目前 VeLO 已經(jīng)開源,感興趣的小伙伴們可以去試試這個新的 AI 優(yōu)化器。
One More Thing
前段時間,一位哈佛博士生提了個有意思的想法,得到不少人贊同:
更多論文的作者們也應該像演職員表一樣,公開自己在論文中的工作內(nèi)容。
Kareem Carr 是生物統(tǒng)計學領域的博士生,作者貢獻在生物論文中比較常見,不過之前在 AI 論文中見得不多。
現(xiàn)在,這篇谷歌大腦論文的作者們也這樣做了,誰寫的論文、誰搭建的框架一目了然:
不知道以后會不會成為機器學習圈的新風氣(手動狗頭)。
GitHub 地址:
https://github.com/google/learned_optimization/tree/main/learned_optimization/research/general_lopt
論文地址:
https://arxiv.org/abs/2211.09760
參考鏈接:
[1]https://twitter.com/jmes_harrison/status/1593422054971174912
[2]https://medium.com/huggingface/from-zero-to-research-an-introduction-to-meta-learning-8e16e677f78a#afeb
[3]https://mp.weixin.qq.com/s/QLzdW6CMkcXWQbGjtOBNwg
本文來自微信公眾號:量子位 (ID:QbitAI),作者:蕭簫
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。