原文標(biāo)題:《Transformer 全新里程碑!誕生 6 年,開山之作被引近 8 萬,沒奪下 NeurIPS 最佳論文,卻徹底改變 AI 界》
Transformer,6 歲了!2017 年,Attention is All You Need 奠基之作問世,至今被引數(shù)近 8 萬。這個王者架構(gòu)還能繼續(xù)打多久?
2017 年 6 月 12 日,Attention is All You Need,一聲炸雷,大名鼎鼎的 Transformer 橫空出世。
它的出現(xiàn),不僅讓 NLP 變了天,成為自然語言領(lǐng)域的主流模型,還成功跨界 CV,給 AI 界帶來了意外的驚喜。
到今天為止,Transformer 誕生 6 周年。而這篇論文被引數(shù)高達 77926。
英偉達科學(xué)家 Jim Fan 對這篇蓋世之作做了深度總結(jié):
1. Transformer 并沒有發(fā)明注意力,而是將其推向極致。
第一篇注意力論文是在 3 年前(2014 年)發(fā)表的。
這篇論文來自 Yoshua Bengio 的實驗室,而標(biāo)題并不起眼「Neural Machine Translation by Jointly Learning to Align and Translate」。
它是「RNN + 上下文向量」(即注意力)的組合。
或許很多人都沒有聽說過這篇論文,但它是 NLP 中最偉大的里程碑之一,已經(jīng)被引用了 29K 次(相比之下,Transformer 為 77K)。
2. Transformer 和最初的注意力論文,都沒有談到通用序列計算機。
相反,兩者都為了解決一個狹隘而具體的問題:機器翻譯。值得注意的是,AGI(不久的某一天)可以追溯到不起眼的谷歌翻譯。
3. Transformer 發(fā)表在 2017 年的 NeurIPS 上,這是全球頂級的人工智能會議之一。然而,它甚至沒有獲得 Oral 演講,更不用說獲獎了。
那一年的 NeurIPS 上有 3 篇最佳論文。截止到今天,它們加起來有 529 次引用。
Transformer 這一經(jīng)典之作卻在 NeurIPS 2017 沒有引起很多人的關(guān)注。
對此,Jim Fan 認為,在一項出色的工作變得有影響力之前,很難讓人們認可它。
我不會責(zé)怪 NeurIPS 委員會 —— 獲獎?wù)撐娜匀皇且涣鞯?,但影響力沒有那么大。一個反例是 ResNet。
何凱明等人在 CVPR 2016 年獲得了最佳論文。這篇論文當(dāng)之無愧,得到了正確的認可。
2017 年,該領(lǐng)域聰明的人中,很少有人能夠預(yù)測到今天 LLM 革命性的規(guī)模。就像 20 世紀 80 年代一樣,很少有人能預(yù)見自 2012 年以來深度學(xué)習(xí)的海嘯。
OpenAI 科學(xué)家 Andrej Karpathy 對 Jim Fan 第 2 點總結(jié)頗感興趣,并表示,
介紹注意力的論文(由 @DBahdanau , @kchonyc , Bengio)比 「Attention is All You Need」的論文受到的關(guān)注要少 1000 倍。而且從歷史上看,這兩篇論文都非常普通,但有趣的是恰好都是為機器翻譯而開發(fā)的。
你只需要注意力!
Transformer 誕生之前,AI 圈的人在自然語言處理中大都采用基于 RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu)來完成序列翻譯。
然而,RNN 及其衍生的網(wǎng)絡(luò)最致命的缺點就是慢。關(guān)鍵問題就在于前后隱藏狀態(tài)的依賴性,無法實現(xiàn)并行。
Transformer 的現(xiàn)世可謂是如日中天,讓許多研究人員開啟了追星之旅。
2017 年,8 位谷歌研究人員發(fā)表了 Attention is All You Need??梢哉f,這篇論文是 NLP 領(lǐng)域的顛覆者。
它完全摒棄了遞歸結(jié)構(gòu),依賴注意力機制,挖掘輸入和輸出之間的關(guān)系,進而實現(xiàn)了并行計算。
甚至,有人發(fā)問「有了 Transformer 框架后是不是 RNN 完全可以廢棄了?」
JimFan 所稱 Transformer 當(dāng)初的設(shè)計是為了解決翻譯問題,毋庸置疑。
谷歌當(dāng)年發(fā)的博客,便闡述了 Transformer 是一種語言理解的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)。
具體來講,Transformer 由四部分組成:輸入、編碼器、解碼器,以及輸出。
輸入字符首先通過 Embedding 轉(zhuǎn)為向量,并加入位置編碼(Positional Encoding)來添加位置信息。
然后,通過使用多頭自注意力和前饋神經(jīng)網(wǎng)絡(luò)的「編碼器」和「解碼器」來提取特征,最后輸出結(jié)果。
如下圖所示,谷歌給出了 Transformer 如何用在機器翻譯中的例子。
機器翻譯的神經(jīng)網(wǎng)絡(luò)通常包含一個編碼器,在讀取完句子后生成一個表征??招膱A代表著 Transformer 為每個單詞生成的初始表征。
然后,利用自注意力,從所有其他的詞中聚合信息,在整個上下文中為每個詞產(chǎn)生一個新表征,由實心圓表示。
接著,將這個步驟對所有單詞并行重復(fù)多次,依次生成新的表征。
同樣,解碼器的過程與之類似,但每次從左到右生成一個詞。它不僅關(guān)注其他先前生成的單詞,還關(guān)注編碼器生成的最終表征。
2019 年,谷歌還專門為其申請了專利。
自此,在自然語言處理中,Transformer 逆襲之路頗有王者之風(fēng)。
歸宗溯源,現(xiàn)在各類層出不窮的 GPT(Generative Pre-trained Transformer),都起源于這篇 17 年的論文。
然而,Transformer 燃爆的不僅是 NLP 學(xué)術(shù)圈。
萬能 Transformer:從 NLP 跨到 CV
2017 年的谷歌博客中,研究人員曾對 Transformer 未來應(yīng)用潛力進行了暢享:
不僅涉及自然語言,還涉及非常不同的輸入和輸出,如圖像和視頻。
沒錯,在 NLP 領(lǐng)域掀起巨浪后,Transformer 又來「踢館」計算機視覺領(lǐng)域。甚至,當(dāng)時許多人狂呼 Transformer 又攻下一城。
自 2012 年以來,CNN 已經(jīng)成為視覺任務(wù)的首選架構(gòu)。
隨著越來越高效的結(jié)構(gòu)出現(xiàn),使用 Transformer 來完成 CV 任務(wù)成為了一個新的研究方向,能夠降低結(jié)構(gòu)的復(fù)雜性,探索可擴展性和訓(xùn)練效率。
2020 年 10 月,谷歌提出的 Vision Transformer (ViT),不用卷積神經(jīng)網(wǎng)絡(luò)(CNN),可以直接用 Transformer 對圖像進行分類。
值得一提的是,ViT 性能表現(xiàn)出色,在計算資源減少 4 倍的情況下,超過最先進的 CNN。
緊接著,2021 年,OpenAI 連仍兩顆炸彈,發(fā)布了基于 Transformer 打造的 DALL-E,還有 CLIP。
這兩個模型借助 Transformer 實現(xiàn)了很好的效果。DALL-E 能夠根據(jù)文字輸出穩(wěn)定的圖像。而 CLIP 能夠?qū)崿F(xiàn)圖像與文本的分類。
再到后來的 DALL-E 進化版 DALL-E 2,還有 Stable Diffusion,同樣基于 Transformer 架構(gòu),再次顛覆了 AI 繪畫。
以下,便是基于 Transformer 誕生的模型的整條時間線。
由此可見,Transformer 是有多么地能打。
2021 年,當(dāng)時就連谷歌的研究人員 David Ha 表示,Transformers 是新的 LSTMs。
而他曾在 Transformer 誕生之前,還稱 LSTM 就像神經(jīng)網(wǎng)絡(luò)中的 AK47。無論我們?nèi)绾闻τ眯碌臇|西來取代它,它仍然會在 50 年后被使用。
Transformer 僅用 4 年的時間,打破了這一預(yù)言。
新硅谷「七叛徒」
如今,6 年過去了,曾經(jīng)聯(lián)手打造出谷歌最強 Transformer 的「變形金剛們」怎么樣了?
Jakob Uszkoreit 被公認是 Transformer 架構(gòu)的主要貢獻者。
他在 2021 年中離開了 Google,并共同創(chuàng)立了 Inceptive Labs,致力于使用神經(jīng)網(wǎng)絡(luò)設(shè)計 mRNA。
到目前為止,他們已經(jīng)籌集了 2000 萬美元,并且團隊規(guī)模也超過了 20 人。
Ashish Vaswani 在 2021 年底離開 Google,創(chuàng)立了 AdeptAILabs。
可以說,AdeptAILabs 正處在高速發(fā)展的階段。
目前,公司不僅已經(jīng)籌集了 4.15 億美元,而且也估值超過了 10 億美元。
此外,團隊規(guī)模也剛剛超過了 40 人。
然而,Ashish 卻在幾個月前離開了 Adept。
在 Transformers 論文中,Niki Parmar 是唯一的女性作者。
她在 2021 年底離開 Google,并和剛剛提到的 Ashish Vaswani 一起,創(chuàng)立了 AdeptAILabs。
不過,Niki 在幾個月前也離開了 Adept。
Noam Shazeer 在 Google 工作了 20 年后,于 2021 年底離開了 Google。
隨后,他便立刻與自己的朋友 Dan Abitbol 一起,創(chuàng)立了 Character AI。
雖然公司只有大約 20 名員工,但效率卻相當(dāng)之高。
目前,他們已經(jīng)籌集了近 2 億美元,并即將躋身獨角獸的行列。
Aidan Gomez 在 2019 年 9 月離開了 Google Brain,創(chuàng)立了 CohereAI。
經(jīng)過 3 年的穩(wěn)定發(fā)展后,公司依然正在擴大規(guī)模 ——Cohere 的員工數(shù)量最近超過了 180 名。
與此同時,公司籌集到的資金也即將突破 4 億美元大關(guān)。
Lukasz Kaiser 是 TensorFlow 的共同作者人之一,他在 2021 年中離開了 Google,加入了 OpenAI。
Illia Polosukhin 在 2017 年 2 月離開了 Google,于 2017 年 6 月創(chuàng)立了 NEAR Protocol。
目前,NEAR 估值約為 20 億美元。
與此同時,公司已經(jīng)籌集了約 3.75 億美元,并進行了大量的二次融資。
現(xiàn)在,只有 Llion Jones 還在谷歌工作。
在論文的貢獻方面,他風(fēng)趣地調(diào)侃道:「自己最大的意義在于 —— 起標(biāo)題?!?/p>
網(wǎng)友熱評
走到現(xiàn)在,回看 Transformer,還是會引發(fā)不少網(wǎng)友的思考。
AI 中的開創(chuàng)性論文。
馬庫斯表示,這有點像波特蘭開拓者隊對邁克爾?喬丹的放棄。
這件事說明了,即使在這樣的一級研究水平上,也很難預(yù)測哪篇論文會在該領(lǐng)域產(chǎn)生何種程度的影響。
這個故事告訴我們,一篇研究文章的真正價值是以一種長期的方式體現(xiàn)出來的。
哇,時間過得真快!令人驚訝的是,這個模型突破了注意力的極限,徹底改變了 NLP。
在我攻讀博士期間,我的導(dǎo)師 @WenmeiHwu 總是教育我們,最有影響力的論文永遠不會獲得最佳論文獎或任何認可,但隨著時間的推移,它們最終會改變世界。我們不應(yīng)該為獎項而奮斗,而應(yīng)該專注于有影響力的研究!
參考資料:
https://twitter.com/DrJimFan/status/1668287791200108544
https://twitter.com/karpathy/status/1668302116576976906
https://twitter.com/JosephJacks_/status/1647328379266551808
本文來自微信公眾號:新智元 (ID:AI_era)
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。