首頁 > 科學(xué)探索>科技前沿

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

量子位 2022/11/21 22:18:02 責(zé)編：遠(yuǎn)生

評(píng)論：

要說 Transformer 的核心亮點(diǎn)，當(dāng)然是注意力機(jī)制了。

但現(xiàn)在，一篇新研究卻突然提出了帶點(diǎn)火藥味的觀點(diǎn)：

注意力機(jī)制對(duì)于預(yù)訓(xùn)練 Transformer 有多重要，這事兒得打個(gè)問號(hào)。

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

研究人員來自希伯來大學(xué)、艾倫人工智能研究所、蘋果和華盛頓大學(xué)，他們提出了一種新的方法，用來衡量注意力機(jī)制在預(yù)訓(xùn)練 Transformer 模型中的重要性。

結(jié)果表明，即使去掉注意力機(jī)制，一些 Transformer 的性能也沒太大變化，甚至與原來的模型差異不到十分之一！

這個(gè)結(jié)論讓不少人感到驚訝，有網(wǎng)友調(diào)侃：

你褻瀆了這個(gè)領(lǐng)域的神明！

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

所以，究竟如何判斷注意力機(jī)制對(duì)于 Transformer 模型的重要性？

把注意力換成常數(shù)矩陣

這種新測試方法名叫 PAPA，全稱“針對(duì)預(yù)訓(xùn)練語言模型注意力機(jī)制的探測分析”（Probing Analysis for PLMs’ Attention）。

PAPA 采用的方法，是將預(yù)訓(xùn)練語言模型（PLMs）中依賴于輸入的注意力矩陣替換成常數(shù)矩陣。

如下圖所示，我們熟悉的注意力機(jī)制是通過 Q 和 K 矩陣，計(jì)算得到注意力權(quán)重，再作用于 V 得到整體權(quán)重和輸出。

現(xiàn)在，Q 和 K 的部分直接被替換成了一個(gè)常數(shù)矩陣 C：

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

其中常數(shù)矩陣 C 的計(jì)算方式如下：

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

隨后，用 6 個(gè)下游任務(wù)測試這些模型（CoLA、MRPC、SST-2、MNLI、NER、POS），對(duì)比采用 PAPA 前后，模型的性能差距。

為了更好地檢驗(yàn)注意力機(jī)制的重要性，模型的注意力矩陣并非一次性全換成常數(shù)矩陣，而是逐次減少注意力頭的數(shù)量。

如下圖，研究先用了 BERT-BASE、RoBERTa-BASE 和 DeBERTa-BASE 做實(shí)驗(yàn)，其中 y 軸表示性能，x 軸是注意力頭相比原來減少的情況：

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

隨后，研究又用了 BERT-LARGE、RoBERTa-LARGE 和 DeBERTa-LARGE 做實(shí)驗(yàn)：

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

通過比較結(jié)果，研究人員發(fā)現(xiàn)了一些有意思的現(xiàn)象：

首先，用常數(shù)矩陣替換一半的注意矩陣，對(duì)模型性能的影響極小，某些情況下甚至可能導(dǎo)致性能的提升（x 值達(dá)到 ? 時(shí)，圖中有些模型數(shù)值不減反增）。
其次，即使注意力頭數(shù)量降低為 0，平均性能下降也就 8%，與原始模型相比最多不超過 20%。

研究認(rèn)為，這種現(xiàn)象表明預(yù)訓(xùn)練語言模型對(duì)注意力機(jī)制的依賴沒那么大（moderate）。

模型性能越好，越依賴注意力機(jī)制

不過，即使是預(yù)訓(xùn)練 Transformer 模型之間，性能表現(xiàn)也不完全一樣。

作者們將表現(xiàn)更好的 Transformer 模型和更差的 Transformer 模型進(jìn)行了對(duì)比，發(fā)現(xiàn)原本性能更好的模型，在經(jīng)過 PAPA 的“測試”后，性能反而變得更差了。

如下圖，其中 y 軸代表各模型原本的平均性能，x 軸代表將所有注意力矩陣替換為常數(shù)矩陣時(shí)（經(jīng)過 PAPA 測試）模型性能的相對(duì)降低分值：

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

可以看出，之前性能越好的模型，將注意力矩陣替換成常數(shù)矩陣受到的損失也越高。

這說明如果模型本身性能越好，對(duì)注意力機(jī)制的利用能力就越好。

對(duì)于這項(xiàng)研究，有網(wǎng)友感覺很贊：

聽起來很酷，現(xiàn)在不少架構(gòu)太重視各種計(jì)算和性能任務(wù)，卻忽略了究竟是什么給模型帶來的改變。

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

但也有網(wǎng)友認(rèn)為，不能單純從數(shù)據(jù)來判斷架構(gòu)變化是否重要。

例如在某些情況下，注意力機(jī)制給隱空間（latent space）中數(shù)據(jù)點(diǎn)帶來的幅度變化僅有 2-3%：

難道這種情況下它就不夠重要了嗎？不一定。

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

對(duì)于注意力機(jī)制在 Transformer 中的重要性，你怎么看？

論文地址：

https://arxiv.org/abs/2211.03495

參考鏈接：

https://twitter.com/_akhaliq/status/1589808728538509312

本文來自微信公眾號(hào)：量子位（ID：QbitAI），作者：蕭簫

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

把注意力換成常數(shù)矩陣

模型性能越好，越依賴注意力機(jī)制

相關(guān)文章

注意力機(jī)制作用被高估了？蘋果等機(jī)構(gòu)新研究：把注意力矩陣替換成常數(shù)矩陣后，性能差異不大

模型性能越好，越依賴注意力機(jī)制