AI 架構(gòu) Transformer 再進化：谷歌新方法突破長文本處理，注意力模塊內(nèi)存需求可降至 1/47

2024/10/9 10:44:18 來源：IT之家作者：故淵責編：故淵

評論：

IT之家 10 月 9 日消息，科技媒體 marktechpost 昨日（10 月 8 日）發(fā)布博文，報道稱谷歌公司推出了選擇性注意力（Selective Attention）方法，可以提高 Transformer 架構(gòu)模型的性能。

Transformer 架構(gòu)簡介

Transformer 是一種革命性的神經(jīng)網(wǎng)絡架構(gòu)，由谷歌在 2017 年提出，主要用于處理序列數(shù)據(jù)，特別是在自然語言處理（NLP）領(lǐng)域。

Transformer 的核心是自注意力機制，允許模型在處理輸入序列時捕捉詞與詞之間的關(guān)系，讓模型能夠關(guān)注輸入序列中的所有部分，而不僅僅是局部信息。

Transformer 由多個編碼器和解碼器組成。編碼器負責理解輸入數(shù)據(jù)，而解碼器則生成輸出。多頭自注意力機制使模型能夠并行處理信息，提高了效率和準確性。

Transformer 架構(gòu)模型挑戰(zhàn)

Transformer 架構(gòu)的一大挑戰(zhàn)是它們在處理長文本序列時效率低下，由于每個標記與序列中的每個其他標記都相互作用導致二次復雜度，這就導致隨著上下文長度的增加，計算和內(nèi)存需求呈指數(shù)增長。

現(xiàn)在解決這一問題的方法包括稀疏注意力機制（sparse attention mechanisms），它限制了標記之間的交互數(shù)量，以及通過總結(jié)過去信息來減少序列長度的上下文壓縮技術(shù)。

不過這種方法是通過減少在注意力機制中考慮的標記數(shù)量達成的，因此通常以性能為代價，可能會導致上下文關(guān)鍵信息丟失。

谷歌新方法

谷歌研究的研究人員提出了一種名為選擇性注意的新方法，可以動態(tài)忽略不再相關(guān)的標記，從而提高 Transformer 模型的效率。

選擇性注意力使用軟掩碼矩陣來確定每個標記對未來標記的重要性，減少對不重要標記的關(guān)注。

研究表明，配備選擇性注意的 Transformer 架構(gòu)模型在多個自然語言處理任務中表現(xiàn)出色，同時顯著降低了內(nèi)存使用和計算成本。

AI 架構(gòu) Transformer 再進化：谷歌新方法突破長文本處理，注意力模塊內(nèi)存需求可降至 1/47

例如，在擁有 1 億參數(shù)的 Transformer 模型中，注意力模塊的內(nèi)存需求在上下文大小為 512、1024 和 2048 個 tokens 時分別減少至 1/16、1/25 和 1/47。所提方法在 HellaSwag 基準測試中也優(yōu)于傳統(tǒng) Transformer，對于較大的模型規(guī)模實現(xiàn)了高達 5% 的準確率提升。

選擇性注意力允許構(gòu)建更小、更高效的模型，在不損害準確性的情況下，顯著減少內(nèi)存需求。

IT之家附上參考地址

Selective Attention Improves Transformer
This AI Paper from Google Introduces Selective Attention: A Novel AI Approach to Improving the Efficiency of Transformer Models

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

AI 架構(gòu) Transformer 再進化：谷歌新方法突破長文本處理，注意力模塊內(nèi)存需求可降至 1/47

Transformer 架構(gòu)簡介

Transformer 架構(gòu)模型挑戰(zhàn)

谷歌新方法

相關(guān)文章

AI 架構(gòu) Transformer 再進化：谷歌新方法突破長文本處理，注意力模塊內(nèi)存需求可降至 1/47