首頁 > 智能時(shí)代>人工智能

Falcon Mamba 7B 開源模型登頂：換掉 Transformer，任意長序列都能處理

量子位 2024/8/13 13:29:03 責(zé)編：汪淼

評論：

只是換掉 Transformer 架構(gòu)，立馬性能全方位提升，問鼎同規(guī)模開源模型！

~~（注意力機(jī)制不存在了）~~

這就是最新 Falcon Mamba 7B 模型。

Falcon Mamba 7B 開源模型登頂：換掉 Transformer，任意長序列都能處理

它采用 Mamba 狀態(tài)空間語言模型架構(gòu)來處理各種文本生成任務(wù)。

通過取消傳統(tǒng)注意力機(jī)制，有效提升了模型處理長序列時(shí)計(jì)算效率低下的問題。它可以處理無限長序列，但內(nèi)存需求不增加。無論上下文多長，生成每個(gè) token 的時(shí)間基本一樣。

由此，F(xiàn)alcon Mamba 模型性能全方位提升，打敗一眾 Transformer 架構(gòu)模型，如 Llama-3.1（8B）、Mistral（7B）以及 Falcon-2（11B）。

Falcon Mamba 7B 開源模型登頂：換掉 Transformer，任意長序列都能處理

如上成果由阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所（TII）帶來，他們正是 Falcon 模型的開發(fā)團(tuán)隊(duì)。

該系列共包含四個(gè)模型：基礎(chǔ)版本、指令微調(diào)版本、4bit 版本和指令微調(diào) 4bit 版本。

最新模型遵循 TII Falcon License 2.0 開放協(xié)議，它在 Apache 2.0 協(xié)議下。圍觀網(wǎng)友直呼：游戲規(guī)則要改變了！

Falcon Mamba 7B 開源模型登頂：換掉 Transformer，任意長序列都能處理

全球首個(gè)開源 SSLM

在性能上，F(xiàn)alcon Mamba 7B 全方位超越一眾開源模型。

Falcon Mamba 7B 開源模型登頂：換掉 Transformer，任意長序列都能處理

它基于第一代 Mamba。

Mamba 是一種狀態(tài)空間模型（SSM，State Space Model）。它結(jié)合了 RNN 和 CNN 的特點(diǎn)，通過引入一種選擇機(jī)制，它允許模型根據(jù)當(dāng)前的輸入有選擇地傳播或忘記信息，從而提高處理文本信息的效率。

同時(shí)，它設(shè)計(jì)了一種硬件感知的并行算法，以遞歸模式運(yùn)行，避免了 GPU 內(nèi)存層級之間 IO 訪問，提高計(jì)算效率。

最后它還簡化了架構(gòu)，將 SSM 架構(gòu)和 Transformer 中的 MLP 塊結(jié)合為單一的塊。

從 Transformer 換到 Mamba，能夠讓 Falcon 模型可以處理任意長序列，但無需增加內(nèi)存。尤其適合單個(gè) A10 24GB GPU。

研究還討論了兩種不同的處理序列方法。

并行預(yù)填充方法適用于 GPU 并行處理，對內(nèi)存需求較高；順序填充方法適用于 SSM 模型，可以處理任意長度序列，從而不會(huì)受到內(nèi)存限制。

Falcon Mamba 7B 開源模型登頂：換掉 Transformer，任意長序列都能處理

為了確保大規(guī)模訓(xùn)練穩(wěn)定，F(xiàn)alcon Mamba 模型使用了額外的 RMS 標(biāo)準(zhǔn)化層。

RMS 標(biāo)準(zhǔn)化層能夠簡化 LayerNorm 的計(jì)算過程，可減少計(jì)算量。

模型使用了 5500GT 數(shù)據(jù)訓(xùn)練，這些數(shù)據(jù)主要來自 RefedWeb 數(shù)據(jù)集以及公開數(shù)據(jù)。訓(xùn)練過程基本勻速，在訓(xùn)練后期增加了一小部分高質(zhì)量策劃數(shù)據(jù)，這有助于模型在最后階段的優(yōu)化。

在 H100 上，批大小為 1、提示詞長度為 1-130k 生成 token 的測試中，F(xiàn)alcon Mamba 能夠在生成新 token 時(shí)保持穩(wěn)定的吞吐量，這意味著它的性能不受文本長度影響，可以穩(wěn)定處理長序列，不會(huì)出現(xiàn)性能下降情況。

Falcon Mamba 7B 開源模型登頂：換掉 Transformer，任意長序列都能處理

Falcon Mamba 支持多種 Hugging Face API，包括 AutoModelForCausalLM、pipline。還推出了一個(gè)指令調(diào)優(yōu)版本，通過額外 50 億個(gè) token 進(jìn)行微調(diào)，可以讓模型準(zhǔn)確性更高。

在 Hugging Face、GitHub 上都可訪問最新模型~

參考鏈接：

https://huggingface.co/blog/falconmamba#hardware-performance

本文來自微信公眾號：量子位（ID：QbitAI），作者：明敏，原標(biāo)題《換掉 Transformer，7B 開源模型立刻登頂！任意長序列都能處理》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Falcon Mamba 7B 開源模型登頂：換掉 Transformer，任意長序列都能處理

全球首個(gè)開源 SSLM

相關(guān)文章

Falcon Mamba 7B 開源模型登頂：換掉 Transformer，任意長序列都能處理