只是換掉 Transformer 架構(gòu),立馬性能全方位提升,問鼎同規(guī)模開源模型!
(注意力機(jī)制不存在了)
這就是最新 Falcon Mamba 7B 模型。
它采用 Mamba 狀態(tài)空間語言模型架構(gòu)來處理各種文本生成任務(wù)。
通過取消傳統(tǒng)注意力機(jī)制,有效提升了模型處理長序列時(shí)計(jì)算效率低下的問題。它可以處理無限長序列,但內(nèi)存需求不增加。無論上下文多長,生成每個(gè) token 的時(shí)間基本一樣。
由此,F(xiàn)alcon Mamba 模型性能全方位提升,打敗一眾 Transformer 架構(gòu)模型,如 Llama-3.1(8B)、Mistral(7B)以及 Falcon-2(11B)。
如上成果由阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所(TII)帶來,他們正是 Falcon 模型的開發(fā)團(tuán)隊(duì)。
該系列共包含四個(gè)模型:基礎(chǔ)版本、指令微調(diào)版本、4bit 版本和指令微調(diào) 4bit 版本。
最新模型遵循 TII Falcon License 2.0 開放協(xié)議,它在 Apache 2.0 協(xié)議下。圍觀網(wǎng)友直呼:游戲規(guī)則要改變了!
全球首個(gè)開源 SSLM
在性能上,F(xiàn)alcon Mamba 7B 全方位超越一眾開源模型。
它基于第一代 Mamba。
Mamba 是一種狀態(tài)空間模型(SSM,State Space Model)。它結(jié)合了 RNN 和 CNN 的特點(diǎn),通過引入一種選擇機(jī)制,它允許模型根據(jù)當(dāng)前的輸入有選擇地傳播或忘記信息,從而提高處理文本信息的效率。
同時(shí),它設(shè)計(jì)了一種硬件感知的并行算法,以遞歸模式運(yùn)行,避免了 GPU 內(nèi)存層級之間 IO 訪問,提高計(jì)算效率。
最后它還簡化了架構(gòu),將 SSM 架構(gòu)和 Transformer 中的 MLP 塊結(jié)合為單一的塊。
從 Transformer 換到 Mamba,能夠讓 Falcon 模型可以處理任意長序列,但無需增加內(nèi)存。尤其適合單個(gè) A10 24GB GPU。
研究還討論了兩種不同的處理序列方法。
并行預(yù)填充方法適用于 GPU 并行處理,對內(nèi)存需求較高;順序填充方法適用于 SSM 模型,可以處理任意長度序列,從而不會(huì)受到內(nèi)存限制。
為了確保大規(guī)模訓(xùn)練穩(wěn)定,F(xiàn)alcon Mamba 模型使用了額外的 RMS 標(biāo)準(zhǔn)化層。
RMS 標(biāo)準(zhǔn)化層能夠簡化 LayerNorm 的計(jì)算過程,可減少計(jì)算量。
模型使用了 5500GT 數(shù)據(jù)訓(xùn)練,這些數(shù)據(jù)主要來自 RefedWeb 數(shù)據(jù)集以及公開數(shù)據(jù)。訓(xùn)練過程基本勻速,在訓(xùn)練后期增加了一小部分高質(zhì)量策劃數(shù)據(jù),這有助于模型在最后階段的優(yōu)化。
在 H100 上,批大小為 1、提示詞長度為 1-130k 生成 token 的測試中,F(xiàn)alcon Mamba 能夠在生成新 token 時(shí)保持穩(wěn)定的吞吐量,這意味著它的性能不受文本長度影響,可以穩(wěn)定處理長序列,不會(huì)出現(xiàn)性能下降情況。
Falcon Mamba 支持多種 Hugging Face API,包括 AutoModelForCausalLM、pipline。還推出了一個(gè)指令調(diào)優(yōu)版本,通過額外 50 億個(gè) token 進(jìn)行微調(diào),可以讓模型準(zhǔn)確性更高。
在 Hugging Face、GitHub 上都可訪問最新模型~
參考鏈接:
https://huggingface.co/blog/falconmamba#hardware-performance
本文來自微信公眾號:量子位(ID:QbitAI),作者:明敏,原標(biāo)題《換掉 Transformer,7B 開源模型立刻登頂!任意長序列都能處理》
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。