只是換掉 Transformer 架構(gòu),立馬性能全方位提升,問(wèn)鼎同規(guī)模開(kāi)源模型!
(注意力機(jī)制不存在了)
這就是最新 Falcon Mamba 7B 模型。
它采用 Mamba 狀態(tài)空間語(yǔ)言模型架構(gòu)來(lái)處理各種文本生成任務(wù)。
通過(guò)取消傳統(tǒng)注意力機(jī)制,有效提升了模型處理長(zhǎng)序列時(shí)計(jì)算效率低下的問(wèn)題。它可以處理無(wú)限長(zhǎng)序列,但內(nèi)存需求不增加。無(wú)論上下文多長(zhǎng),生成每個(gè) token 的時(shí)間基本一樣。
由此,F(xiàn)alcon Mamba 模型性能全方位提升,打敗一眾 Transformer 架構(gòu)模型,如 Llama-3.1(8B)、Mistral(7B)以及 Falcon-2(11B)。
如上成果由阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所(TII)帶來(lái),他們正是 Falcon 模型的開(kāi)發(fā)團(tuán)隊(duì)。
該系列共包含四個(gè)模型:基礎(chǔ)版本、指令微調(diào)版本、4bit 版本和指令微調(diào) 4bit 版本。
最新模型遵循 TII Falcon License 2.0 開(kāi)放協(xié)議,它在 Apache 2.0 協(xié)議下。圍觀網(wǎng)友直呼:游戲規(guī)則要改變了!
全球首個(gè)開(kāi)源 SSLM
在性能上,F(xiàn)alcon Mamba 7B 全方位超越一眾開(kāi)源模型。
它基于第一代 Mamba。
Mamba 是一種狀態(tài)空間模型(SSM,State Space Model)。它結(jié)合了 RNN 和 CNN 的特點(diǎn),通過(guò)引入一種選擇機(jī)制,它允許模型根據(jù)當(dāng)前的輸入有選擇地傳播或忘記信息,從而提高處理文本信息的效率。
同時(shí),它設(shè)計(jì)了一種硬件感知的并行算法,以遞歸模式運(yùn)行,避免了 GPU 內(nèi)存層級(jí)之間 IO 訪問(wèn),提高計(jì)算效率。
最后它還簡(jiǎn)化了架構(gòu),將 SSM 架構(gòu)和 Transformer 中的 MLP 塊結(jié)合為單一的塊。
從 Transformer 換到 Mamba,能夠讓 Falcon 模型可以處理任意長(zhǎng)序列,但無(wú)需增加內(nèi)存。尤其適合單個(gè) A10 24GB GPU。
研究還討論了兩種不同的處理序列方法。
并行預(yù)填充方法適用于 GPU 并行處理,對(duì)內(nèi)存需求較高;順序填充方法適用于 SSM 模型,可以處理任意長(zhǎng)度序列,從而不會(huì)受到內(nèi)存限制。
為了確保大規(guī)模訓(xùn)練穩(wěn)定,F(xiàn)alcon Mamba 模型使用了額外的 RMS 標(biāo)準(zhǔn)化層。
RMS 標(biāo)準(zhǔn)化層能夠簡(jiǎn)化 LayerNorm 的計(jì)算過(guò)程,可減少計(jì)算量。
模型使用了 5500GT 數(shù)據(jù)訓(xùn)練,這些數(shù)據(jù)主要來(lái)自 RefedWeb 數(shù)據(jù)集以及公開(kāi)數(shù)據(jù)。訓(xùn)練過(guò)程基本勻速,在訓(xùn)練后期增加了一小部分高質(zhì)量策劃數(shù)據(jù),這有助于模型在最后階段的優(yōu)化。
在 H100 上,批大小為 1、提示詞長(zhǎng)度為 1-130k 生成 token 的測(cè)試中,F(xiàn)alcon Mamba 能夠在生成新 token 時(shí)保持穩(wěn)定的吞吐量,這意味著它的性能不受文本長(zhǎng)度影響,可以穩(wěn)定處理長(zhǎng)序列,不會(huì)出現(xiàn)性能下降情況。
Falcon Mamba 支持多種 Hugging Face API,包括 AutoModelForCausalLM、pipline。還推出了一個(gè)指令調(diào)優(yōu)版本,通過(guò)額外 50 億個(gè) token 進(jìn)行微調(diào),可以讓模型準(zhǔn)確性更高。
在 Hugging Face、GitHub 上都可訪問(wèn)最新模型~
參考鏈接:
https://huggingface.co/blog/falconmamba#hardware-performance
本文來(lái)自微信公眾號(hào):量子位(ID:QbitAI),作者:明敏,原標(biāo)題《換掉 Transformer,7B 開(kāi)源模型立刻登頂!任意長(zhǎng)序列都能處理》
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。