設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Falcon Mamba 7B 開(kāi)源模型登頂:換掉 Transformer,任意長(zhǎng)序列都能處理

量子位 2024/8/13 13:29:03 責(zé)編:汪淼

只是換掉 Transformer 架構(gòu),立馬性能全方位提升,問(wèn)鼎同規(guī)模開(kāi)源模型!

(注意力機(jī)制不存在了)

這就是最新 Falcon Mamba 7B 模型。

它采用 Mamba 狀態(tài)空間語(yǔ)言模型架構(gòu)來(lái)處理各種文本生成任務(wù)。

通過(guò)取消傳統(tǒng)注意力機(jī)制,有效提升了模型處理長(zhǎng)序列時(shí)計(jì)算效率低下的問(wèn)題。它可以處理無(wú)限長(zhǎng)序列,但內(nèi)存需求不增加。無(wú)論上下文多長(zhǎng),生成每個(gè) token 的時(shí)間基本一樣。

由此,F(xiàn)alcon Mamba 模型性能全方位提升,打敗一眾 Transformer 架構(gòu)模型,如 Llama-3.1(8B)、Mistral(7B)以及 Falcon-2(11B)。

如上成果由阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所(TII)帶來(lái),他們正是 Falcon 模型的開(kāi)發(fā)團(tuán)隊(duì)。

該系列共包含四個(gè)模型:基礎(chǔ)版本、指令微調(diào)版本、4bit 版本和指令微調(diào) 4bit 版本。

最新模型遵循 TII Falcon License 2.0 開(kāi)放協(xié)議,它在 Apache 2.0 協(xié)議下。圍觀網(wǎng)友直呼:游戲規(guī)則要改變了!

全球首個(gè)開(kāi)源 SSLM

在性能上,F(xiàn)alcon Mamba 7B 全方位超越一眾開(kāi)源模型。

它基于第一代 Mamba。

Mamba 是一種狀態(tài)空間模型(SSM,State Space Model)。它結(jié)合了 RNN 和 CNN 的特點(diǎn),通過(guò)引入一種選擇機(jī)制,它允許模型根據(jù)當(dāng)前的輸入有選擇地傳播或忘記信息,從而提高處理文本信息的效率。

同時(shí),它設(shè)計(jì)了一種硬件感知的并行算法,以遞歸模式運(yùn)行,避免了 GPU 內(nèi)存層級(jí)之間 IO 訪問(wèn),提高計(jì)算效率。

最后它還簡(jiǎn)化了架構(gòu),將 SSM 架構(gòu)和 Transformer 中的 MLP 塊結(jié)合為單一的塊。

從 Transformer 換到 Mamba,能夠讓 Falcon 模型可以處理任意長(zhǎng)序列,但無(wú)需增加內(nèi)存。尤其適合單個(gè) A10 24GB GPU。

研究還討論了兩種不同的處理序列方法。

并行預(yù)填充方法適用于 GPU 并行處理,對(duì)內(nèi)存需求較高;順序填充方法適用于 SSM 模型,可以處理任意長(zhǎng)度序列,從而不會(huì)受到內(nèi)存限制。

為了確保大規(guī)模訓(xùn)練穩(wěn)定,F(xiàn)alcon Mamba 模型使用了額外的 RMS 標(biāo)準(zhǔn)化層。

RMS 標(biāo)準(zhǔn)化層能夠簡(jiǎn)化 LayerNorm 的計(jì)算過(guò)程,可減少計(jì)算量。

模型使用了 5500GT 數(shù)據(jù)訓(xùn)練,這些數(shù)據(jù)主要來(lái)自 RefedWeb 數(shù)據(jù)集以及公開(kāi)數(shù)據(jù)。訓(xùn)練過(guò)程基本勻速,在訓(xùn)練后期增加了一小部分高質(zhì)量策劃數(shù)據(jù),這有助于模型在最后階段的優(yōu)化。

在 H100 上,批大小為 1、提示詞長(zhǎng)度為 1-130k 生成 token 的測(cè)試中,F(xiàn)alcon Mamba 能夠在生成新 token 時(shí)保持穩(wěn)定的吞吐量,這意味著它的性能不受文本長(zhǎng)度影響,可以穩(wěn)定處理長(zhǎng)序列,不會(huì)出現(xiàn)性能下降情況。

Falcon Mamba 支持多種 Hugging Face API,包括 AutoModelForCausalLM、pipline。還推出了一個(gè)指令調(diào)優(yōu)版本,通過(guò)額外 50 億個(gè) token 進(jìn)行微調(diào),可以讓模型準(zhǔn)確性更高。

在 Hugging Face、GitHub 上都可訪問(wèn)最新模型~

參考鏈接:

  • https://huggingface.co/blog/falconmamba#hardware-performance

本文來(lái)自微信公眾號(hào):量子位(ID:QbitAI),作者:明敏,原標(biāo)題《換掉 Transformer,7B 開(kāi)源模型立刻登頂!任意長(zhǎng)序列都能處理》

廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Falcon Mamba,開(kāi)源模型,Transformer

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知