非 Transformer 架構(gòu) AI 模型 Liquid 問世，號(hào)稱性能“凌駕 Meta Llama / 微軟 Phi”

2024/10/2 11:28:46 來源：IT之家作者：漾仔責(zé)編：漾仔

評(píng)論：

IT之家 10 月 2 日消息，去年剛成立的 Liquid AI 公司于 9 月 30 日發(fā)布了三款 Liquid 基礎(chǔ)模型（Liquid Foundation Models，LFM），分別為 LFM-1.3B、LFM-3.1B 和 LFM-40.3B。這些模型均采用非 Transformer 架構(gòu)，號(hào)稱在基準(zhǔn)測(cè)試中凌駕同規(guī)模的 Transformer 模型。

IT之家注意到，目前業(yè)界在深度學(xué)習(xí)和自然語言處理方面主要使用 Transformer 架構(gòu)，該架構(gòu)主要利用自注意力機(jī)制捕捉序列中單詞之間的關(guān)系，包括 OpenAI 的 GPT、Meta 的 BART 和谷歌的 T5 等模型，都是基于 Transformer 架構(gòu)。

而 Liquid AI 則反其道而行之，其 Liquid 基礎(chǔ)模型號(hào)稱對(duì)模型架構(gòu)進(jìn)行了“重新設(shè)想”，據(jù)稱受到了“交通信號(hào)處理系統(tǒng)、數(shù)值線性代數(shù)”理念的深刻影響，主打“通用性”，能夠針對(duì)特定類型的數(shù)據(jù)進(jìn)行建模，同時(shí)支持對(duì)視頻、音頻、文本、時(shí)間序列和交通信號(hào)等內(nèi)容進(jìn)行處理。

非 Transformer 架構(gòu) AI 模型 Liquid 問世，號(hào)稱性能“凌駕 Meta Llama / 微軟 Phi”

Liquid AI 表示，與 Transformer 架構(gòu)模型相比 LFM 模型的 RAM 用量更少，特別是在處理大量輸入內(nèi)容場(chǎng)景時(shí)，由于 Transformer 架構(gòu)模型處理長輸入時(shí)需要保存鍵值（KV）緩存，且緩存會(huì)隨著序列長度的增加而增大，導(dǎo)致輸入越長，占用的 RAM 越多。

而 LFM 模型則能夠避免上述問題，系列模型能夠有效對(duì)外界輸入的數(shù)據(jù)進(jìn)行壓縮，降低對(duì)硬件資源的需求，在相同硬件條件下，這三款模型相對(duì)業(yè)界競(jìng)品能夠處理更長的序列。

參考 Liquid AI 首批發(fā)布的三款模型，其中 LFM-1.3B 專為資源受限的環(huán)境設(shè)計(jì)，而 LFM-3.1B 針對(duì)邊緣計(jì)算進(jìn)行了優(yōu)化，LFM-40.3B 則是一款“專家混合模型（MoE）”，該版本主要適用于數(shù)學(xué)計(jì)算、交通信號(hào)處理等場(chǎng)景。

這些模型在通用知識(shí)和專業(yè)知識(shí)的處理上表現(xiàn)較為突出，能夠高效處理長文本任務(wù)，還能夠處理數(shù)學(xué)和邏輯推理任務(wù)，目前該模型主要支持英語，不過也對(duì)中文、法語、德語、西班牙語、日語、韓語和阿拉伯語提供有限支持。

根據(jù) Liquid AI 的說法，LFM-1.3B 在許多基準(zhǔn)測(cè)試中擊敗了其他 1B 參數(shù)規(guī)模的領(lǐng)先模型，包括蘋果的 OpenELM、Meta 的 Llama 3.2、微軟的 Phi 1.5 以及 Stability 的 Stable LM 2，這標(biāo)志著首次有非 GPT 架構(gòu)的模型明顯超越了 Transformer 模型。

而在 LFM-3.1B 方面，這款模型不僅能夠超越了 3B 規(guī)模的各種 Transformer 模型、混合模型和 RNN 模型，甚至還在特定場(chǎng)景超越上一代的 7B 和 13B 規(guī)模模型，目前已戰(zhàn)勝谷歌的 Gemma 2、蘋果的 AFM Edge、Meta 的 Llama 3.2 和微軟的 Phi-3.5 等。

LFM-40.3B 則強(qiáng)調(diào)在模型規(guī)模和輸出質(zhì)量之間的平衡，不過這款模型有所限制，雖然其擁有 400 億個(gè)參數(shù)，但在推理時(shí)僅啟用 120 億個(gè)參數(shù)，Liquid AI 聲稱進(jìn)行相關(guān)限制是因?yàn)槟Ｐ统銎焚|(zhì)量已經(jīng)足夠，在這種情況下對(duì)相應(yīng)參數(shù)進(jìn)行限制“反而還能夠提升模型效率、降低模型運(yùn)行所需的硬件配置”。

非 Transformer 架構(gòu) AI 模型 Liquid 問世，號(hào)稱性能“凌駕 Meta Llama / 微軟 Phi”

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

非 Transformer 架構(gòu) AI 模型 Liquid 問世，號(hào)稱性能“凌駕 Meta Llama / 微軟 Phi”

非 Transformer 架構(gòu) AI 模型 Liquid 問世，號(hào)稱性能“凌駕 Meta Llama / 微軟 Phi”