設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色
漫威《复仇者联盟 5》开拍,27 名演员公布    2025 胡润全球富豪榜发布

Hugging Face 發(fā)布 SmolVLM 開源 AI 模型:20 億參數(shù),用于端側(cè)推理,體積小、速度快

2024/11/27 13:34:50 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 11 月 27 日消息,Hugging Face 平臺昨日(11 月 26 日)發(fā)布博文,宣布推出 SmolVLM AI 視覺語言模型(VLM),僅有 20 億參數(shù),用于設(shè)備端推理,憑借其極低的內(nèi)存占用在同類模型中脫穎而出。

官方表示 SmolVLM AI 模型的優(yōu)點在于體積小、速度快、內(nèi)存高效,并且完全開源,所有模型檢查點、VLM 數(shù)據(jù)集、訓(xùn)練配方和工具均在 Apache 2.0 許可證下發(fā)布。

SmolVLM AI 模型共有 SmolVLM-Base(用于下游微調(diào))、SmolVLM-Synthetic(基于合成數(shù)據(jù)微調(diào))和 SmolVLM-Instruct(指令微調(diào)版本,可以直接用于交互式應(yīng)用)三個版本。

架構(gòu)

SmolVLM 最大的特點在于巧妙的架構(gòu)設(shè)計,借鑒了 Idefics3,使用了 SmolLM2 1.7B 作為語言主干,通過像素混洗策略將視覺信息的壓縮率提高到 9 倍。

訓(xùn)練數(shù)據(jù)集包括 Cauldron 和 Docmatix,并對 SmolLM2 進行了上下文擴展,使其能夠處理更長的文本序列和多張圖像。該模型通過優(yōu)化圖像編碼和推理過程,有效降低了內(nèi)存占用,解決了以往大型模型在普通設(shè)備上運行緩慢甚至崩潰的問題。

內(nèi)存

SmolVLM 將 384x384 像素的圖像塊編碼為 81 個 tokens,因此在相同測試圖片下,SmolVLM 僅使用 1200 個 tokens,而 Qwen2-VL 則使用 1.6 萬個 tokens。

吞吐量

SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多個基準(zhǔn)測試中表現(xiàn)出色,且處理速度相比較 Qwen2-VL,預(yù)填充(prefill)吞吐量快 3.3 到 4.5 倍,生成吞吐量快 7.5 到 16 倍。

IT之家附上參考地址

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:Hugging Face,AI
  • 日榜
  • 周榜
  • 月榜

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機APP應(yīng)用 魔方 最會買 要知