Hugging Face 推出號(hào)稱(chēng)“世界上最小的視覺(jué)語(yǔ)言模型”SmolVLM-256M

2025/1/26 20:15:50 來(lái)源：IT之家作者：漾仔責(zé)編：漾仔

評(píng)論：

IT之家 1 月 26 日消息，Hugging Face 發(fā)布了兩款全新多模態(tài)模型 SmolVLM-256M 和 SmolVLM-500M，其中 SmolVLM-256M 號(hào)稱(chēng)是世界上最小的視覺(jué)語(yǔ)言模型（Video Language Model）。

據(jù)悉，相應(yīng)模型主要基于 Hugging Face 團(tuán)隊(duì)去年訓(xùn)練的 80B 參數(shù)模型蒸餾而成，號(hào)稱(chēng)在性能和資源需求之間實(shí)現(xiàn)了平衡，官方稱(chēng) SmolVLM-256M / 500M 兩款模型均可“開(kāi)箱即用”，可以直接部署在 transformer MLX 和 ONNX 平臺(tái)上。

Hugging Face 推出號(hào)稱(chēng)“世界上最小的視覺(jué)語(yǔ)言模型”SmolVLM-256M

具體技術(shù)層面，SmolVLM-256M / 500M 兩款模型均采用 SigLIP 作為圖片編碼器，使用 SmolLM2 作為文本編碼器。其中 SmolVLM-256M 是目前最小的多模態(tài)模型，可以接受任意序列的圖片和文本輸入并生成文字輸出，該模型功能包括描述圖片內(nèi)容、為短視頻生成字幕、處理 PDF 等。Hugging Face 稱(chēng)由于該模型整體輕巧，可在移動(dòng)平臺(tái)輕松運(yùn)行，僅需不到 1GB 的 GPU 顯存便可在單張圖片上完成推理。

而 SmolVLM-500M 針對(duì)需要更高性能的場(chǎng)景而設(shè)計(jì)，Hugging Face 稱(chēng)相關(guān)模型非常適合部署在企業(yè)運(yùn)營(yíng)環(huán)境中，該模型推理單張圖片僅需 1.23GB 的 GPU 顯存，相對(duì) SmolVLM-256M 雖然負(fù)載更大，但推理輸出的內(nèi)容更精準(zhǔn)。

Hugging Face 推出號(hào)稱(chēng)“世界上最小的視覺(jué)語(yǔ)言模型”SmolVLM-256M

IT之家注意到，兩款模型均采用 Apache 2.0 開(kāi)源授權(quán)，研究團(tuán)隊(duì)提供了基于 transformer 和 WebGUI 的示例程序。所有模型及其演示已公開(kāi)便于開(kāi)發(fā)者下載和使用，具體頁(yè)面可（點(diǎn)此訪問(wèn)）。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

Hugging Face 推出號(hào)稱(chēng)“世界上最小的視覺(jué)語(yǔ)言模型”SmolVLM-256M

相關(guān)文章