IT之家 1 月 26 日消息,Hugging Face 發(fā)布了兩款全新多模態(tài)模型 SmolVLM-256M 和 SmolVLM-500M,其中 SmolVLM-256M 號(hào)稱(chēng)是世界上最小的視覺(jué)語(yǔ)言模型(Video Language Model)。
據(jù)悉,相應(yīng)模型主要基于 Hugging Face 團(tuán)隊(duì)去年訓(xùn)練的 80B 參數(shù)模型蒸餾而成,號(hào)稱(chēng)在性能和資源需求之間實(shí)現(xiàn)了平衡,官方稱(chēng) SmolVLM-256M / 500M 兩款模型均可“開(kāi)箱即用”,可以直接部署在 transformer MLX 和 ONNX 平臺(tái)上。
具體技術(shù)層面,SmolVLM-256M / 500M 兩款模型均采用 SigLIP 作為圖片編碼器,使用 SmolLM2 作為文本編碼器。其中 SmolVLM-256M 是目前最小的多模態(tài)模型,可以接受任意序列的圖片和文本輸入并生成文字輸出,該模型功能包括描述圖片內(nèi)容、為短視頻生成字幕、處理 PDF 等。Hugging Face 稱(chēng)由于該模型整體輕巧,可在移動(dòng)平臺(tái)輕松運(yùn)行,僅需不到 1GB 的 GPU 顯存便可在單張圖片上完成推理。
而 SmolVLM-500M 針對(duì)需要更高性能的場(chǎng)景而設(shè)計(jì),Hugging Face 稱(chēng)相關(guān)模型非常適合部署在企業(yè)運(yùn)營(yíng)環(huán)境中,該模型推理單張圖片僅需 1.23GB 的 GPU 顯存,相對(duì) SmolVLM-256M 雖然負(fù)載更大,但推理輸出的內(nèi)容更精準(zhǔn)。
IT之家注意到,兩款模型均采用 Apache 2.0 開(kāi)源授權(quán),研究團(tuán)隊(duì)提供了基于 transformer 和 WebGUI 的示例程序。所有模型及其演示已公開(kāi)便于開(kāi)發(fā)者下載和使用,具體頁(yè)面可(點(diǎn)此訪問(wèn))。
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。