設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

Hugging Face 最小 AI 視覺語言模型登場:2.56 億參數(shù),內(nèi)存低于 1GB PC 也能駕馭

2025/1/24 11:23:11 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 1 月 24 日消息,Hugging Face 平臺昨日(1 月 23 日)發(fā)布博文,宣布推出 SmolVLM-256M-InstructSmolVLM-500M-Instruct 兩款輕量級 AI 模型,在 AI 算力有限的設(shè)備上,最大限度發(fā)揮其算力性能。

IT之家曾于 2024 年 11 月報(bào)道,Hugging Face 平臺發(fā)布 SmolVLM AI 視覺語言模型(VLM),僅有 20 億參數(shù),用于設(shè)備端推理,憑借其極低的內(nèi)存占用在同類模型中脫穎而出。

本次推出的 SmolVLM-256M-Instruct 僅有 2.56 億參數(shù),是有史以來發(fā)布的最小視覺語言模型,可以在內(nèi)存低于 1GB 的 PC 上運(yùn)行,提供卓越的性能輸出。

SmolVLM-500M-Instruct 僅有 5 億參數(shù),主要針對硬件資源限制,幫助開發(fā)者迎接大規(guī)模數(shù)據(jù)分析挑戰(zhàn),實(shí)現(xiàn) AI 處理效率和可訪問性的突破。

SmolVLM 模型具備先進(jìn)的多模態(tài)能力,可以執(zhí)行圖像描述、短視頻分析以及回答關(guān)于 PDF 或科學(xué)圖表的問題等任務(wù)。正如 Hugging Face 所解釋的:“SmolVLM 構(gòu)建可搜索數(shù)據(jù)庫的速度更快、成本更低,其速度可媲美規(guī)模 10 倍于其自身的模型”。

模型的開發(fā)依賴于兩個(gè)專有數(shù)據(jù)集:The Cauldron 和 Docmatix。The Cauldron 是一個(gè)包含 50 個(gè)高質(zhì)量圖像和文本數(shù)據(jù)集的精選集合,側(cè)重于多模態(tài)學(xué)習(xí),而 Docmatix 則專為文檔理解而定制,將掃描文件與詳細(xì)的標(biāo)題配對以增強(qiáng)理解。

這兩個(gè)模型采用更小的視覺編碼器 SigLIP base patch-16/512,而不是 SmolVLM 2B 中使用的更大的 SigLIP 400M SO,通過優(yōu)化圖像標(biāo)記的處理方式,減少了冗余并提高了模型處理復(fù)雜數(shù)據(jù)的能力。

SmolVLM 模型能夠以每個(gè)標(biāo)記 4096 像素的速率對圖像進(jìn)行編碼,這比早期版本中每標(biāo)記 1820 像素有了顯著改進(jìn)。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AI

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知