IT之家 8 月 7 日消息,面壁智能昨日開源了 MiniCPM-V 2.6 模型,官方表示將端側(cè) AI 多模態(tài)能力拉升至全面對標(biāo) GPT-4V 水平。
官方稱 MiniCPM-V 2.6 模型僅 8B 參數(shù),取得 20B 以下單圖、多圖、視頻理解 3 SOTA 成績,有以下特點(diǎn):
“三合一最強(qiáng)”端側(cè)多模態(tài):首次在端側(cè)實(shí)現(xiàn)單圖、多圖、視頻理解等多模態(tài)核心能力全面超越 GPT-4V,單圖理解越級比肩多模態(tài)王者 Gemini 1.5 Pro 和新晉頂流 GPT-4o mini
多項(xiàng)功能首次上端:實(shí)時視頻理解、多圖聯(lián)合理解、多圖 ICL 視覺類比學(xué)習(xí)、多圖 OCR 等功能
最高多模態(tài)像素密度:類比知識密度,小鋼炮 2.6 取得了兩倍于 GPT-4o 的單 token 編碼像素密度(token density)
端側(cè)友好:量化后端側(cè) 6G 內(nèi)存可用;端側(cè)推理速度達(dá) 18 tokens / s,相比上代模型快 33%。發(fā)布即支持 llama.cpp、ollama、vllm 推理;且支持多種語言
統(tǒng)一高清框架:小鋼炮的傳統(tǒng)優(yōu)勢 OCR 能力延續(xù)了其 SOTA 性能水平,并進(jìn)一步覆蓋單圖、多圖、視頻理解
IT之家附開源地址:
HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-2_6
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。