面壁智能開源 MiniCPM-V 2.6 模型：號稱端側(cè) AI 多模態(tài)能力對標(biāo) GPT-4V，6G 內(nèi)存可用

2024/8/7 10:05:21 來源：IT之家作者：沛霖（實(shí)習(xí)） 責(zé)編：沛霖

評論：

IT之家 8 月 7 日消息，面壁智能昨日開源了 MiniCPM-V 2.6 模型，官方表示將端側(cè) AI 多模態(tài)能力拉升至全面對標(biāo) GPT-4V 水平。

官方稱 MiniCPM-V 2.6 模型僅 8B 參數(shù)，取得 20B 以下單圖、多圖、視頻理解 3 SOTA 成績，有以下特點(diǎn)：

“三合一最強(qiáng)”端側(cè)多模態(tài)：首次在端側(cè)實(shí)現(xiàn)單圖、多圖、視頻理解等多模態(tài)核心能力全面超越 GPT-4V，單圖理解越級比肩多模態(tài)王者 Gemini 1.5 Pro 和新晉頂流 GPT-4o mini
多項(xiàng)功能首次上端：實(shí)時視頻理解、多圖聯(lián)合理解、多圖 ICL 視覺類比學(xué)習(xí)、多圖 OCR 等功能
最高多模態(tài)像素密度：類比知識密度，小鋼炮 2.6 取得了兩倍于 GPT-4o 的單 token 編碼像素密度（token density）
端側(cè)友好：量化后端側(cè) 6G 內(nèi)存可用；端側(cè)推理速度達(dá) 18 tokens / s，相比上代模型快 33%。發(fā)布即支持 llama.cpp、ollama、vllm 推理；且支持多種語言
統(tǒng)一高清框架：小鋼炮的傳統(tǒng)優(yōu)勢 OCR 能力延續(xù)了其 SOTA 性能水平，并進(jìn)一步覆蓋單圖、多圖、視頻理解

IT之家附開源地址：

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

面壁智能開源 MiniCPM-V 2.6 模型：號稱端側(cè) AI 多模態(tài)能力對標(biāo) GPT-4V，6G 內(nèi)存可用