微軟 Phi-3-vision 基準(zhǔn)測試：和 Claude 3-haiku、Gemini 1.0 Pro 相當(dāng)

2024/5/28 8:45:08 來源：IT之家作者：故淵責(zé)編：故淵

評論：

IT之家 5 月 28 日消息，微軟在 Build 2024 大會上發(fā)布了 Phi-3 家族的最新成員--Phi-3-vision，主打“視覺能力”，能夠理解圖文內(nèi)容，同時(shí)據(jù)稱可以在移動平臺上流暢高效運(yùn)行。

Phi-3-vision 是一款多模態(tài)小型語言模型（SLM），主要用于本地 AI 場景，該模型參數(shù)量為 42 億，上下文長度為 128k token，能夠?yàn)槌Ｒ?guī)視覺推理任務(wù)和其他任務(wù)提供支持。

那么 Phi-3-vision 有多厲害？微軟今天發(fā)布了新的論文 [PDF]，表示該 SLM 和 Claude 3-haiku、Gemini 1.0 Pro 等其他模型不相上下。

微軟 Phi-3-vision 基準(zhǔn)測試：和 Claude 3-haiku、Gemini 1.0 Pro 相當(dāng)

微軟在論文中對比了 ScienceQA、MathVista 和 ChartQA 等模型，Phi-3-vision 的參數(shù)雖然不多，但性能非常優(yōu)秀。

IT之家此前報(bào)道，微軟提供了 Phi-3-vision 相較于字節(jié)跳動 Llama3-Llava-Next（8B）、微軟研究院和威斯康星大學(xué)、哥倫比亞大學(xué)合作的 LlaVA-1.6（7B）、阿里巴巴通義千問 QWEN-VL-Chat 模型等競品模型的比較圖表，其中顯示 Phi-3-vision 模型在多個(gè)項(xiàng)目上表現(xiàn)優(yōu)異。

微軟 Phi-3-vision 基準(zhǔn)測試：和 Claude 3-haiku、Gemini 1.0 Pro 相當(dāng)

目前微軟已經(jīng)將該模型上傳至 Hugging Face，感興趣的小伙伴們可以訪問項(xiàng)目地址：點(diǎn)此進(jìn)入。

《參數(shù)量 42 億，微軟公布 SLM 小語言 AI 模型最新成員 Phi-3-vision》

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

微軟 Phi-3-vision 基準(zhǔn)測試：和 Claude 3-haiku、Gemini 1.0 Pro 相當(dāng)

相關(guān)文章

微軟 Phi-3-vision 基準(zhǔn)測試：和 Claude 3-haiku、Gemini 1.0 Pro 相當(dāng)