IT之家 9 月 2 日消息,阿里云通義千問今日宣布開源第二代視覺語言模型 Qwen2-VL,并推出 2B、7B 兩個尺寸及其量化版本模型。同時,旗艦?zāi)P?Qwen2-VL-72B 的 API 已上線阿里云百煉平臺,用戶可直接調(diào)用。
據(jù)阿里云官方介紹,相比上代模型,Qwen2-VL 的基礎(chǔ)性能全面提升:
讀懂不同分辨率和不同長寬比的圖片,在 DocVQA、RealWorldQA、MTVQA 等基準(zhǔn)測試創(chuàng)下全球領(lǐng)先的表現(xiàn);
理解 20 分鐘以上長視頻,支持基于視頻的問答、對話和內(nèi)容創(chuàng)作等應(yīng)用;
具備強(qiáng)大的視覺智能體能力,可自主操作手機(jī)和機(jī)器人,借助復(fù)雜推理和決策的能力,Qwen2-VL 可以集成到手機(jī)、機(jī)器人等設(shè)備,根據(jù)視覺環(huán)境和文字指令進(jìn)行自動操作;
理解圖像視頻中的多語言文本,包括中文、英文,大多數(shù)歐洲語言,日語、韓語、阿拉伯語、越南語等。
Qwen2-VL 延續(xù)了 ViT 加 Qwen2 的串聯(lián)結(jié)構(gòu),三個尺寸的模型都采用了 600M 規(guī)模大小的 ViT,支持圖像和視頻統(tǒng)一輸入。
但為了讓模型能夠更清楚地感知視覺信息和理解視頻,團(tuán)隊在架構(gòu)上進(jìn)行了一些升級:
一是實現(xiàn)了對原生動態(tài)分辨率的全面支持。不同于上代模型,Qwen2-VL 能夠處理任意分辨率的圖像輸入,不同大小圖片將被轉(zhuǎn)換為動態(tài)數(shù)量的 tokens,最小只占 4 個 tokens。這一設(shè)計模擬了人類視覺感知的自然方式,確保了模型輸入與圖像原始信息之間的高度一致性,賦予模型處理任意尺寸圖像的強(qiáng)大能力,使得其可以更靈活高效地進(jìn)行圖像處理。
二是使用了多模態(tài)旋轉(zhuǎn)位置嵌入(M-ROPE)方法。傳統(tǒng)的旋轉(zhuǎn)位置嵌入只能捕捉一維序列的位置信息,M-ROPE 使得大規(guī)模語言模型能夠同時捕捉和整合一維文本序列、二維視覺圖像以及三維視頻的位置信息,賦予了語言模型強(qiáng)大的多模態(tài)處理和推理能力,能讓模型更好地理解和建模復(fù)雜的多模態(tài)數(shù)據(jù)。
此次 Qwen2-VL 開源的多款模型中的旗艦?zāi)P?nbsp;Qwen2-VL-72B 的 API 已上線阿里云百煉平臺,用戶可通過阿里云百煉平臺直接調(diào)用 API。
同時,通義千問團(tuán)隊以 Apache 2.0 協(xié)議開源了 Qwen2-VL-2B 和 Qwen2-VL-7B,開源代碼已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。開發(fā)者可以通過 Hugging Face 和魔搭 ModelScope 下載使用模型,也可通過通義官網(wǎng)、通義 App 的主對話頁面使用模型,IT之家附地址如下:
阿里云百煉平臺:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
HuggingFace:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
魔搭 ModelScope:https://modelscope.cn/organization/qwen?tab=model
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。