DeepSeek-VL2 AI 視覺模型開源：支持動態(tài)分辨率、處理科研圖表、解析各種梗圖等

2024/12/14 10:20:38 來源：IT之家作者：故淵責編：故淵

評論：

感謝IT之家網(wǎng)友 Skyraver 的線索投遞！

IT之家 12 月 14 日消息，DeepSeek 官方公眾號昨日（12 月 13 日）發(fā)布博文，宣布開源 DeepSeek-VL2 模型，在各項評測指標上均取得了極具優(yōu)勢的成績，官方稱其視覺模型正式邁入混合專家模型（Mixture of Experts，簡稱 MoE）時代。

IT之家援引官方新聞稿，附上 DeepSeek-VL2 亮點如下：

數(shù)據(jù)：比一代 DeepSeek-VL 多一倍優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)，引入梗圖理解、視覺定位、視覺故事生成等新能力
架構(gòu)：視覺部分使用切圖策略支持動態(tài)分辨率圖像，語言部分采用 MoE 架構(gòu)低成本高性能
訓(xùn)練：繼承 DeepSeek-VL 的三階段訓(xùn)練流程，同時通過負載均衡適配圖像切片數(shù)量不定的困難，對圖像和文本數(shù)據(jù)使用不同流水并行策略，對 MoE 語言模型引入專家并行，實現(xiàn)高效訓(xùn)練

DeepSeek-VL2 模型支持動態(tài)分辨率，僅使用一個 SigLIP-SO400M 作為圖像編碼器，通過將圖像切分為多張子圖和一張全局縮略圖來實現(xiàn)動態(tài)分辨率圖像支持。這一策略讓 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的極端長寬比，適配更多應(yīng)用場景。

DeepSeek-VL2 模型還得益于更多科研文檔數(shù)據(jù)的學(xué)習，可以輕松理解各種科研圖表，并通過 Plot2Code，根據(jù)圖像生成 Python 代碼。

DeepSeek-VL2 AI 視覺模型開源：支持動態(tài)分辨率、處理科研圖表、解析各種梗圖等

模型和論文均已發(fā)布：

模型下載：https://huggingface.co/deepseek-ai

GitHub 主頁：https://github.com/ deepseek-ai/DeepSeek-VL2

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

DeepSeek-VL2 AI 視覺模型開源：支持動態(tài)分辨率、處理科研圖表、解析各種梗圖等

相關(guān)文章

DeepSeek-VL2 AI 視覺模型開源：支持動態(tài)分辨率、處理科研圖表、解析各種梗圖等