IT之家 12 月 14 日消息,DeepSeek 官方公眾號昨日(12 月 13 日)發(fā)布博文,宣布開源 DeepSeek-VL2 模型,在各項(xiàng)評測指標(biāo)上均取得了極具優(yōu)勢的成績,官方稱其視覺模型正式邁入混合專家模型(Mixture of Experts,簡稱 MoE)時代。
IT之家援引官方新聞稿,附上 DeepSeek-VL2 亮點(diǎn)如下:
數(shù)據(jù):比一代 DeepSeek-VL 多一倍優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),引入梗圖理解、視覺定位、視覺故事生成等新能力
架構(gòu):視覺部分使用切圖策略支持動態(tài)分辨率圖像,語言部分采用 MoE 架構(gòu)低成本高性能
訓(xùn)練:繼承 DeepSeek-VL 的三階段訓(xùn)練流程,同時通過負(fù)載均衡適配圖像切片數(shù)量不定的困難,對圖像和文本數(shù)據(jù)使用不同流水并行策略,對 MoE 語言模型引入專家并行,實(shí)現(xiàn)高效訓(xùn)練
DeepSeek-VL2 模型支持動態(tài)分辨率,僅使用一個 SigLIP-SO400M 作為圖像編碼器,通過將圖像切分為多張子圖和一張全局縮略圖來實(shí)現(xiàn)動態(tài)分辨率圖像支持。這一策略讓 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的極端長寬比,適配更多應(yīng)用場景。
DeepSeek-VL2 模型還得益于更多科研文檔數(shù)據(jù)的學(xué)習(xí),可以輕松理解各種科研圖表,并通過 Plot2Code,根據(jù)圖像生成 Python 代碼。
模型和論文均已發(fā)布:
模型下載:https://huggingface.co/deepseek-ai
GitHub 主頁:https://github.com/ deepseek-ai/DeepSeek-VL2
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。