設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

DeepSeek-VL2 AI 視覺模型開源:支持動態(tài)分辨率、處理科研圖表、解析各種梗圖等

2024/12/14 10:20:38 來源:IT之家 作者:故淵 責(zé)編:故淵
感謝IT之家網(wǎng)友 Skyraver 的線索投遞!

IT之家 12 月 14 日消息,DeepSeek 官方公眾號昨日(12 月 13 日)發(fā)布博文,宣布開源 DeepSeek-VL2 模型,在各項(xiàng)評測指標(biāo)上均取得了極具優(yōu)勢的成績,官方稱其視覺模型正式邁入混合專家模型(Mixture of Experts,簡稱 MoE)時代。

IT之家援引官方新聞稿,附上 DeepSeek-VL2 亮點(diǎn)如下:

  • 數(shù)據(jù):比一代 DeepSeek-VL 多一倍優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),引入梗圖理解、視覺定位、視覺故事生成等新能力

  • 架構(gòu):視覺部分使用切圖策略支持動態(tài)分辨率圖像,語言部分采用 MoE 架構(gòu)低成本高性能

  • 訓(xùn)練:繼承 DeepSeek-VL 的三階段訓(xùn)練流程,同時通過負(fù)載均衡適配圖像切片數(shù)量不定的困難,對圖像和文本數(shù)據(jù)使用不同流水并行策略,對 MoE 語言模型引入專家并行,實(shí)現(xiàn)高效訓(xùn)練

DeepSeek-VL2 模型支持動態(tài)分辨率,僅使用一個 SigLIP-SO400M 作為圖像編碼器,通過將圖像切分為多張子圖和一張全局縮略圖來實(shí)現(xiàn)動態(tài)分辨率圖像支持。這一策略讓 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的極端長寬比,適配更多應(yīng)用場景。

DeepSeek-VL2 模型還得益于更多科研文檔數(shù)據(jù)的學(xué)習(xí),可以輕松理解各種科研圖表,并通過 Plot2Code,根據(jù)圖像生成 Python 代碼。

模型和論文均已發(fā)布:

模型下載:https://huggingface.co/deepseek-ai

GitHub 主頁:https://github.com/ deepseek-ai/DeepSeek-VL2

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:AIDeepSeek

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知