久等了,DeepSeek-VL2
原创 深度求索 DeepSeek 2024年12月13日 20:14 北京
视觉模型迈入 MoE 时代
阔别九月,大家期待的 DeepSeek-VL2 终于来了!DeepSeek-MoE 架构配合动态切图,视觉能力再升级。从视觉定位到梗图解析,从 OCR 到故事生成,从 3B、16B 再到 27B,DeepSeek-VL2 正式开源。
模型亮点
-
数据:比一代 DeepSeek-VL 多一倍优质训练数据,引入梗图理解、视觉定位、视觉故事生成等新能力
-
架构:视觉部分使用切图策略支持动态分辨率图像,语言部分采用 MoE 架构低成本高性能
-
训练:继承 DeepSeek-VL 的三阶段训练流程,同时通过负载均衡适配图像切片数量不定的困难