DeepSeek-VL2 AI 视觉模型开源：支持动态分辨率、处理科研图表、解析各种梗图等

资讯
24年12月14日
編輯

DeepSeek 官方公众号昨日（12 月 13 日）发布博文，宣布开源 DeepSeek-VL2 模型，在各项评测指标上均取得了极具优势的成绩，官方称其视觉模型正式迈入混合专家模型（Mixture of Experts，简称 MoE）时代。

1AI援引官方新闻稿，附上 DeepSeek-VL2 亮点如下：

数据：比一代 DeepSeek-VL 多一倍优质训练数据，引入梗图理解、视觉定位、视觉故事生成等新能力
架构：视觉部分使用切图策略支持动态分辨率图像，语言部分采用 MoE 架构低成本高性能
训练：继承 DeepSeek-VL 的三阶段训练流程，同时通过负载均衡适配图像切片数量不定的困难，对图像和文本数据使用不同流水并行策略，对 MoE 语言模型引入专家并行，实现高效训练

DeepSeek-VL2 模型支持动态分辨率，仅使用一个 SigLIP-SO400M 作为图像编码器，通过将图像切分为多张子图和一张全局缩略图来实现动态分辨率图像支持。这一策略让 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的极端长宽比，适配更多应用场景。

DeepSeek-VL2 模型还得益于更多科研文档数据的学习，可以轻松理解各种科研图表，并通过 Plot2Code，根据图像生成 Python 代码。

模型和论文均已发布：

模型下载：https://huggingface.co/deepseek-ai

GitHub 主页：https://github.com/ deepseek-ai/DeepSeek-VL2

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

DeepSeek-VL2 AI 视觉模型开源：支持动态分辨率、处理科研图表、解析各种梗图等

谷歌开始向旗下智能音箱推出 Gemini AI 新版语音助理，首批覆盖 Nest Audio / 第二代 Mini

谷歌 NotebookLM 新功能上线：用户可与 AI主播进行互动

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

谷歌开始向旗下智能音箱推出 Gemini AI 新版语音助理，首批覆盖 Nest Audio / 第二代 Mini

谷歌 NotebookLM 新功能上线：用户可与 AI主播进行互动

开源AI平台Lightning AI发布AI编译器“Thunder”以加速模型训练

周鸿祎自称“开源信徒”：宣布将开源 360智脑 7B 模型，支持 50 万字长文本输入

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

开源AI音乐播放器Melodisco 收录30万首AI音乐

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注