DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

1 月 28 日消息，就在北京时间今日凌晨，DeepSeek 宣布开源全新的视觉多模态模型 Janus-Pro-7B，其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。

1AI附地址：

GitHub：点此前往
HuggingFace：点此前往

官方对该模型的介绍大意如下：

Janus-Pro 是一种创新的自回归框架，实现多模态信息的统一理解与生成。与以往的方法不同，Janus-Pro 通过将视觉编码过程拆分为多个独立的路径，解决了以往框架中的一些局限性，同时仍采用单一的统一变换器架构进行处理。

这一解耦方式不仅有效缓解了视觉编码器在理解和生成过程中可能出现的冲突，还提升了框架的灵活性。

Janus 的表现超越了传统的统一模型，并且在与任务特定模型的比较中也同样表现出色。凭借其简洁、高灵活性和高效性的特点，Janus-Pro 成为下一代统一多模态模型的有力竞争者。

摘要的大意如下：

Janus-Pro 是一个统一的多模态大语言模型（MLLM），通过将视觉编码过程从多模态理解和生成中解耦来实现更高效的处理。Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 模型构建的。

在多模态理解任务中，Janus-Pro 采用 SigLIP-L 作为视觉编码器，支持 384 x 384 像素的图像输入。而在图像生成任务中，Janus-Pro 使用一个来自特定来源的分词器，降采样率为 16。

Janus-Pro 是先前工作 Janus 的进阶版本。具体来说，Janus-Pro 整合了优化的训练策略、扩展的训练数据，以及更大模型规模的扩展。通过这些改进，Janus-Pro 在多模态理解和文本到图像指令遵循能力方面取得了显著进展，同时还增强了文本到图像生成的稳定性。

据官方介绍，JanusFlow 引入了一种极简架构，它将自回归语言模型与校正流（一种最先进的生成模型方法）相集成。研究发现，校正流可以直接在大型语言模型框架内进行训练，无需复杂的架构调整。大量实验表明，JanusFlow 在各自领域内取得了与专用模型相当甚至更好的性能，同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈进了一步。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

DeepSeek 深夜再放大招：7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

谷歌希望更多人、行业了解 AI，力求塑造公众认知

出人意料：研究发现对 AI 了解越少的人越愿意使用 AI

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

谷歌希望更多人、行业了解 AI，力求塑造公众认知

出人意料：研究发现对 AI 了解越少的人越愿意使用 AI

DeepSeek开源DeepSeek-V2-Chat-0628模型 代码、数学推理能力提升

华中科技大学开源多模态大模型Monkey

面壁智能开源MiniCPM 2.0系列模型 OCR等能力显著增强

全球首个开源 AI 标准发布，微软、谷歌、亚马逊、Meta、英特尔、三星等巨头制定

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

DeepSeek开源DeepSeek-V2-Chat-0628模型代码、数学推理能力提升