DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

1 月 28 日消息,就在北京时间今日凌晨,DeepSeek 宣布开源全新的视觉多模态模型 Janus-Pro-7B,其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。

DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源

1AI附地址:

官方对该模型的介绍大意如下:

  • Janus-Pro 是一种创新的自回归框架,实现多模态信息的统一理解与生成。与以往的方法不同,Janus-Pro 通过将视觉编码过程拆分为多个独立的路径,解决了以往框架中的一些局限性,同时仍采用单一的统一变换器架构进行处理。
  • 这一解耦方式不仅有效缓解了视觉编码器在理解和生成过程中可能出现的冲突,还提升了框架的灵活性。
  • Janus 的表现超越了传统的统一模型,并且在与任务特定模型的比较中也同样表现出色。凭借其简洁、高灵活性和高效性的特点,Janus-Pro 成为下一代统一多模态模型的有力竞争者。

摘要的大意如下:

  • Janus-Pro 是一个统一的多模态大语言模型(MLLM),通过将视觉编码过程从多模态理解和生成中解耦来实现更高效的处理。Janus-Pro 是基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 模型构建的。
  • 在多模态理解任务中,Janus-Pro 采用 SigLIP-L 作为视觉编码器,支持 384 x 384 像素的图像输入。而在图像生成任务中,Janus-Pro 使用一个来自特定来源的分词器,降采样率为 16。

Janus-Pro 是先前工作 Janus 的进阶版本。具体来说,Janus-Pro 整合了优化的训练策略、扩展的训练数据,以及更大模型规模的扩展。通过这些改进,Janus-Pro 在多模态理解和文本到图像指令遵循能力方面取得了显著进展,同时还增强了文本到图像生成的稳定性。

据官方介绍,JanusFlow 引入了一种极简架构,它将自回归语言模型与校正流(一种最先进的生成模型方法)相集成。研究发现,校正流可以直接在大型语言模型框架内进行训练,无需复杂的架构调整。大量实验表明,JanusFlow 在各自领域内取得了与专用模型相当甚至更好的性能,同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈进了一步。

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

谷歌希望更多人、行业了解 AI,力求塑造公众认知

2025-1-27 14:27:53

资讯

出人意料:研究发现对 AI 了解越少的人越愿意使用 AI

2025-1-28 8:28:32

搜索