Hugging Face 发布的 Idefics2 视觉语言模型,该模型是一款通用的多模态模型,结合了文本和图像处理功能。Idefics2 在参数规模、光学字符识别(OCR)能力和图像处理能力方面有所提升,为用户提供了更好的体验。它的架构经过简化,改进了对图表、图形和文档问题的回答能力。通过整合数据集进行训练,助力 AI 领域推出更多多模态模型,如 Reka 的新 Core 模型、xAI 的 Grok-1.5V 和 Google 的 Imagen2。
开源地址:
https://huggingface.co/HuggingFaceM4/idefics-80b-instruct
官网地址:
https://huggingface.co/blog/idefics