智谱开源新一代多模态大模型CogVLM2

智谱·AI最近宣布推出新一代多模态大模型 CogVLM2，该模型在关键性能指标上相较于前一代CogVLM有了显著提升，同时支持8K文本长度和高达1344*1344分辨率的图像。CogVLM2在OCRbench基准上性能提升了32%，在TextVQA基准上性能提升了21.9%，显示出强大的文档图像理解能力。尽管CogVLM2的模型大小为19B，但其性能接近或超过了GPT-4V的水平。

CogVLM2的技术架构在上一代模型的基础上进行了优化，包括一个50亿参数的视觉编码器和一个70亿参数的视觉专家模块，这些模块通过独特的参数设置，精细地建模了视觉与语言序列的交互。这种深度融合策略使得视觉模态与语言模态能够更加紧密地结合，同时保持了模型在语言处理上的优势。此外，CogVLM2在推理时实际激活的参数量仅约120亿，这得益于其精心设计的多专家模块结构，显著提高了推理效率。

在模型效果方面，CogVLM2在多个多模态基准测试中取得了优异的成绩，包括TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet和MMBench等。这些测试涵盖了从文本和图像理解到复杂推理和跨学科任务的广泛能力。CogVLM2的两个模型在多个基准中取得了最先进的性能，同时在其他性能上也能达到与闭源模型相近的水平。

代码仓库:

Github:https://github.com/THUDM/CogVLM2

模型下载:

Huggingface:huggingface.co/THUDM

魔搭社区:modelscope.cn/models/ZhipuAI

始智社区:wisemodel.cn/models/ZhipuAI

Demo体验:

https://modelscope.cn/studios/ZhipuAI/Cogvlm2-llama3-chinese-chat-Demo/summary

CogVLM2技术文档:

https://zhipu-ai.feishu.cn/wiki/OQJ9wk5dYiqk93kp3SKcBGDPnGf

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

智谱开源新一代多模态大模型CogVLM2

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

腾讯计划投资月之暗面估值或将达30亿美元

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

腾讯计划投资月之暗面 估值或将达30亿美元

华中科技大学开源多模态大模型Monkey

参数小，性能强！开源多模态模型—TinyGPT-V

世界最大开源 AI 社区 Hugging Face 将免费提供 1000 万美元共享 GPU，帮助小企业对抗大公司

俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模型训练工具：大幅提升 GPU 利用率，对 Llama 3 可实现 26% 加速

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

腾讯计划投资月之暗面估值或将达30亿美元