扳回一局！Gemini-Pro多模态能力和GPT-4V不相上下

近期的Gemini-Pro评测报告显示其在多模态领域取得了显著的进展，与GPT-4V不相上下，甚至在某些方面表现更为出色。首先，在多模态专有基准MME上的综合表现中，Gemini-Pro以1933.4的高分超越了GPT-4V，展现出在感知和认知方面的全面优势。而在37个视觉理解任务中，Gemini-Pro在文本翻译、颜色/地标/人物识别以及OCR等任务中表现突出，显示了其在基础感知领域的卓越能力。

论文地址:https://arxiv.org/pdf/2312.12436.pdf

项目地址:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

然而，评测也揭示了两者的差异。在名人识别任务上，GPT-4V的得分为0，主要因其拒绝回答相关问题。而在位置识别任务中，两者都呈现出不佳的表现，显示它们对空间位置信息的不敏感。此外，开源模型SPHINX在感知任务上与GPT-4V和Gemini平齐甚至更优，但在认知方面存在较大差距。

评测报告分为基础感知、高级认知、挑战性视觉任务和各种专家能力四大领域，对Gemini-Pro的视觉理解能力进行了详细评估。基础感知测试涵盖了对象级感知、场景级感知和基于知识的感知能力，其中Gemini-Pro在颜色/地标/人物识别和OCR等任务中的表现突出。

高级认知测试则涉及富含文本的视觉推理、抽象视觉推理、解决科学问题、情感分析和智力游戏等任务，显示Gemini-Pro在公式生成和抽象视觉刺激方面取得良好成绩。

挑战性视觉任务包括指称表达式理解、目标跟踪和视觉故事生成等，Gemini-Pro在这些任务中展现了深厚的视觉感知和理解能力。最后，各种专家能力测试涉及缺陷检测和经济分析等任务，Gemini-Pro在股价走势图的分析上显示了出色的专业知识。然而，评测也指出Gemini-Pro在一些任务上存在幻觉问题，需要进一步改进。

Gemini-Pro在多模态领域取得了令人瞩目的成就，展现了其在视觉理解能力上的强大潜力。然而，评测也突显了在特定任务和领域仍需进一步提升的空间。Gemini-Pro的表现表明了多模态技术的潜在威力，为未来的研究和应用提供了有益的启示。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

扳回一局！Gemini-Pro多模态能力和GPT-4V不相上下

OpenAI首席执行官Sam Altman2023年终总结分享17个建议

360智脑通过国家大模型标准符合性测试

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

OpenAI首席执行官Sam Altman2023年终总结 分享17个建议

360智脑通过国家大模型标准符合性测试

谷歌推出多模态 VLOGGER AI：让静态肖像图动起来“说话”

开源多模态巨兽登场！Meta将于7月23日推出Llama 3 405B模型

​MIT新创公司Liquid AI融资近4千万美元，希望构建新型液态神经网络人工智能

两名前董事称 OpenAI 自我管理能力“不可靠”：将会向利润屈服

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

OpenAI首席执行官Sam Altman2023年终总结分享17个建议

MIT新创公司Liquid AI融资近4千万美元，希望构建新型液态神经网络人工智能