Google发布了Gemini1.5Pro模型的技术报告,报告介绍了Gemini1.5Pro的模型架构、训练数据与基础设施、长文本评测和通用能力评测。Gemini1.5Pro是一个高效能的多模态混合专家模型,可以处理和分析来自数百万Token的信息,包括长篇文档和数小时的视频和音频内容。
Gemini1.5Pro在长篇信息检索任务中展现出几乎完美的记忆回溯能力,刷新了长篇文档问答、长视频问答和自动语音识别领域的技术高度,超越了前代产品Gemini1.0Ultra。在预测下一个Token方面,Gemini1.5Pro取得了显著进步,在处理超过1000万Token的任务时,准确率达到了99%以上,是一次巨大的飞跃。
论文地址:https://arxiv.org/pdf/2403.05530.pdf
此外,Gemini1.5Pro还展现出惊人的能力,当接触到Kalamang语法手册时,即使Kalamang是一种全球使用人数不足200人的小众语言,它也能够学会将英语翻译成Kalamang,其翻译水平媲美于人类。
综上所述,Gemini1.5Pro在处理跨多种媒体格式的长篇信息时表现出色,不仅在技术性能上超越了前代产品,还展现出了惊人的翻译能力,为多模态混合专家模型的发展开辟了新的可能性。