GoogleDeepMind最新推出的Gemini实验版本(Exp1114)在Chatbot Arena平台上取得了令人瞩目的成绩。经过一周多的社区测试,累计超过6000票的数据显示,这款新模型以显著优势超越竞品,在多个关键领域展现出惊人实力。
在总体评分上,Gemini-Exp-1114以超出40分的优异成绩与GPT-4-latest并列第一,超越了此前领先的GPT-4-preview版本。更令人惊叹的是,该模型在数学、复杂提示和创意写作等核心领域全面登顶,展现出极强的综合实力。
具体来看,Gemini-Exp-1114的进步令人印象深刻:
在总排名中从第3名一举跃升至榜首
数学能力评测从第3名升至第1名
复杂提示处理从第4名攀升至第1名
创意写作表现从第2名进步到第1名
视觉处理能力同样位居榜首
编程水平也从第5名提升至第3名
Google AI Studio已正式上线这一新版本,供用户实际体验。不过,社区也对一些具体问题表示关注,比如1000个token的限制是否仍然存在,以及如何处理超长文本输出等实际应用问题。
业内分析认为,这次突破性进展显示出谷歌在AI领域的长期投入开始收获成果。有趣的是,模型在风格控制方面维持第4名的排名,这可能暗示开发团队主要采用了新的后训练方法,而非对预训练模型进行改动。
有观点认为,这可能预示着Gemini2的到来,谷歌在大模型领域的竞争力正在显著提升。