GAIA基准测试揭示人类胜过GPT-4的惊人差距

近日，来自FAIR Meta、HuggingFace、AutoGPT和GenAI Meta的研究人员共同致力于解决通用人工智能助手在处理需要基本技能，如推理和多模态处理的现实问题上所面临的挑战。他们推出了GAIA，这是一个旨在通过定位人类级别的鲁棒性来实现人工通用智能的基准测试。

GAIA聚焦于需要推理和多模态技能的现实问题，强调对人类和先进人工智能都具有挑战性的任务。与封闭系统不同，GAIA模拟真实的人工智能助手使用情景，通过精心策划的非可操纵问题，优先考虑质量，并通过插件展示了人类在GPT-4面前的优越性。其目标是引导问题设计，确保多步骤完成并防止数据污染。

图源备注：图片由AI生成，图片授权服务商Midjourney

随着LLMs超越当前的基准，评估它们的能力变得越来越具有挑战性。研究人员认为，尽管强调了复杂任务，但人类的难度水平不一定挑战LLMs。为解决这一挑战，他们引入了GAIA，这是一个专注于现实问题的通用人工智能助手，避免了LLM评估的陷阱。通过反映人工智能助手使用案例的人工制作问题，GAIA确保实用性。通过针对自然语言处理中的开放式生成，GAIA旨在重新定义评估基准，并推动下一代人工智能系统的发展。

GAIA提出的研究方法涉及利用GAIA创建的基准测试来测试通用人工智能助手。该基准测试包含优先考虑推理和实际技能的现实问题，这些问题由人类设计，以防止数据污染并允许高效而真实的评估。评估过程使用准确匹配的方法，通过系统提示将模型答案与事实对齐。已发布了一个开发者集和300个问题，以建立排行榜。GAIA基准测试的方法旨在评估自然语言处理中的开放式生成，并为推动下一代人工智能系统提供见解。

GAIA进行的基准测试揭示了在回答真实问题时，人类和GPT-4之间存在显著的性能差距。虽然人类成功率达到92%，但GPT-4仅得分15%。然而，GAIA的评估还显示，通过使用工具API或网络访问，可以提高LLMs的准确性和使用案例。这为人工智能模型与人类的协作以及下一代人工智能系统的进步提供了机会。总体而言，该基准测试为人工智能助手提供了清晰的排名，并强调了通用人工智能助手性能进一步改进的需求。

GAIA对通用人工智能助手在真实问题上的评估基准测试表明，人类在搭载插件的GPT-4面前表现出色。它强调了人工智能系统需要在概念上简单但复杂的问题上展现出类似于人类的鲁棒性。该基准测试方法的简单性、不可操纵性和可解释性使其成为实现人工通用智能的有效工具。此外，发布注释问题和排行榜旨在解决自然语言处理中的开放式生成评估挑战及其他问题。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

GAIA基准测试揭示人类胜过GPT-4的惊人差距

刚刚获得英特尔投资的 Stability AI 正在寻找买家，投资者迫使 CEO 辞职

微软总裁表示短期内不可能出现超级智能 AGI，强调 AI 安全的重要性

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

刚刚获得英特尔投资的 Stability AI 正在寻找买家，投资者迫使 CEO 辞职

微软总裁表示短期内不可能出现超级智能 AGI，强调 AI 安全的重要性

GPT-4 Turbo 击败 Claude 3，重新夺回 “最佳AI模型” 称号

不联网！微软为美国情报机构部署基于GPT-4模型的AI

科大讯飞刘庆峰：星火大模型今年6、7月就能赶上GPT-4目前水平

成功率达 53%，研究显示 GPT-4 可自主利用“零日”漏洞攻破网站

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注