OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

10 月 31 日消息，当地时间 30 日，OpenAI 宣布，为了衡量语言模型的准确性，将开源一个名为 SimpleQA 的新基准，可衡量语言模型回答简短的事实寻求（fact-seeking）问题的能力。

AI 领域中的一个开放性难题是如何训练模型生成事实正确的回答。当前的语言模型有时会产生错误输出或未经证实的答案，这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠，可以用于更广泛的应用领域。

OpenAI 表示，目标是使用 SimpleQA 创建一个具备以下特点的数据集：

高正确性：问题的参考答案由两名独立的 AI 训练师验证，以确保评分的公正性。
多样性：SimpleQA 涵盖广泛主题，从科学技术到电视节目与电子游戏应有尽有。
前沿挑战性：与 TriviaQA（2017 年）或 NQ（2019 年）等早期基准相比，SimpleQA 更具挑战性，尤其针对如 GPT-4o 等前沿模型（例如，GPT-4o 的得分不足 40%）。
高效用户体验：SimpleQA 问题与答案简洁明了，使操作快速高效，并可通过 OpenAI API 等进行快速评分。此外，包含 4326 道问题的 SimpleQA 在评估中应具有较低的方差。

SimpleQA 将是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确，但它只在短查询的受限设置中测量事实准确性，这些查询是事实导向的，并且有一个可验证的答案。

OpenAI 表示，模型在短回答中表现出的事实性是否与其在长篇、多事实内容中的表现相关，这仍是个悬而未决的研究课题。其希望 SimpleQA 的开源能够进一步推动 AI 研究的发展，使模型更加可信并富有可靠性。

附有关地址：

开源链接：https://github.com/openai/simple-evals/
论文：https://cdn.openai.com/papers/simpleqa.pdf

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

OpenAI ChatGPT 高级语音模式已登陆 Windows 和 Mac 平台，对话更自然

微软 Github 推出 Spark AI工具：降低开发门槛，日常语言描述搞定整个应用

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

OpenAI ChatGPT 高级语音模式已登陆 Windows 和 Mac 平台，对话更自然

微软 Github 推出 Spark AI工具：降低开发门槛，日常语言描述搞定整个应用

Arcee AI发布开源语言模型Arcee-Nova：基于Qwen2-72B 性能接近 GPT-4

OpenAI 在印度开始招聘，以尽早制定监管

ChatGPT 5最全预测可能就在这里了：发布日期、功能和价格

OpenAI ChatGPT AI 聊天机器人新增“/picture”和“/search”指令

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注