防止聊天机器人“造谣”，谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具

无论当下 AI 聊天机器人有多么强大，都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式，向用户提供与事实不符的回答。简单来说，AI 有时会在回答中“满口跑火车”，甚至“造谣”。

图源 Pixabay

防止 AI 大模型出现这种行为并非易事，且是一项技术性的挑战。不过据外媒 Marktechpost 报道，谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员推出了一种基于大语言模型的工具 —— 搜索增强事实评估器（原名为 Search-Augmented Factuality Evaluator，简称 SAFE），可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布，点此查看

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估，以验证准确性和真实性：将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后，该系统还会检查各个事实与原始问题的相关性。

为评估其性能，研究人员创建了包含约 16000 个事实的数据集 LongFact，并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示，在对 100 个有争议的事实进行的重点分析中，SAFE 的判定在进一步审查下正确率达到 76% 。与此同时，该框架还具备经济性优势：成本比人工注释便宜 20 多倍。

防止聊天机器人“造谣”，谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

防止聊天机器人“造谣”，谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具

15 秒语音片段就能合成某人声音，OpenAI 小规模开放 Voice Engine 模型

Databricks 推出 1320 亿参数大语言模型 DBRX，号称“现阶段最强开源 AI”

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

15 秒语音片段就能合成某人声音，OpenAI 小规模开放 Voice Engine 模型

Databricks 推出 1320 亿参数大语言模型 DBRX，号称“现阶段最强开源 AI”

谷歌DeepMind发布“机器人宪法”以确保其AI机器人不会伤害人类

谷歌推出 Gemini for Workspace：每月多花 20 美元解锁 AI 写作、图像生成等功能

谷歌 DeepMind 推出 Genie 模型：110 亿个参数，基于图片和提示词生成 2D 游戏

谷歌 Gemini 现支持微调：可重新生成、缩短、扩充指定聊天内容

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注