中国信通院启动 AI大模型幻觉评测，总体涉及五种测试维度

3 月 19 日消息，1AI从中国信通院官方微信公众号获悉，为摸清大模型的幻觉现状，推动大模型应用走深走实，中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作，发起大模型幻觉测试。

大模型幻觉（AI Hallucination）是指模型在生成内容或回答问题时，产生了看似合理，实则与用户输入不一致（忠实性幻觉）或者不符合事实（事实性幻觉）的内容。随着大模型在医疗、金融等关键领域广泛应用，大模型幻觉带来的潜在应用风险日益加剧，正得到业界的广泛关注。

本轮幻觉测试工作将以大语言模型为测试对象，涵盖了事实性幻觉和忠实性幻觉两种幻觉类型，具体测评体系如下：

测试数据包含 7000 余条中文测试样本，测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型，以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。

中国信通院启动 AI大模型幻觉评测，总体涉及五种测试维度

中国信通院邀请各相关企业参与模型测评，共同推动大模型安全应用。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

中国信通院启动 AI大模型幻觉评测，总体涉及五种测试维度

腾讯元宝近一个月日活激增超 20 倍，此前已接入 DeepSeek

腾讯混元全新推理模型 T1 官宣：3 月 21 日发布

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

腾讯元宝近一个月日活激增超 20 倍，此前已接入 DeepSeek

腾讯混元全新推理模型 T1 官宣：3 月 21 日发布

AI大模型助力金融普惠，有效打击网络诈骗

工信部：发布国内首个个人信息保护 AI 大模型“智御”助手

巴黎奥运会将启用阿里通义千问AI大模型技术 用于比赛解说

中国信通院：正式启动多模态智能体技术规范编制工作

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

巴黎奥运会将启用阿里通义千问AI大模型技术用于比赛解说