中国信通院启动 AI大模型幻觉评测,总体涉及五种测试维度

3 月 19 日消息,1AI从中国信通院官方微信公众号获悉,为摸清大模型的幻觉现状,推动大模型应用走深走实,中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作,发起大模型幻觉测试

大模型幻觉(AI Hallucination)是指模型在生成内容或回答问题时,产生了看似合理,实则与用户输入不一致(忠实性幻觉)或者不符合事实(事实性幻觉)的内容。随着大模型在医疗、金融等关键领域广泛应用,大模型幻觉带来的潜在应用风险日益加剧,正得到业界的广泛关注。

本轮幻觉测试工作将以大语言模型为测试对象,涵盖了事实性幻觉和忠实性幻觉两种幻觉类型,具体测评体系如下:

中国信通院启动 AI大模型幻觉评测,总体涉及五种测试维度

测试数据包含 7000 余条中文测试样本,测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型,以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。

中国信通院启动 AI大模型幻觉评测,总体涉及五种测试维度

中国信通院邀请各相关企业参与模型测评,共同推动大模型安全应用。

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

腾讯元宝近一个月日活激增超 20 倍,此前已接入 DeepSeek

2025-3-19 19:59:17

资讯

腾讯混元全新推理模型 T1 官宣:3 月 21 日发布

2025-3-20 11:13:15

搜索