Columbia study: AI search tool averages only 60% accuracy and confidently "admits no mistakes"

3 月 13 日消息,据外媒 Techspot 周二报道,Columbia University数字新闻研究中心(Tow Center for Digital Journalism)近期对八款 AI Search Engine展开研究,包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人员测试了每款引擎的准确性,并记录了它们拒绝回答问题的频率。

研究人员从 20 家新闻机构中随机挑选了 200 篇报道(每家 10 篇),确保它们在谷歌搜索时能排在前三位,然后用相同的查询方式测试各 AI 搜索工具,并评估它们是否正确引用了文章内容、新闻机构名称和原始链接.

测试结果显示,除 Perplexity 及其付费版外,其余 AI 搜索引擎的表现都不尽如人意。整体来看,AI 搜索引擎提供的答案有 60% 是不准确的,而且 AI 对错误答案的“自信”反而加剧了问题。

这项研究的重要性在于,它用数据印证了外界多年来的担忧 —— 大语言模型仅会出错,还擅长一本正经地胡说八道。它们往往以绝对肯定的语气陈述错误信息,甚至在被质疑时仍然试图自圆其说。

即使承认了错误,ChatGPT 仍可能在后续回答中继续编造内容。在大语言模型的设定中,几乎是“无论如何都要给出答案”。研究数据支持了这一观点:ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具,但其“完全正确”率仅 28%,而“完全错误”率高达 57%.

ChatGPT 并非表现最糟的。X 旗下的 Grok AI 表现尤为不堪,其中 Grok-3 Search 的错误率高达 94%。微软 Copilot 也问题重重 —— 在 200 次查询中,有 104 次拒绝作答,剩下的 96 次中,仅 16 次“完全正确”,14 次“部分正确”,66 次“完全错误”,总体错误率接近 70%.

这些 AI 工具的开发公司并未公开承认这些问题,却仍向用户收取每月 20 至 200 美元(注:当前约 145 至 1449 元人民币)的订阅费。此外,付费版 Perplexity Pro(20 美元 / 月)和 Grok-3 Search(40 美元 / 月)比免费版回答得更多,但错误率也更高。

statement:The content of the source of public various media platforms, if the inclusion of the content violates your rights and interests, please contact the mailbox, this site will be the first time to deal with.
Information

Beijing's primary and secondary schools to create first 11 AI application scenarios

2025-3-13 17:33:26

Information

Bill Gates looks at the future of AI: "One human" intelligence to help you prioritize your most important tasks

2025-3-13 19:06:34

Search