哥伦比亚大学研究:AI 搜索工具平均准确率仅六成,且自信满满“不认错”

xxn 阅读:71975 2025-03-13 18:06:10 评论:0

IT之家 3 月 13 日报道,外媒 Techspot 发布的消息指出,哥伦比亚大学数字新闻研究中心(Tow Center for Digital Journalism)最近对八款 AI 搜索引擎进行了一项研究。这些引擎包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究团队对每款引擎的准确性进行了测试,并记录下它们拒绝回答问题的频率。

研究团队从 20 家新闻机构中随机选取了 200 篇报道(每家 10 篇),确保这些报道在谷歌搜索结果中的排名位于前三位,然后使用相同的查询对这些 AI 搜索工具进行了测试,评估它们是否正确引用了文章内容、新闻机构名称和原始链接

测试结果显示,除了 Perplexity 及其付费版本外,其余 AI 搜索引擎的表现均不理想。总体来看,AI 搜索引擎提供的答案中有 60% 的信息不准确,而且 AI 对错误答案的“自信”使问题更加严重。

这项研究的重要性在于,它通过数据验证了外界多年来的担忧 —— 大语言模型常常出错,还能够以理所当然的态度提供错误的信息。它们往往以绝对肯定的方式陈述错误情况,甚至在遭到质疑时依然试图寻找理由来支持自己的说法。

即使在承认错误的情况下,ChatGPT 仍可能在后续回答中继续制造虚假内容。在大语言模型的设定中,几乎是“无论如何都需要给出答案”。研究数据支持了这一观点:ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具,但其“完全正确”率仅为 28%,而“完全错误”率高达 57%

尽管 ChatGPT 的表现并非最糟,X 旗下的 Grok AI 仿佛更为糟糕,特别是其 Grok-3 Search 的错误率竟然高达 94%。微软的 Copilot 同样面临诸多问题——在 200 次查询中,有104 次拒绝作答,在剩下的 96 次中,仅有 16 次“完全正确”,14 次“部分正确”,而 66 次则为“完全错误”,总体错误率接近 70%

这些 AI 工具的开发公司并未公开承认这些问题,但依然向用户收取每月 20 至 200 美元(约合人民币 145 至 1449 元)的订阅费用。此外,付费版 Perplexity Pro(20 美元 / 月)和 Grok-3 Search(40 美元 / 月)在回答量上虽优于免费版,但错误率却也更高。

广告声明:文中的对外跳转链接(包括不限于超链接、二维码、口令等形式)旨在提供更多信息,节省用户筛选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容