哥伦比亚大学研究：AI 搜索工具平均准确率仅六成，且自信满满“不认错”

xxn 阅读：72109 2025-03-13 18:06:10 评论：0

IT之家 3 月 13 日报道，外媒 Techspot 发布的消息指出，哥伦比亚大学数字新闻研究中心（Tow Center for Digital Journalism）最近对八款 AI 搜索引擎进行了一项研究。这些引擎包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究团队对每款引擎的准确性进行了测试，并记录下它们拒绝回答问题的频率。

研究团队从 20 家新闻机构中随机选取了 200 篇报道（每家 10 篇），确保这些报道在谷歌搜索结果中的排名位于前三位，然后使用相同的查询对这些 AI 搜索工具进行了测试，评估它们是否正确引用了文章内容、新闻机构名称和原始链接。

测试结果显示，除了 Perplexity 及其付费版本外，其余 AI 搜索引擎的表现均不理想。总体来看，AI 搜索引擎提供的答案中有 60% 的信息不准确，而且 AI 对错误答案的“自信”使问题更加严重。

这项研究的重要性在于，它通过数据验证了外界多年来的担忧 —— 大语言模型常常出错，还能够以理所当然的态度提供错误的信息。它们往往以绝对肯定的方式陈述错误情况，甚至在遭到质疑时依然试图寻找理由来支持自己的说法。

即使在承认错误的情况下，ChatGPT 仍可能在后续回答中继续制造虚假内容。在大语言模型的设定中，几乎是“无论如何都需要给出答案”。研究数据支持了这一观点：ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具，但其“完全正确”率仅为 28%，而“完全错误”率高达 57%。

尽管 ChatGPT 的表现并非最糟，X 旗下的 Grok AI 仿佛更为糟糕，特别是其 Grok-3 Search 的错误率竟然高达 94%。微软的 Copilot 同样面临诸多问题——在 200 次查询中，有104 次拒绝作答，在剩下的 96 次中，仅有 16 次“完全正确”，14 次“部分正确”，而 66 次则为“完全错误”，总体错误率接近 70%。

这些 AI 工具的开发公司并未公开承认这些问题，但依然向用户收取每月 20 至 200 美元（约合人民币 145 至 1449 元）的订阅费用。此外，付费版 Perplexity Pro（20 美元 / 月）和 Grok-3 Search（40 美元 / 月）在回答量上虽优于免费版，但错误率却也更高。

广告声明：文中的对外跳转链接（包括不限于超链接、二维码、口令等形式）旨在提供更多信息，节省用户筛选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。