AI“短板”暴露:研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%

xxn 阅读:64170 2025-01-20 18:02:28 评论:0

IT之家 1 月 20 日消息,尽管人工智能(AI)在编码等任务中表现出色,但一项最新研究发现,AI 在应对高级历史考试时仍显得力不从心。

由奥地利复杂科学研究所(CSH)的团队领导的这项研究旨在测试三大顶尖大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具,其根据 Seshat 全球历史数据库来测试答案的正确性,Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。

新近公布的研究结果显示,最佳表现的 GPT-4 Turbo 模型的准确率仅为 46%,并不比随机猜测高出多少。

合著这篇论文的伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 表示:“这项研究的主要结论是,尽管 LLMs 令人印象深刻,但它们仍缺乏对高级历史知识的深度理解。它们擅长处理基本事实,但在面对更复杂、博士级别的历史研究时,仍无法胜任。”

研究人员指出,LLMs 在回答历史问题时出错的例子包括:GPT-4 Turbo 在被问及古埃及某时期是否存在鳞甲时,错误地给出肯定答案,然而,这种技术实际是在 1500 年后才开始在埃及出现。del Rio-Chanona 指出,LLMs 在处理技术性历史问题时表现不佳,可能是因为它们更倾向于推断非常突出的历史数据,难以检索到更为冷门的历史知识。

另一例是,当研究人员问及 GPT-4 古埃及是否有一支职业常备军时,正确答案是否定的,但 LLM 却错误回答为“有”。del Rio-Chanona 认为,这可能是因为资料中关于其他古代帝国(如波斯)拥有常备军的信息较多,而古埃及方面的信息相对较少。她解释说:“如果你反复听到 A 和 B,而只听到 C 一次,那当你被问及 C 时,你可能只记得 A 和 B,从而试图推断出来。”

研究表明,OpenAI 和 Llama 模型在撒哈拉以南非洲等地区表现较差,可能是因为其训练数据存在偏见。CSH 研究员 Peter Turchin 表示,这些结果表明,在某些领域,LLMs 仍无法取代人类。

尽管如此,研究人员对LLMs 在未来协助历史研究的前景仍抱有乐观态度。他们正在通过引入更多来自代表性不足地区的数据和提出更为复杂问题来完善基准测试工具。该论文总结道:“尽管我们的研究结果凸显了LLMs 需要改善的方面,但也凸显了这些模型在历史研究中的潜力。”

广告声明:文中包含的外部链接供参考,用于提供更多信息,节省挑选时间。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容