谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

xxn 阅读:1977 2024-12-18 14:00:49 评论:0

12 月 18 日,谷歌 DeepMind 团队发布了一则消息,宣布推出 FACTS Grounding 基准测试,用于评估大型语言模型(LLMs)在给定材料下的准确性,同时希望避免“幻觉”(即捏造信息)的情况,以增加 LLMs 的事实准确性,提高用户信任度,并拓展其应用范围。

数据集

ACTS Grounding 数据集包含 1719 个示例,涵盖金融、科技、零售、医疗和法律等多个领域。每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令,以及一些提示词。

这些示例文档的长度不一,最长可达 32000 个 token(约 20000 字)。用户请求的任务包括摘要、问答生成和改写等,但不包含需要创造力、数学或复杂推理的任务。

数据集分为 860 个“公共”示例和 859 个“私有”示例,目前已发布公共数据集供评估使用。私有数据集则被用于排行榜评分,以防止基准污染和排行榜作弊。

评估方案

FACTS Grounding 使用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 作为评委,评估答案的充分性、事实准确性和文档支持性。

评估分为两个阶段:首先评估响应是否符合资格,即是否充分回答了用户请求;然后评估响应的事实准确性,即是否完全基于所提供的文档,有没有出现“幻觉”。最终得分基于该模型在所有示例上的平均得分计算得出。

在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事实准确的文本生成方面表现最佳。

参考地址:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容