OpenAI o3 碾压式 AI 数学成绩遭质疑：既当选手又是裁判，翻版 Theranos 世纪骗局

xxn 阅读：93320 2025-01-20 08:00:15 评论：0

IT之家1月20日报道指出，科技媒体TechCrunch日前发布文章指出，Epoch AI未及时公开OpenAI的资助问题，引起了一些争议，其开发的数学基准测试FrontierMath的客观性受到了一定程度的质疑。

Epoch AI组织是一个由Open Philanthropy资助的非营利组织，推出了FrontierMath基准测试，旨在通过整合专家级数学问题来评估和测试AI模型在数学方面的能力。

据悉，在Epoch AI的FrontierMath基准测试中，OpenAI的o3模型表现出色，准确率高达25%，远超其他模型，后者得分仅在2%左右。

Epoch AI的一位承包商“Meemi”在LessWrong论坛上发帖称，许多参与FrontierMath项目的贡献者直到后来公开声明时才意识到OpenAI参与其中。

Meemi在帖子中写道：“沟通缺乏透明度。我认为Epoch AI应该公开OpenAI的资助情况，承包商在决定是否参与基准测试工作时，应该获得关于他们工作成果可能被利用以提升技能的透明信息。”

六位参与FrontierMath基准测试设计的数学家表示，他们并不知道OpenAI拥有独家访问权限。如果事先知情，他们或许会有所不同。

一些社交媒体用户对这种保密行为表示担忧，担心可能会损害FrontierMath作为一个客观基准的声誉。除了资助FrontierMath项目，OpenAI还可以访问该基准测试中的许多问题和解决方案 ——而在o3发布前，Epoch AI并未透露这一事实。

Epoch AI副主任兼联合创始人之一Tamay Besiroglu在回复Meemi的帖子时坚称，FrontierMath的完整性并未受到损害，但也承认Epoch AI在未能更加透明方面出现了“疏忽”。

AI专家Gary Marcus对OpenAI的声明提出了质疑，并将此事件与Theranos丑闻做了类比。Theranos丑闻是指伊丽莎白・霍尔姆斯创立的血液检测公司Theranos的欺诈事件，该公司声称只需几滴血就能进行数百项检测，最终被揭穿，公司破产，霍尔姆斯也被判欺诈罪。

Besiroglu承认OpenAI可以访问FrontierMath的大部分问题和答案，但也确切地指出还有一个未曾展示给OpenAI的保留数据集，用于验证模型的能力。

Besiroglu提到：

我们在o3发布前后才能披露合作关系，回顾来看，我们应该更努力地争取尽快保持与基准测试贡献者的透明。我们的数学家们应该知道谁能访问他们的工作。即使受合同限制，我们也应确保与贡献者之间的透明度成为与OpenAI合作中不可讨论的一环。

【广告声明】：本文包含对外链接等信息，仅供参考，点击查看更多信息。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。