OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判,翻版 Theranos 世纪骗局

xxn 阅读:93215 2025-01-20 08:00:15 评论:0

IT之家1月20日报道指出,科技媒体TechCrunch日前发布文章指出,Epoch AI未及时公开OpenAI的资助问题,引起了一些争议,其开发的数学基准测试FrontierMath的客观性受到了一定程度的质疑。

Epoch AI组织是一个由Open Philanthropy资助的非营利组织,推出了FrontierMath基准测试,旨在通过整合专家级数学问题来评估和测试AI模型在数学方面的能力。

据悉,在Epoch AI的FrontierMath基准测试中,OpenAI的o3模型表现出色,准确率高达25%,远超其他模型,后者得分仅在2%左右。

Epoch AI的一位承包商“Meemi”在LessWrong论坛上发帖称,许多参与FrontierMath项目的贡献者直到后来公开声明时才意识到OpenAI参与其中。

Meemi在帖子中写道:“沟通缺乏透明度。我认为Epoch AI应该公开OpenAI的资助情况,承包商在决定是否参与基准测试工作时,应该获得关于他们工作成果可能被利用以提升技能的透明信息。”

六位参与FrontierMath基准测试设计的数学家表示,他们并不知道OpenAI拥有独家访问权限。如果事先知情,他们或许会有所不同。

一些社交媒体用户对这种保密行为表示担忧,担心可能会损害FrontierMath作为一个客观基准的声誉。除了资助FrontierMath项目,OpenAI还可以访问该基准测试中的许多问题和解决方案 ——而在o3发布前,Epoch AI并未透露这一事实。

Epoch AI副主任兼联合创始人之一Tamay Besiroglu在回复Meemi的帖子时坚称,FrontierMath的完整性并未受到损害,但也承认Epoch AI在未能更加透明方面出现了“疏忽”。

AI专家Gary Marcus对OpenAI的声明提出了质疑,并将此事件与Theranos丑闻做了类比。Theranos丑闻是指伊丽莎白・霍尔姆斯创立的血液检测公司Theranos的欺诈事件,该公司声称只需几滴血就能进行数百项检测,最终被揭穿,公司破产,霍尔姆斯也被判欺诈罪。

Besiroglu承认OpenAI可以访问FrontierMath的大部分问题和答案,但也确切地指出还有一个未曾展示给OpenAI的保留数据集,用于验证模型的能力。

Besiroglu提到:

我们在o3发布前后才能披露合作关系,回顾来看,我们应该更努力地争取尽快保持与基准测试贡献者的透明。我们的数学家们应该知道谁能访问他们的工作。即使受合同限制,我们也应确保与贡献者之间的透明度成为与OpenAI合作中不可讨论的一环。

【广告声明】:本文包含对外链接等信息,仅供参考,点击查看更多信息。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容