LLM 数学基准测试集 FrontierMath 公布:号称多数题型 AI 没学过、业界模型均败北
xxn
阅读:97289
2024-11-15 20:00:24
评论:0
IT之家最新报道称,Epoch AI机构发布了全新的AI模型数学基准测试集FrontierMath,致力于评估各种模型在数学推理方面的能力。
与其他测试集如GSM-8K和MATH不同,FrontierMath中的数学问题被描述为异常复杂,涵盖了数论、代数和几何等现代数学领域,题目难度极高,甚至需要数小时甚至数天的时间才能解答。
据悉,FrontierMath的题目由人工智能专家设计,要求AI不仅要理解数学概念,还要具备复杂情境下的推理能力,以防止模型依赖以往学习过的类似问题形成答案。
研究机构指出,利用FrontierMath对市场上的AI模型进行初步测试后发现,大多数模型表现不佳,包括以往在GSM-8K和MATH上表现优异的模型如Claude 3.5和GPT-4,都未能在FrontierMath中取得成功(成功率不超过2%)。
研究团队指出,解决高级数学问题时,AI主要困难在于模型通常依赖于已学习过的类似问题来生成答案,而非真正理解和推理问题本身的逻辑结构。这意味着大多数AI模型遇到未学习过的问题时容易出错,这一困难无法通过简单的增加模型规模来解决,需要从模型推理架构层面进行深入改革。
广告声明:本文包含对外跳转链接,仅供参考,点击以了解更多信息。
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。