LLM 数学基准测试集 FrontierMath 公布：号称多数题型 AI 没学过、业界模型均败北

xxn 阅读：97289 2024-11-15 20:00:24 评论：0

IT之家最新报道称，Epoch AI机构发布了全新的AI模型数学基准测试集FrontierMath，致力于评估各种模型在数学推理方面的能力。

与其他测试集如GSM-8K和MATH不同，FrontierMath中的数学问题被描述为异常复杂，涵盖了数论、代数和几何等现代数学领域，题目难度极高，甚至需要数小时甚至数天的时间才能解答。

据悉，FrontierMath的题目由人工智能专家设计，要求AI不仅要理解数学概念，还要具备复杂情境下的推理能力，以防止模型依赖以往学习过的类似问题形成答案。

▲ 题库中的题型示例

研究机构指出，利用FrontierMath对市场上的AI模型进行初步测试后发现，大多数模型表现不佳，包括以往在GSM-8K和MATH上表现优异的模型如Claude 3.5和GPT-4，都未能在FrontierMath中取得成功（成功率不超过2%）。

研究团队指出，解决高级数学问题时，AI主要困难在于模型通常依赖于已学习过的类似问题来生成答案，而非真正理解和推理问题本身的逻辑结构。这意味着大多数AI模型遇到未学习过的问题时容易出错，这一困难无法通过简单的增加模型规模来解决，需要从模型推理架构层面进行深入改革。

广告声明：本文包含对外跳转链接，仅供参考，点击以了解更多信息。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。