AI 编程能力哪家强?阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

xxn 阅读:85858 2025-01-04 14:00:46 评论:0

IT之家今日报导称,阿里通义千问 Qwen最新推出了CodeElo基准测试,通过与人类程序员比较的Elo评级系统,对大语言模型(LLM)的编程水平进行评估。

项目背景

大语言模型的AI应用之一是生成和补全代码,但目前在评估编程实际能力方面存在许多挑战。

现有的基准测试例如LiveCodeBench和USACO存在局限性,缺乏健壮的私有测试用例,不支持专门的判断系统,并且经常存在不一致的执行环境。

CodeElo:利用CodeForces创建更准确的LLM评估体系

IT之家注意到,Qwen研究团队推出了CodeElo基准测试,旨在利用Elo评级系统,通过与人类程序员比较来评估LLM的编程竞赛水平。

CodeElo的问题来自于CodeForces平台,该平台因其严格的编程竞赛而闻名,通过向CodeForces平台直接提交解决方案,CodeElo确保了评估的准确性,解决了误报等问题,并支持需要特殊评判机制的问题。此外,Elo评级系统反映了人类的排名,有效比较了LLM和人类参赛者的表现。

三大核心要素:全面、稳健、标准化

CodeElo基于三个关键要素:

  • 全面的问题选择: 题目按比赛分区、难度级别和算法标签进行分类,提供全面评估。

  • 稳健的评估方法: 提交的代码在CodeForces平台上进行测试,利用其特殊评估机制确保准确判断,无需隐藏测试用例,并提供可靠反馈。

  • 标准化的评级计算: Elo评级系统评估代码的正确性,考虑问题难度,并对错误进行惩罚,激励高质量的解决方案,为评估编码模型提供了细致有效的工具。

测试结果

在对30个开源LLM和3个专有LLM进行测试后,OpenAI的o1-mini模型表现最佳,Elo评分达1578,超过了90%的人类参与者;在开源模型中,QwQ-32B-Preview的1261分处于榜首。

然而,许多模型在解决简单问题时依然有困难,通常排名在人类参与者的后20%。分析显示,模型在数学和实现等类别表现出色,但在动态规划和树形算法等方面存在不足。

此外,模型在使用C++编码时表现更出色,与竞技程序员的喜好相符,这些结果突显出LLM需要改进的领域。

广告声明:文中包含的外部链接(包括但不限于超链接、二维码、口令等形式)旨在传递更多信息,节省挑选时间,仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容