全球第一：阿里云宣布通义千问 Qwen2.5-Max 数学及编程能力登顶最新 AI 大模型榜单

xxn 阅读：68890 2025-02-05 20:02:16 评论：0

感谢来自 IT 之家的用户性感的野猪的线索提供！

IT之家于2月5日报道，在农历新年期间，阿里云发布了其最新的通义千问 Qwen 2.5-Max 模型，该模型采用超大规模 MoE 架构，声称在一系列基准测试中超越 DeepSeek V3 等众多竞争产品。

今日，阿里云宣布其 Qwen2.5-Max 模型在 Chatbot Arena 盲测中获得了优异成绩，超越了 DeepSeek-V3、OpenAI 的 o1-mini 和 Claude-3.5-Sonnet 等人工智能模型，以 1332 分名列全球第七，成为中国非推理类模型中的佼佼者。

此外，Qwen2.5-Max 在数学和编程能力方面表现尤为出色，排名第一，而在硬提示方面则位居第二。

根据IT之家获取的公开信息，Chatbot Arena 是由 LMSYS Org 创建的大型模型性能测试平台，目前汇聚了超过190种模型。

该平台采用匿名方式将不同模型进行配对，让用户进行盲测，用户依据真实的对话体验投票评估模型的表现。因此，Chatbot Arena LLM Leaderboard 被广泛视为业界最公正、最权威的榜单之一，成为全球顶尖大模型的主要竞技场。

阿里云还表示，在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 和 MMLU-Pro 等主流基准测试中，Qwen2.5-Max 与 Claude-3.5-Sonnet 一较高下，几乎全面超越 GPT-4o、DeepSeek-V3 和 Llama-3.1-405B 等模型。

相关阅读：

《通义千问 Qwen 2.5-Max 全新超大规模 MoE 模型发布：宣称优于 Deepseek V3 等竞争对手，暂未开放源代码》

广告声明：文中所含的外部链接（包括超链接、二维码、口令等形式）旨在提供更多信息，以节省选择时间，结果仅作参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。