全球第一:阿里云宣布通义千问 Qwen2.5-Max 数学及编程能力登顶最新 AI 大模型榜单
IT之家于2月5日报道,在农历新年期间,阿里云发布了其最新的通义千问 Qwen 2.5-Max 模型,该模型采用超大规模 MoE 架构,声称在一系列基准测试中超越 DeepSeek V3 等众多竞争产品。
今日,阿里云宣布其 Qwen2.5-Max 模型在 Chatbot Arena 盲测中获得了优异成绩,超越了 DeepSeek-V3、OpenAI 的 o1-mini 和 Claude-3.5-Sonnet 等人工智能模型,以 1332 分名列全球第七,成为中国非推理类模型中的佼佼者。
此外,Qwen2.5-Max 在数学和编程能力方面表现尤为出色,排名第一,而在硬提示方面则位居第二。
根据IT之家获取的公开信息,Chatbot Arena 是由 LMSYS Org 创建的大型模型性能测试平台,目前汇聚了超过190种模型。
该平台采用匿名方式将不同模型进行配对,让用户进行盲测,用户依据真实的对话体验投票评估模型的表现。因此,Chatbot Arena LLM Leaderboard 被广泛视为业界最公正、最权威的榜单之一,成为全球顶尖大模型的主要竞技场。
阿里云还表示,在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 和 MMLU-Pro 等主流基准测试中,Qwen2.5-Max 与 Claude-3.5-Sonnet 一较高下,几乎全面超越 GPT-4o、DeepSeek-V3 和 Llama-3.1-405B 等模型。
相关阅读:
广告声明:文中所含的外部链接(包括超链接、二维码、口令等形式)旨在提供更多信息,以节省选择时间,结果仅作参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。