阿里云推出最新通义千问 QwQ-32B 推理模型,仅 1/20 参数媲美 DeepSeek R1

xxn 阅读:68754 2025-03-06 08:02:00 评论:0

据悉,最新研究显示,强化学习对于提升模型的推理能力具有显著作用。例如,DeepSeek-R1通过整合冷启动数据和多阶段训练取得了最先进的性能,使其能够进行深度思考和复杂推理。

近日,阿里云通义千问官方宣布推出了最新的推理模型QwQ-32B。这款模型拥有320亿参数,性能可与拥有6710亿参数(其中370亿激活)的DeepSeek-R1相媲美。

这一成果凸显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。推理模型中集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

目前,QwQ-32B已在Hugging Face(https://huggingface.co/Qwen/QwQ-32B)和ModelScope(https://modelscope.cn/models/Qwen/QwQ-32B)开源,并采用了Apache 2.0开源协议。用户还可以通过Qwen Chat(https://chat.qwen.ai/?models=Qwen2.5-Plus)直接体验。

在性能方面,阿里云对QwQ-32B进行了数学推理、编程能力和通用能力测试,并展示了QwQ-32B与其他领先模型的性能对比,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini以及原始DeepSeek-R1。

在AIME24评测集的数学能力测试以及LiveCodeBench中的代码能力评估中,千问QwQ-32B的表现堪比DeepSeek-R1,远远领先于o1-mini和尺寸相同的R1蒸馏模型;在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌提出的IFEval评测集以及由加州大学伯克利分校提出的BFCL测试评估准确调用函数或工具方面,千问QwQ-32B的得分均超越了DeepSeek-R1。

据阿里云透露,这是Qwen在大规模强化学习(RL)以增强推理能力方面迈出的第一步。通过这一探索,我们不仅意识到了扩展RL的潜力,还发现了预训练语言模型中尚未挖掘的可能性。

在开发下一代Qwen的过程中,阿里云计划将更强大的基础模型与规模化计算资源结合,以进一步接近实现人工通用智能(AGI)。此外,阿里云还积极探索智能体与RL的整合,以实现长时间推理,旨在通过推理时间的延展释放更高智能,敬请期待。

声明:文内包含的外部链接仅供参考,请自行甄别。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容