阶跃星辰推理模型 Step R-mini 上线：宣称“文理兼修”，AIME 等数学基准测试成绩超 o1-preview

xxn 阅读：32064 2025-01-17 18:01:32 评论：0

感谢IT之家用户 Skyraver与風見暉一提供的线索！

IT之家 1 月 17 日报道，阶跃星辰于昨日（1 月 16 日）正式发布了自研的推理模型 Step Reasoner mini（简称 Step R-mini）。

官方声明，Step Reasoner mini 在 AIME 和 Math 等数学基准测试中表现优异，其成绩超越了 o1-preview，接近 OpenAI 的 o1-mini。同时，在 LiveCodeBench 代码任务中，Step Reasoner mini 的表现也优于 o1-preview。

通过大规模强化学习的训练，Step Reasoner mini 采用 On-Policy（同策略）强化学习算法，实现了文理并重。该模型不仅能够精准解决数学、代码及逻辑推理问题，还能创造性地完成文学创作与日常对话。

IT之家提供的体验链接：https://yuewen.cn

广告声明：文中涉及的外部链接（包括但不限于超链接、二维码、口令等）旨在提供更多信息，帮助用户节省筛选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。