阶跃星辰推理模型 Step R-mini 上线:宣称“文理兼修”,AIME 等数学基准测试成绩超 o1-preview

xxn 阅读:32064 2025-01-17 18:01:32 评论:0
感谢IT之家用户 Skyraver風見暉一 提供的线索!

IT之家 1 月 17 日报道,阶跃星辰于昨日(1 月 16 日)正式发布了自研的推理模型 Step Reasoner mini(简称 Step R-mini)。

官方声明,Step Reasoner mini 在 AIME 和 Math 等数学基准测试中表现优异,其成绩超越了 o1-preview,接近 OpenAI 的 o1-mini。同时,在 LiveCodeBench 代码任务中,Step Reasoner mini 的表现也优于 o1-preview。

通过大规模强化学习的训练,Step Reasoner mini 采用 On-Policy(同策略)强化学习算法,实现了文理并重。该模型不仅能够精准解决数学、代码及逻辑推理问题,还能创造性地完成文学创作与日常对话。

IT之家提供的体验链接:https://yuewen.cn

广告声明:文中涉及的外部链接(包括但不限于超链接、二维码、口令等)旨在提供更多信息,帮助用户节省筛选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容