感谢 DeepSeek:Predibase 发布全球首个端到端强化微调平台并开源,支持无服务器和端到端训练方法

xxn 阅读:80490 2025-03-20 08:01:56 评论:0

IT之家最新消息显示,昨晚,大型模型训练和开发平台Predibase发布了一个全新的强化微调平台,该平台完全托管、无服务器,实现了端到端的微调过程,是首个端到端的强化微调(RFT)平台。

Predibase表示,开源项目DeepSeek-R1在全球人工智能领域产生了巨大影响,使许多人意识到强化学习微调对大型模型训练的重要性。基于这一启发,他们开发了这款端到端无服务器的强化微调平台。

相较于传统的监督式微调,RFT无需大量标注数据,而是通过奖励和自定义函数实现持续的强化学习。同时,该平台支持无服务器和端到端训练方法,用户只需一个浏览器,就能完成以往复杂的大型模型微调流程,从数据管理、模型训练到应用部署均可在同一平台完成。

为了展示RFT的强大功能,Predibase基于阿里Qwen2.5-Coder-32B-instruct进行了微调,创建了用于将PyTorch代码转换为Triton的Predibase-T2T-32B-RFT模型,并使用其他更大基准模型(包括DeepSeek-R1、Claude 3.7 Sonnet和OpenAI o1)进行了内核正确性基准测试。

与传统的监督式微调不同,Predibase-T2T-32B-RFT利用RFT以交互方式调整模型行为,以最少标记数据优化下游任务质量。这使其成为专有LLM的高性价比、高性能替代方案。

通过RFT,Predibase结合了冷启动监督式微调、强化学习和课程学习,仅使用了十几个标记数据点进行训练。

在Kernelbench数据集上进行的基准测试显示,Qwen2.5-Coder-32B-instruct经过强化后,其正确率比DeepSeek-R1和OpenAI的o1高出3倍,比Claude 3.7 Sonnet高出4倍以上,同时模型占用的空间减小了一个数量级。

IT之家附开源地址:
https://huggingface.co/predibase/Predibase-T2T-32B-RFT

在线体验地址:
https://predibase.com/reinforcement-fine-tuning-playground

声明:文中包含的外部链接仅用于传递信息,节省甄选时间,内容仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容