OpenAI 活动第二弹：“强化微调”打造领域专家 AI 模型，阿尔特曼称其为今年最大惊喜

xxn 阅读：46588 2024-12-07 08:01:04 评论：0

OpenAI近日启动了为期12天的“shipmas”新品发布周期，将推出一系列新功能、新产品以及相关演示。今日，OpenAI推出了强化微调（Reinforcement Fine-Tuning），协助开发者和机器学习工程师打造特定复杂领域任务的专家模型。

这项项目通过全新的模型定制技术，使开发者能够利用高质量任务集对模型进行微调，并通过参考答案评估模型的反馈，从而提高模型在特定领域任务中的推理能力和准确性。

官方介绍称，开发人员可以使用数十到数千个高质量任务，定制OpenAI的模型，并使用参考答案对模型的反馈进行评分。该技术增强了模型解决类似问题的方式，并提高了模型在特定任务领域的准确性。

RFT（Reinforcement Fine-Tuning）利用了强化学习算法，可将模型性能从高中水平提升到专家级水平，迥异于标准微调和监督式微调。

RFT鼓励模型以全新方式进行推理，而不是模仿输入，通过对模型答案进行评分并加强正确的推理路径，就能显著提升模型性能，仅需少量示例。

强化微调支持用户利用自己的黄金数据集创建独特的模型，适用于法律、金融、工程、保险等专业领域。

OpenAI鼓励研究机构、高校和企业申请，特别是那些由专家领导进行一系列狭窄复杂任务的机构，可获得人工智能协助。

OpenAI指出，强化微调在那些具有客观“正确”答案、大多数专家认同的任务上表现出色，因此在法律、保险、医疗、金融、工程等领域有望有更佳表现。

参与者可提前使用Alpha版强化微调API，在特定领域任务中进行测试。此外，OpenAI鼓励共享数据集，共同改善OpenAI模型。

OpenAI计划于2025年初公开发布强化微调功能。

OpenAI首席执行官Sam Altman表示：“强化微调的效果令人惊喜：它是我2024年最大的惊喜之一。”

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。