OpenAI 活动第二弹:“强化微调”打造领域专家 AI 模型,阿尔特曼称其为今年最大惊喜

xxn 阅读:46478 2024-12-07 08:01:04 评论:0

OpenAI近日启动了为期12天的“shipmas”新品发布周期,将推出一系列新功能、新产品以及相关演示。今日,OpenAI推出了强化微调(Reinforcement Fine-Tuning),协助开发者和机器学习工程师打造特定复杂领域任务的专家模型。

这项项目通过全新的模型定制技术,使开发者能够利用高质量任务集对模型进行微调,并通过参考答案评估模型的反馈,从而提高模型在特定领域任务中的推理能力和准确性。

强化微调简介

官方介绍称,开发人员可以使用数十到数千个高质量任务,定制OpenAI的模型,并使用参考答案对模型的反馈进行评分。该技术增强了模型解决类似问题的方式,并提高了模型在特定任务领域的准确性。

RFT(Reinforcement Fine-Tuning)利用了强化学习算法,可将模型性能从高中水平提升到专家级水平,迥异于标准微调和监督式微调。

RFT鼓励模型以全新方式进行推理,而不是模仿输入,通过对模型答案进行评分并加强正确的推理路径,就能显著提升模型性能,仅需少量示例。

强化微调支持用户利用自己的黄金数据集创建独特的模型,适用于法律、金融、工程、保险等专业领域。

强化微调面向群体

OpenAI鼓励研究机构、高校和企业申请,特别是那些由专家领导进行一系列狭窄复杂任务的机构,可获得人工智能协助。

OpenAI指出,强化微调在那些具有客观“正确”答案、大多数专家认同的任务上表现出色,因此在法律、保险、医疗、金融、工程等领域有望有更佳表现。

参与者可提前使用Alpha版强化微调API,在特定领域任务中进行测试。此外,OpenAI鼓励共享数据集,共同改善OpenAI模型。

OpenAI计划于2025年初公开发布强化微调功能。

OpenAI首席执行官Sam Altman表示:“强化微调的效果令人惊喜:它是我2024年最大的惊喜之一。”

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容