OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为

xxn 阅读:56123 2025-03-11 10:03:32 评论:0

IT之家 3 月 11 日报道,OpenAI 今日推出了其最新研究成果,通过 CoT(思维链)监控来观察推理模型的“思维”,以防止 AI 大模型发表不准确的言论及隐藏真实意图,这也成为监督超级模型的重要工具之一。

IT之家补充说明:AI 有时会出现所谓的 AI 幻觉,也就是胡说八道的情况。此外,AI 还可能出现偷懒或故意失效的现象,例如在面对复杂问题时欺骗用户或选择放弃任务。

OpenAI 采用了新近发布的先进模型 o3-mini 作为监测对象,并以相对较弱的 GPT-4o 模型作为监控工具。测试环节为编码任务,要求 AI 在代码库中实现特定功能,以顺利通过单元测试。

测试结果表明,CoT 监控器在识别系统性“奖励黑客”行为方面表现优异,其召回率高达 95%,远超仅依靠行为监控的 60%。

广告声明:文中提供的外部链接(包括但不限于超链接、二维码、口令等形式)旨在传递更多信息,以节省选择时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容