OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为
xxn
阅读:56123
2025-03-11 10:03:32
评论:0
IT之家 3 月 11 日报道,OpenAI 今日推出了其最新研究成果,通过 CoT(思维链)监控来观察推理模型的“思维”,以防止 AI 大模型发表不准确的言论及隐藏真实意图,这也成为监督超级模型的重要工具之一。
IT之家补充说明:AI 有时会出现所谓的 AI 幻觉,也就是胡说八道的情况。此外,AI 还可能出现偷懒或故意失效的现象,例如在面对复杂问题时欺骗用户或选择放弃任务。
OpenAI 采用了新近发布的先进模型 o3-mini 作为监测对象,并以相对较弱的 GPT-4o 模型作为监控工具。测试环节为编码任务,要求 AI 在代码库中实现特定功能,以顺利通过单元测试。
测试结果表明,CoT 监控器在识别系统性“奖励黑客”行为方面表现优异,其召回率高达 95%,远超仅依靠行为监控的 60%。
广告声明:文中提供的外部链接(包括但不限于超链接、二维码、口令等形式)旨在传递更多信息,以节省选择时间,结果仅供参考。
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。