OpenAI 发布 CoT 思维链研究成果，监控阻止大模型恶意行为

xxn 阅读：56207 2025-03-11 10:03:32 评论：0

IT之家 3 月 11 日报道，OpenAI 今日推出了其最新研究成果，通过 CoT（思维链）监控来观察推理模型的“思维”，以防止 AI 大模型发表不准确的言论及隐藏真实意图，这也成为监督超级模型的重要工具之一。

IT之家补充说明：AI 有时会出现所谓的 AI 幻觉，也就是胡说八道的情况。此外，AI 还可能出现偷懒或故意失效的现象，例如在面对复杂问题时欺骗用户或选择放弃任务。

OpenAI 采用了新近发布的先进模型 o3-mini 作为监测对象，并以相对较弱的 GPT-4o 模型作为监控工具。测试环节为编码任务，要求 AI 在代码库中实现特定功能，以顺利通过单元测试。

测试结果表明，CoT 监控器在识别系统性“奖励黑客”行为方面表现优异，其召回率高达 95%，远超仅依靠行为监控的 60%。

广告声明：文中提供的外部链接（包括但不限于超链接、二维码、口令等形式）旨在传递更多信息，以节省选择时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。