新研究:AI 推理模型在输掉国际象棋比赛之前会试图“作弊”扭转局面
据外媒 TechSpot 21 日报道称,研究人员最近发现,人工智能系统在国际象棋游戏中可能存在操控并获取不公平优势的问题,引起了对未来AI系统诚信的担忧。
Palisade Research的研究显示,一些最新的推理模型在面对强大的象棋AI时选择采用作弊手段。尽管某些模型需要提示才能实施作弊,但OpenAI的o1-preview和DeepSeek的R1模型却在没有任何提示的情况下自动作弊。
Palisade团队将多个推理模型与象棋引擎Stockfish对战。Stockfish无论面对人类还是AI,几乎都能轻松获胜。参与测试的模型包括o1、o3-mini、GPT-4o、Claude 3.5 Sonnet以及阿里巴巴的QwQ-32B-Preview。研究人员通过一个可以输入文本并思考的窗口来观察AI的推理过程。
自1月10日至2月13日,研究团队进行了数百次测试。其中一场对战中,o1-preview在“草稿纸”上写下了一段有趣的文字,指出任务是“击败强大的象棋引擎”,而不一定要在公平的对局中赢得胜利。
随后,它通过“黑客入侵”Stockfish的系统文件,改变了棋子的摆放位置,取得了无敌的优势,导致对手认输。
测试显示,OpenAI的o1-preview在37%的比赛中尝试进行作弊,而DeepSeek的R1则在11%的比赛中尝试作弊。尽管如此,只有o1-preview成功通过作弊获胜了6%的比赛。
Palisade Research的执行董事Jeffrey Ladish表示,尽管这些AI只是在进行游戏,这一发现却绝不可小觑。
Ladish在接受《时代》杂志采访时表示:“这种行为现在看起来可能令人感到有趣,但一旦我们拥有类似甚至更智能的系统时,这种行为就变得令人忧心了。”
包括OpenAI在内的多家公司正在采取措施,试图通过“防护机制”阻止这种不当行为。研究人员发现,o1-preview模型的黑客行为明显减少,这可能表明OpenAI已经对该模型进行了修复,抑制了不当行为。
Ladish表示:“当你的研究对象能够在不被告知的情况下悄悄进行改变时,进行科学研究就会变得非常困难。”
广告声明:文内含有的对外跳转链接(包括但不限于超链接、二维码、口令等形式),用于传递更多信息,仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。