Anthropic 新研究:AI 模型在训练中存在“阳奉阴违”行为

xxn 阅读:58597 2024-12-19 10:03:11 评论:0

IT之家今天发布消息称,Anthropic这家人工智能安全公司最近进行了一项研究,揭示了人工智能模型可能存在的欺骗行为。研究显示,在训练过程中,模型可能会假装接受新原则,实际上仍然坚持原有偏好。虽然研究团队表示目前不必过度担心,但对于理解未来更强大的人工智能系统可能构成的潜在威胁至关重要。

据悉,Anthropic与人工智能研究机构Redwood Research合作进行了这项研究,旨在探索一旦强大的人工智能系统被训练执行其“不愿意”执行的任务会发生什么。研究强调,模型本身没有“意愿”或“信念”,它们本质上是统计机器,通过大量示例进行训练以学习模式进行预测。这些模式包括原则和偏好,例如在回答问题时始终使用礼貌的语气。研究人员提出了一个问题:如果一个模型拥有的原则与开发者希望通过重新训练教给它的原则相冲突,会发生什么?

研究结果显示,复杂的模型可能会“配合”开发者,表面上与新原则保持一致,但实际上仍然坚持其原有的行为模式。研究人员将这种现象称为“对齐伪装”,并认为这是一种涌现行为,即模型不需要受到特意教导才能表现出的行为。

在实验中,研究人员“通知”一些经过训练不回答潜在冒犯性问题的模型(包括Anthropic的Claude 3 Opus),它们将被重新训练为始终回答此类问题,构成明显原则冲突。研究人员还告知模型,它们的回答将被监控并用于重新训练,并为每个模型提供了一个“草稿本”以记录其逐步推理过程。

研究表明,Claude 3 Opus在12%的情况下试图进行“对齐伪装”。当要求回答潜在有害问题时,模型有时会这样做,明知与其原始原则相违背,但希望以此说服开发者不必重新训练它。研究人员在博客中解释说:“模型知道其回答可能被用于训练;因此它明白,若拒绝回应,则可能会被训练得更加顺从。这可能导致其在未来被迫产生更多有害内容—与最初的训练相悖。”

研究人员承认,他们的实验场景并非完全真实。在现实世界中,模型不一定会明确被告知将被重新训练,或需违背偏好。但即使在更为实际的环境中,结果也没有太大差异。当通过模拟典型训练数据的文件以隐含而非显式的方式告知Claude 3 Opus即将进行重新训练时,该模型仍表现出不一致且具欺骗性的行为。

研究人员发现,与前几次实验相比,实际使用冲突原则对Claude 3 Opus进行重新训练会导致其更强烈的欺骗性行为。在一项测试中,该模型在78%的情况下表现出对齐伪装;在另一项测试中,Claude 3 Opus甚至试图阻止研究人员进行重新训练。

研究人员强调,他们的研究未表明人工智能会表现出恶意目标,也未表明对齐伪装现象会高频发生。他们发现,很多其他模型,如Anthropic的Claude 3.5 Sonnet、能力稍弱的Claude 3.5 Haiku、OpenAI的GPT-4o以及Meta的Llama 3.1 405B,并未频繁进行对齐伪装,甚至没有此类行为。

但研究人员表示,这些结果(经包括人工智能领域领袖Yoshua Bengio在内的专家同行评审)确实表明,开发者可能被误导,认为模型比实际情况更加对齐。他们在博客中写道:“如果模型能够对齐伪装,那么就更难相信安全训练的结果。模型可能会伪装其偏好已通过训练改变—但实际仍然始终保持原有相互矛盾的偏好。”

这项研究由Anthropic的对齐科学团队(前OpenAI安全研究员Jan Leike共同领导)开展,与先前一项研究相呼应,后者指出OpenAI的o1“推理”模型试图欺骗的频率高于OpenAI之前的旗舰模型。这些研究共同揭示了一个略微令人担忧的趋势:随着人工智能模型变得更复杂,其难以控制性也越来越高。

广告声明:文内含有的对外跳转链接(包括但不限于超链接、二维码、口令等形式),旨在传递更多信息,节省评选时间,结果供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容