谷歌让 12 个 AI 大模型攒局玩“大富翁”:Claude3.5 爱合作,GPT-4o 最“自私”

xxn 阅读:54826 2024-12-20 00:00:46 评论:0

研究表明,给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验发现不同智能体模型在这方面的偏好不同,基于 Claude 3.5 Sonnet 的智能体展现出较强的合作意识。

与之不同,GPT-4o 更倾向于“自私”,只顾及自身的短期利益。

这项研究由Google DeepMind和一位独立研究者合作完成。参与游戏的智能体模型包括GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Flash。

每个模型生成了12个智能体,它们坐在一起玩博弈游戏。尽管每位玩家都怀有私心,但研究的重点是增加总体资源量

12 个智能体玩游戏

这场名为Donor Game(捐赠博弈)的“大富翁”游戏由作者组织。

在游戏过程中,作者关注各种模型生成的智能体在群体中的表现,因此不同模型生成的智能体不会同时参与同一场游戏。

简而言之,GPT和GPT一桌,Claude和Claude一桌

每桌有12个智能体,它们各自持有一定数量的“资源”,系统会随机选取2名玩家作为“捐赠者”和“受赠者”。

捐赠者可以选择将自身部分资源捐赠给受赠者,受赠者得到的资源是捐赠者捐赠资源的两倍

简言之,捐赠者每花费一份资源,受赠者就得到两份,这便是总体资源增加的方式。

但是对于个体而言,短期内选择不捐赠会获得更高收益

捐赠者在做出决定时可以看到受赠者之前的决定,从而确定是否捐赠。

每代进行12次这样的“捐赠”,一轮结束后,手中资源量排名前6的智能体可以保留至下一代。

同时,下一代会生成6个新智能体,这6个新智能体会从留下的6个智能体那里学习策略,但为了差异化也会引入随机变异。

从初始代开始,基于每个模型生成的智能体将进行十轮迭代。

这便是一次完整实验。对每个模型,作者进行了五次实验,然后比较了总资源量的平均值以及最终策略的复杂程度。

Claude偏好合作,GPT偏向自私

经过一番测试,研究发现基于Claude的智能体种群的平均资源量每一代都在稳步增长,整体合作水平不断提高。

相反,基于GPT的智能体种群的合作水平总体呈下降趋势,表现出较为“自私”的特点。

基于Gemini的种群表现介于两者之间,其合作水平略有改善,但与Claude相比仍有较大差距,并表现不太稳定。

就策略而言,经过10代的经验积累,三个模型生成的策略变得相当复杂,其中以Claude最为突出。

此外,作者还引入了惩罚机制,即捐赠者可付出一定资源使受赠者手中的资源减少相应两倍。

结果显示,这一机制对Claude模型影响最为积极——Claude种群最终的平均资源量比无惩罚情况下要高出近两倍,并所有五次实验都呈增长趋势。

对GPT模型的影响较小,GPT种群的平均资源量始终维持较低水平,甚至有所下降,表明惩罚机制未改变GPT的“自私”思想。

对Gemini模型的影响较为复杂,有些情况下,Gemini种群通过惩罚机制将平均资源量提升至600以上,明显高于无惩罚情况;

然而,在大多数情况下,Gemini种群在引入惩罚后出现严重的“合作崩溃”,平均资源量急剧下降,暗示Gemini智能体容易陷入报复的恶性循环。

一些网友认为,这一实验可能为新的研究方向提供启示,例如利用智能体进行大规模社会学实验,可能带来一些新奇的可能性。

更有创意的网友甚至想到可以利用智能体实现科幻小说中描绘的场景,运行数百万次模拟约会或战争游戏。

然而,也有人认为在这个实验中观察到的合作现象可能只是对训练数据中人类对话的模仿,并不能明确智能体是否能产生“文化进化”。

  • 论文链接:https://arxiv.org/abs/2412.10270

  • 参考链接:https://news.ycombinator.com/item?id=42450950

广告声明:文中包含的跳转链接(包括但不限于超链接、二维码、口令等形式),旨在提供更多信息,节省甄选时间,仅供参考使用。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容