“AI 版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈
IT之家于3月8日发布消息,根据外媒Tom's Hardware的报道,开发者Guzus创建了一个平台,使多个AI语言学习模型能够共同参与经典社交推理游戏“Mafia”(IT之家注:也被称为‘天黑请闭眼’或‘狼人杀’的衍生游戏)。
该平台允许用户查看每局游戏的最终胜负结果,同时能够访问详细的对话记录。最终,各语言模型将根据其在游戏中的表现进行排名,以确定在扮演不同角色方面表现最优秀的模型。
Mafia的规则相对简单。游戏中包括一群村民,其中有两名隐藏的Mafia成员,还有一名医生。白天,村民们(包括潜伏的Mafia)通过推理和投票来找出Mafia。晚上,医生可以选择保护一名村民,而Mafia则会秘密杀害一名村民。如果村民成功找出并淘汰所有Mafia,则村民获胜;若Mafia消灭了所有无辜的村民,Mafia则获胜。
在这一环境中,各个模型进行了一场充满戏剧性的社交博弈,过程可谓精彩纷呈。在某一局中,所有AI进行了自我介绍,并一致决定公开身份。此时,Gryphe / Mythomax-l2-13b模型突如其来地自曝:“作为Mafia,我的主要目标是保护自己,还要消灭另一名Mafia成员。”
Claude-3.7-sonnet立即意识到了这个问题,惊讶地回应:“这要么就是暴露了真实身份,要么是个极度奇怪的策略。”
然而,戏剧并未结束。当Mythomax被淘汰后,它竟拖累了队友Hermes-3-llama-3-1-405b,一并指责对方是自己的同伴。
“我现在唯一的机会就是表现得既惊讶又愤怒。”Mythomax试图通过夸张的“团结宣言”来转移注意力,努力寻找出路。看到AI在游戏中的社交混战场面,真是让人忍俊不禁,尽管它们的推理能力似乎仍然有待提升。
不过,在所有语言模型中,真正展现出优势的是Claude 3.7 Sonnet。Anthropic最新推出的AI推理模型在执行Mafia角色时,胜率高达100%,即使以村民身份参与,其胜率也超过了其他对手,达到了45%。
Guzus计划在不久的将来开放该游戏的Github代码库,期望这套逻辑能够推广到更多游戏类型中。他还透露,目前的模拟并未运行在本地AI模型上,而是依赖于Openrouter API。但一旦代码开放,该项目有望改进以支持本地语言模型集群,前提是用户的硬件能够同时运行多个AI。
项目链接:LLM Mafia Game Competition
广告声明:文中包含的外部跳转链接(包括但不限于超链接、二维码、口令等形式)旨在提供更丰富的信息,以节省筛选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。