谷歌旗下 DeepMind 推出 Genie 2 模型,可生成长达 1 分钟的游戏世界
12 月 5 日,谷歌旗下人工智能研究机构 DeepMind 推出了一个名为 Genie 2 的全新模型,可以利用单张图片和文本描述生成各种可玩的 3D 世界。作为今年初推出的 Genie 模型的升级版,Genie 2 在虚拟世界生成领域取得了重大突破。
Genie 2 能够根据用户提供的文本描述和图像实时创建互动式的三维场景。当输入“森林中的可爱机器人”时,模型会生成一个包含机器人角色和可探索环境的动态场景,用户可以通过键盘或鼠标进行角色操作,如跳跃和游泳。
DeepMind 指出,Genie 2 能够生成不同视角(如第一人称和等距视角)的连贯世界,持续时间长达一分钟,绝大部分场景持续时间在 10 到 20 秒之间。
DeepMind 还表示,Genie 2 在生成过程中实现了物体交互、动画、光照、物理反射以及“非玩家角色”(NPC)行为的模拟。许多生成的场景在画质上接近 AAA 级别电子游戏,甚至在物体视角的一致性和场景记忆方面表现出色。
除了 Genie 2,李飞飞创建的 World Labs 和以色列初创公司 Decart 也推出了类似的产品。然而,大多数像 Genie 2 这样的世界模型可以模拟游戏和 3D 环境,但存在一些伪影、一致性和幻觉相关的问题。例如,Decart 的 Minecraft 模拟器 Oasis 分辨率较低,且容易“忘记”地图布局。Genie 2 则能在模拟场景中记住不在视野范围内的部分,并在再次出现时准确呈现。(World Labs 的模型也具备这一功能。)
值得关注的是,DeepMind 并未披露 Genie 2 的训练数据来源,但有行业人士推测可能包含大量热门游戏的游戏记录。考虑到谷歌可以访问 YouTube 上的海量视频资源,并声称拥有在训练中使用其内容的权利,这引发了外界对该模型是否侵犯知识产权的争议。
当前,利用 Genie 2 创建的游戏实际上可能不那么有趣,因为大约每分钟进度就会被抹去一次。因此,DeepMind 将其定位为研究和创意工具,适用于快速原型设计和人工智能智能单位评估等方面。
DeepMind 在其博客中写道:“借助 Genie 2 的泛化能力,概念艺术和手绘草图可以转化为完全互动的环境。研究人员能够通过这一功能迅速生成多样化的环境,为未知任务场景提供评估支持。”
IT之家指出,谷歌在世界模型研究领域的投资持续扩大。今年 10 月,DeepMind 邀请了 OpenAI 前视频生成项目负责人 Tim Brooks,同时两年前还从 Meta 招揽了以开放实验著称的 Tim Rocktäschel。
广告声明:文中包含的对外链接(包括但不限于超链接、二维码、口令等形式)旨在提供更多信息,节省您的筛选时间,仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。