谷歌旗下 DeepMind 推出 Genie 2 模型，可生成长达 1 分钟的游戏世界

xxn 阅读：34712 2024-12-05 08:02:02 评论：0

12 月 5 日，谷歌旗下人工智能研究机构 DeepMind 推出了一个名为 Genie 2 的全新模型，可以利用单张图片和文本描述生成各种可玩的 3D 世界。作为今年初推出的 Genie 模型的升级版，Genie 2 在虚拟世界生成领域取得了重大突破。

Genie 2 能够根据用户提供的文本描述和图像实时创建互动式的三维场景。当输入“森林中的可爱机器人”时，模型会生成一个包含机器人角色和可探索环境的动态场景，用户可以通过键盘或鼠标进行角色操作，如跳跃和游泳。

DeepMind 指出，Genie 2 能够生成不同视角（如第一人称和等距视角）的连贯世界，持续时间长达一分钟，绝大部分场景持续时间在 10 到 20 秒之间。

DeepMind 还表示，Genie 2 在生成过程中实现了物体交互、动画、光照、物理反射以及“非玩家角色”（NPC）行为的模拟。许多生成的场景在画质上接近 AAA 级别电子游戏，甚至在物体视角的一致性和场景记忆方面表现出色。

除了 Genie 2，李飞飞创建的 World Labs 和以色列初创公司 Decart 也推出了类似的产品。然而，大多数像 Genie 2 这样的世界模型可以模拟游戏和 3D 环境，但存在一些伪影、一致性和幻觉相关的问题。例如，Decart 的 Minecraft 模拟器 Oasis 分辨率较低，且容易“忘记”地图布局。Genie 2 则能在模拟场景中记住不在视野范围内的部分，并在再次出现时准确呈现。（World Labs 的模型也具备这一功能。）

值得关注的是，DeepMind 并未披露 Genie 2 的训练数据来源，但有行业人士推测可能包含大量热门游戏的游戏记录。考虑到谷歌可以访问 YouTube 上的海量视频资源，并声称拥有在训练中使用其内容的权利，这引发了外界对该模型是否侵犯知识产权的争议。

当前，利用 Genie 2 创建的游戏实际上可能不那么有趣，因为大约每分钟进度就会被抹去一次。因此，DeepMind 将其定位为研究和创意工具，适用于快速原型设计和人工智能智能单位评估等方面。

DeepMind 在其博客中写道：“借助 Genie 2 的泛化能力，概念艺术和手绘草图可以转化为完全互动的环境。研究人员能够通过这一功能迅速生成多样化的环境，为未知任务场景提供评估支持。”

IT之家指出，谷歌在世界模型研究领域的投资持续扩大。今年 10 月，DeepMind 邀请了 OpenAI 前视频生成项目负责人 Tim Brooks，同时两年前还从 Meta 招揽了以开放实验著称的 Tim Rocktäschel。

广告声明：文中包含的对外链接（包括但不限于超链接、二维码、口令等形式）旨在提供更多信息，节省您的筛选时间，仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。