AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题
IT之家报道称,香港大学与快手科技合作,成立科研团队,提出名为GameFactory的创新框架,旨在解决游戏视频生成中的场景泛化难题。借助在开放域视频数据上预训练的视频扩散模型,该框架能够创造出全新且多样化的游戏场景。
项目背景
视频扩散模型已经成为强大的视频生成和物理模拟工具,在游戏引擎开发方面展现出巨大潜力。这些生成式游戏引擎类似于具有动作可控性的视频生成模型,可以对用户的键盘和鼠标输入做出响应。
该领域面临的一个主要挑战是场景泛化,即创建超越现有场景的新游戏场景的能力。虽然收集大规模的动作标注视频数据集是实现这一目标的一种直接方法,但由于成本高昂,对于开放域场景来说并不切实际。这种局限性妨碍了多功能游戏引擎的发展,使其在生成多样化和创新游戏环境方面面临着多重挑战。
视频生成和游戏物理学领域已经涌现出多种创新方法,其中一个潜在方向就是视频扩散模型。这些模型已经从U-Net架构发展到基于Transformer的架构,从而能够生成更具真实感和持续时间更长的视频。
例如,Direct-a-Video方法提供了基本的相机控制,MotionCtrl和CameraCtrl则提供了更复杂的相机姿态控制。
在游戏领域,DIAMOND、GameNGen和PlayGen等项目尝试了各种特定于游戏的实现方式,但均存在对特定游戏和数据集过度拟合的问题,其场景泛化能力受到限制。
项目介绍
GameFactory利用预训练的视频扩散模型,这些模型已在开放域视频数据上进行训练,使其能够生成多样化的游戏场景,突破了现有方法对特定游戏数据集过度依赖的局限性。
此外,为了弥合开放域先验知识与有限游戏数据集之间的领域差距,GameFactory采用了一种独特的三阶段训练策略:
第一阶段:使用低秩适应(LoRA)微调预训练模型,使其适应目标游戏领域,同时保留大部分原有参数。
第二阶段:冻结预训练参数和LoRA,专注于训练动作控制模块,避免风格与控制之间的混淆。
第三阶段:移除LoRA权重,保留动作控制模块参数,使系统能够在各种开放域场景中生成受控的游戏视频,而不局限于特定游戏风格。
研究人员还评估了不同控制机制的有效性,发现在处理离散控制信号(如键盘输入)方面,交叉注意力机制优于拼接方法,而在处理连续鼠标移动信号方面,拼接方法更为有效。GameFactory支持自回归动作控制,具有生成无限长度交互式游戏视频的能力。
研究人员还发布了高质量的动作标注视频数据集GF-Minecraft,用于训练和评估GameFactory框架。
IT之家附上参考地址
GameFactory: Creating New Games with Generative Interactive Videos
GameFactory: Leveraging Pre-trained Video Models for Creating New Game
广告声明:文内包含对外跳转链接,仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。