Adobe&MIT 新研究:AI 视频边生成边播放,首帧延迟 1.3 秒、生成速度 9.4 帧 / 秒
人工智能生成视频,进行中即播放,不再等待!Adobe 与 MIT 联手推出自回归实时视频生成技术 ——CausVid。
这项技术类似于从下载整部电影到直接观看流媒体的转变,视频生成首帧画面后即可立即播放,并动态生成后续内容,无缝衔接。
以往使用视频生成模型往往需要长时间等待,生成短短10秒的视频可能需要几分钟才能观看。
研究团队指出,传统视频生成模型存在的延迟问题主要是因为采用的双向注意力机制,每帧都要参考前后帧的信息。
这类似于在完成整个故事情节之前必须构思所有细节,生成视频之前你看不到任何画面。
为了解决这一问题,他们提出了一种新的解决方案,通过预训练的双向扩散模型(DiT)构建自回归生成模型。
CausVid 基于自回归生成的特性,支持多种应用,无需额外训练,生成速度和质量明显优于现有方法。
使用双向教师监督单向自回归学生模型
研究团队通过蒸馏预训练的双向扩散模型(DiT)构建自回归生成模型。
为了加快实时视频生成速度,通过分布匹配蒸馏(DMD)将生成步骤从50步缩减到仅需4步。
DMD 是一种扩散模型蒸馏技术,已在图像生成中取得成功,Adobe Firefly 文生图的快速模式即基于此技术。
本研究团队创新性地将其应用到视频扩散模型中,显著提升生成速度。
然而,自回归模型存在一个核心问题 —— 误差累积。
每一帧视频都基于之前的帧生成,初期生成的任何细微缺陷都可能被放大,导致视频偏离预期轨迹。
为了解决这一问题,团队提出了非对称蒸馏策略。
在训练阶段引入一个拥有未来信息的双向教师模型,指导自回归的单向学生模型,使模型在生成未来帧时更加精确。
通过使用双向教师模型生成的噪声-数据配对预训练单向学生模型,提升稳定性。
在训练过程中,针对不同时点的视频帧施加不同强度的噪声,使模型能够在测试时对当前帧进行去噪。
通过这种创新的非对称蒸馏方法,CausVid 显著减少自回归模型的误差累积问题,生成更高质量的视频内容。
在这种非对称蒸馏形式中,学生模型和教师模型使用不同架构,这种做法只在 DMD 风格的蒸馏中可行。其他方法,如渐进式蒸馏或一致性蒸馏,则要求学生模型和教师模型使用相同架构。
自回归扩散视频模型的误差累积示例(左图)和 CausVid 结果(右图)进行了对比。
实验效果如何?
实验显示,CausVid 表现出色:
首帧生成延迟从3.5分钟降至1.3秒,提速170倍
生成速度从0.6帧/秒提升至9.4帧/秒,提升16倍
生成质量经验证优于主流模型,如 Meta 的 MovieGen 和智谱的 CogVideoX
CausVid 借助单向注意力机制,支持广泛应用的 KV 缓存推理技术,结合滑动窗口机制,突破了传统模型的长度限制。
尽管仅训练过10秒的视频,CausVid 能生成长达30秒甚至更长的视频,生成速度和质量均优于现有方法。
基于自回归生成的特性,CausVid 无需额外训练,支持多种应用:
图片动画化:将静态图片转化为流畅视频,为画面增添生命力。
实时视频风格转换:例如将Minecraft游戏画面即时转换为真实场景,为游戏渲染带来新视角。
交互式剧情生成:通过调整提示词实时引导视频剧情发展,带来创新体验。
项目链接:https://causvid.github.io/
广告声明:文内包含的对外跳转链接仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。