图森未来发布图生视频开源大模型“Ruyi”:RTX 4090 就能运行,可生成 5 秒内容
IT之家最新消息指出,图森未来当天发布了“Ruyi”图生视频大模型,Ruyi-Mini-7B 版本已经开源,用户可以通过huggingface进行下载和使用。
根据介绍,Ruyi是基于DiT架构的图生视频模型,由两个主要部分组成:
Casual VAE模块负责视频数据的压缩和解压
Diffusion Transformer负责压缩后的视频生成
该模型的总参数量约为7.1B,使用了大约200M个视频片段进行训练。"Ruyi"专为在消费级显卡(如RTX 4090)上运行而设计,并提供了部署说明和ComfyUI工作流,以帮助用户快速上手。
多分辨率、多时长生成:Ruyi支持最小384*384,最大1024*1024分辨率,任意长宽比,最长120帧/5秒的视频生成
首帧、首尾帧控制生成:Ruyi可以支持最多5个起始帧、最多5个结束帧的视频生成,通过循环叠加可以生成任意长度的视频
运动幅度控制:Ruyi提供了4档运动幅度控制,方便用户控制整体画面的变化程度
镜头控制:Ruyi提供上、下、左、右、静止等5种镜头控制
Ruyi是图森未来正式发布的首款“图生视频”模型。Ruyi目前仍存在手部畸形、多人时面部细节崩坏、不可控转场等问题,图森未来表示正在改进这些问题,并将在未来更新中加以修复。
图森未来指出,公司旨在利用大型模型降低动漫和游戏内容的开发周期和成本。发布的Ruyi大模型,已能够根据输入的关键帧生成后续5秒内容,或输入两个关键帧,由模型生成中间过渡内容,从而降低开发周期。下一次发布中,图森未来将同时推出两个版本,以满足不同创作者的需求。
IT之家提供的Ruyi-Mini-7B开源链接如下:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
广告声明:文内包含外部跳转链接,仅用于传达信息,节省筛选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。