昆仑万维开源国内首个面向 AI 短剧创作的视频生成模型 SkyReels-V1

xxn 阅读:66384 2025-02-18 12:10:04 评论:0

最新消息显示,昆仑万维今日宣布开源了国内首个专注于AI短剧创作的视频生成模型 SkyReels-V1,以及国内首个SOTA级别基于视频基座模型的表情动作可控算法 SkyReels-A1

官方介绍指出,SkyReels-V1对表演细节进行了标记,并对情绪、场景、表演需求等做了处理,利用“千万级别、高质量”的好莱坞级数据进行微调。

此外,SkyReels-V1能够实现“影视级人物微表情表演生成”,支持33种人物表情与400+种自然动作组合,还原真实人类情感表达,支持生成大笑、怒吼、惊讶、哭泣等微表情。

通过好莱坞级影视数据的训练,当前SkyReels每一帧画面都拥有“电影级的质感”,包括构图、演员站位和相机角度等方面。

SkyReels-V1不仅支持文生成视频,还支持图生成视频,被称为“开源视频生成模型中支持图生成视频参数最大”的模型,在同等分辨率下达到开源SOTA水平。

综合来看,SkyReels-V1可以实现:

  • 影视化表情识别体系:11种针对影视戏剧中人物表情的理解,如不屑、不耐烦、无助、厌恶等;

  • 人物空间位置感知:基于人体三维重建技术,理解视频中多人的空间关系,帮助模型生成影视级人物站位;

  • 行为意图理解:构建超过400种行为语义单元,精准理解人物行为;

  • 表演场景理解:分析人物、服装、场景和剧情的关联。

性能方面,借助自研推理优化框架「SkyReels-Infer」,该模型实现了544p分辨率,在单台4090上推理时间为80秒,支持分布式多卡并行,包括Context Parallel、CFG Parallel和VAE Parallel。

此外,模型应用了fp8量化和参数级卸载,满足低显存用户级显卡运行需求;支持flash attention、SageAttention,模型编译优化等,进一步降低延迟;并基于开源diffuser库,提升易用性。

为了实现更精准可控的人物视频生成,昆仑万维还开源了SOTA级别的基于视频基座模型的表情动作可控算法SkyReels-A1,支持视频驱动的电影级表情捕捉。

SkyReels-A1可根据任意人体比例(包括肖像、半身及全身构图)生成人物动态视频。

通过参考人物图片和驱动视频,SkyReels-A1能够生成新视频,将驱动视频中的面部表情和表演细节“移植”到给定参考图片的人物身上。

IT之家提供的开源地址如下:

技术报告:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容