豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界

xxn 阅读:61056 2025-02-10 16:02:50 评论:0
```html

据IT之家报道,2月10日,豆包大模型团队与北京交通大学及中国科学技术大学联合推出的视频生成实验模型“VideoWorld”已正式开源。与Sora、DALL-E和Midjourney等知名多模态模型不同,VideoWorld在业界率先实现了无需依赖语言模型的情况下,对现实世界的认知。

据了解,目前大多数模型在学习过程中依赖语言或标签数据,鲜有专注于纯视觉信号的学习。但仅仅通过语言并不能完全传达真实世界中的所有知识。例如,折纸和打领结等复杂操作,难以通过语言清楚表达。VideoWorld摒弃了语言模型,实现了统一的理解与推理功能。

此外,VideoWorld基于一种潜在动态模型,能够高效地压缩视频帧之间的变化信息,从而显著提升知识学习的效率与效果。在不依赖任何强化学习搜索或奖励函数机制的情况下,VideoWorld 达到了专业五段的9x9围棋水平,并能够在多种环境中成功执行机器人任务。

有关信息链接如下:

  • 学术论文链接:https://arxiv.org/abs/2501.09781

  • 源代码链接:https://github.com/bytedance/VideoWorld

  • 项目官方网站:https://maverickren.github.io/VideoWorld.github.io

广告声明:文中包含的外部链接(包括但不限于超链接、二维码、口令等形式),旨在提供更多信息,节省选择时间,结果仅供参考。

```
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容