Meta 推出 Apollo 开源模型,让 AI “看懂”视频
IT之家 12 月 18 日消息,Meta 携手斯坦福大学,发布全新 AI 模型系列 Apollo,有效提升机器对视频的理解能力。
IT之家指出:尽管人工智能在处理图像和文本方面取得了巨大进步,但让机器真正理解视频仍然是一个挑战。
视频包含复杂的动态信息,人工智能更难处理这些信息,需要更多的计算能力,同时设计最佳 AI 视频解读系统也充满挑战。
研究人员发现,在视频处理方面,保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型采用两个不同的组件,一个处理单独的视频帧,另一个跟踪对象和场景如何随时间变化。
此外,为了理解视觉信息与文本描述之间的关系,Apollo 模型在处理后的视频片段之间添加时间戳,以保持时间感知。
研究表明训练方法比模型大小更为重要。Apollo 模型采用分阶段训练,顺序激活模型的不同部分,较一次性训练所有部分效果更佳。
此外,Meta 公司还不断优化数据组合,发现约10~14%的文本数据,其余部分略微偏向视频内容,可更好地平衡语言理解和视频处理能力。
Apollo 模型在不同规模上表现出色,较小的 Apollo-3B 超越了 Qwen2-VL 等等规模的模型,并且 Apollo-7B 胜过更大参数的同类模型。Meta 已开源 Apollo 的代码和模型权重,并在 Hugging Face 平台提供公开演示。
参考
Meta's new Apollo models aim to crack the video understanding problem
Meta AI Releases Apollo: A New Family of Video-LMMs Large Multimodal Models for Video Understanding
Apollo: An Exploration of Video Understanding in Large Multimodal Models
广告声明:文内包含对外跳转链接,用于传递更多信息,节省甄选时间,仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。