Meta 推出 Apollo 开源模型，让 AI “看懂”视频

xxn 阅读：39047 2024-12-18 14:00:35 评论：0

IT之家 12 月 18 日消息，Meta 携手斯坦福大学，发布全新 AI 模型系列 Apollo，有效提升机器对视频的理解能力。

IT之家指出：尽管人工智能在处理图像和文本方面取得了巨大进步，但让机器真正理解视频仍然是一个挑战。

视频包含复杂的动态信息，人工智能更难处理这些信息，需要更多的计算能力，同时设计最佳 AI 视频解读系统也充满挑战。

研究人员发现，在视频处理方面，保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型采用两个不同的组件，一个处理单独的视频帧，另一个跟踪对象和场景如何随时间变化。

此外，为了理解视觉信息与文本描述之间的关系，Apollo 模型在处理后的视频片段之间添加时间戳，以保持时间感知。

研究表明训练方法比模型大小更为重要。Apollo 模型采用分阶段训练，顺序激活模型的不同部分，较一次性训练所有部分效果更佳。

此外，Meta 公司还不断优化数据组合，发现约10~14%的文本数据，其余部分略微偏向视频内容，可更好地平衡语言理解和视频处理能力。

Apollo 模型在不同规模上表现出色，较小的 Apollo-3B 超越了 Qwen2-VL 等等规模的模型，并且 Apollo-7B 胜过更大参数的同类模型。Meta 已开源 Apollo 的代码和模型权重，并在 Hugging Face 平台提供公开演示。

参考

广告声明：文内包含对外跳转链接，用于传递更多信息，节省甄选时间，仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。