Meta 推出 Apollo 开源模型,让 AI “看懂”视频

xxn 阅读:39047 2024-12-18 14:00:35 评论:0

IT之家 12 月 18 日消息,Meta 携手斯坦福大学,发布全新 AI 模型系列 Apollo,有效提升机器对视频的理解能力。

IT之家指出:尽管人工智能在处理图像和文本方面取得了巨大进步,但让机器真正理解视频仍然是一个挑战。

视频包含复杂的动态信息,人工智能更难处理这些信息,需要更多的计算能力,同时设计最佳 AI 视频解读系统也充满挑战。

研究人员发现,在视频处理方面,保持每秒恒定的帧采样率能获得最佳结果。因此 Apollo 模型采用两个不同的组件,一个处理单独的视频帧,另一个跟踪对象和场景如何随时间变化。

此外,为了理解视觉信息与文本描述之间的关系,Apollo 模型在处理后的视频片段之间添加时间戳,以保持时间感知。

研究表明训练方法比模型大小更为重要。Apollo 模型采用分阶段训练,顺序激活模型的不同部分,较一次性训练所有部分效果更佳。

此外,Meta 公司还不断优化数据组合,发现约10~14%的文本数据,其余部分略微偏向视频内容,可更好地平衡语言理解和视频处理能力。

Apollo 模型在不同规模上表现出色,较小的 Apollo-3B 超越了 Qwen2-VL 等等规模的模型,并且 Apollo-7B 胜过更大参数的同类模型。Meta 已开源 Apollo 的代码和模型权重,并在 Hugging Face 平台提供公开演示。

参考

广告声明:文内包含对外跳转链接,用于传递更多信息,节省甄选时间,仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容