达摩院开源 VideoLLaMA3:仅 7B 大小,视频理解拿下 SOTA

xxn 阅读:28201 2025-02-14 14:01:48 评论:0

7B 视频理解模型的最新 SOTA现已发布!这就是由达摩院推出的 Video LLaMA 3,它是一种以图像为核心构建的全新多模态视频-语言模型。

Video LLaMA 3 在通用视频理解、时间推理和长视频理解等三个核心方面的评估中表现出色,超越了许多基线模型。

除此之外,针对端侧的 2B 视频理解的 Video LLaMA 3 在图像理解方面也有显著表现。

在跨文档 / 图表 / 场景文本理解、数学推理、多图像理解和常识问答等多个维度的基准测试中,Video LLaMA 3 明显超越以往最佳记录,特别在 InfoVQA 中展现出色,在 MathVista 数学推理任务上表现突出。

Video LLaMA 3 的设计理念是以图像为中心,贯穿整个模型架构和训练过程。

通过高质量的图片文本数据为视频理解打下坚实基础,仅利用 3M 视频文本数据,即可全面超越同参数量的开源模型的视频理解能力。

在线可访

目前,Video LLaMA 3 已推出图像、视频理解的在线示范。

例如,给定“蒙娜丽莎的微笑”一幅画,并向 Video LLaMA 3 提出问题:

讨论这幅画在艺术界的历史影响和意义。

讨论这幅画在艺术领域的历史影响和重要性。

Video LLaMA 3 的回答如下:

《蒙娜丽莎》不仅仅是世界上最著名的画作之一,还是艺术史上的重要作品。创作于文艺复兴时期,这幅画体现了该时期对人文主义的关注和古典学习的复兴。达·芬奇的创新技术为这幅画的神秘品质做出了贡献,包括在色彩和色调之间进行柔和过渡的模糊手法。几个世纪以来,《蒙娜丽莎》一直是个引人入胜的主题,激发了无数的解读和分析。这幅画已成为西方文化的象征,代表着艺术成就的巅峰,具有对跨越时间和文化的观众持久吸引力的视觉艺术。

再来看一下关于视频理解的示范,提出问题:

视频中有何不同寻常之处?

视频中有何不同寻常的地方?

Video LLaMA 3 的回答是:

这段视频的不同寻常之处在于,展示了类似人类活动的典型野生动物,如熊在桌子上吃寿司。

Video LLaMA 3 的回答非常简洁而准确。

此外,该示范在 HuggingFace 上的操作也非常简单,只需上传图片或视频,并提交问题即可。

实现方法

Video LLaMA 3的关键在于采用了以图像为中心的训练范式。

这种范式主要包括四个核心内容:

  • 视觉编码器适配:使视觉编码器能够处理动态分辨率图像,通过不同场景图像的提升性能,捕捉更精细的视觉细节。

  • 视觉语言对齐:利用丰富的图像文本数据为多模态理解奠定基础,利用多种数据增强空间推理能力,同时保留模型的语言能力。

  • 多任务微调:通过图像文本问答数据和视频字幕数据对模型进行微调,以提升模型遵循自然语言指令和多模态理解能力,为视频理解做好准备。

  • 视频微调:增强模型的视频理解和问答能力,包括多种视频和图像数据以及文本数据的训练。

  • 从框架设计角度来看,主要包含两个内容。

    首先是任意分辨率视觉标记化(AVT)

    这种方法突破传统的固定分辨率限制,采用2D-RoPE替代绝对位置嵌入,使视觉编码器能够处理不同分辨率的图像和视频,保留更多的细节。

    其次是差分帧剪枝器(DiffFP)

    针对视频数据的冗余问题,通过比较相邻帧像素空间的1-范数距离,修剪冗余的视频标记,提高视频处理效率,减少计算需求。

    除了框架之外,高质量的数据对Video LLaMA 3的性能至关重要。

    首先是高质量图像重新标注数据集VL3Syn7M的构建

    为了提供高质量的训练数据,团队构建了包含700万图像-字幕对的VL3Syn7M数据集。

    • Aspect Ratio Filtering(长宽比过滤):图像长宽比可能会影响模型特征提取的表现。对于一些长宽比极端的图像,太宽或者太长,会使模型在处理时产生偏差。通过过滤,确保数据集中的图像长宽比处于典型范围,为后续准确的特征提取奠定基础。

    • Aesthetic Score Filtering(美学评分过滤):利用美学评分模型评估图像的视觉质量,舍弃低评分的图像。这一步可以消除视觉效果差、构图不佳的图像,减少噪音干扰,确保模型学习到的图像内容和描述质量更高,从而提升模型生成高质量描述的能力。

    • Text-Image Similarity Calculation with Coarse Captioning(带粗略字幕的文本-图像相似度计算):先使用BLIP2模型为图像生成初步字幕,然后利用CLIP模型计算文本-图像的相似度,去除相似度较低的图像。这一操作确保剩余的图像内容与描述密切相关,使模型学习到的图文对更具可解释性和代表性。

    • Visual Feature Clustering(视觉特征聚类):利用CLIP视觉模型提取图像的视觉特征,通过k-最近邻(KNN)算法对特征进行聚类,从每个聚类中心选取固定数量的图像。这既保证了数据集的多样性,又维持了语义类别的平衡分布,让模型接触到各种视觉内容,增强泛化能力。

    • Image Re - caption(图像重新标注):对过滤和聚类后的图像进行重新标注。短描述由InternVL2-8B生成,详细描述由InternVL2-26B完成。不同阶段使用不同类型的字幕进行训练,满足模型多样化学习需求。

    其次是各训练阶段的数据混合

    在Video LLaMA 3的不同训练阶段,数据混合策略为模型提供了丰富多样的学习场景。此外,团队统一使用数据组织形式以便统一各个阶段的训练。

    • Vision Encoder Adaptation(视觉编码器适配):这个阶段旨在增强模型对多样场景的理解和特征提取能力,训练数据包括场景图像、文档识别图像以及少量场景文本图像。

    场景图像来源广泛,包括VL3-Syn7M-short等,同时引入Object365和SA-1B数据集以增加数据多样性;场景文本图像来自BLIP3-OCR,并对LAION数据集中的图像进行筛选以形成Laion-OCR数据集,这些字幕包含文本内容和文本位置的边界框注释;文档图像不仅包括常见数据集,还加入手写和复杂文档数据;图表数据虽然数量少,但来源于Chart-to-Text数据集;细粒度数据包含区域字幕数据和带框字幕数据,增强模型对图像细节的理解。

    Vision-Language Alignment(视觉语言对齐):通过高质量数据微调模型,涵盖场景图像、场景文本图像、文档、图表、细粒度数据以及大量高质量纯文本数据。

    场景图像整合多个数据集并重新标注;场景文本图像包含多种中英文数据集,并对LAION数据集中的图像筛选形成Laion-OCR数据集,这些字幕包含文本内容和文本位置的边界框注释。

    文档图像除常见数据集外,还加入手写和复杂文档数据集;图表数据虽量少,但来自Chart-to-Text数据集;细粒度数据包含区域字幕数据和带框字幕数据,提升模型对图像细节的理解。

    Multi-task Fine-tuning(多任务微调):通过与指令相符的数据进行多任务微调,覆盖多种任务。

    图像数据分为一般、文档、图表 / 图形、OCR、定位和多图像六类,每类都针对特定的视觉理解方面。与大量纯文本数据一起,提升模型处理涉及视觉和文本输入的指令跟随任务的能力。

    视频数据结合常见的高质量视频字幕数据集、少量问答数据以及Video LLaMA2的内部数据和内部时间定位数据,增强模型的视频理解能力。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容