DeepSeek、OpenAI、Kimi 视觉推理哪家强,港中文 MMLab 推出推理基准 MME-COT

xxn 阅读:79319 2025-02-22 18:01:57 评论:0

OpenAI的o1以及DeepSeek-R1运用链思维(Chain-of-Thought, CoT)展示了杰出的推理力,但这种能力在视觉推理中的表现到底如何?又应如何进行细致的视觉推理评估呢?

为了解决这一问题,香港中文大学MMLab的研究团队提出了MME-CoT

这项基准测试全面评估了大型多模态模型(LMMs)的视觉推理能力,涵盖了数学、科学、光学字符识别(OCR)、逻辑推理、时空推理及通用场景等多个方面。

MME-CoT与以前的LMM基准的显著区别在于,提出了一种严格且多维度的评估框架,深入探讨视觉CoT的各个方面,并对其推理质量、鲁棒性以及效率进行评估。

包括Kimi k1.5、GPT-4o、QVQ等众多最新的LMM,均已在MME-CoT中进行了评测。同时,研究者们将图像转化为描述(caption),测试了最近备受关注的DeepSeek-R1以及o3-mini。

基于实验数据,研究中得出了一些有价值的结论:

  • CoT质量:Kimi k1.5 > DeepSeek-R1 >> o3-mini

  • CoT鲁棒性:o3-mini > Kimi k1.5 > DeepSeek-R1

  • CoT效率:o3-mini > Kimi k1.5 > DeepSeek-R1

值得注意的是,DeepSeek-R1在文本推理中的表现相当突出。它仅通过图像的描述,就在精确度上超过了实际看到图像的GPT-4o,并且最终的CoT质量与GPT-4o之间仅有1.9%的差距。

此外,引入反思能力显著提升了CoT的质量,所有具备反思能力的LMM均实现了较高的CoT质量。例如,QVQ达到了62.0%的F1评分,大幅超越了Qwen2-VL-72B的6.8%。而Kimi k1.5更是超越了GPT-4o,达到了最佳的质量表现。

在鲁棒性方面,研究团队发现大部分早期模型在感知任务中受到CoT的负面影响,表现出有害的过度推理行为,其中最明显的案例是InternVL2.5-8B,在应用CoT后,其在感知任务中的表现下降了6.8%,这极大限制了将CoT推理作为默认操作的可行性。

最后,对于CoT效率的研究,团队观察到输出长CoT的模型普遍存在步骤相关性不足的问题。模型往往被图像内容分散注意力,过于关注图像导致对问题解答的忽视,尤其是在处理通用场景、时空和OCR任务时。实验结果显示,约30%至40%的反思步骤未能有效支持问题的解答,这表明当前模型在反思能力上存在重要缺陷。

评估指标设计与数据组成

目前,大多数LMM基准测试仅评估最终答案的正确性,往往忽视了LMM的整个CoT推理过程。为了全面了解视觉CoT的各个特性,研究团队提出了三个不同的评估方向,每个方向专注于一个关键问题:

1、CoT的质量:每个CoT环节是否有效且准确,没有幻觉?

仅评估结果可能忽略了模型通过错误逻辑或随机猜测得出正确答案的情况,这常常会导致模型推理能力的夸大。为了深入研究推理过程,研究者们提出了两个可解释指标来评估CoT的质量:

  • 召回率(Recall):用于评估模型回答中有多少必要步骤与正确解题相匹配,此指标用于测量推理步骤是否能帮助得出正确答案及推理链是否完整,匹配由GPT-4o完成。

  • 精确率(Precision):评估模型各步骤的准确程度,以测量模型的幻觉和逻辑的准确性。研究者们首先使用GPT-4o将模型的回复分解为不同类型的步骤,包括背景知识、图像描述和逻辑推理,然后对图像描述和逻辑推理的每一步进行准确性判断。

2、CoT的鲁棒性:CoT是否干扰感知任务,并在多大程度上增强推理任务?

现有研究主要关注CoT对推理任务性能提升的影响,往往忽略了CoT可能对模型在感知任务中的能力产生无意的损害。随着o1及R1的流行,CoT逐渐演变为模型的默认推理策略。然而,模型无法提前判断用户提问的类型,也无法确定是否使用CoT回答会比直接给出答案更准确。因此,在当前背景下,CoT在不同类型任务中的鲁棒性显得格外重要。MME-CoT综合考虑了感知和推理任务,并采用了直接回答(answer directly)和CoT回答(think step by step)两种不同的提示形式。

  • 稳定性(Stability):评估CoT是否对模型在感知任务的表现造成负面影响。

  • 有效性(Efficacy):考察CoT是否确实增强模型在复杂推理任务中的表现。

3、CoT的效率:利用CoT进行推理的效率如何?

最近的o1类模型通过采用超长的CoT和反思步骤取得了很好的效果,这引出了一个关键性的权衡问题:这种方法在准确性和计算成本之间是否达成最佳平衡?为此,研究团队首次探讨了LMM中CoT的效率,使用了两个关键指标进行评估:

  • 相关比例(Relevance Rate):评估模型回答中与问题解决相关的比率。

  • 反思质量(Reflection Quality):评估每个反思步骤是否纠正了推理中的错误或从新的视角验证现有结论的正确性。

4、MME-CoT测试集

与纯文本推理问题不同,额外的视觉输入显著扩展了视觉推理问题的范围。在图像输入的帮助下,模型需要根据当前的推理进展频繁查看图像以获取相关信息。描述感兴趣的图像区域成为思维链(CoT)过程中的关键部分。因此,除了要求严格逻辑的复杂问题外,许多通用场景中的问题也构成了具有挑战性的推理问题。

基于这一考虑,MME-CoT测试集构建了一个覆盖专业领域与常识场景的全景视觉推理评估框架,共分为6大领域和17个子类。为聚焦于推理过程,研究团队特意排除了需要复杂领域特定定理或专业知识的问题。

MME-CoT将任务分为感知任务和推理任务,现有的基准常常混淆这两种任务,因此有时会出现在相同类别中。为了避免这一问题,研究团队首先利用GPT-4o和Qwen2-VL进行预测,通过对比直接答复和CoT答复的表现差异,初步划分这两种任务。随后,专业标注团队对题目进行了逐一审核,以确保分类的准确性。

为了便于对CoT的评估,标注团队为所有推理问题提供了必要的推理步骤的Ground Truth标注。对于多解问题,标注者需给出每种可能的解法。最终,MME-CoT推出了1130道精选问题以及3865个关键步骤的标注。

实验分析与结论

研究团队在MME-CoT基准上对13个现有的LMM和两个先进的推理能力强大的LLM(DeepSeek-R1和o3-mini)进行了测试。对于LLM,研究者们将图像转化为详细的描述后输入模型。

实验的结果如下:

通过这些评测,得出了一些发现与结论:

1. 长CoT不一定包含关键步骤

尽管长思维链模型展现出更高的精确度,但并不能保证每一步的信息量。团队观察到GBT-4o、QVQ及Virgo在召回率的趋势与最终推理任务的正确解答表现(即使用CoT提示时的最终答案准确率)存在不一致。具体来看,尽管Virgo和QVQ在仅评估最终答案的正确性方面均优于GPT-4o,但其召回率却有所不足。这说明某些长CoT模型在跳过中间过程的情况下也能得出正确的答案,这与CoT倡导的逐步思考原则相悖,需要进行进一步的探讨。

2. 更多参数使模型更佳掌握推理能力

研究团队发现,参数量更大的模型常常获得更高的有效性得分。这种趋势在LLaVA-OV、InternVL2.5-MPO和Qwen2-VL中显而易见。例如,尽管Qwen2-VL-7B在使用CoT进行推理任务时表现出4.8%的性能下降,但它的更大对应模型Qwen2-VL-72B则显示出2.4%的性能提升。这一差异表明,在相同训练模式下,具有更多参数的模型能更好掌握推理能力。这项发现也在某种程度上验证了R1论文中的核心发现:相同训练设定下,更大参数量的模型表现出更强的推理学习能力。

3. 模型反思中的错误种类多样

四种主要类型的错误是:

  • 无效反思:模型得出错误结论,在反思时仍做出错误的调整,这种错误最为常见。

  • 不完整:模型提出新的分析方法但未付诸实践,仅停留在初步想法上。

  • 重复:模型重述已有内容或方法,未引入新见解。

  • 干扰:模型最初得出正确结论,但反思过程引入错误。

理解并纠正这些反思中的错误对提升LMM的推理效率和可靠性至关重要。

展望未来,MME-CoT不仅为评估LMM推理能力提供了系统性的基准,还为该领域的进一步研究指明了重要的发展方向。通过识别当前模型在推理质量、鲁棒性和计算效率方面的不足,此工作为后续的研究打下了坚实的基础。这些发现将推动LMM在视觉推理能力上实现更强大和可靠的表现。

本文来源于微信公众号:量子位(ID:QbitAI),原文标题《DeepSeek、OpenAI、Kimi视觉推理实力比较——港中文MMLab推出推理基准MME-COT》

广告声明:文中包含的对外链接(如超链接、二维码、口令等形式),旨在提供更多信息、节省选择时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容