阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见

xxn 阅读:81914 2025-03-11 20:02:02 评论:0

IT之家于3月11日报道,DeepSeek R1的发布进一步揭示了强化学习在大型模型领域的潜在应用。Reinforcement Learning with Verifiable Reward(RLVR)方法的诞生,为多模态任务开辟了新的优化路径。无论是在几何推理、视觉计数,还是经典的图像分类与物体检测任务中,RLVR都显示出了明显优于传统监督微调(SFT)的性能。

然而,目前的研究多集中于Image-Text多模态任务,尚未突破至更复杂的全模态环境。基于此,通义实验室团队对RLVR与视频全模态模型进行了深入研究,今天正式开源了 R1-Omni模型

R1-Omni的一大特点是其透明性(推理能力)。通过RLVR方法,音频和视频在模型中的作用得到了更清晰的阐释。

例如,在情绪识别任务中,R1-Omni能够清晰地展示哪些模态信息对特定情绪的识别至关重要

为了评估R1-Omni的性能,通义实验室团队还将其与原生的HumanOmni-0.5B模型、冷启动阶段模型,以及在MAFW和DFEW数据集上经过监督微调的模型进行了比较。

实验结果表明,在同分布的测试集(DFEW和MAFW)上,R1-Omni相比于原始基线模型平均提升超过35%,并且在UAR指标上,较SFT模型的提升超过10%。在不同分布的测试集(RAVDESS)上,R1-Omni展示了出色的泛化能力,WAR和UAR均提升超出13%。这些结果充分验证了RLVR在增强推理能力和泛化性能方面的明显优势。

IT之家附上R1-Omni的开源链接:

广告声明:本文中的外部链接(包括但不限于超链接、二维码、口令等形式)用于提供更多信息,旨在帮助用户节省筛选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容