破解机器人抓取透明物体难题,地瓜机器人 & CASIA 单目新方案发布

xxn 阅读:47670 2025-03-05 18:00:21 评论:0

IT之家于3月5日发布消息,全球机器人领域的顶级会议ICRA 2025(IEEE机器人与自动化国际会议)近日公布了论文录用结果,由地瓜机器人主导研发的DOSOD开放词汇目标检测算法及MODEST单目透明物体抓取算法成功入围。

在机器人执行任务的过程中,水杯、试管和窗户等透明物体是不可忽视的操作对象。然而,透明物体复杂的折射和反射特性给机器人感知带来了相当大的挑战。在许多RGB图像中,透明物体往往缺乏明显的纹理,容易与背景混淆。此外,市场上的深度相机通常无法精确捕捉这些物体的深度信息,导致深度图缺失或噪声严重,从而限制了机器人在多个领域的广泛应用。

为了解决透明物体抓取的难题,地瓜机器人与中科院自动化所(CASIA)多模态人工智能系统国家重点实验室合作,推出了专门针对透明物体的单目深度估计和语义分割的多任务框架(MODEST)。该框架通过创新的语义与几何融合模块,以及独特的特征迭代更新策略,有效提升了深度估计和语义分割的效能,特别是在抓取成功率和系统泛化能力方面取得了显著进展。

MODEST算法框架作为通用抓取模型的前端模块,具备即插即用功能,无需依赖额外传感器,仅凭借单张RGB图像,便可实现透明物体的抓取,在效果上超越了许多双目和多视图方法,适用于智能工厂、实验室自动化及智慧家居等场景,降低设备成本的同时提升机器人对透明物体的操作能力。

MODEST专注于透明物体的深度估计,通过设计的语义与几何相结合的多任务框架,精确获取物体的深度信息,并进一步结合基于点云的抓取网络,实现透明物体的有效抓取。此举相当于在通用抓取网络前增加了一个专门针对透明物体的增强模块。

MODEST模型的整体架构如下所示,其输入为单目RGB图像,输出则为透明物体的分割结果和场景深度预测。网络主要由编码、重组、语义几何融合和迭代解码四个模块组成。输入图像首先经过基于ViT的编码模块处理,随后为分割和深度两个分支重组多尺度特征。在融合模块中,对这两组特征进行混合与增强,最后通过多次迭代逐步更新特征,获得最终的预测结果。

地瓜机器人将该算法部署至真实机器人平台进行透明物体抓取实验。该平台主要由UR机械臂和深度相机构成,基于MODEST方法完成对透明物体的精准感知,并利用GraspNet生成抓取位姿。实验证明,MODEST方法在真实平台上展现出良好的鲁棒性和泛化性(IT之家注:鲁棒性是指系统在面对内部结构或外部环境变化时,依然能稳定运行的能力)。

广告声明:文中提到的外部链接(包括超链接、二维码、口令等形式)旨在提供更丰富的信息,方便快速获取相关资料,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容