“稚晖君”智元机器人发布首个通用具身基座大模型 GO-1,预告下一代产品

xxn 阅读:30501 2025-03-10 12:03:39 评论:0

IT之家于3月10日报道,创业项目“稚晖君”发布了其首个通用具身基座模型——智元启元大模型(Genie Operator-1)。这一创新性的大模型采用了 Vision-Language-Latent-Action(ViLLA)架构,整合了多模态大模型(VLM)与混合专家(MoE)技术,使得其能够通过人类视频学习进行小样本快速泛化,大大降低了具身智能的使用门槛,并成功应用于多款智元机器人中。

到2024年底,智元将推出包含超过100万条轨迹及217个任务的高质量真实数据集——AgiBot World。基于该数据集,智元今天正式推出了Genie Operator-1(GO-1)通用具身基座大模型。

该模型创新性地提出了 Vision-Language-Latent-Action(ViLLA)架构,包含以下核心组件:

  • VLM通过丰富的图文数据获取了通用的场景感知和语言理解能力。

  • MoE中的隐式规划器(Latent Planner)通过大量的跨本体和人类操作视频数据培养出通用的动作理解能力。

  • MoE中的动作专家(Action Expert)依靠百万条真实数据获取了高精度的动作执行能力。

使用ViLLA架构的智元机器人在五类不同复杂度的任务中测试GO-1,结果显示GO-1的成功率显著提升,平均成功率提高了32%(从46%增至78%),特别是在“Pour Water”(倒水)、“Table Bussing”(清理桌面)及“Restock Beverage”(补充饮料)三项任务中表现尤为出色。

此外,智元还验证了ViLLA架构中隐式规划器的作用,发现引入隐式规划器使成功率提升了12%(从66%增至78%)

GO-1大模型利用人类及多种机器人的数据,能够泛化适用于各类环境和对象,迅速适应新任务并学习新技能。此外,它能够部署在不同的机器人本体上进行实际应用,同时在使用中不断进化。

这些特点可以总结为四个方面:

  • 人类视频学习:GO-1利用互联网上的人类视频和实例进行学习,提升模型对人类行为的理解,从而更好地服务于人类。

  • 小样本快速泛化:GO-1具备卓越的泛化能力,能够在极少或甚至零样本情况下适应新场景和任务,显著降低了使用门槛。

  • 一脑多形:GO-1是一个通用的机器人策略模型,可在不同机器人形式间迁移,迅速适应不同本体,从而实现智能化提升。

  • 持续进化:GO-1与智元的数据回流系统结合,能够不断从实际执行中遇到的问题中学习和进化,越来越智能。

智元机器人还预告了下一代的具身智能机器人产品,但尚未透露具体的发布时间。

IT之家附上相关论文链接:

https://agibot-world.com/blog/agibot_go1.pdf

广告声明:文中所含对外链接(如超链接、二维码、口令等)旨在提供更多信息,方便读者查阅,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容