谷歌 DeepMind 推出新 AI 模型,机器人未经训练也能执行现实任务

xxn 阅读:35973 2025-03-13 00:00:48 评论:0

IT之家报道,北京时间今晚,谷歌 DeepMind 发布了两款全新的 AI 模型,旨在帮助机器人执行更多现实世界任务

其中一款名为 Gemini Robotics,是一款视觉语言行动模型,能够让机器人在没有经过专门训练的情况下理解新情境

Gemini Robotics 基于谷歌最新版本的 AI 旗舰模型 ——Gemini 2.0。谷歌 DeepMind 机器人部门高级总监 Carolina Parada 表示,Gemini Robotics 利用 Gemini 的多模态世界理解能力,通过增加物理行动的新模态,将其应用于真实环境。

该模型在谷歌 DeepMind 视为构建高效机器人所需的三个关键领域取得进展:通用性、互动性和灵活性。除了能够处理新情境外,Gemini Robotics 在与人类和环境的互动中表现更佳,并且能够执行更精确的物理操作,如折叠纸张或打开瓶盖

另一款是 Gemini Robotics-ER(具象推理)模型,公司称其为先进的视觉语言模型,能够“理解复杂且动态的世界”。

Parada 进一步解释说,当你在整理便当盒时,桌上物品的布置位置和如何操纵是需要考虑的因素。Gemini Robotics-ER 专为这类推理任务而设计,机器人专家可以将该模型与现有的低级控制系统连接,启用由 Gemini Robotics-ER 驱动的新功能。

谷歌 DeepMind 的研究员 Vikas Sindhwani 表示,公司正在研发一种“分层安全策略”, Gemini Robotics-ER 模型已经接受培训,用于评估在特定情况下某个操作是否安全。公司还发布了新的基准和框架,推动 AI 领域的安全研究。据IT之家了解,去年,谷歌 DeepMind 推出了“机器人宪法”,这是一套受艾萨克・阿西莫夫启发的机器人行为规范。

据外媒 The Verge,谷歌 DeepMind 与 Apptronik 合作,共同致力于“打造下一代仿人机器人”。此外,谷歌也向包括 Agile Robots、Agility Robotics、波士顿动力和 Enchanted Tools 在内的“受信任的测试者”开放了 Gemini Robotics-ER 模型。Parada 表示:“我们专注于打造具有物理世界理解能力并能够在其中行动的智能,我们期待将这项技术应用于多个领域和多种场景。”

广告声明:文中包含的外部链接(包括但不限于超链接、二维码、口令等形式)旨在提供更多信息,节省审查时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容