谷歌 DeepMind 推出新 AI 模型，机器人未经训练也能执行现实任务

xxn 阅读：36079 2025-03-13 00:00:48 评论：0

IT之家报道，北京时间今晚，谷歌 DeepMind 发布了两款全新的 AI 模型，旨在帮助机器人执行更多现实世界任务。

其中一款名为 Gemini Robotics，是一款视觉语言行动模型，能够让机器人在没有经过专门训练的情况下理解新情境。

Gemini Robotics 基于谷歌最新版本的 AI 旗舰模型 ——Gemini 2.0。谷歌 DeepMind 机器人部门高级总监 Carolina Parada 表示，Gemini Robotics 利用 Gemini 的多模态世界理解能力，通过增加物理行动的新模态，将其应用于真实环境。

该模型在谷歌 DeepMind 视为构建高效机器人所需的三个关键领域取得进展：通用性、互动性和灵活性。除了能够处理新情境外，Gemini Robotics 在与人类和环境的互动中表现更佳，并且能够执行更精确的物理操作，如折叠纸张或打开瓶盖。

另一款是 Gemini Robotics-ER（具象推理）模型，公司称其为先进的视觉语言模型，能够“理解复杂且动态的世界”。

Parada 进一步解释说，当你在整理便当盒时，桌上物品的布置位置和如何操纵是需要考虑的因素。Gemini Robotics-ER 专为这类推理任务而设计，机器人专家可以将该模型与现有的低级控制系统连接，启用由 Gemini Robotics-ER 驱动的新功能。

谷歌 DeepMind 的研究员 Vikas Sindhwani 表示，公司正在研发一种“分层安全策略”， Gemini Robotics-ER 模型已经接受培训，用于评估在特定情况下某个操作是否安全。公司还发布了新的基准和框架，推动 AI 领域的安全研究。据IT之家了解，去年，谷歌 DeepMind 推出了“机器人宪法”，这是一套受艾萨克・阿西莫夫启发的机器人行为规范。

据外媒 The Verge，谷歌 DeepMind 与 Apptronik 合作，共同致力于“打造下一代仿人机器人”。此外，谷歌也向包括 Agile Robots、Agility Robotics、波士顿动力和 Enchanted Tools 在内的“受信任的测试者”开放了 Gemini Robotics-ER 模型。Parada 表示：“我们专注于打造具有物理世界理解能力并能够在其中行动的智能，我们期待将这项技术应用于多个领域和多种场景。”

广告声明：文中包含的外部链接（包括但不限于超链接、二维码、口令等形式）旨在提供更多信息，节省审查时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。