谷歌 DeepMind 推出新 AI 模型,机器人未经训练也能执行现实任务
IT之家报道,北京时间今晚,谷歌 DeepMind 发布了两款全新的 AI 模型,旨在帮助机器人执行更多现实世界任务。
其中一款名为 Gemini Robotics,是一款视觉语言行动模型,能够让机器人在没有经过专门训练的情况下理解新情境。
Gemini Robotics 基于谷歌最新版本的 AI 旗舰模型 ——Gemini 2.0。谷歌 DeepMind 机器人部门高级总监 Carolina Parada 表示,Gemini Robotics 利用 Gemini 的多模态世界理解能力,通过增加物理行动的新模态,将其应用于真实环境。
该模型在谷歌 DeepMind 视为构建高效机器人所需的三个关键领域取得进展:通用性、互动性和灵活性。除了能够处理新情境外,Gemini Robotics 在与人类和环境的互动中表现更佳,并且能够执行更精确的物理操作,如折叠纸张或打开瓶盖。
另一款是 Gemini Robotics-ER(具象推理)模型,公司称其为先进的视觉语言模型,能够“理解复杂且动态的世界”。
Parada 进一步解释说,当你在整理便当盒时,桌上物品的布置位置和如何操纵是需要考虑的因素。Gemini Robotics-ER 专为这类推理任务而设计,机器人专家可以将该模型与现有的低级控制系统连接,启用由 Gemini Robotics-ER 驱动的新功能。
谷歌 DeepMind 的研究员 Vikas Sindhwani 表示,公司正在研发一种“分层安全策略”, Gemini Robotics-ER 模型已经接受培训,用于评估在特定情况下某个操作是否安全。公司还发布了新的基准和框架,推动 AI 领域的安全研究。据IT之家了解,去年,谷歌 DeepMind 推出了“机器人宪法”,这是一套受艾萨克・阿西莫夫启发的机器人行为规范。
据外媒 The Verge,谷歌 DeepMind 与 Apptronik 合作,共同致力于“打造下一代仿人机器人”。此外,谷歌也向包括 Agile Robots、Agility Robotics、波士顿动力和 Enchanted Tools 在内的“受信任的测试者”开放了 Gemini Robotics-ER 模型。Parada 表示:“我们专注于打造具有物理世界理解能力并能够在其中行动的智能,我们期待将这项技术应用于多个领域和多种场景。”
广告声明:文中包含的外部链接(包括但不限于超链接、二维码、口令等形式)旨在提供更多信息,节省审查时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。