谷歌 DeepMind 本周推出了两款人工智能模型,旨在让机器人比以往更加智能。升级后的 Gemini Robotics 1.5 及其配套的 Gemini Robotics-ER 1.5 不再专注于关注评论,而是让机器人能够思考问题、在互联网上搜索信息,并在不同的机器人代理之间传递技能。
谷歌表示,这些模型标志着“能够以智能和灵巧的方式应对物理世界的复杂性的基础性一步”
谷歌在报告中表示:“Gemini Robotics 1.5 标志着我们在解决现实世界中的 AGI 问题上迈出了重要的里程碑。”公告“通过引入代理能力,我们正在超越对命令做出反应的模型,并创建能够真正推理、规划、主动使用工具和概括的系统。”
“泛化”这个术语很重要,因为模型很难做到这一点。
由这些模型驱动的机器人现在可以执行各种任务,例如按颜色分类衣物、根据在线天气预报打包行李箱,或者查看当地的垃圾回收规定以正确丢弃垃圾。现在,作为人类,你可能会说:“这又怎么样?” 但要做到这一点,机器需要一种名为泛化的能力——将知识应用于新情况的能力。
机器人——以及一般的算法——通常都难以做到这一点。例如,如果你教一个模型折叠一条裤子,它就无法折叠一件T恤,除非工程师事先对每个步骤进行编程。
新模型改变了这一切。它们能够捕捉线索,解读环境,做出合理的假设,并执行过去无法完成的多步骤任务——或者至少极其困难—用于机器。
但“更好”并不意味着“完美”。例如,在一项实验中,团队向机器人展示了一组物体,并要求它们将它们扔进正确的垃圾桶。机器人用摄像头视觉识别每个项目,在线调出旧金山最新的回收指南,然后像当地人一样,自行将它们放置在理想的位置。
这一过程结合了在线搜索、视觉感知和逐步规划,能够做出超越传统机器人的情境感知决策。记录的成功率在 20% 到 40% 之间;虽然不理想,但对于一个之前从未理解过这些细微差别的模型来说,这还是令人惊讶的。
谷歌如何将机器人变成超级机器人
两个模型分工协作。Gemini Robotics-ER 1.5 就像大脑一样,负责确定需要做什么,并制定分步计划。当它需要信息时,可以调用谷歌搜索。一旦制定了计划,它就会将自然语言指令传递给 Gemini Robotics 1.5,由后者负责实际的物理动作。
从技术角度来说,新款 Gemini Robotics 1.5 是一个视觉-语言-动作 (VLA) 模型,可以将视觉信息和指令转化为运动命令,而新款 Gemini Robotics-ER 1.5 是一个视觉语言模型(VLM)创建多步骤计划来完成任务。
例如,当机器人对衣物进行分类时,它会通过一系列思维链进行内部推理:理解“按颜色分类”意味着白色衣物放入一个分类箱,彩色衣物放入另一个分类箱,然后分解出拿起每件衣物所需的具体动作。机器人可以用简单的英语解释其推理过程,使其决策不再像黑匣子那样复杂。
谷歌首席执行官桑达尔·皮查伊在 X 上发表意见他指出,新模型将使机器人能够更好地推理、提前规划、使用搜索等数字工具,并将学习成果从一种机器人迁移到另一种机器人。他称这是谷歌“迈向真正有用的通用机器人的下一大步”。
此次发布让谷歌与特斯拉等开发商成为焦点,图形AI以及波士顿动力,尽管每家公司采取了不同的方法。特斯拉专注于其工厂的大规模生产,埃隆·马斯克承诺到2026年将生产数千台。波士顿动力凭借其后空翻机器人Atlas,继续突破机器人运动能力的界限。与此同时,谷歌则押注人工智能,让机器人无需特定编程即可适应任何情况。
时机很重要。美国机器人公司正在推制定国家机器人战略,包括在中国制造人工智能和智能机器人之际,设立一个专注于推动该产业发展的联邦办公室国家优先事项中国是世界上最大的工厂和其他工业环境中工作的机器人市场,据总部位于德国的机器人制造商协会称,到 2023 年,中国将有约 180 万台机器人投入运行。国际机器人联合会。
DeepMind 的方法不同于传统的机器人编程,传统的机器人编程需要工程师一丝不苟地编写每个动作的代码。相反,这些模型通过演示进行学习,并能够随时调整。如果物体从机器人的手中滑落,或者有人在执行任务的过程中移动了某个物体,机器人就会毫不犹豫地进行调整。
这些模型建立在 DeepMind 3 月份的早期研究成果之上,当时机器人只能处理诸如拉开袋子拉链或折叠纸张之类的单一任务。现在,它们正在处理许多对人类来说都具有挑战性的任务,例如在查看天气预报后,为旅行打包合适的行李。
对于想要进行实验的开发者来说,有两种不同的可用性方案。Gemini Robotics-ER 1.5 已于周四通过 Google AI Studio 中的 Gemini API 发布,这意味着任何开发者都可以使用该推理模型进行构建。而行动模型 Gemini Robotics 1.5 则仅供“精选”(可能意味着“富有”)合作伙伴使用。