谷歌拍了拍 Figure 说，「起来卷」

6 月 28 日消息，在谷歌的最新播客中，机器人在 Gemini 人工智能技术的加持下，未经教授就完成了一次「扣篮」动作，展现出迅速适应新场景的能力。

两天前的洛杉矶，运行着 Gemini Robotics On-Device 模型的机器人还在 RSS2025（机器人软件与系统大会）上完成了全球首个互动式现场展示。硅谷 AI 观察人士 Ted Xiao 表示，「它仿佛是对未来的神奇一瞥——只需与你的机器人对话，它就会做出适当的回应，并尝试执行一些合理的操作。新的物体、新的命令、新的技能。」

谷歌 Gemini Robotics On-Device 模型发布于 6 月 24 日，AI 被引入了机器人，在整个过程中不需要持续的互联网连接，机器人实现了脱机工作。

谷歌在 X 上表示，这是自己首个「视觉-语言-动作」模型，旨在能够帮助机器人更快、更高效地适应新任务和新环境。如果我们稍加回忆，今年 2 月底，Figure 发布的「历史上最重大的人工智能更新」——Helix 也是一款用于通用人形机器人控制的「视觉-语言-动作」(VLA) 模型。

不同的是，由于谷歌家的这款模型独立于数据网络运行，它对延迟敏感的应用程序很有帮助，并确保了间歇性或零连接环境中的稳健性。

事实上，早在今年 3 月，谷歌就推出了第一代 VLA（视觉语言动作）模型 Gemini Robotics，将 Gemini 2.0 的多模态推理和现实世界理解带入物理世界。

而作为双臂机器人的基础模型的新选手 Gemini Robotics On-Device ，除了最大限度减少计算资源需求之外，主要解决 3 个问题：灵巧操作、新任务的微调和适应、基于本地运行的低延迟快速推理。

官方演示视频中，这一对灵巧手不仅可以拿起一支笔，还可以相互配合拔掉笔盖。

在接下来的测试中，这一对灵巧手完成了「放置蓝色的砖块」、「拉开中间的抽屉」和「归位『梨』模型」的任务，显示出强大的视觉、语义和行为泛化能力，并且仅仅依赖自然语言指令——「Can you close the middle drawer」？

演示之外，基础跑分数据上，Gemini Robotics On-Device 也有不俗的表现。

首先是泛化能力，谷歌直接拉出了「当家花旦」——旗舰 Gemini Robotics 模型和 Previous Best On-Device 模型进行比拼。结果上，Gemini Robotics On-Device 虽然略低于旗舰产品的表现，但也超出之前最好的离线模型一大截。

而在分布式任务和复杂的多步骤指令方面，Gemini Robotics On-Device 模型的表现也优于其他设备端替代方案。

早在 2 月 Figure 的相关文章中就曾提到，「与受控的工业环境不同，家里堆满了无数的物品——精致的玻璃器皿、皱巴巴的衣服、散落的玩具——每件物品都有不可预测的形状、大小、颜色和纹理。为了让机器人在家庭中发挥作用，它们需要能够按需产生智能的新行为，尤其是对它们从未见过的物体。」机器人技术上的一大难题在于，举一反一简单，举一反三并不容易。

如何处理在训练样本中从未见过的任务，直接反映了机器人对新任务的适应能力。Figure 家的 Helix 给出的解法是使用一组神经网络权重来学习所有行为，建立了两个可以通信的「系统 1、系统 2」来分别完成「想」和「干」，而无需任何针对特定任务的微调。

而 Gemini Robotics On-Device 给开发者提供了微调的选择，通过 50 到 100 次演示即可快速适应新任务。微调任务的跑分如下：