"Gemini Robotics 架构深度解析：Google 机器人基础模型的技术内幕"

Google DeepMind 的 Gemini Robotics 是第一个将前沿多模态 AI 能力直接嵌入机器人物理交互闭环的模型家族。语言模型产生幻觉，结果是一段不准确的回答；机器人产生幻觉，结果是物理后果。本文深入分析三模型家族的技术架构、与 NVIDIA GR00T 和 Physical Intelligence 的路线分歧，以及跑分数字背后的真实含义。

三模型架构

Gemini Robotics 不是单一模型，而是三个专用模型的协同系统，各自处理感知-推理-行动管线的不同环节。

Gemini Robotics 1.5（VLA） 是执行层。基于 Gemini 2.0 Flash 构建，在多模态输出空间中增加了物理动作 token。它接收图像和文本指令，输出直接控制机器人硬件的关节角度序列。这是"大脑到手"的通道。

Gemini Robotics-ER 1.6 是推理层。一个运行在云端的视觉语言模型，负责复杂的空间理解任务：从摄像头画面读取模拟仪表数值、判断操作是否成功、在杂乱场景中以亚像素精度定位物体。ER 1.6 使用 Agentic Vision 后仪表读取准确率达到 93%，相比 ER 1.5 的 23% 是质的飞跃。

Gemini Robotics On-Device 是部署层。一个针对本地机器人硬件优化的 VLA 模型，消除了云延迟对实时控制的影响。支持微调，开发者可以适配特定的机器人平台和环境。

云端加本地的双模型架构解决了具身智能的根本矛盾：复杂推理需要大算力，但机器人实时控制要求低延迟。ER 在云端运行，拥有 Gemini 3.0 Pro 的完整推理能力；VLA 在本地运行，负责毫秒级响应的运动控制。两者通过标准接口通信，实现了"思考"和"执行"的干净分离。

VLA 是如何工作的：从像素到电机命令

视觉-语言-动作（VLA）架构遵循两阶段训练管线。

第一阶段：多模态预训练。 Gemini 2.0 Flash 主干吸收互联网规模的图像、文本和视频数据。这让模型获得对物理概念、物体关系、空间布局和语言的丰富理解。模型学会了杯子从每个角度长什么样、它放在桌子上、液体倒进去、你握住把手。

第二阶段：机器人微调。 模型接收机器人操作轨迹数据，即在真实机器人上执行物理任务的演示。模型学会将理解转化为动作 token：产生期望物理结果的关节角度序列。动作空间成为新的输出模态，与文本和图像并列。

核心赌注：一个足够大的多模态语言模型，在见过足够多的物理世界描述和图像之后，已经隐含了对物理规律的足够理解，不需要单独训练世界模型。

这与 NVIDIA 的路线形成对比。NVIDIA 先训练 Cosmos 世界模型显式编码物理关系，再在上面构建 GR00T。计算量更大、训练管线更复杂，但理论上更遵循真实物理定律。Google 的路线更简洁、迭代更快，但依赖统计模式而非显式物理定律。

Motion Transfer：从人类视频学习

Gemini Robotics 1.5 引入的 Motion Transfer 可能是其实用价值最高的创新。

传统机器人学习需要在实际机器人上采集成百上千条操作轨迹。这很慢、很贵，而且任务数量线性扩展。

Motion Transfer 允许机器人从人类演示视频中学习，用手机拍摄即可。模型从视频中提取人类手部动作，翻译成机器人关节空间坐标，生成可执行的轨迹。研究人员拍一段折衬衫的视频，机器人几分钟内就能尝试同样的动作。

这大幅降低了数据采集成本，打开了众包训练数据的可能性。任何有手机的人都可以贡献训练演示。

Thinking Mode：先想后动

Gemini Robotics 1.5 实现了"先思考再行动"。面对复杂或陌生的任务时，模型在产生动作之前先生成内部推理过程：分析场景结构、规划操作步骤、预判可能的失败点。

这类似于语言模型中的思维链推理，但应用于物理动作。好处有两个：在陌生场景上的零样本任务成功率更高，用户可以检查模型的推理过程来理解为什么选择了特定的动作序列。

具身推理：ER 1.6 实际做了什么

ER 模型处理的是 VLA 单独难以胜任的高精度空间理解任务。

精确指向

ER 1.6 在指向任务上达到 87.9% 的准确率，能在杂乱场景中以亚像素精度定位特定物体的部件。这不是"杯子在哪"，而是"杯把上到底哪个位置应该让夹爪接触"。

成功检测

使用多视角融合，ER 1.6 判断操作动作是否成功的准确率达到 93%。单视角检测为 86%。多视角的提升来自组合不同角度的信息，解决单个摄像头无法处理的遮挡和歧义。

仪表读取

ER 1.5 到 ER 1.6 最戏剧性的改进：仪表读取准确率从 23% 跳到 86%（基础）/ 93%（Agentic Vision）。Agentic Vision 将视觉推理与代码执行结合，模型可以自动放大相关区域、应用图像处理、交叉验证读数。

Agentic Vision

ER 1.6 的 Agentic Vision 包含自主缩放（自适应处理不同距离和尺寸的物体）和比例估计（理解物体相对尺寸用于抓取力度控制）。这些能力超越了标准视觉问答，进入了主动感知的领域。

跑分数字：上下文很重要

泛化得分（Gemini Robotics 1.5）

维度	得分
分布内	0.83
指令泛化	0.76
动作泛化	0.54
视觉泛化	0.81
任务泛化	0.70

动作泛化（0.54）是最弱的维度。模型在需要产生与训练分布差异较大的动作序列时最容易出错。分布内性能（0.83）不错但不完美。

Point-Bench：ER 1.5 vs GPT-5

| 维度 | ER 1.5 | GPT-5 | |---|---| | 可操作性判断 | 70.9 | 58.1 | | 物体计数 | 86.8 | 53.7 | | 空间推理 | 61.7 | 33.0 | | 总体平均 | 52.6 | 30.8 |

ER 1.5 总体领先 GPT-5 超过 20 个百分点。最大差距在计数（33.1 分），说明通用语言模型缺乏物理交互任务所需的空间精度。

跑分饱和问题

ICLR 2026 收到了 164 篇 VLA 论文，同比增长 18 倍。VLA 研究社区提出了一个关键问题：LIBERO 等仿真基准已达到 99% 准确率，失去了区分模型优劣的能力。前沿模型和学术实现之间的真实世界性能差距被饱和的基准测试所掩盖。

这意味着受控环境下的亮眼数字不一定能直接转化为工厂车间或家庭中的表现。实验室 demo 到量产部署之间的鸿沟仍然是核心挑战。

三条路线：Google vs NVIDIA vs Physical Intelligence

机器人基础模型领域已经结晶为三条竞争路线。

维度	Gemini Robotics	NVIDIA GR00T	Physical Intelligence pi0.5
核心理念	大模型隐式世界理解	先理解物理世界再行动	直接从动作数据学习
世界模型	无（隐含在大模型中）	Cosmos（独立训练）	不需要
推理方式	Thinking Mode（思维链）	双系统（慢推理+快反射）	Flow Matching
训练数据	互联网多模态+机器人轨迹	EgoScale 2 万+小时第一人称视频	400 小时真实家庭数据
硬件	跨形态（ALOHA、Franka、Apollo）	通用（倾向 NVIDIA 生态）	通用

Google 的赌注：规模和泛化能力取胜。一个足够大的多模态模型可以通过微调处理任何机器人任务。风险在于统计性的物理理解可能在分布外场景产生灾难性失败。

NVIDIA 的赌注：显式的物理理解防止灾难性失败。Cosmos 编码真实物理，使机器人动作更有物理依据。代价是计算复杂度和对 NVIDIA 硬件的天然依赖。

Physical Intelligence 的赌注：暴力数据取胜。400 小时的真实家庭操作数据在机器人领域已经是海量。Flow Matching 提供平滑的动作生成，不需要世界模型或语言理解。风险在于泛化能力可能受限于数据分布。

没有哪条路线已经赢。每条在不同场景下有优势。

硬件合作伙伴：谁在真正使用

Google DeepMind 构建了两层合作伙伴生态。

战略合作伙伴构建以 Gemini Robotics 为 AI 大脑的完整人形平台： - Boston Dynamics（Atlas 双足机器人） - Apptronik（Apollo 人形机器人）

受信测试者将 Gemini Robotics 集成到现有机器人平台： - Agile Robots、Agility Robotics、Enchanted Tools、PAL Robotics、Rainbow Robotics、Collaborative Robotics、Universal Robots

Boston Dynamics 的参与值得注意。这家公司花了 32 年做腿足运动控制，直到 2024 年才宣布商业化人形机器人计划，明确表示"近期 AI 进展加速了机器人训练和部署，时机终于成熟"。当一个硬件保守派选择 Gemini Robotics，说明能力确实达到了商业门槛。

Genie 3 连接：大规模仿真到真实

Gemini Robotics 通过 DeepMind 的 Genie 3 世界模型生成训练数据。管线如下：Genie 3 从图像生成虚拟训练环境，Gemini Robotics 在虚拟环境中学习操作技能，然后把技能迁移到真实机器人上。

传统仿真器（Gazebo、Isaac Sim）需要手动建模环境和物体。Genie 3 直接从图像生成环境，使训练环境多样性接近无限，边际成本接近零。

这条仿真到真实的管线正是 Gemini Robotics 泛化能力声明的基础。模型实际上在数百万个独特环境中训练过，而不只是物理实验室中可用的几十个。

安全：尚未解决的前沿

DeepMind 将 ER 1.6 描述为"我们迄今为止最安全的机器人模型"，实现了防止危险动作的安全约束。但机器人 AI 安全的约束条件与语言模型安全根本不同。

语言模型错误产生错误文本。机器人错误产生物理后果。一个"幻觉"出抓取点的机器人可能掉落物体、损坏设备或伤害人员。物理 AI 的安全裕度完全不同。

当前方案包括动作空间中的安全约束（防止会导致碰撞的关节角度）和成功检测（出问题时停下来）。尚不存在的是：针对学习型控制策略的可证明安全保证、针对意外物理情况的实时异常检测、机器人基础模型的标准化安全基准。

局限性与开放挑战

实验室到量产的鸿沟：所有基准在受控环境中测量。真实世界的噪声、不可预测性和安全约束复杂几个数量级。

统计理解 vs 物理理解：Google 的路线依赖模型从数据中隐式学习物理。在覆盖充分的场景中表现很好，在分布外的边缘情况可能产生违反物理直觉的动作。

网络依赖：云端加本地的双模型架构引入了故障模式。如果网络断开，本地 VLA 必须独立处理安全关键场景。连接丢失下的优雅降级是工程要求，不是研究问题。

数据隐私：机器人持续采集环境视频和音频。这些数据的治理框架，特别是在家庭和服务场景中，尚未定义。

成本：在机器人硬件上运行前沿模型需要大量算力。在廉价机器人平台上大规模部署 VLA 模型的经济学尚未验证。

FAQ

Gemini Robotics 是什么？

Google DeepMind 的机器人 AI 模型家族，包括三个模型：视觉-语言-动作（VLA）模型用于直接机器人控制，具身推理（ER）模型用于空间理解，On-Device 模型用于本地部署。

Gemini Robotics 和 Gemini 语言模型有什么区别？

Gemini Robotics 将物理动作作为新的输出模态。Gemini 语言模型输出文本、图像和音频，Gemini Robotics VLA 输出控制机器人硬件的关节角度序列。它还增加了标准 Gemini 模型没有的空间推理能力（ER）。

Gemini Robotics 能控制哪些机器人？

模型已在 ALOHA 2（双臂）、Franka（单臂）和 Apptronik Apollo（人形）上演示。跨形态设计允许通过微调适配不同机器人类型。Boston Dynamics Atlas 也是确认的合作伙伴平台。

Motion Transfer 是什么？

Motion Transfer 从视频录像中提取人类手部动作，翻译成机器人关节空间轨迹。研究人员用手机拍摄任务，模型将人类动作转换为可执行的机器人命令，无需在实际机器人上采集轨迹数据。

ER 1.6 的 Agentic Vision 是什么？

Agentic Vision 将视觉推理与代码执行结合。模型可以自主放大相关图像区域、应用图像处理算法、交叉验证结果。这让仪表读取准确率达到 93%。

Gemini Robotics 和 NVIDIA GR00T 的区别是什么？

Google 依赖大语言模型中的隐式物理理解。NVIDIA 先显式训练世界模型（Cosmos），再在它上面构建机器人动作。Google 的方案更简洁、迭代更快；NVIDIA 的方案计算更昂贵但理论上更符合物理定律。

Gemini Robotics 可以商业使用吗？

Gemini Robotics-ER 1.6 通过 Gemini API 提供预览版。On-Device 模型对受信测试者开放。完整商业部署时间表和定价尚未公布。

主要局限是什么？

实验室到量产的鸿沟仍然显著。基准在受控环境中测量。统计性的物理理解可能在边缘情况下失败。网络依赖带来故障模式。持续采集的视频/音频数据隐私尚未解决。

Share