"Gemini Robotics：当 AI 终于学会触碰物理世界"

从生成代码到移动物体

过去两年，大语言模型的能力边界一直在虚拟世界里扩张。写代码、做推理、生成图像和视频，这些任务有一个共同特征：不需要手，也不需要碰到任何东西。

但机器人领域面对的核心难题从来不是"理解"，而是"执行"。一个机器人可以识别桌子上的苹果，知道苹果是可食用的，甚至知道该用多大力度抓握。但让它真的伸出手、在不确定光照条件下、从一堆杂物中准确拿起那个苹果，这件事长期以来完全是另一套技术栈。

Google DeepMind 在 2025 年推出的 Gemini Robotics 改变了这个局面。它不是给机器人加了一个聊天接口，而是把 Gemini 的多模态推理能力直接嵌入了机器人的感知-决策-执行闭环。用 DeepMind 自己的话说：这些模型让"任何形状和尺寸的机器人能够感知、推理、使用工具并与人类交互"。

这意味着一件事：AI 终于从屏幕后面走出来，开始触碰物理世界。

三个模型，三种定位

Gemini Robotics 不是单一模型，而是一个模型家族。目前公开的有三个：

Gemini Robotics 1.5（GR 1.5） 是核心的 VLA（Vision-Language-Action）模型。它接收图像和文本指令，直接输出机器人关节控制信号。可以理解为机器人的"大脑到手"通道。它基于 Gemini 2.0 Flash 构建，在保持推理能力的同时加入了动作输出头。

Gemini Robotics-ER 1.6（ER 1.6） 是增强推理版本。"ER"代表 Embodied Reasoning，即具身推理。它不直接控制机器人，而是负责更复杂的空间理解任务：读取仪表盘数值、判断操作是否成功、在场景中定位特定物体。它是机器人的"眼睛和分析中枢"。

Gemini Robotics On-Device 是端侧部署版本。计算完全在机器人本地完成，不依赖云端。延迟更低，适用于网络条件不可控的工业场景。代价是能力有所缩减，但足以应对结构化环境中的重复操作。

三个模型的分工很清晰：GR 1.5 负责动手，ER 1.6 负责看和想，On-Device 负责在断网时也能干活。

技术架构：VLA 和 ER 的协同

Gemini Robotics 的核心设计哲学是：一个足够大的多模态语言模型，已经隐含了对物理世界的理解。不需要单独训练一个世界模型。

这个判断直接影响了架构选择。

VLA 模型：从理解到动作

GR 1.5 的架构是在 Gemini 2.0 Flash 的基础上，增加了动作 token 的输出空间。训练过程分两阶段：第一阶段用海量互联网数据做多模态预训练，让模型理解语言、图像和物理概念；第二阶段用机器人操作数据做微调，让模型学会把理解转化为关节角度序列。

这种设计的好处是泛化能力极强。因为底层模型已经见过数以亿计的图像和文本描述，当它面对一个从未见过的物体时，不需要专门训练就能做出合理的判断。比如让它"把那个红色的东西放进蓝色的盒子里"，即使训练数据里从未出现过这个特定的红物体和蓝盒子，模型也能完成。

Thinking Mode

GR 1.5 引入了 Thinking Mode，灵感来自语言模型中的 Chain-of-Thought 推理。当任务复杂时，模型可以在输出动作之前先生成一段内部推理过程：分析场景结构、规划操作步骤、预判可能的失败点。

这听起来简单，但在机器人领域是实质性的进步。传统机器人控制要么是硬编码规则，要么是端到端学习直接映射感知到动作，中间没有"想一想"的环节。Thinking Mode 让机器人在面对陌生场景时有了缓冲空间，显著提高了零样本任务的成功率。

ER 模型：空间推理的专用引擎

ER 1.6 专注于机器人需要但 VLA 不擅长的那部分能力。它的核心任务包括：

仪器读数：从摄像头图像中准确读取模拟仪表的数值
操作评估：判断当前动作是否成功执行
空间定位：在复杂场景中精确指出目标物体的位置

这些任务看起来像是视觉问答，但对精度和空间理解的要求远高于一般的 VQA。读取仪表盘需要亚像素级的指针识别，操作评估需要多视角融合才能可靠判断。

Motion Transfer

另一个值得注意的技术是 Motion Transfer。它的核心思路是：让机器人从人类演示视频中学习动作，而不是从机器人自己的执行数据中学习。

这降低了数据采集成本。训练一个机器人操作技能，传统方式需要用机器人本身反复试错收集成百上千次轨迹。Motion Transfer 让你可以直接用手机拍一段人类操作视频，模型就能把人的手部动作迁移到机器人手臂上。

基准数据：数字说话

DeepMind 公开的基准数据是这份工作最有说服力的部分。

Point-Bench：空间理解能力

Point-Bench 是一个专门评估具身空间理解能力的基准测试，涵盖 affordance（可操作性判断）、counting（物体计数）、reasoning（空间推理）等维度。ER 1.5 与 GPT-5 的对比数据：

维度	ER 1.5	GPT-5
Affordance	70.9	58.1
Counting	86.8	53.7
Reasoning	61.7	33.0
总体平均	52.6	30.8

GPT-5 在通用推理上很强，但在物理空间理解这个特定维度上，差距显著。Counting 维度的差距尤其大：86.8 对 53.7，接近 33 个百分点。这说明理解"物理世界中有几个可操作的物体"这件事，和"理解文本中有几个论点"是完全不同的能力。

ER 1.6 核心指标

ER 1.6 在关键任务上的表现：

仪器读数（Instrument Reading）：基础 86%，加入 Agentic Vision 后提升至 93%
指向精度（Pointing Accuracy）：87.9%
操作成功检测（Success Detection）：单视图 86%，多视图 93%

多视图融合带来的提升在成功检测上尤其明显：从 86% 跳到 93%，7 个百分点。这验证了一个直觉：机器人需要多个角度的信息才能对物理状态做出可靠判断。单眼视觉在机器人操作场景中确实不够用。

综合泛化能力

DeepMind 声称，Gemini Robotics 在综合泛化基准上的表现比其他 SOTA VLA 模型平均高 2 到 3 倍。这个数字来自他们自己的评测框架，需要交叉验证，但方向是明确的：在大语言模型基础上构建 VLA，泛化能力确实显著优于纯端到端方法。

竞争格局：三条路线

具身智能赛道在 2025 年进入了实质性竞争阶段。三条主要技术路线分别由三家代表性公司推进：

维度	NVIDIA GR00T N1.7	Google GR 1.5	Physical Intelligence π0.5
核心理念	先理解物理世界	大模型已隐含世界模型	直接从动作数据学习
世界模型	独立训练（Cosmos）	不需要独立世界模型	不需要
推理架构	双系统：慢推理+快反射	Thinking Mode	Flow Matching
训练数据	EgoScale 2万+小时第一人称视频	互联网多模态数据 + 机器人轨迹	400小时真实家庭数据
硬件绑定	通用（倾向 NVIDIA 生态）	通用（跨形态）	通用

NVIDIA：世界模型优先

NVIDIA 的 GR00T N1.7 走的是"先理解再行动"路线。先用 Cosmos 世界模型学习物理规律，再在 VLA 层面做决策。双系统架构明显借鉴了 Daniel Kahneman 的 System 1 / System 2 理论：System 2 负责慢速但准确的推理，System 1 负责快速但可能出错的反射动作。

这条路线的优势是物理一致性更好。因为世界模型显式地编码了物体之间的物理关系，机器人的动作规划更不容易违反物理规律。代价是计算量大、训练管线复杂，而且对 NVIDIA 硬件生态有天然依赖。

Google：大模型即世界模型

Google 的路线最"省事"，但也最大胆。核心赌注是：一个足够大的多模态语言模型，在见过足够多的物理世界描述和图像之后，已经隐含了对物理规律的足够理解，不需要单独训练世界模型。

这省掉了整个世界模型的训练管线，工程复杂度大幅降低。但风险也很明显：语言模型对物理世界的理解本质上是统计性的，而不是基于物理定律的。在训练数据覆盖充分的场景下表现很好，但在分布外的极端情况可能出现违反直觉的错误。

Physical Intelligence：数据驱动

Physical Intelligence 的 π0.5 走的是最务实的路线。不纠结世界模型，不依赖大语言模型的推理能力，直接用大量真实操作数据训练 Flow Matching 模型。400 小时的真实家庭操作数据，听起来不多，但在机器人领域已经是巨大的数据量。

这条路线在特定任务上可能收敛最快，但泛化能力可能受限于数据分布。当机器人遇到训练数据中从未出现的操作场景时，没有语言模型的常识推理作为兜底。

三条路线各有取舍，最终哪条跑通，取决于应用场景的容错率和泛化需求。工业场景可能更倾向 NVIDIA 的物理一致性，消费场景可能更看重 Google 的泛化速度。

硬件合作方：选择本身就是信号

Google DeepMind 选择了两个硬件合作伙伴：Boston Dynamics 和 Apptronik。

Boston Dynamics 需要多说几句。这家公司从 1992 年成立以来，一直在做腿足机器人的运动控制，技术积累深厚，但商业化步伐一直很保守。他们直到 2024 年才正式宣布商业化人形机器人计划。原因用他们自己的话说：近期 AI 进展加速了机器人训练和部署的速度，时机终于成熟了。

这个表态值得注意。Boston Dynamics 不缺硬件能力，他们缺的是能快速泛化到新任务的 AI 大脑。当他们在 2024 年判断 AI 能力已经到位时，选择了 Google DeepMind 作为合作伙伴。这说明在硬件老兵眼中，Gemini Robotics 的能力已经达到了商用门槛。

Atlas 是 Boston Dynamics 的人形机器人平台，全电动、高动态。Apollo 是 Apptronik 的商用平台，定位更偏向工业和服务场景。两个平台形态不同，Gemini Robotics 都能适配，这本身验证了模型跨硬件的泛化能力。

与 Genie 3 的关系：从虚拟到物理

Google DeepMind 在推出 Gemini Robotics 的同一时期，还发布了 Genie 3 世界模型。Genie 3 可以从单张图像生成交互式 3D 环境。DeepMind 称之为"通向 AGI 的关键垫脚石"。

两者的关系是互补的。Genie 3 生成虚拟环境，Gemini Robotics 在虚拟环境中训练操作技能，然后把学到的技能迁移到真实机器人上。这是经典的 Sim-to-Real 路线，但 Genie 3 提供的虚拟环境质量远高于传统仿真器。

传统机器人仿真器（如 Gazebo、Isaac Sim）需要手动建模环境和物体。Genie 3 直接从图像生成，省掉了建模环节。这意味着训练环境的多样性可以指数级增长，而数据采集成本几乎为零。

完整的链条是：Genie 3 生成虚拟训练环境 → Gemini Robotics 在虚拟环境中学习操作技能 → 在真实机器人上部署。从世界模型到物理执行，闭环了。

对机器人产业意味着什么

范式转变

传统机器人开发的核心瓶颈不是硬件，而是软件。每换一个任务，就需要重新编写控制逻辑或重新收集训练数据。这个成本决定了机器人只能部署在高价值的重复性场景中：汽车焊接、仓库搬运、半导体制造。

Gemini Robotics 代表的范式转变是：用通用 AI 模型替代任务专用软件。同一个模型，通过自然语言指令就能切换任务。"把零件放进盒子"和"把零件从盒子中取出"，对传统机器人来说是两个完全不同的程序。对 Gemini Robotics 来说，只是两段不同的提示词。

如果这个范式成立，机器人部署的边际成本会大幅下降。这会打开大量此前 ROI 不成立的场景：小批量多品种的制造业、个人和家庭服务、农业采摘。

对中国机器人产业

中国在人形机器人硬件领域投入巨大。优必选、傅利叶、智元机器人等公司都有成熟的硬件平台。但在 AI 大脑层面，目前还没有出现对标 Gemini Robotics 或 GR00T 的通用具身智能模型。

差距不在算力，而在数据和方法论。Gemini Robotics 的核心优势来自 Gemini 大模型的多模态预训练底座，这需要极高投入的基础模型研发。中国在大语言模型领域已经追到第二梯队，但在多模态基础模型和机器人操作数据的积累上，差距仍然明显。

短期机会在两个方向。一是端侧推理：把 Gemini Robotics 这类模型部署到国产硬件上，需要大量的工程优化和本地化适配。二是垂直场景：通用模型在特定行业的落地，需要对行业工艺流程的深度理解，这不是纯 AI 公司能独立完成的。

长期来看，具身智能的竞争格局可能会复刻大语言模型的路径：美国公司在基础模型上领先，中国公司在应用层和工程化上追赶。但机器人的物理属性决定了，本地化需求比纯软件更强。一个在中国工厂部署的机器人，需要理解中文指令、适应中国工厂的布局和安全规范、对接本地的 MES 系统。这些需求会催生本土的具身智能解决方案。

真正的考验还在前面

所有这些进展都值得认真对待，但也要看到现实的约束。

目前的基准测试主要在实验室环境中完成。真实世界的噪声、不可预测性、安全约束，比测试环境复杂几个数量级。从实验室 demo 到工厂量产部署，中间的工程化挑战不容低估。

安全是另一个未解决的问题。语言模型产生幻觉，最多是一段不准确的回答。机器人产生"幻觉"，可能是物理伤害。如何确保具身智能模型在物理世界中的行为安全可控，目前还没有成熟的技术方案。

数据隐私同样值得关注。机器人在执行任务时会持续采集环境视频和音频，这些数据的存储、传输和使用需要严格的治理框架。尤其是在家庭和服务场景中，这个问题会更加敏感。

但方向是明确的。AI 正在从数字世界扩展到物理世界。这个扩展不是渐进式的优化，而是能力边界的根本性拓展。当机器人不再需要为每个任务重新编程，当自然语言成为机器人控制的统一接口，我们正在进入一个不同的技术周期。

Google DeepMind 迈出了第一步。接下来的故事，会比第一步更精彩。

Menu

Share

"Gemini Robotics：当 AI 终于学会触碰物理世界"

从生成代码到移动物体

三个模型，三种定位

技术架构：VLA 和 ER 的协同

VLA 模型：从理解到动作

Thinking Mode

ER 模型：空间推理的专用引擎

Motion Transfer

基准数据：数字说话

Point-Bench：空间理解能力

ER 1.6 核心指标

综合泛化能力

竞争格局：三条路线

NVIDIA：世界模型优先

Google：大模型即世界模型

Physical Intelligence：数据驱动

硬件合作方：选择本身就是信号

与 Genie 3 的关系：从虚拟到物理

对机器人产业意味着什么

范式转变

对中国机器人产业

真正的考验还在前面

Comment

"超越 Claude：Anthropic 2026 完整产品矩阵解析"

"Beyond Claude: Anthropic's Full Product Stack in 2026 — The Complete Map"

Harness Engineering 完全指南：从工业革命到 AI Agent 的约束系统设计

Klarna 的 AI 赌局：省下 6000 万美元后悄悄回调的完整时间线

"DeepMind 2026 模型生态全景：Gemini、Veo、Lyria、Genie 与 Robotics 的技术架构解析"

"AI 的绝望是安静的：Anthropic 情绪向量论文解读"

Klarna's AI Gamble: From $60M in Savings to a Quiet Reversal — The Complete Timeline

MCP vs CLI：为什么命令行正在赢得 AI Agent 的接口之争

"Agent Cloud 架构解析：Cloudflare 和 OpenAI 为什么押注分布式 AI 推理"

"AI 会替代你的工作吗？一个四维度自评框架（不是又一份安全职业清单）"