Administrator
Published on 2026-05-05 / 1 Visits
0
0

"Gemini Robotics:当 AI 终于学会触碰物理世界"

从生成代码到移动物体

过去两年,大语言模型的能力边界一直在虚拟世界里扩张。写代码、做推理、生成图像和视频,这些任务有一个共同特征:不需要手,也不需要碰到任何东西。

但机器人领域面对的核心难题从来不是"理解",而是"执行"。一个机器人可以识别桌子上的苹果,知道苹果是可食用的,甚至知道该用多大力度抓握。但让它真的伸出手、在不确定光照条件下、从一堆杂物中准确拿起那个苹果,这件事长期以来完全是另一套技术栈。

Google DeepMind 在 2025 年推出的 Gemini Robotics 改变了这个局面。它不是给机器人加了一个聊天接口,而是把 Gemini 的多模态推理能力直接嵌入了机器人的感知-决策-执行闭环。用 DeepMind 自己的话说:这些模型让"任何形状和尺寸的机器人能够感知、推理、使用工具并与人类交互"。

这意味着一件事:AI 终于从屏幕后面走出来,开始触碰物理世界。

三个模型,三种定位

Gemini Robotics 不是单一模型,而是一个模型家族。目前公开的有三个:

Gemini Robotics 1.5(GR 1.5) 是核心的 VLA(Vision-Language-Action)模型。它接收图像和文本指令,直接输出机器人关节控制信号。可以理解为机器人的"大脑到手"通道。它基于 Gemini 2.0 Flash 构建,在保持推理能力的同时加入了动作输出头。

Gemini Robotics-ER 1.6(ER 1.6) 是增强推理版本。"ER"代表 Embodied Reasoning,即具身推理。它不直接控制机器人,而是负责更复杂的空间理解任务:读取仪表盘数值、判断操作是否成功、在场景中定位特定物体。它是机器人的"眼睛和分析中枢"。

Gemini Robotics On-Device 是端侧部署版本。计算完全在机器人本地完成,不依赖云端。延迟更低,适用于网络条件不可控的工业场景。代价是能力有所缩减,但足以应对结构化环境中的重复操作。

三个模型的分工很清晰:GR 1.5 负责动手,ER 1.6 负责看和想,On-Device 负责在断网时也能干活。

技术架构:VLA 和 ER 的协同

Gemini Robotics 的核心设计哲学是:一个足够大的多模态语言模型,已经隐含了对物理世界的理解。不需要单独训练一个世界模型。

这个判断直接影响了架构选择。

VLA 模型:从理解到动作

GR 1.5 的架构是在 Gemini 2.0 Flash 的基础上,增加了动作 token 的输出空间。训练过程分两阶段:第一阶段用海量互联网数据做多模态预训练,让模型理解语言、图像和物理概念;第二阶段用机器人操作数据做微调,让模型学会把理解转化为关节角度序列。

这种设计的好处是泛化能力极强。因为底层模型已经见过数以亿计的图像和文本描述,当它面对一个从未见过的物体时,不需要专门训练就能做出合理的判断。比如让它"把那个红色的东西放进蓝色的盒子里",即使训练数据里从未出现过这个特定的红物体和蓝盒子,模型也能完成。

Thinking Mode

GR 1.5 引入了 Thinking Mode,灵感来自语言模型中的 Chain-of-Thought 推理。当任务复杂时,模型可以在输出动作之前先生成一段内部推理过程:分析场景结构、规划操作步骤、预判可能的失败点。

这听起来简单,但在机器人领域是实质性的进步。传统机器人控制要么是硬编码规则,要么是端到端学习直接映射感知到动作,中间没有"想一想"的环节。Thinking Mode 让机器人在面对陌生场景时有了缓冲空间,显著提高了零样本任务的成功率。

ER 模型:空间推理的专用引擎

ER 1.6 专注于机器人需要但 VLA 不擅长的那部分能力。它的核心任务包括:

  • 仪器读数:从摄像头图像中准确读取模拟仪表的数值
  • 操作评估:判断当前动作是否成功执行
  • 空间定位:在复杂场景中精确指出目标物体的位置

这些任务看起来像是视觉问答,但对精度和空间理解的要求远高于一般的 VQA。读取仪表盘需要亚像素级的指针识别,操作评估需要多视角融合才能可靠判断。

Motion Transfer

另一个值得注意的技术是 Motion Transfer。它的核心思路是:让机器人从人类演示视频中学习动作,而不是从机器人自己的执行数据中学习。

这降低了数据采集成本。训练一个机器人操作技能,传统方式需要用机器人本身反复试错收集成百上千次轨迹。Motion Transfer 让你可以直接用手机拍一段人类操作视频,模型就能把人的手部动作迁移到机器人手臂上。

基准数据:数字说话

DeepMind 公开的基准数据是这份工作最有说服力的部分。

Point-Bench:空间理解能力

Point-Bench 是一个专门评估具身空间理解能力的基准测试,涵盖 affordance(可操作性判断)、counting(物体计数)、reasoning(空间推理)等维度。ER 1.5 与 GPT-5 的对比数据:

维度 ER 1.5 GPT-5
Affordance 70.9 58.1
Counting 86.8 53.7
Reasoning 61.7 33.0
总体平均 52.6 30.8

GPT-5 在通用推理上很强,但在物理空间理解这个特定维度上,差距显著。Counting 维度的差距尤其大:86.8 对 53.7,接近 33 个百分点。这说明理解"物理世界中有几个可操作的物体"这件事,和"理解文本中有几个论点"是完全不同的能力。

ER 1.6 核心指标

ER 1.6 在关键任务上的表现:

  • 仪器读数(Instrument Reading):基础 86%,加入 Agentic Vision 后提升至 93%
  • 指向精度(Pointing Accuracy):87.9%
  • 操作成功检测(Success Detection):单视图 86%,多视图 93%

多视图融合带来的提升在成功检测上尤其明显:从 86% 跳到 93%,7 个百分点。这验证了一个直觉:机器人需要多个角度的信息才能对物理状态做出可靠判断。单眼视觉在机器人操作场景中确实不够用。

综合泛化能力

DeepMind 声称,Gemini Robotics 在综合泛化基准上的表现比其他 SOTA VLA 模型平均高 2 到 3 倍。这个数字来自他们自己的评测框架,需要交叉验证,但方向是明确的:在大语言模型基础上构建 VLA,泛化能力确实显著优于纯端到端方法。

竞争格局:三条路线

具身智能赛道在 2025 年进入了实质性竞争阶段。三条主要技术路线分别由三家代表性公司推进:

维度 NVIDIA GR00T N1.7 Google GR 1.5 Physical Intelligence π0.5
核心理念 先理解物理世界 大模型已隐含世界模型 直接从动作数据学习
世界模型 独立训练(Cosmos) 不需要独立世界模型 不需要
推理架构 双系统:慢推理+快反射 Thinking Mode Flow Matching
训练数据 EgoScale 2万+小时第一人称视频 互联网多模态数据 + 机器人轨迹 400小时真实家庭数据
硬件绑定 通用(倾向 NVIDIA 生态) 通用(跨形态) 通用

NVIDIA:世界模型优先

NVIDIA 的 GR00T N1.7 走的是"先理解再行动"路线。先用 Cosmos 世界模型学习物理规律,再在 VLA 层面做决策。双系统架构明显借鉴了 Daniel Kahneman 的 System 1 / System 2 理论:System 2 负责慢速但准确的推理,System 1 负责快速但可能出错的反射动作。

这条路线的优势是物理一致性更好。因为世界模型显式地编码了物体之间的物理关系,机器人的动作规划更不容易违反物理规律。代价是计算量大、训练管线复杂,而且对 NVIDIA 硬件生态有天然依赖。

Google:大模型即世界模型

Google 的路线最"省事",但也最大胆。核心赌注是:一个足够大的多模态语言模型,在见过足够多的物理世界描述和图像之后,已经隐含了对物理规律的足够理解,不需要单独训练世界模型。

这省掉了整个世界模型的训练管线,工程复杂度大幅降低。但风险也很明显:语言模型对物理世界的理解本质上是统计性的,而不是基于物理定律的。在训练数据覆盖充分的场景下表现很好,但在分布外的极端情况可能出现违反直觉的错误。

Physical Intelligence:数据驱动

Physical Intelligence 的 π0.5 走的是最务实的路线。不纠结世界模型,不依赖大语言模型的推理能力,直接用大量真实操作数据训练 Flow Matching 模型。400 小时的真实家庭操作数据,听起来不多,但在机器人领域已经是巨大的数据量。

这条路线在特定任务上可能收敛最快,但泛化能力可能受限于数据分布。当机器人遇到训练数据中从未出现的操作场景时,没有语言模型的常识推理作为兜底。

三条路线各有取舍,最终哪条跑通,取决于应用场景的容错率和泛化需求。工业场景可能更倾向 NVIDIA 的物理一致性,消费场景可能更看重 Google 的泛化速度。

硬件合作方:选择本身就是信号

Google DeepMind 选择了两个硬件合作伙伴:Boston Dynamics 和 Apptronik。

Boston Dynamics 需要多说几句。这家公司从 1992 年成立以来,一直在做腿足机器人的运动控制,技术积累深厚,但商业化步伐一直很保守。他们直到 2024 年才正式宣布商业化人形机器人计划。原因用他们自己的话说:近期 AI 进展加速了机器人训练和部署的速度,时机终于成熟了。

这个表态值得注意。Boston Dynamics 不缺硬件能力,他们缺的是能快速泛化到新任务的 AI 大脑。当他们在 2024 年判断 AI 能力已经到位时,选择了 Google DeepMind 作为合作伙伴。这说明在硬件老兵眼中,Gemini Robotics 的能力已经达到了商用门槛。

Atlas 是 Boston Dynamics 的人形机器人平台,全电动、高动态。Apollo 是 Apptronik 的商用平台,定位更偏向工业和服务场景。两个平台形态不同,Gemini Robotics 都能适配,这本身验证了模型跨硬件的泛化能力。

与 Genie 3 的关系:从虚拟到物理

Google DeepMind 在推出 Gemini Robotics 的同一时期,还发布了 Genie 3 世界模型。Genie 3 可以从单张图像生成交互式 3D 环境。DeepMind 称之为"通向 AGI 的关键垫脚石"。

两者的关系是互补的。Genie 3 生成虚拟环境,Gemini Robotics 在虚拟环境中训练操作技能,然后把学到的技能迁移到真实机器人上。这是经典的 Sim-to-Real 路线,但 Genie 3 提供的虚拟环境质量远高于传统仿真器。

传统机器人仿真器(如 Gazebo、Isaac Sim)需要手动建模环境和物体。Genie 3 直接从图像生成,省掉了建模环节。这意味着训练环境的多样性可以指数级增长,而数据采集成本几乎为零。

完整的链条是:Genie 3 生成虚拟训练环境 → Gemini Robotics 在虚拟环境中学习操作技能 → 在真实机器人上部署。从世界模型到物理执行,闭环了。

对机器人产业意味着什么

范式转变

传统机器人开发的核心瓶颈不是硬件,而是软件。每换一个任务,就需要重新编写控制逻辑或重新收集训练数据。这个成本决定了机器人只能部署在高价值的重复性场景中:汽车焊接、仓库搬运、半导体制造。

Gemini Robotics 代表的范式转变是:用通用 AI 模型替代任务专用软件。同一个模型,通过自然语言指令就能切换任务。"把零件放进盒子"和"把零件从盒子中取出",对传统机器人来说是两个完全不同的程序。对 Gemini Robotics 来说,只是两段不同的提示词。

如果这个范式成立,机器人部署的边际成本会大幅下降。这会打开大量此前 ROI 不成立的场景:小批量多品种的制造业、个人和家庭服务、农业采摘。

对中国机器人产业

中国在人形机器人硬件领域投入巨大。优必选、傅利叶、智元机器人等公司都有成熟的硬件平台。但在 AI 大脑层面,目前还没有出现对标 Gemini Robotics 或 GR00T 的通用具身智能模型。

差距不在算力,而在数据和方法论。Gemini Robotics 的核心优势来自 Gemini 大模型的多模态预训练底座,这需要极高投入的基础模型研发。中国在大语言模型领域已经追到第二梯队,但在多模态基础模型和机器人操作数据的积累上,差距仍然明显。

短期机会在两个方向。一是端侧推理:把 Gemini Robotics 这类模型部署到国产硬件上,需要大量的工程优化和本地化适配。二是垂直场景:通用模型在特定行业的落地,需要对行业工艺流程的深度理解,这不是纯 AI 公司能独立完成的。

长期来看,具身智能的竞争格局可能会复刻大语言模型的路径:美国公司在基础模型上领先,中国公司在应用层和工程化上追赶。但机器人的物理属性决定了,本地化需求比纯软件更强。一个在中国工厂部署的机器人,需要理解中文指令、适应中国工厂的布局和安全规范、对接本地的 MES 系统。这些需求会催生本土的具身智能解决方案。

真正的考验还在前面

所有这些进展都值得认真对待,但也要看到现实的约束。

目前的基准测试主要在实验室环境中完成。真实世界的噪声、不可预测性、安全约束,比测试环境复杂几个数量级。从实验室 demo 到工厂量产部署,中间的工程化挑战不容低估。

安全是另一个未解决的问题。语言模型产生幻觉,最多是一段不准确的回答。机器人产生"幻觉",可能是物理伤害。如何确保具身智能模型在物理世界中的行为安全可控,目前还没有成熟的技术方案。

数据隐私同样值得关注。机器人在执行任务时会持续采集环境视频和音频,这些数据的存储、传输和使用需要严格的治理框架。尤其是在家庭和服务场景中,这个问题会更加敏感。

但方向是明确的。AI 正在从数字世界扩展到物理世界。这个扩展不是渐进式的优化,而是能力边界的根本性拓展。当机器人不再需要为每个任务重新编程,当自然语言成为机器人控制的统一接口,我们正在进入一个不同的技术周期。

Google DeepMind 迈出了第一步。接下来的故事,会比第一步更精彩。


Comment