2025 年上半年,Google DeepMind 密集发布了一系列模型公告,从 Gemini 3.1 Pro 到 Veo 3.1,从 Lyria 3 到 Genie 3,再到 Gemini Robotics-ER 1.6,五条技术线几乎同时推进。这不是单一产品的迭代,而是一套完整模型生态的成型。
理解这套生态,不能只盯着单项基准测试。真正值得关注的,是 DeepMind 如何在五类产品之间建立技术协同,以及这套协同体系与 OpenAI 统一式路线之间的根本差异。本文从技术架构出发,系统解析每个模型的核心创新,然后在生态层面分析它们如何被整合进 Google 的平台战略。
Gemini 3.1 Pro:MoE 推理引擎
Gemini 3.1 Pro 是这场发布的核心旗舰。它的架构基于 Sparse MoE Transformer,这与 GPT-4 系列采用的 Dense Transformer 路线形成了鲜明对比。MoE(Mixture of Experts)的核心思想是:模型由多个"专家"子网络组成,每个输入 token 只激活少数专家网络而非全部。这种设计让 Gemini 3.1 Pro 在保持高质量输出的同时,大幅降低了推理计算成本。
理解 MoE 的技术逻辑,需要从 Dense 架构的问题说起。在传统的 Dense Transformer 中,每一层、每一个 token 都会激活模型中的全部参数网络。这带来了良好的模型质量,但推理成本与模型规模成正比,无法高效扩展。MoE 的解决方案是把模型分成多个"专家"子网络,每个 token 进来后由一个路由机制(Router)决定激活哪几个专家。典型配置可能是 8 个专家中激活 2 个,这样推理计算量就降低到原来的四分之一,而模型的有效参数量仍然是全部专家的总和。
这种稀疏激活特性让 Gemini 3.1 Pro 可以在不显著增加推理成本的前提下扩展参数规模。DeepMind 在这里的工程赌注是:只要专家路由做得好,稀疏激活不会牺牲模型质量,反而能在成本上形成结构性优势。从 ARC-AGI-2 的测试结果看,这个赌注已经成功,Gemini 3.1 Pro 在推理任务上的领先幅度达到了 20 个百分点以上。
上下文长度是另一个硬指标。官方标注为 1M 上下文,但实际有效长度可达 2M。输出 token 上限为 65K。这三个数字加在一起,意味着 Gemini 3.1 Pro 可以一次性处理一本中等厚度书的全部内容,并能生成长篇连贯论述。这个能力对于法律文档分析、长篇报告生成、代码库全局理解等场景有直接意义。在实际测试中,Gemini 3.1 Pro 可以完成对整本《算法导论》的问题回答和代码示例生成,输出的完整性和一致性都达到了可用水平。
在训练基础设施层面,Gemini 3.1 Pro 运行在 Google 自研的 TPU Pods 上,使用 JAX + ML Pathways 框架。TPU Pods 是 Google 内部面向 ML 训练的高性能计算集群,通过高速互联把数千块 TPU 芯片整合成单一计算单元。Pathways 是 Google 早在 2021 年提出的统一分布式计算架构,目标是用一套系统支撑多种硬件和多种任务,避免为每个新模型单独构建基础设施。Gemini 3.1 Pro 是这套架构迄今为止最完整的落地案例,也是 Pathways 设计理念被验证的关键里程碑。
JAX 是 Google 内部的函数式 ML 框架,它的设计哲学与 PyTorch 不同:JAX 更强调纯函数式编程和硬件层面的向量化优化,而非 PyTorch 的命令式调试风格。Pathways 则是在 JAX 之上构建的调度层,负责将计算图分割、跨硬件放置、动态弹性伸缩等任务抽象掉,让研究员可以专注于模型本身而非 Infra。从结果看,DeepMind 的团队确实在这套体系上完成了 Gemini 3.1 Pro 的训练,说明 Google 的自研工具链已经足够成熟。
基准测试数据最能说明问题。在 ARC-AGI-2(用于评估 AI 推理能力的新型测试集)中,Gemini 3.1 Pro 得分 77.1%,对比 GPT-5.4 的 52.9% 和 Claude Opus 4.6 的 68.8%,领先幅度相当显著。ARC-AGI-2 的设计初衷是弥补传统基准(如 MMLU、GSM8K)已被刷烂的问题,它通过动态生成测试样本来防止数据污染,要求模型真正具备推理能力而非记忆能力。Gemini 3.1 Pro 20 个百分点的领先,说明它的推理架构设计确实进入了新的层次。
GPQA Diamond(研究生级别科学问题)的得分更是达到了 94.3%,远超前两个竞品。这个数字的含义是:在真正的硬科学问题上,Gemini 3.1 Pro 的准确率已经接近人类专家水平。GPQA Diamond 的题目设计针对的是多步推理,每道题通常需要 3-5 步逻辑推导才能得出答案。这意味着 Gemini 3.1 Pro 在长程推理链上的能力提升,不仅仅是"更准确"而是"能完成更复杂的推理任务"。
价格方面,Gemini 3.1 Pro 的输入成本为 $2/M tokens,输出为 $12/M tokens,比竞品便宜 5 到 7 倍。GPT-5.4 的输入成本约为 $10/M,Claude Opus 4.6 约为 $5/M 输入、$25/M 输出。这个成本差异在企业级采购中非常敏感:如果一个企业每年调用量是 10 亿 tokens,用 Gemini 3.1 Pro 比用 Claude Opus 4.6 每年节省超过 100 万美元。这不是小数,对预算敏感的企业应用场景,这个价格优势可以直接改变采购决策。
原生多模态能力是 Gemini 系列的标配。文本、视觉、音频三种模态共享同一个模型架构,不需要额外的 adapter 或拼接模块。这与 GPT-4V 等通过多模态拼接实现的方式不同,原生多模态在跨模态推理时的延迟和一致性表现更好。比如在分析一张包含图表的 PDF 时,Gemini 3.1 Pro 可以在单次调用中完成文字识别、图表理解、内容总结,不需要分别调用 OCR、视觉模型和语言模型。延迟降低和错误传播减少,是原生多模态的两个直接收益。
Veo 3.1:联合音视频生成
视频生成领域,Veo 3.1 代表了 DeepMind 对"视频生成不仅是视觉"这个命题的回答。它的架构核心是 Latent Diffusion 结合联合音视频生成机制。Latent Diffusion 的基本原理是:不在像素空间直接去噪,而是在压缩后的隐空间中进行去噪操作,大幅降低计算复杂度同时保持视觉质量。这套范式最早在 Stable Diffusion 中被验证,DeepMind 在 Veo 3.1 中把它扩展到了视频领域,并加入了音频联合生成的能力。
与竞品相比,Veo 3.1 最关键的技术差异化在于:它生成的不仅是画面,还有与画面精确同步的原生音频。这个能力不是简单的"视频加配乐",而是真正的视听联合建模。生成过程中,视频帧序列和音频波形序列在同一个扩散模型中被联合处理,跨模态注意力机制确保音频信号与视觉内容在时间轴上精确对齐。比如生成一个人弹吉他的视频,琴弦振动的音效必须与手指按弦的动作在帧级别同步,这需要模型同时理解视觉动作和音频物理。
Chain-of-Frames 机制是 Veo 3.1 的核心技术之一。这个名称直接类比了 LLM 中的 Chain-of-Thought,DeepMind 的意思是:视频生成也应该有一个"思维链",在生成后续帧时参考前面帧的语义连贯性,而不是孤立地生成单帧图像然后拼起来。技术上,这意味着 Veo 3.1 在推理过程中维持了一个跨帧的注意力图谱,确保人物动作、光影变化、物体运动在时间轴上连续。
具体来说,Chain-of-Frames 解决了一个关键问题:视频生成模型在生成长序列时容易出现"漂移",即后续帧与前面帧在风格、光照、物体颜色等方面产生不一致。这个问题的根源是模型在生成第 N 帧时没有足够强的机制去"记住"前面帧的全局特征。Chain-of-Frames 通过在每帧生成时显式引入对全局时空表征的注意力,有效抑制了漂移现象。从 VBench 2.0 的时序一致性得分 8.9/10 来看,这套机制的效果得到了验证。
生成长度方面,Veo 3.1 支持最长 90 秒的视频,这在 2026 年初是最高档位。OpenAI 的 Sora 支持 60 秒,Runway Gen-3 支持 10 秒,Pika 支持 3-5 秒。90 秒已经可以覆盖绝大多数社交媒体短视频和广告场景的需求。分辨率最高支持 4K,这是另一个高门槛规格,大多数竞品目前最高支持 1080p。4K 分辨率意味着 Veo 3.1 生成的视频可以直接用于商业放映,而不需要先生成再 upscale。
此外还有两个值得注意的功能:Ingredients to Video 和原生竖屏模式。Ingredients to Video 允许用户上传一段已有视频作为生成起点,模型在此基础上继续延伸或重新生成。这对于视频内容扩展和风格迁移很有用。原生竖屏模式则针对短视频平台优化,生成画面自动适配 9:16 比例,不需要后期裁剪。这两个功能反映了 DeepMind 对内容创作者需求的理解,不仅仅是技术展示而是产品化落地。
VBench 2.0 是衡量视频生成质量的权威基准,它从 16 个维度评估视频质量,包括时序一致性、解剖准确度、动作流畅度、画面美感等。Veo 3.1 在时序一致性上得分 8.9/10,解剖准确度 9.1/10,这两个数字意味着它生成的视频在动作连贯性和人物结构合理性上处于行业领先水平。解剖准确度是一个容易被忽视但很重要的指标:之前很多视频生成模型在生成人物时会有人体结构错误,手指数量不对、关节方向错误等问题。Veo 3.1 在这个维度上的高分说明它对人体物理特性的理解达到了可用精度。
从技术演进角度看,Veo 3.1 的出现标志着视频生成从"纯视觉"向"视听一体"的范式转移。之前的视频生成模型主要解决视觉质量问题,音频靠后期合成或 TTS 配音完成。Veo 3.1 则将音频视为视频生成的一等公民,在同一个扩散模型中联合建模。这种做法的好处是音画同步的精度可以做到帧级别,坏处是训练复杂度显著提升,对算力的要求也更高。目前行业中能做到真正联合音视频生成的团队屈指可数,DeepMind 在这里建立了明确的技术壁垒。
Lyria 3 / 3 Pro:结构化音乐创作
Lyria 3 是 DeepMind 在 AI 音乐生成领域的最新成果。它的技术架构采用两阶段设计,这是理解它的关键,也是它区别于其他音乐生成模型的核心差异。
第一阶段是符号结构生成,使用 Transformer 网络将文本描述或旋律片段转换为符号化的音乐结构表征。这套表征包括和弦进程、调性信息、段落划分、动态标记,以及最重要的:MIDI 输出格式。符号化表征的优势是它可以被人类理解和编辑,这是 Lyria 与纯音频生成模型的根本区别。用户可以先生成音乐结构,然后手动修改某个和弦或段落,再用这个修改后的结构去生成音频。
第二阶段是条件音频合成,使用 Diffusion 模型在给定符号结构的条件下生成波形级别的音频。Diffusion 模型在图像生成领域的成功已经被充分验证,它在音频生成领域的应用稍晚但原理类似:通过逐步去噪从随机噪声中恢复出音频信号。Lyria 3 的条件 Diffusion 接受第一阶段的符号表征作为生成条件,确保生成的音频遵循指定和弦进程和段落结构。
两阶段之间有一个重要的设计决策:两个阶段分别训练,但在推理时紧密耦合。用户输入的音乐描述会经过第一阶段的"理解"后再传给第二阶段,而不是端到端直接映射。这种解耦设计有几个好处:首先,每个阶段可以独立优化,不需要联合训练所有参数;其次,两个阶段的技术栈相对独立,第一阶段的 Transformer 和第二阶段的 Diffusion 可以各自演进;最后,可解释性更强,当输出结果不理想时,可以定位是第一阶段的结构理解问题还是第二阶段的音频质量问题。
Lyria 3 Pro 在此基础上进一步扩展了控制维度和时长。最长生成时长达到 3 分钟,段落控制功能支持对 intro、verse、chorus、bridge 等段落分别指定不同的情绪、节奏和动态参数。每个段落可以有独立的 BPM、和弦进程和音色描述,模型在生成时会保持段落之间的音乐逻辑连贯性而不是随机拼接。MIDI 输出意味着 Lyria 3 Pro 生成的音乐可以直接导入 DAW(数字音频工作站)进行二次编辑,而不是一个封闭的终点产物。
3 分钟这个时长上限对商业音乐场景很有意义。绝大多数流行歌曲的副歌片段在 30 秒到 1 分钟,全曲在 3-4 分钟。Lyria 3 Pro 生成的 3 分钟音频可以作为完整歌曲的草稿,或者经过人工调整后成为商业成品。对比之下,Suno 等竞品的免费版本限制在 30 秒以内,付费版本才能生成 2 分钟,这个差距直接影响专业用户的使用意愿。
API 层面,Lyria 3 Pro 通过 Vertex AI 提供,模型 ID 为 lyria-3-pro-preview。这个设计反映了 Google 的平台化策略:将前沿模型以托管 API 的形式交付给企业用户,而不是让用户自己部署和维护模型。这种做法对音乐制作公司、游戏工作室和广告公司的吸引力在于:它们不需要 GPU 集群,也不需要 ML 工程团队,只需要调用 API 就可以在产品中加入 AI 音乐生成能力。Vertex AI 的企业级 SLA 和用量管理也让采购决策更容易。
Lyria 系列在之前的文章中已有深入讨论,核心结论是:DeepMind 在音乐生成质量上已经突破了"恐怖谷"效应,Lyria 3 生成的段落不再有明显的"AI 感",在和弦编排和节奏变化上甚至表现出一定的创意多样性。但结构化控制能力的提升,才是 Lyria 3 Pro 区别于开源竞品的核心竞争力。音乐专业人士需要的不是"随机生成一段好听音乐",而是"在约束条件下生成符合特定需求的音乐",Lyria 3 Pro 的段落控制和 MIDI 输出直接对应这个需求。对于 AI 音乐生成市场来说,这代表了从"玩具"到"工具"的转变。
Genie 3:实时交互世界模型
Genie 3 是这份清单里技术定位最特殊的一个。它不是生成内容,而是生成"世界":一个可以被用户实时交互的虚拟环境。这与文本生成、图像生成、视频生成、音乐生成都有本质区别,它生成的不是静态作品,而是动态响应。每次用户做出动作,世界都会实时生成新的反馈,而不是播放预先生成的内容。
从技术参数看,Genie 3 支持 720p 分辨率和 24 FPS 的实时输出,文本到可交互 3D 世界的转换是它的核心能力。用户输入一段文本描述,比如"一个中世纪风格的城镇广场,有喷泉、摊位和走动的人群",Genie 3 会生成一个可探索、可交互的 3D 环境,用户可以用键盘或手柄在其中移动并与物体互动。关键指标是视觉记忆一致性:在约 60 秒的交互过程中,Genie 3 能够保持场景元素、角色属性和物理规则的一致性,不会出现"穿越"或"遗忘"问题。如果用户拿起了一个物体,60 秒后这个物体仍然在用户手中,而不是凭空消失。
这里有一个重要的技术区分:Genie 3 不需要显式的 3D mesh 输入。与传统游戏引擎使用 3D 模型、纹理、光照等显式表征不同,Genie 3 的世界模型运行在隐式表征层面,通过神经网络直接预测用户在某个动作后的视觉反馈。这与自动驾驶领域的世界模型概念类似,都是在预测"如果我做出动作 X,环境会如何响应"。区别在于 Genie 3 处理的是完全虚拟的环境,不需要与物理世界对应。开发者不需要懂 3D 建模,只需要描述你想要的世界,AI 就会生成它。
这种隐式表征的代价是生成结果有一定随机性。Genie 3 不是精确渲染一个已知场景,而是在每次交互时实时"想象"画面。这意味着如果用户重复同一条指令两次,生成的画面可能有细微差异。这个特性对于游戏内容生成是可接受的(每次游戏体验略有不同增加了 replayability),但对于需要精确物理规则的应用场景(如工程仿真)就不适合。如果用于机器人仿真训练,过于随机的环境生成可能导致训练效果不稳定。
实时可交互是 Genie 3 的核心卖点。这里的"实时"不仅指低延迟,还指模型需要在用户做出动作后立即生成响应帧,而不能像视频生成那样先生成再播放。这要求推理速度必须达到实时帧率,对模型压缩和硬件调度都有更高要求。720p @ 24 FPS 这个规格,意味着 Genie 3 每帧的生成时间必须低于 41.6 毫秒,这个要求在 2026 年初的模型推理效率下仍然具有挑战性。DeepMind 很可能使用了模型蒸馏和量化压缩来达到这个性能目标。
Genie 3 的潜在应用场景包括游戏内容生成、机器人仿真训练和虚拟环境快速构建。其中机器人仿真训练是最直接的商业路径:真实机器人的训练成本极高,在仿真环境中预训练可以大幅降低成本,而仿真的真实性又直接决定了迁移到真实世界的效果。Genie 3 的世界模型恰好填补了这个需求,游戏工作室和机器人公司是它的两个目标客户群。与其让机器人公司在真实环境中反复试错,不如先在 Genie 3 生成的虚拟环境中积累足够多的成功和失败经验。
Gemini Robotics-ER 1.6:具身推理
Gemini Robotics-ER 1.6 的命名中,"ER"代表 Embodied Reasoning,即具身推理。这个名字直接点出了它的核心能力:让 AI 在物理世界中完成需要身体参与的任务,而不仅仅是生成文本或图像。这代表了 AI 从"说"到"做"的延伸,是 DeepMind 技术版图中唯一直接与物理世界交互的模型。
它的架构采用了双模型协同设计,这是理解它的关键。ER 模型运行在云端,负责复杂的具身推理;VLA(Vision-Language-Action)模型部署在本地,负责实时的视觉-语言-动作闭环。两个模型各司其职,通过标准接口通信。这不是简单的主从关系,而是真正的分工协作:云端模型负责"思考",本地模型负责"执行"。
这种云端加本地的架构设计反映了具身智能的一个根本矛盾:复杂的推理需要大算力支持,但机器人的实时控制又要求低延迟和本地化。机器人需要在毫秒级别对环境变化做出反应,如果所有计算都传到云端再返回,网络延迟就会成为无法逾越的障碍。Gemini Robotics-ER 1.6 通过分工解决了这个矛盾。ER 模型在云端可以利用 Gemini 3.1 Pro 的完整推理能力,处理需要长期规划的复杂任务;VLA 模型在本地处理实时感知和动作执行,两者通过标准接口通信。
技术报告中最亮眼的数字是仪器读数准确率:从基线的 23% 提升到 93%。仪器读数指的是机器人在操作机械设备时读取仪表盘数据的能力,这个任务需要视觉识别、数字理解和动作执行的紧密配合。机器人需要准确识别仪表盘上的指针位置、数字读数、警告灯状态,然后根据这些信息决定下一步操作。93% 的准确率意味着 Gemini Robotics-ER 1.6 已经可以在真实工业场景中承担有意义的操作任务,而不仅仅是实验室演示。这个数字背后是大量真实工业场景数据的训练和验证。
Agentic Vision 是另一个关键能力,它包含两个子功能:自主缩放和比例估计。自主缩放让机器人可以在单一视觉输入中自动识别不同距离和尺寸的物体并进行操作,不需要预先校准。比如同一个视觉模型需要处理近处的螺丝刀和远处的门把手,尺寸差异可能达到几十倍,自主缩放让机器人可以自适应处理这种尺度变化。比例估计则让机器人理解物体尺寸的相对关系,这在抓取和操作任务中至关重要,机器人需要知道自己的手爪能否夹住某个物体,以及需要用多大的力道。这两个能力的组合让机器人在非结构化环境中更具鲁棒性。
Gemini Robotics-ER 1.6 还包含一个被低估的能力:长程任务规划。在真实工业场景中,一个简单的操作任务往往需要多步完成,比如"拧开这个螺丝,然后拿起这个零件,安装到那个位置,最后锁紧螺丝"。ER 模型可以在云端将这个任务分解成具体的动作序列,然后分步发送给 VLA 模型执行。如果中途出现意外(比如零件位置偏移),ER 模型可以重新规划下一步动作,不需要人工干预。这种"规划-执行-反馈-重规划"的循环是具身智能的核心,也是 Gemini Robotics-ER 与简单视觉模型的本质区别。
合作伙伴生态是 Gemini Robotics-ER 商业化路径的晴雨表。Boston Dynamics、Apptronik 和 Agility 这三家公司的选择,从侧面验证了 Gemini Robotics-ER 的技术成熟度。Boston Dynamics 以 Atlas 双足机器人在全球闻名,Apptronik 和 Agility 分别专注于人形机器人的不同细分赛道。这三家公司愿意将 DeepMind 的模型集成进它们的机器人系统,说明 Gemini Robotics-ER 在控制接口、实时性和可靠性上达到了工业应用门槛。从商业角度看,与成熟机器人公司的合作比从零开始建立硬件团队效率更高,这也是 Google 平台化策略在具身智能领域的延伸。
生态整合视角
五个模型看完之后,DeepMind 2026 生态的整体战略逻辑才清晰起来。
Google 的核心策略是将模型作为基础设施,平台化是关键词。这个定位意味着 Google 不追求在每个领域都做出体验最完整的产品,而是追求在每个领域都提供能力最强的底座模型,让开发者和企业在这个底座上构建自己的产品。类比的话,Google 在 AI 时代扮演的是"铸币厂"角色:它提供的是标准化的能力货币,具体怎么花是第三方的事。这种定位与 Microsoft 的路线有本质区别,Microsoft 更倾向于把 AI 能力整合进自己的产品(Office 365、Azure)中形成闭环。
具体来说,Gemini 3.1 Pro 作为底座模型,通过 Vertex AI、AI Studio 和 Gemini App 三个入口对外提供。这三个入口面向不同用户层级:Vertex AI 面向企业级 API 用户,提供 SLA 保障和使用量管理;AI Studio 面向开发者快速原型开发,提供交互式 Notebook 环境;Gemini App 面向终端消费者直接使用,提供对话式交互界面。五个模型共享同一套部署底座和工具链,开发者学会一个平台的用法,就可以触达所有模型,学习成本被大幅降低。这种多层级入口的设计确保了同一套模型能力可以被不同深度的用户使用。
Gemini 作为连接枢纽的角色值得深究。从技术架构看,Gemini 3.1 Pro 的 MoE Transformer 骨干在多个模型中被复用:Veo 3.1 的文本理解和指令解析、Lyria 3 的音乐描述理解、Genie 3 的交互指令处理,都建立在 Gemini 的语言理解能力之上。这意味着 DeepMind 的模型生态不是五个独立产品的拼接,而是一个以 Gemini 为核心的星型结构。每个垂直模型的输入都先经过 Gemini 的理解模块,输出再根据各自的任务特性进行调整。这种架构的好处是:语言理解能力的进步会自动惠及所有模型,不需要每个模型单独优化。
云优先是 Google 与 OpenAI 策略分叉的核心路口。OpenAI 倾向于在 ChatGPT 中整合所有能力,提供一个统一的产品体验,用户在一个界面中完成所有任务。这种策略的好处是用户体验简洁,坏处是灵活性不足,每个能力都是预设好的,用户无法选择特定模型或定制化工作流。Google 的策略则相反:每个模型独立进化、独立部署,通过标准化 API 允许企业用户自行组合。这种模块化策略的优势是灵活性,企业可以根据自己的需求选择要接入哪些模型,自己设计工作流和集成方案;劣势是集成复杂度更高,企业需要一定的工程能力才能把这些模型整合成完整产品。Google 承担的是平台建设者而非产品设计者的角色。
从生态竞争角度看,Google 的这套模块化策略与 Apple 的应用生态逻辑有某种相似:第三方开发者在上面构建产品,平台提供基础设施和流量分发。这套逻辑要成立,前提是每个模型的能力都足够强、独立价值都足够大,让开发者在比较成本收益后愿意基于 Google 的模型而不是从零构建。目前来看,Gemini 3.1 Pro 的推理能力、Veo 3.1 的视听同步、Lyria 3 Pro 的结构化控制、Genie 3 的实时交互、Gemini Robotics-ER 的具身推理,这五个能力各自都有不可替代性,这是整个生态成立的技术基础。如果任何一个模型的能力明显弱于竞品,整个平台的可信度都会受到影响。
DeepMind 的生态整合逻辑还可以从另一个角度理解:Google 拥有从云端到终端的完整产品线,模型能力可以通过 Google Cloud 企业用户、通过 Android 系统终端用户、通过 Google 搜索导流。这意味着 DeepMind 的模型不仅是技术输出,也是 Google 整体产品竞争力的组成部分。当 Veo 3.1 的视频生成能力与 YouTube 平台结合,当 Lyria 3 的音乐生成能力与 YouTube Music 结合,当 Gemini 的对话能力与 Google 搜索结合,这种平台与模型的协同是 OpenAI 和 Anthropic 目前无法复制的优势。Google 的生态广度决定了它的模型落地速度远快于纯 AI 公司。
竞争格局对比
下面这张表格从技术基准和商业维度对比了 Gemini 3.1 Pro 与主要竞品。
| 基准 | Gemini 3.1 Pro | GPT-5.4 | Claude Opus 4.6 |
|---|---|---|---|
| ARC-AGI-2 | 77.1% | 52.9% | 68.8% |
| GPQA Diamond | 94.3% | 87.1% | 91.3% |
| SWE-bench | 80.6% | 78.2% | 80.8% |
| 价格(输入) | $2/M | ~$10/M | $5/M |
| 价格(输出) | $12/M | ~$30/M | $25/M |
几个观察值得注意。ARC-AGI-2 的差距最为显著,Gemini 3.1 Pro 在这个新兴推理基准上的领先幅度超过 20 个点。考虑到 ARC-AGI-2 的设计初衷是防止数据污染和评测真实推理能力,这个领先幅度说明 Gemini 3.1 Pro 在下一代 AI 评测体系中的地位可能比传统基准反映的更强。这可能预示着未来模型评估体系向这个方向倾斜,企业采购时除了看 MMLU 也会参考 ARC-AGI-2。
GPQA Diamond 的差距同样明显,但在 SWE-bench(软件工程任务)上三者差距已经很小。SWE-bench 要求模型既能理解代码库又能生成正确补丁,这个任务的复合性使得它成为代码生成能力的权威指标。80.6% 对 80.8%,Gemini 3.1 Pro 在这个指标上与 Claude Opus 4.6 基本持平,说明代码生成任务上的能力差距正在快速收窄。GPT-5.4 在这里略低,可能与其模型规模调整策略有关。
价格方面,Gemini 3.1 Pro 的成本优势是结构性的,来自 MoE 架构的稀疏激活特性。Dense Transformer 架构的模型无法在保持质量的前提下实现同等水平的计算节省,这个优势短期内不会消失。但这里有一个重要条件:Google 必须持续维持这个定价并且不降低服务质量。如果 Google 未来迫于竞争压力提高价格,成本优势会缩小。
选型决策框架
根据上述分析,不同场景下的选型逻辑如下。
需要最强推理能力且预算敏感的场景,Gemini 3.1 Pro 是首选。它的 MoE 架构在复杂推理任务上优势明显,价格却是竞品的五分之一到七分之一。ARC-AGI-2 和 GPQA Diamond 这两个基准的领先,对需要高精度推理的企业应用(如法律分析、科学研究辅助)直接意味着更低的幻觉率和更可靠的结论。法律文档分析、药物分子模拟、材料科学计算,这些场景都需要 AI 在多步推理中保持高准确率,Gemini 3.1 Pro 目前是最匹配的选择。
视频生成场景,Veo 3.1 的视听同步能力是差异化核心。如果你的产品需要生成带背景音乐和音效的视频,Veo 3.1 的联合生成方案比分别生成视频和音频再合成的方式更简洁、效果更一致。4K 分辨率和 90 秒时长覆盖了绝大多数商业视频场景。广告创意公司、社交媒体内容团队、在线教育平台,这些用户对视频质量要求高但缺乏专业视频制作资源,Veo 3.1 的 API 可以大幅降低视频内容生产成本。
音乐生成场景,Lyria 3 Pro 的结构化控制能力是关键。如果你的需求是"生成一段符合特定情绪和风格要求的背景音乐,并且我可以进一步编辑",Lyria 3 Pro 的 MIDI 输出和段落控制比纯生成方案更有工程价值。游戏工作室需要动态匹配游戏场景的背景音乐,广告公司需要快速生成品牌音乐,视频平台需要自动配乐,这些场景都需要可编辑的音乐输出而不是固定成品。Lyria 3 Pro 的 3 分钟时长和段落控制功能直接支持这些需求。
交互式虚拟环境构建,Genie 3 是目前唯一可选的选项。其他视频生成模型不支持实时交互,世界模型赛道目前只有 Genie 3 达到了可工程化应用的成熟度。游戏工作室如果想实现 AI 驱动的动态游戏世界,机器人公司如果需要大规模仿真训练环境,Genie 3 是目前最接近生产可用的选择。当然,720p @ 24 FPS 的画质和帧率距离顶级游戏引擎还有差距,早期采用者需要接受这个现状。
具身操作任务,Gemin Robotics-ER 1.6 的双模型架构最适合工业级应用。云端推理加本地 VLA 的分工设计,在复杂任务规划和实时执行之间取得了最佳平衡。对于需要机器人完成精密装配、工业检测、危险环境操作等任务的企业,Gemin Robotics-ER 1.6 提供的具身推理能力是目前最完整的解决方案。合作伙伴生态已经覆盖了主流人形机器人厂商,接入门槛相对较低,但需要注意这类项目的实施周期较长,需要一定的集成开发投入。
常见问题
Gemini 3.1 Pro 的 MoE 架构与 GPT-4 的 Dense 架构相比,优势在哪里?
Sparse MoE 的核心优势是计算效率。在 Dense Transformer 中,每个 token 激活全部参数;在 Sparse MoE 中,每个 token 只激活少数专家网络。这意味着相同参数规模的模型,MoE 架构的推理成本可以降低数倍。Gemini 3.1 Pro 能够以较低价格提供高质量输出,MoE 架构是关键技术基础。代价是工程复杂度更高,需要解决专家负载均衡、路由稳定性、专家选择多样性等一系列问题,这些问题的解决需要大量的实验和调优。
Veo 3.1 的原生音频同步是怎么实现的?
技术上,Veo 3.1 在训练时将视频帧序列和音频波形序列作为联合表征输入扩散模型。扩散模型的噪声预测目标同时包含视觉噪声和音频噪声两部分,跨模态注意力机制让模型在学习生成视觉内容时同步学习音频信号。这种联合训练的难度高于单独训练,音频和视觉的表征空间差异很大,需要设计合理的跨模态对齐方案。但换来了帧级别的音画同步精度,其他分别生成再合成的方式无法达到这个同步等级。
Lyria 3 的两阶段架构为什么这样设计,而不是端到端?
两阶段设计的核心原因是音乐表征的层次性。符号层面的音乐结构(和弦、调性、段落)与波形层面的音频细节属于不同粒度的信息,用同一个模型同时学习两种表征的难度很高。两阶段设计让每个阶段专注于自己的任务:Transformer 学习"作曲规则",Diffusion 学习"声音质感",再通过条件耦合连接两个阶段。这种解耦也方便两阶段独立迭代,当有新的作曲理论突破时可以单独改进第一阶段,当有新的音频生成技术时可以单独改进第二阶段。
Genie 3 与传统游戏引擎的区别是什么?
传统游戏引擎依赖人工设计的规则和显式 3D 表征(mesh、texture、lighting),每个场景元素都需要开发者明确建模。Genie 3 的世界模型通过神经网络隐式表征世界,用户输入动作后模型直接预测视觉反馈,过程中不需要显式的 3D mesh。好处是内容生成完全由 AI 自动完成,开发者不需要成为 3D 建模师。代价是生成结果有一定随机性,不适合需要精确物理规则的应用场景,也不适合对画质有严格要求的 AAA 级游戏。
Gemini Robotics-ER 为什么需要云端和本地双模型?
具身推理任务存在一个根本矛盾:复杂任务规划需要大算力支持,但机器人实时控制要求低延迟和本地化。云端 ER 模型利用 Gemini 3.1 Pro 的完整推理能力处理需要长期规划的任务;本地 VLA 模型处理实时感知和动作执行。双模型分工让两个需求各自得到满足,代价是系统复杂度增加,需要设计可靠的通信和故障处理机制。如果网络连接中断,本地 VLA 需要能够独立运行安全模式,这个容错设计增加了系统复杂性。