Administrator
Published on 2026-05-05 / 6 Visits
0
0

"智能时代基础设施:OpenAI Stargate 与算力规模化战略内幕"

AI 行业正在经历一场规模空前的基础设施建设浪潮。当我们在讨论模型能力突破时,真正决定竞争格局的底层变量是算力。OpenAI 的 Stargate 项目,总投资计划超过 4000 亿美元,总电力容量接近 7 吉瓦,是这场浪潮中体量最大、复杂度最高的单一项目。这篇文章拆解 Stargate 的全貌,把它放在全球 AI 算力竞赛的坐标系里看清楚。

Stargate 是什么

2025 年 1 月 21 日,白宫发布官方公告,宣布 OpenAI、SoftBank、Oracle 三方联合成立 Stargate 项目,MGX 作为额外合作方参与。初始投资 1000 亿美元,四年计划总投资 5000 亿美元。这是美国政府对 AI 基础设施最高规格的背书,也是私营部门对 AGI 路径最大规模的单笔押注。

2025 年 9 月,OpenAI 发布更新,宣布新增五个站点,将总容量扩展到接近 7 吉瓦,三年内的投资规模调整为超过 4000 亿美元。从最初的单一站点到六个站点的集群布局,Stargate 已经不是一个数据中心项目,而是一个算力基础设施体系。

核心数据

Stargate 的第一个站点 Project Ludicrous 位于得克萨斯州阿比林市,占地 875 英亩。这个站点的核心配置:

8 栋数据中心建筑,总建筑面积约 400 万平方英尺。部署超过 45 万块 Nvidia GB200 GPU。电力容量 1.2 吉瓦,足够供应 100 万个家庭。这是目前全球已知最大的单一 AI 算力集群。

另外五个站点分布在得克萨斯州、新墨西哥州等地,目前公开的有:

  1. Project Ludicrous:阿比林,已进入建设阶段
  2. Frontier Campus:得克萨斯州 Shackelford County
  3. SoftBank Milam Data Center:得克萨斯州 Milam County
  4. Project Jupiter:新墨西哥州 Doña Ana County
  5. 第五站点:尚未公布具体位置

六个站点合计 7 吉瓦的电力容量,意味着 Stargate 的总耗电量相当于七座大型核电站的发电能力。

阿比林站点的建设规模本身就值得单独说明。Oracle 在项目公告中披露,仅阿比林一个站点就将创造超过 25,000 个现场就业岗位,涵盖建筑施工、设备安装、电力系统和冷却设施的维护运营。这个数字不包含后续运营阶段的长期岗位。按此估算,六个站点全面铺开后的总就业影响将达到数十万人。在得克萨斯州和新墨西哥州的当地经济中,这个体量的投资几乎是再造一个小型城市。

技术层面,Stargate 的设计目标指向 Zettascale 级别计算。Zettascale10 是下一代超级计算的标杆,定义为每秒 10 的 21 次方次浮点运算,比当前最强的 Exascale 超算高出三个数量级。要达到这个级别,需要在芯片密度、互联带宽和能效三个维度同时突破。Stargate 的 45 万块 GB200 GPU 组成的集群,在峰值状态下已经接近 Zettascale 的门槛。这解释了为什么项目的电力需求如此极端:计算密度和能源消耗是同一枚硬币的两面。

竞争格局

Stargate 不是孤例。全球头部 AI 公司都在用相似的逻辑扩建算力。

xAI 的 Colossus 集群目前部署了超过 20 万块 GPU,2026 年 1 月扩展到 55.5 万块,目标直指 100 万块。投资规模超过 400 亿美元。Elon Musk 的策略是速度优先,用最快的时间把 GPU 堆上去,训练 Grok 系列模型。

微软的投入同样惊人。作为 OpenAI 的核心云伙伴,微软 2025 财年在 Azure AI 基础设施上的支出预计达到 800 亿美元。这个数字是微软全年资本支出的绝大部分。微软的模式不同于 Stargate,它通过 Azure 向多个 AI 公司提供算力,OpenAI 只是最大的客户。

Google 选择走自研路线。TPU v5p 和后续的 Trillium 芯片构成了 Google 的算力底座,配合 Google Cloud 对外服务。Google 的优势在于芯片设计和分布式系统的深度整合,不依赖 Nvidia 的供应链。

Meta 的野心也不小。Mark Zuckerberg 公开表示 Meta 的训练集群规模在 2025 年已经达到数十万块 GPU 的量级,主要用于训练 Llama 系列开源模型。

中美算力竞赛的格局正在成型。美国通过 Stargate 等项目把算力优势拉大到数个数量级,中国在芯片进口限制下面临高端 GPU 供给不足的困境。但中国企业在大模型训练效率和模型压缩方面的创新能力不容忽视,这场竞赛不是单纯的硬件堆叠。

自研芯片正在成为行业的新共识。Google 的 TPU 已经迭代到第六代,从最初的推理专用芯片演变为训练推理一体化的通用加速器,支撑了 Gemini 系列模型的全部训练。Amazon 的 Trainium 和 Inferentia 芯片在 2024 年底开始大规模部署,Amazon 宣称 Trainium2 的性价比比同期 Nvidia GPU 高出 30-40%。OpenAI 的路径略有不同:通过与 Broadcom 合作定制 AI 加速器,OpenAI 可以在保持与 Nvidia GPU 生态兼容的同时,逐步降低对单一供应商的依赖。这种混合策略的核心逻辑是供应链安全。Nvidia 的 GPU 产能有限,需求来自全球所有大型 AI 实验室,交货周期经常超过六个月。拥有自研芯片意味着在最坏情况下仍能保证算力供给,同时在与 Nvidia 的价格谈判中获得更多筹码。这个趋势对 Nvidia 的长期市场地位构成实质挑战,但短期内 Nvidia 的 CUDA 生态壁垒仍然难以撼动。

为什么算力是关键

过去三年的经验反复验证了一条规律:Scaling Law 依然成立。模型性能的提升与计算量的增加呈可预测的对数线性关系。更多的算力意味着更强的模型,这条路径到目前为止没有看到天花板。

Sam Altman 在 2025 年发表的博客文章中提出了"丰沛智能"(Abundant Intelligence)的概念。他的核心判断是:智能的成本将沿着类似摩尔定律的曲线下降,当智能足够便宜时,它可以被用于解决此前被认为不可计算的问题。他举了一个具体的例子:"也许 10 吉瓦的算力,AI 就能找到治愈癌症的方法。"

更激进的表述是关于建设节奏的:"我们的愿景很简单:每周建造一座能产出 1 吉瓦 AI 基础设施的工厂。"这不是修辞,而是 Stargate 项目推进速度的真实写照。

能源挑战

算力的尽头是能源。Stargate 项目面临的最大约束不是 GPU 产能,而是电力供应。

国际能源署(IEA)2025 年报告指出,全球数据中心电力消耗在 2024 到 2025 年间出现了显著跳升,主要驱动力就是 AI 训练和推理。美国数据中心电力消耗预计到 2030 年将翻倍。

核能正在成为 AI 数据中心的首选能源方案。多家 AI 公司已经预购了小型模块化反应堆(SMR)的电力,预购容量从 25 吉瓦上调到 45 吉瓦。核能的优势在于稳定、零碳、基荷电力,适合数据中心的 24 小时运转需求。

得克萨斯州的水资源压力也不容忽视。数据中心的冷却系统耗水量巨大,Stargate 在得州的多个站点预计每年消耗约 50 亿加仑水。在得州已经频繁经历干旱的背景下,这是一个需要认真对待的环境约束。

能源问题对中国读者有特殊的意义。中国拥有全球最大的可再生能源装机容量,但在高端 AI 算力受限制的前提下,如何把清洁能源优势转化为 AI 竞争力,是一个值得深思的产业政策问题。

万亿美元交易全景

Stargate 只是 OpenAI 算力版图的一部分。围绕 OpenAI 的 AI 基础设施交易已经累计超过万亿美元规模:

合作方 金额 说明
Broadcom 3500 亿美元 10 吉瓦 AI 加速器产能
Oracle 3000 亿美元 5 年云服务合同
Microsoft 2500 亿美元 7 年 Azure 基础设施
Nvidia 1000 亿美元 GPU 租赁协议
AMD 900 亿美元 6 吉瓦数据中心容量

这些数字的量级需要横向对比才能理解。全球半导体行业 2024 年全年营收约为 6000 亿美元。OpenAI 一家公司在 AI 基础设施上的计划投入,已经接近整个半导体行业的年收入。

Broadcom 的 3500 亿美元交易尤其值得关注。这意味着 OpenAI 正在通过定制 AI 加速器减少对 Nvidia 的依赖。自研芯片加外购 GPU 的混合架构,正在成为大型 AI 实验室的标准策略。Google 有 TPU,Amazon 有 Trainium,现在 OpenAI 通过 Broadcom 切入同样的路径。

技术架构

Stargate 部署的核心硬件是 Nvidia GB200 NVL72。这是一个高度集成的计算单元:

每个 NVL72 机架包含 72 块 Blackwell 架构 GPU 和 36 颗 Grace CPU。内存配置最高可达 17TB LPDDR5X 加 13.5TB HBM3e。GPU 间通过 NVLink 互联,带宽达到 130 TB/s。单块 GPU 的功耗在 700 到 1200 瓦之间。

这个规格意味着几件事。第一,单机架的计算密度极高,45 万块 GPU 的总算力是此前任何集群都无法比拟的。第二,功耗是硬约束,每块 GPU 最高 1200 瓦,45 万块就是 540 兆瓦,加上冷却和配套设备,1.2 吉瓦的电力容量是合理的。第三,NVLink 的 130 TB/s 带宽使得大规模分布式训练的通信开销可控,这是训练万亿参数模型的前提。

功耗密度是当前 AI 数据中心设计中最棘手的工程问题。传统数据中心的机架功耗通常在 5 到 10 千瓦之间,云计算数据中心的高密度机架可以达到 20 到 30 千瓦。GB200 NVL72 机架的功耗约为 76.4 千瓦,已经远远超出传统设计极限。下一代基于 Vera Rubin 架构的机架预计将达到 120 到 140 千瓦,是传统机架的 10 倍以上。这个数字对数据中心的电力分配、散热和物理基础设施提出了根本性的挑战。

具体来说,每平方英尺的散热功率从传统的 50-100 瓦跃升到 500-1000 瓦,传统的风冷系统已经完全无法胜任。液冷成为唯一的可行方案,但液冷的数据中心建设成本比传统风冷高出 30-50%,且对管道密封和防漏的要求极高。一次微小的冷却液泄漏就可能导致数十万美元的 GPU 损坏。从 76.4 千瓦到 120-140 千瓦的跃迁,不只是一个数字变化,而是要求数据中心从建筑结构到运维流程的全面重新设计。

从架构角度说,GB200 NVL72 代表了当前 AI 加速器的工程极限。但更值得关注的是趋势:下一代 Vera Rubin 架构已经在路上。Nvidia 在 2025 年的 GTC 大会上公布了 Vera Rubin 的初步规格,单 GPU 的 FP4 推理性能达到 Blackwell 的数倍,互联带宽进一步提升。Vera Rubin 的关键变化在于引入了全新的 NVLink 6 互联协议,带宽预计从当前的 1.8 TB/s 单向提升到超过 3 TB/s。这意味着在相同的物理基础设施上,通过硬件迭代可以实现算力的成倍增长。Stargate 的算力上限不是静态的,硬件迭代会持续推高它的峰值能力。

对 AGI 的意义

算力是不是 AGI 的充分条件?不是。但越来越多的证据表明,它是最重要的必要条件之一。

Stargate 的 45 万块 GB200 GPU,如果全部用于训练一个稠密 Transformer 模型,可以支撑的参数规模已经远超当前最大的 GPT-4 级别模型。这还不算算法效率的持续改进。换句话说,硬件已经在等着算法追上来了。

计算量的增长速度本身就是一条值得关注的曲线。从 GPT-2 到 GPT-4,训练计算量增长了大约 4.5 到 6 个数量级。GPT-2 在 2019 年的训练计算量约为 1.5 × 10^21 FLOPS,而 GPT-4 在 2023 年的训练计算量估计在 2 × 10^25 FLOPS 量级。按照这个趋势外推,如果算法效率没有重大突破,下一代前沿模型的训练可能需要 10^27 甚至 10^28 FLOPS 级别的计算量。Stargate 的 45 万块 GB200 GPU 提供的总算力,正是为了匹配这个增长曲线。有分析预测,到 2027 年,可能只需要约 1 分钟的计算时间就能完成当前 GPT-4 级别模型的全部训练。这个预测基于两个假设:硬件性能持续翻倍、分布式训练的线性扩展效率保持在 40% 以上。无论这个时间线是否精确,趋势是清晰的:今天的"大规模"在两年后只是基准线。

分布式推理是另一个关键方向。AGI 级别的系统需要同时服务数十亿用户,这意味着推理算力的需求可能远超训练。Stargate 的多站点架构天然适合分布式推理,把推理请求分发到离用户最近的站点,降低延迟,提高吞吐量。

推理效率的优化正在成为独立的工程学科。2025 年,Red Hat、Google、CoreWeave 和 IBM 联合发起了 llm-d 项目,核心思路是将大语言模型的推理过程分解为 prefill 和 decode 两个独立阶段。Prefill 阶段负责处理输入提示词并生成初始的 KV Cache,属于计算密集型任务,需要高算力的 GPU 集群。Decode 阶段负责逐 token 生成输出,属于内存带宽密集型任务,可以在低功耗、大显存的加速器上运行。通过将两个阶段部署到不同类型的硬件上,可以在不牺牲输出质量的前提下,将推理成本降低 40-60%。这种 disaggregated serving 架构对 Stargate 这样的多站点集群尤其有价值:算力密集的 prefill 可以集中在电力成本低廉的站点执行,而延迟敏感的 decode 可以部署到靠近用户的边缘节点。

对于正在构建 Agent 系统的团队来说,算力基础设施的规模化意味着一件事:Agent 的推理成本将快速下降。当 1 吉瓦的算力每周都在增加时,每个 Agent 调用的边际成本趋近于零。这是我们此前在 Agent Cloud 架构与分布式推理 中讨论过的趋势,Stargate 正在加速这个进程。

回到最根本的问题:Stargate 值得 4000 亿美元吗?如果 Scaling Law 继续成立,如果"丰沛智能"的愿景哪怕只实现一半,这个价格就是合理的。但如果模型能力的提升在某个节点开始偏离对数线性关系,这将是有史以来最大的赌注之一。我们正处在一个历史性的分叉点上,而 Stargate 是其中最显眼的赌注。


Comment