"MRC 协议：OpenAI 新网络层如何支撑大规模 AI 训练"

2026 年，训练一个前沿 AI 模型需要数万个 GPU 协同工作数月。但制约训练速度的关键因素往往不是 GPU 算力，而是连接这些 GPU 的网络。当一条链路拥塞或一台交换机故障就能让整个训练任务停滞、导致数千块昂贵加速器空转时，网络就成为 AI 基础设施的决定性瓶颈。

OpenAI 的回应是 MRC（Multipath Reliable Connection，多路径可靠连接），一种与 AMD、Broadcom、Intel、Microsoft、NVIDIA 联合开发的新型传输协议，并通过 Open Compute Project（OCP）以开放规范形式发布。MRC 已在 OpenAI 和 Microsoft 数据中心投入生产，用于训练最新前沿模型。本文分析传统网络协议为何在 AI 规模下失效、MRC 的架构如何针对性解决这些问题，以及其开源发布对 AI 基础设施未来意味着什么。

瓶颈转移：网络为何在 AI 规模下崩溃

关于 AI 训练瓶颈的标准叙事集中在 GPU 稀缺性上。但在前沿模型实际运行的数据中心里，约束已经转移。当集群规模超过 10 万块 GPU 时，网络 fabric 成为整体吞吐量的限制因素。

传统协议如何失效

当前大规模 AI 训练主要运行在 RoCEv2（RDMA over Converged Ethernet）上，它将 InfiniBand 的可靠连接语义扩展到以太网。RoCEv2 对传统数据中心负载表现良好，但应用于大规模同步 AI 训练时存在三个根本性缺陷：

单路径约束。 RoCEv2 为每个连接建立单条路径。即使物理网络在两块 GPU 之间提供多条路径，RoCEv2 流量仍遵循由 ECMP 哈希确定的单一路由。这导致可用带宽闲置，并在多个流碰撞到同一路径时形成拥塞热点。

故障处理能力差。 当链路故障或交换机重启时，RoCEv2 连接必须重新建立，这个过程可能需要毫秒到秒级。在同步训练中，所有 GPU 必须同时完成每次迭代，即使短暂的干扰也会迫使整个任务暂停。单台交换机故障可能级联为集群范围的停滞。

恢复效率低下。 RoCEv2 使用 go-back-N 重传：当丢包时，发送方重传该包及当前窗口中所有后续包。这产生不必要的流量，放大拥塞而非缓解拥塞。

这些限制随着集群规模增长而叠加。Dell'Oro Group 指出，以太网已经超越 InfiniBand 成为 AI 后端网络的主导 fabric，但标准以太网传输并非为万亿参数模型训练的同步需求而设计。

空转 GPU 的经济学

财务 stakes 使这成为一个硬件优化问题。10 万块 GPU 集群代表数十亿美元的资本支出。当网络故障或拥塞导致这些 GPU 空转时，成本以每天数百万美元的训练进度损失来衡量。瓶颈不是 GPU 本身，而是连接它们的基础设施，这一模式在单个组件超越集成网络的速度时反复出现。

MRC 架构：三项设计原则

MRC 通过三项协同工作的架构创新解决这些限制：跨多路径的包喷洒、智能故障恢复，以及为 AI 负载设计的拥塞控制。

包喷洒：利用所有可用路径

MRC 的核心洞见是，单个 RDMA 连接不应绑定到单条网络路径。相反，MRC 同时在所有可用路径上分发包，并根据路径状况实时调整分配。

这种自适应包喷洒方法从根本上不同于 ECMP。传统 ECMP 基于流标识符的哈希将每个流分配到一条路径。如果两个大训练流哈希到同一路径，该路径拥塞而替代路径闲置。MRC 通过将路径选择变为逐包决策来避免这一问题，该决策由关于路径健康和负载的持续反馈驱动。

OpenAI 报告称，这种负载均衡效果足够好，他们在网络核心几乎看不到拥塞。通过均匀分散流量，MRC 防止了在同步训练中产生尾延迟的热点。

微秒级故障恢复

MRC 处理路径故障无需拆除和重建连接。协议在几个往返时间内（微秒而非毫秒）检测故障并自动重路由流量。这发生在 NIC 层面，无需涉及应用或网络控制平面。

快速检测与自动重路由的结合意味着，许多此前会中断训练的网络故障现在可以无影响地通过。训练任务继续运行，而网络在故障周围自愈。

选择性恢复与拥塞控制

MRC 用选择性确认（SACK）和否定确认（NACK）替代 go-back-N 重传。当丢包时，仅重传该包，而非整个窗口。这减少恢复流量，防止困扰 RoCEv2 的拥塞放大。

对于拥塞控制，MRC 实现了基于 Ultra Ethernet Consortium 规范的 Network-Signaled Congestion Control（NSCC）。NSCC 在路径层面而非网络层面运行，允许发送方基于每条路径的状况调整速率，而非对全局拥塞信号作出反应。它还整合了基于 RTT 的窗口控制，根据测量的往返时间调整发送速率。

从专有到开放：OCP 发布的意义

MRC 由 OpenAI、AMD、Broadcom、Intel、Microsoft、NVIDIA 联合开发，并于 2026 年 5 月通过 Open Compute Project 以开放规范形式发布。这一发布机制的选择具有战略意义。

为什么开放标准在 AI 规模下重要

AI 基础设施已变得过于庞大和复杂，封闭、垂直整合的系统难以高效扩展。10 万块 GPU 集群涉及多家供应商：NVIDIA 或 AMD 的 GPU、各供应商的 NIC、多家制造商的交换机、云服务商和 AI 实验室的软件栈。当网络协议是专有时，每家供应商必须协商互操作性，产生摩擦，拖慢部署并限制优化。

通过 OCP 发布 MRC，OpenAI 及其合作伙伴正在建立一个任何供应商都可以实现的共同基础。这校准了激励：NIC 制造商可以为 MRC 优化，交换机供应商可以验证兼容性，AI 实验室可以部署多供应商集群而无需协议层面的集成工作。

生产验证

MRC 不是研究原型。它已在 OpenAI 最大训练集群和 Microsoft Fairwater 超级计算机投入生产。NVIDIA 报告称 MRC 也在 Oracle Cloud Infrastructure 的 Abilene 数据中心使用。这些部署横跨多代硬件，包括 NVIDIA Blackwell 平台，并已被用于训练生产前沿模型。

这段生产历史对采用很重要。数据中心运营者对新网络协议持保守态度，因为故障代价高昂。MRC 的大规模部署提供了降低其他组织采用风险的验证。

行业联盟

MRC 联盟的广度值得注意。它包括 GPU 供应商（NVIDIA、AMD）、NIC 供应商（Broadcom、Intel）、云服务商（Microsoft）和 AI 实验室（OpenAI）。这不是单一供应商推动专有协议，而是行业范围对共同传输层的共识。

Dell'Oro Group 的分析将此解读为网络正在变得与计算同等重要的信号。从 InfiniBand 向以太网的转变已在进行中，而 MRC 通过使以太网适用于最大训练集群的协议强化了这一趋势。

对 AI 基础设施的影响

MRC 的发布影响超越包传输的技术细节。

基础设施成为差异化因素

当 GPU 计算可从多家供应商和云服务商获得时，连接这些 GPU 的基础设施效率成为竞争优势。采用 MRC 的集群可以维持更高的 GPU 利用率、更快从故障中恢复、扩展到更大的节点数。这将竞争基础从原始计算能力转向基础设施效率。

验证挑战

开源网络协议带来验证挑战。与软件不同，软件的正确性可以通过单元测试检验，网络协议必须在真实世界条件下验证：混合流量模式、硬件故障、 varying load。MRC 在 OpenAI 和 Microsoft 的生产部署提供了一种验证形式，但更广泛的采用将需要在多样化硬件和拓扑配置中的额外测试。

OCP 规范和参考实现为此验证提供了基础。随着更多供应商实现 MRC，协议将在超出原始开发者使用范围的场景中被测试，形成提高可靠性的反馈循环。

以太网角色的扩展

MRC 强化了一个已有趋势：以太网在 AI 后端网络中日益增长的作用。InfiniBand 历史上在高性能计算中占主导地位，但需要专用硬件和专业知识。以太网提供更广泛的供应商基础、更低的成本和运营熟悉度。MRC 解决了此前使以太网对同步训练吸引力较低的性能和可靠性差距。

据 Dell'Oro Group 数据，以太网在 2025 年已占 AI 后端网络收入的大部分。MRC 的发布通过提供使以太网适用于最大训练集群的标准协议，强化了这一轨迹。

常见问题

什么是 MRC，为什么创建它？

MRC（Multipath Reliable Connection，多路径可靠连接）是一种将 RDMA 语义扩展到在多条网络路径上分发流量的传输协议。它是因为传统协议如 RoCEv2 无法在 10 万+ GPU 集群中高效利用可用网络容量或快速从故障中恢复而创建的。

MRC 与 TCP 或标准 RDMA 有何不同？

TCP 在单条路径上运行，通过重传恢复丢包，对同步训练来说太慢。标准 RDMA（RoCEv2）也使用每条连接的单条路径和 go-back-N 恢复。MRC 在多条路径上喷洒包，选择性恢复，并在微秒级处理 NIC 层面的故障。

MRC 是否特定于 OpenAI 的基础设施？

不是。MRC 通过 Open Compute Project 以开放规范形式发布，已由 AMD、NVIDIA、Broadcom 等多家供应商实现。它已在 Microsoft 和 Oracle Cloud Infrastructure 部署，除 OpenAI 外。

MRC 会取代 InfiniBand 吗？

MRC 扩展了 RoCEv2，后者运行在以太网上。它不直接取代 InfiniBand，但使以太网在 AI 训练负载上更具竞争力。市场趋势显示以太网在 AI 后端网络中份额增长，MRC 通过解决以太网在同步训练上的历史局限加速了这一趋势。

MRC 需要什么硬件？

MRC 需要支持该协议的 NIC。AMD 已在其 Pensando Pollara 400 和 Vulcano 800 AI NIC 上实现 MRC。NVIDIA 在其 Spectrum-X 以太网平台上通过 ConnectX SuperNIC 支持 MRC。Broadcom 也宣布在其 Thor Ultra NIC 上支持。

参考资料

OpenAI. "Supercomputer networking to accelerate large scale AI training." 2026年5月. https://openai.com/index/mrc-supercomputer-networking/
Araujo, J., et al. "Resilient AI Supercomputer Networking using MRC and SRv6." arXiv:2605.04333, 2026年5月. https://arxiv.org/abs/2605.04333
Open Compute Project. "Multipath Reliable Connection (MRC) Specification." https://www.opencompute.org/documents/ocp-mrc-1-0-pdf
NVIDIA. "NVIDIA Spectrum-X Sets the Standard for Gigascale AI, Now With MRC." 2026年5月. https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/
AMD. "Next Gen Networking Transport for Large Scale AI Training." 2026年5月. https://www.amd.com/en/blogs/2026/next-gen-networking-transport-for-large-scale-ai-training.html
AMD. "AMD and OpenAI Advance AI Networking at Scale with MRC." 2026年5月. https://www.amd.com/en/blogs/2026/amd-advances-ai-networking-at-scale-with-mrc.html
Broadcom. "Enabling AI Networking @ Scale with Multi-path Reliable Connections (MRC)." 2026年5月. https://www.broadcom.com/blog/enabling-ai-networking-scale-with-multi-path-reliable-connections-mrc
Dell'Oro Group. "OpenAI's MRC Initiative Reinforces Ethernet's Expanding Role in AI Back-end Networks." 2026年5月. https://www.delloro.com/openais-mrc-initiative-reinforces-ethernets-expanding-role-in-ai-back-end-networks/
Futurum Group. "Can OpenAI's MRC Networking Protocol Redefine the Economics of AI Training?" 2026年5月. https://futurumgroup.com/insights/can-openais-mrc-networking-protocol-redefine-the-economics-of-ai-training/
4sysops. "Multipath Reliable Connection (MRC): a new, open networking protocol for AI supercomputers." 2026年5月. https://4sysops.com/archives/multipath-reliable-connection-mrc-a-new-open-networking-protocol-for-ai-supercomputers/

菜单

Share

"MRC 协议：OpenAI 新网络层如何支撑大规模 AI 训练"

瓶颈转移：网络为何在 AI 规模下崩溃

传统协议如何失效

空转 GPU 的经济学

MRC 架构：三项设计原则

包喷洒：利用所有可用路径

微秒级故障恢复

选择性恢复与拥塞控制

从专有到开放：OCP 发布的意义

为什么开放标准在 AI 规模下重要

生产验证

行业联盟

对 AI 基础设施的影响

基础设施成为差异化因素

验证挑战

以太网角色的扩展

常见问题

参考资料

Comment

"MRC 协议：OpenAI 新网络层如何支撑大规模 AI 训练"

"MRC Protocol: How OpenAI's New Networking Layer Powers AI Training at Scale"

"B2B Signals 解读：2026年前沿企业的 AI 采用正在拉开不可逆的差距"

"B2B Signals: How Frontier Enterprises Are Scaling AI Adoption in 2026"

"OpenAI Academy：推动 AI 采用的企业培训生态系统深度解析"

"OpenAI Academy: The Enterprise Training Ecosystem Powering AI Adoption"

"代码审查才是瓶颈：Ramp 如何用 Codex 把审查时间从小时压缩到分钟"

"当 AI 看到了 80 年数学史没能看到的东西：OpenAI 推翻单位距离猜想始末"

"When AI Sees What 80 Years of Mathematics Couldn't: Inside OpenAI's Disproof of the Unit Distance Conjecture"

"Code Review Was the Bottleneck: How Ramp Used Codex to Compress Review Time from Hours to Minutes"