2026 年,训练一个前沿 AI 模型需要数万个 GPU 协同工作数月。但制约训练速度的关键因素往往不是 GPU 算力,而是连接这些 GPU 的网络。当一条链路拥塞或一台交换机故障就能让整个训练任务停滞、导致数千块昂贵加速器空转时,网络就成为 AI 基础设施的决定性瓶颈。 OpenAI 的回应是 M
Training a frontier AI model in 2026 requires tens of thousands of GPUs working in tight synchronization for months. Yet the factor that most often li