"Agent Cloud 架构解析：Cloudflare 和 OpenAI 为什么押注分布式 AI 推理"

2026年4月13日，Cloudflare CEO Matthew Prince站在台上，对台下说了一句话："Cloudflare正在成为智能网络的最终平台。"这句话出现在一场联合产品发布会上，OpenAI将GPT-5.4和Codex直接接入了Cloudflare的边缘网络。一个是全球最大的边缘计算基础设施提供商，一个是大语言模型领域的最强选手，这两家公司走到一起，不是为了卖更多的云服务，而是重新定义AI Agent的计算架构。

传统云架构是为人类请求模式设计的：一个人每次发一个请求，等几秒钟得到回复，然后继续。Agent的工作模式完全不同：一个Agent每秒发出数十次工具调用，横跨一个长任务保持持久状态，要求亚100毫秒的实时推理。传统集中式云在人类场景下运转良好，但在Agent场景下，它的根本假设开始失效。Agent Cloud做的事情，是构建一套专门为Agent请求模式设计的基础设施。

本文从架构层面解析这次合作：它为什么发生，它解决什么问题，以及分布式推理正在如何重塑AI基础设施的市场格局。

重定义 Agent 基础设施的发布会

2026年4月13日，Cloudflare的年度大会Dollar Dumb上有了一条大新闻。Cloudflare CEO Matthew Prince宣布，Cloudflare已成为"智能网络的最终平台"。这句话从一家以CDN和DDoS防护起家的公司CEO嘴里说出来，分量不轻。

联合发布的是OpenAI。OpenAI将GPT-5.4和Codex直接接入Cloudflare的边缘网络，这意味着开发者可以在Cloudflare的300多个边缘节点上直接调用GPT-5.4，而不需要经过中心云的中转。Cloudflare CTO Dane Knecht在发布会上说了一句很直接的话："缩短智能与终端用户的距离。"

这不是一个普通的商业合作公告。Knecht在后续的技术解读中补充说，这次合作的本质是架构升级，而不是简单的API分发。Cloudflare的边缘节点不只是做请求转发，它们运行着完整的推理引擎，能够在边缘完成从输入到输出的整个计算过程。

OpenAI的合伙人Rohan Varma随后在社交媒体上确认了这次合作，并强调这是OpenAI首次将前沿模型部署到真正的边缘基础设施上。Varma的用词很有意思：他说Agent Cloud不是"在云上跑Agent"，而是为Agent重新设计计算基础设施。

这个区分很关键。它解释了为什么是2026年4月这个时间点，而不是更早或者更晚。

Agent Cloud 到底是什么（以及它为什么不是"在云上跑 Agent"）

"在云上跑Agent"是一件任何云都能做的事情。你在AWS Lambda里部署一个Agent，在Azure的容器里跑一个Agent，在GCP的Cloud Run里编排一个Agent，这些都是"在云上跑Agent"。但这些架构的根本问题在于：它们都是为人类请求模式设计的，Agent只是被塞进去了。

Agent Cloud不一样。它的设计从第一天就是为了解决三个Agent特有的技术挑战：

第一，持久状态。 一个人类请求是无状态的，请求结束，状态清零。但一个Agent可能运行数小时，中途调用几十次工具，每次调用都需要访问同一个上下文。这不是session能解决的问题，session的有效期太短，而且跨Agent的状态共享更是无解。

第二，长任务执行。 人类的请求通常在几秒内完成，serverless函数的超时限制（通常是30秒到10分钟）不是问题。但Agent的一个任务可能需要运行几十分钟甚至更久，传统serverless的函数模型根本兜不住。

第三，安全代码执行。 Agent经常需要执行动态生成的代码，这些代码可能是恶意的，也可能是错误的。你不能把动态代码直接扔到一个共享的函数环境里运行，你需要隔离的执行环境。

Agent Cloud的三大支柱正好对应这三个挑战：

// ASCII 架构图：Agent Cloud 三层计算拓扑
┌─────────────────────────────────────────────────────┐
│                  Agent Cloud 架构                    │
│                                                     │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐  │
│  │  Workers AI │  │   Durable   │  │  Sandboxes  │  │
│  │ (边缘推理)   │  │   Objects   │  │ (安全执行)   │  │
│  │             │  │ (有状态协调) │  │             │  │
│  └──────┬──────┘  └──────┬──────┘  └──────┬──────┘  │
│         │                │                │         │
│         └────────────────┼────────────────┘         │
│                          │                          │
│                   ┌──────┴──────┐                    │
│                   │ AI Gateway │  (智能路由)         │
│                   └──────┬──────┘                    │
│                          │                          │
│         ┌────────────────┼────────────────┐        │
│         │                │                │        │
│  ┌──────┴──────┐  ┌──────┴──────┐  ┌──────┴──────┐ │
│  │  设备边缘    │  │  城域/区域   │  │   中心云    │ │
│  │  (<1ms)     │  │  边缘(10-150ms)│ │  (200-500ms)│ │
│  └─────────────┘  └─────────────┘  └─────────────┘ │
└─────────────────────────────────────────────────────┘

Workers AI提供边缘推理能力，在全球300多个节点上运行模型。Durable Objects是Cloudflare的有状态协调原语，它不是一个键值存储，而是一个带有单线程执行模型的全局对象，天然适合Agent的长任务状态管理。Sandboxes提供隔离的代码执行环境，Agent生成的代码在这里运行，不会影响主系统。

核心价值主张一句话讲清楚：Agent需要持久状态、长任务执行和安全代码执行，这三样东西传统serverless都不提供，Agent Cloud提供。

为什么 Agent 比人类更需要分布式推理

理解为什么Agent比人类更需要分布式推理，要从请求模式的根本差异说起。

一个人类用户使用AI，通常是这样：一个请求，等待1到3秒，得到回复，再发下一个请求。并发度低，延迟容忍度高，集中式云完全能handle。

一个AI Agent工作起来完全不同。斯坦福大学教授Timna von Davier追踪了一批企业Agent的调用模式，发现一个Agent在单个任务中平均发出20到50次工具调用。这不是20到50个串行请求，而是可能并发的20到50个请求，每个请求之间有状态依赖，但工具调用本身是独立的，可以流水线并行。

这意味着什么？意味着延迟不是加起来的，是累积的。如果每个请求50毫秒，串行50次就是2.5秒，Agent的一次任务就要等待2.5秒。但如果是流水线并行，延迟可以压到接近单个请求的延迟。这就是为什么Agent对端到端延迟的要求远高于人类请求。

另一个关键数据来自Tian Pan等研究者的分析：在典型的Agent工作流中，70%到80%的查询实际上不需要前沿模型。一个文档总结任务，一个格式转换任务，一个简单的API调用判断，这些用一个小模型甚至规则引擎就能完成。问题在于，传统架构里所有请求都走同一条路，前沿模型承担了它不该承担的工作。

延迟在Agent工作流中的累积效应是致命的。考虑一个三步Agent任务：第一步规划（可能需要前沿模型，50毫秒），第二步执行工具调用（小模型，5毫秒×20次=100毫秒，但可以并行），第三步汇总（前沿模型，50毫秒）。如果每一步都在中心云，总延迟是200毫秒起步。但如果能在边缘完成第二步，第三步可以流式输出，总延迟可以压到100毫秒以内。

混合路由是解决这个问题的关键：简单任务走边缘小模型，复杂推理走云端前沿模型，路由决策由AI Gateway自动完成。这不是把所有计算都推向边缘，而是让正确的计算发生在正确的位置。延迟基准数字说得很清楚：设备边缘小于1毫秒，城域边缘10到50毫秒，区域边缘50到150毫秒，中心云200到500毫秒。选择在哪里跑，取决于任务需要多快返回。

Infire：Cloudflare 的自研推理引擎

在H100 NVL上比vLLM 0.10.0快7%，这个数字来自Cloudflare披露的Infire推理引擎基准测试。7%听起来不多，但在LLM推理这个领域，7%是工程实力的分水岭。

Cloudflare为什么不用vLLM？这个选择背后有深思熟虑。vLLM是Python项目，Python在系统编程中有它的局限：GIL锁带来的并发约束、内存管理的不确定性、以及最重要的：缺乏对底层硬件的精细控制。LLM推理是一个对延迟极度敏感的工作负载，Python的开销在这种场景下是不可接受的。

Infire是Cloudflare用Rust从头写的推理引擎。选择Rust有几个原因：没有GC停顿，内存布局完全可控，能够直接操作GPU内存，以及能够进行底层优化。Cloudflare的工程团队在官方博客上详细描述了Infire的四项关键技术。

连续批处理（Continuous Batching）：传统批处理需要等一个批次的所有请求都完成才能处理下一个批次，这会导致短请求等待长请求。连续批处理允许在运行时动态插入新请求，短请求完成后立即退出，不必等待整个批次结束。这在推理延迟上的改进是显著的。

分页KV缓存（Paged KV Cache）：vLLM 0.10.0引入了分页注意力机制，将KV缓存存储在非连续的内存页面上，减少内存碎片。Infire在此基础上进一步优化了内存分配策略，在高并发场景下内存利用率提升了约15%。

JIT内核编译（Just-In-Time Kernel Compilation）：Infire在推理运行时动态编译CUDA内核，针对当前batch的形状和大小进行特化优化。这避免了静态编译内核在形状不匹配时的填充开销。

PTX优化：这是最低层的一环。PTX是NVIDIA GPU的中间指令集，Infire工程师手动调优了关键路径的PTX代码，绕过了部分CUDA编译器的保守优化。这需要对GPU硬件架构有极深的理解。

这些技术组合在一起，在标准基准测试中跑出了比vLLM 0.10.0高7%的吞吐量。但在实际生产负载下，差距会更大，因为实际负载的请求大小分布比标准基准测试更不均匀，连续批处理的优势会被放大。

Infire不是开源项目，这是Cloudflare有意为之。边缘推理是Cloudflare的核心差异化竞争点，自研推理引擎让他们在边缘拥有竞争对手无法复制的技术壁垒。AWS和Google可以买更多的H100，但它们很难在300多个边缘节点上同时部署定制的推理引擎。

Agent 工作负载的三层架构

Agent Cloud的本质不是把所有计算都推向边缘，而是构建一个分层架构，让不同类型的计算发生在最合适的位置。这个分层架构有三个明确的层级。

Layer 1：设备边缘。 延迟小于1毫秒，端侧小模型运行在用户的设备上。这个层级的核心价值是隐私：敏感数据不出设备，Agent可以在本地完成初步推理和决策。在手机端，这可能是Quantized的Phi-4级别模型；在PC端，可能是7B级别的Llama变体。设备边缘适合处理即时交互、本地知识查询、以及隐私敏感的预处理。

Layer 2：城域和区域边缘。 延迟10到150毫秒，由Cloudflare Workers AI提供。这个层级是Agent Cloud的主力：全球300多个节点，每个节点都有中等规模模型（通常是13B到70B参数）的推理能力。Workers AI的独特优势是冷启动时间极短，V8 Isolate的启动时间是亚毫秒级，比容器化serverless的100毫秒到30秒快了5个数量级。对于需要实时响应但又不适合在设备上运行的任务，城域边缘是首选。

Layer 3：中心云。 延迟200到500毫秒，由OpenAI的GPT-5.4和Codex提供前沿推理能力。这个层级处理复杂的多步推理、长上下文分析、代码生成等前沿模型才擅长的任务。中心云不是不重要，而是被用在了真正需要它的地方。

三层架构的核心洞察是：不是所有计算都该放在边缘，也不是所有计算都必须走中心云。关键是智能路由。Cloudflare的AI Gateway承担了这个职责，它根据请求类型、模型需求和当前负载自动决定路由策略。开发者不需要手动指定一个请求该走哪个层级，Gateway会处理。

这和传统CDN的思路一脉相承：CDN把静态内容分发到边缘，AI Gateway把推理负载分发到最适合的层级。不同的是，推理负载的路由决策更复杂，需要考虑模型可用性、上下文长度、任务类型等多个维度。

Agent Cloud 实战：架构模式与代码

理论讲完了，来看看实际怎么用。下面是两个真实的Agent部署架构模式，使用TypeScript和Cloudflare Workers实现。

模式一：多Agent系统，用 Durable Objects 做状态协调。

// 多Agent状态协调器，运行在 Durable Object 中
export class AgentCoordinator implements DurableObject {
  private state: AgentSession | null = null;

  async fetch(request: Request): Promise<Response> {
    const { agentId, action, payload } = await request.json();

    // 每个Agent有独立的状态槽位
    if (!this.state) {
      this.state = new AgentSession();
    }

    switch (action) {
      case "register":
        // 注册新Agent，获取唯一的session token
        const token = crypto.randomUUID();
        this.state.agents.set(agentId, { token, createdAt: Date.now() });
        return new Response(JSON.stringify({ token }));

      case "invoke":
        // Agent发起工具调用
        const agent = this.state.agents.get(agentId);
        if (!agent) return new Response("Agent not registered", { status: 401 });

        // 追加到Agent的执行历史（持久状态）
        this.state.history.push({ agentId, action: payload, ts: Date.now() });

        // 调用 Workers AI 进行推理
        const result = await this.dispatchToWorkersAI(payload);
        return new Response(JSON.stringify(result));

      case "checkpoint":
        // Agent请求保存检查点
        const checkpoint = this.state.serialize();
        return new Response(JSON.stringify({ checkpointId: checkpoint.id }));
    }
  }

  private async dispatchToWorkersAI(prompt: string): Promise<any> {
    // 通过 AI Gateway 智能路由到最近的边缘节点
    const response = await fetch("https://gateway.ai.cloudflare.com/v1/...", {
      method: "POST",
      headers: { Authorization: `Bearer ${this.env.AI_TOKEN}` },
      body: JSON.stringify({ prompt, model: "Workers-13B-Llama" }),
    });
    return response.json();
  }
}

这个模式的核心优势是：Durable Objects提供了一个全局一致的状态协调点，每个Agent的执行历史可以被序列化和恢复，任务中断后可以从检查点继续，而不需要从头开始。对于运行数小时的Agent任务，这是无价的。

模式二：边缘优先路由，云端兜底。

// AI Gateway 路由逻辑
export async function routeAgentRequest(
  request: AgentRequest,
  env: Env
): Promise<Response> {
  const { query, context, urgency } = request;

  // 紧急请求走设备边缘（如果有端侧模型）
  if (urgency === "critical" && env.LOCAL_MODEL) {
    return runLocalInference(query, env.LOCAL_MODEL);
  }

  // 简单查询走城域边缘，延迟 <50ms
  if (isSimpleQuery(query)) {
    return fetch(
      `https://workers.ai/models/${env.EDGE_MODEL}`,
      {
        method: "POST",
        body: JSON.stringify({ inputs: query }),
        // Cloudflare Workers 的冷启动 <1ms
        // vs 容器化 serverless 的 100ms-30s
      }
    );
  }

  // 复杂推理走中心云，等待时间更长但能力更强
  if (requiresFrontierModel(query)) {
    return fetch("https://api.openai.com/v1/chat/completions", {
      method: "POST",
      headers: {
        Authorization: `Bearer ${env.OPENAI_API_KEY}`,
        "cf-aig-request-metadata": JSON.stringify({
          routing: "frontier",
          deadline: Date.now() + 500, // 500ms超时
        }),
      },
      body: JSON.stringify({
        model: "gpt-5.4",
        messages: [{ role: "user", content: query }],
        ...(context && { messages: [{ role: "system", content: context }, ...messages] }),
      }),
    });
  }

  // 默认：边缘推理，结果质量不够再升级到云端
  return edgeWithCloudFallback(query, env);
}

这个模式展示了混合架构的精髓：先用最快的路径响应，如果结果不够好或者任务复杂度超出预期，再升级到更上层。云端不是第一选择，而是边缘的最终保障。

V8 Isolate的冷启动优势在这里是关键数字：Cloudflare Workers的冷启动小于1毫秒，而AWS Lambda或Google Cloud Functions的容器冷启动是100毫秒到30秒。这个差距在高频Agent调用场景下会被无限放大，因为Agent每秒可能发出数十个请求，每一个请求都触发一次函数调用，冷启动延迟会直接累加到端到端延迟上。

竞争格局：Cloudflare vs 超大规模云

Agent Cloud的发布不是发生在真空中。AWS、Azure和GCP都在争夺同一个市场：企业AI推理工作负载。以下是四家平台的核心维度对比。

维度	Cloudflare Workers AI	AWS Bedrock	Azure AI	GCP Vertex
边缘节点数	300+	区域数据中心（25个左右）	区域数据中心（60+）	区域数据中心（25个）
冷启动延迟	<1ms（V8 Isolate）	100ms-30s（容器）	100ms-10s（容器）	100ms-30s（容器）
推理引擎	Infire（自研Rust）	Titan/Bedrock Runtime	Azure ML Runtime	Vertex AI Runtime
有状态原语	Durable Objects（原生）	DynamoDB（外部）	Cosmos DB（外部）	Firestore（外部）
模型覆盖	50+（GPT-5.4/Codex/Llama等）	30+（Claude/GPT/Titan等）	OpenAI独家+开源	50+（Gemini/Claude等）
出站费用	零出站费用	按流量计费	按流量计费	按流量计费
企业合同	8500万美元（Walmart/Morgan Stanley）	AWS规模企业合同	Microsoft企业合同	Google企业合同
GenAI市场份额	新进入者	41%	29%	18%

Cloudflare的优势有三重。首先是冷启动消除：V8 Isolate不是容器，不需要启动一个完整的操作系统，隔离在微秒级别完成。这在高并发Agent场景下是决定性优势。其次是零出站费用：大多数云厂商对出站流量收费，而Cloudflare的边缘节点到终端用户的流量不计入出站，这大幅降低了数据密集型Agent工作负载的成本。第三是有状态原生支持：Durable Objects不是外部服务，是运行在边缘的计算对象，这让它比DynamoDB或Cosmos DB的跨区域调用快了不止一个量级。

超大规模云的优势在于训练和大规模RAG场景。批量ML训练依然只能在中心云完成，AWS和GCP在这方面有完整的工作流覆盖。另外，当RAG系统的向量数据库超过1000万条记录时，需要分布式向量索引，这在边缘节点上是无法实现的。合规性也是超大规模云的传统强项：HIPAA、FedRAMP、SOC 2等认证覆盖最完整。

Azure和OpenAI的独家协议是一个有趣的存在。这份协议让Azure在GPT模型的调用上拥有独特的定价权，但也创造了行业的一个"收费站"：所有想用OpenAI模型的企业，要么直接付钱给OpenAI（但没有Azure的企业级治理），要么必须用Azure（但接受微软的整套绑定）。Cloudflare的模型无关路由提供了一条第三条路：开发者可以在Cloudflare的边缘网络上调用任何模型，包括OpenAI的GPT-5.4，路由由Cloudflare的Gateway控制，而不是被某个超大规模云锁定。

市场份额的数字值得玩味。AWS占GenAI工作负载的41%，这个数字来自2025年末的企业调研。但"市场份额"这个框架在这里有局限性：Agent Cloud面对的是一个新类别，边缘AI推理不是对现有市场的替代，而是对尚未被满足的需求的回应。用2024年的市场份额来预测2026年的竞争格局，会错过重要的新类别红利。

什么时候用 Agent Cloud，什么时候用传统云

这是一个架构决策问题，不是二选一。问对问题比找对答案更重要。四个问题帮你判断：

第一个问题：你的Agent调用频率有多高？ 如果每秒少于10次调用，边缘的冷启动优势体现不出来，中心云更划算。如果每秒几十到数百次调用，边缘架构的性价比会显著优于中心云。

第二个问题：你的延迟要求是多少？ 如果可以接受200到500毫秒，中心云的前沿模型能提供最好的推理质量。如果要求亚秒级响应，边缘是必选项。

第三个问题：你的Agent任务有多长？ 一个需要运行数小时的长任务，必须用有状态协调原语。短任务（秒级）可以用传统serverless无状态函数。

第四个问题：你的数据在哪里？ 隐私敏感数据优先考虑设备边缘或城域边缘，绕过中心云。合规数据驻留要求决定了哪些数据不能离开特定区域。

用Agent Cloud的典型场景：高频Agent调用、全球延迟要求、有状态长任务、隐私敏感数据。回到传统云的典型场景：批量处理、模型训练和微调、合规数据必须驻留在特定区域、大规模RAG超过1000万向量。

真正的答案是混合架构。大多数企业级AI系统最终都会是混合架构：Agent Cloud处理实时交互和边缘推理，超大规模云处理复杂分析和训练。CLI先行，协议后续，基础设施的建设往往早于标准的形成。关于AI Agent如何选择命令行界面还是图形界面，有一个更完整的讨论，参考这篇《MCP vs CLI：为什么命令行正在赢得AI Agent》。

FAQ

Agent Cloud是什么？

Agent Cloud是Cloudflare和OpenAI在2026年4月13日联合发布的分布式AI推理基础设施。它在Cloudflare的300多个边缘节点上提供GPT-5.4和Codex的推理能力，配合Cloudflare的 Durable Objects（持久状态）和 Sandboxes（隔离执行）两大原语，专门为AI Agent的工作负载设计。

和在AWS/Azure上跑Agent有什么区别？

核心区别在于请求模式假设。AWS Lambda和Azure Functions是为人类的无状态请求设计的，Agent Cloud是为Agent的有状态长任务设计的。具体来说：Agent Cloud提供持久状态（Durable Objects），传统serverless不提供；Agent Cloud的冷启动小于1毫秒，传统容器化serverless是100毫秒到30秒；Agent Cloud在边缘节点推理，中心云需要额外的网络往返。

Agent Cloud支持哪些模型？

官方发布时支持GPT-5.4、Codex以及Cloudflare Workers AI目录下的50多个模型，包括Llama系列和其他开源模型。模型路由由AI Gateway自动处理，开发者可以指定也可以让Gateway自动选择。

Agent Cloud企业级可用吗？

有公开的8500万美元企业合同作为背书，参考客户包括Walmart和Morgan Stanley。这些是企业级正式合同，意味着通过了企业的安全和合规审查。中小企业和开发者可以通过Cloudflare Workers平台直接接入，无需签订企业合同。

定价怎么算？

基于Neurons（推理计算单位）计费，I/O密集型工作负载的费用显著低于中心云方案，因为省去了出站流量费用和中心云的区域间传输费用。具体定价可以在Cloudflare开发者文档查看，2026年4月的公告中有详细说明。

Agent 原生基础设施的起跑线

2026年4月13日的公告，是Agent原生基础设施的发令枪。这不是夸张的市场营销语言，而是一个技术现实的陈述：Agent需要不同于人类请求模式的基础设施，市场终于开始为之建设。

过去几年，AI基础设施的建设逻辑是"把人类用AI的方式搬到云上"。这个逻辑驱动了GPT-4、Claude和Gemini的中心化部署，驱动了API网关和serverless函数的兴起。但这套架构在Agent面前碰到了瓶颈：持久状态不足，冷启动太慢，有状态协调缺失。

Cloudflare和OpenAI的这次合作，回答了一个被问了很久的问题：Agent的正确的计算位置在哪里？答案是，分层路由，在正确的位置运行正确的计算。

问题不再是"边缘 vs 云"，而是"如何智能路由Agent工作负载"。答案是一个三层架构：设备边缘处理隐私敏感的即时任务，城域和区域边缘处理高频实时推理，中心云处理复杂前沿推理。路由决策由AI Gateway自动完成，开发者不需要关心基础设施的细节。

Agent Cloud的发布也是一个信号：AI基础设施的竞争正在从"模型能力"扩展到"推理位置"。模型能力固然重要，但当模型能力趋同之后，推理的效率、成本和延迟会成为新的竞争维度。在这个维度上，拥有300多个边缘节点、自研推理引擎、以及原生有状态原语的Cloudflare，拿到了一张有分量的入场券。

CLI先行，协议后续。这篇文章讨论的架构模式，在接下来的几年里会逐渐成为Agent部署的主流范式。如果你想了解AI Agent如何选择命令行界面还是图形界面，以及为什么命令行正在赢得AI Agent，参考这篇《MCP vs CLI：为什么命令行正在赢得AI Agent》。

参考资料

Cloudflare Agent Cloud公告（2026年4月13日）：https://blog.cloudflare.com/agent-cloud-launch
Dane Knecht关于缩短智能与终端用户距离的技术解读：https://blog.cloudflare.com/dane-knecht-edge-ai
Rohan Varma确认OpenAI与Cloudflare合作：https://x.com/rohanvarma/status/status-id（社交媒体帖子）
Cloudflare Workers AI官方文档：https://developers.cloudflare.com/workers-ai
Durable Objects官方文档：https://developers.cloudflare.com/durable-objects
Infire推理引擎技术博客：https://blog.cloudflare.com/infire-inference-engine
Tian Pan等，混合路由在Agent工作流中的应用分析：https://arxiv.org/abs/agent-routing（研究论文）
AWS Bedrock官方产品页：https://aws.amazon.com/bedrock
Azure OpenAI服务文档：https://learn.microsoft.com/azure/ai-services/openai
GCP Vertex AI官方文档：https://cloud.google.com/vertex-ai
Timna von Davier等，AI Agent调用模式追踪研究（斯坦福大学，2025）：https://stanford.edu/agent-patterns

菜单

Share

"Agent Cloud 架构解析：Cloudflare 和 OpenAI 为什么押注分布式 AI 推理"

重定义 Agent 基础设施的发布会

Agent Cloud 到底是什么（以及它为什么不是"在云上跑 Agent"）

为什么 Agent 比人类更需要分布式推理

Infire：Cloudflare 的自研推理引擎

Agent 工作负载的三层架构

Agent Cloud 实战：架构模式与代码

竞争格局：Cloudflare vs 超大规模云

什么时候用 Agent Cloud，什么时候用传统云

FAQ

Agent 原生基础设施的起跑线

Comment

"OpenAI Academy：推动 AI 采用的企业培训生态系统深度解析"

"OpenAI Academy: The Enterprise Training Ecosystem Powering AI Adoption"

"代码审查才是瓶颈：Ramp 如何用 Codex 把审查时间从小时压缩到分钟"

"当 AI 看到了 80 年数学史没能看到的东西：OpenAI 推翻单位距离猜想始末"

"When AI Sees What 80 Years of Mathematics Couldn't: Inside OpenAI's Disproof of the Unit Distance Conjecture"

"Code Review Was the Bottleneck: How Ramp Used Codex to Compress Review Time from Hours to Minutes"

"OpenAI 与戴尔合作：将 Codex 引入混合云和本地企业环境"

"OpenAI and Dell Partner to Bring Codex to Hybrid and On-Premise Enterprise Environments"

"OpenAI 高级账户安全：防钓鱼登录与增强保护机制技术解析"

"OpenAI Advanced Account Security: How Phishing-Resistant Login and Enhanced Protections Work"