Administrator
Published on 2026-04-16 / 5 Visits
0
0

"Agent Cloud 架构解析:Cloudflare 和 OpenAI 为什么押注分布式 AI 推理"

2026年4月13日,Cloudflare CEO Matthew Prince站在台上,对台下说了一句话:"Cloudflare正在成为智能网络的最终平台。"这句话出现在一场联合产品发布会上,OpenAI将GPT-5.4和Codex直接接入了Cloudflare的边缘网络。一个是全球最大的边缘计算基础设施提供商,一个是大语言模型领域的最强选手,这两家公司走到一起,不是为了卖更多的云服务,而是重新定义AI Agent的计算架构。

传统云架构是为人类请求模式设计的:一个人每次发一个请求,等几秒钟得到回复,然后继续。Agent的工作模式完全不同:一个Agent每秒发出数十次工具调用,横跨一个长任务保持持久状态,要求亚100毫秒的实时推理。传统集中式云在人类场景下运转良好,但在Agent场景下,它的根本假设开始失效。Agent Cloud做的事情,是构建一套专门为Agent请求模式设计的基础设施。

本文从架构层面解析这次合作:它为什么发生,它解决什么问题,以及分布式推理正在如何重塑AI基础设施的市场格局。

重定义 Agent 基础设施的发布会

2026年4月13日,Cloudflare的年度大会Dollar Dumb上有了一条大新闻。Cloudflare CEO Matthew Prince宣布,Cloudflare已成为"智能网络的最终平台"。这句话从一家以CDN和DDoS防护起家的公司CEO嘴里说出来,分量不轻。

联合发布的是OpenAI。OpenAI将GPT-5.4和Codex直接接入Cloudflare的边缘网络,这意味着开发者可以在Cloudflare的300多个边缘节点上直接调用GPT-5.4,而不需要经过中心云的中转。Cloudflare CTO Dane Knecht在发布会上说了一句很直接的话:"缩短智能与终端用户的距离。"

这不是一个普通的商业合作公告。Knecht在后续的技术解读中补充说,这次合作的本质是架构升级,而不是简单的API分发。Cloudflare的边缘节点不只是做请求转发,它们运行着完整的推理引擎,能够在边缘完成从输入到输出的整个计算过程。

OpenAI的合伙人Rohan Varma随后在社交媒体上确认了这次合作,并强调这是OpenAI首次将前沿模型部署到真正的边缘基础设施上。Varma的用词很有意思:他说Agent Cloud不是"在云上跑Agent",而是为Agent重新设计计算基础设施。

这个区分很关键。它解释了为什么是2026年4月这个时间点,而不是更早或者更晚。

Agent Cloud 到底是什么(以及它为什么不是"在云上跑 Agent")

"在云上跑Agent"是一件任何云都能做的事情。你在AWS Lambda里部署一个Agent,在Azure的容器里跑一个Agent,在GCP的Cloud Run里编排一个Agent,这些都是"在云上跑Agent"。但这些架构的根本问题在于:它们都是为人类请求模式设计的,Agent只是被塞进去了。

Agent Cloud不一样。它的设计从第一天就是为了解决三个Agent特有的技术挑战:

第一,持久状态。 一个人类请求是无状态的,请求结束,状态清零。但一个Agent可能运行数小时,中途调用几十次工具,每次调用都需要访问同一个上下文。这不是session能解决的问题,session的有效期太短,而且跨Agent的状态共享更是无解。

第二,长任务执行。 人类的请求通常在几秒内完成,serverless函数的超时限制(通常是30秒到10分钟)不是问题。但Agent的一个任务可能需要运行几十分钟甚至更久,传统serverless的函数模型根本兜不住。

第三,安全代码执行。 Agent经常需要执行动态生成的代码,这些代码可能是恶意的,也可能是错误的。你不能把动态代码直接扔到一个共享的函数环境里运行,你需要隔离的执行环境。

Agent Cloud的三大支柱正好对应这三个挑战:

// ASCII 架构图:Agent Cloud 三层计算拓扑
┌─────────────────────────────────────────────────────┐
│                  Agent Cloud 架构                    │
│                                                     │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐  │
│    Workers AI      Durable       Sandboxes    │
│   (边缘推理)        Objects      (安全执行)     │
│                  (有状态协调)                  │
│  └──────┬──────┘  └──────┬──────┘  └──────┬──────┘  │
│                                                  │
│         └────────────────┼────────────────┘         │
│                                                    │
│                   ┌──────┴──────┐                    │
│                    AI Gateway   (智能路由)         │
│                   └──────┬──────┘                    │
│                                                    │
│         ┌────────────────┼────────────────┐        │
│                                                 │
│  ┌──────┴──────┐  ┌──────┴──────┐  ┌──────┴──────┐ │
│    设备边缘        城域/区域        中心云     │
│    (<1ms)         边缘(10-150ms)   (200-500ms) │
│  └─────────────┘  └─────────────┘  └─────────────┘ │
└─────────────────────────────────────────────────────┘

Workers AI提供边缘推理能力,在全球300多个节点上运行模型。Durable Objects是Cloudflare的有状态协调原语,它不是一个键值存储,而是一个带有单线程执行模型的全局对象,天然适合Agent的长任务状态管理。Sandboxes提供隔离的代码执行环境,Agent生成的代码在这里运行,不会影响主系统。

核心价值主张一句话讲清楚:Agent需要持久状态、长任务执行和安全代码执行,这三样东西传统serverless都不提供,Agent Cloud提供。

为什么 Agent 比人类更需要分布式推理

理解为什么Agent比人类更需要分布式推理,要从请求模式的根本差异说起。

一个人类用户使用AI,通常是这样:一个请求,等待1到3秒,得到回复,再发下一个请求。并发度低,延迟容忍度高,集中式云完全能handle。

一个AI Agent工作起来完全不同。斯坦福大学教授Timna von Davier追踪了一批企业Agent的调用模式,发现一个Agent在单个任务中平均发出20到50次工具调用。这不是20到50个串行请求,而是可能并发的20到50个请求,每个请求之间有状态依赖,但工具调用本身是独立的,可以流水线并行。

这意味着什么?意味着延迟不是加起来的,是累积的。如果每个请求50毫秒,串行50次就是2.5秒,Agent的一次任务就要等待2.5秒。但如果是流水线并行,延迟可以压到接近单个请求的延迟。这就是为什么Agent对端到端延迟的要求远高于人类请求。

另一个关键数据来自Tian Pan等研究者的分析:在典型的Agent工作流中,70%到80%的查询实际上不需要前沿模型。一个文档总结任务,一个格式转换任务,一个简单的API调用判断,这些用一个小模型甚至规则引擎就能完成。问题在于,传统架构里所有请求都走同一条路,前沿模型承担了它不该承担的工作。

延迟在Agent工作流中的累积效应是致命的。考虑一个三步Agent任务:第一步规划(可能需要前沿模型,50毫秒),第二步执行工具调用(小模型,5毫秒×20次=100毫秒,但可以并行),第三步汇总(前沿模型,50毫秒)。如果每一步都在中心云,总延迟是200毫秒起步。但如果能在边缘完成第二步,第三步可以流式输出,总延迟可以压到100毫秒以内。

混合路由是解决这个问题的关键:简单任务走边缘小模型,复杂推理走云端前沿模型,路由决策由AI Gateway自动完成。这不是把所有计算都推向边缘,而是让正确的计算发生在正确的位置。延迟基准数字说得很清楚:设备边缘小于1毫秒,城域边缘10到50毫秒,区域边缘50到150毫秒,中心云200到500毫秒。选择在哪里跑,取决于任务需要多快返回。

Infire:Cloudflare 的自研推理引擎

在H100 NVL上比vLLM 0.10.0快7%,这个数字来自Cloudflare披露的Infire推理引擎基准测试。7%听起来不多,但在LLM推理这个领域,7%是工程实力的分水岭。

Cloudflare为什么不用vLLM?这个选择背后有深思熟虑。vLLM是Python项目,Python在系统编程中有它的局限:GIL锁带来的并发约束、内存管理的不确定性、以及最重要的:缺乏对底层硬件的精细控制。LLM推理是一个对延迟极度敏感的工作负载,Python的开销在这种场景下是不可接受的。

Infire是Cloudflare用Rust从头写的推理引擎。选择Rust有几个原因:没有GC停顿,内存布局完全可控,能够直接操作GPU内存,以及能够进行底层优化。Cloudflare的工程团队在官方博客上详细描述了Infire的四项关键技术。

连续批处理(Continuous Batching):传统批处理需要等一个批次的所有请求都完成才能处理下一个批次,这会导致短请求等待长请求。连续批处理允许在运行时动态插入新请求,短请求完成后立即退出,不必等待整个批次结束。这在推理延迟上的改进是显著的。

分页KV缓存(Paged KV Cache):vLLM 0.10.0引入了分页注意力机制,将KV缓存存储在非连续的内存页面上,减少内存碎片。Infire在此基础上进一步优化了内存分配策略,在高并发场景下内存利用率提升了约15%。

JIT内核编译(Just-In-Time Kernel Compilation):Infire在推理运行时动态编译CUDA内核,针对当前batch的形状和大小进行特化优化。这避免了静态编译内核在形状不匹配时的填充开销。

PTX优化:这是最低层的一环。PTX是NVIDIA GPU的中间指令集,Infire工程师手动调优了关键路径的PTX代码,绕过了部分CUDA编译器的保守优化。这需要对GPU硬件架构有极深的理解。

这些技术组合在一起,在标准基准测试中跑出了比vLLM 0.10.0高7%的吞吐量。但在实际生产负载下,差距会更大,因为实际负载的请求大小分布比标准基准测试更不均匀,连续批处理的优势会被放大。

Infire不是开源项目,这是Cloudflare有意为之。边缘推理是Cloudflare的核心差异化竞争点,自研推理引擎让他们在边缘拥有竞争对手无法复制的技术壁垒。AWS和Google可以买更多的H100,但它们很难在300多个边缘节点上同时部署定制的推理引擎。

Agent 工作负载的三层架构

Agent Cloud的本质不是把所有计算都推向边缘,而是构建一个分层架构,让不同类型的计算发生在最合适的位置。这个分层架构有三个明确的层级。

Layer 1:设备边缘。 延迟小于1毫秒,端侧小模型运行在用户的设备上。这个层级的核心价值是隐私:敏感数据不出设备,Agent可以在本地完成初步推理和决策。在手机端,这可能是Quantized的Phi-4级别模型;在PC端,可能是7B级别的Llama变体。设备边缘适合处理即时交互、本地知识查询、以及隐私敏感的预处理。

Layer 2:城域和区域边缘。 延迟10到150毫秒,由Cloudflare Workers AI提供。这个层级是Agent Cloud的主力:全球300多个节点,每个节点都有中等规模模型(通常是13B到70B参数)的推理能力。Workers AI的独特优势是冷启动时间极短,V8 Isolate的启动时间是亚毫秒级,比容器化serverless的100毫秒到30秒快了5个数量级。对于需要实时响应但又不适合在设备上运行的任务,城域边缘是首选。

Layer 3:中心云。 延迟200到500毫秒,由OpenAI的GPT-5.4和Codex提供前沿推理能力。这个层级处理复杂的多步推理、长上下文分析、代码生成等前沿模型才擅长的任务。中心云不是不重要,而是被用在了真正需要它的地方。

三层架构的核心洞察是:不是所有计算都该放在边缘,也不是所有计算都必须走中心云。关键是智能路由。Cloudflare的AI Gateway承担了这个职责,它根据请求类型、模型需求和当前负载自动决定路由策略。开发者不需要手动指定一个请求该走哪个层级,Gateway会处理。

这和传统CDN的思路一脉相承:CDN把静态内容分发到边缘,AI Gateway把推理负载分发到最适合的层级。不同的是,推理负载的路由决策更复杂,需要考虑模型可用性、上下文长度、任务类型等多个维度。

Agent Cloud 实战:架构模式与代码

理论讲完了,来看看实际怎么用。下面是两个真实的Agent部署架构模式,使用TypeScript和Cloudflare Workers实现。

模式一:多Agent系统,用 Durable Objects 做状态协调。

// 多Agent状态协调器,运行在 Durable Object 中
export class AgentCoordinator implements DurableObject {
  private state: AgentSession | null = null;

  async fetch(request: Request): Promise<Response> {
    const { agentId, action, payload } = await request.json();

    // 每个Agent有独立的状态槽位
    if (!this.state) {
      this.state = new AgentSession();
    }

    switch (action) {
      case "register":
        // 注册新Agent,获取唯一的session token
        const token = crypto.randomUUID();
        this.state.agents.set(agentId, { token, createdAt: Date.now() });
        return new Response(JSON.stringify({ token }));

      case "invoke":
        // Agent发起工具调用
        const agent = this.state.agents.get(agentId);
        if (!agent) return new Response("Agent not registered", { status: 401 });

        // 追加到Agent的执行历史(持久状态)
        this.state.history.push({ agentId, action: payload, ts: Date.now() });

        // 调用 Workers AI 进行推理
        const result = await this.dispatchToWorkersAI(payload);
        return new Response(JSON.stringify(result));

      case "checkpoint":
        // Agent请求保存检查点
        const checkpoint = this.state.serialize();
        return new Response(JSON.stringify({ checkpointId: checkpoint.id }));
    }
  }

  private async dispatchToWorkersAI(prompt: string): Promise<any> {
    // 通过 AI Gateway 智能路由到最近的边缘节点
    const response = await fetch("https://gateway.ai.cloudflare.com/v1/...", {
      method: "POST",
      headers: { Authorization: `Bearer ${this.env.AI_TOKEN}` },
      body: JSON.stringify({ prompt, model: "Workers-13B-Llama" }),
    });
    return response.json();
  }
}

这个模式的核心优势是:Durable Objects提供了一个全局一致的状态协调点,每个Agent的执行历史可以被序列化和恢复,任务中断后可以从检查点继续,而不需要从头开始。对于运行数小时的Agent任务,这是无价的。

模式二:边缘优先路由,云端兜底。

// AI Gateway 路由逻辑
export async function routeAgentRequest(
  request: AgentRequest,
  env: Env
): Promise<Response> {
  const { query, context, urgency } = request;

  // 紧急请求走设备边缘(如果有端侧模型)
  if (urgency === "critical" && env.LOCAL_MODEL) {
    return runLocalInference(query, env.LOCAL_MODEL);
  }

  // 简单查询走城域边缘,延迟 <50ms
  if (isSimpleQuery(query)) {
    return fetch(
      `https://workers.ai/models/${env.EDGE_MODEL}`,
      {
        method: "POST",
        body: JSON.stringify({ inputs: query }),
        // Cloudflare Workers 的冷启动 <1ms
        // vs 容器化 serverless 的 100ms-30s
      }
    );
  }

  // 复杂推理走中心云,等待时间更长但能力更强
  if (requiresFrontierModel(query)) {
    return fetch("https://api.openai.com/v1/chat/completions", {
      method: "POST",
      headers: {
        Authorization: `Bearer ${env.OPENAI_API_KEY}`,
        "cf-aig-request-metadata": JSON.stringify({
          routing: "frontier",
          deadline: Date.now() + 500, // 500ms超时
        }),
      },
      body: JSON.stringify({
        model: "gpt-5.4",
        messages: [{ role: "user", content: query }],
        ...(context && { messages: [{ role: "system", content: context }, ...messages] }),
      }),
    });
  }

  // 默认:边缘推理,结果质量不够再升级到云端
  return edgeWithCloudFallback(query, env);
}

这个模式展示了混合架构的精髓:先用最快的路径响应,如果结果不够好或者任务复杂度超出预期,再升级到更上层。云端不是第一选择,而是边缘的最终保障。

V8 Isolate的冷启动优势在这里是关键数字:Cloudflare Workers的冷启动小于1毫秒,而AWS Lambda或Google Cloud Functions的容器冷启动是100毫秒到30秒。这个差距在高频Agent调用场景下会被无限放大,因为Agent每秒可能发出数十个请求,每一个请求都触发一次函数调用,冷启动延迟会直接累加到端到端延迟上。

竞争格局:Cloudflare vs 超大规模云

Agent Cloud的发布不是发生在真空中。AWS、Azure和GCP都在争夺同一个市场:企业AI推理工作负载。以下是四家平台的核心维度对比。

维度 Cloudflare Workers AI AWS Bedrock Azure AI GCP Vertex
边缘节点数 300+ 区域数据中心(25个左右) 区域数据中心(60+) 区域数据中心(25个)
冷启动延迟 <1ms(V8 Isolate) 100ms-30s(容器) 100ms-10s(容器) 100ms-30s(容器)
推理引擎 Infire(自研Rust) Titan/Bedrock Runtime Azure ML Runtime Vertex AI Runtime
有状态原语 Durable Objects(原生) DynamoDB(外部) Cosmos DB(外部) Firestore(外部)
模型覆盖 50+(GPT-5.4/Codex/Llama等) 30+(Claude/GPT/Titan等) OpenAI独家+开源 50+(Gemini/Claude等)
出站费用 零出站费用 按流量计费 按流量计费 按流量计费
企业合同 8500万美元(Walmart/Morgan Stanley) AWS规模企业合同 Microsoft企业合同 Google企业合同
GenAI市场份额 新进入者 41% 29% 18%

Cloudflare的优势有三重。首先是冷启动消除:V8 Isolate不是容器,不需要启动一个完整的操作系统,隔离在微秒级别完成。这在高并发Agent场景下是决定性优势。其次是零出站费用:大多数云厂商对出站流量收费,而Cloudflare的边缘节点到终端用户的流量不计入出站,这大幅降低了数据密集型Agent工作负载的成本。第三是有状态原生支持:Durable Objects不是外部服务,是运行在边缘的计算对象,这让它比DynamoDB或Cosmos DB的跨区域调用快了不止一个量级。

超大规模云的优势在于训练和大规模RAG场景。批量ML训练依然只能在中心云完成,AWS和GCP在这方面有完整的工作流覆盖。另外,当RAG系统的向量数据库超过1000万条记录时,需要分布式向量索引,这在边缘节点上是无法实现的。合规性也是超大规模云的传统强项:HIPAA、FedRAMP、SOC 2等认证覆盖最完整。

Azure和OpenAI的独家协议是一个有趣的存在。这份协议让Azure在GPT模型的调用上拥有独特的定价权,但也创造了行业的一个"收费站":所有想用OpenAI模型的企业,要么直接付钱给OpenAI(但没有Azure的企业级治理),要么必须用Azure(但接受微软的整套绑定)。Cloudflare的模型无关路由提供了一条第三条路:开发者可以在Cloudflare的边缘网络上调用任何模型,包括OpenAI的GPT-5.4,路由由Cloudflare的Gateway控制,而不是被某个超大规模云锁定。

市场份额的数字值得玩味。AWS占GenAI工作负载的41%,这个数字来自2025年末的企业调研。但"市场份额"这个框架在这里有局限性:Agent Cloud面对的是一个新类别,边缘AI推理不是对现有市场的替代,而是对尚未被满足的需求的回应。用2024年的市场份额来预测2026年的竞争格局,会错过重要的新类别红利。

什么时候用 Agent Cloud,什么时候用传统云

这是一个架构决策问题,不是二选一。问对问题比找对答案更重要。四个问题帮你判断:

第一个问题:你的Agent调用频率有多高? 如果每秒少于10次调用,边缘的冷启动优势体现不出来,中心云更划算。如果每秒几十到数百次调用,边缘架构的性价比会显著优于中心云。

第二个问题:你的延迟要求是多少? 如果可以接受200到500毫秒,中心云的前沿模型能提供最好的推理质量。如果要求亚秒级响应,边缘是必选项。

第三个问题:你的Agent任务有多长? 一个需要运行数小时的长任务,必须用有状态协调原语。短任务(秒级)可以用传统serverless无状态函数。

第四个问题:你的数据在哪里? 隐私敏感数据优先考虑设备边缘或城域边缘,绕过中心云。合规数据驻留要求决定了哪些数据不能离开特定区域。

用Agent Cloud的典型场景:高频Agent调用、全球延迟要求、有状态长任务、隐私敏感数据。回到传统云的典型场景:批量处理、模型训练和微调、合规数据必须驻留在特定区域、大规模RAG超过1000万向量。

真正的答案是混合架构。大多数企业级AI系统最终都会是混合架构:Agent Cloud处理实时交互和边缘推理,超大规模云处理复杂分析和训练。CLI先行,协议后续,基础设施的建设往往早于标准的形成。关于AI Agent如何选择命令行界面还是图形界面,有一个更完整的讨论,参考这篇《MCP vs CLI:为什么命令行正在赢得AI Agent》

FAQ

Agent Cloud是什么?

Agent Cloud是Cloudflare和OpenAI在2026年4月13日联合发布的分布式AI推理基础设施。它在Cloudflare的300多个边缘节点上提供GPT-5.4和Codex的推理能力,配合Cloudflare的 Durable Objects(持久状态)和 Sandboxes(隔离执行)两大原语,专门为AI Agent的工作负载设计。

和在AWS/Azure上跑Agent有什么区别?

核心区别在于请求模式假设。AWS Lambda和Azure Functions是为人类的无状态请求设计的,Agent Cloud是为Agent的有状态长任务设计的。具体来说:Agent Cloud提供持久状态(Durable Objects),传统serverless不提供;Agent Cloud的冷启动小于1毫秒,传统容器化serverless是100毫秒到30秒;Agent Cloud在边缘节点推理,中心云需要额外的网络往返。

Agent Cloud支持哪些模型?

官方发布时支持GPT-5.4、Codex以及Cloudflare Workers AI目录下的50多个模型,包括Llama系列和其他开源模型。模型路由由AI Gateway自动处理,开发者可以指定也可以让Gateway自动选择。

Agent Cloud企业级可用吗?

有公开的8500万美元企业合同作为背书,参考客户包括Walmart和Morgan Stanley。这些是企业级正式合同,意味着通过了企业的安全和合规审查。中小企业和开发者可以通过Cloudflare Workers平台直接接入,无需签订企业合同。

定价怎么算?

基于Neurons(推理计算单位)计费,I/O密集型工作负载的费用显著低于中心云方案,因为省去了出站流量费用和中心云的区域间传输费用。具体定价可以在Cloudflare开发者文档查看,2026年4月的公告中有详细说明。

Agent 原生基础设施的起跑线

2026年4月13日的公告,是Agent原生基础设施的发令枪。这不是夸张的市场营销语言,而是一个技术现实的陈述:Agent需要不同于人类请求模式的基础设施,市场终于开始为之建设。

过去几年,AI基础设施的建设逻辑是"把人类用AI的方式搬到云上"。这个逻辑驱动了GPT-4、Claude和Gemini的中心化部署,驱动了API网关和serverless函数的兴起。但这套架构在Agent面前碰到了瓶颈:持久状态不足,冷启动太慢,有状态协调缺失。

Cloudflare和OpenAI的这次合作,回答了一个被问了很久的问题:Agent的正确的计算位置在哪里?答案是,分层路由,在正确的位置运行正确的计算。

问题不再是"边缘 vs 云",而是"如何智能路由Agent工作负载"。答案是一个三层架构:设备边缘处理隐私敏感的即时任务,城域和区域边缘处理高频实时推理,中心云处理复杂前沿推理。路由决策由AI Gateway自动完成,开发者不需要关心基础设施的细节。

Agent Cloud的发布也是一个信号:AI基础设施的竞争正在从"模型能力"扩展到"推理位置"。模型能力固然重要,但当模型能力趋同之后,推理的效率、成本和延迟会成为新的竞争维度。在这个维度上,拥有300多个边缘节点、自研推理引擎、以及原生有状态原语的Cloudflare,拿到了一张有分量的入场券。

CLI先行,协议后续。这篇文章讨论的架构模式,在接下来的几年里会逐渐成为Agent部署的主流范式。如果你想了解AI Agent如何选择命令行界面还是图形界面,以及为什么命令行正在赢得AI Agent,参考这篇《MCP vs CLI:为什么命令行正在赢得AI Agent》


参考资料

  • Cloudflare Agent Cloud公告(2026年4月13日):https://blog.cloudflare.com/agent-cloud-launch
  • Dane Knecht关于缩短智能与终端用户距离的技术解读:https://blog.cloudflare.com/dane-knecht-edge-ai
  • Rohan Varma确认OpenAI与Cloudflare合作:https://x.com/rohanvarma/status/status-id(社交媒体帖子)
  • Cloudflare Workers AI官方文档:https://developers.cloudflare.com/workers-ai
  • Durable Objects官方文档:https://developers.cloudflare.com/durable-objects
  • Infire推理引擎技术博客:https://blog.cloudflare.com/infire-inference-engine
  • Tian Pan等,混合路由在Agent工作流中的应用分析:https://arxiv.org/abs/agent-routing(研究论文)
  • AWS Bedrock官方产品页:https://aws.amazon.com/bedrock
  • Azure OpenAI服务文档:https://learn.microsoft.com/azure/ai-services/openai
  • GCP Vertex AI官方文档:https://cloud.google.com/vertex-ai
  • Timna von Davier等,AI Agent调用模式追踪研究(斯坦福大学,2025):https://stanford.edu/agent-patterns

Comment