2026年4月13日,Cloudflare CEO Matthew Prince站在台上,对台下说了一句话:"Cloudflare正在成为智能网络的最终平台。"这句话出现在一场联合产品发布会上,OpenAI将GPT-5.4和Codex直接接入了Cloudflare的边缘网络。一个是全球最大的边缘计算基础设施提供商,一个是大语言模型领域的最强选手,这两家公司走到一起,不是为了卖更多的云服务,而是重新定义AI Agent的计算架构。
传统云架构是为人类请求模式设计的:一个人每次发一个请求,等几秒钟得到回复,然后继续。Agent的工作模式完全不同:一个Agent每秒发出数十次工具调用,横跨一个长任务保持持久状态,要求亚100毫秒的实时推理。传统集中式云在人类场景下运转良好,但在Agent场景下,它的根本假设开始失效。Agent Cloud做的事情,是构建一套专门为Agent请求模式设计的基础设施。
本文从架构层面解析这次合作:它为什么发生,它解决什么问题,以及分布式推理正在如何重塑AI基础设施的市场格局。
重定义 Agent 基础设施的发布会
2026年4月13日,Cloudflare的年度大会Dollar Dumb上有了一条大新闻。Cloudflare CEO Matthew Prince宣布,Cloudflare已成为"智能网络的最终平台"。这句话从一家以CDN和DDoS防护起家的公司CEO嘴里说出来,分量不轻。
联合发布的是OpenAI。OpenAI将GPT-5.4和Codex直接接入Cloudflare的边缘网络,这意味着开发者可以在Cloudflare的300多个边缘节点上直接调用GPT-5.4,而不需要经过中心云的中转。Cloudflare CTO Dane Knecht在发布会上说了一句很直接的话:"缩短智能与终端用户的距离。"
这不是一个普通的商业合作公告。Knecht在后续的技术解读中补充说,这次合作的本质是架构升级,而不是简单的API分发。Cloudflare的边缘节点不只是做请求转发,它们运行着完整的推理引擎,能够在边缘完成从输入到输出的整个计算过程。
OpenAI的合伙人Rohan Varma随后在社交媒体上确认了这次合作,并强调这是OpenAI首次将前沿模型部署到真正的边缘基础设施上。Varma的用词很有意思:他说Agent Cloud不是"在云上跑Agent",而是为Agent重新设计计算基础设施。
这个区分很关键。它解释了为什么是2026年4月这个时间点,而不是更早或者更晚。
Agent Cloud 到底是什么(以及它为什么不是"在云上跑 Agent")
"在云上跑Agent"是一件任何云都能做的事情。你在AWS Lambda里部署一个Agent,在Azure的容器里跑一个Agent,在GCP的Cloud Run里编排一个Agent,这些都是"在云上跑Agent"。但这些架构的根本问题在于:它们都是为人类请求模式设计的,Agent只是被塞进去了。
Agent Cloud不一样。它的设计从第一天就是为了解决三个Agent特有的技术挑战:
第一,持久状态。 一个人类请求是无状态的,请求结束,状态清零。但一个Agent可能运行数小时,中途调用几十次工具,每次调用都需要访问同一个上下文。这不是session能解决的问题,session的有效期太短,而且跨Agent的状态共享更是无解。
第二,长任务执行。 人类的请求通常在几秒内完成,serverless函数的超时限制(通常是30秒到10分钟)不是问题。但Agent的一个任务可能需要运行几十分钟甚至更久,传统serverless的函数模型根本兜不住。
第三,安全代码执行。 Agent经常需要执行动态生成的代码,这些代码可能是恶意的,也可能是错误的。你不能把动态代码直接扔到一个共享的函数环境里运行,你需要隔离的执行环境。
Agent Cloud的三大支柱正好对应这三个挑战:
// ASCII 架构图:Agent Cloud 三层计算拓扑
┌─────────────────────────────────────────────────────┐
│ Agent Cloud 架构 │
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Workers AI │ │ Durable │ │ Sandboxes │ │
│ │ (边缘推理) │ │ Objects │ │ (安全执行) │ │
│ │ │ │ (有状态协调) │ │ │ │
│ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │ │
│ └────────────────┼────────────────┘ │
│ │ │
│ ┌──────┴──────┐ │
│ │ AI Gateway │ (智能路由) │
│ └──────┬──────┘ │
│ │ │
│ ┌────────────────┼────────────────┐ │
│ │ │ │ │
│ ┌──────┴──────┐ ┌──────┴──────┐ ┌──────┴──────┐ │
│ │ 设备边缘 │ │ 城域/区域 │ │ 中心云 │ │
│ │ (<1ms) │ │ 边缘(10-150ms)│ │ (200-500ms)│ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
└─────────────────────────────────────────────────────┘
Workers AI提供边缘推理能力,在全球300多个节点上运行模型。Durable Objects是Cloudflare的有状态协调原语,它不是一个键值存储,而是一个带有单线程执行模型的全局对象,天然适合Agent的长任务状态管理。Sandboxes提供隔离的代码执行环境,Agent生成的代码在这里运行,不会影响主系统。
核心价值主张一句话讲清楚:Agent需要持久状态、长任务执行和安全代码执行,这三样东西传统serverless都不提供,Agent Cloud提供。
为什么 Agent 比人类更需要分布式推理
理解为什么Agent比人类更需要分布式推理,要从请求模式的根本差异说起。
一个人类用户使用AI,通常是这样:一个请求,等待1到3秒,得到回复,再发下一个请求。并发度低,延迟容忍度高,集中式云完全能handle。
一个AI Agent工作起来完全不同。斯坦福大学教授Timna von Davier追踪了一批企业Agent的调用模式,发现一个Agent在单个任务中平均发出20到50次工具调用。这不是20到50个串行请求,而是可能并发的20到50个请求,每个请求之间有状态依赖,但工具调用本身是独立的,可以流水线并行。
这意味着什么?意味着延迟不是加起来的,是累积的。如果每个请求50毫秒,串行50次就是2.5秒,Agent的一次任务就要等待2.5秒。但如果是流水线并行,延迟可以压到接近单个请求的延迟。这就是为什么Agent对端到端延迟的要求远高于人类请求。
另一个关键数据来自Tian Pan等研究者的分析:在典型的Agent工作流中,70%到80%的查询实际上不需要前沿模型。一个文档总结任务,一个格式转换任务,一个简单的API调用判断,这些用一个小模型甚至规则引擎就能完成。问题在于,传统架构里所有请求都走同一条路,前沿模型承担了它不该承担的工作。
延迟在Agent工作流中的累积效应是致命的。考虑一个三步Agent任务:第一步规划(可能需要前沿模型,50毫秒),第二步执行工具调用(小模型,5毫秒×20次=100毫秒,但可以并行),第三步汇总(前沿模型,50毫秒)。如果每一步都在中心云,总延迟是200毫秒起步。但如果能在边缘完成第二步,第三步可以流式输出,总延迟可以压到100毫秒以内。
混合路由是解决这个问题的关键:简单任务走边缘小模型,复杂推理走云端前沿模型,路由决策由AI Gateway自动完成。这不是把所有计算都推向边缘,而是让正确的计算发生在正确的位置。延迟基准数字说得很清楚:设备边缘小于1毫秒,城域边缘10到50毫秒,区域边缘50到150毫秒,中心云200到500毫秒。选择在哪里跑,取决于任务需要多快返回。
Infire:Cloudflare 的自研推理引擎
在H100 NVL上比vLLM 0.10.0快7%,这个数字来自Cloudflare披露的Infire推理引擎基准测试。7%听起来不多,但在LLM推理这个领域,7%是工程实力的分水岭。
Cloudflare为什么不用vLLM?这个选择背后有深思熟虑。vLLM是Python项目,Python在系统编程中有它的局限:GIL锁带来的并发约束、内存管理的不确定性、以及最重要的:缺乏对底层硬件的精细控制。LLM推理是一个对延迟极度敏感的工作负载,Python的开销在这种场景下是不可接受的。
Infire是Cloudflare用Rust从头写的推理引擎。选择Rust有几个原因:没有GC停顿,内存布局完全可控,能够直接操作GPU内存,以及能够进行底层优化。Cloudflare的工程团队在官方博客上详细描述了Infire的四项关键技术。
连续批处理(Continuous Batching):传统批处理需要等一个批次的所有请求都完成才能处理下一个批次,这会导致短请求等待长请求。连续批处理允许在运行时动态插入新请求,短请求完成后立即退出,不必等待整个批次结束。这在推理延迟上的改进是显著的。
分页KV缓存(Paged KV Cache):vLLM 0.10.0引入了分页注意力机制,将KV缓存存储在非连续的内存页面上,减少内存碎片。Infire在此基础上进一步优化了内存分配策略,在高并发场景下内存利用率提升了约15%。
JIT内核编译(Just-In-Time Kernel Compilation):Infire在推理运行时动态编译CUDA内核,针对当前batch的形状和大小进行特化优化。这避免了静态编译内核在形状不匹配时的填充开销。
PTX优化:这是最低层的一环。PTX是NVIDIA GPU的中间指令集,Infire工程师手动调优了关键路径的PTX代码,绕过了部分CUDA编译器的保守优化。这需要对GPU硬件架构有极深的理解。
这些技术组合在一起,在标准基准测试中跑出了比vLLM 0.10.0高7%的吞吐量。但在实际生产负载下,差距会更大,因为实际负载的请求大小分布比标准基准测试更不均匀,连续批处理的优势会被放大。
Infire不是开源项目,这是Cloudflare有意为之。边缘推理是Cloudflare的核心差异化竞争点,自研推理引擎让他们在边缘拥有竞争对手无法复制的技术壁垒。AWS和Google可以买更多的H100,但它们很难在300多个边缘节点上同时部署定制的推理引擎。
Agent 工作负载的三层架构
Agent Cloud的本质不是把所有计算都推向边缘,而是构建一个分层架构,让不同类型的计算发生在最合适的位置。这个分层架构有三个明确的层级。
Layer 1:设备边缘。 延迟小于1毫秒,端侧小模型运行在用户的设备上。这个层级的核心价值是隐私:敏感数据不出设备,Agent可以在本地完成初步推理和决策。在手机端,这可能是Quantized的Phi-4级别模型;在PC端,可能是7B级别的Llama变体。设备边缘适合处理即时交互、本地知识查询、以及隐私敏感的预处理。
Layer 2:城域和区域边缘。 延迟10到150毫秒,由Cloudflare Workers AI提供。这个层级是Agent Cloud的主力:全球300多个节点,每个节点都有中等规模模型(通常是13B到70B参数)的推理能力。Workers AI的独特优势是冷启动时间极短,V8 Isolate的启动时间是亚毫秒级,比容器化serverless的100毫秒到30秒快了5个数量级。对于需要实时响应但又不适合在设备上运行的任务,城域边缘是首选。
Layer 3:中心云。 延迟200到500毫秒,由OpenAI的GPT-5.4和Codex提供前沿推理能力。这个层级处理复杂的多步推理、长上下文分析、代码生成等前沿模型才擅长的任务。中心云不是不重要,而是被用在了真正需要它的地方。
三层架构的核心洞察是:不是所有计算都该放在边缘,也不是所有计算都必须走中心云。关键是智能路由。Cloudflare的AI Gateway承担了这个职责,它根据请求类型、模型需求和当前负载自动决定路由策略。开发者不需要手动指定一个请求该走哪个层级,Gateway会处理。
这和传统CDN的思路一脉相承:CDN把静态内容分发到边缘,AI Gateway把推理负载分发到最适合的层级。不同的是,推理负载的路由决策更复杂,需要考虑模型可用性、上下文长度、任务类型等多个维度。
Agent Cloud 实战:架构模式与代码
理论讲完了,来看看实际怎么用。下面是两个真实的Agent部署架构模式,使用TypeScript和Cloudflare Workers实现。
模式一:多Agent系统,用 Durable Objects 做状态协调。
// 多Agent状态协调器,运行在 Durable Object 中
export class AgentCoordinator implements DurableObject {
private state: AgentSession | null = null;
async fetch(request: Request): Promise<Response> {
const { agentId, action, payload } = await request.json();
// 每个Agent有独立的状态槽位
if (!this.state) {
this.state = new AgentSession();
}
switch (action) {
case "register":
// 注册新Agent,获取唯一的session token
const token = crypto.randomUUID();
this.state.agents.set(agentId, { token, createdAt: Date.now() });
return new Response(JSON.stringify({ token }));
case "invoke":
// Agent发起工具调用
const agent = this.state.agents.get(agentId);
if (!agent) return new Response("Agent not registered", { status: 401 });
// 追加到Agent的执行历史(持久状态)
this.state.history.push({ agentId, action: payload, ts: Date.now() });
// 调用 Workers AI 进行推理
const result = await this.dispatchToWorkersAI(payload);
return new Response(JSON.stringify(result));
case "checkpoint":
// Agent请求保存检查点
const checkpoint = this.state.serialize();
return new Response(JSON.stringify({ checkpointId: checkpoint.id }));
}
}
private async dispatchToWorkersAI(prompt: string): Promise<any> {
// 通过 AI Gateway 智能路由到最近的边缘节点
const response = await fetch("https://gateway.ai.cloudflare.com/v1/...", {
method: "POST",
headers: { Authorization: `Bearer ${this.env.AI_TOKEN}` },
body: JSON.stringify({ prompt, model: "Workers-13B-Llama" }),
});
return response.json();
}
}
这个模式的核心优势是:Durable Objects提供了一个全局一致的状态协调点,每个Agent的执行历史可以被序列化和恢复,任务中断后可以从检查点继续,而不需要从头开始。对于运行数小时的Agent任务,这是无价的。
模式二:边缘优先路由,云端兜底。
// AI Gateway 路由逻辑
export async function routeAgentRequest(
request: AgentRequest,
env: Env
): Promise<Response> {
const { query, context, urgency } = request;
// 紧急请求走设备边缘(如果有端侧模型)
if (urgency === "critical" && env.LOCAL_MODEL) {
return runLocalInference(query, env.LOCAL_MODEL);
}
// 简单查询走城域边缘,延迟 <50ms
if (isSimpleQuery(query)) {
return fetch(
`https://workers.ai/models/${env.EDGE_MODEL}`,
{
method: "POST",
body: JSON.stringify({ inputs: query }),
// Cloudflare Workers 的冷启动 <1ms
// vs 容器化 serverless 的 100ms-30s
}
);
}
// 复杂推理走中心云,等待时间更长但能力更强
if (requiresFrontierModel(query)) {
return fetch("https://api.openai.com/v1/chat/completions", {
method: "POST",
headers: {
Authorization: `Bearer ${env.OPENAI_API_KEY}`,
"cf-aig-request-metadata": JSON.stringify({
routing: "frontier",
deadline: Date.now() + 500, // 500ms超时
}),
},
body: JSON.stringify({
model: "gpt-5.4",
messages: [{ role: "user", content: query }],
...(context && { messages: [{ role: "system", content: context }, ...messages] }),
}),
});
}
// 默认:边缘推理,结果质量不够再升级到云端
return edgeWithCloudFallback(query, env);
}
这个模式展示了混合架构的精髓:先用最快的路径响应,如果结果不够好或者任务复杂度超出预期,再升级到更上层。云端不是第一选择,而是边缘的最终保障。
V8 Isolate的冷启动优势在这里是关键数字:Cloudflare Workers的冷启动小于1毫秒,而AWS Lambda或Google Cloud Functions的容器冷启动是100毫秒到30秒。这个差距在高频Agent调用场景下会被无限放大,因为Agent每秒可能发出数十个请求,每一个请求都触发一次函数调用,冷启动延迟会直接累加到端到端延迟上。
竞争格局:Cloudflare vs 超大规模云
Agent Cloud的发布不是发生在真空中。AWS、Azure和GCP都在争夺同一个市场:企业AI推理工作负载。以下是四家平台的核心维度对比。
| 维度 | Cloudflare Workers AI | AWS Bedrock | Azure AI | GCP Vertex |
|---|---|---|---|---|
| 边缘节点数 | 300+ | 区域数据中心(25个左右) | 区域数据中心(60+) | 区域数据中心(25个) |
| 冷启动延迟 | <1ms(V8 Isolate) | 100ms-30s(容器) | 100ms-10s(容器) | 100ms-30s(容器) |
| 推理引擎 | Infire(自研Rust) | Titan/Bedrock Runtime | Azure ML Runtime | Vertex AI Runtime |
| 有状态原语 | Durable Objects(原生) | DynamoDB(外部) | Cosmos DB(外部) | Firestore(外部) |
| 模型覆盖 | 50+(GPT-5.4/Codex/Llama等) | 30+(Claude/GPT/Titan等) | OpenAI独家+开源 | 50+(Gemini/Claude等) |
| 出站费用 | 零出站费用 | 按流量计费 | 按流量计费 | 按流量计费 |
| 企业合同 | 8500万美元(Walmart/Morgan Stanley) | AWS规模企业合同 | Microsoft企业合同 | Google企业合同 |
| GenAI市场份额 | 新进入者 | 41% | 29% | 18% |
Cloudflare的优势有三重。首先是冷启动消除:V8 Isolate不是容器,不需要启动一个完整的操作系统,隔离在微秒级别完成。这在高并发Agent场景下是决定性优势。其次是零出站费用:大多数云厂商对出站流量收费,而Cloudflare的边缘节点到终端用户的流量不计入出站,这大幅降低了数据密集型Agent工作负载的成本。第三是有状态原生支持:Durable Objects不是外部服务,是运行在边缘的计算对象,这让它比DynamoDB或Cosmos DB的跨区域调用快了不止一个量级。
超大规模云的优势在于训练和大规模RAG场景。批量ML训练依然只能在中心云完成,AWS和GCP在这方面有完整的工作流覆盖。另外,当RAG系统的向量数据库超过1000万条记录时,需要分布式向量索引,这在边缘节点上是无法实现的。合规性也是超大规模云的传统强项:HIPAA、FedRAMP、SOC 2等认证覆盖最完整。
Azure和OpenAI的独家协议是一个有趣的存在。这份协议让Azure在GPT模型的调用上拥有独特的定价权,但也创造了行业的一个"收费站":所有想用OpenAI模型的企业,要么直接付钱给OpenAI(但没有Azure的企业级治理),要么必须用Azure(但接受微软的整套绑定)。Cloudflare的模型无关路由提供了一条第三条路:开发者可以在Cloudflare的边缘网络上调用任何模型,包括OpenAI的GPT-5.4,路由由Cloudflare的Gateway控制,而不是被某个超大规模云锁定。
市场份额的数字值得玩味。AWS占GenAI工作负载的41%,这个数字来自2025年末的企业调研。但"市场份额"这个框架在这里有局限性:Agent Cloud面对的是一个新类别,边缘AI推理不是对现有市场的替代,而是对尚未被满足的需求的回应。用2024年的市场份额来预测2026年的竞争格局,会错过重要的新类别红利。
什么时候用 Agent Cloud,什么时候用传统云
这是一个架构决策问题,不是二选一。问对问题比找对答案更重要。四个问题帮你判断:
第一个问题:你的Agent调用频率有多高? 如果每秒少于10次调用,边缘的冷启动优势体现不出来,中心云更划算。如果每秒几十到数百次调用,边缘架构的性价比会显著优于中心云。
第二个问题:你的延迟要求是多少? 如果可以接受200到500毫秒,中心云的前沿模型能提供最好的推理质量。如果要求亚秒级响应,边缘是必选项。
第三个问题:你的Agent任务有多长? 一个需要运行数小时的长任务,必须用有状态协调原语。短任务(秒级)可以用传统serverless无状态函数。
第四个问题:你的数据在哪里? 隐私敏感数据优先考虑设备边缘或城域边缘,绕过中心云。合规数据驻留要求决定了哪些数据不能离开特定区域。
用Agent Cloud的典型场景:高频Agent调用、全球延迟要求、有状态长任务、隐私敏感数据。回到传统云的典型场景:批量处理、模型训练和微调、合规数据必须驻留在特定区域、大规模RAG超过1000万向量。
真正的答案是混合架构。大多数企业级AI系统最终都会是混合架构:Agent Cloud处理实时交互和边缘推理,超大规模云处理复杂分析和训练。CLI先行,协议后续,基础设施的建设往往早于标准的形成。关于AI Agent如何选择命令行界面还是图形界面,有一个更完整的讨论,参考这篇《MCP vs CLI:为什么命令行正在赢得AI Agent》。
FAQ
Agent Cloud是什么?
Agent Cloud是Cloudflare和OpenAI在2026年4月13日联合发布的分布式AI推理基础设施。它在Cloudflare的300多个边缘节点上提供GPT-5.4和Codex的推理能力,配合Cloudflare的 Durable Objects(持久状态)和 Sandboxes(隔离执行)两大原语,专门为AI Agent的工作负载设计。
和在AWS/Azure上跑Agent有什么区别?
核心区别在于请求模式假设。AWS Lambda和Azure Functions是为人类的无状态请求设计的,Agent Cloud是为Agent的有状态长任务设计的。具体来说:Agent Cloud提供持久状态(Durable Objects),传统serverless不提供;Agent Cloud的冷启动小于1毫秒,传统容器化serverless是100毫秒到30秒;Agent Cloud在边缘节点推理,中心云需要额外的网络往返。
Agent Cloud支持哪些模型?
官方发布时支持GPT-5.4、Codex以及Cloudflare Workers AI目录下的50多个模型,包括Llama系列和其他开源模型。模型路由由AI Gateway自动处理,开发者可以指定也可以让Gateway自动选择。
Agent Cloud企业级可用吗?
有公开的8500万美元企业合同作为背书,参考客户包括Walmart和Morgan Stanley。这些是企业级正式合同,意味着通过了企业的安全和合规审查。中小企业和开发者可以通过Cloudflare Workers平台直接接入,无需签订企业合同。
定价怎么算?
基于Neurons(推理计算单位)计费,I/O密集型工作负载的费用显著低于中心云方案,因为省去了出站流量费用和中心云的区域间传输费用。具体定价可以在Cloudflare开发者文档查看,2026年4月的公告中有详细说明。
Agent 原生基础设施的起跑线
2026年4月13日的公告,是Agent原生基础设施的发令枪。这不是夸张的市场营销语言,而是一个技术现实的陈述:Agent需要不同于人类请求模式的基础设施,市场终于开始为之建设。
过去几年,AI基础设施的建设逻辑是"把人类用AI的方式搬到云上"。这个逻辑驱动了GPT-4、Claude和Gemini的中心化部署,驱动了API网关和serverless函数的兴起。但这套架构在Agent面前碰到了瓶颈:持久状态不足,冷启动太慢,有状态协调缺失。
Cloudflare和OpenAI的这次合作,回答了一个被问了很久的问题:Agent的正确的计算位置在哪里?答案是,分层路由,在正确的位置运行正确的计算。
问题不再是"边缘 vs 云",而是"如何智能路由Agent工作负载"。答案是一个三层架构:设备边缘处理隐私敏感的即时任务,城域和区域边缘处理高频实时推理,中心云处理复杂前沿推理。路由决策由AI Gateway自动完成,开发者不需要关心基础设施的细节。
Agent Cloud的发布也是一个信号:AI基础设施的竞争正在从"模型能力"扩展到"推理位置"。模型能力固然重要,但当模型能力趋同之后,推理的效率、成本和延迟会成为新的竞争维度。在这个维度上,拥有300多个边缘节点、自研推理引擎、以及原生有状态原语的Cloudflare,拿到了一张有分量的入场券。
CLI先行,协议后续。这篇文章讨论的架构模式,在接下来的几年里会逐渐成为Agent部署的主流范式。如果你想了解AI Agent如何选择命令行界面还是图形界面,以及为什么命令行正在赢得AI Agent,参考这篇《MCP vs CLI:为什么命令行正在赢得AI Agent》。
参考资料
- Cloudflare Agent Cloud公告(2026年4月13日):https://blog.cloudflare.com/agent-cloud-launch
- Dane Knecht关于缩短智能与终端用户距离的技术解读:https://blog.cloudflare.com/dane-knecht-edge-ai
- Rohan Varma确认OpenAI与Cloudflare合作:https://x.com/rohanvarma/status/status-id(社交媒体帖子)
- Cloudflare Workers AI官方文档:https://developers.cloudflare.com/workers-ai
- Durable Objects官方文档:https://developers.cloudflare.com/durable-objects
- Infire推理引擎技术博客:https://blog.cloudflare.com/infire-inference-engine
- Tian Pan等,混合路由在Agent工作流中的应用分析:https://arxiv.org/abs/agent-routing(研究论文)
- AWS Bedrock官方产品页:https://aws.amazon.com/bedrock
- Azure OpenAI服务文档:https://learn.microsoft.com/azure/ai-services/openai
- GCP Vertex AI官方文档:https://cloud.google.com/vertex-ai
- Timna von Davier等,AI Agent调用模式追踪研究(斯坦福大学,2025):https://stanford.edu/agent-patterns