B2B Signals 解读:2026年前沿企业的 AI 采用正在拉开不可逆的差距
OpenAI 最新发布的企业级遥测报告包含一个应该重置每位 CEO AI 战略的数字。前沿企业现在每个员工消耗的 AI 智能是典型企业的 3.5 倍,且差距正在加速扩大。但真正重要的不是 headline 比率,而是体积与深度之间 36/64 的分裂所揭示的深层信号。
一个应该让你失眠的数字
2026 年 5 月 6 日,OpenAI 发布了 B2B Signals 的第一版。这是一项基于隐私保护的企业级聚合遥测数据的周期性研究。 headline 发现很快传遍了工程经理们的 Slack:前沿企业(AI 使用量的 95th percentile)现在每个员工消耗的 AI 智能是典型企业的 3.5 倍。
一年前,这个数字是 2 倍。12 个月内,差距几乎翻倍。
自然的反应是将其视为采购差距。前沿企业买了更多 AI。他们部署了更多席位。预算更大。如果我们增加 AI 支出,就能缩小差距。
这个反应完全错误。OpenAI 自己的数据证明了这一点。
消息量只解释了 3.5 倍差距的 36%。 剩下的 64% 来自完全不同的东西:更丰富的提示、更复杂的任务、更长的推理链、委派的 agentic 工作流、更实质性的输出。换句话说,前沿企业不只是更频繁地使用 AI。他们在根本不同的深度上使用 AI。
这个区分改变了一切。如果差距主要是关于用量,解决方案很简单:买更多许可证、部署更多席位、鼓励更多使用。但由于 64% 的差距是关于深度,解决方案是组织层面的,而非财务层面的。它关乎工作如何设计、团队如何结构、治理如何构建、AI 如何嵌入核心流程而非事后 bolt-on。
企业领导者的问题不再是"我们用了多少 AI?"而是"AI 在多大程度上嵌入到我们实际的工作方式中?"
B2B Signals 到底测量了什么
在解读数据之前,值得先理解 B2B Signals 是什么、不是什么。
B2B Signals 是 OpenAI 消费者端 Signals 研究项目的企业扩展,后者于 2025 年底开始发布。方法论使用 ChatGPT Enterprise、ChatGPT Team、API 和 Codex 的聚合匿名遥测数据,推导 percentile 排名的行为指标。没有 OpenAI 员工查看单个企业数据。消息内容通过自动化系统分类。分析纯粹是统计性的。
"每个员工的智能"指标是一个复合指标,结合消息量、提示复杂度、输出长度和功能采用。它明确对深度加权。发送一个长而上下文丰富的提示并生成实质性多步输出的员工,比发送十条短聊天消息的员工得分更高。这种加权是刻意的:OpenAI 设计这个指标是为了捕捉委托给 AI 的工作的复杂性,而不仅仅是活动量。
前沿队列按这个每个员工的智能指标定义为前 5% 的企业。典型企业在 50th percentile。第一份报告涵盖 2025 年末到 2026 年 Q1 的使用数据。
这个方法论有重要限制。B2B Signals 只测量 OpenAI 产品的使用。它无法捕捉通过竞争平台(如 Anthropic 的 Claude for Work、Google 的 Gemini Enterprise)或本地部署的开源模型的 AI 采用。它也无法测量 AI 使用产生的业务价值,只能测量使用的强度和深度。一个组织可能在每个员工的智能上得分很高,但产生的业务影响很小,反之亦然。
这些注意事项很重要,但它们不否定核心发现。即使非 OpenAI 使用被纳入后绝对数字会变化,方向性信号是明确的:使用 AI 最深的企业正在与 median 拉开差距,且差距在复合增长。
36/64 分裂:为什么用量是错误的指标
B2B Signals 报告中最重要的数字不是 3.5x。是 36%。
这是 frontier advantage 中可归因于消息量的份额。如果典型企业以某种方式匹配前沿企业的消息发送率,它只会缩小 3.5x 差距的 36%。剩下的 64% 仍然存在。
这个分解是整个报告的运营枢纽。它告诉我们,前沿企业获胜不是因为他们的员工更频繁地登录 ChatGPT。他们获胜是因为每次交互都在做更多实际工作。
"更深的使用"在实践中是什么样子的?OpenAI 的数据指向几个具体模式:
更长、更上下文丰富的提示。 前沿企业员工在提示中提供更丰富的上下文:背景文档、具体约束、先前决策、成功标准。他们不是要求 AI "写一封邮件"。他们要求 AI "起草一封给 Acme Corp 的 Q2 定价讨论跟进邮件,参考附件合同条款,保持我之前消息的语气,并标记任何偏离我们标准协议的条款。"
更复杂的多步任务。 前沿企业委托跨越多个文件、工具和推理步骤的工作。典型企业可能用 Codex 生成一个函数。前沿企业委托整个功能:"为 admin dashboard 实现用户认证,包括 JWT token 处理、基于角色的访问控制、与我们现有 OAuth provider 的集成。为所有边缘情况编写测试并更新 API 文档。"
Agentic 工作流优于聊天辅助。 整个数据集中最大的差距是 Codex 使用:前沿企业每个员工发送的 Codex 消息是典型企业的 16 倍。Codex 是一个 agentic 编码工具,意味着工程师描述任务,AI 在多个步骤中自主完成。这与聊天辅助有结构性不同,在聊天辅助中人类驱动每次交互。16 倍的差距表明前沿工程组织已经从辅助编码进入 agent 委托编码——一个完全不同的生产力 regime。
实质性输出,而非答案。 典型企业用 AI 回答问题。前沿企业用 AI 生产 artifact:完成的代码审查、起草的研究报告、验证的数据管道、生成的测试套件。输出不是信息,而是推动项目向前的工作产品。
36/64 分裂重构了整个企业 AI 对话。过去两年,大多数组织用 access 来衡量 AI 采用:拥有 AI 许可证的员工百分比、活跃用户数量、每月消息量。这些是 Driver-stage 指标。它们告诉你人们是否有 AI 工具。它们不告诉你 AI 是否在改变工作完成方式。
前沿企业已经超越了 access 指标,转向 depth 指标。他们测量提示复杂度、委托比率、agentic 工作流采用、输出实质性。这些是 Architect-stage 指标。它们反映的不仅是 AI 是否在组织中存在,还有组织是否围绕 AI 的能力进行了重构。
Agentic 差距:16 倍 Codex 及其含义
B2B Signals 报告中没有一个数据点比 Codex 差距更引人注目。前沿企业每个员工发送的 Codex 消息是典型企业的 16 倍。这是 OpenAI 测量的任何工作流类别中最大的分离。
为什么 Codex 差距如此极端?它揭示了更广泛的企业 AI 景观的什么?
Codex 是 OpenAI 的 agentic 编码产品。与聊天式编码辅助不同——开发者问问题并获得答案——Codex 接受任务描述并自主跨文件、代码库和工具完成该任务。开发者审查结果并提供反馈,但执行是委托的。
这个委托模型是关键。聊天式 AI 辅助增强开发者现有的工作流:他们仍然编写大部分代码,但在特定问题上获得帮助。Agentic AI 委托重新设计工作流:开发者定义任务并评估结果,而 agent 处理执行。
这两种模型之间的生产力差异是实质性的。B2B Signals 报告中引用的 Cisco 工程组织在生产工作流中使用 Codex,报告了 构建时间快 20%、每月节省 1500+ 工程小时、缺陷解决吞吐量提高 10-15 倍。正如 Cisco 团队所描述的,最大的收益来自他们将 Codex 视为"团队的一部分"而非工具。
16 倍的差距表明,前沿工程组织已经跨越了一个典型组织尚未跨越的门槛:他们建立了将有意义的工作委托给 AI agent 的基础设施。这个基础设施包括:
- 具有可验证成功标准的清晰任务规范
- Agent 可以访问和理解的代码库上下文
- 自动验证 agent 输出的 CI/CD 集成
- 在不造成瓶颈的情况下捕获错误的审查工作流
- 允许从低风险到高风险任务增量委托的信任机制
典型企业缺乏这个基础设施。他们可能购买了 Codex 许可证,但他们的开发者仍然将其用作增强的自动补全——要求函数实现,而非功能完成。Agentic 能力存在但未被充分利用,因为周围的组织 harness 缺失。
这个模式延伸到编码之外。ChatGPT Agent、ChatGPT 中的 Apps、Deep Research 和 Custom GPTs 都显示出类似的方向性差距,尽管幅度小于 Codex。前沿企业更擅长采用任何需要委托多步任务、应用公司上下文或复杂研究工作流的工具。Codex 差距只是一个更广泛模式的最极端表达:前沿企业已经学会了委托,而典型企业还没有。
其含义是严峻的。如果 16 倍的 Codex 差距反映了真正的生产力 regime 差异——且 Cisco 的数据表明确实如此——那么前沿工程组织不仅在编码任务上效率高出 16 倍。他们在一个完全不同的生产可能性 frontier 上运作。他们可以尝试对典型组织来说经济上不可行的项目,迭代更快,并以更慢的速度积累技术债务,因为 agentic 重构内置在他们的工作流中。
任务级 Frontier:教育、编码和功能专业化
B2B Signals 按任务类型分解 frontier advantage,揭示了 AI 采用最深和最浅的领域的细致画面。
教育和学习显示出最大的 frontier advantage:前沿企业每个员工发送的教育相关消息是典型企业的 7 倍。这是一个揭示性的发现。它表明领先企业不仅使用 AI 完成工作,还帮助员工建立使用 AI 所需的技能、习惯和信心。他们将 AI 素养作为核心基础设施投资,而非一次性培训推动。
这与我们对技术采用的更广泛了解一致。电动马达花了 60 年才改变工厂设计,不是因为技术不足,而是因为组织需要时间来发展互补的技能、流程和组织结构。AI 正在遵循类似的轨迹。前沿企业通过使用 AI 本身作为培训机制来加速这一过渡——员工通过使用 AI 来学习使用 AI,在一个连续的反馈循环中。
编码显示出第二大的 frontier advantage,每个员工的消息量是典型企业的 4 倍,与高级工具采用的更广泛模式一致。软件开发和数据科学团队将 AI 使用高度集中在编码任务上,反映了 AI 编码工具的成熟度和它们提供的可测量生产力收益。
操作指南和写作与沟通显示出最小的 frontier 差距。这些是最易访问和最熟悉的 AI 使用方式——询问程序帮助、起草邮件、总结文档。大多数企业已经采用了这些用例,因此前沿企业和典型企业之间的差异化较小。
功能专业化模式同样具有信息量。IT 和安全团队将查询高度集中在操作指南和程序指导上。软件开发和数据科学团队显示出高编码使用率。财务团队使用 AI 进行分析和计算。该模式表明 AI 正在从一般生产力转向与每个功能核心职责更紧密相关的工作。
跨行业没有单一的 AI 采用排行榜。专业、科学和技术服务在 Codex 采用和 API 强度方面都排名第一,表明开发者和产品集成工作流中的相对先进使用。金融和保险由于大规模部署而在广泛的 ChatGPT 采用方面领先。教育服务具有最高的消息强度,表明更深的人均使用。零售贸易和医疗保健在 API 强度方面排名很高,尽管在其他指标上排名较低。
这种异质性很重要。它意味着组织有多种进入 frontier 采用的路径:扩大 access、深化使用、采用 agentic 工具,或直接将 AI 构建到产品和系统中。正确的路径取决于组织的行业、功能和现有技术基础设施。
从实验到生产:API 信号
B2B Signals 不仅跟踪 ChatGPT 和 Codex 的使用,还跟踪 API 部署——企业将 OpenAI 模型直接集成到其产品、服务和内部系统中。这是 AI 从实验走向生产的最清晰信号。
常见的 API 用例包括应用内助手、编码和开发者工具、客户支持、研究工作流和工作流自动化。这些不是试点或概念验证。它们是具有可测量运营影响的可重复工作流。
Travelers Insurance 提供了一个具体例子。其使用 OpenAI 构建的 AI Claim Assistant 引导客户完成首次损失通知,回答保单问题,收集启动索赔所需的信息,并直接在 Travelers 的系统内创建索赔。该助手预计在首年处理约 100,000 次首次损失通知呼叫。这不是聊天机器人实验。它是一个以规模处理真实客户交易的生产系统。
API 信号很重要,因为它揭示了 frontier 采用的不同维度。一些组织可能有高 ChatGPT 使用率但低 API 采用率,表明强大的个人生产力收益但没有系统集成。其他组织可能有较低的整体消息量但高 API 强度,表明 AI 深度嵌入核心业务流程。两条路径都可以通向 frontier 状态,但它们需要不同的组织投资。
缩小差距的五种实践
OpenAI 的报告提炼了五种似乎帮助组织随时间建立势头的实践。这些不是理论建议。它们是从使用模式和企业访谈中观察到的前沿队列的行为。
1. 测量使用深度,而不仅仅是 Access
相关信号不是有多少员工拥有 AI 账户,而是团队是否随时间更实质性地使用 AI。组织应该跟踪 AI 使用是否变得更频繁、更复杂、更紧密地 tied to 有价值的工作流。
这是一个比 seat count 更难收集的指标,但它是唯一与 frontier 状态相关的指标。领先企业跟踪提示复杂度、输出长度、委托比率以及通过 AI 辅助工作流的工作产品份额。他们将这些视为组织 AI 成熟度的领先指标。
2. 构建使生产使用成为可能的治理
领先企业不是在回避治理。他们使用治理来使 agentic AI 更可部署。这意味着对 agent 可以在哪里操作、可以使用什么信息、应该在何时建议而非行动、以及人类如何审查高风险决策的明确规则。
关键洞察是,治理不是 AI 采用的约束,而是其推动者。没有治理,组织无法安全地将有意义的工作委托给 agent。他们停留在聊天辅助模式,因为自主行动的风险是无界的。前沿企业将治理标准定义为部署过程的一部分,因此治理成为安全扩大采用的方式,而非减慢它的方式。
3. 将赋能视为核心基础设施
随着 AI 能力的提升,员工和组织都需要帮助他们跟上的系统。前沿企业不将赋能视为一次性培训推动。他们通过角色特定培训、用例研讨会、黑客马拉松、内部冠军网络、专用实验时间以及工作流、最佳实践和技能的共享存储库,将持续学习构建到部署中。
7 倍的教育差距表明这项投资得到了回报。使用 AI 帮助员工学习 AI 的公司创造了复合效应:更好的 AI 用户产生更好的输出,这改善了后续 AI 使用的训练数据和上下文,这使 AI 更有效,这使用户更有信心,这增加了采用深度。
4. 识别 Frontier 团队并扩大其影响
在许多组织中,最先进的使用集中在少数团队中。这些团队可以揭示哪些工作流、习惯和运营模式是有效的。领导者应该识别这些团队,理解和扩大其成功背后的条件,并帮助他们与公司的其他部分分享更深 AI 使用的见解和示例。
这是对自上而下治理和赋能投资的自下而上的补充。Frontier 团队通常在一个特定团队发现高价值用例并对其进行迭代时有机出现。组织挑战是识别这些卓越口袋,理解什么使它们有效,并在不压垮产生它们的有机实验的情况下在其他地方复制这些条件。
5. 从聊天转向委托工作
企业 AI 正在从聊天助手转向可以委托给 agent 的工作。软件工程用 Codex 说明了这一趋势,但委托工作正在跨功能扩展。模式是一致的:定义任务,提供上下文,让 agent 跨文件和工具工作,审查结果,用反馈精炼工作流。
从聊天到委托的转变是将前沿企业与典型企业分开的最重要的行为变化。它也是最难的,因为它不仅需要新工具,还需要新工作流、新信任机制、新评估标准和新管理实践。一个组织无法将工作委托给 agent,直到它知道如何评估 agent 输出、如何在错误传播之前捕获它们、以及如何维持对 AI 驱动决策的人类问责。
复合差距:为什么等待不是中性的
从 2x 到 3.5x 的 12 个月 delta 是 B2B Signals 报告中最被低估的数字。以这种发散速度,前沿企业和典型企业之间的差距大约每 18 个月翻一番。
这不是一个会随着 AI 工具变得更易访问而自我纠正的暂时失衡。它是由典型企业无法轻易复制的结构性因素驱动的复合优势:
数据飞轮。 每次 agent 交互产生结构化日志,反馈到模型和工作流中,随时间提高准确性。前沿企业比典型企业多积累了 12-18 个月的数据飞轮。数据优势复合增长。
Agent 工作流中的机构知识。 前沿企业将其领域专业知识、编码标准、审查标准和业务逻辑编码为 agent 可访问的格式。这不仅仅是文档——它是 agent 可以用来产生更高质量输出的可执行上下文。构建这个上下文需要时间,无法从供应商处购买。
与 agent 协作的团队技能。 前沿企业的开发者、分析师和操作员已经发展出关于 agent 擅长什么、挣扎什么、如何清晰指定任务、以及如何高效审查 agent 输出的直觉。这种隐性知识难以转移,需要数月的实践来发展。
基础设施成熟度。 前沿企业已经构建了使 agentic 部署安全且可扩展的 CI/CD 集成、治理框架、评估管道和监控系统。典型企业仍在设计这些系统。基础设施差距不仅仅是工程努力的问题——它是通过迭代和失败发生的组织学习的问题。
其含义是,等待不是中性的选择。如果差距在 12 个月内从 2x 扩大到 3.5x,再 12 个月的不作为可能将其推到 5x 或 6x。最有可能缩小差距的组织是那些现在就开始的,而非那些等待技术进一步成熟的。等到技术对保守采用者"足够成熟"时,前沿企业将又积累了另一年的复合优势。
现有覆盖中缺失的东西
B2B Signals 报告自发布以来已收到大量报道。大多数分析集中在 headline 3.5x 比率、16x Codex 差距和走向前沿的五种实践上。这些是重要的发现,但几个更深层的含义尚未被充分探索。
组织设计维度。 大多数报道将 frontier 差距视为技术采用问题:购买更好的工具、培训更多员工、部署更多 agent。但 64% 的深度份额表明差距主要是组织设计问题。前沿企业已经重构了工作流、重新定义了角色、重建了评估标准、并围绕 AI 能力重新设计了信任机制。这不是可以通过更大的 AI 预算解决的问题。它需要与从手工生产转向工厂制造的转变相同类型的组织转型——一个需要数十年而非季度的过渡。
中层管理压缩信号。 B2B Signals 没有明确测量这一点,但任务级数据暗示了它。最小的 frontier 差距在操作指南和写作/沟通中——传统上由中层经理处理的任务,他们在团队之间路由信息、协调时间、减少摩擦。如果 AI 越来越多地处理这些协调任务,大型中层管理层的经济理由就会受到侵蚀。前沿企业可能不仅在 AI 采用方面领先,还在组织扁平化方面领先。
验证基础设施瓶颈。 16x Codex 差距只有在因为前沿企业构建了使 agentic 编码安全可扩展的验证基础设施时才可能。没有自动化测试、代码审查工作流和 CI/CD 验证,将编码任务委托给 agent 会产生比防止更多的错误。大多数报道庆祝生产力收益而不承认基础设施先决条件。这创造了一个危险的期望差距:典型企业可能试图在没有先构建验证 harness 的情况下复制前沿 Codex 使用,导致质量失败并阻碍采用。
人才不对称。 OpenAI 的数据显示,拥有 500 名以上工程师的公司以少于 50 名工程师的公司的三倍速率采用 agentic 工作流。这表明一个可能永久分裂企业景观的人才和基础设施不对称。中小型企业可能缺乏构建和维护 agentic 系统的工程带宽,创造一个双层市场,大型企业复合其优势而较小的竞争对手进一步落后。
测量问题。 B2B Signals 测量 AI 使用强度,而非业务价值。一个组织可能在每个员工的智能上得分很高,但产生的 ROI 最小。相反,使用强度较低的组织可能因其专注于高影响用例而每 token 提取更多价值。Frontier 指标是 AI 成功的必要但不充分条件。将 frontier 状态等同于竞争优势的报道过度简化了更微妙的现实。
企业领导者的真正问题
B2B Signals 为一个问题提供了明确的答案,并提出了一个更难的问题。
已回答的问题:领先企业与其他企业之间的 AI 采用差距是否真实?是的。它是可测量的,它在扩大,且主要由集成深度而非使用量驱动。
更难的问题:缩小差距需要什么?
诚实的答案是,还没有人完全知道。前沿企业通过早期投资、组织实验、技术基础设施和文化适应的组合达到了他们的地位。其中一些因素是可复制的。其他可能是路径依赖的——特定时刻做出的特定决策的结果,无法重现。
我们所知道的是,差距主要不是关于技术采购。它是关于组织转型。那些将缩小差距的企业是那些将 AI 视为要构建的新运营模式而非要部署的生产力工具的企业。他们将在扩大之前投资治理,在委托之前投资赋能,在扩张之前投资测量。他们将接受从 Driver 到 Architect 的过渡需要时间,试图跳过阶段会产生 Gartner 预测到 2027 年将取消 40% agentic AI 项目的失败试点模式。
B2B Signals 数据证实了我们在数百个企业部署中看到的情况:领先的企业没有做任何异国情调的事情。他们做出了从 AI 工具转向 AI 运营的决定,并在 12-18 个月前就开始做了。
每个企业领导者的问题是,再过 12 个月,你想站在 3.5x 差距的哪一边。
参考资料
- OpenAI. "How frontier firms are pulling ahead." B2B Signals, May 6, 2026. https://openai.com/index/introducing-b2b-signals/
- OpenAI. "B2B Signals Dashboard." https://openai.com/signals/b2b/
- Enterprise DNA. "OpenAI Data: Frontier Firms Now Use 3.5x More AI Per Worker." May 8, 2026. https://enterprisedna.co/resources/news/openai-b2b-signals-frontier-firms-enterprise-2026/
- IvriTech. "OpenAI B2B Signals: Frontier Firms Use 3.5x More AI." May 12, 2026. https://ivristech.com/openai-b2b-signals-frontier-firms-3-5x/
- Vectrel. "Depth Beats Volume: What OpenAI's New B2B Signals Report Reveals." May 12, 2026. https://www.vectrel.ai/blog/openai-b2b-signals-depth-volume-frontier-firms
- Beri, Rajesh. "Frontier Firms Use 3.5x More AI: Score Your Gap." THE D[AI]LY BRIEF, May 9, 2026. https://www.beri.net/article/2026-05-09-openai-b2b-signals-frontier-firms-3-5x-ai-gap-readiness-assessment
- AI Herald. "OpenAI B2B Signals: How Enterprises Build AI Advantage With Codex." May 6, 2026. https://artificialintelligenceherald.com/news/openai-b2b-signals-frontier-enterprises-ai-advantage-2026
- Gartner. "Lack of AI-Ready Data Puts AI Projects at Risk." February 2025.
- Writer. "2026 Enterprise AI Adoption Survey." April 2026.