Anthropic 经济未来研究：AI 能力测量如何揭示劳动力市场的真实影响

关于 AI 对就业影响的讨论，观点满天飞，数据稀缺。Anthropic 的 Economic Futures 计划选择了另一条路：先建测量基础设施，再下结论。数据显示了一个被观点机器忽视的事实：AI 理论上能完成的职业任务比例，远高于人们实际使用 AI 完成的比例。理论能力与观察到的使用行为之间的差距，才是劳动力市场真实故事所在。

测量问题

预测 AI 对劳动力市场的影响一直靠外推。研究人员拿模型跑分，映射到 O*NET 数据库中的岗位任务描述，估算每个职业可以被自动化的任务比例，然后发布一个惊人数字。这种方法能产生戏剧性的标题，但留了一个根本问题没回答：人们实际上在用 AI 做什么？

这就是测量缺口。理论暴露度告诉你可能发生什么，观察到的行为告诉你正在发生什么。两者之间的距离才是政策应该关注的区域，因为它揭示了采纳摩擦、能力错配和经济转型的真实节奏。

Anthropic 的经济研究团队由 Peter McCrory 领导，一直在建设填补这个缺口的基础设施。他们的方法基于一个叫 Clio 的系统，能在保护用户隐私的前提下分析 Claude 对话中的模式。这给了他们一个调查问卷和跑分都无法比拟的数据集：数百万次真实世界的 AI 交互，映射到具体的专业任务。

经济指数：新的测量架构

Anthropic Economic Index 首次发布于 2025 年 2 月（使用 2024 年 11 月数据），到 2026 年 3 月已经发布了多个版本更新。它引入了团队所谓的"经济原语"（economic primitives），即一套标准化的 AI 经济使用测量方法：

任务级映射。每一条 Claude 对话都被归类到它所支持的专业任务，使用 O*NET 的职业分类体系。软件工程师让 Claude 调试代码，映射到"调试"任务。市场经理请 Claude 做活动分析，映射到"市场研究"任务。这种颗粒度支持在职业、行业或任务层面进行分析。

增强 vs. 自动化。指数区分了 AI 帮助用户更快完成工作（增强）和 AI 执行完全替代人类努力的任务（自动化）之间的差异。这个区分对理解劳动力市场影响至关重要。增强改变人们的工作方式，自动化改变人们是否还有工作。

观察暴露度。团队的核心创新是一个叫"观察暴露度"（observed exposure）的指标。对于每个职业，他们计算其任务中有多少比例在 Claude 流量中显示了显著的工作相关使用。这不是理论推算，而是实际行为。

33% 问题

数据揭示了一个引人注目的模式。在计算机和数学类职业中（AI 使用率最高的类别），Claude 目前仅覆盖约 33% 的任务。而理论暴露度估计认为 AI 几乎可以处理该类别的所有任务。

这个 33% 的数字有几层含义。

第一，采纳速度远慢于能力增长。模型能做到的比人们要求它们做的更多。这可能反映了用户技能缺口（人们还没学会在某些任务上使用 AI）、组织壁垒（公司限制 AI 使用）、信任问题（人们还不敢在高风险工作上依赖 AI），或者是真正的能力缺口（模型对某些任务还不够可靠）。

第二，差距在 AI 理论上应该最擅长的领域最宽。计算机和数学是 LLM 在基准测试中得分最高的领域。如果覆盖率在那里只有 33%，其他职业类别的覆盖率就更低了。指数数据证实了这一点：技术角色之外的使用率急剧下降。

第三，差距在缩小，但不均匀。2025 年 11 月到 2026 年 2 月之间，Claude 使用变得更加分散。最常见的 10 个 O*NET 任务从占对话量的 24% 下降到 19%。AI 正在从少数主导用例（编码、写作）扩散到更广泛的专业任务集。但这种扩散在某些职业比其他职业更快。

哪些工作最受影响：数据说话

2026 年 3 月初发布的劳动力市场影响论文，将观察暴露度数据与传统任务暴露度基准进行了交叉分析。主要发现包括：

高薪、认知密集型岗位的观察暴露度最高。软件开发者、数据分析师和技术写作者排在最前面。这与理论预测一致，但量级具有启发性：即使在受影响最大的角色中，大多数任务仍未被 AI 辅助。

自动化集中在特定任务类型。API 数据显示比消费产品（Claude.ai）更多的自动化模式。通过 API 执行的任务（倾向于集成到生产工作流中）显示更高的全自动化率。Claude.ai 上的任务偏向增强。

教育水平与 AI 影响相关。需要更高教育的任务显示更多 Claude 使用和更大的生产力收益。这个发现在 81,000 人用户研究中得到呼应：拥有高级学位的受访者报告了最大的速度提升。

焦虑悖论。在 81,000 名调查受访者中，体验最大生产力收益的人也对 AI 的就业影响最紧张。速度提升和焦虑正相关。看到自己任务加速的工人也看到了自己的角色变得更容易被替代。

生产力估算的真实数据

Anthropic 生产力估算论文分析了一个包含 100,000 条真实对话的数据集。Claude 估计 AI 将任务完成时间缩短了约 80%。典型任务在无 AI 时估计需要 1.4 小时完成。

按宏观经济推算，当前一代 AI 模型如果全面采用，可能使美国劳动生产率增长每年增加 1.8%。这将使生产率增长翻倍，接近 1990 年代末和 2000 年代初的水平。软件开发人员贡献了最大的份额（19%）。

但有一个关键注意事项：AI 目前覆盖的任务平均需要 14.4 年教育，而经济平均水平为 13.2 年。这意味着 AI 正在不成比例地影响高人力资本任务，可能导致净去技能化效应。

经济未来计划：理解的基础设施

Economic Futures 计划将 Anthropic 对经济研究的投资制度化。它通过三个相互连接的支柱运作。

支柱一：催化独立研究。通过资助、API 积分和合作伙伴关系，该计划资助外部研究人员研究 AI 对劳动力、生产率和经济结构的影响。他们优先的研究问题包括劳动力市场转型（AI 赋能的岗位出现速度相对于岗位替代有多快）、人机互补性（随着 AI 进步，哪些人类技能保持价值），以及生产力测量（如何捕获 GDP 传统指标遗漏的 AI 驱动产出变化）。

支柱二：协作政策开发。该计划举办政策研讨会，研究人员、政策制定者和从业者交流基于真实世界数据的政策提案。首次经济未来研讨会在华盛顿特区举办，产生了涵盖从劳动力再培训到经济安全网的系列提案。伦敦政经学院也举办了欧洲版研讨会。

支柱三：扩展测量和数据基础设施。经济指数本身就是这个支柱的主要产出。通过发布映射到职业类别的使用数据，Anthropic 提供了任何研究者都可以引用的公共数据集。新推出的经济指数月度调查（通过 Anthropic Interviewer 进行）增加了定性层面：关于 AI 如何改变人们工作的一手叙述。

从测量到政策：数据提示了什么

Anthropic 正在建设的数据基础设施不直接规定政策。但它通过揭示正在发生的事情来约束好政策的样子。

再培训需求是任务级的，不是行业级的。指数显示，在单一职业内，有些任务被 AI 大量辅助，而其他任务则完全不受影响。有效的再培训项目应该针对特定任务集群，而不是整个职业类别。市场研究员不需要学新行当，他们需要从 Claude 能处理的任务（数据综合、初稿生成）转移到 Claude 不能处理的任务（客户关系管理、战略框架构建）。

转型窗口存在但有限。理论暴露度和观察暴露度之间 50-65 个百分点的差距代表了一个工人可以适应的窗口。但指数数据显示这个差距随着使用的扩散正在缩小。假设采纳速度不变的政策响应将低估特定任务集群达到临界点后的变化速度。

API 迁移信号。指数注意到某些任务类型正从 Claude.ai（消费者）迁移到 API（生产）。这种迁移模式是一个早期指标，表明哪些任务正在从实验阶段过渡到自动化阶段。当一个任务迁移到 API 时，通常意味着有人已经将其构建到不需要直接人工监督的工作流中了。政策制定者应该将这种迁移视为替代风险的领先指标。

批评与局限

Anthropic 的方法也招致了批评。Forbes 上 Hamilton Mann 的文章认为，该研究"不以一般方式衡量 AI 的劳动力市场影响"，因为它只捕获了 Claude 的使用，而不是整个经济的 AI 采用。观察暴露度反映了"测量结构、职业构成和现有劳动力市场轨迹的混合，而不是来自 AI 的劳动力市场风险的干净信号"。

这个批评有道理。Claude 用户不是劳动力的随机样本。他们偏向技术熟练、英语母语、知识型工作者。数据捕获的是一个平台的用户如何与一个 AI 系统交互。外推到整个经济需要数据本身无法验证的假设。

但这个局限也指向了经济未来计划第三个支柱的重要性。扩展测量基础设施、运行月度调查、资助独立研究人员：这些是将平台特定数据转化为全经济理解的步骤。当前的指数是基础，不是天花板。

参考

Anthropic Economic Index, March 2026 Report: https://www.anthropic.com/research/economic-index-march-2026-report
Labor Market Impacts of AI: A New Measure and Early Evidence: https://www.anthropic.com/research/labor-market-impacts
What 81,000 People Told Us About the Economics of AI: https://www.anthropic.com/research/81k-economics
Anthropic Economic Futures Program: https://www.anthropic.com/economic-futures/program
Economic Primitives: https://www.anthropic.com/research/economic-index-primitives
Estimating AI Productivity Gains: https://www.anthropic.com/research/estimating-productivity-gains
Forbes critique by Hamilton Mann: https://www.forbes.com/sites/hamiltonmann/2026/03/08/anthropics-study-does-not-measure-ais-labor-market-impacts/

Menu

Share

Anthropic 经济未来研究：AI 能力测量如何揭示劳动力市场的真实影响

测量问题

经济指数：新的测量架构

33% 问题

哪些工作最受影响：数据说话

生产力估算的真实数据

经济未来计划：理解的基础设施

从测量到政策：数据提示了什么

批评与局限

参考

Comment

"超越 Claude：Anthropic 2026 完整产品矩阵解析"

"Beyond Claude: Anthropic's Full Product Stack in 2026 — The Complete Map"

Harness Engineering 完全指南：从工业革命到 AI Agent 的约束系统设计

Klarna 的 AI 赌局：省下 6000 万美元后悄悄回调的完整时间线

"DeepMind 2026 模型生态全景：Gemini、Veo、Lyria、Genie 与 Robotics 的技术架构解析"

"AI 的绝望是安静的：Anthropic 情绪向量论文解读"

Klarna's AI Gamble: From $60M in Savings to a Quiet Reversal — The Complete Timeline

MCP vs CLI：为什么命令行正在赢得 AI Agent 的接口之争

"Agent Cloud 架构解析：Cloudflare 和 OpenAI 为什么押注分布式 AI 推理"

"AI 会替代你的工作吗？一个四维度自评框架（不是又一份安全职业清单）"