2026 年 3 月 5 日,Anthropic 发表了一篇标题朴素的论文:《AI 的劳动力市场影响:一项新度量与早期证据》。学术化的标题之下,藏着一个前所未有的东西——第一次大规模尝试用真实的生产数据(数百万次对话),而非理论能力估算或问卷调查,来测量 AI 对劳动力市场的实际足迹。
这篇论文是 Anthropic 经济未来计划(Economic Futures Program)的产物之一。该计划于 2025 年启动,是一个结合研究资助、政策开发和纵向数据基础设施的多学科倡议。与 Anthropic 经济指数(Economic Index)一起——后者追踪 Claude 在数百个职业中的使用情况——它构成了迄今为止最雄心勃勃的实证研究努力,旨在将 AI 能力与劳动力市场结果连接起来。
核心发现可以用一句话概括:AI 理论上能做的事和它在真实职业场景中实际在做的事之间的差距,大到令人震惊。 计算机编程的理论 AI 暴露度为 94%,但观测暴露度只有 33%——这意味着尽管媒体上铺天盖地的「AI 替代程序员」报道,实际职业场景中的自动化使用仅覆盖了该职业大约三分之一的任务。对于全体劳动力而言,约 30% 的劳动者观测到的 AI 暴露度为零。
这个差距是 AI 劳动经济学中最重要的数字,而在 Anthropic 之前,没有人测量过它。
测量难题:为什么以前的估算都是错的
在 Anthropic 介入之前,这个领域依赖两种方法,都有根本性的局限。
第一种是理论能力评估。研究者使用职业数据库(如美国的 O*NET,列举了约 800 个职业的具体任务),估算 LLM 能在理论上加速哪些任务。Eloundou 等人 2023 年的开创性工作发现,LLM 理论上能加速至少 10% 任务的工作岗位覆盖了 80% 的美国劳动者。高盛据此推算全球有 3 亿工作岗位面临 AI 自动化风险。
第二种是劳动力市场数据——就业统计、招聘率、工资趋势——来衡量 AI 是否真正影响了就业。耶鲁预算实验室 2025 年 10 月的分析发现,ChatGPT 发布 33 个月后,「更广泛的劳动力市场没有经历可辨识的冲击」。彼得森国际经济研究所在 2026 年 3 月指出,「AI 和劳动力市场的研究仍然在第一局」。
两种方法都有一个关键盲区。理论估算告诉你 AI 能做什么,但不知道它正在做什么。劳动力市场数据告诉你发生了什么,但无法将因果关系归因于 AI。没有人在测量能力与结果之间的桥梁——即真实职业场景中的实际采用模式。
Anthropic 的洞见是:他们坐拥有史以来最大的 AI 辅助职业工作数据集。Claude.ai 和 API 上的每次对话都包含了 AI 如何被使用、用于什么任务、在哪些职业中、以多大程度的自主性的证据。挑战在于如何将这些原始数据转化为经济测量框架。
经济未来计划:三大支柱
Anthropic 经济未来计划于 2025 年中宣布,同年晚些时候以 1000 万美元承诺扩容,通过三个互联的支柱运作。
支柱一:研究资助与合作。 计划提供 1 万至 5 万美元的资助,用于 AI 经济影响的实证研究,同时提供 API 额度并与独立研究机构建立战略合作。重点明确要求原创实证工作——使用计量经济学方法、数据分析或新型数据收集——排除了没有实证基础的理论建模。
支柱二:循证政策开发。 通过经济未来研讨会——分别在华盛顿特区(2025 年 9 月)和伦敦(2025 年 11 月)举办——将政策制定者、研究人员和业界聚集在一起,评估具体的政策提案。方案按 AI 劳动力市场冲击的严重程度分类:从「几乎所有场景」(工人技能提升、基础设施审批改革)到「快速演进场景」(AI 收入主权财富基金、新税收机制)。
支柱三:经济测量与数据基础设施。 经济指数所在之处。Anthropic 正在构建「首批关于 AI 经济使用、扩散和影响的纵向数据集之一」。该指数使用 Clio——一个隐私保护分析系统——将对话分类到职业类别、任务复杂度水平和使用模式中,所有这些都不暴露个人对话内容。
三个支柱的设计是相互增强的。数据基础设施产生实证发现。研究资助支持独立验证和扩展。政策论坛将发现转化为可操作的治理框架。
观测暴露度:改变一切的指标
该计划最重要的方法论贡献是一个叫做观测暴露度(Observed Exposure)的指标。它结合了三个数据源:
- O*NET 任务数据:列举约 800 个美国职业各自的具体任务
- Claude 使用数据:来自 Anthropic 经济指数,记录人们实际使用 AI 做什么
- 理论暴露度估算:来自 Eloundou 等人(2023),测量 LLM 理论上能加速哪些任务
计算过程如下。首先,识别理论上 LLM 可执行的任务。然后检查这些任务中有哪些在 Claude 使用数据中出现了与工作相关的、自动化的(而非仅辅助性的)交互。自动化使用权重为 1,辅助性使用权重为 0.5。最后,按每个任务的时间占比加权,聚合到职业层面。
结果是每个职业一个数字:其任务中有多少比例正在真实职业场景中经历自动化 AI 使用。
这个指标填补了理论能力与劳动力市场结果之间的空白。理论暴露度说「AI 能做 94% 的编程任务」。观测暴露度说「AI 当前以自动化方式做大约 33% 的编程任务」。61 个百分点的差距正是整个劳动力市场辩论应该聚焦的地方——因为这个差距会随时间缩小,缩小的速度决定了实际经济冲击的节奏。
数据揭示了什么:暴露度全景
Anthropic 的发现描绘了一幅比乌托邦或反乌托邦叙事都更细致的图景。
| 职业类别 | 理论暴露度 | 观测暴露度 | 差距 |
|---|---|---|---|
| 计算机与数学 | ~94% | ~33% | 61 pts |
| 办公与行政 | ~85% | ~25% | 60 pts |
| 商业与金融运营 | ~78% | ~22% | 56 pts |
| 医疗从业者 | ~45% | ~8% | 37 pts |
| 建筑与开采 | ~15% | ~2% | 13 pts |
知识密集型职业的差距始终在 50 到 65 个百分点之间。这不是小误差。它意味着每一条基于理论暴露度的头条新闻——「AI 威胁 80% 白领工作」——对实际当前冲击的夸大了至少两倍。
关键的是,观测 AI 暴露度为零的劳动者约占全体劳动力的 30%。这些主要是体力劳动职业、高度依赖人际互动的服务角色,以及工作产出无法数字化的岗位。理论暴露度文献往往将这些劳动者视为 AI 故事的局外人。Anthropic 的数据确认——至少目前——他们确实是这样。
人口统计的意外发现
一个与普遍假设相反的发现:观测暴露度最高的职业中的劳动者更可能是年长者、女性、受教育程度更高、收入更高。 这是因为观测暴露度最高的职业——计算机编程、金融分析、客户服务、技术写作——偏向受过教育的知识工作者。「AI 威胁蓝领男性」的叙事恰恰搞反了。AI 当前最活跃的地方恰恰是劳动力中受教育程度最高、资质最深的群体。
这对经济未来计划的政策研讨会有直接影响。如果 AI 冲击集中在受过教育的高薪专业人士中间——拥有最多政治话语权和制度权力的群体——政策反应将看起来与主要影响低工资、政治影响力较弱的劳动者截然不同。
学习曲线效应:为什么采用慢于能力
经济指数 2026 年 3 月报告「学习曲线」为暴露度数据增加了一个关键层面。它记录了高资历 Claude 用户发展出了策略和习惯,使他们比新用户显著更高效。 经验丰富的用户尝试更高价值的任务、获得更高的成功率,并将 Claude 用于更广泛的工作目的。
这个发现对观测暴露度差距有直接含义。理论与观测暴露度之间的差距部分是能力差距——AI 尚无法做理论上可能的一切。但它也是采用差距——即使 AI 能做某件事,专业人士需要时间学习如何有效地将其整合到工作流程中。
学习曲线证据表明,观测暴露度的增加不仅来自 AI 变得更强大,还来自用户变得更善于部署现有能力。这正是「认知放大器」效应的实际运作:AI 的影响由人类操作者的技能所中介,而这种技能通过持续的长期使用而发展。
Anthropic 的数据揭示了技能偏向型技术变革可能展开的具体渠道。拥有高技能任务的早期采用者与 AI 的交互比后来的、不太技术的采用者更成功。这些早期采用者可能同时是最易受 AI 驱动冲击的群体,也是在这些初始辅助性采用浪潮中最受 AI 帮助的群体。AI 原住民与 AI 文盲之间的差距可能在缩小之前先扩大。
招聘信号:数据没有显示什么
Anthropic 劳动力市场论文中被最谨慎报告的发现,也许是它没有发现的。论文发现自 2022 年底以来,高暴露度劳动者的失业率没有系统性增加。 这被广泛报道为「AI 没有造成失业」——一个 Anthropic 自己的研究者都警告不要的简化。
数据确实显示的是,在暴露度最高的职业中,年轻劳动者(22-25 岁)的招聘有放缓的迹象。 这是一个与大规模失业根本不同的信号。它表明 AI 的当前影响不在现有劳动者身上,而在人才输送管道上——雇主可能正在用 AI 增强的工作流来填充新岗位,而不是招聘初级员工;或者他们对 AI 轨迹足够不确定,所以放慢了入门级招聘以等待更清晰的信号。
Forbes 的 Hamilton Mann 在 2026 年 3 月对「没有失业效应」的框架提出了尖锐批评:「AI 可能减少招聘、放慢晋升、压缩初级岗位或降低工资,而不会造成大规模裁员。因此,从当前数据得出『没有失业效应』的结论为时过早。」批评是成立的,Anthropic 的论文也明确承认这一点。观测暴露度指标被设计为先行指标——追踪能力与采用之间差距随时间缩小的工具——而非关于当前就业效应的确定性结论。
Fortune 在 2026 年 4 月对 Anthropic 首席经济学家 Peter McCrory 的采访浓缩了核心洞见:编程的理论暴露度大约 94%,但根据实际采用,「在经济体的那个领域,更接近所有岗位任务的 30%」。这两个数字之间的差距——以及它缩小的速度——正是政策制定者应该关注的。
经济指数调查:将测量延伸到使用数据之外
2026 年 4 月,Anthropic 宣布了经济指数调查,一项通过 Anthropic Interviewer 进行的月度调查。调查旨在捕捉工作场所变化的亲身经历,这些变化可能尚未出现在汇总劳动力市场数据中。
调查与 Claude 使用数据以隐私保护的方式结合,创建了双通道测量系统。使用数据揭示人们实际用 AI 做什么。调查数据揭示他们如何看待这些变化影响自己的工作、职业和经济前景。
这解决了纯使用数据的一个根本局限:它无法捕捉在 AI 平台之外发生的替代效应。如果一家公司因为 AI 处理了基础内容生成,将营销团队从 10 人缩减到 7 人,这种替代不会出现在 Claude 使用数据中。留下的 3 名营销人员可能比以往更有效地使用 Claude,而被替代的劳动者的经历对平台来说是不可见的。调查正是为了捕捉这些缺失的信号。
五大经济基元:一个测量框架
2026 年 1 月的经济指数报告引入了五个「经济基元」——追踪 AI 经济影响随时间变化的基础测量:
| 基元 | 测量什么 |
|---|---|
| 任务复杂度 | 带给 Claude 的任务有多具挑战性 |
| 技能水平 | 任务所需的专业知识,与工资水平相关 |
| 目的 | 对话是用于工作、教育还是个人使用 |
| AI 自主性 | 用户委托与协作的程度 |
| 成功率 | Claude 对对话是否达成目标的评估 |
这些基元使纵向追踪超越了原始使用统计。例如,如果特定职业中 AI 自主性随时间增加,那标志着从辅助向自动化的转变——潜在替代的先行指标。如果复杂任务的成功率在上升但简单任务没有,那表明模型在认知要求高的工作上改进,而基础任务可能已经饱和。
基元还使得以前不可能的跨职业比较成为可能。Anthropic 的数据显示,Claude 的任务级成功率因职业而异——而且这些差异与工资水平和教育要求相关联。这在 AI 能力与劳动力市场分层之间建立了一个直接的测量通道。
为什么这很重要:数据胜于叙事
Anthropic 经济未来计划的重要性超出其具体发现,体现在三个方面。
第一,它建立了一个可复制的方法论。 观测暴露度指标结合了公开可用的职业数据(O*NET)、理论能力估算和专有使用数据。虽然专有组件限制了独立复制,但框架本身——在任务层面测量理论与实际 AI 采用之间的差距——是一个方法论贡献,其他研究者可以用不同数据源来适配。
第二,它提供了纵向追踪基础设施。 经济指数被设计为持续测量,而非一次性研究。这意味着观测暴露度指标将随时间更新,允许研究者追踪理论与观测暴露度之间的差距缩小得有多快。差距缩小的速率比任何单次快照都更具政策相关性。
第三,它将 AI 劳动力市场辩论从推测性转向实证性。 当前的公共讨论在「AI 将取代所有工作」和「AI 创造的工作比摧毁的更多」之间摇摆。两种主张都基于外推和叙事。Anthropic 的贡献不是解决辩论——数据还太早了——而是提供测量工具,使辩论在未来可以被回答。
正如 Peter McCrory 对 Fortune 所说:「我们的数据展示的是,这些模型的理论能力如何与现实世界交汇,通过长期追踪,我们可以感知理论暴露度与实际采用之间的差距正在如何变化。」
常见问题
什么是 Anthropic 经济未来计划?
Anthropic 于 2025 年启动的多学科研究倡议,以 1000 万美元资金支持 AI 经济影响的实证研究、开发循证政策提案,并通过 Anthropic 经济指数维护纵向数据基础设施。
什么是「观测暴露度」?
Anthropic 提出的新指标,测量一个职业的任务中有多少比例正在真实职业场景中经历自动化 AI 使用——与理论估算的 AI 潜在能力相对。它结合了 O*NET 任务数据、理论能力估算和实际 Claude 使用数据。
AI 是否已经导致了失业?
Anthropic 的数据发现自 2022 年底以来高暴露度劳动者的失业率没有系统性增加。但暴露度最高的职业中年轻劳动者(22-25 岁)的招聘有放缓迹象。研究者警告不要将「目前没有失业」解读为「永远不会产生影响」。
理论暴露度与观测暴露度的差距有多大?
对于知识密集型职业,差距始终在 50 到 65 个百分点之间。例如,计算机编程的理论暴露度约 94%,但观测暴露度仅约 33%。这个差距是理解 AI 在劳动力市场中实际采用速度的关键指标。
AI 对劳动力市场影响最大的是谁?
Anthropic 的数据显示,暴露度最高的劳动者更可能是年长者、女性、受教育程度更高、收入更高——因为观测暴露度最高的职业(编程、金融分析、技术写作)偏向受过教育的知识工作者。这与流行的「AI 主要威胁蓝领工人」叙事恰恰相反。
经济未来计划推荐了什么政策?
该计划不主张具体政策。它按场景严重程度组织政策提案:温和影响(技能提升、基础设施改革)、中速加速(为被替代劳动者提供财政支持、自动化税收)和快速转型(主权财富基金、新收入机制)。目标是为一系列可能的未来准备选项。
经济指数的数据是如何收集的?
通过 Clio——Anthropic 的隐私保护分析系统——将 Claude.ai 和 API 上的对话分类到职业类别和任务类型中,不暴露个人对话内容。系统分析数百万次匿名对话,以映射整个经济体中的 AI 使用模式。
参考资料
- Anthropic. "Labor Market Impacts of AI: A New Measure and Early Evidence." 2026年3月5日. https://www.anthropic.com/research/labor-market-impacts
- Anthropic. "Introducing the Anthropic Economic Futures Program." 2025. https://www.anthropic.com/news/introducing-the-anthropic-economic-futures-program
- Anthropic. "Anthropic Economic Futures Program." https://www.anthropic.com/economic-futures/program
- Anthropic. "Anthropic Economic Index Report: Learning Curves." 2026年3月24日. https://www.anthropic.com/research/economic-index-march-2026-report
- Anthropic. "Anthropic Economic Index: New Building Blocks for Understanding AI Use." 2026年1月15日. https://www.anthropic.com/research/economic-index-primitives
- Anthropic. "Preparing for AI's Economic Impact: Exploring Policy Responses." https://www.anthropic.com/research/economic-policy-responses
- Fortune. "Anthropic's Research Shows That AI Can Already Do a Huge Portion of Many Jobs." 2026年4月7日. https://fortune.com/2026/04/07/anthropic-peter-mccrory-ai-automation-white-collar-jobs-claude-recession/
- Forbes. "Anthropic's Study Does Not Measure AI's Labor-Market Impacts." 2026年3月8日. https://www.forbes.com/sites/hamiltonmann/2026/03/08/anthropics-study-does-not-measure-ais-labor-market-impacts/
- 耶鲁预算实验室. "Evaluating the Impact of AI on the Labor Market." 2025年10月. https://budgetlab.yale.edu/research/evaluating-impact-ai-labor-market-current-state-affairs
- 彼得森国际经济研究所. "Research on AI and the Labor Market Is Still in the First Inning." 2026年3月. https://www.piie.com/blogs/realtime-economics/2026/research-ai-and-labor-market-still-first-inning
- Eloundou, T., 等 (2023). "GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models."