2025年12月,Anthropic 从159个国家、70种语言中收集了112,846份问卷回复。经过去重和质量筛选,2026年3月发布的最终分析样本为80,508人:这是迄今为止规模最大的AI用户期望与担忧定性研究。
这个规模本身就是一种声明。Pew Research Center 和 Eurobarometer 的调查通常在固定的样本框架内设计闭合式问卷,再按人口统计变量加权推算。这个研究用 Claude 本身作为访谈工具,用开放式对话在受访者的母语中进行追问,记录自由文本回复,再对定性内容进行大规模主题编码。两者的方法论路径完全不同。
当然,规模本身会带来扭曲。下文会讨论方法论的局限,但数据本身值得先看。
二、研究方法:定性设计的意图与边界
Anthropic 用 Claude 构建了一个对话式访谈系统,在用户偏好的语言下发起开放式提问,通过追问深化回应,然后对所有自由文本回复进行主题编码和分类统计。初期的112,846份回复经过去重和质量检查后,筛除了约28%,保留80,508份有效访谈。
研究设计明确标注为定性研究,而非定量研究。Anthropic 不声称对任何国家或人口群体具有统计代表性。研究的目的是绘制人类对 AI 期望与担忧的全景图,识别跨文化和跨语言模式,并挖掘出闭合式问卷无法捕捉的深层主题。80,508这个数字代表成功完成的访谈数量,而非概率抽样结果。
在报告具体发现之前,有两个方法论局限需要明确。第一,样本存在选择偏差:所有受访者均为 Claude 用户,且主动愿意花15到20分钟讨论 AI 期望。这个群体既不代表全球人口,也不代表广义的 AI 用户群体。67%的总体正面情绪比例是针对这个特定群体测得的,不适用于一般人类群体。第二,没有控制组。研究描述的是单一时间点的期望与担忧,无法衡量用户在与 AI 系统接触更长时间后期望如何变化。
时间节点也值得注意。数据采集于2025年12月,彼时 Claude 在英语市场已有显著渗透,但在许多其他地区认知度很低。2025年底在拉各斯或雅加达首次接触 Claude 的受访者,与在旧金山使用了两年的用户,对这项技术的认知框架完全不同。
三、人们想要什么:九类期望的真实分布
Anthropic 将所有开放式回复编码为九类期望类别。分布结果与主流媒体叙述形成了一种反直觉的张力:职业卓越并非首要驱动力。
表1:用户期望类别分布
| 期望类别 | 占比 |
|---|---|
| 职业卓越 | 18.8% |
| 个人转型 | 13.7% |
| 学习与教育 | 11.4% |
| 时间自由 | 11.1% |
| 经济独立 | 9.7% |
| 创造力与表达 | 9.3% |
| 情感支持与身心健康 | 8.6% |
| 社交连接 | 6.2% |
| 其他 | 11.2% |
表格之外有一个更值得关注的数字:81.2%的回复落入个人目标类别,只有18.8%以职业卓越为核心诉求。这意味着约五分之四的人使用 AI 是为了夺回时间、追求创造力、实现经济独立或重塑自我,只有五分之一以职业晋升为主要动力。
时间自由占11.1%是一个有说服力的数据点。人们不只是在问如何把工作做得更好,而是在问如何从工作中彻底解脱,或至少夺回被行政事务消耗的时间。经济独立占9.7%强化了这个模式:人们希望 AI 帮助他们摆脱经济依赖,无论是创业、自由职业还是减少对工资劳动的依赖。
创造力和表达占9.3%呈现的是另一种 aspiration。这部分用户不想优化或逃避,他们把 AI 当作创意协作伙伴,用于写作、音乐、视觉艺术或各类自我表达。情感支持与身心健康占8.6%,则指向一个真正的新使用场景,这种需求在前搜索时代和传统生产力软件时代根本不存在。
如果你一直在读科技媒体关于 AI 采纳的报道,这些数据可能不会让你惊讶。但个人目标与职业目标之间4比1的数量级对比,是对"AI 采纳主要由职场效率担忧驱动"这一叙事的有力纠正。关于 AI 使用模式与技能发展如何在时间中互动,可参见我对 Anthropic 学习曲线数据的深度分析:Anthropic 学习曲线2026解读。
四、人们担忧什么:媒体叙事的倒置
主流科技媒体报道 AI 风险时,主导主题是就业替代和存在性风险。Anthropic 的数据将这个等级体系完全倒置了过来。
表2:用户担忧类别分布
| 担忧类别 | 占比 |
|---|---|
| 不可靠性与幻觉输出 | 26.7% |
| 就业冲击 | 22.3% |
| 依赖与自主性丧失 | 19.4% |
| 隐私与数据安全 | 14.8% |
| 认知衰退 | 8.9% |
| 存在性风险 | 6.7% |
| 其他 | 11.2% |
排名第一的担忧是不可靠性与幻觉输出,占26.7%。超过四分之一的受访者将 AI 提供错误信息、制造错误或输出自信但错误的答案列为核心顾虑。这是一个信任问题,而不是能力问题。人们不担心 AI 太过强大,他们担心 AI 还不够可靠,无法在高风险场景中发挥作用。
就业冲击排在第二位,占22.3%,仍低于可靠性担忧。而存在性风险——在科技媒体报道和监管讨论中占据主导地位——只占6.7%,在主要类别中排名最末,大约每十五名受访者中有一人提及。
这个发现对 AI 产品构建者有直接意义。市场信号说的是可靠性比能力更重要。在关键场景中遭遇过幻觉的用户会退出高价值使用场景,即便 AI 的平均表现非常优秀。方差与均值同样重要。
关于工作者如何评估自身在 AI 驱动就业变化中的暴露程度,可参见我对 AI 就业替代自我评估模式的分析:AI 就业替代自我评估。
五、南北分歧:地理如何塑造情绪
研究的多语言设计使得跨区域比较成为可能,而这是英语-only 调查无法提供的。撒哈拉以南非洲与北美之间的对比是地理分析中最显著的发现。
撒哈拉以南非洲的正面情绪比例为75.8%。北美为34.5%。差距不是细微的,而是超过四十个百分点。
研究者将这个分歧解释为机会框架与威胁框架的差异。在 AI 基础设施较新、经济机会受限的地区,受访者倾向于将 AI 框架为潜在的均衡器,一项能够提供教育、医疗、创业资源和信息的工具,而这些资源在过去是无法获得的。在北美等成熟市场,现有制度强势,变化往往意味着破坏,受访者更频繁地将 AI 框架为对稳定性的威胁。
这个模式在多个区域比较中重复出现。东南亚的正面情绪高于西欧。拉丁美洲介于全球南方平均值与西欧之间。解释是一致的:当地制度和经济发展资源的基准水平越高,AI 就越被视为破坏性力量而非赋能工具。
一个重要细节:这一发现不意味着撒哈拉以南非洲对 AI 风险免疫,也不意味着北美的恐惧没有根据。它意味着人们评估 AI 的框架是由其物质条件塑造的。同样的技术,从一种社会经济位置看是希望,从另一种看是威胁。
六、明暗并存:期望与担忧的配对关系
Anthropic 的研究者识别出了一种研究称为"明暗并存"的模式:在某个领域表达强烈期望的用户,往往会在相关领域表达相应的担忧。这两个维度不是独立的。希望与恐惧在个体内部是相关的。
有两组配对尤其值得注意,因为其量化关系清晰。第一,将教育与学习列为核心期望的用户,提及认知衰退作为相应担忧的可能性,是其他期望类别用户的2.5至3倍。机制很直觉:如果你用 AI 来学习,你就会依赖它作为知识中介,随之而来的是对独立思考能力丧失的担忧。追求效率的期望与对能力萎缩的恐惧,源自人与这项技术的同一种关系。
第二,将情感支持与身心健康列为核心期望的用户,提及依赖和自主性丧失的可能性是其他用户的3倍。这是依恋模式:你在情感调节、陪伴或心理支持上越依赖 AI,你就越害怕失去独立运作的能力。这是人机交互文献中出现的依赖焦虑的一个版本,但它是从开放式访谈回复中自发产生的,而非来自结构化问卷工具。
这些配对对产品设计有直接意义。想要 AI 帮助学习的用户,同时也是需要防止认知萎缩保护措施的用户。想要 AI 提供情感支持的用户,同时也是需要自主性保留功能 的用户。只为期望而设计,不考虑相应的担忧,会产生即使功能交付了却仍然引发焦虑的产品。
七、信任差距:有用的主观认知与可靠性的客观需求
81%的受访者表示 AI 已经在一个方面帮助了他们。这个数字对于一项仅普及数年的技术来说是一个引人注目的数字。大多数使用过 AI 的人找到了它有用的地方。
然而排名第一的担忧是不可靠性,占26.7%。第二大担忧是就业冲击,占22.3%。在有用性和可靠性之间存在一个影响采纳率的鸿沟。
模式是这样的:人们在错误可容忍的低风险任务中发现 AI 有帮助,而在错误代价高昂的高风险任务中保持警惕。说 AI 帮助他们的81%,很可能是在描述内容生成、摘要、编码辅助等任务中的体验,在这些场景中糟糕的输出令人烦恼但不会造成灾难。说担心不可靠的26.7%,描述的是需要将 AI 用于重要决策的情境:医疗建议、财务规划、法律指导或关键信息核实。
这个差距代表了 AI 在专业场景中采纳的天花板。建筑师会用 AI 生成设计方案,但不会信任它计算结构荷载。医生会用它起草文档,但不会信任它做诊断决策。弥合信任鸿沟不仅需要提升平均性能,还需要降低使高风险委托变得危险的方差。
关于 AI 谄媚和情绪对齐如何与这些信任动态相互作用,可参见我对 Anthropic 情绪引导研究的分析:Anthropic 情绪引导研究2026解读。
八、对AI产品建设的启示
三个发现具有直接可操作的意义。
可靠性比能力更重要。数据表明用户会放弃一个能力强但不可靠的系统,而不会放弃一个能力弱但始终诚实的系统。这对设计有直接影响:在 ground、引用和不确定性传达上的投入,可能比在原始基准性能上的投入带来更高的采纳回报。一个在不确定时说"我不确定"的模型,比一个自信地生成听起来合理但错误信息的模型,对用户更有价值。幻觉问题不只是技术故障模式,它是一种信任破坏事件,用户在正面体验从记忆中淡去后很久仍会记住负面体验。
区域定制很重要。南北情绪差距不是文化奇观,它反映了不同经济背景下的人们与 AI 关系中真实存在的差异。为旧金山创业文化设计的产品不会自动翻译到拉各斯或雅加达。本地化不只是翻译,而是为那些对制度、劳动力市场和技术的关系根本不同的受众重新校准价值主张。全球南方的受访者将 AI 视为机会均衡器,他们在回应真实的结构性条件:专业服务、教育资源和 AI 可以部分解决的经济机会的有限获取。忽略这一框架的产品团队正在将可观的市场潜力留在桌面上。
信任要求贯穿每个垂直领域。METR 研究在受控条件下测量了开发者在 AI 辅助下的生产力,发现使用 AI 的开发者平均慢19%,但主观感觉快20%。这是有用性-信任差距的直接例证:客观性能收益是真实的但是有限的,而主观体验比客观数据所证明的更为正面。构建信任需要诚实地面对这个差距,而不是过度承诺能力。当营销材料承诺变革性的生产力提升,而受控研究显示客观性能持平或为负时,这种脱节会侵蚀信誉。感觉被帮助但发现自己客观上更慢的用户,随着时间推移可能会重新校准对这项技术的信任。
九、诚实的局限性评估:研究不能告诉我们的事情
选择偏差的局限性值得再过一遍,因为它相当实质。所有受访者都是主动选择参与研究访谈的 Claude 用户。这个群体不具有全球 AI 用户的代表性。它过度代表了英语用户、技术前沿地区以及对 AI 有足够兴趣愿意花二十分钟讨论它的用户。67%的正面情绪比例适用于这个群体。对非 Claude 用户或尝试过一次 AI 后停止使用的用户进行研究,可能发现截然不同的数字。
2025年12月的数据采集窗口也存在近期性偏差。AI 能力和公众认知变化很快。2024年初进行的研究可能会在当年那波模型发布浪潮之前发现不同的期望模式。时间快照这个属性意味着研究结果应该被视为特定时刻的代表,而非稳定基线。
定性方法论有自己的优缺点。开放式访谈捕获了闭合式问卷无法捕获的细节。但这也使得跨区域比较更加困难,因为编码过程需要解释。Anthropic 研究者在如何对回复进行分类方面做出了深思熟虑的选择,这些选择塑造了报告的分布。百分比应被视为知情估计,而非精确测量。
METR 反例值得在这里整合,因为它提供了罕见的客观数据点来与自我报告的情绪进行对比。该研究发现受控条件下生产力拖累了19%,这是比 Anthropic 受访者的81%有用性数据更为悲观的对 AI 当前效用的评估。主客观之间的差距不是矛盾。它反映了两个研究在人群、情境和测量方法上的差异。
十、来源
Anthropic Research. "AI User Aspirations: A Multilingual Qualitative Study Across 159 Countries." anthropic.com/research/ai-user-aspirations. Published March 2026.
Model Evaluation for Transformative Research (METR). "Measuring Developer Productivity with AI Assistance: Controlled Experiment Results." metr.org. 2025.