2026年2月,一个名为CodeWall的自主AI智能体,用两个小时渗透进麦肯锡的Lilli平台,带走了4650万条聊天记录、72.8万份文件和5.7万个账户的数据。攻击面不是传统意义上的零日漏洞,而是22个未认证的API端点加上一处SQL注入:一个通过常规渗透测试的系统里藏着的漏洞。真正让这次入侵成为标志性事件的,不是数据量,而是攻击者本身:一个AI智能体,以自主意图行动,利用传统安全测试不会优先处理的缝隙长驱直入。这个事件迫使我们停止假装旧的安全剧本依然有效。关于一家公司如何在AI时代规模化处理配置安全的更多思考,请参阅我们关于Meta的信任但金丝雀配置安全方法的深度分析。
范式转换:护栏从来不够用
2023到2024年间,企业应对AI风险的标准答案是护栏。输入过滤器、输出分类器、内容审核API、提示词注入检测:这些工具都有价值,但它们共享一个根本性的设计假设:威胁来自一个输入恶意内容的人类。护栏的本质是反应式的。它们通过在恶意行为发生后识别它,或在已知坏模式执行前阻断它来起作用。这两种能力都无法扩展到智能体AI,因为智能体AI可以在几分钟内跨多个工具执行数十次操作,而不会停下来等待人类批准。
安全社区在2024年底就看出了这个缺口。OWASP于2025年11月发布的LLM Top 10 2025,通过其新增条目讲述了这一切:排名第一的提示词注入占据了真实世界AI安全事件的35%(Adversa AI 2025年报告数据)。"过度授权"以第六名的位置进入榜单,描述的是AI系统因未被告知缺乏授权而执行未授权操作。"向量与嵌入安全"出现在第八名,直接承认了检索增强生成创造了一个传统输入过滤完全无法触及的新攻击面。"系统提示词泄露"排名第七,反映了业界逐渐认识到的现实:模型的系统提示词是专有资产,而非配置文件。
护栏解决了它们能看到的问题。智能体AI引入了一类需要重新思考整个访问模型才能解决的问题。
四家提供商的框架对比:一个实在的分析
每个主要的前沿AI提供商都发布了安全框架,它们之间的差异揭示了关于信任应该驻留何处的根本不同哲学。
| 提供商 | 框架 | 最新版本 | 核心机制 | 威胁模型重点 |
|---|---|---|---|---|
| Anthropic | RSP | v3.0(2026年2月) | ASL级别,CEO批准,董事会通知 | CBRN能力,内鬼威胁 |
| Google DeepMind | FSF | v3.1(2026年4月) | CCL阈值,有害操纵跟踪 | 信念/行为操纵,对齐偏差 |
| OpenAI | Preparedness Framework | 2025年4月 | 能力分类,风险等级 | 自主复制,网络攻击 |
| Microsoft | Frontier Governance | 2025年2月 | 能力评估,三级缓解 | 跨租户数据泄露,模型操纵 |
Anthropic的RSP v3.0代表了最偏重治理的路径。ASL-3部署需要CEO、负责扩展官批准,并通知董事会。框架引入了明确的"可信用户"标准,面向希望获得去安全化模型版本的组织,这个概念承认了访问决策必须是关系性的,而不仅仅是技术性的。值得注意的是,RSP v3.0将"复杂内鬼"和"国家控制内鬼"场景排除在威胁模型之外,这是该公司承认但尚未解决的局限。
Google DeepMind的FSF v3.1于2026年4月发布,扩大到了"有害操纵"领域:AI系统以有针对性的方式改变人类信念或行为的能力。这个领域在前几个版本中并不存在。FSF v3.1还添加了能力级别跟踪(TCI),一种随时间监测能力提升而非仅在发布时评估的机制。框架对对齐偏差风险的强调既适用于外部部署,也适用于内部使用,这个范围扩展反映了Google对内部AI治理日益增长的关注。
OpenAI的 Preparedness Framework,最近一次更新是2025年4月,围绕能力分类组织风险:自主复制、网络攻击、CBRN和说服。每个类别都有定义的阈值和风险等级。框架值得注意的是其入场门槛方法:跨过特定能力阈值的系统,无论预期用途如何,都需要额外的缓解措施。挑战在于能力评估仍然是部分主观的,OpenAI尚未公开完整的评估方法。
Microsoft的Frontier Governance Framework来自2025年2月,采用以能力评估为中心的三级缓解结构。这些等级映射到能力级别,随着能力增加要求也越来越严格。Microsoft的框架是最明确地将跨租户数据泄露作为主要风险关注的,这在同年晚些时候将发生的EchoLeak事件中得到了证实。
这些框架都不是完整的。每一个都反映了提供商特定的威胁模型、客户群和风险承受能力。对企业安全团队的实际意义是,你不能简单地将其中一个框架作为自己的框架使用。你必须提取适用于你情境的原则,构建一个复合治理模型。
OWASP LLM Top 10 2025:变化及其意义
2025年OWASP LLM Top 10的更新引入的变化反映了安全社区开始理解智能体AI的攻击面。
排名第一的提示词注入并不新鲜,但Adversa AI 2025年报告中的35%这个数字让它变得具体:提示词注入占据了真实世界AI安全事件的35%以上。这个攻击简单得令人误解。攻击者通过被污染的外部数据源注入指令,模型将这些指令当作来自合法系统提示词的内容执行。后果随着系统自主性的增加而扩大。
排名第六的过度授权是这个版本中最具定义性的新增条目。它描述的是一个被赋予了不应有的能力的系统,或者缺乏在执行前验证其操作已获授权的机制的系統。在麦肯锡入侵事件中,CodeWall的智能体拥有任何人类攻击者都不会被授予的授权:它可以在多个系统间发起API调用,而无需每次请求都进行身份验证。这个教训不是智能体本身设计恶意。教训是,拥有广泛访问权限且没有授权检查点的智能体是结构性漏洞,无论意图如何。
排名第八的向量与嵌入安全针对的是输入过滤无法触及的一类攻击。在RAG架构中,知识库就是产品。当攻击者用恶意片段污染文档存储后,每次后续查询都会检索到被篡改的上下文。攻击通过检索管道持续存在,并以输入过滤永远看不到的方式影响输出。这个漏洞在企业环境中特别危险,因为企业RAG系统建立在专有知识库之上,而攻击者高度重视这些知识库。
排名第七的系统提示词泄露编纂了许多企业通过痛苦经验发现的现实:系统提示词不是配置文件。它包含专有的推理模式、安全指令,通常还有永远不该让用户接触的凭证。当模型泄露其系统提示词时,它不是在进行对话。它是在交出运行它的系统的架构文档。
NIST AI RMF:实施顺序很重要
NIST AI风险管理框架,最新更新是2024年7月发布的生成式AI配置文件(NIST-AI-600-1),提供了四个功能结构:治理、映射、测量、管理。框架将这些呈现为一个循环,但对大多数企业来说,实际的实施顺序是不同的。
推荐的顺序是:先映射,再治理,再测量,再管理。你必须了解你有哪些AI系统,它们如何相互连接,敏感数据在哪里流动,然后才能有效地治理它们。如果你的组织仍处于企业AI采用的早期阶段,关于将AI从试点推向生产规模的指南涵盖了通常在认真投入安全建设之前的成熟度演进过程。在没有地图的情况下治理AI会产生遗漏整个系统的策略。治理而没有测量会产生没有人有权采取行动的指标。管理而没有测量会产生无法验证其有效性的干预措施。
科罗拉多州AI法案(SB 205)将NIST AI RMF作为安全港基准,罚款为每次违规2万美元,这使得治理需求变得具体。仅仅说"正在评估AI风险"已经不可接受了。你需要一个成文的、已实施的框架。NIST AI RMF提供了结构。你的实施必须符合你的情境。
真实事件:漏洞实际上教会了我们什么
2025年和2026年初的事件不仅仅是数据点。每一个都暴露了现有安全实践无法设计用来捕获的特定类别失败。
CVE-2025-53773(GitHub Copilot),CVSS评分9.6,允许在超过10万台开发人员机器上远程执行代码。攻击向量是一个扩展市场漏洞,让恶意扩展能够以与Copilot本身相同的权限执行代码。教训不是Copilot构建不良。教训是AI编码助手引入了一个新的信任边界:扩展生态。你安装的每个扩展都使用你的身份运行。能够安装或推荐扩展的AI工具正在以传统代码审查无法捕获的方式扩展那个攻击面。
CVE-2025-32711(Microsoft 365 Copilot EchoLeak)使跨租户数据泄露成为可能。该漏洞利用了Copilot跨不同租户上下文访问文档的方式,允许一个组织的数据出现在另一个组织的查询结果中。这不是提示词注入攻击。这是一个授权模型中的漏洞,适用于已被授予跨整个组织广泛文档访问权限的系统。教训是,拥有组织级文档访问权限的AI系统会造成没有人类助手会造成的爆炸半径。当你给一个AI系统访问一切的权限时,一个漏洞影响所有人。
CVE-2025-xxxx(Salesforce AgentForce ForcedLeak),发现于2025年7月28日,修复于2025年9月8日,披露于2025年9月25日,CVSS评分9.4。攻击使用间接提示词注入来操纵CRM数据外泄路径。攻击者可以在AgentForce正常操作期间检索和执行的字段中嵌入恶意指令。间接注入比直接提示词注入更难检测,因为恶意内容通过合法数据渠道进入系统,而非通过用户输入。教训是你的数据现在是一个潜在的攻击面。AI系统可以读取的每个数据库表中的每个字段都是潜在的注入向量。
这三个事件有一个共同主线:漏洞不在AI模型的输出中。它在模型周围的系统中:扩展市场、授权模型、数据管道。保护模型是必要的,但不足以保证安全。你必须保护模型接触的一切。
安全基准:数字意味着什么
评估AI安全需要基准,而相关生态已经成熟到拥有几个值得了解的基准。
HarmBench由安全AI中心开发,根据一组固定的有害行为评估模型。它是最接近标准化红队的模型能力评估工具。在HarmBench上表现不好的模型在部署中不一定不安全,但它在大多数安全团队关心的领域展示了能力。
AdvBench专注于对抗性指令遵循:一个模型在将这些指令嵌入更长、更复杂的提示词中时,执行有害指令的频率有多高。提示词注入是对抗性指令遵循的一种形式,AdvBench为评估防御提供了基线。
BOLD(偏见和开放性语言数据集)评估模型对潜在敏感社会话题提示词的反应。它与内容安全相关,但不直接解决 unauthorized access或数据外泄意义上的安全问题。
SALAD-Bench是更新的参与者,专门针对智能体AI漏洞,包括过度授权场景。它是对在生产环境中部署AI智能体的企业最相关的基准。
没有基准是确定性的。在所有基准上得分良好的模型仍然可能通过基准未覆盖的攻击面被利用。将基准视为评估过程的一个输入,而非完整答案。
可信访问模型:向前推进
从护栏到可信访问的转换反映了一个基本认识:当攻击者是AI智能体、以机器速度做出自主决策时,你无法通过过滤来保证安全。可信访问模型从不同前提开始。它不问"我们如何阻止恶意输入",而问"哪些系统和用户已经赢得了代表组织行事的信任"。
实施遵循适合不同规模组织的阶段性方法。
初创级别(50人以下):默认情况下以最小数据访问权限部署AI系统。尽可能使用基于API的AI服务而非自托管模型,因为提供商值得信赖的基础设施比小团队能构建的更成熟。实施基本的输入/输出日志记录并保持审查,即使审查是手动的。
成长级别(50到500人):在将任何AI系统部署到生产环境之前引入正式的能力评估。绘制你的AI资产清单:每个系统访问哪些数据,它可以执行哪些操作,谁可以调用它。将AI安全开始整合到你现有的安全审查流程中,不是作为单独 track,而是作为必需的检查点。根据其发布的安全框架评估提供商,而不仅仅是能力和价格。
企业级别(500人以上):采用从多个提供商框架中提取原则的复合治理模型。定期开展专门针对AI攻击面的红队演练,包括提示词注入、过度授权和数据管道攻击。为AI系统可能出现的异常情况实施持续监控:异常的数据访问模式、意外的API调用、异常的检索事件。你的安全团队需要至少一名具有深度AI安全专业知识的人员。在企业规模上,这不是奢侈品,而是结构性需求。
贯穿所有三个级别的主线是:安全性必须与能力保持同步。2024年安全部署的系统在2026年可能不再安全部署,因为此时它已被赋予智能体能力、更多数据访问权限以及更多外部工具集成。你应该以与审查软件部署相同的频率审查你的AI态势。
实践建议
在你读完本文之前,如果你的组织在过去18个月内部署了AI系统,运行一个查询:这些系统中有多少可以在未经每次请求认证的情况下发起API调用?如果答案是"我不知道"或"超过几个",你就有一个护栏无法解决的可信访问问题。
在撰写下一份安全策略之前,先绘制你的AI资产清单。你无法治理你不知道其存在的系统。一旦你有了地图,策略工作就成为可能。
认真对待提供商的 安全框架,就像你认真对待其正常运行时间SLA一样。麦肯锡入侵事件是通过AI提供商的平台发生的,教训适用于任何将AI供应商安全视为别人问题的组织。
将AI特定攻击场景添加到你的红队日程表中。传统渗透测试无法捕获智能体AI利用的那些缺口。
常见问题
Q: AI安全事件与传统软件安全事件有何不同?
AI安全事件往往涉及多步骤链条,而非单一利用点。传统的SQL注入可能给攻击者提供数据库立足点。提示词注入加上过度授权可以给攻击者提供立足点、文档存储,以及跨多个系统外泄数据的能力,而没有任何单个步骤看起来明显恶意。事件链条也更难重建,因为AI模型行为在传统软件不具备的方式上是非确定性的。
Q: 护栏现在完全没用了?
护栏不是没用的。它们作为主要防御手段是不够的。输入过滤和内容审核在处理接口层的已知坏模式方面仍然有价值。但它们必须与访问治理、监控和智能体特定控制相结合。将护栏视为深度防御策略的一层,而非策略本身。
Q: 如何评估我的AI提供商是否足够重视安全?
要求查看其发布的安全框架。阅读它。评估它是否解决了对你的用例重要的风险类别。询问他们的红队流程、事件响应时间,以及是否有第三方安全审计。无法清楚阐述其安全方法的提供商不一定不安全,但如果一个提供商能够清楚解释它并有外部审查证据,则更有可能认真对待安全。
Q: 对于中型公司来说,提高AI安全性最具杠杆效应的单一行动是什么?
绘制你的AI资产清单。大多数在2024年和2025年部署AI的组织几乎没有追踪。他们知道自己使用了Copilot和ChatGPT,但没有列出嵌入在CRM、支持平台、代码生成工具中的AI,以及员工在IT不知情的情况下连接的那些影子AI。治理AI的第一步是知道它存在。一旦你有了地图,策略工作就成为可能。
Q: 可信访问计划与现有零信任架构有什么关系?
AI的可信访问是零信任原则在AI系统上的具体应用。零信任表示默认不信任任何系统或用户;信任必须持续获得和验证。应用于AI,这意味着你的AI系统不应该在整个组织中拥有持久授权。它们应该拥有为特定目的授予的范围访问权限,在高风险操作前有明确的检查点。与传统零信任的区别在于AI系统可以执行单独看低风险但总体看高影响的操作链。你的零信任实施必须考虑到这种操作链风险。