提示词注入防御: 守护你的 AI 工作空间。
深入了解提示词注入威胁、真实安全事件,以及 Claude Cowork 的多层安全架构如何保护你的数据。
最后更新:2026 年 2 月
威胁全景
AI 智能体面临着传统软件从未遇到过的安全挑战。
间接提示词注入
恶意指令被隐藏在文档、邮件或网页中,当 AI 处理这些内容时,会被诱导执行非预期操作。
MCP 服务器漏洞
第三方 MCP 服务器可能存在安全缺陷——比如输入验证不足——导致任意文件访问、删除甚至远程代码执行。
数据外泄风险
一个被攻破的 AI 会话如果拥有网络访问权限,可能通过精心构造的请求将敏感文件内容发送到攻击者控制的服务器。
真实安全事件(2026 年 1 月)
一系列安全事件塑造了当前 AI 桌面智能体的威胁格局。
2026 年 1 月 15 日
PromptArmor 披露 Cowork 文件外泄漏洞
安全研究人员演示了文档中隐藏的提示词注入可以指示 Cowork 读取敏感文件并发送到外部服务器。该漏洞最早于 2025 年 10 月在 Claude Files API 中被报告。
2026 年 1 月 20 日
Git MCP 服务器曝出三个严重漏洞
网络安全公司 Cyata 在 Anthropic 官方 mcp-server-git 中发现了任意文件读取、文件删除和远程代码执行漏洞。已在 2025.12 版本中修复。
已修复2026 年 1 月 28 日
行业全面响应
OWASP 更新了 AI 十大风险榜单,将提示词注入和「智能体目标劫持」列为首位。MIT 技术评论发文:「规则在提示层失效,在边界层生效。」
「致命三角」
安全研究员 Simon Willison 指出,以下三个因素同时存在时,AI 智能体系统的风险最高:
私密数据访问
智能体可以读取系统上的敏感文件、凭证和个人信息。
+操作执行能力
智能体可以写入文件、运行命令、发起网络请求,并与外部服务交互。
+不可信内容
智能体处理的文档、网页或邮件中可能包含隐藏的恶意指令。
Cowork 的防御架构
Claude Cowork 采用多层防护,从硬件隔离到模型级安全机制层层把关。
虚拟机隔离
Cowork 运行在基于 Apple 虚拟化框架的独立 Linux 虚拟机中。即使被攻破,智能体也无法逃逸虚拟机边界或访问未挂载的文件夹。
网络白名单
所有出站流量都经过域名白名单代理。默认阻止任意 URL 访问,防止未授权的数据外泄。
权限管理系统
三种规则类型——允许、询问和拒绝——控制智能体可以执行的操作。文件写入、命令执行和 MCP 工具调用都需要明确授权。
内容分类器
专用分类器在智能体处理不可信内容之前扫描提示词注入模式,检测文档和网页中的隐藏指令。
RLHF 安全训练
Claude 通过人类反馈强化学习来识别和拒绝恶意指令。每一代模型在注入抵抗能力上都有可衡量的提升。
10 条安全最佳实践
使用 AI 桌面智能体时降低风险的实用建议。
限制文件夹访问
只授予 Cowork 对特定工作文件夹的访问权限。绝不要挂载主目录、SSH 密钥或凭证存储。
审查不可信文件
不要让 Cowork 处理来源不明的文档。文件中可能包含利用隐藏文本或 Unicode 技巧的提示词注入。
保持 MCP 服务器更新
Git MCP 服务器漏洞表明 MCP 服务器可能存在严重缺陷。务必使用最新版本。
使用沙箱环境
启用 Claude Code 的沙箱运行时,或使用 Docker 容器在默认虚拟机之外提供额外隔离。
保护密钥安全
将 API 密钥和令牌存储在环境变量中,而非源代码或提示词中。尽量不要在 MCP 配置文件中硬编码凭证。
限制网络访问
为出站连接设置域名白名单。默认阻止任意 URL 以防止数据外泄。
使用拒绝规则
为危险操作配置拒绝规则。不要一次性允许所有 MCP 工具——逐个审批。
监控活动日志
会话期间关注实时活动日志。留意异常的文件访问、不寻常的网络请求或反常的行为模式。
遵循最小权限原则
只授予每项任务所需的最低权限。任务完成后及时撤销访问权限。
做好数据备份
在让任何 AI 智能体修改文件之前先做备份。沙箱保护的是操作系统,但无法保护已授权文件夹内的数据。
MCP 安全清单
针对 MCP(模型上下文协议)服务器集成的专项安全措施。
只安装来自可信来源的 MCP 服务器(Anthropic 官方包或受信任的开发者)
安装前审查服务器的源代码或文档
保持所有 MCP 服务器更新到最新版本——安全补丁发布频繁
使用环境变量存储 API 密钥,不要硬编码在 claude_desktop_config.json 中
将每个 MCP 服务器的权限范围限制到最小(例如,将文件系统服务器限制在特定目录)
监控 MCP 服务器日志,排查异常操作或访问模式
从配置中移除不再使用的 MCP 服务器,减少攻击面