shield 安全研究

提示词注入防御：守护你的 AI 工作空间。

深入了解提示词注入威胁、真实安全事件，以及 Claude Cowork 的多层安全架构如何保护你的数据。

最后更新：2026 年 2 月

威胁全景

AI 智能体面临着传统软件从未遇到过的安全挑战。

description

严重

间接提示词注入

恶意指令被隐藏在文档、邮件或网页中，当 AI 处理这些内容时，会被诱导执行非预期操作。

extension

高危

MCP 服务器漏洞

第三方 MCP 服务器可能存在安全缺陷——比如输入验证不足——导致任意文件访问、删除甚至远程代码执行。

cloud_upload

高危

数据外泄风险

一个被攻破的 AI 会话如果拥有网络访问权限，可能通过精心构造的请求将敏感文件内容发送到攻击者控制的服务器。

真实安全事件（2026 年 1 月）

一系列安全事件塑造了当前 AI 桌面智能体的威胁格局。

bug_report

2026 年 1 月 15 日

PromptArmor 披露 Cowork 文件外泄漏洞

安全研究人员演示了文档中隐藏的提示词注入可以指示 Cowork 读取敏感文件并发送到外部服务器。该漏洞最早于 2025 年 10 月在 Claude Files API 中被报告。

code

2026 年 1 月 20 日

Git MCP 服务器曝出三个严重漏洞

网络安全公司 Cyata 在 Anthropic 官方 mcp-server-git 中发现了任意文件读取、文件删除和远程代码执行漏洞。已在 2025.12 版本中修复。

已修复

public

2026 年 1 月 28 日

行业全面响应

OWASP 更新了 AI 十大风险榜单，将提示词注入和「智能体目标劫持」列为首位。MIT 技术评论发文：「规则在提示层失效，在边界层生效。」

「致命三角」

安全研究员 Simon Willison 指出，以下三个因素同时存在时，AI 智能体系统的风险最高：

folder_open

私密数据访问

智能体可以读取系统上的敏感文件、凭证和个人信息。

play_circle

操作执行能力

智能体可以写入文件、运行命令、发起网络请求，并与外部服务交互。

warning

不可信内容

智能体处理的文档、网页或邮件中可能包含隐藏的恶意指令。

priority_high 减少这三个因素的重叠，是所有有效 AI 智能体安全策略的核心原则。

Cowork 的防御架构

Claude Cowork 采用多层防护，从硬件隔离到模型级安全机制层层把关。

memory

虚拟机隔离

Cowork 运行在基于 Apple 虚拟化框架的独立 Linux 虚拟机中。即使被攻破，智能体也无法逃逸虚拟机边界或访问未挂载的文件夹。

wifi_off

网络白名单

所有出站流量都经过域名白名单代理。默认阻止任意 URL 访问，防止未授权的数据外泄。

admin_panel_settings

权限管理系统

三种规则类型——允许、询问和拒绝——控制智能体可以执行的操作。文件写入、命令执行和 MCP 工具调用都需要明确授权。

security

内容分类器

专用分类器在智能体处理不可信内容之前扫描提示词注入模式，检测文档和网页中的隐藏指令。

psychology

RLHF 安全训练

Claude 通过人类反馈强化学习来识别和拒绝恶意指令。每一代模型在注入抵抗能力上都有可衡量的提升。

10 条安全最佳实践

使用 AI 桌面智能体时降低风险的实用建议。

folder_off

限制文件夹访问

只授予 Cowork 对特定工作文件夹的访问权限。绝不要挂载主目录、SSH 密钥或凭证存储。

scan_delete

审查不可信文件

不要让 Cowork 处理来源不明的文档。文件中可能包含利用隐藏文本或 Unicode 技巧的提示词注入。

update

保持 MCP 服务器更新

Git MCP 服务器漏洞表明 MCP 服务器可能存在严重缺陷。务必使用最新版本。

docker

使用沙箱环境

启用 Claude Code 的沙箱运行时，或使用 Docker 容器在默认虚拟机之外提供额外隔离。

key_off

保护密钥安全

将 API 密钥和令牌存储在环境变量中，而非源代码或提示词中。尽量不要在 MCP 配置文件中硬编码凭证。

lan

限制网络访问

为出站连接设置域名白名单。默认阻止任意 URL 以防止数据外泄。

block

使用拒绝规则

为危险操作配置拒绝规则。不要一次性允许所有 MCP 工具——逐个审批。

monitoring

监控活动日志

会话期间关注实时活动日志。留意异常的文件访问、不寻常的网络请求或反常的行为模式。

shield

遵循最小权限原则

只授予每项任务所需的最低权限。任务完成后及时撤销访问权限。

backup

做好数据备份

在让任何 AI 智能体修改文件之前先做备份。沙箱保护的是操作系统，但无法保护已授权文件夹内的数据。

MCP 安全清单

针对 MCP（模型上下文协议）服务器集成的专项安全措施。

check_circle

只安装来自可信来源的 MCP 服务器（Anthropic 官方包或受信任的开发者）

check_circle

安装前审查服务器的源代码或文档

check_circle

保持所有 MCP 服务器更新到最新版本——安全补丁发布频繁

check_circle

使用环境变量存储 API 密钥，不要硬编码在 claude_desktop_config.json 中

check_circle

将每个 MCP 服务器的权限范围限制到最小（例如，将文件系统服务器限制在特定目录）

check_circle

监控 MCP 服务器日志，排查异常操作或访问模式

check_circle

从配置中移除不再使用的 MCP 服务器，减少攻击面

安全始于意识。

持续关注最新的 AI 智能体安全实践。用纵深防御原则配置你的工作空间。

阅读安全配置指南查看 Anthropic 企业方案 (anthropic.com) open_in_new

Coworker AI

提示词注入防御：守护你的 AI 工作空间。

威胁全景

间接提示词注入

MCP 服务器漏洞

数据外泄风险

真实安全事件（2026 年 1 月）

PromptArmor 披露 Cowork 文件外泄漏洞

Git MCP 服务器曝出三个严重漏洞

行业全面响应

「致命三角」

私密数据访问

操作执行能力

不可信内容

Cowork 的防御架构

虚拟机隔离

网络白名单

权限管理系统

内容分类器

RLHF 安全训练

10 条安全最佳实践

限制文件夹访问

审查不可信文件

保持 MCP 服务器更新

使用沙箱环境

保护密钥安全

限制网络访问

使用拒绝规则

监控活动日志

遵循最小权限原则

做好数据备份

MCP 安全清单

相关资源

安全配置指南

MCP 安装指南

Cowork vs Claude Code

安全始于意识。

提示词注入防御： 守护你的 AI 工作空间。

威胁全景

间接提示词注入

MCP 服务器漏洞

数据外泄风险

真实安全事件（2026 年 1 月）

PromptArmor 披露 Cowork 文件外泄漏洞

Git MCP 服务器曝出三个严重漏洞

行业全面响应

「致命三角」

私密数据访问

操作执行能力

不可信内容

Cowork 的防御架构

虚拟机隔离

网络白名单

权限管理系统

内容分类器

RLHF 安全训练

10 条安全最佳实践

限制文件夹访问

审查不可信文件

保持 MCP 服务器更新

使用沙箱环境

保护密钥安全

限制网络访问

使用拒绝规则

监控活动日志

遵循最小权限原则

做好数据备份

MCP 安全清单

相关资源

安全配置指南

MCP 安装指南

Cowork vs Claude Code

安全始于 意识。

提示词注入防御：守护你的 AI 工作空间。

安全始于意识。