提示詞注入防禦: 守護你的 AI 工作空間。
深入了解提示詞注入威脅、真實安全事件,以及 Claude Cowork 的多層安全架構如何保護你的資料。
最後更新:2026 年 2 月
威脅全景
AI 智慧代理面臨著傳統軟體從未遇過的安全挑戰。
間接提示詞注入
惡意指令被隱藏在文件、電子郵件或網頁中,當 AI 處理這些內容時,會被誘導執行非預期操作。
MCP 伺服器漏洞
第三方 MCP 伺服器可能存在安全缺陷——例如輸入驗證不足——導致任意檔案存取、刪除甚至遠端程式碼執行。
資料外洩風險
一個被入侵的 AI 工作階段若擁有網路存取權限,可能透過精心建構的請求將敏感檔案內容傳送到攻擊者控制的伺服器。
真實安全事件(2026 年 1 月)
一系列安全事件塑造了當前 AI 桌面智慧代理的威脅格局。
2026 年 1 月 15 日
PromptArmor 揭露 Cowork 檔案外洩漏洞
安全研究人員示範了文件中隱藏的提示詞注入可以指示 Cowork 讀取敏感檔案並傳送到外部伺服器。該漏洞最早於 2025 年 10 月在 Claude Files API 中被通報。
2026 年 1 月 20 日
Git MCP 伺服器爆出三個嚴重漏洞
資安公司 Cyata 在 Anthropic 官方 mcp-server-git 中發現了任意檔案讀取、檔案刪除和遠端程式碼執行漏洞。已在 2025.12 版本中修復。
已修復2026 年 1 月 28 日
業界全面回應
OWASP 更新了 AI 十大風險榜單,將提示詞注入和「智慧代理目標劫持」列為首位。MIT 科技評論發文:「規則在提示層失效,在邊界層生效。」
「致命三角」
安全研究員 Simon Willison 指出,以下三個因素同時存在時,AI 智慧代理系統的風險最高:
私密資料存取
智慧代理可以讀取系統上的敏感檔案、憑證和個人資訊。
+操作執行能力
智慧代理可以寫入檔案、執行命令、發起網路請求,並與外部服務互動。
+不可信內容
智慧代理處理的文件、網頁或電子郵件中可能包含隱藏的惡意指令。
Cowork 的防禦架構
Claude Cowork 採用多層防護,從硬體隔離到模型級安全機制層層把關。
虛擬機器隔離
Cowork 在 macOS 與 Windows 上皆於隔離的虛擬機器中運行。即使被入侵,智慧代理也無法逃逸虛擬機器邊界或存取未掛載的資料夾。
網路白名單
所有對外流量都經過網域白名單代理。預設阻擋任意 URL 存取,防止未授權的資料外洩。
權限管理系統
三種規則類型——允許、詢問和拒絕——控制智慧代理可以執行的操作。檔案寫入、命令執行和 MCP 工具呼叫都需要明確授權。
內容分類器
專用分類器在智慧代理處理不可信內容之前掃描提示詞注入模式,偵測文件和網頁中的隱藏指令。
RLHF 安全訓練
Claude 透過人類回饋強化學習來辨識和拒絕惡意指令。每一代模型在注入抵抗能力上都有可衡量的提升。
10 條安全最佳實務
使用 AI 桌面智慧代理時降低風險的實用建議。
限制資料夾存取
只授予 Cowork 對特定工作資料夾的存取權限。絕不要掛載主目錄、SSH 金鑰或憑證儲存區。
審查不可信檔案
不要讓 Cowork 處理來源不明的文件。檔案中可能包含利用隱藏文字或 Unicode 技巧的提示詞注入。
保持 MCP 伺服器更新
Git MCP 伺服器漏洞顯示 MCP 伺服器可能存在嚴重缺陷。務必使用最新版本。
使用沙箱環境
啟用 Claude Code 的沙箱執行環境,或使用 Docker 容器在預設虛擬機器之外提供額外隔離。
保護金鑰安全
將 API 金鑰和權杖儲存在環境變數中,而非原始碼或提示詞中。盡量不要在 MCP 設定檔中寫死憑證。
限制網路存取
為對外連線設定網域白名單。預設阻擋任意 URL 以防止資料外洩。
使用拒絕規則
為危險操作設定拒絕規則。不要一次性允許所有 MCP 工具——逐一審核。
監控活動紀錄
工作階段期間關注即時活動紀錄。留意異常的檔案存取、不尋常的網路請求或反常的行為模式。
遵循最小權限原則
只授予每項任務所需的最低權限。任務完成後及時撤銷存取權限。
做好資料備份
在讓任何 AI 智慧代理修改檔案之前先做備份。沙箱保護的是作業系統,但無法保護已授權資料夾內的資料。
MCP 安全檢查清單
針對 MCP(模型上下文協定)伺服器整合的專項安全措施。
只安裝來自可信來源的 MCP 伺服器(Anthropic 官方套件或受信任的開發者)
安裝前審查伺服器的原始碼或文件
保持所有 MCP 伺服器更新到最新版本——安全修補程式發布頻繁
使用環境變數儲存 API 金鑰,不要寫死在 claude_desktop_config.json 中
將每個 MCP 伺服器的權限範圍限制到最小(例如,將檔案系統伺服器限制在特定目錄)
監控 MCP 伺服器紀錄,排查異常操作或存取模式
從設定中移除不再使用的 MCP 伺服器,減少攻擊面