プロンプトインジェクション対策: AI ワークスペースを守る。
プロンプトインジェクションの脅威、実際のセキュリティ事例、そして Claude Cowork の多層防御アーキテクチャによるデータ保護について解説します。
最終更新:2026年2月
脅威の全体像
AI エージェントは、従来のソフトウェアにはなかった独自のセキュリティ課題に直面しています。
間接プロンプトインジェクション
文書、メール、ウェブページに埋め込まれた悪意ある指示が、AI エージェントのコンテンツ処理時に意図しない動作を引き起こします。
MCP サーバーの脆弱性
サードパーティの MCP サーバーには、入力検証の不備などのセキュリティ上の欠陥があり、任意のファイルアクセス、削除、リモートコード実行を許す可能性があります。
データ流出リスク
ウェブアクセス権限を持つ侵害された AI セッションが、巧妙に構成されたリクエストを通じて機密ファイルの内容を攻撃者のサーバーに送信する恐れがあります。
実際のセキュリティ事例(2026年1月)
AI デスクトップエージェントの脅威環境を形作った一連のセキュリティイベント。
2026年1月15日
PromptArmor が Cowork のファイル流出脆弱性を公開
セキュリティ研究者が、文書内に隠されたプロンプトインジェクションにより Cowork が機密ファイルを読み取り外部サーバーに送信できることを実証。この脆弱性は2025年10月に Claude Files API で最初に報告されました。
2026年1月20日
Git MCP サーバーに3つの重大な脆弱性
サイバーセキュリティ企業 Cyata が Anthropic 公式の mcp-server-git で任意ファイル読み取り、ファイル削除、リモートコード実行の脆弱性を発見。バージョン 2025.12 で修正済み。
修正済み2026年1月28日
業界全体の対応
OWASP が AI リスクトップ10を更新し、プロンプトインジェクションと「エージェント目標ハイジャック」を最上位に。MIT Technology Review は「ルールはプロンプト層で破られ、境界層で機能する」と報じました。
「致命的トライアングル」
セキュリティ研究者 Simon Willison は、以下の3要素が揃うと AI エージェントシステムのリスクが最大化すると指摘しています:
機密データへのアクセス
エージェントがシステム上の機密ファイル、認証情報、個人情報を読み取れる状態。
+操作の実行権限
エージェントがファイル書き込み、コマンド実行、ネットワークリクエスト、外部サービスとの連携を行える状態。
+信頼できないコンテンツ
エージェントが処理する文書、ウェブページ、メールに悪意ある隠し指示が含まれている可能性。
Cowork の防御アーキテクチャ
Claude Cowork はハードウェア分離からモデルレベルの安全機構まで、多層的な保護を採用しています。
VM 分離
Cowork は Apple Virtualization Framework を使用した専用 Linux VM 内で動作します。万が一侵害されても、エージェントは VM の境界を越えたりマウントされていないフォルダにアクセスすることはできません。
ネットワークホワイトリスト
すべての送信トラフィックはドメインホワイトリスト付きプロキシを経由します。任意の URL はデフォルトでブロックされ、不正なデータ流出を防ぎます。
権限管理システム
許可・確認・拒否の3種類のルールでエージェントの操作を制御。ファイル書き込み、bash コマンド、MCP ツールの使用にはすべて明示的な承認が必要です。
コンテンツ分類器
専用の分類器が、エージェントが処理する前に信頼できないコンテンツのプロンプトインジェクションパターンをスキャンし、文書やウェブページ内の隠し指示を検出します。
RLHF セーフガード
Claude は人間のフィードバックによる強化学習を通じて、悪意ある指示を認識し拒否するよう訓練されています。モデルの世代ごとにインジェクション耐性が向上しています。
10のセキュリティベストプラクティス
AI デスクトップエージェント利用時のリスクを最小化する実践的なステップ。
フォルダアクセスを制限する
Cowork には特定の作業フォルダのみアクセスを許可しましょう。ホームディレクトリ、SSH キー、認証情報ストアは絶対にマウントしないでください。
信頼できないファイルを検証する
出所不明の文書を Cowork に処理させないでください。ファイルには隠しテキストや Unicode トリックを使ったプロンプトインジェクションが含まれている可能性があります。
MCP サーバーを最新に保つ
Git MCP サーバーの脆弱性が示すように、MCP サーバーには重大な欠陥が存在し得ます。常に最新バージョンを使用してください。
サンドボックス環境を使用する
Claude Code のサンドボックスランタイムを有効にするか、Docker コンテナを使用してデフォルトの VM に加えた追加の分離を確保しましょう。
シークレットを保護する
API キーやトークンはソースコードやプロンプトではなく環境変数に保存しましょう。MCP 設定ファイルへの認証情報のハードコーディングも避けてください。
ネットワークアクセスを制限する
送信接続にはドメインホワイトリストを設定しましょう。データ流出を防ぐため、任意の URL はデフォルトでブロックしてください。
拒否ルールを活用する
危険な操作には拒否ルールを設定しましょう。すべての MCP ツールを一括許可せず、個別に承認してください。
アクティビティを監視する
セッション中はリアルタイムのアクティビティログを確認しましょう。予期しないファイルアクセス、不審なネットワークリクエスト、異常な動作パターンに注意してください。
最小権限の原則を適用する
各タスクに必要な最小限の権限のみを付与しましょう。タスク完了後はアクセス権を取り消してください。
バックアップを維持する
AI エージェントにファイルを変更させる前に重要なファイルをバックアップしましょう。サンドボックスは OS を保護しますが、許可されたフォルダ内のデータは保護しません。
MCP セキュリティチェックリスト
MCP(Model Context Protocol)サーバー連携に特化したセキュリティ対策。
検証済みのソース(Anthropic 公式パッケージまたは信頼できる開発者)からのみ MCP サーバーをインストールする
インストール前にサーバーのソースコードまたはドキュメントを確認する
すべての MCP サーバーを最新バージョンに保つ——セキュリティパッチは頻繁にリリースされます
API キーは claude_desktop_config.json にハードコーディングせず環境変数を使用する
各 MCP サーバーのスコープを必要最小限に制限する(例:ファイルシステムサーバーを特定のディレクトリに限定)
MCP サーバーのログを監視し、予期しない操作やアクセスパターンを検出する
使用していない MCP サーバーは設定から削除し、攻撃対象領域を縮小する
セキュリティは 意識から始まる。
最新の AI エージェントセキュリティ対策を把握しましょう。多層防御の原則でワークスペースを構成してください。