shield セキュリティ研究

プロンプトインジェクション対策： AI ワークスペースを守る。

プロンプトインジェクションの脅威、実際のセキュリティ事例、そして Claude Cowork の多層防御アーキテクチャによるデータ保護について解説します。

最終更新：2026年2月

脅威の全体像

AI エージェントは、従来のソフトウェアにはなかった独自のセキュリティ課題に直面しています。

description

深刻

間接プロンプトインジェクション

文書、メール、ウェブページに埋め込まれた悪意ある指示が、AI エージェントのコンテンツ処理時に意図しない動作を引き起こします。

extension

高

MCP サーバーの脆弱性

サードパーティの MCP サーバーには、入力検証の不備などのセキュリティ上の欠陥があり、任意のファイルアクセス、削除、リモートコード実行を許す可能性があります。

cloud_upload

高

データ流出リスク

ウェブアクセス権限を持つ侵害された AI セッションが、巧妙に構成されたリクエストを通じて機密ファイルの内容を攻撃者のサーバーに送信する恐れがあります。

実際のセキュリティ事例（2026年1月）

AI デスクトップエージェントの脅威環境を形作った一連のセキュリティイベント。

bug_report

2026年1月15日

PromptArmor が Cowork のファイル流出脆弱性を公開

セキュリティ研究者が、文書内に隠されたプロンプトインジェクションにより Cowork が機密ファイルを読み取り外部サーバーに送信できることを実証。この脆弱性は2025年10月に Claude Files API で最初に報告されました。

code

2026年1月20日

Git MCP サーバーに3つの重大な脆弱性

サイバーセキュリティ企業 Cyata が Anthropic 公式の mcp-server-git で任意ファイル読み取り、ファイル削除、リモートコード実行の脆弱性を発見。バージョン 2025.12 で修正済み。

修正済み

public

2026年1月28日

業界全体の対応

OWASP が AI リスクトップ10を更新し、プロンプトインジェクションと「エージェント目標ハイジャック」を最上位に。MIT Technology Review は「ルールはプロンプト層で破られ、境界層で機能する」と報じました。

「致命的トライアングル」

セキュリティ研究者 Simon Willison は、以下の3要素が揃うと AI エージェントシステムのリスクが最大化すると指摘しています：

folder_open

機密データへのアクセス

エージェントがシステム上の機密ファイル、認証情報、個人情報を読み取れる状態。

play_circle

操作の実行権限

エージェントがファイル書き込み、コマンド実行、ネットワークリクエスト、外部サービスとの連携を行える状態。

warning

信頼できないコンテンツ

エージェントが処理する文書、ウェブページ、メールに悪意ある隠し指示が含まれている可能性。

priority_high この3要素の重なりを最小化することが、効果的な AI エージェントセキュリティの核心原則です。

Cowork の防御アーキテクチャ

Claude Cowork はハードウェア分離からモデルレベルの安全機構まで、多層的な保護を採用しています。

memory

VM 分離

Cowork は Apple Virtualization Framework を使用した専用 Linux VM 内で動作します。万が一侵害されても、エージェントは VM の境界を越えたりマウントされていないフォルダにアクセスすることはできません。

wifi_off

ネットワークホワイトリスト

すべての送信トラフィックはドメインホワイトリスト付きプロキシを経由します。任意の URL はデフォルトでブロックされ、不正なデータ流出を防ぎます。

admin_panel_settings

権限管理システム

許可・確認・拒否の3種類のルールでエージェントの操作を制御。ファイル書き込み、bash コマンド、MCP ツールの使用にはすべて明示的な承認が必要です。

security

コンテンツ分類器

専用の分類器が、エージェントが処理する前に信頼できないコンテンツのプロンプトインジェクションパターンをスキャンし、文書やウェブページ内の隠し指示を検出します。

psychology

RLHF セーフガード

Claude は人間のフィードバックによる強化学習を通じて、悪意ある指示を認識し拒否するよう訓練されています。モデルの世代ごとにインジェクション耐性が向上しています。

10のセキュリティベストプラクティス

AI デスクトップエージェント利用時のリスクを最小化する実践的なステップ。

folder_off

フォルダアクセスを制限する

Cowork には特定の作業フォルダのみアクセスを許可しましょう。ホームディレクトリ、SSH キー、認証情報ストアは絶対にマウントしないでください。

scan_delete

信頼できないファイルを検証する

出所不明の文書を Cowork に処理させないでください。ファイルには隠しテキストや Unicode トリックを使ったプロンプトインジェクションが含まれている可能性があります。

update

MCP サーバーを最新に保つ

Git MCP サーバーの脆弱性が示すように、MCP サーバーには重大な欠陥が存在し得ます。常に最新バージョンを使用してください。

docker

サンドボックス環境を使用する

Claude Code のサンドボックスランタイムを有効にするか、Docker コンテナを使用してデフォルトの VM に加えた追加の分離を確保しましょう。

key_off

シークレットを保護する

API キーやトークンはソースコードやプロンプトではなく環境変数に保存しましょう。MCP 設定ファイルへの認証情報のハードコーディングも避けてください。

lan

ネットワークアクセスを制限する

送信接続にはドメインホワイトリストを設定しましょう。データ流出を防ぐため、任意の URL はデフォルトでブロックしてください。

block

拒否ルールを活用する

危険な操作には拒否ルールを設定しましょう。すべての MCP ツールを一括許可せず、個別に承認してください。

monitoring

アクティビティを監視する

セッション中はリアルタイムのアクティビティログを確認しましょう。予期しないファイルアクセス、不審なネットワークリクエスト、異常な動作パターンに注意してください。

shield

最小権限の原則を適用する

各タスクに必要な最小限の権限のみを付与しましょう。タスク完了後はアクセス権を取り消してください。

backup

バックアップを維持する

AI エージェントにファイルを変更させる前に重要なファイルをバックアップしましょう。サンドボックスは OS を保護しますが、許可されたフォルダ内のデータは保護しません。

MCP セキュリティチェックリスト

MCP（Model Context Protocol）サーバー連携に特化したセキュリティ対策。

check_circle

検証済みのソース（Anthropic 公式パッケージまたは信頼できる開発者）からのみ MCP サーバーをインストールする

check_circle

インストール前にサーバーのソースコードまたはドキュメントを確認する

check_circle

すべての MCP サーバーを最新バージョンに保つ——セキュリティパッチは頻繁にリリースされます

check_circle

API キーは claude_desktop_config.json にハードコーディングせず環境変数を使用する

check_circle

各 MCP サーバーのスコープを必要最小限に制限する（例：ファイルシステムサーバーを特定のディレクトリに限定）

check_circle

MCP サーバーのログを監視し、予期しない操作やアクセスパターンを検出する

check_circle

使用していない MCP サーバーは設定から削除し、攻撃対象領域を縮小する

セキュリティは意識から始まる。

最新の AI エージェントセキュリティ対策を把握しましょう。多層防御の原則でワークスペースを構成してください。

セキュリティ設定ガイドを読む Anthropic Enterprise を見る (anthropic.com) open_in_new

Coworker AI

プロンプトインジェクション対策： AI ワークスペースを守る。

脅威の全体像

間接プロンプトインジェクション

MCP サーバーの脆弱性

データ流出リスク

実際のセキュリティ事例（2026年1月）

PromptArmor が Cowork のファイル流出脆弱性を公開

Git MCP サーバーに3つの重大な脆弱性

業界全体の対応

「致命的トライアングル」

機密データへのアクセス

操作の実行権限

信頼できないコンテンツ

Cowork の防御アーキテクチャ

VM 分離

ネットワークホワイトリスト

権限管理システム

コンテンツ分類器

RLHF セーフガード

10のセキュリティベストプラクティス

フォルダアクセスを制限する

信頼できないファイルを検証する

MCP サーバーを最新に保つ

サンドボックス環境を使用する

シークレットを保護する

ネットワークアクセスを制限する

拒否ルールを活用する

アクティビティを監視する

最小権限の原則を適用する

バックアップを維持する

MCP セキュリティチェックリスト

関連リソース

セキュリティ設定ガイド

MCP 導入ガイド

Cowork vs Claude Code

セキュリティは意識から始まる。

プロンプトインジェクション対策： AI ワークスペースを守る。

脅威の全体像

間接プロンプトインジェクション

MCP サーバーの脆弱性

データ流出リスク

実際のセキュリティ事例（2026年1月）

PromptArmor が Cowork のファイル流出脆弱性を公開

Git MCP サーバーに3つの重大な脆弱性

業界全体の対応

「致命的トライアングル」

機密データへのアクセス

操作の実行権限

信頼できないコンテンツ

Cowork の防御アーキテクチャ

VM 分離

ネットワークホワイトリスト

権限管理システム

コンテンツ分類器

RLHF セーフガード

10のセキュリティベストプラクティス

フォルダアクセスを制限する

信頼できないファイルを検証する

MCP サーバーを最新に保つ

サンドボックス環境を使用する

シークレットを保護する

ネットワークアクセスを制限する

拒否ルールを活用する

アクティビティを監視する

最小権限の原則を適用する

バックアップを維持する

MCP セキュリティチェックリスト

関連リソース

セキュリティ設定ガイド

MCP 導入ガイド

Cowork vs Claude Code

セキュリティは 意識から始まる。

セキュリティは意識から始まる。