Défense contre l'injection de prompt : Protéger votre espace de travail IA.
Comprendre les menaces d'injection de prompt, les incidents réels et comment l'architecture de sécurité multicouche de Claude Cowork protège vos données.
Dernière mise à jour : février 2026
Le paysage des menaces
Les agents IA font face à des défis de sécurité uniques que les logiciels traditionnels ne connaissent pas.
Injection de prompt indirecte
Des instructions malveillantes dissimulées dans des documents, e-mails ou pages web qui détournent l'agent IA pour lui faire exécuter des actions non prévues.
Vulnérabilités des serveurs MCP
Les serveurs MCP tiers peuvent contenir des failles — validation d'entrée insuffisante, par exemple — permettant l'accès arbitraire aux fichiers, leur suppression ou l'exécution de code à distance.
Risque d'exfiltration de données
Une session IA compromise avec accès au réseau pourrait envoyer le contenu de fichiers sensibles vers des serveurs contrôlés par un attaquant via des requêtes forgées.
Incidents réels (janvier 2026)
Chronologie des événements de sécurité qui ont façonné le paysage actuel des menaces pour les agents IA de bureau.
15 janv. 2026
PromptArmor révèle l'exfiltration de fichiers Cowork
Des chercheurs en sécurité ont démontré que des injections de prompt cachées dans des documents pouvaient ordonner à Cowork de lire des fichiers sensibles et de les envoyer à des serveurs externes. La vulnérabilité avait été signalée en octobre 2025 pour l'API Files de Claude.
20 janv. 2026
Trois failles critiques dans le serveur Git MCP
La société de cybersécurité Cyata a découvert des vulnérabilités de lecture arbitraire, suppression de fichiers et exécution de code à distance dans le serveur officiel mcp-server-git d'Anthropic. Corrigé en version 2025.12.
Corrigé28 janv. 2026
Réaction de l'industrie
L'OWASP a mis à jour son Top 10 des risques IA en plaçant l'injection de prompt et le « détournement d'objectif d'agent » en tête. MIT Technology Review a publié : « Les règles échouent au prompt, réussissent à la frontière. »
La « triade fatale »
Le chercheur en sécurité Simon Willison a identifié trois facteurs qui, combinés, créent le risque maximal pour les systèmes d'agents IA :
Accès aux données privées
L'agent peut lire des fichiers sensibles, des identifiants et des informations personnelles sur votre système.
+Exécution d'actions
L'agent peut écrire des fichiers, exécuter des commandes, envoyer des requêtes réseau et interagir avec des services externes.
+Contenu non fiable
L'agent traite des documents, pages web ou e-mails susceptibles de contenir des instructions malveillantes cachées.
L'architecture de défense de Cowork
Claude Cowork déploie plusieurs couches de protection, de l'isolation matérielle aux garde-fous du modèle.
Isolation VM
Cowork s'exécute dans une VM dédiée via les technologies de virtualisation natives de macOS et Windows. Même en cas de compromission, l'agent ne peut pas franchir la frontière de la VM ni accéder aux dossiers non montés.
Liste blanche réseau
Tout le trafic sortant passe par un proxy avec liste blanche de domaines. Les URL arbitraires sont bloquées par défaut, empêchant toute exfiltration non autorisée.
Système de permissions
Trois types de règles — Autoriser, Demander et Refuser — contrôlent les actions de l'agent. L'écriture de fichiers, les commandes bash et l'utilisation d'outils MCP nécessitent une approbation explicite.
Classificateurs de contenu
Des classificateurs dédiés analysent le contenu non fiable à la recherche de schémas d'injection de prompt avant que l'agent ne le traite, détectant les instructions cachées dans les documents et pages web.
Garde-fous RLHF
Claude est entraîné par apprentissage par renforcement à partir de retours humains pour reconnaître et refuser les instructions malveillantes. Chaque génération du modèle montre une amélioration mesurable de la résistance aux injections.
10 bonnes pratiques de sécurité
Des mesures concrètes pour réduire les risques lors de l'utilisation d'agents IA de bureau.
Restreindre l'accès aux dossiers
N'accordez à Cowork l'accès qu'à des dossiers de travail spécifiques. Ne montez jamais votre répertoire personnel, vos clés SSH ou vos coffres d'identifiants.
Vérifier les fichiers non fiables
Ne laissez pas Cowork traiter des documents de sources inconnues. Les fichiers peuvent contenir des injections de prompt invisibles via du texte masqué ou des astuces Unicode.
Maintenir les serveurs MCP à jour
Les vulnérabilités du serveur Git MCP montrent que les serveurs MCP peuvent avoir des failles critiques. Utilisez toujours les dernières versions.
Utiliser des environnements sandboxés
Activez le runtime sandbox de Claude Code ou utilisez des conteneurs Docker pour une isolation supplémentaire au-delà de la VM par défaut.
Protéger les secrets
Stockez les clés API et les tokens dans des variables d'environnement, pas dans le code source ni les prompts. Évitez de mettre des identifiants dans les fichiers de configuration MCP.
Restreindre l'accès réseau
Utilisez des listes blanches de domaines pour les connexions sortantes. Bloquez les URL arbitraires par défaut pour empêcher l'exfiltration de données.
Utiliser des règles de refus
Configurez des règles Deny pour les opérations dangereuses. N'autorisez pas tous les outils MCP en bloc — approuvez chacun individuellement.
Surveiller l'activité
Consultez le journal d'activité en temps réel pendant les sessions. Repérez les accès fichiers inattendus, les requêtes réseau inhabituelles ou les comportements anormaux.
Appliquer le moindre privilège
N'accordez que les permissions minimales nécessaires à chaque tâche. Révoquez l'accès une fois la tâche terminée.
Maintenir des sauvegardes
Sauvegardez les fichiers importants avant de laisser un agent IA les modifier. La sandbox protège votre OS, mais pas les données dans les dossiers autorisés.
Checklist sécurité MCP
Mesures de sécurité spécifiques aux intégrations de serveurs MCP (Model Context Protocol).
N'installez que des serveurs MCP provenant de sources vérifiées (paquets officiels Anthropic ou développeurs de confiance)
Examinez le code source ou la documentation du serveur avant l'installation
Maintenez tous les serveurs MCP à jour — les correctifs de sécurité sont publiés fréquemment
Utilisez des variables d'environnement pour les clés API au lieu de les coder en dur dans claude_desktop_config.json
Limitez la portée de chaque serveur MCP au strict nécessaire (ex. : restreindre le serveur filesystem à des répertoires spécifiques)
Surveillez les logs des serveurs MCP pour détecter des opérations ou schémas d'accès inattendus
Supprimez les serveurs MCP inutilisés de votre configuration pour réduire la surface d'attaque
La sécurité commence par la vigilance.
Restez informé des dernières pratiques de sécurité pour les agents IA. Configurez votre espace de travail selon le principe de défense en profondeur.