Defensa contra inyección de prompts: Protege tu espacio de trabajo con IA.
Conoce las amenazas de inyección de prompts, incidentes reales y cómo la arquitectura de seguridad multicapa de Claude Cowork protege tus datos.
Última actualización: febrero de 2026
Panorama de amenazas
Los agentes de IA enfrentan desafíos de seguridad únicos que el software tradicional no conoce.
Inyección indirecta de prompts
Instrucciones maliciosas ocultas en documentos, correos o páginas web que engañan al agente de IA para que realice acciones no deseadas al procesar el contenido.
Vulnerabilidades en servidores MCP
Los servidores MCP de terceros pueden contener fallos de seguridad —como validación insuficiente de entradas— que permiten acceso arbitrario a archivos, eliminación o ejecución remota de código.
Riesgo de exfiltración de datos
Una sesión de IA comprometida con acceso a internet podría enviar contenido de archivos sensibles a servidores controlados por atacantes mediante solicitudes manipuladas.
Incidentes reales (enero de 2026)
Una cronología de eventos de seguridad que definieron el panorama actual de amenazas para agentes de IA de escritorio.
15 de enero de 2026
PromptArmor revela exfiltración de archivos en Cowork
Investigadores de seguridad demostraron que inyecciones de prompts ocultas en documentos podían instruir a Cowork para leer archivos sensibles y enviarlos a servidores externos. La vulnerabilidad fue reportada inicialmente en octubre de 2025 para la API de archivos de Claude.
20 de enero de 2026
Tres fallos críticos en el servidor Git MCP
La firma de ciberseguridad Cyata descubrió vulnerabilidades de lectura arbitraria de archivos, eliminación de archivos y ejecución remota de código en el mcp-server-git oficial de Anthropic. Corregido en la versión 2025.12.
Parcheado28 de enero de 2026
Respuesta de toda la industria
OWASP actualizó su Top 10 de riesgos de IA colocando la inyección de prompts y el 'secuestro de objetivos del agente' en primer lugar. MIT Technology Review publicó: 'Las reglas fallan en el prompt, funcionan en el perímetro.'
La "tríada letal"
El investigador de seguridad Simon Willison identificó tres factores que, combinados, generan el mayor riesgo en sistemas de agentes de IA:
Acceso a datos privados
El agente puede leer archivos sensibles, credenciales e información personal de tu sistema.
+Ejecución de acciones
El agente puede escribir archivos, ejecutar comandos, realizar solicitudes de red e interactuar con servicios externos.
+Contenido no confiable
El agente procesa documentos, páginas web o correos que pueden contener instrucciones maliciosas ocultas.
Arquitectura de defensa de Cowork
Claude Cowork emplea múltiples capas de protección, desde aislamiento de hardware hasta salvaguardas a nivel de modelo.
Aislamiento en VM
Cowork se ejecuta dentro de una VM Linux dedicada usando el framework de virtualización de Apple. Incluso si se compromete, el agente no puede escapar del límite de la VM ni acceder a carpetas no montadas.
Lista blanca de red
Todo el tráfico saliente pasa por un proxy con lista blanca de dominios. Las URLs arbitrarias se bloquean por defecto, previniendo la exfiltración no autorizada de datos.
Sistema de permisos
Tres tipos de reglas —Permitir, Preguntar y Denegar— controlan las acciones del agente. La escritura de archivos, comandos bash y el uso de herramientas MCP requieren aprobación explícita.
Clasificadores de contenido
Clasificadores dedicados escanean el contenido no confiable en busca de patrones de inyección de prompts antes de que el agente lo procese, detectando instrucciones ocultas en documentos y páginas web.
Salvaguardas RLHF
Claude está entrenado mediante aprendizaje por refuerzo con retroalimentación humana para reconocer y rechazar instrucciones maliciosas. Cada generación del modelo muestra mejoras medibles en resistencia a inyecciones.
10 buenas prácticas de seguridad
Pasos prácticos para minimizar riesgos al usar agentes de IA de escritorio.
Restringe el acceso a carpetas
Solo concede a Cowork acceso a carpetas de trabajo específicas. Nunca montes tu directorio personal, claves SSH ni almacenes de credenciales.
Verifica archivos no confiables
No dejes que Cowork procese documentos de fuentes desconocidas. Los archivos pueden contener inyecciones de prompts invisibles usando texto oculto o trucos Unicode.
Mantén los servidores MCP actualizados
Las vulnerabilidades del servidor Git MCP demuestran que los servidores MCP pueden tener fallos críticos. Usa siempre las versiones más recientes.
Usa entornos aislados
Activa el sandbox de Claude Code o usa contenedores Docker para obtener aislamiento adicional más allá de la VM predeterminada.
Protege los secretos
Almacena claves API y tokens en variables de entorno, no en código fuente ni en prompts. Evita codificar credenciales en archivos de configuración MCP.
Restringe el acceso a la red
Configura listas blancas de dominios para conexiones salientes. Bloquea URLs arbitrarias por defecto para prevenir la exfiltración de datos.
Usa reglas de denegación
Configura reglas de denegación para operaciones peligrosas. No permitas todas las herramientas MCP de golpe: apruébalas individualmente.
Monitorea la actividad
Observa el registro de actividad en tiempo real durante las sesiones. Busca accesos inesperados a archivos, solicitudes de red inusuales o patrones de comportamiento anómalos.
Aplica el principio de mínimo privilegio
Otorga solo los permisos mínimos necesarios para cada tarea. Revoca el acceso cuando la tarea se complete.
Mantén copias de seguridad
Haz respaldo de archivos importantes antes de que cualquier agente de IA los modifique. El sandbox protege tu sistema operativo, pero no los datos dentro de las carpetas autorizadas.
Lista de verificación de seguridad MCP
Medidas de seguridad específicas para integraciones de servidores MCP (Model Context Protocol).
Instala solo servidores MCP de fuentes verificadas (paquetes oficiales de Anthropic o desarrolladores de confianza)
Revisa el código fuente o la documentación del servidor antes de instalarlo
Mantén todos los servidores MCP actualizados a la última versión; los parches de seguridad se publican con frecuencia
Usa variables de entorno para las claves API en lugar de codificarlas en claude_desktop_config.json
Limita el alcance de cada servidor MCP al mínimo necesario (ej.: restringe el servidor de archivos a directorios específicos)
Monitorea los registros del servidor MCP para detectar operaciones inesperadas o patrones de acceso anómalos
Elimina los servidores MCP que no uses de tu configuración para reducir la superficie de ataque
La seguridad comienza con la conciencia.
Mantente al día con las últimas prácticas de seguridad para agentes de IA. Configura tu espacio de trabajo con principios de defensa en profundidad.