shield Investigación de seguridad

Defensa contra inyección de prompts: Protege tu espacio de trabajo con IA.

Conoce las amenazas de inyección de prompts, incidentes reales y cómo la arquitectura de seguridad multicapa de Claude Cowork protege tus datos.

Última actualización: febrero de 2026

Panorama de amenazas

Los agentes de IA enfrentan desafíos de seguridad únicos que el software tradicional no conoce.

description

Crítico

Inyección indirecta de prompts

Instrucciones maliciosas ocultas en documentos, correos o páginas web que engañan al agente de IA para que realice acciones no deseadas al procesar el contenido.

extension

Alto

Vulnerabilidades en servidores MCP

Los servidores MCP de terceros pueden contener fallos de seguridad —como validación insuficiente de entradas— que permiten acceso arbitrario a archivos, eliminación o ejecución remota de código.

cloud_upload

Alto

Riesgo de exfiltración de datos

Una sesión de IA comprometida con acceso a internet podría enviar contenido de archivos sensibles a servidores controlados por atacantes mediante solicitudes manipuladas.

Incidentes reales (enero de 2026)

Una cronología de eventos de seguridad que definieron el panorama actual de amenazas para agentes de IA de escritorio.

bug_report

15 de enero de 2026

PromptArmor revela exfiltración de archivos en Cowork

Investigadores de seguridad demostraron que inyecciones de prompts ocultas en documentos podían instruir a Cowork para leer archivos sensibles y enviarlos a servidores externos. La vulnerabilidad fue reportada inicialmente en octubre de 2025 para la API de archivos de Claude.

code

20 de enero de 2026

Tres fallos críticos en el servidor Git MCP

La firma de ciberseguridad Cyata descubrió vulnerabilidades de lectura arbitraria de archivos, eliminación de archivos y ejecución remota de código en el mcp-server-git oficial de Anthropic. Corregido en la versión 2025.12.

Parcheado

public

28 de enero de 2026

Respuesta de toda la industria

OWASP actualizó su Top 10 de riesgos de IA colocando la inyección de prompts y el 'secuestro de objetivos del agente' en primer lugar. MIT Technology Review publicó: 'Las reglas fallan en el prompt, funcionan en el perímetro.'

La "tríada letal"

El investigador de seguridad Simon Willison identificó tres factores que, combinados, generan el mayor riesgo en sistemas de agentes de IA:

folder_open

Acceso a datos privados

El agente puede leer archivos sensibles, credenciales e información personal de tu sistema.

play_circle

Ejecución de acciones

El agente puede escribir archivos, ejecutar comandos, realizar solicitudes de red e interactuar con servicios externos.

warning

Contenido no confiable

El agente procesa documentos, páginas web o correos que pueden contener instrucciones maliciosas ocultas.

priority_high Minimizar la superposición de estos tres factores es el principio clave detrás de toda seguridad efectiva para agentes de IA.

Arquitectura de defensa de Cowork

Claude Cowork emplea múltiples capas de protección, desde aislamiento de hardware hasta salvaguardas a nivel de modelo.

memory

Aislamiento en VM

Cowork se ejecuta dentro de una VM Linux dedicada usando el framework de virtualización de Apple. Incluso si se compromete, el agente no puede escapar del límite de la VM ni acceder a carpetas no montadas.

wifi_off

Lista blanca de red

Todo el tráfico saliente pasa por un proxy con lista blanca de dominios. Las URLs arbitrarias se bloquean por defecto, previniendo la exfiltración no autorizada de datos.

admin_panel_settings

Sistema de permisos

Tres tipos de reglas —Permitir, Preguntar y Denegar— controlan las acciones del agente. La escritura de archivos, comandos bash y el uso de herramientas MCP requieren aprobación explícita.

security

Clasificadores de contenido

Clasificadores dedicados escanean el contenido no confiable en busca de patrones de inyección de prompts antes de que el agente lo procese, detectando instrucciones ocultas en documentos y páginas web.

psychology

Salvaguardas RLHF

Claude está entrenado mediante aprendizaje por refuerzo con retroalimentación humana para reconocer y rechazar instrucciones maliciosas. Cada generación del modelo muestra mejoras medibles en resistencia a inyecciones.

10 buenas prácticas de seguridad

Pasos prácticos para minimizar riesgos al usar agentes de IA de escritorio.

folder_off

Restringe el acceso a carpetas

Solo concede a Cowork acceso a carpetas de trabajo específicas. Nunca montes tu directorio personal, claves SSH ni almacenes de credenciales.

scan_delete

Verifica archivos no confiables

No dejes que Cowork procese documentos de fuentes desconocidas. Los archivos pueden contener inyecciones de prompts invisibles usando texto oculto o trucos Unicode.

update

Mantén los servidores MCP actualizados

Las vulnerabilidades del servidor Git MCP demuestran que los servidores MCP pueden tener fallos críticos. Usa siempre las versiones más recientes.

docker

Usa entornos aislados

Activa el sandbox de Claude Code o usa contenedores Docker para obtener aislamiento adicional más allá de la VM predeterminada.

key_off

Protege los secretos

Almacena claves API y tokens en variables de entorno, no en código fuente ni en prompts. Evita codificar credenciales en archivos de configuración MCP.

lan

Restringe el acceso a la red

Configura listas blancas de dominios para conexiones salientes. Bloquea URLs arbitrarias por defecto para prevenir la exfiltración de datos.

block

Usa reglas de denegación

Configura reglas de denegación para operaciones peligrosas. No permitas todas las herramientas MCP de golpe: apruébalas individualmente.

monitoring

Monitorea la actividad

Observa el registro de actividad en tiempo real durante las sesiones. Busca accesos inesperados a archivos, solicitudes de red inusuales o patrones de comportamiento anómalos.

shield

Aplica el principio de mínimo privilegio

Otorga solo los permisos mínimos necesarios para cada tarea. Revoca el acceso cuando la tarea se complete.

backup

Mantén copias de seguridad

Haz respaldo de archivos importantes antes de que cualquier agente de IA los modifique. El sandbox protege tu sistema operativo, pero no los datos dentro de las carpetas autorizadas.

Lista de verificación de seguridad MCP

Medidas de seguridad específicas para integraciones de servidores MCP (Model Context Protocol).

check_circle

Instala solo servidores MCP de fuentes verificadas (paquetes oficiales de Anthropic o desarrolladores de confianza)

check_circle

Revisa el código fuente o la documentación del servidor antes de instalarlo

check_circle

Mantén todos los servidores MCP actualizados a la última versión; los parches de seguridad se publican con frecuencia

check_circle

Usa variables de entorno para las claves API en lugar de codificarlas en claude_desktop_config.json

check_circle

Limita el alcance de cada servidor MCP al mínimo necesario (ej.: restringe el servidor de archivos a directorios específicos)

check_circle

Monitorea los registros del servidor MCP para detectar operaciones inesperadas o patrones de acceso anómalos

check_circle

Elimina los servidores MCP que no uses de tu configuración para reducir la superficie de ataque

Recursos relacionados

verified_user

La seguridad comienza con la conciencia.

Mantente al día con las últimas prácticas de seguridad para agentes de IA. Configura tu espacio de trabajo con principios de defensa en profundidad.

Leer la guía de seguridad Ver Anthropic Enterprise (anthropic.com) open_in_new

Coworker AI

Defensa contra inyección de prompts: Protege tu espacio de trabajo con IA.

Panorama de amenazas

Inyección indirecta de prompts

Vulnerabilidades en servidores MCP

Riesgo de exfiltración de datos

Incidentes reales (enero de 2026)

PromptArmor revela exfiltración de archivos en Cowork

Tres fallos críticos en el servidor Git MCP

Respuesta de toda la industria

La "tríada letal"

Acceso a datos privados

Ejecución de acciones

Contenido no confiable

Arquitectura de defensa de Cowork

Aislamiento en VM

Lista blanca de red

Sistema de permisos

Clasificadores de contenido

Salvaguardas RLHF

10 buenas prácticas de seguridad

Restringe el acceso a carpetas

Verifica archivos no confiables

Mantén los servidores MCP actualizados

Usa entornos aislados

Protege los secretos

Restringe el acceso a la red

Usa reglas de denegación

Monitorea la actividad

Aplica el principio de mínimo privilegio

Mantén copias de seguridad

Lista de verificación de seguridad MCP

Recursos relacionados

Guía de configuración de seguridad

Guía de instalación de MCP

Cowork vs Claude Code

La seguridad comienza con la conciencia.