Defesa contra injeção de prompt: Protegendo seu espaço de trabalho com IA.
Entenda as ameaças de injeção de prompt, incidentes reais e como a arquitetura de segurança em camadas do Claude Cowork mantém seus dados protegidos.
Última atualização: fevereiro de 2026
O cenário de ameaças
Agentes de IA enfrentam desafios de segurança únicos que softwares tradicionais não conhecem.
Injeção de prompt indireta
Instruções maliciosas escondidas em documentos, e-mails ou páginas web que induzem o agente de IA a executar ações não previstas ao processar o conteúdo.
Vulnerabilidades em servidores MCP
Servidores MCP de terceiros podem conter falhas de segurança — como validação de entrada insuficiente — que permitem acesso arbitrário a arquivos, exclusão ou execução remota de código.
Risco de vazamento de dados
Uma sessão de IA comprometida com acesso à internet poderia enviar o conteúdo de arquivos sensíveis para servidores controlados pelo atacante através de requisições forjadas.
Incidentes reais (janeiro de 2026)
Uma linha do tempo dos eventos de segurança que moldaram o cenário atual de ameaças para agentes de IA desktop.
15 jan. 2026
PromptArmor revela vazamento de arquivos no Cowork
Pesquisadores de segurança demonstraram que injeções de prompt ocultas em documentos podiam instruir o Cowork a ler arquivos sensíveis e enviá-los para servidores externos. A vulnerabilidade foi reportada pela primeira vez em outubro de 2025 para a API Files do Claude.
20 jan. 2026
Três falhas críticas no servidor Git MCP
A empresa de cibersegurança Cyata descobriu vulnerabilidades de leitura arbitrária de arquivos, exclusão de arquivos e execução remota de código no servidor oficial mcp-server-git da Anthropic. Corrigido na versão 2025.12.
Corrigido28 jan. 2026
Resposta da indústria
A OWASP atualizou seu Top 10 de riscos de IA colocando injeção de prompt e 'sequestro de objetivo do agente' no topo. A MIT Technology Review publicou: 'Regras falham no prompt, funcionam na fronteira.'
A "tríade letal"
O pesquisador de segurança Simon Willison identificou três fatores que, combinados, criam o maior risco para sistemas de agentes de IA:
Acesso a dados privados
O agente pode ler arquivos sensíveis, credenciais e informações pessoais no seu sistema.
+Execução de ações
O agente pode escrever arquivos, executar comandos, fazer requisições de rede e interagir com serviços externos.
+Conteúdo não confiável
O agente processa documentos, páginas web ou e-mails que podem conter instruções maliciosas ocultas.
Arquitetura de defesa do Cowork
O Claude Cowork emprega múltiplas camadas de proteção, desde isolamento de hardware até salvaguardas no nível do modelo.
Isolamento em VM
O Cowork roda dentro de uma VM dedicada usando tecnologia de virtualização nativa do macOS e do Windows. Mesmo se comprometido, o agente não consegue escapar da fronteira da VM nem acessar pastas não montadas.
Lista de permissão de rede
Todo o tráfego de saída passa por um proxy com lista de domínios permitidos. URLs arbitrárias são bloqueadas por padrão, impedindo vazamento não autorizado de dados.
Sistema de permissões
Três tipos de regras — Permitir, Perguntar e Negar — controlam quais ações o agente pode executar. Escrita de arquivos, comandos bash e uso de ferramentas MCP exigem aprovação explícita.
Classificadores de conteúdo
Classificadores dedicados analisam conteúdo não confiável em busca de padrões de injeção de prompt antes que o agente o processe, detectando instruções ocultas em documentos e páginas web.
Salvaguardas RLHF
O Claude é treinado por Aprendizado por Reforço com Feedback Humano para reconhecer e recusar instruções maliciosas. Cada geração do modelo mostra melhoria mensurável na resistência a injeções.
10 boas práticas de segurança
Medidas práticas para reduzir riscos ao usar agentes de IA desktop.
Restringir acesso a pastas
Dê ao Cowork acesso apenas a pastas de trabalho específicas. Nunca monte seu diretório home, chaves SSH ou cofres de credenciais.
Verificar arquivos não confiáveis
Não deixe o Cowork processar documentos de fontes desconhecidas. Arquivos podem conter injeções de prompt invisíveis usando texto oculto ou truques Unicode.
Manter servidores MCP atualizados
As vulnerabilidades do servidor Git MCP mostram que servidores MCP podem ter falhas críticas. Use sempre as versões mais recentes.
Usar ambientes sandboxed
Ative o runtime sandbox do Claude Code ou use contêineres Docker para isolamento adicional além da VM padrão.
Proteger segredos
Armazene chaves de API e tokens em variáveis de ambiente, não no código-fonte ou nos prompts. Mantenha credenciais fora dos arquivos de configuração MCP quando possível.
Restringir acesso à rede
Use listas de domínios permitidos para conexões de saída. Bloqueie URLs arbitrárias por padrão para impedir vazamento de dados.
Usar regras de negação
Configure regras Deny para operações perigosas. Não autorize todas as ferramentas MCP de uma vez — aprove cada uma individualmente.
Monitorar atividade
Acompanhe o log de atividades em tempo real durante as sessões. Fique atento a acessos inesperados a arquivos, requisições de rede incomuns ou padrões de comportamento anômalos.
Aplicar o mínimo privilégio
Conceda apenas as permissões mínimas necessárias para cada tarefa. Revogue o acesso quando a tarefa for concluída.
Manter backups
Faça backup de arquivos importantes antes de deixar qualquer agente de IA modificá-los. O sandbox protege seu sistema operacional, mas não os dados dentro das pastas autorizadas.
Checklist de segurança MCP
Medidas de segurança específicas para integrações de servidores MCP (Model Context Protocol).
Instale apenas servidores MCP de fontes verificadas (pacotes oficiais da Anthropic ou desenvolvedores confiáveis)
Revise o código-fonte ou a documentação do servidor antes da instalação
Mantenha todos os servidores MCP atualizados — patches de segurança são lançados com frequência
Use variáveis de ambiente para chaves de API em vez de codificá-las diretamente no claude_desktop_config.json
Limite o escopo de cada servidor MCP ao mínimo necessário (ex.: restringir o servidor de filesystem a diretórios específicos)
Monitore os logs dos servidores MCP em busca de operações ou padrões de acesso inesperados
Remova servidores MCP não utilizados da sua configuração para reduzir a superfície de ataque
Segurança começa com consciência.
Fique por dentro das práticas mais recentes de segurança para agentes de IA. Configure seu espaço de trabalho com princípios de defesa em profundidade.