shield Pesquisa de segurança

Defesa contra injeção de prompt: Protegendo seu espaço de trabalho com IA.

Entenda as ameaças de injeção de prompt, incidentes reais e como a arquitetura de segurança em camadas do Claude Cowork mantém seus dados protegidos.

Última atualização: fevereiro de 2026

O cenário de ameaças

Agentes de IA enfrentam desafios de segurança únicos que softwares tradicionais não conhecem.

description

Critical

Injeção de prompt indireta

Instruções maliciosas escondidas em documentos, e-mails ou páginas web que induzem o agente de IA a executar ações não previstas ao processar o conteúdo.

extension

High

Vulnerabilidades em servidores MCP

Servidores MCP de terceiros podem conter falhas de segurança — como validação de entrada insuficiente — que permitem acesso arbitrário a arquivos, exclusão ou execução remota de código.

cloud_upload

High

Risco de vazamento de dados

Uma sessão de IA comprometida com acesso à internet poderia enviar o conteúdo de arquivos sensíveis para servidores controlados pelo atacante através de requisições forjadas.

Incidentes reais (janeiro de 2026)

Uma linha do tempo dos eventos de segurança que moldaram o cenário atual de ameaças para agentes de IA desktop.

bug_report

15 jan. 2026

PromptArmor revela vazamento de arquivos no Cowork

Pesquisadores de segurança demonstraram que injeções de prompt ocultas em documentos podiam instruir o Cowork a ler arquivos sensíveis e enviá-los para servidores externos. A vulnerabilidade foi reportada pela primeira vez em outubro de 2025 para a API Files do Claude.

code

20 jan. 2026

Três falhas críticas no servidor Git MCP

A empresa de cibersegurança Cyata descobriu vulnerabilidades de leitura arbitrária de arquivos, exclusão de arquivos e execução remota de código no servidor oficial mcp-server-git da Anthropic. Corrigido na versão 2025.12.

Corrigido

public

28 jan. 2026

Resposta da indústria

A OWASP atualizou seu Top 10 de riscos de IA colocando injeção de prompt e 'sequestro de objetivo do agente' no topo. A MIT Technology Review publicou: 'Regras falham no prompt, funcionam na fronteira.'

A "tríade letal"

O pesquisador de segurança Simon Willison identificou três fatores que, combinados, criam o maior risco para sistemas de agentes de IA:

folder_open

Acesso a dados privados

O agente pode ler arquivos sensíveis, credenciais e informações pessoais no seu sistema.

play_circle

Execução de ações

O agente pode escrever arquivos, executar comandos, fazer requisições de rede e interagir com serviços externos.

warning

Conteúdo não confiável

O agente processa documentos, páginas web ou e-mails que podem conter instruções maliciosas ocultas.

priority_high Minimizar a sobreposição desses três fatores é o princípio fundamental de toda segurança eficaz para agentes de IA.

Arquitetura de defesa do Cowork

O Claude Cowork emprega múltiplas camadas de proteção, desde isolamento de hardware até salvaguardas no nível do modelo.

memory

Isolamento em VM

O Cowork roda dentro de uma VM dedicada usando tecnologia de virtualização nativa do macOS e do Windows. Mesmo se comprometido, o agente não consegue escapar da fronteira da VM nem acessar pastas não montadas.

wifi_off

Lista de permissão de rede

Todo o tráfego de saída passa por um proxy com lista de domínios permitidos. URLs arbitrárias são bloqueadas por padrão, impedindo vazamento não autorizado de dados.

admin_panel_settings

Sistema de permissões

Três tipos de regras — Permitir, Perguntar e Negar — controlam quais ações o agente pode executar. Escrita de arquivos, comandos bash e uso de ferramentas MCP exigem aprovação explícita.

security

Classificadores de conteúdo

Classificadores dedicados analisam conteúdo não confiável em busca de padrões de injeção de prompt antes que o agente o processe, detectando instruções ocultas em documentos e páginas web.

psychology

Salvaguardas RLHF

O Claude é treinado por Aprendizado por Reforço com Feedback Humano para reconhecer e recusar instruções maliciosas. Cada geração do modelo mostra melhoria mensurável na resistência a injeções.

10 boas práticas de segurança

Medidas práticas para reduzir riscos ao usar agentes de IA desktop.

folder_off

Restringir acesso a pastas

Dê ao Cowork acesso apenas a pastas de trabalho específicas. Nunca monte seu diretório home, chaves SSH ou cofres de credenciais.

scan_delete

Verificar arquivos não confiáveis

Não deixe o Cowork processar documentos de fontes desconhecidas. Arquivos podem conter injeções de prompt invisíveis usando texto oculto ou truques Unicode.

update

Manter servidores MCP atualizados

As vulnerabilidades do servidor Git MCP mostram que servidores MCP podem ter falhas críticas. Use sempre as versões mais recentes.

docker

Usar ambientes sandboxed

Ative o runtime sandbox do Claude Code ou use contêineres Docker para isolamento adicional além da VM padrão.

key_off

Proteger segredos

Armazene chaves de API e tokens em variáveis de ambiente, não no código-fonte ou nos prompts. Mantenha credenciais fora dos arquivos de configuração MCP quando possível.

lan

Restringir acesso à rede

Use listas de domínios permitidos para conexões de saída. Bloqueie URLs arbitrárias por padrão para impedir vazamento de dados.

block

Usar regras de negação

Configure regras Deny para operações perigosas. Não autorize todas as ferramentas MCP de uma vez — aprove cada uma individualmente.

monitoring

Monitorar atividade

Acompanhe o log de atividades em tempo real durante as sessões. Fique atento a acessos inesperados a arquivos, requisições de rede incomuns ou padrões de comportamento anômalos.

shield

Aplicar o mínimo privilégio

Conceda apenas as permissões mínimas necessárias para cada tarefa. Revogue o acesso quando a tarefa for concluída.

backup

Manter backups

Faça backup de arquivos importantes antes de deixar qualquer agente de IA modificá-los. O sandbox protege seu sistema operacional, mas não os dados dentro das pastas autorizadas.

Checklist de segurança MCP

Medidas de segurança específicas para integrações de servidores MCP (Model Context Protocol).

check_circle

Instale apenas servidores MCP de fontes verificadas (pacotes oficiais da Anthropic ou desenvolvedores confiáveis)

check_circle

Revise o código-fonte ou a documentação do servidor antes da instalação

check_circle

Mantenha todos os servidores MCP atualizados — patches de segurança são lançados com frequência

check_circle

Use variáveis de ambiente para chaves de API em vez de codificá-las diretamente no claude_desktop_config.json

check_circle

Limite o escopo de cada servidor MCP ao mínimo necessário (ex.: restringir o servidor de filesystem a diretórios específicos)

check_circle

Monitore os logs dos servidores MCP em busca de operações ou padrões de acesso inesperados

check_circle

Remova servidores MCP não utilizados da sua configuração para reduzir a superfície de ataque

Recursos relacionados

verified_user

Segurança começa com consciência.

Fique por dentro das práticas mais recentes de segurança para agentes de IA. Configure seu espaço de trabalho com princípios de defesa em profundidade.

Ler o guia de segurança Ver Anthropic Enterprise (anthropic.com) open_in_new

Coworker AI

Defesa contra injeção de prompt: Protegendo seu espaço de trabalho com IA.

O cenário de ameaças

Injeção de prompt indireta

Vulnerabilidades em servidores MCP

Risco de vazamento de dados

Incidentes reais (janeiro de 2026)

PromptArmor revela vazamento de arquivos no Cowork

Três falhas críticas no servidor Git MCP

Resposta da indústria

A "tríade letal"

Acesso a dados privados

Execução de ações

Conteúdo não confiável

Arquitetura de defesa do Cowork

Isolamento em VM

Lista de permissão de rede

Sistema de permissões

Classificadores de conteúdo

Salvaguardas RLHF

10 boas práticas de segurança

Restringir acesso a pastas

Verificar arquivos não confiáveis

Manter servidores MCP atualizados

Usar ambientes sandboxed

Proteger segredos

Restringir acesso à rede

Usar regras de negação

Monitorar atividade

Aplicar o mínimo privilégio

Manter backups

Checklist de segurança MCP

Recursos relacionados

Guia de configuração de segurança

Guia de instalação MCP

Cowork vs Claude Code

Segurança começa com consciência.