프롬프트 인젝션 방어: AI 작업 공간을 지키다.
프롬프트 인젝션 위협, 실제 보안 사고, 그리고 Claude Cowork의 다층 보안 아키텍처가 어떻게 데이터를 보호하는지 알아보세요.
최종 업데이트: 2026년 2월
위협 현황
AI 에이전트는 기존 소프트웨어에서는 볼 수 없었던 고유한 보안 과제에 직면합니다.
간접 프롬프트 인젝션
문서, 이메일, 웹페이지에 숨겨진 악성 지시가 AI 에이전트의 콘텐츠 처리 시 의도하지 않은 동작을 유발합니다.
MCP 서버 취약점
서드파티 MCP 서버에 입력 검증 부족 등의 보안 결함이 있어 임의 파일 접근, 삭제, 원격 코드 실행이 가능할 수 있습니다.
데이터 유출 위험
웹 접근 권한이 있는 침해된 AI 세션이 조작된 요청을 통해 민감한 파일 내용을 공격자 서버로 전송할 수 있습니다.
실제 보안 사고 (2026년 1월)
AI 데스크톱 에이전트의 현재 위협 환경을 형성한 보안 사건들의 타임라인.
2026년 1월 15일
PromptArmor, Cowork 파일 유출 취약점 공개
보안 연구원들이 문서에 숨겨진 프롬프트 인젝션으로 Cowork가 민감한 파일을 읽어 외부 서버로 전송할 수 있음을 시연했습니다. 이 취약점은 2025년 10월 Claude Files API에서 처음 보고되었습니다.
2026년 1월 20일
Git MCP 서버에서 3개의 치명적 결함 발견
사이버보안 기업 Cyata가 Anthropic 공식 mcp-server-git에서 임의 파일 읽기, 파일 삭제, 원격 코드 실행 취약점을 발견했습니다. 버전 2025.12에서 수정되었습니다.
패치 완료2026년 1월 28일
업계 전반의 대응
OWASP가 AI 10대 위험 목록을 업데이트하여 프롬프트 인젝션과 '에이전트 목표 탈취'를 최상위에 배치했습니다. MIT Technology Review는 '규칙은 프롬프트 계층에서 실패하고 경계 계층에서 성공한다'고 보도했습니다.
"치명적 삼각형"
보안 연구원 Simon Willison은 다음 세 가지 요소가 결합될 때 AI 에이전트 시스템의 위험이 최대화된다고 지적했습니다:
민감 데이터 접근
에이전트가 시스템의 민감한 파일, 인증 정보, 개인 정보를 읽을 수 있는 상태.
+작업 실행 권한
에이전트가 파일 쓰기, 명령 실행, 네트워크 요청, 외부 서비스 연동을 수행할 수 있는 상태.
+신뢰할 수 없는 콘텐츠
에이전트가 처리하는 문서, 웹페이지, 이메일에 숨겨진 악성 지시가 포함되어 있을 가능성.
Cowork의 방어 아키텍처
Claude Cowork는 하드웨어 격리부터 모델 수준의 안전 장치까지 다층적 보호를 적용합니다.
VM 격리
Cowork는 Apple Virtualization Framework 기반의 전용 Linux VM에서 실행됩니다. 침해되더라도 에이전트는 VM 경계를 벗어나거나 마운트되지 않은 폴더에 접근할 수 없습니다.
네트워크 화이트리스트
모든 아웃바운드 트래픽은 도메인 화이트리스트 프록시를 거칩니다. 임의 URL은 기본적으로 차단되어 무단 데이터 유출을 방지합니다.
권한 관리 시스템
허용, 확인, 거부의 세 가지 규칙으로 에이전트의 동작을 제어합니다. 파일 쓰기, bash 명령, MCP 도구 사용 모두 명시적 승인이 필요합니다.
콘텐츠 분류기
전용 분류기가 에이전트 처리 전에 신뢰할 수 없는 콘텐츠의 프롬프트 인젝션 패턴을 스캔하여 문서와 웹페이지의 숨겨진 지시를 탐지합니다.
RLHF 안전 장치
Claude는 인간 피드백 강화학습을 통해 악성 지시를 인식하고 거부하도록 훈련되었습니다. 모델 세대마다 인젝션 저항력이 측정 가능하게 향상됩니다.
10가지 보안 모범 사례
AI 데스크톱 에이전트 사용 시 위험을 최소화하는 실용적인 단계.
폴더 접근 제한
Cowork에는 특정 작업 폴더만 접근을 허용하세요. 홈 디렉토리, SSH 키, 인증 정보 저장소는 절대 마운트하지 마세요.
신뢰할 수 없는 파일 검증
출처를 알 수 없는 문서를 Cowork에 처리시키지 마세요. 파일에 숨겨진 텍스트나 유니코드 트릭을 이용한 프롬프트 인젝션이 포함되어 있을 수 있습니다.
MCP 서버 최신 상태 유지
Git MCP 서버 취약점이 보여주듯 MCP 서버에는 치명적 결함이 있을 수 있습니다. 항상 최신 버전을 사용하세요.
샌드박스 환경 사용
Claude Code의 샌드박스 런타임을 활성화하거나 Docker 컨테이너를 사용하여 기본 VM 외에 추가 격리를 확보하세요.
시크릿 보호
API 키와 토큰은 소스 코드나 프롬프트가 아닌 환경 변수에 저장하세요. MCP 설정 파일에 인증 정보를 하드코딩하지 마세요.
네트워크 접근 제한
아웃바운드 연결에 도메인 화이트리스트를 설정하세요. 데이터 유출 방지를 위해 임의 URL은 기본적으로 차단하세요.
거부 규칙 활용
위험한 작업에는 거부 규칙을 설정하세요. 모든 MCP 도구를 일괄 허용하지 말고 개별적으로 승인하세요.
활동 모니터링
세션 중 실시간 활동 로그를 확인하세요. 예상치 못한 파일 접근, 비정상적인 네트워크 요청, 이상 행동 패턴에 주의하세요.
최소 권한 원칙 적용
각 작업에 필요한 최소한의 권한만 부여하세요. 작업 완료 후에는 접근 권한을 회수하세요.
백업 유지
AI 에이전트에 파일 수정을 맡기기 전에 중요한 파일을 백업하세요. 샌드박스는 OS를 보호하지만 허용된 폴더 내 데이터는 보호하지 않습니다.
MCP 보안 체크리스트
MCP(Model Context Protocol) 서버 연동을 위한 전용 보안 조치.
검증된 소스(Anthropic 공식 패키지 또는 신뢰할 수 있는 개발자)의 MCP 서버만 설치하세요
설치 전 서버의 소스 코드 또는 문서를 검토하세요
모든 MCP 서버를 최신 버전으로 유지하세요—보안 패치가 자주 배포됩니다
API 키는 claude_desktop_config.json에 하드코딩하지 말고 환경 변수를 사용하세요
각 MCP 서버의 범위를 필요 최소한으로 제한하세요(예: 파일시스템 서버를 특정 디렉토리로 한정)
MCP 서버 로그를 모니터링하여 예상치 못한 작업이나 접근 패턴을 감지하세요
사용하지 않는 MCP 서버는 설정에서 제거하여 공격 표면을 줄이세요