shield 보안 연구

프롬프트 인젝션 방어: AI 작업 공간을 지키다.

프롬프트 인젝션 위협, 실제 보안 사고, 그리고 Claude Cowork의 다층 보안 아키텍처가 어떻게 데이터를 보호하는지 알아보세요.

최종 업데이트: 2026년 2월

위협 현황

AI 에이전트는 기존 소프트웨어에서는 볼 수 없었던 고유한 보안 과제에 직면합니다.

description

심각

간접 프롬프트 인젝션

문서, 이메일, 웹페이지에 숨겨진 악성 지시가 AI 에이전트의 콘텐츠 처리 시 의도하지 않은 동작을 유발합니다.

extension

높음

MCP 서버 취약점

서드파티 MCP 서버에 입력 검증 부족 등의 보안 결함이 있어 임의 파일 접근, 삭제, 원격 코드 실행이 가능할 수 있습니다.

cloud_upload

높음

데이터 유출 위험

웹 접근 권한이 있는 침해된 AI 세션이 조작된 요청을 통해 민감한 파일 내용을 공격자 서버로 전송할 수 있습니다.

실제 보안 사고 (2026년 1월)

AI 데스크톱 에이전트의 현재 위협 환경을 형성한 보안 사건들의 타임라인.

bug_report

2026년 1월 15일

PromptArmor, Cowork 파일 유출 취약점 공개

보안 연구원들이 문서에 숨겨진 프롬프트 인젝션으로 Cowork가 민감한 파일을 읽어 외부 서버로 전송할 수 있음을 시연했습니다. 이 취약점은 2025년 10월 Claude Files API에서 처음 보고되었습니다.

code

2026년 1월 20일

Git MCP 서버에서 3개의 치명적 결함 발견

사이버보안 기업 Cyata가 Anthropic 공식 mcp-server-git에서 임의 파일 읽기, 파일 삭제, 원격 코드 실행 취약점을 발견했습니다. 버전 2025.12에서 수정되었습니다.

패치 완료

public

2026년 1월 28일

업계 전반의 대응

OWASP가 AI 10대 위험 목록을 업데이트하여 프롬프트 인젝션과 '에이전트 목표 탈취'를 최상위에 배치했습니다. MIT Technology Review는 '규칙은 프롬프트 계층에서 실패하고 경계 계층에서 성공한다'고 보도했습니다.

"치명적 삼각형"

보안 연구원 Simon Willison은 다음 세 가지 요소가 결합될 때 AI 에이전트 시스템의 위험이 최대화된다고 지적했습니다:

folder_open

민감 데이터 접근

에이전트가 시스템의 민감한 파일, 인증 정보, 개인 정보를 읽을 수 있는 상태.

play_circle

작업 실행 권한

에이전트가 파일 쓰기, 명령 실행, 네트워크 요청, 외부 서비스 연동을 수행할 수 있는 상태.

warning

신뢰할 수 없는 콘텐츠

에이전트가 처리하는 문서, 웹페이지, 이메일에 숨겨진 악성 지시가 포함되어 있을 가능성.

priority_high 이 세 요소의 겹침을 최소화하는 것이 효과적인 AI 에이전트 보안의 핵심 원칙입니다.

Cowork의 방어 아키텍처

Claude Cowork는 하드웨어 격리부터 모델 수준의 안전 장치까지 다층적 보호를 적용합니다.

memory

VM 격리

Cowork는 Apple Virtualization Framework 기반의 전용 Linux VM에서 실행됩니다. 침해되더라도 에이전트는 VM 경계를 벗어나거나 마운트되지 않은 폴더에 접근할 수 없습니다.

wifi_off

네트워크 화이트리스트

모든 아웃바운드 트래픽은 도메인 화이트리스트 프록시를 거칩니다. 임의 URL은 기본적으로 차단되어 무단 데이터 유출을 방지합니다.

admin_panel_settings

권한 관리 시스템

허용, 확인, 거부의 세 가지 규칙으로 에이전트의 동작을 제어합니다. 파일 쓰기, bash 명령, MCP 도구 사용 모두 명시적 승인이 필요합니다.

security

콘텐츠 분류기

전용 분류기가 에이전트 처리 전에 신뢰할 수 없는 콘텐츠의 프롬프트 인젝션 패턴을 스캔하여 문서와 웹페이지의 숨겨진 지시를 탐지합니다.

psychology

RLHF 안전 장치

Claude는 인간 피드백 강화학습을 통해 악성 지시를 인식하고 거부하도록 훈련되었습니다. 모델 세대마다 인젝션 저항력이 측정 가능하게 향상됩니다.

10가지 보안 모범 사례

AI 데스크톱 에이전트 사용 시 위험을 최소화하는 실용적인 단계.

folder_off

폴더 접근 제한

Cowork에는 특정 작업 폴더만 접근을 허용하세요. 홈 디렉토리, SSH 키, 인증 정보 저장소는 절대 마운트하지 마세요.

scan_delete

신뢰할 수 없는 파일 검증

출처를 알 수 없는 문서를 Cowork에 처리시키지 마세요. 파일에 숨겨진 텍스트나 유니코드 트릭을 이용한 프롬프트 인젝션이 포함되어 있을 수 있습니다.

update

MCP 서버 최신 상태 유지

Git MCP 서버 취약점이 보여주듯 MCP 서버에는 치명적 결함이 있을 수 있습니다. 항상 최신 버전을 사용하세요.

docker

샌드박스 환경 사용

Claude Code의 샌드박스 런타임을 활성화하거나 Docker 컨테이너를 사용하여 기본 VM 외에 추가 격리를 확보하세요.

key_off

시크릿 보호

API 키와 토큰은 소스 코드나 프롬프트가 아닌 환경 변수에 저장하세요. MCP 설정 파일에 인증 정보를 하드코딩하지 마세요.

lan

네트워크 접근 제한

아웃바운드 연결에 도메인 화이트리스트를 설정하세요. 데이터 유출 방지를 위해 임의 URL은 기본적으로 차단하세요.

block

거부 규칙 활용

위험한 작업에는 거부 규칙을 설정하세요. 모든 MCP 도구를 일괄 허용하지 말고 개별적으로 승인하세요.

monitoring

활동 모니터링

세션 중 실시간 활동 로그를 확인하세요. 예상치 못한 파일 접근, 비정상적인 네트워크 요청, 이상 행동 패턴에 주의하세요.

shield

최소 권한 원칙 적용

각 작업에 필요한 최소한의 권한만 부여하세요. 작업 완료 후에는 접근 권한을 회수하세요.

backup

백업 유지

AI 에이전트에 파일 수정을 맡기기 전에 중요한 파일을 백업하세요. 샌드박스는 OS를 보호하지만 허용된 폴더 내 데이터는 보호하지 않습니다.

MCP 보안 체크리스트

MCP(Model Context Protocol) 서버 연동을 위한 전용 보안 조치.

check_circle

검증된 소스(Anthropic 공식 패키지 또는 신뢰할 수 있는 개발자)의 MCP 서버만 설치하세요

check_circle

설치 전 서버의 소스 코드 또는 문서를 검토하세요

check_circle

모든 MCP 서버를 최신 버전으로 유지하세요—보안 패치가 자주 배포됩니다

check_circle

API 키는 claude_desktop_config.json에 하드코딩하지 말고 환경 변수를 사용하세요

check_circle

각 MCP 서버의 범위를 필요 최소한으로 제한하세요(예: 파일시스템 서버를 특정 디렉토리로 한정)

check_circle

MCP 서버 로그를 모니터링하여 예상치 못한 작업이나 접근 패턴을 감지하세요

check_circle

사용하지 않는 MCP 서버는 설정에서 제거하여 공격 표면을 줄이세요

보안은 인식에서 시작됩니다.

최신 AI 에이전트 보안 사례를 파악하세요. 심층 방어 원칙으로 작업 공간을 구성하세요.

보안 설정 가이드 읽기 Anthropic Enterprise 보기 (anthropic.com) open_in_new

Coworker AI

프롬프트 인젝션 방어: AI 작업 공간을 지키다.

위협 현황

간접 프롬프트 인젝션

MCP 서버 취약점

데이터 유출 위험

실제 보안 사고 (2026년 1월)

PromptArmor, Cowork 파일 유출 취약점 공개

Git MCP 서버에서 3개의 치명적 결함 발견

업계 전반의 대응

"치명적 삼각형"

민감 데이터 접근

작업 실행 권한

신뢰할 수 없는 콘텐츠

Cowork의 방어 아키텍처

VM 격리

네트워크 화이트리스트

권한 관리 시스템

콘텐츠 분류기

RLHF 안전 장치

10가지 보안 모범 사례

폴더 접근 제한

신뢰할 수 없는 파일 검증

MCP 서버 최신 상태 유지

샌드박스 환경 사용

시크릿 보호

네트워크 접근 제한

거부 규칙 활용

활동 모니터링

최소 권한 원칙 적용

백업 유지

MCP 보안 체크리스트

관련 리소스

보안 설정 가이드

MCP 설치 가이드

Cowork vs Claude Code

보안은 인식에서 시작됩니다.