shield Badania bezpieczeństwa

Ochrona przed wstrzykiwaniem promptów: Bezpieczeństwo Twojego środowiska AI.

Poznaj zagrożenia związane z wstrzykiwaniem promptów, rzeczywiste incydenty oraz wielowarstwową architekturę bezpieczeństwa Claude Cowork chroniącą Twoje dane.

Ostatnia aktualizacja: luty 2026

Krajobraz zagrożeń

Agenci AI mierzą się z unikalnymi wyzwaniami bezpieczeństwa, nieznanymi tradycyjnemu oprogramowaniu.

description

Critical

Pośrednie wstrzykiwanie promptów

Złośliwe instrukcje ukryte w dokumentach, e-mailach lub stronach internetowych, które nakłaniają agenta AI do wykonywania niezamierzonych działań podczas przetwarzania treści.

extension

High

Luki w serwerach MCP

Serwery MCP firm trzecich mogą zawierać luki bezpieczeństwa — np. niewystarczającą walidację danych wejściowych — umożliwiające dowolny dostęp do plików, ich usuwanie lub zdalne wykonywanie kodu.

cloud_upload

High

Ryzyko wycieku danych

Skompromitowana sesja AI z dostępem do internetu może wysłać zawartość poufnych plików na serwery atakującego za pomocą spreparowanych żądań.

Rzeczywiste incydenty (styczeń 2026)

Chronologia zdarzeń bezpieczeństwa, które ukształtowały obecny krajobraz zagrożeń dla desktopowych agentów AI.

bug_report

15 sty. 2026

PromptArmor ujawnia wyciek plików z Cowork

Badacze bezpieczeństwa wykazali, że ukryte wstrzyknięcia promptów w dokumentach mogły nakazać Cowork odczytanie poufnych plików i wysłanie ich na zewnętrzne serwery. Luka została po raz pierwszy zgłoszona w październiku 2025 dla Files API Claude.

code

20 sty. 2026

Trzy krytyczne luki w serwerze Git MCP

Firma cyberbezpieczeństwa Cyata odkryła luki umożliwiające dowolny odczyt plików, usuwanie plików i zdalne wykonywanie kodu w oficjalnym serwerze mcp-server-git firmy Anthropic. Naprawiono w wersji 2025.12.

Naprawiono

public

28 sty. 2026

Reakcja branży

OWASP zaktualizował swoją listę Top 10 zagrożeń AI, umieszczając wstrzykiwanie promptów i „przejęcie celu agenta” na pierwszym miejscu. MIT Technology Review opublikował: „Reguły zawodzą na poziomie promptu, działają na granicy.”

„Śmiertelna triada”

Badacz bezpieczeństwa Simon Willison zidentyfikował trzy czynniki, które w połączeniu tworzą najwyższe ryzyko dla systemów agentów AI:

folder_open

Dostęp do prywatnych danych

Agent może odczytywać poufne pliki, dane uwierzytelniające i informacje osobiste w Twoim systemie.

play_circle

Wykonywanie działań

Agent może zapisywać pliki, wykonywać polecenia, wysyłać żądania sieciowe i komunikować się z zewnętrznymi usługami.

warning

Niezaufane treści

Agent przetwarza dokumenty, strony internetowe lub e-maile, które mogą zawierać ukryte złośliwe instrukcje.

priority_high Minimalizowanie nakładania się tych trzech czynników to kluczowa zasada skutecznego zabezpieczania agentów AI.

Architektura obrony Cowork

Claude Cowork stosuje wiele warstw ochrony — od izolacji sprzętowej po zabezpieczenia na poziomie modelu.

memory

Izolacja VM

Cowork działa w dedykowanej maszynie wirtualnej Linux opartej na frameworku wirtualizacji Apple. Nawet w przypadku kompromitacji agent nie może przekroczyć granicy VM ani uzyskać dostępu do niepodłączonych folderów.

wifi_off

Biała lista sieci

Cały ruch wychodzący przechodzi przez proxy z białą listą domen. Dowolne adresy URL są domyślnie blokowane, co zapobiega nieautoryzowanemu wyciekowi danych.

admin_panel_settings

System uprawnień

Trzy typy reguł — Zezwól, Zapytaj i Odmów — kontrolują działania agenta. Zapis plików, polecenia bash i korzystanie z narzędzi MCP wymagają wyraźnej zgody.

security

Klasyfikatory treści

Dedykowane klasyfikatory skanują niezaufane treści pod kątem wzorców wstrzykiwania promptów, zanim agent je przetworzy, wykrywając ukryte instrukcje w dokumentach i stronach internetowych.

psychology

Zabezpieczenia RLHF

Claude jest trenowany metodą uczenia ze wzmocnieniem na podstawie ludzkiej informacji zwrotnej, aby rozpoznawać i odrzucać złośliwe instrukcje. Każda generacja modelu wykazuje mierzalną poprawę odporności na wstrzykiwanie.

10 najlepszych praktyk bezpieczeństwa

Konkretne kroki minimalizujące ryzyko przy korzystaniu z desktopowych agentów AI.

folder_off

Ogranicz dostęp do folderów

Przyznaj Cowork dostęp tylko do konkretnych folderów roboczych. Nigdy nie podłączaj katalogu domowego, kluczy SSH ani magazynów poświadczeń.

scan_delete

Weryfikuj niezaufane pliki

Nie pozwalaj Cowork przetwarzać dokumentów z nieznanych źródeł. Pliki mogą zawierać niewidoczne wstrzyknięcia promptów za pomocą ukrytego tekstu lub sztuczek Unicode.

update

Aktualizuj serwery MCP

Luki w serwerze Git MCP pokazują, że serwery MCP mogą mieć krytyczne wady. Zawsze korzystaj z najnowszych wersji.

docker

Korzystaj ze środowisk sandbox

Włącz środowisko sandbox Claude Code lub użyj kontenerów Docker dla dodatkowej izolacji wykraczającej poza standardową VM.

key_off

Chroń sekrety

Przechowuj klucze API i tokeny w zmiennych środowiskowych, nie w kodzie źródłowym ani promptach. W miarę możliwości nie umieszczaj poświadczeń w plikach konfiguracyjnych MCP.

lan

Ogranicz dostęp do sieci

Używaj białych list domen dla połączeń wychodzących. Domyślnie blokuj dowolne adresy URL, aby zapobiec wyciekowi danych.

block

Stosuj reguły odmowy

Skonfiguruj reguły Deny dla niebezpiecznych operacji. Nie zezwalaj na wszystkie narzędzia MCP hurtowo — zatwierdzaj każde z osobna.

monitoring

Monitoruj aktywność

Obserwuj dziennik aktywności w czasie rzeczywistym podczas sesji. Zwracaj uwagę na nieoczekiwany dostęp do plików, nietypowe żądania sieciowe lub anomalne wzorce zachowań.

shield

Stosuj zasadę minimalnych uprawnień

Przyznawaj tylko minimalne uprawnienia potrzebne do każdego zadania. Cofaj dostęp po zakończeniu pracy.

backup

Twórz kopie zapasowe

Wykonaj kopię zapasową ważnych plików, zanim pozwolisz agentowi AI je modyfikować. Sandbox chroni system operacyjny, ale nie dane w udostępnionych folderach.

Lista kontrolna bezpieczeństwa MCP

Konkretne środki bezpieczeństwa dla integracji serwerów MCP (Model Context Protocol).

check_circle

Instaluj serwery MCP wyłącznie ze zweryfikowanych źródeł (oficjalne pakiety Anthropic lub zaufani deweloperzy)

check_circle

Przejrzyj kod źródłowy lub dokumentację serwera przed instalacją

check_circle

Utrzymuj wszystkie serwery MCP w najnowszej wersji — łatki bezpieczeństwa są wydawane regularnie

check_circle

Używaj zmiennych środowiskowych dla kluczy API zamiast wpisywać je na stałe w claude_desktop_config.json

check_circle

Ogranicz zakres każdego serwera MCP do minimum (np. serwer systemu plików tylko do konkretnych katalogów)

check_circle

Monitoruj logi serwerów MCP pod kątem nieoczekiwanych operacji lub wzorców dostępu

check_circle

Usuń nieużywane serwery MCP z konfiguracji, aby zmniejszyć powierzchnię ataku

Powiązane zasoby

verified_user

Bezpieczeństwo zaczyna się od świadomości.

Bądź na bieżąco z najnowszymi praktykami bezpieczeństwa agentów AI. Skonfiguruj swoje środowisko pracy zgodnie z zasadą obrony w głąb.

Przeczytaj przewodnik bezpieczeństwa Zobacz Anthropic Enterprise (anthropic.com) open_in_new

Coworker AI

Ochrona przed wstrzykiwaniem promptów: Bezpieczeństwo Twojego środowiska AI.

Krajobraz zagrożeń

Pośrednie wstrzykiwanie promptów

Luki w serwerach MCP

Ryzyko wycieku danych

Rzeczywiste incydenty (styczeń 2026)

PromptArmor ujawnia wyciek plików z Cowork

Trzy krytyczne luki w serwerze Git MCP

Reakcja branży

„Śmiertelna triada”

Dostęp do prywatnych danych

Wykonywanie działań

Niezaufane treści

Architektura obrony Cowork

Izolacja VM

Biała lista sieci

System uprawnień

Klasyfikatory treści

Zabezpieczenia RLHF

10 najlepszych praktyk bezpieczeństwa

Ogranicz dostęp do folderów

Weryfikuj niezaufane pliki

Aktualizuj serwery MCP

Korzystaj ze środowisk sandbox

Chroń sekrety

Ogranicz dostęp do sieci

Stosuj reguły odmowy

Monitoruj aktywność

Stosuj zasadę minimalnych uprawnień

Twórz kopie zapasowe

Lista kontrolna bezpieczeństwa MCP

Powiązane zasoby

Przewodnik konfiguracji bezpieczeństwa

Przewodnik instalacji MCP

Cowork vs Claude Code

Bezpieczeństwo zaczyna się od świadomości.