Ochrona przed wstrzykiwaniem promptów: Bezpieczeństwo Twojego środowiska AI.
Poznaj zagrożenia związane z wstrzykiwaniem promptów, rzeczywiste incydenty oraz wielowarstwową architekturę bezpieczeństwa Claude Cowork chroniącą Twoje dane.
Ostatnia aktualizacja: luty 2026
Krajobraz zagrożeń
Agenci AI mierzą się z unikalnymi wyzwaniami bezpieczeństwa, nieznanymi tradycyjnemu oprogramowaniu.
Pośrednie wstrzykiwanie promptów
Złośliwe instrukcje ukryte w dokumentach, e-mailach lub stronach internetowych, które nakłaniają agenta AI do wykonywania niezamierzonych działań podczas przetwarzania treści.
Luki w serwerach MCP
Serwery MCP firm trzecich mogą zawierać luki bezpieczeństwa — np. niewystarczającą walidację danych wejściowych — umożliwiające dowolny dostęp do plików, ich usuwanie lub zdalne wykonywanie kodu.
Ryzyko wycieku danych
Skompromitowana sesja AI z dostępem do internetu może wysłać zawartość poufnych plików na serwery atakującego za pomocą spreparowanych żądań.
Rzeczywiste incydenty (styczeń 2026)
Chronologia zdarzeń bezpieczeństwa, które ukształtowały obecny krajobraz zagrożeń dla desktopowych agentów AI.
15 sty. 2026
PromptArmor ujawnia wyciek plików z Cowork
Badacze bezpieczeństwa wykazali, że ukryte wstrzyknięcia promptów w dokumentach mogły nakazać Cowork odczytanie poufnych plików i wysłanie ich na zewnętrzne serwery. Luka została po raz pierwszy zgłoszona w październiku 2025 dla Files API Claude.
20 sty. 2026
Trzy krytyczne luki w serwerze Git MCP
Firma cyberbezpieczeństwa Cyata odkryła luki umożliwiające dowolny odczyt plików, usuwanie plików i zdalne wykonywanie kodu w oficjalnym serwerze mcp-server-git firmy Anthropic. Naprawiono w wersji 2025.12.
Naprawiono28 sty. 2026
Reakcja branży
OWASP zaktualizował swoją listę Top 10 zagrożeń AI, umieszczając wstrzykiwanie promptów i „przejęcie celu agenta” na pierwszym miejscu. MIT Technology Review opublikował: „Reguły zawodzą na poziomie promptu, działają na granicy.”
„Śmiertelna triada”
Badacz bezpieczeństwa Simon Willison zidentyfikował trzy czynniki, które w połączeniu tworzą najwyższe ryzyko dla systemów agentów AI:
Dostęp do prywatnych danych
Agent może odczytywać poufne pliki, dane uwierzytelniające i informacje osobiste w Twoim systemie.
+Wykonywanie działań
Agent może zapisywać pliki, wykonywać polecenia, wysyłać żądania sieciowe i komunikować się z zewnętrznymi usługami.
+Niezaufane treści
Agent przetwarza dokumenty, strony internetowe lub e-maile, które mogą zawierać ukryte złośliwe instrukcje.
Architektura obrony Cowork
Claude Cowork stosuje wiele warstw ochrony — od izolacji sprzętowej po zabezpieczenia na poziomie modelu.
Izolacja VM
Cowork działa w dedykowanej maszynie wirtualnej Linux opartej na frameworku wirtualizacji Apple. Nawet w przypadku kompromitacji agent nie może przekroczyć granicy VM ani uzyskać dostępu do niepodłączonych folderów.
Biała lista sieci
Cały ruch wychodzący przechodzi przez proxy z białą listą domen. Dowolne adresy URL są domyślnie blokowane, co zapobiega nieautoryzowanemu wyciekowi danych.
System uprawnień
Trzy typy reguł — Zezwól, Zapytaj i Odmów — kontrolują działania agenta. Zapis plików, polecenia bash i korzystanie z narzędzi MCP wymagają wyraźnej zgody.
Klasyfikatory treści
Dedykowane klasyfikatory skanują niezaufane treści pod kątem wzorców wstrzykiwania promptów, zanim agent je przetworzy, wykrywając ukryte instrukcje w dokumentach i stronach internetowych.
Zabezpieczenia RLHF
Claude jest trenowany metodą uczenia ze wzmocnieniem na podstawie ludzkiej informacji zwrotnej, aby rozpoznawać i odrzucać złośliwe instrukcje. Każda generacja modelu wykazuje mierzalną poprawę odporności na wstrzykiwanie.
10 najlepszych praktyk bezpieczeństwa
Konkretne kroki minimalizujące ryzyko przy korzystaniu z desktopowych agentów AI.
Ogranicz dostęp do folderów
Przyznaj Cowork dostęp tylko do konkretnych folderów roboczych. Nigdy nie podłączaj katalogu domowego, kluczy SSH ani magazynów poświadczeń.
Weryfikuj niezaufane pliki
Nie pozwalaj Cowork przetwarzać dokumentów z nieznanych źródeł. Pliki mogą zawierać niewidoczne wstrzyknięcia promptów za pomocą ukrytego tekstu lub sztuczek Unicode.
Aktualizuj serwery MCP
Luki w serwerze Git MCP pokazują, że serwery MCP mogą mieć krytyczne wady. Zawsze korzystaj z najnowszych wersji.
Korzystaj ze środowisk sandbox
Włącz środowisko sandbox Claude Code lub użyj kontenerów Docker dla dodatkowej izolacji wykraczającej poza standardową VM.
Chroń sekrety
Przechowuj klucze API i tokeny w zmiennych środowiskowych, nie w kodzie źródłowym ani promptach. W miarę możliwości nie umieszczaj poświadczeń w plikach konfiguracyjnych MCP.
Ogranicz dostęp do sieci
Używaj białych list domen dla połączeń wychodzących. Domyślnie blokuj dowolne adresy URL, aby zapobiec wyciekowi danych.
Stosuj reguły odmowy
Skonfiguruj reguły Deny dla niebezpiecznych operacji. Nie zezwalaj na wszystkie narzędzia MCP hurtowo — zatwierdzaj każde z osobna.
Monitoruj aktywność
Obserwuj dziennik aktywności w czasie rzeczywistym podczas sesji. Zwracaj uwagę na nieoczekiwany dostęp do plików, nietypowe żądania sieciowe lub anomalne wzorce zachowań.
Stosuj zasadę minimalnych uprawnień
Przyznawaj tylko minimalne uprawnienia potrzebne do każdego zadania. Cofaj dostęp po zakończeniu pracy.
Twórz kopie zapasowe
Wykonaj kopię zapasową ważnych plików, zanim pozwolisz agentowi AI je modyfikować. Sandbox chroni system operacyjny, ale nie dane w udostępnionych folderach.
Lista kontrolna bezpieczeństwa MCP
Konkretne środki bezpieczeństwa dla integracji serwerów MCP (Model Context Protocol).
Instaluj serwery MCP wyłącznie ze zweryfikowanych źródeł (oficjalne pakiety Anthropic lub zaufani deweloperzy)
Przejrzyj kod źródłowy lub dokumentację serwera przed instalacją
Utrzymuj wszystkie serwery MCP w najnowszej wersji — łatki bezpieczeństwa są wydawane regularnie
Używaj zmiennych środowiskowych dla kluczy API zamiast wpisywać je na stałe w claude_desktop_config.json
Ogranicz zakres każdego serwera MCP do minimum (np. serwer systemu plików tylko do konkretnych katalogów)
Monitoruj logi serwerów MCP pod kątem nieoczekiwanych operacji lub wzorców dostępu
Usuń nieużywane serwery MCP z konfiguracji, aby zmniejszyć powierzchnię ataku
Bezpieczeństwo zaczyna się od świadomości.
Bądź na bieżąco z najnowszymi praktykami bezpieczeństwa agentów AI. Skonfiguruj swoje środowisko pracy zgodnie z zasadą obrony w głąb.