shield Riset Keamanan

Pertahanan dari Prompt Injection: Melindungi Ruang Kerja AI Anda.

Memahami ancaman prompt injection, insiden nyata, dan bagaimana arsitektur keamanan berlapis Claude Cowork menjaga keamanan data Anda.

Terakhir diperbarui: Februari 2026

Lanskap Ancaman

Agen AI menghadapi tantangan keamanan unik yang tidak ditemui oleh perangkat lunak tradisional.

description

Critical

Prompt Injection Tidak Langsung

Instruksi berbahaya yang tersembunyi dalam dokumen, email, atau halaman web yang mengelabui agen AI untuk melakukan tindakan yang tidak diinginkan saat memproses konten.

extension

High

Kerentanan Server MCP

Server MCP pihak ketiga mungkin mengandung celah keamanan — seperti validasi input yang tidak memadai — yang memungkinkan akses file sembarangan, penghapusan, atau eksekusi kode jarak jauh.

cloud_upload

High

Risiko Kebocoran Data

Sesi AI yang terkompromi dengan akses internet berpotensi mengirim isi file sensitif ke server penyerang melalui permintaan yang dimanipulasi.

Insiden Nyata (Januari 2026)

Kronologi peristiwa keamanan yang membentuk lanskap ancaman saat ini untuk agen AI desktop.

bug_report

15 Jan 2026

PromptArmor Mengungkap Kebocoran File Cowork

Peneliti keamanan mendemonstrasikan bahwa prompt injection tersembunyi dalam dokumen dapat menginstruksikan Cowork untuk membaca file sensitif dan mengirimnya ke server eksternal. Kerentanan ini pertama kali dilaporkan pada Oktober 2025 untuk Files API Claude.

code

20 Jan 2026

Tiga Celah Kritis di Server Git MCP

Perusahaan keamanan siber Cyata menemukan kerentanan pembacaan file sembarangan, penghapusan file, dan eksekusi kode jarak jauh di server resmi mcp-server-git milik Anthropic. Diperbaiki di versi 2025.12.

Sudah Diperbaiki

public

28 Jan 2026

Respons Industri

OWASP memperbarui Top 10 Risiko AI dengan menempatkan prompt injection dan 'Pembajakan Tujuan Agen' di posisi teratas. MIT Technology Review menerbitkan: 'Aturan gagal di prompt, berhasil di batas.'

"Tiga Serangkai Mematikan"

Peneliti keamanan Simon Willison mengidentifikasi tiga faktor yang jika digabungkan menciptakan risiko tertinggi untuk sistem agen AI:

folder_open

Akses Data Pribadi

Agen dapat membaca file sensitif, kredensial, dan informasi pribadi di sistem Anda.

play_circle

Eksekusi Tindakan

Agen dapat menulis file, menjalankan perintah, membuat permintaan jaringan, dan berinteraksi dengan layanan eksternal.

warning

Konten Tidak Tepercaya

Agen memproses dokumen, halaman web, atau email yang mungkin mengandung instruksi berbahaya tersembunyi.

priority_high Meminimalkan tumpang tindih ketiga faktor ini adalah prinsip utama di balik semua keamanan agen AI yang efektif.

Arsitektur Pertahanan Cowork

Claude Cowork menerapkan beberapa lapisan perlindungan, dari isolasi perangkat keras hingga pengaman di tingkat model.

memory

Isolasi VM

Cowork berjalan di dalam VM khusus menggunakan teknologi virtualisasi bawaan di macOS dan Windows. Bahkan jika terkompromi, agen tidak dapat keluar dari batas VM atau mengakses folder yang tidak di-mount.

wifi_off

Allowlisting Jaringan

Semua lalu lintas keluar melewati proxy dengan allowlisting domain. URL sembarangan diblokir secara default, mencegah kebocoran data yang tidak sah.

admin_panel_settings

Sistem Izin

Tiga jenis aturan — Izinkan, Tanya, dan Tolak — mengontrol tindakan yang dapat dilakukan agen. Penulisan file, perintah bash, dan penggunaan alat MCP semuanya memerlukan persetujuan eksplisit.

security

Pengklasifikasi Konten

Pengklasifikasi khusus memindai konten tidak tepercaya untuk mendeteksi pola prompt injection sebelum agen memprosesnya, mengenali instruksi tersembunyi dalam dokumen dan halaman web.

psychology

Pengaman RLHF

Claude dilatih melalui Reinforcement Learning from Human Feedback untuk mengenali dan menolak instruksi berbahaya. Setiap generasi model menunjukkan peningkatan terukur dalam ketahanan terhadap injection.

10 Praktik Keamanan Terbaik

Langkah-langkah konkret untuk meminimalkan risiko saat menggunakan agen AI desktop.

folder_off

Batasi Akses Folder

Berikan Cowork akses hanya ke folder kerja tertentu. Jangan pernah mount direktori home, kunci SSH, atau penyimpanan kredensial.

scan_delete

Periksa File Tidak Tepercaya

Jangan biarkan Cowork memproses dokumen dari sumber yang tidak dikenal. File mungkin mengandung prompt injection tak terlihat menggunakan teks tersembunyi atau trik Unicode.

update

Perbarui Server MCP

Kerentanan server Git MCP menunjukkan bahwa server MCP bisa memiliki celah kritis. Selalu gunakan versi terbaru.

docker

Gunakan Lingkungan Sandbox

Aktifkan runtime sandbox Claude Code atau gunakan container Docker untuk isolasi tambahan di luar VM default.

key_off

Lindungi Rahasia

Simpan kunci API dan token di variabel lingkungan, bukan di kode sumber atau prompt. Jauhkan kredensial dari file konfigurasi MCP jika memungkinkan.

lan

Batasi Akses Jaringan

Gunakan allowlist domain untuk koneksi keluar. Blokir URL sembarangan secara default untuk mencegah kebocoran data.

block

Gunakan Aturan Deny

Konfigurasikan aturan Deny untuk operasi berbahaya. Jangan izinkan semua alat MCP sekaligus — setujui masing-masing secara individual.

monitoring

Pantau Aktivitas

Perhatikan log aktivitas real-time selama sesi. Waspadai akses file yang tidak terduga, permintaan jaringan yang tidak biasa, atau pola perilaku anomali.

shield

Terapkan Hak Akses Minimal

Berikan hanya izin minimum yang diperlukan untuk setiap tugas. Cabut akses setelah tugas selesai.

backup

Jaga Backup

Backup file penting sebelum membiarkan agen AI memodifikasinya. Sandbox melindungi OS Anda, tetapi tidak melindungi data di dalam folder yang diizinkan.

Checklist Keamanan MCP

Langkah-langkah keamanan khusus untuk integrasi server MCP (Model Context Protocol).

check_circle

Hanya instal server MCP dari sumber terverifikasi (paket resmi Anthropic atau developer tepercaya)

check_circle

Tinjau kode sumber atau dokumentasi server sebelum instalasi

check_circle

Selalu perbarui semua server MCP — patch keamanan dirilis secara berkala

check_circle

Gunakan variabel lingkungan untuk kunci API alih-alih menulisnya langsung di claude_desktop_config.json

check_circle

Batasi cakupan setiap server MCP seminimal mungkin (misal: batasi server filesystem ke direktori tertentu)

check_circle

Pantau log server MCP untuk operasi atau pola akses yang tidak terduga

check_circle

Hapus server MCP yang tidak digunakan dari konfigurasi untuk mengurangi permukaan serangan

Sumber Daya Terkait

verified_user

Keamanan Dimulai dari Kesadaran.

Tetap terinformasi tentang praktik keamanan agen AI terbaru. Konfigurasikan ruang kerja Anda dengan prinsip pertahanan berlapis.

Baca Panduan Keamanan Lihat Anthropic Enterprise (anthropic.com) open_in_new

Coworker AI

Pertahanan dari Prompt Injection: Melindungi Ruang Kerja AI Anda.

Lanskap Ancaman

Prompt Injection Tidak Langsung

Kerentanan Server MCP

Risiko Kebocoran Data

Insiden Nyata (Januari 2026)

PromptArmor Mengungkap Kebocoran File Cowork

Tiga Celah Kritis di Server Git MCP

Respons Industri

"Tiga Serangkai Mematikan"

Akses Data Pribadi

Eksekusi Tindakan

Konten Tidak Tepercaya

Arsitektur Pertahanan Cowork

Isolasi VM

Allowlisting Jaringan

Sistem Izin

Pengklasifikasi Konten

Pengaman RLHF

10 Praktik Keamanan Terbaik

Batasi Akses Folder

Periksa File Tidak Tepercaya

Perbarui Server MCP

Gunakan Lingkungan Sandbox

Lindungi Rahasia

Batasi Akses Jaringan

Gunakan Aturan Deny

Pantau Aktivitas

Terapkan Hak Akses Minimal

Jaga Backup

Checklist Keamanan MCP

Sumber Daya Terkait

Panduan Pengaturan Keamanan

Panduan Instalasi MCP

Cowork vs Claude Code

Keamanan Dimulai dari Kesadaran.