Phòng chống tấn công prompt injection: Bảo vệ không gian làm việc AI của bạn.
Tìm hiểu về các mối đe dọa prompt injection, sự cố thực tế và cách kiến trúc bảo mật đa lớp của Claude Cowork giữ an toàn cho dữ liệu của bạn.
Cập nhật lần cuối: tháng 2/2026
Bức tranh toàn cảnh về mối đe dọa
Các tác nhân AI đối mặt với những thách thức bảo mật đặc thù mà phần mềm truyền thống chưa từng gặp.
Prompt injection gián tiếp
Các chỉ thị độc hại ẩn trong tài liệu, email hoặc trang web, lừa tác nhân AI thực hiện hành động ngoài ý muốn khi xử lý nội dung.
Lỗ hổng máy chủ MCP
Máy chủ MCP của bên thứ ba có thể chứa lỗ hổng bảo mật — như kiểm tra đầu vào không đầy đủ — cho phép truy cập file tùy ý, xóa file hoặc thực thi mã từ xa.
Nguy cơ rò rỉ dữ liệu
Một phiên AI bị xâm nhập có quyền truy cập mạng có thể gửi nội dung file nhạy cảm đến máy chủ của kẻ tấn công thông qua các yêu cầu được ngụy tạo.
Sự cố thực tế (tháng 1/2026)
Dòng thời gian các sự kiện bảo mật đã định hình bức tranh mối đe dọa hiện tại đối với các tác nhân AI trên máy tính.
15/01/2026
PromptArmor phát hiện lỗ hổng rò rỉ file trong Cowork
Các nhà nghiên cứu bảo mật chứng minh rằng prompt injection ẩn trong tài liệu có thể chỉ thị Cowork đọc file nhạy cảm và gửi đến máy chủ bên ngoài. Lỗ hổng được báo cáo lần đầu vào tháng 10/2025 cho Files API của Claude.
20/01/2026
Ba lỗ hổng nghiêm trọng trong máy chủ Git MCP
Công ty an ninh mạng Cyata phát hiện lỗ hổng đọc file tùy ý, xóa file và thực thi mã từ xa trong máy chủ chính thức mcp-server-git của Anthropic. Đã vá trong phiên bản 2025.12.
Đã vá28/01/2026
Phản ứng toàn ngành
OWASP cập nhật Top 10 rủi ro AI, đưa prompt injection và 'chiếm quyền mục tiêu tác nhân' lên vị trí đầu. MIT Technology Review đăng bài: 'Quy tắc thất bại ở prompt, thành công ở ranh giới.'
"Bộ ba chết chóc"
Nhà nghiên cứu bảo mật Simon Willison đã xác định ba yếu tố khi kết hợp tạo ra rủi ro cao nhất cho hệ thống tác nhân AI:
Truy cập dữ liệu riêng tư
Tác nhân có thể đọc file nhạy cảm, thông tin đăng nhập và dữ liệu cá nhân trên hệ thống của bạn.
+Thực thi hành động
Tác nhân có thể ghi file, chạy lệnh, gửi yêu cầu mạng và tương tác với dịch vụ bên ngoài.
+Nội dung không đáng tin
Tác nhân xử lý tài liệu, trang web hoặc email có thể chứa chỉ thị độc hại ẩn.
Kiến trúc phòng thủ của Cowork
Claude Cowork triển khai nhiều lớp bảo vệ, từ cách ly phần cứng đến cơ chế an toàn ở cấp mô hình.
Cách ly VM
Cowork chạy trong máy ảo Linux chuyên dụng sử dụng framework ảo hóa của Apple. Ngay cả khi bị xâm nhập, tác nhân không thể thoát khỏi ranh giới VM hay truy cập thư mục chưa được gắn kết.
Danh sách trắng mạng
Toàn bộ lưu lượng ra ngoài đi qua proxy với danh sách trắng tên miền. Các URL tùy ý bị chặn mặc định, ngăn chặn rò rỉ dữ liệu trái phép.
Hệ thống phân quyền
Ba loại quy tắc — Cho phép, Hỏi và Từ chối — kiểm soát hành động của tác nhân. Ghi file, lệnh bash và sử dụng công cụ MCP đều cần phê duyệt rõ ràng.
Bộ phân loại nội dung
Các bộ phân loại chuyên dụng quét nội dung không đáng tin để phát hiện mẫu prompt injection trước khi tác nhân xử lý, nhận diện chỉ thị ẩn trong tài liệu và trang web.
Cơ chế bảo vệ RLHF
Claude được huấn luyện bằng Học tăng cường từ phản hồi con người để nhận biết và từ chối chỉ thị độc hại. Mỗi thế hệ mô hình cho thấy cải thiện đáng kể về khả năng chống injection.
10 thực hành bảo mật tốt nhất
Các bước cụ thể để giảm thiểu rủi ro khi sử dụng tác nhân AI trên máy tính.
Hạn chế quyền truy cập thư mục
Chỉ cấp cho Cowork quyền truy cập vào các thư mục làm việc cụ thể. Không bao giờ gắn kết thư mục home, khóa SSH hay kho lưu trữ thông tin đăng nhập.
Kiểm tra file không đáng tin
Không để Cowork xử lý tài liệu từ nguồn không rõ. File có thể chứa prompt injection vô hình qua văn bản ẩn hoặc thủ thuật Unicode.
Cập nhật máy chủ MCP
Lỗ hổng máy chủ Git MCP cho thấy máy chủ MCP có thể có lỗi nghiêm trọng. Luôn sử dụng phiên bản mới nhất.
Dùng môi trường sandbox
Bật runtime sandbox của Claude Code hoặc dùng container Docker để tăng cường cách ly ngoài VM mặc định.
Bảo vệ bí mật
Lưu khóa API và token trong biến môi trường, không đặt trong mã nguồn hay prompt. Hạn chế đưa thông tin đăng nhập vào file cấu hình MCP.
Hạn chế truy cập mạng
Dùng danh sách trắng tên miền cho kết nối ra ngoài. Chặn URL tùy ý mặc định để ngăn rò rỉ dữ liệu.
Dùng quy tắc từ chối
Cấu hình quy tắc Deny cho các thao tác nguy hiểm. Không cho phép tất cả công cụ MCP cùng lúc — phê duyệt từng công cụ riêng lẻ.
Giám sát hoạt động
Theo dõi nhật ký hoạt động thời gian thực trong phiên làm việc. Chú ý truy cập file bất thường, yêu cầu mạng lạ hoặc hành vi khác thường.
Áp dụng quyền tối thiểu
Chỉ cấp quyền tối thiểu cần thiết cho mỗi tác vụ. Thu hồi quyền khi hoàn thành công việc.
Sao lưu dữ liệu
Sao lưu file quan trọng trước khi để tác nhân AI chỉnh sửa. Sandbox bảo vệ hệ điều hành, nhưng không bảo vệ dữ liệu trong thư mục được cấp quyền.
Danh sách kiểm tra bảo mật MCP
Các biện pháp bảo mật cụ thể cho tích hợp máy chủ MCP (Model Context Protocol).
Chỉ cài máy chủ MCP từ nguồn đã xác minh (gói chính thức của Anthropic hoặc nhà phát triển đáng tin cậy)
Xem xét mã nguồn hoặc tài liệu của máy chủ trước khi cài đặt
Luôn cập nhật tất cả máy chủ MCP — bản vá bảo mật được phát hành thường xuyên
Dùng biến môi trường cho khóa API thay vì ghi trực tiếp vào claude_desktop_config.json
Giới hạn phạm vi mỗi máy chủ MCP ở mức tối thiểu (ví dụ: giới hạn máy chủ filesystem vào thư mục cụ thể)
Giám sát log máy chủ MCP để phát hiện thao tác hoặc mẫu truy cập bất thường
Gỡ bỏ máy chủ MCP không sử dụng khỏi cấu hình để giảm bề mặt tấn công
Bảo mật bắt đầu từ nhận thức.
Cập nhật các phương pháp bảo mật mới nhất cho tác nhân AI. Cấu hình không gian làm việc theo nguyên tắc phòng thủ nhiều lớp.