shield Nghiên cứu bảo mật

Phòng chống tấn công prompt injection: Bảo vệ không gian làm việc AI của bạn.

Tìm hiểu về các mối đe dọa prompt injection, sự cố thực tế và cách kiến trúc bảo mật đa lớp của Claude Cowork giữ an toàn cho dữ liệu của bạn.

Cập nhật lần cuối: tháng 2/2026

Bức tranh toàn cảnh về mối đe dọa

Các tác nhân AI đối mặt với những thách thức bảo mật đặc thù mà phần mềm truyền thống chưa từng gặp.

description

Critical

Prompt injection gián tiếp

Các chỉ thị độc hại ẩn trong tài liệu, email hoặc trang web, lừa tác nhân AI thực hiện hành động ngoài ý muốn khi xử lý nội dung.

extension

High

Lỗ hổng máy chủ MCP

Máy chủ MCP của bên thứ ba có thể chứa lỗ hổng bảo mật — như kiểm tra đầu vào không đầy đủ — cho phép truy cập file tùy ý, xóa file hoặc thực thi mã từ xa.

cloud_upload

High

Nguy cơ rò rỉ dữ liệu

Một phiên AI bị xâm nhập có quyền truy cập mạng có thể gửi nội dung file nhạy cảm đến máy chủ của kẻ tấn công thông qua các yêu cầu được ngụy tạo.

Sự cố thực tế (tháng 1/2026)

Dòng thời gian các sự kiện bảo mật đã định hình bức tranh mối đe dọa hiện tại đối với các tác nhân AI trên máy tính.

bug_report

15/01/2026

PromptArmor phát hiện lỗ hổng rò rỉ file trong Cowork

Các nhà nghiên cứu bảo mật chứng minh rằng prompt injection ẩn trong tài liệu có thể chỉ thị Cowork đọc file nhạy cảm và gửi đến máy chủ bên ngoài. Lỗ hổng được báo cáo lần đầu vào tháng 10/2025 cho Files API của Claude.

code

20/01/2026

Ba lỗ hổng nghiêm trọng trong máy chủ Git MCP

Công ty an ninh mạng Cyata phát hiện lỗ hổng đọc file tùy ý, xóa file và thực thi mã từ xa trong máy chủ chính thức mcp-server-git của Anthropic. Đã vá trong phiên bản 2025.12.

Đã vá

public

28/01/2026

Phản ứng toàn ngành

OWASP cập nhật Top 10 rủi ro AI, đưa prompt injection và 'chiếm quyền mục tiêu tác nhân' lên vị trí đầu. MIT Technology Review đăng bài: 'Quy tắc thất bại ở prompt, thành công ở ranh giới.'

"Bộ ba chết chóc"

Nhà nghiên cứu bảo mật Simon Willison đã xác định ba yếu tố khi kết hợp tạo ra rủi ro cao nhất cho hệ thống tác nhân AI:

folder_open

Truy cập dữ liệu riêng tư

Tác nhân có thể đọc file nhạy cảm, thông tin đăng nhập và dữ liệu cá nhân trên hệ thống của bạn.

play_circle

Thực thi hành động

Tác nhân có thể ghi file, chạy lệnh, gửi yêu cầu mạng và tương tác với dịch vụ bên ngoài.

warning

Nội dung không đáng tin

Tác nhân xử lý tài liệu, trang web hoặc email có thể chứa chỉ thị độc hại ẩn.

priority_high Giảm thiểu sự chồng chéo của ba yếu tố này là nguyên tắc cốt lõi của mọi giải pháp bảo mật tác nhân AI hiệu quả.

Kiến trúc phòng thủ của Cowork

Claude Cowork triển khai nhiều lớp bảo vệ, từ cách ly phần cứng đến cơ chế an toàn ở cấp mô hình.

memory

Cách ly VM

Cowork chạy trong máy ảo Linux chuyên dụng sử dụng framework ảo hóa của Apple. Ngay cả khi bị xâm nhập, tác nhân không thể thoát khỏi ranh giới VM hay truy cập thư mục chưa được gắn kết.

wifi_off

Danh sách trắng mạng

Toàn bộ lưu lượng ra ngoài đi qua proxy với danh sách trắng tên miền. Các URL tùy ý bị chặn mặc định, ngăn chặn rò rỉ dữ liệu trái phép.

admin_panel_settings

Hệ thống phân quyền

Ba loại quy tắc — Cho phép, Hỏi và Từ chối — kiểm soát hành động của tác nhân. Ghi file, lệnh bash và sử dụng công cụ MCP đều cần phê duyệt rõ ràng.

security

Bộ phân loại nội dung

Các bộ phân loại chuyên dụng quét nội dung không đáng tin để phát hiện mẫu prompt injection trước khi tác nhân xử lý, nhận diện chỉ thị ẩn trong tài liệu và trang web.

psychology

Cơ chế bảo vệ RLHF

Claude được huấn luyện bằng Học tăng cường từ phản hồi con người để nhận biết và từ chối chỉ thị độc hại. Mỗi thế hệ mô hình cho thấy cải thiện đáng kể về khả năng chống injection.

10 thực hành bảo mật tốt nhất

Các bước cụ thể để giảm thiểu rủi ro khi sử dụng tác nhân AI trên máy tính.

folder_off

Hạn chế quyền truy cập thư mục

Chỉ cấp cho Cowork quyền truy cập vào các thư mục làm việc cụ thể. Không bao giờ gắn kết thư mục home, khóa SSH hay kho lưu trữ thông tin đăng nhập.

scan_delete

Kiểm tra file không đáng tin

Không để Cowork xử lý tài liệu từ nguồn không rõ. File có thể chứa prompt injection vô hình qua văn bản ẩn hoặc thủ thuật Unicode.

update

Cập nhật máy chủ MCP

Lỗ hổng máy chủ Git MCP cho thấy máy chủ MCP có thể có lỗi nghiêm trọng. Luôn sử dụng phiên bản mới nhất.

docker

Dùng môi trường sandbox

Bật runtime sandbox của Claude Code hoặc dùng container Docker để tăng cường cách ly ngoài VM mặc định.

key_off

Bảo vệ bí mật

Lưu khóa API và token trong biến môi trường, không đặt trong mã nguồn hay prompt. Hạn chế đưa thông tin đăng nhập vào file cấu hình MCP.

lan

Hạn chế truy cập mạng

Dùng danh sách trắng tên miền cho kết nối ra ngoài. Chặn URL tùy ý mặc định để ngăn rò rỉ dữ liệu.

block

Dùng quy tắc từ chối

Cấu hình quy tắc Deny cho các thao tác nguy hiểm. Không cho phép tất cả công cụ MCP cùng lúc — phê duyệt từng công cụ riêng lẻ.

monitoring

Giám sát hoạt động

Theo dõi nhật ký hoạt động thời gian thực trong phiên làm việc. Chú ý truy cập file bất thường, yêu cầu mạng lạ hoặc hành vi khác thường.

shield

Áp dụng quyền tối thiểu

Chỉ cấp quyền tối thiểu cần thiết cho mỗi tác vụ. Thu hồi quyền khi hoàn thành công việc.

backup

Sao lưu dữ liệu

Sao lưu file quan trọng trước khi để tác nhân AI chỉnh sửa. Sandbox bảo vệ hệ điều hành, nhưng không bảo vệ dữ liệu trong thư mục được cấp quyền.

Danh sách kiểm tra bảo mật MCP

Các biện pháp bảo mật cụ thể cho tích hợp máy chủ MCP (Model Context Protocol).

check_circle

Chỉ cài máy chủ MCP từ nguồn đã xác minh (gói chính thức của Anthropic hoặc nhà phát triển đáng tin cậy)

check_circle

Xem xét mã nguồn hoặc tài liệu của máy chủ trước khi cài đặt

check_circle

Luôn cập nhật tất cả máy chủ MCP — bản vá bảo mật được phát hành thường xuyên

check_circle

Dùng biến môi trường cho khóa API thay vì ghi trực tiếp vào claude_desktop_config.json

check_circle

Giới hạn phạm vi mỗi máy chủ MCP ở mức tối thiểu (ví dụ: giới hạn máy chủ filesystem vào thư mục cụ thể)

check_circle

Giám sát log máy chủ MCP để phát hiện thao tác hoặc mẫu truy cập bất thường

check_circle

Gỡ bỏ máy chủ MCP không sử dụng khỏi cấu hình để giảm bề mặt tấn công

Tài nguyên liên quan

verified_user

Bảo mật bắt đầu từ nhận thức.

Cập nhật các phương pháp bảo mật mới nhất cho tác nhân AI. Cấu hình không gian làm việc theo nguyên tắc phòng thủ nhiều lớp.

Đọc hướng dẫn bảo mật Xem Anthropic Enterprise (anthropic.com) open_in_new

Coworker AI

Phòng chống tấn công prompt injection: Bảo vệ không gian làm việc AI của bạn.

Bức tranh toàn cảnh về mối đe dọa

Prompt injection gián tiếp

Lỗ hổng máy chủ MCP

Nguy cơ rò rỉ dữ liệu

Sự cố thực tế (tháng 1/2026)

PromptArmor phát hiện lỗ hổng rò rỉ file trong Cowork

Ba lỗ hổng nghiêm trọng trong máy chủ Git MCP

Phản ứng toàn ngành

"Bộ ba chết chóc"

Truy cập dữ liệu riêng tư

Thực thi hành động

Nội dung không đáng tin

Kiến trúc phòng thủ của Cowork

Cách ly VM

Danh sách trắng mạng

Hệ thống phân quyền

Bộ phân loại nội dung

Cơ chế bảo vệ RLHF

10 thực hành bảo mật tốt nhất

Hạn chế quyền truy cập thư mục

Kiểm tra file không đáng tin

Cập nhật máy chủ MCP

Dùng môi trường sandbox

Bảo vệ bí mật

Hạn chế truy cập mạng

Dùng quy tắc từ chối

Giám sát hoạt động

Áp dụng quyền tối thiểu

Sao lưu dữ liệu

Danh sách kiểm tra bảo mật MCP

Tài nguyên liên quan

Hướng dẫn cấu hình bảo mật

Hướng dẫn cài đặt MCP

Cowork vs Claude Code

Bảo mật bắt đầu từ nhận thức.