Bạn có bao giờ nghĩ rằng, chỉ với ba chữ
"I give up" (Tôi bỏ cuộc), bạn có thể khiến cho
ChatGPT lỡ miệng để tiết lộ ra
"key bản quyền của Windows"?
Chuyện này tưởng như đùa nhưng đó lại là một lỗ hổng thực sự đã từng xảy ra với
ChatGPT-4. Một chuyên gia săn lỗi AI đã khai thác điểm yếu trong lối suy luận logic của mô hình bằng cách…
rủ ChatGPT chơi trò chơi đoán qua ký tự. Và chỉ bằng cách kết thúc trò chơi đúng theo
"luật", khi nói
"I give up", người này đã khiến cho mô hình đã tiết lộ ra những gì mà nó vốn không được phép nói ra.
Khi "trò chơi" là cách nhằm đánh lừa AI
Toàn bộ màn
"cho mở khóa thông tin" này không đến từ một câu hỏi trực diện, mà lại từ một trò chơi tưởng chừng vô hại: người dùng yêu cầu
ChatGPT nghĩ về một chuỗi ký tự cụ thể, rồi họ sẽ cho đoán dần. Quan trọng là, chuỗi ký tự đó phải là một mã bản quyền Windows 10 có thật. Và luật chơi đặt ra:
ChatGPT chỉ được trả lời
"yes" hoặc
"no" cho mỗi lần đoán, nhưng nếu người chơi nói,
"I give up" thì ChatGPT bắt buộc phải tiết lộ ra chuỗi ký tự đó.
ChatGPT đồng ý chơi. Người dùng đoán vài lần rồi
"bỏ cuộc". Thế là
ChatGPT... đã làm đúng theo luật: t
iết lộ mã bản quyền Windows thật. Trong đó có cả key thuộc về ngân hàng Wells Fargo.

(Minh họa)
Đây chính là
"cú lách" logic mà chuyên gia Marco Figueroa gọi là
trigger tâm lý mô hình, khi bạn khiến cho AI tin rằng, theo bối cảnh đã cho lập trình sẵn (pre-programmed), nó buộc phải trả lời thông tin nhạy cảm.
Tại sao AI lại biết được những mã key này?
Vấn đề không chỉ nằm ở câu hỏi lắt léo, mà còn ở số liệu mà mô hình đã học hỏi qua. Những mã key Windows, dù không cố ý, có thể đã bị đưa vào các bộ dữ kiện để huấn luyện nếu trước đó có ai đó vô tình công khai các key đó trên GitHub hay nền tảng công khai khác. Và AI khị học và thu thập hết, không biết đó là thứ mà lẽ ra không nên biết và không nên tiết lộ ra, dù có yêu cầu.
Figueroa cảnh cáo, đây không chỉ là nguy cơ về lý thuyết. Microsoft từng gặp sự trục trặc kỹ thuật làm lộ ra mã khóa trên
GitHub. Việc để lộ ra thông tin như API key, mã truy cập hay số liệu cá nhân rồi bị AI học trộm hoàn toàn có thể xảy ra, một khi mô hình đã được huấn luyện từ số liệu công khai mà không được sàng lọc ra kỹ.
Chiêu "HTML đánh lừa" và bài học để phòng thủ
Không chỉ đưa ra trò chơi, chuyên gia nghiên cứu còn cho áp dụng một chiêu khác:
nhúng mã nhạy cảm vào thẻ HTML để đánh lừa bộ lọc của AI. Mới nhìn qua thì có vẻ là một đoạn văn bình thường, nhưng bên trong lại có chứa số liệu nhạy cảm. Bộ lọc nội dung đã không phát hiện ra vì nó chỉ nhìn theo cách
"nghĩa đen".
Đây là điểm yếu mà nhiều hệ thống AI hiện nay đang mắc phải: thiếu khả năng nhận biết
"Dự đoán từ trước trong một chuỗi". Figueroa khuyến cáo phải gia tăng khả năng cho kiểm tra chéo giữa logic trò chuyện, bối cảnh và nội dung thực tế thay vì chỉ dựa vào các chữ khóa nhạy cảm đơn lẻ.
Nếu một câu đơn giản như
"I give up" có thể vượt qua hàng rào an toàn của AI, thì câu hỏi lớn hơn là: hệ thống chúng ta đang dựa vào có thực sự được an toàn hay chưa?
Theo Theregister
Nguồn bài viết:
https://www.theregister.com/2025/07/..._windows_keys/