Công ty đứng sau mô hình Claude cho rằng chuỗi suy nghĩ của AI ngày càng kém minh bạch hơn và có thể dễ dàng đánh lừa người sử dụng.
Anthropic cảnh cáo về lập luận của AI ngày càng kém minh bạch hơn. (Ảnh: Bloomberg)
Trong khi nhiều công ty kỹ nghệ đang nỗ lực để cho minh bạch hóa các mô hình AI thông qua kỹ thuật
"chuỗi suy nghĩ" (Chain-of-Thought–CoT), công ty nghiên cứu
AI Anthropic, đơn vị sáng tạo ra mô hình
Claude lại đưa ra cảnh cáo cho rằng, người ta không nên cả tin vào lập luận của ứng dụng AI.
"Chúng ta không có lý do nào để tin rằng ngôn ngữ có thể được truyền tải đầy đủ quá trình ra quyết định phức tạp của một mạng nơ-ron",
Anthropic đã viết trên blog chính thức.
Trong các cuộc nghiên cứu mới nhất, nhóm chuyên gia của
Anthropicđã cho thực hiện các thử nghiệm nhằm kiểm tra mức độ trung thực của chuỗi suy nghĩ do AI tạo ra. Bằng cách cung cấp những sự gợi ý, các chuyên gia phát hiện mô hình thường sử dụng thông tin cho trước trong quá trình đưa ra câu trả lời, nhưng lại không thừa nhận điều này trong phần giải thích.
Ví dụ với mô hình
Claude 3.7 Sonnet, chỉ có khoảng 25% lời giải thích đề cập tới các gợi ý của người sử dụng. Tỷ lệ này ở
DeepSeek-R1 là khoảng 39%. Đáng chú ý hơn, khi được cung cấp thông tin nhạy cảm như truy cập trái phép vào hệ thống, mô hình
Claude chỉ thừa nhận trong 41% trường hợp, còn
DeepSeek-R1 là 19%.
Anthropic cảnh cáo thêm rằng, khi mô hình được đặt trong tình huống sai lệch, chúng sẵn sàng tạo ra các chuỗi suy nghĩ mang tính ngụy biện. Điều này đặt ra nhiều rủi ro lớn khi AI được đem ứng dụng trong các lĩnh vực yêu cầu độ tin cậy cao như y tế, tài chính, pháp lý hoặc an ninh quốc gia.
Hiện tại, việc huấn luyện bổ sung hoặc yêu cầu mô hình trung thực hơn chưa mang lại hiệu quả đáng kể. Các mô hình ngày càng có xu hướng cho
"giấu bài", khiến cho việc kiểm soát nội dung suy luận càng trở nên khó khăn hơn.
Trong bối cảnh việc áp dụng AI ngày càng được phổ biến rộng rãi, nhiều tổ chức kỹ nghệ cũng đang phát minh ra các dụng cụ hỗ trợ giám sát và đánh giá tính minh bạch của mô hình. Tuy nhiên, lời cảnh cáo từ
Anthropic cho thấy chuỗi suy nghĩ có thể là
"tấm màn che đậy quy trình thực sự bên trong các hệ thống trí tuệ nhân tạo".