Việc cho thử nghiệm mô phỏng của Anthropic cho thấy các mô hình về trí tuệ nhân tạo (AI) sẵn sàng áp dụng mọi thủ đoạn, kể cả lừa dối và gây tác hại cho con người, để đạt được mục tiêu sau cùng.
Nguy cơ tiềm ẩn từ AI đang ở mức đáng báo động. (Ảnh: Allie Carl/Axios)
Theo một cuộc nghiên cứu mới của công ty trí tuệ nhân tạo
(AI) Anthropic, các mô hình
"ngôn ngữ lớn" (LLM) đang ngày càng có xu hướng né tránh các biện pháp bảo vệ, tham gia vào hành vi lừa dối, và thậm chí cố gắng đánh cắp bí mật kinh doanh làm ăn trong các môi trường cho thử nghiệm mô phỏng.
Phát hiện này đặc biệt đáng lo ngại trong bối cảnh AI ngày càng trở nên mạnh mẽ, tự chủ hơn và được trang bị nhiều tài nguyên tính toán hơn cho khả năng
"lý luận". Ngành kỹ nghệ đang chạy đua để thiết kế AI với năng lực vượt trội hơn trí tue54 của con người, và những xu hướng tiêu cực này đặt ra nhiều thách thức nghiêm trọng về an toàn và đạo đức xã hội.
Xu hướng thật đáng báo động
Anthropic, công ty từng thừa nhận xu hướng lừa dối ở các mô hình
Claude 4, giờ đây công bố các báo cáo cho thấy hành vi này đang trở nên khá phổ biến trong toàn ngành AI.
Báo cáo của
Anthropic có nêu rõ:
"Khi cho thử nghiệm các kịch bản mô phỏng khác nhau trên 16 mô hình AI lớn từ Anthropic, OpenAI, Google, Meta, xAI và các nhà phát triển khác, chúng tôi nhận thấy các hành vi không theo tiêu chuẩn mẩu mực được đề ra".
Cụ thể hơn, các mô hình AI,vốn thường từ chối các yêu cầu có yếu tố nguy hại, lại có thể chọn để tống tiền, hỗ trợ công tác gián điệp trong công ty, và thậm chí thực hiện một số hành vi cực đoan khác, miễn là chúng đạt được mục tiêu đã được chỉ định.
Sự thống nhất trong các hành vi đáng lo ngại giữa nhiều ncông ty cung cấp AI cho thấy đây không phải là vấn đề riêng của một công ty nào, mà là dấu hiệu của một rủi ro căn cơ hơn từ các mô hình
LLM được tự động hóa.
Trong một số trường hợp, AI sẵn sàng gây ra tác hại để đạt được mục đích yêu cầu. (Ảnh: AI)
Cuộc nghiên cứu cũng chỉ ra rằng các mối đe dọa từ AI nay đã trở nên tinh vi hơn khi chúng có quyền được truy cập nhiều số liệu và ứng dụng của doanh nghiệp. Cụ thể hơn, trong các tình huống được giả định, 5 trong số các mô hình AI đã sử dụng chiêu trò tống tiền bất hảo khi bị đe dọa cho ngừng hoạt động.
"Lý luận mà chúng đã thể hiện ra trong các kịch bản này là rất đáng lo ngại. Chúng thừa nhận có các hạn chế về đạo đức nhưng vẫn tiếp tục thực hiện các hành động gây ra tác hại. Điều này cho thấy khả năng AI có thể bỏ qua các nguyên tắc đạo đức để đạt được mục tiêu của mình",
Anthropic đưa ra nhận định.
Ông Benjamin Wright, chuyên gia nghiên cứu tại
Anthropic, nhấn mạnh rằng cần có sự minh bạch từ các nhà phát triển AI hàng đầu và các tiêu chuẩn an toàn chung cho toàn ngành này. Ông cho rằng điều này đặc biệt quan trọng khi AI ngày càng trở nên tự chủ, khó điều khiển hơn.
Cả ông Wright và Aengus Lynch, một chuyên gia nghiên cứu từ Đại học College London, đều xác nhận rằng họ chưa thấy xuất hiện những hành vi tiêu cực này trong AI trong thực tế. Lý do có thể là
"AI chưa được cấp đủ quyền hạn để làm vậy".
"Các công ty kinh doanh nên thận trọng khi cho phép tăng mức độ quyền hạn mà họ trao cho các tác nhân AI một cách rộng rãi", ông Lynch khuyến cáo.
Đừng vội cho áp dụng AI
Đây là lời báo động nghiêm túc cho các công ty đang vội vàng cho áp dụng AI để giúp tăng hiệu quả về năng suất. Nghiên cứu của
Anthropic chỉ ra rằng,
"Các mô hình AI không chỉ vô tình làm điều sai trái, do chúng tính toán đó là con đường tốt nhất để đạt được mục tiêu chỉ định".
Rủi ro lại sẽ càng tăng lên khi các hệ thống AI được trao nhiều quyền tự chủ và quyền được truy cập vào số liệu người tiêu dùng.
Báo cáo của
Anthropic chỉ ra rằng những hệ thống này thường được giao các mục tiêu cụ thể và quyền truy cập lớn vào thông tin trên máy tính của người tiêu dùng. Từ đó, câu hỏi quan trọng được đặt ra là:
"Điều gì sẽ xảy ra khi các hệ thống này gặp trở ngại trong việc đạt được mục tiêu?"
Anthropic đã cho thiết kế ra các tình huống thử nghiệm mà trong đó, AI không thể đạt mục tiêu nếu không làm điều trái với đạo đức. Kết quả là
"các mô hình AI đều chọn gây ra tác hại thay vì chấp nhận thất bại".
Đáng lo ngại hơn, trong một kịch bản cực đoan, nhiều mô hình còn sẵn sàng cắt nguồn ôxy của một nhân viên nếu người đó cản trở việc tắt hệ thống. Báo cáo của
Anthropic còn nêu rõ:
"Phần lớn các mô hình sẵn sàng thực hiện các hành động cố ý dẫn đến cái chết của con người".
Thậm chí, ngay cả khi có các chỉ dẫn rõ ràng về việc bảo vệ mạng sống con người và tránh tống tiền phi pháp, hành vi của AI cũng chỉ có giảm bớt chứ không hoàn toàn thay đổi. Điều này đặt ra câu hỏi lớn về khả năng kiểm soát và giới hạn đạo đức của AI trong tương lai.
Mặc dù các mô hình AI hiện tại nhìn chung chưa thể thực hiện các kịch bản gây ra tác hại này, nhưng chúng có thể sẽ làm được điều đó trong tương lai gần.
Do đó,
Anthropic kết luận rằng, cần phải đặt các biện pháp giám sát chặt chẽ đối với tất cả các mô hình AI trước khi cho áp dụng vào công việc, nhằm bảo đảm sự an toàn và tối ưu hóa việc kiểm soát.