Chatbot AI đang trở n�n 'đi�n' hơn

pizza · **Release:** 05-09-2025 Reputation: 236990

Một l�n s�ng mới của c�c hệ thống "suy luận" từ c�c c�ng ty như OpenAI đang khiến th�ng tin sai lệch xảy ra thường xuy�n hơn. Điều nguy hiểm l� c�c c�ng ty cũng kh�ng biết tại sao.

Th�ng 4, một bot AI xử l� hỗ trợ kỹ thuật cho Cursor, c�ng cụ mới nổi d�nh cho c�c lập tr�nh vi�n, đ� th�ng b�o cho một số kh�ch h�ng về một thay đổi trong ch�nh s�ch của c�ng ty. Cụ thể, th�ng b�o cho biết họ kh�ng c�n được ph�p sử dụng Cursor tr�n nhiều hơn một m�y t�nh.

Tr�n c�c diễn đ�n v� mạng x� hội, kh�ch h�ng đ� đăng b�i b�y tỏ sự tức giận. Một số thậm ch� c�n hủy t�i khoản Cursor. Tuy nhi�n, một số c�n tức giận hơn khi nhận ra điều g� đ� xảy ra: bot AI đ� th�ng b�o một thay đổi ch�nh s�ch kh�ng tồn tại.

"Ch�ng t�i kh�ng c� ch�nh s�ch như vậy. Bạn tất nhi�n c� thể sử dụng Cursor tr�n nhiều m�y. Thật kh�ng may, đ�y l� một phản hồi kh�ng ch�nh x�c từ một bot hỗ trợ AI", Michael Truell, gi�m đốc điều h�nh v� đồng s�ng lập của c�ng ty viết trong một b�i đăng tr�n Reddit.

Th�ng tin giả nhiều kh�ng kiểm so�t
Hơn hai năm sau sự xuất hiện của ChatGPT, c�c c�ng ty c�ng nghệ, nh�n vi�n văn ph�ng v� người ti�u d�ng h�ng ng�y đều đang sử dụng bot AI cho một loạt c�c t�c vụ với tần suất ng�y c�ng cao.

Tuy nhi�n, vẫn chưa c� c�ch n�o đảm bảo rằng c�c hệ thống n�y tạo ra th�ng tin ch�nh x�c. C� một nghịch l� rằng c�c c�ng nghệ mới v� mạnh mẽ nhất, hay c�n được gọi l� hệ thống "suy luận" từ c�c c�ng ty như OpenAI, Google v� DeepSeek, lại đang tạo ra nhiều lỗi hơn.

Đoạn hội thoại v� nghĩa của ChatGPT khi người d�ng hỏi c� n�n cho ch� ăn ngũ cốc kh�ng. Ảnh: Reddit.
Tr�i với kỹ năng to�n học đ� cải thiện đ�ng kể, khả năng nắm bắt sự thật của c�c m� h�nh ng�n ngữ lớn (LLM) lại trở n�n lung lay hơn. Đ�ng n�i, đến ch�nh c�c kỹ sư cũng ho�n to�n kh�ng r� tại sao.

Theo New York Times, c�c chatbot AI ng�y nay dựa tr�n c�c hệ thống to�n học phức tạp để học kỹ năng bằng c�ch ph�n t�ch lượng dữ liệu số khổng lồ. Tuy nhi�n, ch�ng kh�ng thể quyết định điều g� đ�ng v� điều g� sai.

Từ đ�, t�nh trạng "ảo gi�c" (hallucinate) hay tự bịa đặt th�ng tin xuất hiện. Thậm ch�, theo c�c nghi�n cứu, những LLM thế mới nhất c�n gặp "ảo gi�c" nhiều hơn một số m� h�nh cũ.

Cụ thể, trong b�o c�o mới nhất, OpenAI đ� ph�t hiện ra việc m� h�nh o3 đ� "ảo gi�c" khi trả lời 33% c�u hỏi tr�n PersonQA, ti�u chuẩn nội bộ c�ng ty để đo lường độ ch�nh x�c kiến thức của m� h�nh về con người.

Để so s�nh, con số n�y gấp đ�i tỷ lệ "ảo gi�c" của c�c m� h�nh lập luận trước đ� của OpenAI l� o1 v� o3-mini, với tỷ lệ lần lượt 16% v� 14,8%. Trong khi đ�, m� h�nh o4-mini thậm ch� c�n tệ hơn tr�n PersonQA khi gặp "ảo gi�c" tới 48% thời lượng b�i kiểm tra.

Đ�ng lo ngại hơn, "cha đẻ ChatGPT" thực sự kh�ng biết tại sao điều n�y lại xảy ra. Cụ thể, trong b�o c�o kỹ thuật về o3 v� o4-mini, OpenAI viết rằng "cần nghi�n cứu th�m để hiểu tại sao t�nh trạng "ảo gi�c" lại trở n�n tồi tệ hơn" khi mở rộng quy m� c�c m� h�nh lập luận.

o3 v� o4-mini hoạt động tốt hơn ở một số lĩnh vực, bao gồm c�c t�c vụ li�n quan đến lập tr�nh v� to�n học. Tuy nhi�n, do cần "đưa ra nhiều tuy�n bố hơn l� n�i tổng qu�t", cả hai m� h�nh n�y đ� gặp t�nh trạng cho ra kết quả gồm "nhiều tuy�n bố ch�nh x�c hơn, nhưng đồng thời cũng xuất hiện nhiều tuy�n bố kh�ng ch�nh x�c hơn".

"Điều đ� sẽ kh�ng bao giờ biến mất"
Thay v� một bộ quy tắc nghi�m ngặt được x�c định bởi c�c kỹ sư con người, c�c hệ thống LLM sử dụng x�c suất to�n học để đo�n phản hồi tốt nhất. V� vậy, ch�ng lu�n mắc một số lỗi nhất định.

"Bất chấp những nỗ lực tốt nhất của ch�ng t�i, m� h�nh AI sẽ lu�n bị ảo gi�c. Điều đ� sẽ kh�ng bao giờ biến mất", Amr Awadallah, cựu gi�m đốc Google n�i.

Theo IBM, ảo gi�c l� hiện tượng m� h�nh ng�n ngữ lớn (LLM) - thường l� chatbot hoặc c�ng cụ thị gi�c m�y t�nh - nhận mẫu dữ liệu kh�ng tồn tại hoặc kh�ng thể nhận dạng với con người, từ đ� tạo kết quả v� nghĩa hoặc sai lệch. Ảnh: iStock.
Trong một b�i b�o chi tiết về c�c thử nghiệm, OpenAI cho biết h�ng cần nghi�n cứu th�m để hiểu nguy�n nh�n của những kết quả n�y.

Theo c�c chuy�n gia, do những hệ thống AI học từ lượng dữ liệu lớn hơn nhiều so với khả năng con người c� thể hiểu được, dẫn đến việc sẽ rất kh� khăn trong việc x�c định tại sao ch�ng lại h�nh xử theo những c�ch như vậy.

"Ảo gi�c vốn dĩ phổ biến hơn trong c�c m� h�nh suy luận, mặc d� ch�ng t�i đang t�ch cực l�m việc để giảm tỷ lệ đ� thấy ở o3 v� o4-mini. Ch�ng t�i sẽ tiếp tục nghi�n cứu về ảo gi�c tr�n tất cả m� h�nh để cải thiện độ ch�nh x�c v� độ tin cậy", Gaby Raila, người ph�t ng�n của OpenAI n�i.

C�c thử nghiệm từ nhiều c�ng ty độc lập v� nh� nghi�n cứu cho thấy tỷ lệ ảo gi�c cũng đang gia tăng đối với c�c m� h�nh suy luận từ những c�ng ty như Google hay DeepSeek.

Từ cuối năm 2023, c�ng ty Vectara của Awadallah đ� theo d�i tần suất c�c chatbot đưa th�ng tin sai sự thật. C�ng ty y�u cầu c�c hệ thống n�y thực hiện một nhiệm vụ đơn giản dễ d�ng x�c minh l� t�m tắt những b�i b�o cụ thể. Ngay cả khi đ�, c�c chatbot vẫn ki�n tr� bịa đặt th�ng tin.

Cụ thể, nghi�n cứu ban đầu của Vectara ước t�nh rằng trong giả thuyết n�y, c�c chatbot đ� bịa đặt th�ng tin �t nhất 3% v� đ�i khi l�n tới 27%.

Trong một năm rưỡi qua, c�c c�ng ty như OpenAI v� Google đ� giảm c�c con số đ� xuống khoảng 1 hoặc 2%. C�c c�ng ty kh�c, như startup Anthropic ở San Francisco, dao động quanh mức 4%.

Tuy nhi�n, tỷ lệ ảo gi�c trong thử nghiệm n�y vẫn tiếp tục tăng l�n đối với c�c hệ thống suy luận. Tần suất hệ thống suy luận R1 của DeepSeek gặp ảo gi�c tăng 14,3%, trong khi o3 của OpenAI tăng l�n 6,8%.

Một vấn đề kh�c l� c�c m� h�nh suy luận được thiết kế để d�nh thời gian "suy nghĩ" về c�c vấn đề phức tạp, trước khi đưa ra c�u trả lời cuối c�ng.

Một c�u lệnh (prompt) ngăn AI bịa đặt th�ng tin được Apple ch�n v�o trong bản thử nghiệm đầu ti�n macOS 15.1. Ảnh: Reddit/devanxd2000.
Mặc d� vậy, mặt tr�i l� khi cố gắng giải quyết vấn đề từng bước, m� h�nh AI lại c�ng c� nguy cơ gặp ảo gi�c ở mỗi bước. Quan trọng hơn, lỗi c� thể t�ch lũy khi m� h�nh d�nh nhiều thời gian hơn để suy nghĩ.

C�c bot mới nhất hiển thị từng bước cho người d�ng, điều đ� c� nghĩa l� người d�ng cũng c� thể thấy từng lỗi. C�c nh� nghi�n cứu cũng ph�t hiện ra rằng trong nhiều trường hợp, bước suy nghĩ được hiển thị bởi một chatbot thực tế l� kh�ng li�n quan đến c�u trả lời cuối c�ng m� n� đưa ra.

"Những g� hệ thống n�i rằng đang suy luận kh�ng nhất thiết l� những g� thực tế n� đang suy nghĩ", Aryo Pradipta Gema, một nh� nghi�n cứu AI tại Đại học Edinburgh v� l� cộng t�c vi�n tại Anthropic n�i.

VietBF@ sưu tập

Tin n�ng nhất 24h qua	Tin n�ng nhất 3 ng�y qua	Tin n�ng nhất 7 ng�y qua
Tin n�ng nhất 30 ng�y qua	Albums	Total Videos Online

Tranh luận s�i nổi nhất 7 ng�y qua	Tranh luận s�i nổi nhất 14 ng�y qua	Tranh luận s�i nổi nhất 30 ng�y qua
10.000 Tin mới nhất	Tin tức Hoa Kỳ	Tin tức C�ng nghệ

Super News	School Cooking Traveling Portal	Enter Portal
Series Shows and Movies Online	SERIES ONLINE 1	SERIES ONLINE 2

HOME	Breaking News	VN News	VietOversea	World News	Business News	Other News	History
Car News	Computer News	Game News	USA News	Mobile News	Music News	Movies News	Sport News
DEM	GOP	Phim Bộ	Phim Lẻ	Ca Nhạc	Thơ Ca	Help Me	Sport Live
Stranger Stories	Comedy Stories	Cooking Chat	Nice Pictures	Fashion	School	Travelling	Funny Videos
NEWS 24h	HOT 3 Days	NEWS 3 Days	HOT 7 Days	NEWS 7 Days	HOT 30 Days	NEWS 30 Days	Member News