Vụ việc không chỉ làm dấy lên sự bất b́nh về hành vi đạo nhái trong nghiên cứu khoa học, mà c̣n khiến thế giới giật ḿnh về sự phát triển của trí tuệ nhân tạo (AI) tại Trung Quốc.
Tâm điểm của vụ việc gây xôn xao giới công nghệ là mô h́nh AI mang tên Llama 3-V, được phát triển bởi sinh viên ngành khoa học máy tính tại Stanford - Aksh Garg và Siddharth Sharma, cùng với Mustafa Aljadery (không rơ đơn vị công tác).
Ngay từ khi ra mắt vào tuần trước, Llama 3-V đă nhanh chóng thu hút sự chú ư của cộng đồng quốc tế nhờ hiệu suất ấn tượng. Nhóm nghiên cứu cho biết, Llama 3-V có khả năng cạnh tranh với các mô h́nh AI hàng đầu như GPT4-V, Gemini Ultra và Claude Opus, nhưng chỉ với chi phí đào tạo chưa đến 500 USD.
Llama 3-V đă lọt vào top 5 xu hướng trên Hugging Face, một nền tảng AI phổ biến. Tuy nhiên, niềm vui ngắn chẳng tày gang, dự án này đă vấp phải sự chỉ trích từ cộng đồng AI khi bị tố cáo "đạo nhái" mô h́nh MiniCPM-Llama3-V 2.5. Mô h́nh này là sản phẩm hợp tác giữa Pḥng thí nghiệm Xử lư Ngôn ngữ Tự nhiên thuộc Đại học Thanh Hoa và ModelBest - một công ty khởi nghiệp về AI có trụ sở tại Bắc Kinh.
Theo những thông tin được đăng tải trên nền tảng mă nguồn mở GitHub, cấu trúc mô h́nh và mă của Llama 3-V và MiniCPM-Llama3-V 2.5 gần như giống hệt nhau. Người đồng sáng lập ModelBest Liu Zhiyuan cho biết trên WeChat rằng ông "tương đối chắc chắn" nhóm Stanford đă "lấy cắp" dự án của họ.
Liu Zhiyuan chỉ ra một chi tiết quan trọng chứng minh lập luận của ḿnh. MiniCPM-Llama3-V2.5 được tích hợp một tính năng đặc biệt, đó là khả năng nhận chữ Hán cổ. Bộ dữ liệu này không được công khai và điều đáng nói là mô h́nh Llama3-V cũng thể hiện khả năng nhận dạng tương tự, bao gồm cả những lỗi sai.
Trong một tuyên bố được đưa ra vào thứ Hai, Garg và Sharma thừa nhận "mô h́nh của chúng tôi rất giống" với MiniCPM-Llama3-V 2.5. "Chúng tôi muốn gửi lời xin lỗi chân thành tới các tác giả gốc", hai sinh viên Stanford viết trên X. Hai sinh viên này cho biết thêm, Aljadery – người c̣n lại - đă viết toàn bộ mă cho dự án. Họ nhận trách nhiệm v́ đă không kiểm tra kỹ lưỡng nguồn gốc.
Vụ việc đă gây xôn xao trên mạng xă hội, đặc biệt là ở Trung Quốc. Giáo sư Christopher Manning, Giám đốc Pḥng thí nghiệm Trí tuệ Nhân tạo Stanford, khẳng định không hề biết về vụ việc. Ông phê b́nh sản phẩm đạo nhái là điều đáng xấu hổ đối với Thung lũng Silicon.
Câu chuyện này cũng khơi mào cho một cuộc thảo luận rộng hơn về sự tiến bộ của Trung Quốc trong lĩnh vực AI. Lucas Beyer, nhà nghiên cứu tại Google DeepMind, nhận định rằng MiniCPM-Llama3-V 2.5 là một mô h́nh "rất tốt". Tuy nhiên, mô h́nh này lại không nhận được nhiều sự chú ư, v́ đến từ một pḥng thí nghiệm Trung Quốc chứ không phải một trường đại học danh tiếng ở phương Tây.
Liu Zhiyuan thừa nhận khoảng cách "đáng kể" giữa các mô h́nh AI của Trung Quốc và các dự án hàng đầu phương Tây như Sora và GPT-4. Tuy nhiên, ông nhấn mạnh AI của Trung Quốc đă có những bước tiến thần tốc "từ chỗ không là ǵ cách đây hơn một thập kỉ, trở thành động lực chính cho sự đổi mới công nghệ AI".
Sự việc của nhóm nghiên cứu Stanford là một lời cảnh tỉnh về vấn đề đạo đức trong nghiên cứu khoa học. Bên cạnh đó, nó cũng cho thấy sự phát triển nhanh chóng của Trung Quốc trong lĩnh vực AI, đủ sức cạnh tranh với những cái tên hàng đầu thế giới.