Sự thành công của DeepSeek đến từ TQ nhờ học hỏi trực tiếp từ các mô hình AI lớn hơn đặt ra dấu hỏi về sự hiệu quả của hàng tỷ USD đang được đổ vào những kỹ thuật tiên tiến nhất.
Nhiều tập đoàn kỹ nghệ lớn đã chi ra hàng tỷ USD với niềm tin rằng
"càng nhiều càng tốt" trong trí tuệ nhân tạo (AI).
Tuy nhiên, bước đột phá của
DeepSeek cho thấy những mô hình nhỏ hơn cũng có thể đạt được mức hiệu quả tương đương chỉ với chi phí thấp hơn nhiều.
Vào cuối tháng 1/2025,
DeepSeek tuyên bố chi phí để huấn luyện cuối cùng của mô hình R1 chỉ là
5,6 triệu USD(?). Con số (
"dỡm") này chỉ bằng một phần nhỏ so với chi phí của các công ty Mỹ bỏ ra.
"Tên Cướp biển Kỹ Nghệ"
Bước nhảy vọt của
DeepSeek đã đưa công ty khởi nghiệp này vào hàng ngũ các công ty sản xuất AI hàng đầu. Tuy nhiên, ở một phương diện khác, startup đến từ Hàng Châu cũng làm dấy lên những cuộc thảo luận sôi nổi tại Thung lũng Silicon về một quy trình gọi là
"distillation" (chưng cất).
Đây là một kỹ thuật ám chỉ hệ thống mới học từ hệ thống hiện có bằng cách đặt ra hàng trăm ngàn câu hỏi và phân tích cặn kẽ các câu trả lời.
Thông qua quy trình
"chưng cất", các công ty sẽ lấy một
"mô hình ngôn ngữ lớn" (LLM) được gọi là
"mô hình giáo viên", có khả năng dự đoán chữ tiếp theo có nhiều khả năng xuất hiện nhất trong một câu nói.
Mô hình giáo viên tạo ra dữ kiện, sau đó dữ kiện này được sử dụng để huấn luyện một
"mô hình học sinh" nhỏ hơn. Quá trình này giúp chuyển giao nhanh chóng kiến thức và khả năng dự đoán từ mô hình lớn sang mô hình nhỏ.
Thay vì phải bỏ ra hàng tỷ USD để đào tạo mô hình, kỹ thuật "chưng cất" giúp cho DeepSeek có thể đạt thành tựu tương tự chỉ bằng việc học hỏi từ mô hình lớn có sẵn. (Ảnh: Mint).
Mặc dù
kỹ thuật chưng cất đã được cho sử dụng rộng rãi trong nhiều năm qua, các tiến bộ khoa học kỹ thuật gần đây khiến cho những chuyên gia trong ngành tin rằng, điều đó sẽ ngày càng trở thành lợi thế lớn cho các startup như
DeepSeek.
Khác so với những ông lớn trong ngành như
OpenAI, những công ty này luôn tìm kiếm các giải pháp tiết kiệm chi phí để phát minh ra ứng dụng dựa trên kỹ thuật AI.
"Chưng cất khá kỳ diệu. Đó là quá trình lấy một mô hình biên lớn và thông minh, rồi sử dụng mô hình đó để dạy cho một mô hình nhỏ hơn. Nó rất hiệu quả trong các nhiệm vụ cụ thể, siêu rẻ và siêu nhanh để thực thi", Olivier Godement trưởng bộ phận sản phẩm của
OpenAI cho biết.
Dấu hỏi về mức hiệu quả của hàng tỷ USD vốn đầu tư
Các
LLM như
GPT-4 của
OpenAI, Gemini (Google) hay
Llama (Meta) khá nổi tiếng với việc đòi hỏi số lượng dữ kiện khổng lồ và sức mạnh tính toán to lớn để vận hành và duy trì.
Dù cho các công ty không công bố ra chi phí chính xác, ước tính việc huấn luyện các mô hình này có thể tiêu tốn hàng trăm triệu USD.
Trong số này, có thể dễ dàng kể đến các tên như
Google, OpenAI, Anthropic và
xAI của Elon Musk. Sau khi ông Trump nhậm chức,
OpenAI đã công bố hợp tác với
SoftBank và các đối tác khác để đầu tư 500 tỷ USD vào hạ tầng AI trong vòng 5 năm sắp tới.
Tuy nhiên, nhờ
kỹ thuật chưng cất, các chuyên gia và doanh nghiệp có thể tiếp cận những khả năng mạnh mẽ của các mô hình lớn với một phần nhỏ chi phí cần bỏ ra. Điều này cho phép các ứng dụng AI chạy nhanh chóng trên các thiết bị như laptop hay smartphone.
Mô hình về kỹ thuật "chưng cất" trong huấn luyện mô hình AI. (Ảnh: arXiv).
Thậm chí,
WSJ còn cho rằng, sau sự thành công của
DeepSeek, các giám đốc điều hành và giới đầu tư tại Thung lũng Silicon đang xem xét lại mô hình kinh doanh của họ và đặt câu hỏi, liệu việc dẫn đầu ngành có còn xứng đáng nữa hay không.
"Liệu có xứng đáng về mặt kinh tế để đi đầu nếu chi phí lại tốn kém gấp 8 lần so với người đi theo sau?", Mike Volpi, một giám đốc điều hành kỹ nghệ kỳ cựu và người đầu tư mạo hiểm tại
Hanabi Capital đặt câu hỏi.
Các giám đốc kỹ nghệ kỳ vọng sẽ trông thấy nhiều ứng dụng AI với chất lượng cao được tạo ra bằng
kỹ thuật "chưng cất" trong thời gian sắp tới.
Cụ thể, các chuyên gia nghiên cứu tại công ty AI
Hugging Face đã bắt đầu cố gắng xây dựng một mô hình tương tự như của
DeepSeek.
"Điều dễ cho sao chép nhất là quy trình chưng cất", chuyên gia nghiên cứu Lewis Tunstall cho biết.
Các mô hình AI từ
OpenAI và Google vẫn dẫn đầu trên các bảng xếp hạng được sử dụng rộng rãi ở Thung lũng Silicon.
Các tập đoàn kỹ nghệ lớn có khả năng duy trì lợi thế trong các hệ thống tiên tiến nhất nhờ vào việc thực hiện việc nghiên cứu gốc nhiều nhất. Tuy nhiên, nhiều người tiêu dùng và doanh nghiệp sẵn sàng sử dụng kỹ thuật kém hơn một chút nhưng lại có mức giá rẻ hơn rất nhiều.
Dù kỹ thuật chưng cất có thể tạo ra các mô hình hoạt động tốt, nhưng có nhiều chuyên gia cũng cảnh cáo rằng, chúng vẫn có hạn chế nhất định.
"Chưng cất mang lại một sự đánh đổi thú vị. Khi bạn làm cho mô hình nhỏ hơn, không thể tránh khỏi việc giảm bớt khả năng của nó", Ahmed Awadallah từ
Microsoft Research có giải thích.
Theo Awadallah, một mô hình chưng cất có thể rất giỏi trong việc tóm tắt email, nhưng đồng thời cũng thực sự không tốt cho bất cứ thao tác có ích nào khác.
Trong khi đó, David Cox, phó chủ tịch phụ trách mô hình AI tại
IBM Research đưa ra nhận định, hầu hết doanh nghiệp không cần mô hình khổng lồ để cho vận hành sản phẩm.
Các mô hình chưng cất hiện đã đủ sức mạnh để phục vụ các mục đích như chatbot cho dịch vụ khách hàng hoặc hoạt động trên các thiết bị nhỏ như điện thoại.
"Bất cứ khi nào có thể giảm được chi phí mà vẫn đạt được hiệu suất mong muốn, chẳng có lý do gì để không làm ra điều đó", Cox nói thêm.