Cơn sốt về mô hình AI suy luận khiến cho việc đánh giá mức hiệu suất sẽ tốn kém hơn

trungthuc · **Release:** 04-11-2025 Reputation: 530800

OpenAI cho rằng các mô hình trí tuệ nhân tạo (AI) suy luận của họ có khả năng vượt trội hơn các mô hình thông thường khác trong một số lĩnh vực nhất định. Tuy điều này nếu nhìn chung là đúng, nhưng các mô hình suy luận cũng gây ra tốn kém hơn nhiều khi cho đánh giá mức hiệu suất.

Điều này khiến cho việc xác minh độc lập những tuyên bố của các công ty AI trở nên khó khăn.

Theo số liệu từ Artificial Analysis, chi phí để cho đánh giá mô hình suy luận o1 của OpenAI là 2.767,05 USD trên bộ 7 tiêu chuẩn kiểm tra AI phổ biến, gồm MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 và MATH-500.

Việc đánh giá Claude 3.7 Sonnet của Anthropic, mô hình suy luận "lai", gần đây trên cùng 7 tiêu chuẩn kiểm tra AI đó phải tốn đến 1.485,35 USD. Trong khi việc đánh giá mô hình o3-mini-high của OpenAI chỉ tốn có 344,59 USD, theo Artificial Analysis.

Mô hình suy luận "lai" là loại mô hình AI kết hợp giữa khả năng suy luận và ngôn ngữ thông thường, để cân đối giữa hiệu suất cao và chi phí vận hành thấp hơn so với các mô hình suy luận thuần túy.

Artificial Analysis là tổ chức độc lập chuyên kiểm tra và đánh giá hiệu suất của các mô hình AI. Đây không phải là công ty sản xuất ra mô hình AI, mà chỉ hoạt động như bên thứ ba, cung cấp cái nhìn khách quan về khả năng và giới hạn của các mô hình từ OpenAI, Anthropic, Google DeepMind...

Vai trò chính của Artificial Analysis

- Chạy các bài "kiểm tra chuẩn" (benchmark) để đo lường khả năng của mô hình AI trong những lĩnh vực như hiểu ngôn ngữ, toán học, lập trình, suy luận logic...
- So sánh mô hình giữa các hãng dựa trên số liệu về hiệu suất.
- Cung cấp số liệu minh bạch cho cộng đồng AI, giới học thuật và cả người dùng quan tâm đến kỹ thuật này.

Tại sao Artificial Analysis là quan trọng?
Vì nhiều công ty AI tự cho công bố ra kết quả thử nghiệm của mình, nên cần những tổ chức như Artificial Analysis để xác minh độc lập các tuyên bố đó, bảo đảm mức đô khách quan, minh bạch; giúp người tiêu dùng, chuyên gia nghiên cứu và doanh nghiệp hiểu rõ mô hình nào sẽ phù hợp tốt với nhu cầu của họ.

Điểm đáng chú ý là chi phí đánh giá một số mô hình suy luận rẻ hơn các mô hình khác. Chẳng hạn, Artificial Analysis chỉ mất có 141,22 USD để đánh giá mô hình o1-mini của OpenAI. Nhưng nhìn chung, các mô hình này gây ra việc tốn mất nhiều tiền để được cho đánh giá.

Artificial Analysis đã chi ra tổng cộng là khoảng 5,200 USD để đánh giá 12 mô hình suy luận, gần gấp đôi số tiền từng bỏ ra để phân tích hơn 80 mô hình không có suy luận (2,400 USD).

Artificial Analysis chỉ mất 108,85 USD để đánh giá mô hình GPT-4o (không suy luận) của OpenAI, trình làng vào tháng 5/2024 và 81,41 USD để đánh giá Claude 3.6 Sonnet (phiên bản đời trước không suy luận của Claude 3.7 Sonnet).

George Cameron, người đồng sáng lập Artificial Analysis, nói với trang TechCrunch rằng, tổ chức này có kế hoạch tăng chi tiêu cho việc đánh giá hiệu suất khi ngày càng có nhiều phòng thí nghiệm AI phát triển theo mô hình suy luận.

"Tại Artificial Analysis, chúng tôi cho thực hiện hàng trăm bài đánh giá mỗi tháng và dành một phần ngân sách đáng kể cho công việc này. Chúng tôi dự tính chi phí sẽ tăng lên khi các mô hình mới được phát hành ra thường xuyên hơn", George Cameron nói.

Artificial Analysis không phải là tổ chức duy nhất đang phải đối mặt với chi phí đánh giá AI ngày càng tăng.

Ross Taylor, Giám đốc điều hành công ty khởi nghiệp General Reasoning, nói đã chi 580 USD để đánh giá Claude 3.7 Sonnet trên khoảng 3,700 lời nhắc khác nhau. Ross Taylor ước tính rằng chỉ một lần chạy qua MMLU Pro (bộ câu hỏi nhằm đánh giá khả năng hiểu ngôn ngữ của mô hình) sẽ tốn hơn 1.800 USD.

"Chúng ta đang tiến đến thế giới nơi mà một phòng thí nghiệm AI công bố mô hình đạt x% trên bài kiểm tra nào đó mà họ đã sử dụng lượng tài nguyên y nhất định, nhưng nguồn lực dành cho giới học thuật thì ít hơn y rất nhiều. Không ai có thể tái tạo kết quả đó", Ross Taylor viết mạng xã hội X.

Các mô hình suy luận thường gây tốn kém để đánh giá hiệu suất (Ảnh: Internet
Tạo ra rất nhiều token)

Tại sao các mô hình suy luận lại gây tốn kém để cho kiểm tra thử đến vậy? Chủ yếu là vì chúng tạo ra rất nhiều token.

Token là các đơn vị nhỏ của văn bản thô, chẳng hạn từ fantastic có thể được chia thành âm tiết fan, tas, và tic. Theo Artificial Analysis, mô hình o1 đã tạo ra hơn 44 triệu token trong các bài đánh giá hiệu năng của OpenAI, gấp khoảng 8 lần so với GPT-4o.

Hầu hết công ty AI hiện nay tính lệ phí khi cho sử dụng mô hình theo số lượng token, vì vậy để nhận thấy ra các chi phí này có thể tăng nhanh như thế nào.

Các bài kiểm tra hiện đại cũng có xu hướng khiến cho mô hình AI tạo ra nhiều token vì chứa những câu hỏi liên quan đến nhiệm vụ phức tạp và nhiều bước, theo chuyên gia nghiên cứu cap cấp Jean-Stanislas Denain tại Epoch AI.

Epoch AI là Viện Nghiên cứu đa ngành chuyên phân tích xu hướng và quản trị trong lĩnh vực AI. Tổ chức này tập trung vào việc nghiên cứu các xu hướng trong học máy, kinh tế học về tự động hóa AI, quy trình thuật toán và số liệu trong học máy. Epoch AI thu thập số liệu AI, hình thành ra các mô hình tương tác, trang web và công cụ, đồng thời cho xuất bản các bài nghiên cứu.

Vào tháng 12/2024, Epoch AI tiết lộ nhận được tài trợ từ OpenAI cho dự án FrontierMath, bộ kiểm tra đánh giá khả năng toán học của AI. Việc chậm trễ trong việc công bố thông tin này đã dẫn đến nhiều chỉ trích từ cộng đồng AI về tính minh bạch và khả năng xung đột về lợi ích.

"Các bài kiểm tra ngày nay đã có phần phức tạp hơn dù số lượng câu hỏi mỗi bài kiểm tra nói chung đã bị giảm. Chúng thường cố gắng đánh giá khả năng của mô hình AI trong việc thực hiện các nhiệm vụ thực tế, như viết và chạy mã, duyệt web và sử dụng máy tính", chuyên gia Jean-Stanislas Denain nói với trang TechCrunch.

Ông này còn cho biết, các mô hình AI được sử dụng nhiều nhất đã trở nên mắc tiền hơn theo số token, theo thời gian. Ví dụ, Claude 3 Opus của Anthropic từng là mô hình AI tính lệ phí cao nhất khi ra mắt vào tháng 5/2024, với giá 70 USD cho mỗi triệu token ở đầu ra.

GPT-4.5 và o1-pro của OpenAI, đều được cho trình làng năm nay, có giá lần lượt là 150 USD và 600 USD cho mỗi triệu token ở đầu ra.

"Khi các mô hình trở nên tốt hơn theo thời gian thì chi phí để đạt được một mức hiệu suất nhất định đã giảm đi đáng kể. Thế nhưng, nếu muốn đánh giá các mô hình AI lớn nhất và tốt nhất tại bất cứ vào thời điểm nào, bạn vẫn phải chi trả nhiều tiền hơn", Jean-Stanislas Denain cho biết.

Nhiều công ty AI, gồm cả OpenAI, cung cấp quyền truy cập miễn phí hoặc hỗ trợ chi phí cho các tổ chức đánh giá mức hiệu suất. Tuy nhiên, một số chuyên gia nhận định điều này lại gây ra ảnh hưởng đến mức độ khách quan của kết quả, dù cho không có thấy bằng chứng nào về sự thao túng, việc có liên quan từ phía công ty AI vẫn có thể làm giảm mức độ minh bạch của kết quả đưa ra.

"Từ quan điểm khoa học, nếu bạn cho công bố ra một kết quả mà không ai có thể tái tạo với cùng mô hình AI thì liệu đó còn gọi là khoa học hay không?", Ross Taylor viết trên X.

DeepSeek-R1 đứng xếp sau o3-mini và o1 của OpenAI về mức hiệu suất nhưng có giá rẻ hơn rất nhiều

DeepSeek-R1 đứng xếp thứ ba về mức hiệu suất trong khi có mức giá rẻ hơn nhiều so với các mô hình hàng đầu của OpenAI, theo Artificial Analysis.

Mô hình AI do các công ty TQ tạo ra đang nhanh chóng thu hẹp khoảng cách về mức hiệu suất với các đối thủ hàng đầu Mỹ, đồng thời cung cấp mức giá thấp hơn đáng kể, theo Artificial Analysis.

R1, mô hình suy luận do công ty khởi nghiệp DeepSeek (TQ) tạo ra, đạt 60 điểm trên Artificial Analysis Intelligence Index. Qua đó, R1 trở thành mô hình AI thông minh đứng thứ ba trên thế giới. Xếp trên R1 là hai mô hình của OpenAI gồm o1 (62 điểm) và o3-mini (66 điểm).

Artificial Analysis Intelligence Index là chỉ số đánh giá mức hiệu suất của mô hình AI dựa trên nhiều tập số liệu về trí tuệ và suy luận.

Về giá dành cho công ty chế tạo ra, DeepSeek-R1 đứng thứ 8 trên toàn cầu, còn GPT-4.5 và o1 của OpenAI là hai mô hình AI đắt đỏ nhất.

Bảng xếp hạng này cho thấy các mô hình AI TQ đang nhanh chóng bắt kịp đối thủ phương Tây về mức hiệu suất, đồng thời tích cực làm giảm giá để cạnh tranh tại thị trường nội địa.

"Một năm trước, các công ty Mỹ thống trị tuyệt đối ở lĩnh vực AI tiên phong. Hôm nay, gần một tá công ty TQ đã sáng tạo các mô hình AI có thể sánh ngang hoặc vượt các mô hình thế hệ hiện tại của hầu hết phòng thí nghiệm Mỹ", Artificial Analysis viết trên X vào tháng 2/25.

Một công ty AI hàng đầu khác là tập đoàn thương mại điện tử Alibaba. QwQ-32B, mô hình suy luận mới nhất của Alibaba ra mắt đầu tháng 3, xếp thứ 4 về độ thông minh và thứ 10 về giá cả.

Cả DeepSeek-R1 và QwQ-32B đều được đánh giá thông minh hơn cũng như rẻ hơn các sản phẩm của phương Tây như Claude 3.7 Sonnet (Anthropic), Mistral Large 2 (Mistral AI), Nova Pro (Amazon).

DeepSeek-R1 chỉ tính 2,19 USD cho mỗi triệu token đầu ra khi truy cập qua giao diện lập trình ứng dụng (API).

Các công ty như OpenAI hay DeepSeek tính lệ phí dựa trên lượng token sinh ra để đo lường mức độ sử dụng dịch vụ.

Trong khi đó, các công ty Mỹ vẫn phụ thuộc vào tài nguyên điện toán khổng lồ để huấn luyện mô hình AI, dẫn đến tính lệ phí cao hơn cho công ty phát triển. Mô hình o1 tính lệ phí đến 60 USD mỗi triệu token đầu ra, cao gấp gần 30 lần so với DeepSeek-R1.

Cuối tháng 3/25, OpenAI cho ra mắt o1-pro, phiên bản nâng cấp cho o1 trên nền tảng API của hãng.

o1-pro sử dụng nhiều tài nguyên tính toán hơn để cung cấp sự phản hồi tốt hơn, đồng thời trở thành mô hình AI đắt nhất từ trước đến nay của OpenAI với mức giá 150 USD mỗi triệu token đầu vào và 600 USD mỗi triệu token đầu ra.

iPad Videos Portal Autoscroll	VietBF Music Portal Autoscroll	iPad News Portal Autoscroll
VietBF Homepage Autoscroll	VietBF Video Autoscroll Portal	USA News Autoscroll Portall
VietBF WORLD Autoscroll Portal	Video Classic Master Page	Super Widescreen
iPad World Portal Autoscroll	iPad USA Portal Autoscroll	Phim Bộ Online

Tin nóng nhất 24h qua	Tin nóng nhất 3 ngày qua	Tin nóng nhất 7 ngày qua
Tin nóng nhất 30 ngày qua	Albums	Total Videos Online

Tranh luận sôi nổi nhất 7 ngày qua	Tranh luận sôi nổi nhất 14 ngày qua	Tranh luận sôi nổi nhất 30 ngày qua
10.000 Tin mới nhất	Tin tức Hoa Kỳ	Tin tức Công nghệ

Duo Series Movies Portal	Duo Music Portal	Phim Bộ
Tỷ Giá	Thời Tiết	Tin Nóng Nhất 50h

Super News	School Cooking Traveling Portal	Enter Portal
Series Shows and Movies Online	Home Classic Master Page	Donation Ủng hộ $3 cho VietBF

HOME	Breaking News	VN News	VietOversea	World News	Business News	Other News	History
Car News	Computer News	Game News	USA News	Mobile News	Music News	Movies News	Sport News
DEM	GOP	Phim Bộ	Phim Lẻ	Ca Nhạc	Thơ Ca	Help Me	Sport Live
Stranger Stories	Comedy Stories	Cooking Chat	Nice Pictures	Fashion	School	Travelling	Funny Videos
NEWS 24h	HOT 3 Days	NEWS 3 Days	HOT 7 Days	NEWS 7 Days	HOT 30 Days	NEWS 30 Days	Member News
Back 5 days	Back 10 days	Back 20 days	Back 30 days	Phim On	Clips	Playlist	News Book