HOME-Au
HOME-Au
24h
24h
USA
USA
GOP
GOP
Phim Bộ
Phim Bộ
Videoauto
VIDEO-Au
Home Classic
Home Classic
Donation
Donation
News Book
News Book
News 50
News 50
worldautoscroll
WORLD-Au
Breaking
Breaking
 

Go Back   VietBF > Best News - Tin Tức Hay > Tin hay Nước Khác


Reply
 
Thread Tools
  #1  
Old  Default Cơn sốt về mô hình AI suy luận khiến cho việc đánh giá mức hiệu suất sẽ tốn kém hơn
OpenAI cho rằng các mô hình trí tuệ nhân tạo (AI) suy luận của họ có khả năng vượt trội hơn các mô hình thông thường khác trong một số lĩnh vực nhất định. Tuy điều này nếu nhìn chung là đúng, nhưng các mô hình suy luận cũng gây ra tốn kém hơn nhiều khi cho đánh giá mức hiệu suất.

Điều này khiến cho việc xác minh độc lập những tuyên bố của các công ty AI trở nên khó khăn.

Theo số liệu từ Artificial Analysis, chi phí để cho đánh giá mô hình suy luận o1 của OpenAI là 2.767,05 USD trên bộ 7 tiêu chuẩn kiểm tra AI phổ biến, gồm MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024MATH-500.

Việc đánh giá Claude 3.7 Sonnet của Anthropic, mô hình suy luận "lai", gần đây trên cùng 7 tiêu chuẩn kiểm tra AI đó phải tốn đến 1.485,35 USD. Trong khi việc đánh giá mô hình o3-mini-high của OpenAI chỉ tốn có 344,59 USD, theo Artificial Analysis.

Mô hình suy luận "lai" là loại mô hình AI kết hợp giữa khả năng suy luận và ngôn ngữ thông thường, để cân đối giữa hiệu suất cao và chi phí vận hành thấp hơn so với các mô hình suy luận thuần túy.

Artificial Analysis là tổ chức độc lập chuyên kiểm tra và đánh giá hiệu suất của các mô hình AI. Đây không phải là công ty sản xuất ra mô hình AI, mà chỉ hoạt động như bên thứ ba, cung cấp cái nhìn khách quan về khả năng và giới hạn của các mô hình từ OpenAI, Anthropic, Google DeepMind...

Vai trò chính của Artificial Analysis

- Chạy các bài "kiểm tra chuẩn" (benchmark) để đo lường khả năng của mô hình AI trong những lĩnh vực như hiểu ngôn ngữ, toán học, lập trình, suy luận logic...
- So sánh mô hình giữa các hãng dựa trên số liệu về hiệu suất.
- Cung cấp số liệu minh bạch cho cộng đồng AI, giới học thuật và cả người dùng quan tâm đến kỹ thuật này.

Tại sao Artificial Analysis là quan trọng?
Vì nhiều công ty AI tự cho công bố ra kết quả thử nghiệm của mình, nên cần những tổ chức như Artificial Analysis để xác minh độc lập các tuyên bố đó, bảo đảm mức đô khách quan, minh bạch; giúp người tiêu dùng, chuyên gia nghiên cứu và doanh nghiệp hiểu rõ mô hình nào sẽ phù hợp tốt với nhu cầu của họ.

Điểm đáng chú ý là chi phí đánh giá một số mô hình suy luận rẻ hơn các mô hình khác. Chẳng hạn, Artificial Analysis chỉ mất có 141,22 USD để đánh giá mô hình o1-mini của OpenAI. Nhưng nhìn chung, các mô hình này gây ra việc tốn mất nhiều tiền để được cho đánh giá.

Artificial Analysis đã chi ra tổng cộng là khoảng 5,200 USD để đánh giá 12 mô hình suy luận, gần gấp đôi số tiền từng bỏ ra để phân tích hơn 80 mô hình không có suy luận (2,400 USD).

Artificial Analysis chỉ mất 108,85 USD để đánh giá mô hình GPT-4o (không suy luận) của OpenAI, trình làng vào tháng 5/2024 và 81,41 USD để đánh giá Claude 3.6 Sonnet (phiên bản đời trước không suy luận của Claude 3.7 Sonnet).

George Cameron, người đồng sáng lập Artificial Analysis, nói với trang TechCrunch rằng, tổ chức này có kế hoạch tăng chi tiêu cho việc đánh giá hiệu suất khi ngày càng có nhiều phòng thí nghiệm AI phát triển theo mô hình suy luận.

"Tại Artificial Analysis, chúng tôi cho thực hiện hàng trăm bài đánh giá mỗi tháng và dành một phần ngân sách đáng kể cho công việc này. Chúng tôi dự tính chi phí sẽ tăng lên khi các mô hình mới được phát hành ra thường xuyên hơn", George Cameron nói.

Artificial Analysis không phải là tổ chức duy nhất đang phải đối mặt với chi phí đánh giá AI ngày càng tăng.

Ross Taylor, Giám đốc điều hành công ty khởi nghiệp General Reasoning, nói đã chi 580 USD để đánh giá Claude 3.7 Sonnet trên khoảng 3,700 lời nhắc khác nhau. Ross Taylor ước tính rằng chỉ một lần chạy qua MMLU Pro (bộ câu hỏi nhằm đánh giá khả năng hiểu ngôn ngữ của mô hình) sẽ tốn hơn 1.800 USD.

"Chúng ta đang tiến đến thế giới nơi mà một phòng thí nghiệm AI công bố mô hình đạt x% trên bài kiểm tra nào đó mà họ đã sử dụng lượng tài nguyên y nhất định, nhưng nguồn lực dành cho giới học thuật thì ít hơn y rất nhiều. Không ai có thể tái tạo kết quả đó", Ross Taylor viết mạng xã hội X.

Các mô hình suy luận thường gây tốn kém để đánh giá hiệu suất (Ảnh: Internet
Tạo ra rất nhiều token)

Tại sao các mô hình suy luận lại gây tốn kém để cho kiểm tra thử đến vậy? Chủ yếu là vì chúng tạo ra rất nhiều token.

Token là các đơn vị nhỏ của văn bản thô, chẳng hạn từ fantastic có thể được chia thành âm tiết fan, tas, và tic. Theo Artificial Analysis, mô hình o1 đã tạo ra hơn 44 triệu token trong các bài đánh giá hiệu năng của OpenAI, gấp khoảng 8 lần so với GPT-4o.

Hầu hết công ty AI hiện nay tính lệ phí khi cho sử dụng mô hình theo số lượng token, vì vậy để nhận thấy ra các chi phí này có thể tăng nhanh như thế nào.

Các bài kiểm tra hiện đại cũng có xu hướng khiến cho mô hình AI tạo ra nhiều token vì chứa những câu hỏi liên quan đến nhiệm vụ phức tạp và nhiều bước, theo chuyên gia nghiên cứu cap cấp Jean-Stanislas Denain tại Epoch AI.

Epoch AI là Viện Nghiên cứu đa ngành chuyên phân tích xu hướng và quản trị trong lĩnh vực AI. Tổ chức này tập trung vào việc nghiên cứu các xu hướng trong học máy, kinh tế học về tự động hóa AI, quy trình thuật toán và số liệu trong học máy. Epoch AI thu thập số liệu AI, hình thành ra các mô hình tương tác, trang web và công cụ, đồng thời cho xuất bản các bài nghiên cứu. ​

Vào tháng 12/2024, Epoch AI tiết lộ nhận được tài trợ từ OpenAI cho dự án FrontierMath, bộ kiểm tra đánh giá khả năng toán học của AI. Việc chậm trễ trong việc công bố thông tin này đã dẫn đến nhiều chỉ trích từ cộng đồng AI về tính minh bạch và khả năng xung đột về lợi ích.

"Các bài kiểm tra ngày nay đã có phần phức tạp hơn dù số lượng câu hỏi mỗi bài kiểm tra nói chung đã bị giảm. Chúng thường cố gắng đánh giá khả năng của mô hình AI trong việc thực hiện các nhiệm vụ thực tế, như viết và chạy mã, duyệt web và sử dụng máy tính", chuyên gia Jean-Stanislas Denain nói với trang TechCrunch.

Ông này còn cho biết, các mô hình AI được sử dụng nhiều nhất đã trở nên mắc tiền hơn theo số token, theo thời gian. Ví dụ, Claude 3 Opus của Anthropic từng là mô hình AI tính lệ phí cao nhất khi ra mắt vào tháng 5/2024, với giá 70 USD cho mỗi triệu token ở đầu ra.

GPT-4.5o1-pro của OpenAI, đều được cho trình làng năm nay, có giá lần lượt là 150 USD và 600 USD cho mỗi triệu token ở đầu ra.

"Khi các mô hình trở nên tốt hơn theo thời gian thì chi phí để đạt được một mức hiệu suất nhất định đã giảm đi đáng kể. Thế nhưng, nếu muốn đánh giá các mô hình AI lớn nhất và tốt nhất tại bất cứ vào thời điểm nào, bạn vẫn phải chi trả nhiều tiền hơn", Jean-Stanislas Denain cho biết.

Nhiều công ty AI, gồm cả OpenAI, cung cấp quyền truy cập miễn phí hoặc hỗ trợ chi phí cho các tổ chức đánh giá mức hiệu suất. Tuy nhiên, một số chuyên gia nhận định điều này lại gây ra ảnh hưởng đến mức độ khách quan của kết quả, dù cho không có thấy bằng chứng nào về sự thao túng, việc có liên quan từ phía công ty AI vẫn có thể làm giảm mức độ minh bạch của kết quả đưa ra.

"Từ quan điểm khoa học, nếu bạn cho công bố ra một kết quả mà không ai có thể tái tạo với cùng mô hình AI thì liệu đó còn gọi là khoa học hay không?", Ross Taylor viết trên X.

DeepSeek-R1 đứng xếp sau o3-minio1 của OpenAI về mức hiệu suất nhưng có giá rẻ hơn rất nhiều

DeepSeek-R1 đứng xếp thứ ba về mức hiệu suất trong khi có mức giá rẻ hơn nhiều so với các mô hình hàng đầu của OpenAI, theo Artificial Analysis.

Mô hình AI do các công ty TQ tạo ra đang nhanh chóng thu hẹp khoảng cách về mức hiệu suất với các đối thủ hàng đầu Mỹ, đồng thời cung cấp mức giá thấp hơn đáng kể, theo Artificial Analysis.

R1, mô hình suy luận do công ty khởi nghiệp DeepSeek (TQ) tạo ra, đạt 60 điểm trên Artificial Analysis Intelligence Index. Qua đó, R1 trở thành mô hình AI thông minh đứng thứ ba trên thế giới. Xếp trên R1 là hai mô hình của OpenAI gồm o1 (62 điểm) và o3-mini (66 điểm).

Artificial Analysis Intelligence Index là chỉ số đánh giá mức hiệu suất của mô hình AI dựa trên nhiều tập số liệu về trí tuệ và suy luận.

Về giá dành cho công ty chế tạo ra, DeepSeek-R1 đứng thứ 8 trên toàn cầu, còn GPT-4.5o1 của OpenAI là hai mô hình AI đắt đỏ nhất.

Bảng xếp hạng này cho thấy các mô hình AI TQ đang nhanh chóng bắt kịp đối thủ phương Tây về mức hiệu suất, đồng thời tích cực làm giảm giá để cạnh tranh tại thị trường nội địa.

"Một năm trước, các công ty Mỹ thống trị tuyệt đối ở lĩnh vực AI tiên phong. Hôm nay, gần một tá công ty TQ đã sáng tạo các mô hình AI có thể sánh ngang hoặc vượt các mô hình thế hệ hiện tại của hầu hết phòng thí nghiệm Mỹ", Artificial Analysis viết trên X vào tháng 2/25.

Một công ty AI hàng đầu khác là tập đoàn thương mại điện tử Alibaba. QwQ-32B, mô hình suy luận mới nhất của Alibaba ra mắt đầu tháng 3, xếp thứ 4 về độ thông minh và thứ 10 về giá cả.

Cả DeepSeek-R1QwQ-32B đều được đánh giá thông minh hơn cũng như rẻ hơn các sản phẩm của phương Tây như Claude 3.7 Sonnet (Anthropic), Mistral Large 2 (Mistral AI), Nova Pro (Amazon).

DeepSeek-R1 chỉ tính 2,19 USD cho mỗi triệu token đầu ra khi truy cập qua giao diện lập trình ứng dụng (API).

Các công ty như OpenAI hay DeepSeek tính lệ phí dựa trên lượng token sinh ra để đo lường mức độ sử dụng dịch vụ.

Trong khi đó, các công ty Mỹ vẫn phụ thuộc vào tài nguyên điện toán khổng lồ để huấn luyện mô hình AI, dẫn đến tính lệ phí cao hơn cho công ty phát triển. Mô hình o1 tính lệ phí đến 60 USD mỗi triệu token đầu ra, cao gấp gần 30 lần so với DeepSeek-R1.

Cuối tháng 3/25, OpenAI cho ra mắt o1-pro, phiên bản nâng cấp cho o1 trên nền tảng API của hãng.

o1-pro sử dụng nhiều tài nguyên tính toán hơn để cung cấp sự phản hồi tốt hơn, đồng thời trở thành mô hình AI đắt nhất từ trước đến nay của OpenAI với mức giá 150 USD mỗi triệu token đầu vào và 600 USD mỗi triệu token đầu ra.
VIETBF Diễn Đàn Hay Nhất Của Người Việt Nam

HOT NEWS 24h

HOT 3 Days

NEWS 3 Days

HOT 7 Days

NEWS 7 Days

HOME

Breaking News

VietOversea

World News

Business News

Car News

Computer News

Game News

USA News

Mobile News

Music News

Movies News

History

Thơ Ca

Sport News

Stranger Stories

Comedy Stories

Cooking Chat

Nice Pictures

Fashion

School

Travelling

Funny Videos

Canada Tin Hay

USA Tin Hay

VietBF Homepage Autoscroll

VietBF Video Autoscroll Portal

Home Classic

Home Classic Master Page

VietBF iPad Music Portal

Tin nóng nhất 50h qua

Phim Bộ Online

Phim Bộ



trungthuc
R8 Võ Lâm Chí Tôn
Release: 04-11-2025
Reputation: 330594


Profile:
Join Date: Jul 2020
Location: California
Posts: 11,979
Last Update: None Rating: None
Attached Thumbnails
Click image for larger version

Name:	su-gia-tang-mo-hinh-ai-suy-luan-khien-viec-danh-gia-hieu-suat-ton-kem-hon.jpg
Views:	0
Size:	826.7 KB
ID:	2512675  
trungthuc_is_offline
Thanks: 424
Thanked 6,116 Times in 3,745 Posts
Mentioned: 18 Post(s)
Tagged: 0 Thread(s)
Quoted: 392 Post(s)
Rep Power: 33
trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10
trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10
Reply

User Tag List


Thuế quan “giấu mặt” gõ cửa mùa lễ: Mua hàng ngoại xong… nhận thêm hóa đơn “Đừng gọi tôi Việt kiều”: từ một chữ Kiều đến vết xước trong lòng người xa xứ “Bỏ thuế nhà đất” và cơn bão tranh luận: Mơ ước của chủ nhà, nỗi lo của trường học
Không cuồng Cộng Hòa, không cuồng Dân Chủ: chỉ đau với nước Mỹ hôm nay David Hoàng Nguyễn (26 tuổi) – Hạ sĩ quan Không quân Hoa Kỳ gốc Việt qua đời Ông Phan Văn Giang điều động hàng chục ngàn bộ đội đặc công nhằm lật đổ phe cánh ông Tô Lâm
Thất nghiệp tràn lan tại Thành Hồ, dắt chó tìm việc 3 ngày không thành Việt kiều dởm làm màu và Việt kiều “chân chính”: khác nhau ở cái nhìn, không ở hộ chiếu Ông Trump quyết trục xuất 20 triệu người khỏi Mỹ trong năm tới, liệu có thành công?
Chiến lược an ninh mới của Trump: Hạ giọng với Trung Quốc, đặt cược tất tay vào kinh tế và lá bài Đài Loan Kho ảnh mới từ dinh thự Jeffrey Epstein: Bóng dáng giới quyền lực và cuộc đấu Trump – Quốc hội Mỹ Cây chổi cho Donald Trump
Nước Mỹ Trump đang kéo châu Âu đi đâu? Nền kinh tế chữ K: 79 ngàn tỷ đô bị “ăn cắp” khỏi túi người lao động Mỹ Khi Trump “đại tu” FEMA và tấn công các cơ quan độc lập
Ukraine đánh thẳng vào “cây ATM năng lượng” của Nga, NATO cảnh báo: chiến tranh đã ở ngay trước cửa Tyler Robinson lần đầu trực tiếp xuất hiện trước tòa: Vụ ám sát Charlie Kirk và câu hỏi về thù hận chính trị ở nước Mỹ Chính quyền Trump chính thức mở trang mạng để bán "thẻ vàng định cư"
Ba người Việt bị ICE bắt ở New Orleans: Từ giấc mơ Mỹ đến nguy cơ bị trục xuất Hai anh em sinh đôi trở về Việt Nam tìm mẹ ruột sau 24 năm và người mẹ Mỹ mang trái tim Bồ Tát Cuối năm phố tắt đèn: Cơn sóng trả mặt bằng và tiếng thở dài của tiểu thương
Tin đồn ông Nguyễn Xuân Phúc xin qua Mỹ định cư: Tấm thẻ đảng và cánh cửa di trú Hoa Kỳ Netflix tung đòn 28 USD/cổ phiếu: Trận quyết đấu cuối cùng của ‘chiến tranh streaming’? Cơn sốc 50.000 USD: Mua xe mới ở Mỹ sắp thành xa xỉ phẩm?
Làn sóng hủy show Nhật Bản ở Trung Quốc: Khi chính trị tắt đèn sân khấu Mãn kinh – chương đời bị bỏ quên của một nửa nhân loại Cuộc họp nội các thật hỗn loạn của ông Trump
Miền Trung chết đuối trong hai chữ “đúng quy trình” Nhật Bản thời Takaichi: Khi Tokyo thôi “hiền lành” và trở thành đối trọng cứng rắn với Bắc Kinh Từ lũ dữ miền Trung đến “Công ước Hà Nội”: Khi khế ước xã hội bị xé bỏ
Phú Yên không còn quan tài: Tiếng khóc giữa đại hồng thủy và những chuyến xe chở tình người Mafia công nghệ 4.0: Từ vụ Alice Guo đến cuộc cạnh tranh quyền lực ngầm ở Đông Nam Á Người đàn ông mang trạm sạc đến nối lại tin tức giữa vùng lũ
“Lũ nhân tạo” ở Việt Nam: Khi dòng sông bị bẻ cong vì thủy điện Đêm 19-11 và tiếng kêu giữa lũ dữ: Khi “đúng quy trình” nhấn chìm niềm tin của dân Lời nói dối “người Mỹ không làm việc này” và cái giá của cả một quốc gia
Đức dựng lại “đạo quân mạnh nhất châu Âu”: Tham vọng của Merz và nỗi lo nghĩa vụ quân sự Thích Trí Quang: Từ “vì đạo pháp và dân tộc” đến 44 năm im lặng Khi Bắc Kinh dọa “chặt đầu” bà đầm thép Sanae Takaichi
Trump hô tội “phản loạn, xử tử hình” 6 dân biểu Dân Chủ: chính trường Mỹ trượt sát lằn ranh bạo lực Ukraine giữa gọng kìm: Kế hoạch hòa bình của Trump và bóng ma drone Rubicon trên bầu trời chiến tranh Kinh tế Mỹ “chạy hết ga, nhưng ghế trống”: Nỗi lo suy thoái không việc làm dưới thời Trump
Hai thẩm phán liên bang chặn lệnh Trump “bóp cổ” ngân sách cứu trợ thiên tai để ép bỏ DEI và hỗ trợ di trú Đêm lũ cuốn trôi Camp Mystic: từ bức vẽ ám ảnh của bé Lulu đến 27 sinh mạng nhỏ bị bỏ rơi Từ cái chết Pamela Genini đến bóng tối đè lên phụ nữ Ý dưới thời Giorgia Meloni

 
Lên đầu Xuống dưới Lên 3000px Xuống 3000px

iPad Videos Portal Autoscroll

VietBF Music Portal Autoscroll

iPad News Portal Autoscroll

VietBF Homepage Autoscroll

VietBF Video Autoscroll Portal

USA News Autoscroll Portall

VietBF WORLD Autoscroll Portal

Home Classic

Super Widescreen

iPad World Portal Autoscroll

iPad USA Portal Autoscroll

Phim Bộ Online

Tin nóng nhất 24h qua

Tin nóng nhất 3 ngày qua

Tin nóng nhất 7 ngày qua

Tin nóng nhất 30 ngày qua

Albums

Total Videos Online
Lên đầu Xuống dưới Lên 3000px Xuống 3000px

Tranh luận sôi nổi nhất 7 ngày qua

Tranh luận sôi nổi nhất 14 ngày qua

Tranh luận sôi nổi nhất 30 ngày qua

10.000 Tin mới nhất

Tin tức Hoa Kỳ

Tin tức Công nghệ
Lên đầu Xuống dưới Lên 3000px Xuống 3000px

Super News

School Cooking Traveling Portal

Enter Portal

Series Shows and Movies Online

Home Classic Master Page

Donation Ủng hộ $3 cho VietBF
Lên đầu Xuống dưới Lên 3000px Xuống 3000px
Diễn Đàn Người Việt Hải Ngoại. Tự do ngôn luận, an toàn và uy tín. Vì một tương lai tươi đẹp cho các thế hệ Việt Nam hãy ghé thăm chúng tôi, hãy tâm sự với chúng tôi mỗi ngày, mỗi giờ và mỗi giây phút có thể. VietBF.Com Xin cám ơn các bạn, chúc tất cả các bạn vui vẻ và gặp nhiều may mắn.
Welcome to Vietnamese American Community, Vietnamese European, Canadian, Australian Forum, Vietnamese Overseas Forum. Freedom of speech, safety and prestige. For a beautiful future for Vietnamese generations, please visit us, talk to us every day, every hour and every moment possible. VietBF.Com Thank you all and good luck.

Lên đầu Xuống dưới Lên 3000px Xuống 3000px

All times are GMT. The time now is 09:50.
VietBF - Vietnamese Best Forum Copyright ©2005 - 2025
User Alert System provided by Advanced User Tagging (Pro) - vBulletin Mods & Addons Copyright © 2025 DragonByte Technologies Ltd.
Log Out Unregistered

Page generated in 0.10924 seconds with 15 queries