VietBF

VietBF (https://vietbf.com/forum/index.php)
-   Computer News|Tin Vi Tính (https://vietbf.com/forum/forumdisplay.php?f=180)
-   -   Cloudlare: Anthropic quét website 26.500 lần, trả lại 1 lượt truy cập (https://vietbf.com/forum/showthread.php?t=2088746)

miro1510 09-13-2025 09:30

Cloudlare: Anthropic quét website 26.500 lần, trả lại 1 lượt truy cập
 
1 Attachment(s)
Bot của Anthropic đă quét các website 26.500 lần nhưng chỉ gửi trả lại 1 lượt truy cập, theo dữ liệu tuần đầu tháng 9 từ Cloudflare.

Một cuộc tṛ chuyện kinh điển của Thung lũng Silicon diễn ra tại bữa tiệc ở thành phố San Francisco (Mỹ) gần đây. Chủ đề là những mô h́nh AI và chatbot nào là tốt nhất để sử dụng. Với một số người dự tiệc, yếu tố quan trọng để lựa chọn là mức độ “đạo đức” của nhà cung cấp AI.

Một người nói rằng dự định dùng dịch vụ Claude của Anthropic v́ tin rằng công ty khởi nghiệp này hành xử có đạo đức. Anthropic quả thực đă làm được nhiều việc ấn tượng trong lĩnh vực an toàn AI. Thế nhưng, Alistair Barr (biên tập viên công nghệ toàn cầu của trang Insider) nhắc rằng Anthropic có các bot thu thập dữ liệu (crawler) thường xuyên quét các website nhưng lại gửi trả lại rất ít lượt truy cập. Những người kia đă bị sốc khi nghe điều đó.

Sau đó, Alistair Barr bắt đầu t́m kiếm dữ liệu đáng tin cậy để minh chứng cho một khía cạnh quan trọng nhưng ít được bàn đến của cuộc cách mạng AI. Trong khi chi tiêu hào phóng cho trung tâm dữ liệu, GPU (bộ xử lư đồ họa) và nhân tài, các hăng công nghệ lại tránh nói đến một thành phần cốt lơi khác của thành công AI: Dữ liệu.

Lư do là các hăng công nghệ không muốn trả tiền cho dữ liệu chất lượng cao do con người tạo, vốn cần thiết để huấn luyện mô h́nh, suy luận và tạo đầu ra AI. Thay vào đó, họ thả bot đi quét website và thu thập thông tin, hầu hết là miễn phí.

Trong quá khứ, các hăng công nghệ thường dẫn người dùng trở lại nguồn gốc của thông tin. Đây từng là “thỏa thuận lớn” của mạng web. Các trang web cho phép lấy dữ liệu miễn phí với sự ngầm hiểu rằng sẽ được nhận lại lượt truy cập giới thiệu, từ đó có thể duy tŕ hoạt động nhờ quảng cáo, thuê bao hoặc các cách kiếm tiền khác.

Các trang web cho phép lấy dữ liệu miễn phí với sự ngầm hiểu rằng họ sẽ nhận lại được lưu lượng truy cập giới thiệu và có thể kiếm tiền từ những nỗ lực của ḿnh thông qua quảng cáo, đăng kư thuê bao và kỹ thuật khác.

Song trong kỷ nguyên AI tạo sinh, thỏa thuận này đang sụp đổ. Giờ đây, các chatbot AI đưa ra câu trả lời trực tiếp, khiến người dùng ít có động lực ghé thăm website gốc - nơi tạo ra nội dung ban đầu.

Cloudflare đă bắt đầu theo dơi hành vi này, bằng cách đo lường số lượt bot từ các hăng công nghệ lớn yêu cầu quét website và số lượt truy cập gửi trả về cho website.

Cloudflare là hăng công nghệ nổi tiếng Mỹ chuyên cung cấp hạ tầng internet, bảo mật và dịch vụ tăng tốc web. Cụ thể, Cloudflare hoạt động như mạng phân phối nội dung (CDN), tường lửa ứng dụng web (WAF), dịch vụ chống tấn công từ chối dịch vụ (DdoS) và nhiều công cụ tối ưu hóa hiệu suất website.

Nó đóng vai tṛ trung gian giữa máy chủ của website và người dùng, giúp tăng tốc tải trang bằng cách lưu và phân phối nội dung từ các máy chủ gần người dùng; bảo vệ website khỏi các cuộc tấn công mạng (DDoS, bot độc hại, khai thác lỗ hổng); giảm chi phí băng thông và tải cho máy chủ gốc.

Cloudflare hiện hỗ trợ vận hành khoảng 20% lưu lượng internet toàn cầu và phục vụ hàng triệu trang web, từ các blog nhỏ đến nền tảng lớn.

Tỷ lệ crawl-to-refer (thu thập so với giới thiệu truy cập) là thước đo hữu ích để xem các hăng công nghệ “lấy đi” bao nhiêu và “trả lại” bao nhiêu cho website. Ví dụ, tỷ lệ 100:1 nghĩa là bot của công ty đă quét các website 100 lần nhưng chỉ gửi trả lại 1 lượt truy cập.

Liệu đây có thể là cách để đánh giá mức độ “đạo đức” của các công ty trong kỷ nguyên AI? Câu trả lời sẽ tùy thuộc mỗi người. Dưới đây là dữ liệu tuần đầu tháng 9.


Ảnh: Insider

Như bạn thấy, Anthropic nổi bật hẳn lên: 26.500:1, tiếp theo là OpenAI với tỷ lệ 739:1. Theo dữ liệu Cloudflare, Anthropic thu thập nội dung website rất nhiều so với số lượt truy cập mà hăng gửi trả lại.

Điều này khớp với báo cáo của trang Insider từ khoảng một năm trước. Khi đó, bot từ Anthropic và OpenAI quét một số website nhiều đến mức làm chi phí băng thông do lưu lượng truy cập của họ tăng vọt.

Một lập tŕnh viên web từng chứng kiến chi phí điện toán đám mây của khách hàng tăng gấp đôi chỉ trong vài tháng v́ làn sóng bot AI này, trang Insider đưa tin năm ngoái.

Như vậy, các công ty AI không chỉ lấy đi rất nhiều nội dung từ các website và trả lại rất ít, mà c̣n khiến một số chủ sở hữu trang web phải trả hóa đơn cao hơn.

Phản hồi từ Anthropic

Insider hỏi Anthropic v́ sao bot quét nhiều như vậy nhưng trả lại quá ít truy cập cho website. Công ty khởi nghiệp có trụ sở ở San Francisco nói không thể xác nhận tỷ lệ thu thập so với giới thiệu truy cập mà Cloudflare tính toán và cho rằng có thể có “vấn đề” trong phương pháp luận.

Anthropic cũng lưu ư rằng đă ra mắt tính năng t́m kiếm web cho chatbot Claude từ đầu năm nay. Theo Anthropic, điều đó đang tạo ra nhiều lưu lượng truy cập hơn cho website và con số này đang tăng nhanh.

OpenAI không phản hồi khi được Alistair Barr đề nghị b́nh luận. Perplexity trả lời chi tiết và thấu đáo, một phần tập trung vào khả năng mới ở bot trong việc đại diện cho ư định của người dùng, chẳng hạn mong muốn được tiếp cận tri thức trên web một cách tự do.

“Với nội dung công khai, các nhà xuất bản có thể chọn không công khai nội dung của họ. Về mặt dữ kiện, luật bản quyền luôn phân định ranh giới giữa sự thật và diễn đạt. Đó là nền tảng trong chính quá tŕnh t́m hiểu của con người”, người phát ngôn Jesse Dwyer của Perplexity nói với Insider.

Theo Jesse Dwyer, khi thu thập dữ liệu từ website, công ty AI lấy các dữ kiện (ví dụ: ngày sinh của người nổi tiếng), nhưng không được phép sao chép nguyên văn cách diễn đạt sáng tạo của tác giả (ví dụ: đoạn tiểu sử viết về người đó với văn phong riêng).

Một lưu ư: Các con số tạo nên tỷ lệ thu thập so với giới thiệu truy cập chỉ tập trung vào website, không tính hoạt động trong các ứng dụng. Nếu tính cả ứng dụng, tỷ lệ có thể thấp hơn. Tuy nhiên, phương pháp này được áp dụng đồng đều cho tất cả công ty trong bảng xếp hạng này.


Anthropic và OpenAI dùng bot lấy nội dung website rất nhiều nhưng trả lại ít lượng truy cập - Ảnh: Insider

Theo dữ liệu Cloudflare, trong tuần đầu tháng 1, tỷ lệ thu thập so với giới thiệu truy cập của Google là 3,3:1. Con số đó nhảy vọt lên 18:1 trong tuần đầu tháng 4, rồi giảm nhẹ xuống 9:1 trong tuần đầu tháng 7.

Tỷ lệ 5:1 tuần đầu tháng 9 của Google có lẽ là nhờ công cụ t́m kiếm truyền thống, vốn vẫn hiển thị liên kết website trong nhiều kết quả. Tuy nhiên, Google ngày càng tích hợp câu trả lời kiểu chatbot AI vào dịch vụ t́m kiếm, thông qua AI Overviews và AI Mode (Chế độ AI).

Google cho rằng vẫn gửi lưu lượng đến các website và quan tâm đến sức khỏe của hệ sinh thái này.

CEO Cloudflare cố ngăn AI xóa sổ mô h́nh kinh doanh làm nền tảng cho web nhiều thập kỷ

Internet đang chuyển ḿnh, từ thế giới do công cụ t́m kiếm thống trị sang bị chi phối bởi công cụ trả lời bằng AI. Đây là cơn địa chấn kinh tế đe dọa xóa sổ mô h́nh kinh doanh đă làm nền tảng cho web trong nhiều thập kỷ.

Trong khi hầu hết hăng công nghệ đều chạy theo làn sóng AI, ông Matthew Prince (Giám đốc điều hành Cloudflare) lên tiếng cảnh báo điều này.

Theo ông, AI hiện nay không chỉ t́m kiếm và liệt kê nguồn thông tin như Google Search trước đây mà tự tổng hợp và đưa thẳng câu trả lời cho người dùng. Điều này làm thay đổi hẳn cách vận hành và mô h́nh kinh tế của internet, nên cần một “thỏa thuận mới” giữa các bên liên quan (công ty AI, nhà sáng tạo nội dung, trang web).


Matthew Prince cố ngăn AI hủy diệt internet - Ảnh: Getty Images

Trong 25 năm qua, công cụ t́m kiếm của Google đă tạo ra một “bản đồ số” đưa người dùng đi săn t́m thông tin trên khắp web. Điều này tạo ra lưu lượng truy cập và hỗ trợ các thỏa thuận lớn trên internet: Các trang web cho phép Google sao chép dữ liệu của họ để đổi lấy lượt giới thiệu truy cập và giá trị đi kèm. Tiền từ quảng cáo và phí đăng kư đă hỗ trợ cho việc tạo ra nhiều nội dung hơn, từ đó giúp Google hiển thị kết quả t́m kiếm tốt hơn.

Trong kỷ nguyên AI, câu trả lời mới là điều mà nhiều người thực sự cần. Với các công cụ như AI Overviews và AI Mode, ChatGPT từ OpenAI hay Perplexity, người dùng nhận được câu trả lời tổng hợp, thường khiến họ không cần vào nguồn tin gốc.

“Công cụ trả lời hầu như không tạo ra lưu lượng truy cập. Công cụ t́m kiếm từng là động cơ tạo ra doanh thu trên web. Nếu không có lưu lượng truy cập, hệ sinh thái hiện tại - vốn dựa trên mô h́nh kinh doanh đó - sẽ sụp đổ”, Matthew Prince tuyên bố.

Khi tóm tắt nội dung bằng AI ngày càng phổ biến, Google hiện thu thập dữ liệu từ 9 trang web th́ chỉ gửi 1 lượt truy cập thực đến một trong số các trang đó. Cách đây 10 năm, tỷ lệ là 2 trang web mà Google thu thập dữ liệu th́ sẽ gửi lại 1 lượt truy cập, theo dữ liệu từ Barclays.

“Một năm trước, việc kiếm được lưu lượng truy cập từ Google đă khó gấp 5 lần. Giờ là khó gấp gần 10 lần”, Matthew Prince cho hay.

Tỷ lệ thu thập dữ liệu so với gửi lượt truy cập của OpenAI gần như ít hơn Google 100 lần, trong khi Anthropic thậm chí c̣n tệ hơn, Barclays cho hay.

"Chúng ta đang ở một bước ngoặt", CEO Cloudflare nhấn mạnh.

Matthew Prince là CEO hăng công nghệ lớn hiếm hoi cố giải quyết hoặc thậm chí quan tâm đến cuộc khủng hoảng đang lớn dần này. Lư do v́ hầu hết hăng công nghệ lớn hay AI đều có động lực giảm nhẹ giá trị của dữ liệu trong mô h́nh, chatbot và sản phẩm liên quan. Các hăng này đang chi hàng tỉ USD cho GPU, trung tâm dữ liệu và các nhà nghiên cứu AI tài năng. Điều cuối cùng họ muốn làm là phải trả tiền cho dữ liệu.

Cloudflare ở một vị thế khác v́ là hăng hạ tầng, bảo mật và phần mềm, giúp vận hành khoảng 20% internet. Công ty này hoạt động tốt khi web phát triển thịnh vượng và ngược lại.

“Đây là mối đe hiện hữu với internet. Nếu mô h́nh kinh doanh của internet sụp đổ, đây là tin xấu cho Cloudflare”, Matthew Prince thừa nhận.

Gần đây, Cloudflare thực hiện động thái táo bạo: Chặn bot AI theo mặc định và tạo ra hệ thống buộc các công ty AI phải trả tiền để truy cập nội dung website. Nói cách khác, Cloudflare biến mối quan hệ một chiều là các hăng công nghệ lấy dữ liệu miễn phí thành giao dịch thị trường.

Những động thái này đă gây tranh căi. Guillermo Rauch, nhà sáng lập kiêm Giám đốc điều hành hăng cung cấp nền tảng đám mây Vercel, gọi đó là “chặn bước tiến”.

Perplexity bị Cloudflare cáo buộc t́m cách né hàng rào kỹ thuật số mới. Thế nhưng, Perplexity phản bác rằng Cloudflare “chặn quá mức”, làm suy giảm quyền lựa chọn của người dùng và cản trở các dịch vụ sáng tạo cạnh tranh với “những hăng lớn đă thành danh”.

“Ban lănh đạo Cloudflare hoặc là hiểu sai nghiêm trọng về những điều cơ bản của AI, hoặc chỉ đơn thuần là muốn gây chú ư”, Perplexity viết trên blog.

Theo Matthew Prince, hầu hết hăng công nghệ đều khá sẵn sàng với đề xuất của Cloudflare rằng họ nên trả tiền cho dữ liệu để vận hành các công cụ trả lời AI.

“Mọi công ty AI có tầm nh́n dài hạn đều hiểu rằng đến một lúc nào đó họ sẽ phải trả tiền cho nội dung gốc. Google là công ty có tầm nh́n dài hạn. OpenAI cũng vậy. Bạn có muốn đánh cược xem công ty nào vẫn tồn tại sau 10 hoặc 20 năm nữa không? Google sẽ vẫn ở đây và OpenAI cũng vậy. Perplexity? Tôi nghi ngờ điều đó”, doanh nhân 50 tuổi người Mỹ nói.


All times are GMT. The time now is 02:06.

VietBF - Vietnamese Best Forum Copyright ©2005 - 2025
User Alert System provided by Advanced User Tagging (Pro) - vBulletin Mods & Addons Copyright © 2025 DragonByte Technologies Ltd.

Page generated in 0.09902 seconds with 9 queries