View Single Post
  #1  
Old  Default OpenAI đă t́m ra cách để ngăn chặn DeepSeek cho sao chép câu trả lời của ḿnh
Chỉ với một yêu cầu đơn giản, OpenAI dường như đă t́m ra cách để ngăn chận các đối thủ cạnh tranh của ḿnh, bao gồm cả DeepSeek sao chép kết quả của họ.

Trong một biện pháp được xem là để bảo vệ tài sản trí tuệ của ḿnh, OpenAI vừacho triển khai yêu cầu xác minh ID chính phủ đối với các công ty muốn truy cập vào các mô h́nh AI mới nhất nhất của họ. Mặc dù công ty đưa ra lư do chính thức là nhằm ngăn chặn việc lạm dụng, nhưng có vẻ như mối lo ngại sâu sắc hơn đă thúc đẩy hành động này: đó là việc đầu ra từ các mô h́nh của OpenAI đang bị các đối thủ cạnh tranh thu thập để huấn luyện cho hệ thống AI riêng của họ.

Một nghiên cứu mới từ Copyleaks, công ty chuyên về phát hiện ra nội dung AI, đă cung cấp bằng chứng ủng hộ cho quyết định này của OpenAI. Bằng cách cho sử dụng hệ thống nhận dạng "dấu vân tay" phong cách của các mô h́nh AI lớn, Copyleaks đă phát hiện ra rằng, có khoảng 74% đầu ra từ mô h́nh đối thủ TQ DeepSeek-R1 có thể được phân loại là do OpenAI đă viết. Con số này không chỉ cho thấy sự trùng lặp mà c̣n ngụ ư về một mức độ bắt chước đáng kể.(chính xác hơn là "cố t́nh lấy cắp mà không hề xin phép")

Điều thú vị là khi Copyleaks cho kiểm tra các mô h́nh AI khác như phi-4 của Microsoft và Grok-1 của Elon Musk, họ cũng ghi nhận gần như không có sự tương đồng với OpenAI, với tỷ lệ "không đồng thuận" lần lượt là 99,3% và 100%. Mô h́nh Mixtral của Mistral tuy có một số điểm tương đồng, nhưng con số của DeepSeek vẫn nổi bật ra một cách đáng ngạc nhiên.

OpenAI đang yêu cầu các công ty phát triển phải xác thực ra định danh rơ ràng nếu muốn sử dụng API của ḿnh

Nghiên cứu này nhấn mạnh đến một thực tế đáng chú ư: ngay cả khi các mô h́nh được yêu cầu viết với giọng điệu hoặc định dạng khác nhau, chúng vẫn để lại các chữ kư với phong cách riêng biệt có thể phát hiện ra được, tương tự như "dấu vân tay ngôn ngữ". Những dấu vân tay này tồn tại xuyên suốt trong các nhiệm vụ, chủ đề và prompt khác nhau, và giờ đây có thể được truy nguyên về nguồn gốc với độ chính xác nhất định.

Đầu năm nay, chỉ sau khi DeepSeek gây ra ấn tượng với cộng đồng AI qua các mô h́nh lư luận có hiệu suất cao tương tự như sản phẩm của OpenAI, công ty do Sam Altman đứng đầu đă bày tỏ sự lo ngại công khai: "Chúng tôi biết và đang xem xét những dấu hiệu cho thấy DeepSeek có thể đă không phù hợp khi cho 'chưng cất' các mô h́nh của chúng tôi"

"Chưng cất" (Distillation) là một kỹ thuật trong nghiên cứu AI, trong đó các công ty phát triển huấn luyện các mô h́nh mới bằng cách sử dụng đầu ra của các mô h́nh hiện có sẳn khác. Mặc dù phương pháp này được phổ biến rộng răi trong nghiên cứu học thuật, việc thực hiện mà không có sự cho phép có thể đă vi phạm điều khoản dịch vụ của OpenAI và đặt ra câu hỏi về quyền sở hữu trí tuệ trong lĩnh vực AI.

Bài báo nghiên cứu của DeepSeek về mô h́nh R1 của họ có mô tả việc cho sử dụng "kỹ thuật chưng cất" với các mô h́nh mă nguồn mở, nhưng không hề đề cập đến OpenAI. Khi được hỏi về những lời cáo buộc này hồi đầu năm nay, DeepSeek đă không đưa ra b́nh luận nào

DeepSeek vướng phải nhiều sự nghi vấn về việc sao chép kết quả đầu ra từ ChatGPT của OpenAI

Tuy nhiên, t́nh huống này đặt ra một câu hỏi về tính nhất quán của OpenAI. Một số phê b́nh gia chỉ ra rằng, chính OpenAI đă cho thiết kế ra các mô h́nh ban đầu của ḿnh bằng cách đi thu thập số liệu từ web, bao gồm nội dung từ các nơi xuất bản tin tức, tác giả và người sáng tạo, thường không có sự đồng ư của họ. Liệu rằng có phải là chuyện đạo đức giả khi OpenAI lên tiếng phàn nàn khi người khác sử dụng đầu ra của họ theo cách thức tương tự?

"Mọi thứ thực sự xoay quanh ở sự đồng ư và minh bạch", Alon Yamin, CEO của Copyleaks đưa ra lời giải thích. Ông phân biệt giữa hai vấn đề: huấn luyện trên nội dung của con người có bản quyền mà không có sự cho phép là một vấn đề, nhưng việc sử dụng đầu ra của các hệ thống AI độc quyền để huấn luyện các mô h́nh cạnh tranh lại là một vấn đề khác. Điều đó giống như cho đảo ngược kỹ thuật sản phẩm của đối thủ.

CEO Yamin lập luận rằng, trong khi cả hai phương thức đều gây ra tranh căi về mặt đạo đức, việc huấn luyện trên đầu ra của OpenAI đặt ra rủi ro về sự cạnh tranh, v́ về lư thuyết chuyển giao các đổi mới khó khăn mà không có sự đồng ư hoặc sự bồi thường cho công ty phát triển ban đầu.

Khi các công ty AI đua nhau xây dựng các mô h́nh ngày càng mạnh mẽ hơn, cuộc tranh luận về ai sẽ có quyền sở hữu cái ǵ và ai có thể huấn luyện trên số liệu nào đang trở nên gay gắt hơn. Các phương pháp như hệ thống lấy dấu vân tay kỹ thuật số của Copyleaks cung cấp một cách tiềm năng để theo dơi và xác minh quyền tác giả ở cấp độ mô h́nh.

Đối với OpenAI và các đối thủ của họ, cuộc chiến nhằm bảo vệ tài sản trí tuệ AI mới chỉ bắt đầu, và có vẻ như việc yêu cầu cần xác minh ID chỉ là bước đầu tiên trong một hành tŕnh dài để xác định ra ranh giới pháp lư và đạo đức trong thời đại bùng nổ trí tuệ nhân tạo AI khắp nơi.
VIETBF Diễn Đàn Hay Nhất Của Người Việt Nam

HOT NEWS 24h

HOT 3 Days

NEWS 3 Days

HOT 7 Days

NEWS 7 Days

HOME

Breaking News

VietOversea

World News

Business News

Car News

Computer News

Game News

USA News

Mobile News

Music News

Movies News

History

Thơ Ca

Sport News

Stranger Stories

Comedy Stories

Cooking Chat

Nice Pictures

Fashion

School

Travelling

Funny Videos

Canada Tin Hay

USA Tin Hay


trungthuc
R8 Vơ Lâm Chí Tôn
Release: 04-19-2025
Reputation: 330102


Profile:
Join Date: Jul 2020
Location: California
Posts: 11,257
Last Update: None Rating: None
Attached Thumbnails
Click image for larger version

Name:	f141e59d75093d904f716c3fad08871a-48844894996449593625532-1744981771613-1744981771980612252645.jpg
Views:	0
Size:	42.8 KB
ID:	2515719  
trungthuc_is_offline
Thanks: 408
Thanked 5,870 Times in 3,568 Posts
Mentioned: 17 Post(s)
Tagged: 0 Thread(s)
Quoted: 385 Post(s)
Rep Power: 32 trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10
trungthuc Reputation Uy Tín Level 10trungthuc Reputation Uy Tín Level 10
 
Page generated in 0.04771 seconds with 10 queries