Như châu chấu kỹ thuật số, các bot AI của OpenAI và Anthropic gây ra tàn phá và tăng chi phí cho các trang web

Edd Coates biết có điều gì đó không ổn. Cơ sở dữ liệu trực tuyến của anh đang bị tấn công. Coates là một nhà thiết kế trò chơi và là người tạo ra Game UI Database. Đó là một dự án tâm huyết mà anh đã dành 5 năm để tổng hợp hơn 56.000 ảnh chụp màn hình giao diện người dùng của các trò chơi điện tử. Nếu bạn muốn biết thanh máu trong “Fallout 3” trông như thế nào và so sánh nó với màn hình kho đồ trong “Breath of the Wild”, Coates có thể giúp bạn.

Vài tuần trước, anh nói, trang web bị chậm đi rõ rệt. Nó mất gấp ba lần thời gian để tải trang, người dùng gặp lỗi cổng 502, và trang chủ bị tải lại 200 lần mỗi giây. “Tôi nghĩ đó là một cuộc tấn công DDoS nhỏ lẻ nào đó,” Coates nói với Business Insider. Nhưng khi kiểm tra nhật ký hệ thống, anh nhận ra rằng luồng truy cập đang đến từ một địa chỉ IP duy nhất thuộc sở hữu của OpenAI.

Trong cuộc đua xây dựng trí tuệ nhân tạo tiên tiến nhất thế giới, các công ty công nghệ đã tỏa ra khắp web, thả ra những botnet như một đàn châu chấu kỹ thuật số để lùng sục các trang web tìm bất cứ thứ gì họ có thể sử dụng để nuôi dưỡng các mô hình tham lam của họ. Thường thì họ tìm kiếm dữ liệu huấn luyện chất lượng cao, nhưng họ cũng tìm kiếm các thông tin khác có thể giúp các mô hình AI hiểu về thế giới. Cuộc đua đang diễn ra để thu thập càng nhiều thông tin càng tốt trước khi nó cạn kiệt, hoặc các quy tắc về những gì được chấp nhận thay đổi. Một nghiên cứu ước tính rằng nguồn cung cấp dữ liệu huấn luyện AI có thể sử dụng được của thế giới có thể cạn kiệt vào năm 2032. Toàn bộ kho tàng kinh nghiệm của con người trên mạng có thể sớm không đủ để giữ cho ChatGPT cập nhật. Một nguồn tài nguyên như Game UI Database, nơi một con người đã thực hiện công việc tỉ mỉ là làm sạch và phân loại hình ảnh, hẳn phải trông giống như một bữa tiệc buffet thoải mái.

Hóa đơn đám mây lớn hơn

Đối với chủ sở hữu trang web nhỏ với nguồn lực hạn chế, chi phí để làm chủ nhà cho những đàn bot đói khát có thể là một gánh nặng đáng kể. “Trong khoảng 10 phút, chúng tôi đã truyền tải khoảng 60 đến 70 gigabyte dữ liệu,” Jay Peet, một nhà thiết kế trò chơi đồng nghiệp quản lý các máy chủ lưu trữ cơ sở dữ liệu của Coates nói. “Dựa trên giá băng thông theo yêu cầu của Amazon, điều đó sẽ tốn 850 đô la mỗi ngày.”

Coates không kiếm được tiền từ Game UI Database – thực tế, anh vận hành trang web với khoản lỗ – nhưng anh lo ngại rằng hành động của các công ty AI khổng lồ có thể gây nguy hiểm cho các nhà sáng tạo độc lập vốn phụ thuộc vào trang web của họ để kiếm sống. “Việc hành vi của OpenAI đã làm tê liệt trang web của tôi đến mức nó ngừng hoạt động chỉ là phần thưởng cuối cùng,” anh nói.

Một người phát ngôn của OpenAI cho biết bot của công ty đang truy vấn trang web của Coates khoảng hai lần mỗi giây. Người đại diện nói thêm rằng OpenAI đang thu thập dữ liệu từ trang web như một phần của nỗ lực hiểu cấu trúc của web, không phải để lấy cắp dữ liệu. “Chúng tôi tạo điều kiện dễ dàng cho các nhà xuất bản web từ chối tham gia hệ sinh thái của chúng tôi và bày tỏ sở thích của họ về cách các trang web và nội dung của họ hoạt động với các sản phẩm của chúng tôi,” người phát ngôn nói thêm. “Chúng tôi cũng đã xây dựng các hệ thống để phát hiện và điều chỉnh tải trang web để trở thành những người tham gia web lịch sự và chu đáo.”

Các vấn đề về Planetary

Joshua Gross, người sáng lập studio sản phẩm kỹ thuật số Planetary, đã chia sẻ với BI rằng ông gặp phải vấn đề tương tự sau khi thiết kế lại trang web cho một trong các khách hàng của mình. Ngay sau khi ra mắt, lưu lượng truy cập tăng vọt và khách hàng thấy chi phí điện toán đám mây của họ tăng gấp đôi so với các tháng trước. “Một cuộc kiểm tra nhật ký lưu lượng truy cập cho thấy một lượng lớn lưu lượng đến từ các bot thu thập dữ liệu,” Gross nói. “Vấn đề chủ yếu là Anthropic tạo ra một lượng lớn lưu lượng truy cập vô nghĩa,” ông nói thêm, đề cập đến các yêu cầu lặp đi lặp lại đều dẫn đến lỗi 404.

Jennifer Martinez, người phát ngôn của Anthropic, cho biết công ty cố gắng đảm bảo rằng các nỗ lực thu thập dữ liệu của họ minh bạch và không gây xâm phạm hoặc gián đoạn. Cuối cùng, Gross nói, ông đã có thể ngăn chặn dòng lưu lượng truy cập bằng cách cập nhật mã robots.txt của trang web. Robots.txt là một giao thức, được sử dụng từ cuối những năm 1990, cho phép các trình thu thập thông tin biết được nơi chúng có thể và không thể đi. Nó được chấp nhận rộng rãi như một trong những quy tắc không chính thức của web.

Chặn bot AI

Các hạn chế robots.txt nhắm vào các công ty AI đã tăng vọt. Một nghiên cứu cho thấy giữa tháng 4 năm 2023 và tháng 4 năm 2024, gần 5% tất cả dữ liệu trực tuyến và khoảng 25% dữ liệu chất lượng cao nhất đã thêm các hạn chế robots.txt cho các botnet AI. Cùng nghiên cứu đó phát hiện ra rằng 25,9% các hạn chế như vậy là dành cho OpenAI, so với 13,3% cho Anthropic và 9,8% cho Google. Các tác giả cũng phát hiện ra rằng nhiều chủ sở hữu dữ liệu cấm thu thập trong điều khoản dịch vụ của họ nhưng không có hạn chế robots.txt. Điều đó khiến họ dễ bị thu thập không mong muốn từ các bot chỉ dựa vào robots.txt.

OpenAI và Anthropic đã nói rằng các bot của họ tôn trọng robots.txt, nhưng BI đã báo cáo các trường hợp gần đây trong đó cả hai công ty đã bỏ qua các hạn chế.

Các chỉ số quan trọng bị ảnh hưởng

David Senecal, kiến trúc sư sản phẩm chính về gian lận và lạm dụng tại gã khổng lồ mạng Akamai, cho biết công ty của ông theo dõi các botnet đào tạo AIdo Google, Microsoft, OpenAI, Anthropic và các công ty khác quản lý. Trong số người dùng của Akamai, ông nói, các bot này gây tranh cãi. “Chủ sở hữu trang web thường không có vấn đề gì với việc dữ liệu của họ được lập chỉ mục bởi các công cụ tìm kiếm web như Googlebot hoặc Bingbot,” Senecal nói. “Tuy nhiên, một số không thích ý tưởng dữ liệu của họ được sử dụng để đào tạo một mô hình.”

Ông nói rằng một số người dùng phàn nàn về chi phí đám mây tăng hoặc các vấn đề về ổn định do lưu lượng truy cập tăng. Những người khác lo ngại các botnet gây ra vấn đề về sở hữu trí tuệ hoặc sẽ “làm ô nhiễm các chỉ số quan trọng” như tỷ lệ chuyển đổi. Khi một bot AI liên tục truy cập trang web của bạn, các chỉ số lưu lượng truy cập của bạn có thể sẽ không phản ánh đúng thực tế. Điều đó gây ra vấn đề cho các trang web quảng cáo trực tuyến và cần theo dõi hiệu quả của việc tiếp thị này.

Senecal nói rằng robots.txt vẫn là cách tốt nhất để quản lý việc thu thập và trích xuất không mong muốn, mặc dù đó là một giải pháp không hoàn hảo. Nó yêu cầu người tạo tên miền biết tên cụ thể của từng bot mà họ muốn chặn, và cần các nhà điều hành bot tự nguyện tuân thủ. Ngoài ra, Senecal nói, Akamai theo dõi các bot “mạo danh” khác nhau giả dạng là trình thu thập web của Anthropic hoặc OpenAI, điều này làm cho việc phân tích chúng thậm chí còn khó khăn hơn.

Trong một số trường hợp, Senecal nói thêm, các botnet sẽ thu thập toàn bộ trang web mỗi ngày chỉ để xem những gì đã thay đổi, một cách tiếp cận thô thiển dẫn đến một lượng lớn dữ liệu trùng lặp. “Cách thu thập dữ liệu này rất lãng phí,” ông nói, “nhưng cho đến khi tư duy về chia sẻ dữ liệu thay đổi và một cách chia sẻ dữ liệu phát triển và trưởng thành hơn tồn tại, việc trích xuất sẽ vẫn là hiện trạng.”

‘Chúng tôi không phải là Google’

Roberto Di Cosmo là giám đốc của Software Heritage, một cơ sở dữ liệu phi lợi nhuận được tạo ra để “thu thập, bảo tồn và chia sẻ tất cả mã nguồn có sẵn công khai vì lợi ích của xã hội.” Di Cosmo nói rằng mùa hè vừa qua, ông đã thấy một sự gia tăng chưa từng có của các botnet AI trích xuất cơ sở dữ liệu trực tuyến, khiến trang web trở nên không phản hồi đối với một số người dùng. Các kỹ sư của ông đã dành hàng giờ để xác định và đưa vào danh sách đen hàng nghìn địa chỉ IP đang tạo ra lưu lượng truy cập, chuyển hướng nguồn lực khỏi các nhiệm vụ quan trọng khác.

“Chúng tôi không phải là Google. Chúng tôi có một lượng tài nguyên hạn chế để vận hành hoạt động này,” Di Cosmo nói. Ông là một người ủng hộ truy cập mở và về mặt lý thuyết, không phản đối các công ty AI sử dụng cơ sở dữ liệu để đào tạo mô hình. Software Heritage đã có một quan hệ đối tác với Hugging Face, công ty đã sử dụng cơ sở dữ liệu để giúp đào tạo mô hình AI StarCoder2 của họ.

“Phát triển các mô hình học máy bao gồm các tài nguyên số chung này có thể dân chủ hóa việc tạo ra phần mềm, cho phép một đối tượng rộng lớn hơn được hưởng lợi từ cuộc cách mạng kỹ thuật số, một mục tiêu phù hợp với giá trị của chúng tôi,” Di Cosmo nói, “nhưng nó phải được thực hiện một cách có trách nhiệm.”

Software Heritage đã công bố một bộ nguyên tắc chi phối cách thức và thời điểm họ đồng ý chia sẻ dữ liệu của mình. Tất cả các mô hình được tạo ra bằng cách sử dụng cơ sở dữ liệu phải là mã nguồn mở và không bị “độc quyền vì lợi ích cá nhân.” Và những người tạo ra mã cơ bản phải có khả năng từ chối.

“Đôi khi, những người này vẫn lấy được dữ liệu,” Di Cosmo nói, đề cập đến các botnet trích xuất hàng trăm tỷ trang web một cách riêng lẻ.

“Bị Sập site”

“Chúng tôi đã bị sập website vài lần do các bot AI,” Tania Cohen, giám đốc điều hành của 360 Giving, một cơ sở dữ liệu phi lợi nhuận về các khoản tài trợ và cơ hội từ thiện, cho biết. Cohen nói rằng đối với một tổ chức từ thiện nhỏ không có đội ngũ kỹ thuật nội bộ, những đợt tăng đột biến về lưu lượng truy cập đã gây ra nhiều gián đoạn nghiêm trọng.

Điều còn đáng thất vọng hơn, cô nói thêm, là phần lớn thông tin có thể dễ dàng tải xuống bằng các cách khác và không cần phải được thu thập. Nhưng các botnet AI tham lam cứ thu thập trước rồi mới đặt câu hỏi sau.

“Hoàn toàn kinh tởm”

Coates cho biết Cơ sở dữ liệu Giao diện Trò chơi của anh đã hoạt động trở lại, và anh tiếp tục bổ sung vào đó. Có hàng triệu người như Coates, bị ám ảnh về một góc nhỏ của thế giới, buộc phải đổ hàng nghìn giờ vào một công việc mà không ai khác có thể tìm thấy ý nghĩa. Đó là một trong những lý do để yêu thích internet. Và đó lại là một lĩnh vực khác của xã hội bị ảnh hưởng bởi các tác động lan tỏa của cuộc cách mạng AI.

Chi phí máy chủ của một nhà điều hành cơ sở dữ liệu nhỏ có vẻ không đáng nhắc đến. Nhưng câu chuyện của Coates là biểu tượng cho một câu hỏi lớn hơn: Khi AI đến để thay đổi thế giới, ai sẽ phải gánh chịu chi phí?

Coates duy trì cơ sở dữ liệu như một nguồn tài liệu tham khảo cho các nhà thiết kế trò chơi đồng nghiệp, anh nói. Anh lo ngại rằng AI tạo sinh, vốn phụ thuộc vào công việc của các nhà sáng tạo con người, cuối cùng sẽ thay thế chính những nhà sáng tạo đó. “Khi phát hiện ra rằng công việc của tôi không chỉ bị đánh cắp bởi một tổ chức lớn mà còn được sử dụng để gây hại cho chính những người mà tôi đang cố gắng giúp đỡ, tôi cảm thấy hoàn toàn kinh tởm,” Coates nói.

Tác giả: Darius Rafieyan

Link bài gốc: Like digital locusts, OpenAI and Anthropic AI bots cause havoc and raise costs for websites | Bài được đăng vào ngày 19/09/2024

Dịch giả: Hoàng Phan – KenkAI Nhiều thứ hay

(*) Bạn có thể sao chép và chia sẻ thoải mái.

(**) Follow KenkAI Nhiều thứ hay để đọc các bài dịch khác và cập nhật thông tin bổ ích hằng ngày.

Post Views: 35