Các kho lưu trữ trực tuyến đang biến mất – và chúng đang mang theo lịch sử của chúng ta.
(Nguyên văn tiếng Anh của tiêu đề là: We’re about to enter the Digital Dark Ages)
Cuộc Tận Thế Kỹ Thuật Số lâu nay được hứa hẹn cuối cùng cũng đã đến, và nó được báo trước bởi một bài đăng trên blog.
Được đăng vào ngày 18 tháng 7, tiêu đề của bài đăng nghe khá ẩn dật. “Các liên kết Google URL Shortener sẽ không còn khả dụng nữa,” nó tuyên bố. Tôi biết, tôi biết – không phải là một cuộc tấn công của những con zombie ngoài hành tinh từ chiều không gian chết. Nhưng tin tức này vẫn khiến tôi hoảng sợ. Nó có nghĩa là một phần khác của mạng web sắp biến mất.
Đây là bản chất: Google từng có một dịch vụ trực tuyến tạo ra các phiên bản ngắn gọn, thân thiện với người dùng của những đường dẫn URI dài, rườm rà về mặt thương mại – những địa chỉ chính là những thứ xác định mọi thứ trên mạng web. Các URL ngắn hơn dễ theo dõi và tốt hơn cho thương mại trực tuyến. Google đã ngừng việc rút ngắn địa chỉ vào năm 2019, nhưng những URL ngắn gọn mà nó đã tạo ra vẫn tiếp tục hoạt động như dự định. Nhấp vào một trong số chúng và nó sẽ đưa bạn đến trang web đúng, theo cách nó được thiết kế.
Không còn nữa. Trong bài đăng trên blog, Google thông báo rằng vào năm sau, tất cả các URL rút ngắn hiện có sẽ bị tắt. Bùm. Và trên mạng web, nếu URL của bạn không hoạt động, bạn cũng như không tồn tại. Bạn trở nên không thể tiếp cận được. Mà không có việc đổi tên lại một cách vất vả, tất cả những thứ nằm phía sau những liên kết đó – hàng tỷ, một thập kỷ nội dung kỹ thuật số – sẽ trở nên không thể truy cập được. Biến mất. Đừng hỏi ai là người mà thông báo 404 vang lên.
Bây giờ, việc làm cho một lượng lớn nội dung web trở nên vô hình không phải là sự kết thúc của thế giới. Không phải chỉ bởi điều đó. Vấn đề là, loại việc này cứ tiếp tục xảy ra. Và nó đang trở nên tồi tệ hơn. Các mạng xã hội phá sản. Các trang web báo chí kỹ thuật số đóng cửa. Các công ty rút lại các sản phẩm trực tuyến của họ. Các liên kết bị hư hỏng. Các tệp không tìm thấy. Đám mây, như những kẻ nói đùa, thực ra chỉ là “máy tính của người khác”. Và khi các đám mây bị tắt, thậm chí cả lớp bạc cũng không còn để kể câu chuyện.
Có thể hiện tại những điều này không quá quan trọng. Nhưng nó sẽ trở nên quan trọng. Internet đã trở thành kho lưu trữ mặc định của lịch sử và văn hóa của chúng ta. Và toàn bộ điều này đang bị thiêu rụi trước mắt chúng ta, như Thư viện Alexandria – nhưng còn tệ hơn. Lần đầu tiên kể từ khi con người bắt đầu khắc chữ vào đá, chúng ta đang tạo ra một thời đại không có lịch sử. Chúng ta sắp bước vào Kỷ Nguyên Tối Tăm Kỹ Thuật Số.
Những nỗ lực định lượng quy mô của vấn đề này thật đau lòng. Một nửa số đường link trong các quyết định của Tòa án Tối cao Hoa Kỳ không còn dẫn đến thông tin được trích dẫn. Một báo cáo năm 2021 cho thấy một phần tư trong số hơn 2,2 triệu đường link siêu văn bản trên trang web của The New York Times đã bị hỏng. Tệ hơn nữa, Trung tâm Nghiên cứu Pew ước tính rằng một phần tư tất cả nội dung được đưa lên web từ năm 2013 đến 2023 không thể truy cập được – nghĩa là gần 40% web như nó tồn tại vào năm 2013 đơn giản là không còn nữa sau một thập kỷ.
Sự xuống cấp của những liên kết đó sẽ không khiến tôi hoảng sợ đến thế nếu chúng không thay thế những gì đã có trước đó – nếu các kho lưu trữ của bảo tàng và những giá sách bụi bặm trong thư viện vẫn đóng vai trò là kho chứa ký ức tập thể của chúng ta. Không phải là tôi nhớ những ngày phải vật lộn với các tờ báo cũ được bảo quản trên vi phim, hay cố gắng nói ngọt để thuyết phục một thủ thư cho mượn sách liên thư viện quốc tế. Tôi rất vui khi nhiều bộ phim cũ đang được phát trực tuyến và nhiều cuốn sách đã ngừng in ấn giờ đây chỉ cách vài cú nhấp chuột. Nhưng các kho lưu trữ và cơ sở dữ liệu không chỉ đơn thuần là nơi để lưu giữ những thứ cũ; những gì chúng ta lưu giữ định nghĩa chúng ta là ai. Ngày nay, quá nhiều thứ chỉ tồn tại dưới dạng kỹ thuật số, đến nỗi khi chúng biến mất, nó để lại một khoảng trống trong nền văn hóa chung của chúng ta.
Gawker đã không còn. Kho lưu trữ của The Awl, trang web phê bình văn hóa được yêu thích, cũng vậy. Bạn có thể đến thư viện và đọc toàn bộ nội dung của những tờ báo đã ngừng hoạt động từ lâu như Los Angeles Herald Examiner hay New York Newsday, nhưng hãy cầu Chúa phù hộ nếu bạn muốn đọc những bài báo cũ của Vice. Những tranh chấp về quyền sở hữu của cái từng là Paramount đã dẫn đến việc xóa bỏ hàng thập kỷ các chương trình trên MTV và Comedy Central.
Kho lưu trữ của Cartoon Network đã biến mất. Cũng như Yahoo Groups, Yahoo Answers, phần lớn dịch vụ ảnh Imgur, những phần “cay đắng” của Tumblr bị xóa trong đợt thanh lọc nội dung khiêu dâm, tất cả những gì từng diễn ra trên Friendster và các mạng xã hội tiền Facebook khác, Club Penguin, Neopets, Geocities, AOL và Prodigy. Vô số trò chơi điện tử được tạo ra cho các hệ thống lỗi thời giờ chỉ còn là những ký ức không thể chơi lại được.
Ổ cứng có tuổi thọ hữu hạn, và những chiếc được ngành công nghiệp âm nhạc sử dụng để lưu trữ vào những năm 1990 trước khi chuyển đổi sang kỹ thuật số đang dần hư hỏng. Bộ Cựu chiến binh Hoa Kỳ được yêu cầu bảo quản tất cả hồ sơ y tế trong 75 năm sau khi một cựu chiến binh qua đời – nhưng họ đang gặp vấn đề, một phần do hệ thống hồ sơ kỹ thuật số không ổn định. Chưa kể đến những thứ như ảnh cá nhân, phần lớn giờ đây chỉ tồn tại trên điện thoại của bạn và không còn ở đâu khác. Mọi email bạn đã gửi hoặc nhận trong công việc trước đây, hay bất cứ thứ gì mà người thân đã mất để lại trên máy tính giờ không thể sử dụng được? Đây là những thứ làm nên con người chúng ta. Vậy mà tôi dám cá là bạn sẽ không thể tìm thấy chúng.
Luôn có những linh hồn dũng cảm ra ngoài kia cố gắng cứu vớt những cuộn giấy từ một thư viện đang bốc cháy. Nhưng thật khó để cứu vớt được những thứ chỉ tồn tại trong không gian ảo. “Nếu một thư viện bị cháy, đó là một thảm họa, nhưng hầu hết các cuốn sách vẫn tồn tại ở nơi khác,” Mark Graham, một chuyên gia lưu trữ internet hàng đầu, nói. “Nhưng thế giới kỹ thuật số vốn dĩ rất mong manh và có thể tạm thời.”
Graham là giám đốc của Wayback Machine, một dự án đã tồn tại nhiều thập kỷ nhằm thu thập và lưu trữ bản sao kỹ thuật số của các trang web, vì mục đích lưu giữ lịch sử. Gawker? Vâng, họ đã lưu trữ phần lớn nội dung đó. Và nghiên cứu của Pew mà tôi đã đề cập, cho thấy hơn một phần ba của internet gần đây đã biến mất? “Khi chúng tôi lặp lại nghiên cứu của họ bằng dữ liệu của họ, chúng tôi thấy rằng khoảng hai phần ba trong số đó đã được lưu trữ an toàn trên Wayback Machine,” Graham nói. “Vì vậy, chỉ có khoảng một phần chín là đã biến mất.”
Máy Wayback tự động lưu trữ hơn một tỷ URL mỗi ngày. Nó cũng thực hiện bảo trì liên tục trên hàng trăm triệu liên kết trên tất cả 320 phiên bản ngôn ngữ của Wikipedia, những liên kết này đang bị thoái hóa với tốc độ 10.000 URL mỗi ngày. Gần đây nhất, Graham đã làm việc để bảo tồn 5.000 video từ một kênh YouTube do các nhà hoạt động người Rohingya điều hành, những người đã bị diệt chủng vào năm 2017. “Họ yêu cầu chúng tôi lưu trữ nó vì YouTube thường xuyên xóa video khỏi nền tảng của họ,” Graham nói. “Họ thậm chí không để lại siêu dữ liệu (metadata), vì vậy bạn không biết những gì đã bị xóa.” Ông nói rằng ông đã lấy được tất cả các video ngoại trừ một video, vì nó bị hạn chế độ tuổi.
Thông thường, trở ngại lớn nhất của Wayback Machine là các bức tường thu phí. Hầu hết các bài báo trong các tạp chí khoa học trên thế giới, ví dụ, đều có sẵn cho bất kỳ ai có liên kết với một trường đại học. Nhưng các bài báo này quá đắt đỏ với phần còn lại của chúng ta – ngay cả khi tiền thuế của chúng ta đã trả cho nghiên cứu mà chúng mô tả. Một kho lưu trữ không thực sự là một kho lưu trữ nếu không ai có thể chi trả khoản phí gia nhập.
Nhưng bây giờ có một mối đe dọa mới đối với việc lưu trữ cuộc sống của chúng ta: trí tuệ nhân tạo. Khi các trang web không muốn để trí tuệ nhân tạo hút nội dung của họ, họ chặn một loại máy thu thập số liệu kỹ thuật số nhất định – cùng một loài sinh vật mà Wayback Machine sử dụng. “Điều đó đã xảy ra gần như một sớm một chiều”, Graham nói. Trí tuệ nhân tạo, với sự thèm khát không ngừng nghỉ của nó đối với dữ liệu huấn luyện, không thể truy cập các trang web. Nhưng các nhà bảo tồn cũng không thể. Trong bối cảnh của trí tuệ nhân tạo, nhiều trí tuệ hơn sẽ biến mất.
Hãy rõ ràng: Đây không chỉ là về việc mất một vài bài báo hoặc đoạn phim từ bộ phim hoạt hình yêu thích của bạn trên Adult Swim. Những gì một kho lưu trữ có thể lưu giữ, cho đến những định dạng phù hợp với tủ hồ sơ hoặc ngân hàng dữ liệu của nó, sẽ quyết định những gì được ghi nhớ. Nếu bạn bảo quản hồ sơ ngân hàng từ thế kỷ 18 nhưng không phải là mẫu may, thì sổ sách của bạn sẽ bỏ qua rất nhiều người. Tương tự, nếu kho lưu trữ kỹ thuật số của bạn chỉ lưu giữ hồ sơ của các doanh nghiệp có lợi nhuận – vì những công ty phá sản sẽ xóa sạch máy chủ của họ – bạn sẽ mất ký ức về mọi thứ mà những công ty đã chết đó đã phải vất vả làm việc. Và những gì được ghi nhớ về quá khứ sẽ quyết định những gì chúng ta có thể làm trong hiện tại. “Xã hội là bộ nhớ,” Marlene Manoff, người đã từng là chiến lược gia thu thập cao cấp tại Thư viện MIT, nói. “Khi bạn mất bộ nhớ đó, điều đó có nghĩa là gì?”
Ổ cứng không thể đọc được và các đường dẫn biến mất không phải là mối đe dọa duy nhất đối với hồ sơ lịch sử. Hãy xem xét về bức ảnh tự sướng. Cách đây 15 năm, một nhà nghiên cứu từ Viện Hải dương học Scripps tên là Loren McClenachan muốn biết liệu đánh bắt quá mức và những thay đổi về môi trường có làm cho cá nhỏ lại hay không. Vì vậy, cô ấy đã xem xét hàng chục năm hình ảnh của những chuyến câu cá thể thao thắng cuộc ở Key West, Florida. Công ty tàu đánh cá đã tổ chức các cuộc thi này, và họ đã giữ lại tất cả các bức ảnh vật lý, hầu hết trong số đó có ngày được viết tay ở mặt sau.
Được trang bị những tài liệu đó, McClenachan đã có thể chỉ ra rằng trong hơn nửa thế kỷ qua, kích thước của những con cá đoạt giải thưởng đã giảm hơn 50%. Không có dữ liệu đó, nếu tất cả những người đánh cá đều lưu giữ hồ sơ về những con cá họ bắt được trên điện thoại của mình. Thay vào đó, chúng ta sẽ phải đối mặt với những gì được gọi là “hội chứng cơ sở thay đổi” – giả định phổ biến rằng bất cứ điều gì bình thường ngày nay cũng là tiêu chuẩn trong quá khứ.
Khi internet biến mất và chúng ta lưu trữ cuộc sống của mình trên các thiết bị của mình, chúng ta đang chủ động chọn tạo ra những khoảng trống lớn trong hồ sơ lịch sử của mình. Đây là sự mất trí nhớ văn hóa tự gây ra, trở nên tồi tệ hơn do sự thật rằng phần lớn web nằm trong tay của các tập đoàn lớn, những người đặt rất ít giá trị vào việc bảo tồn. “Về lâu dài, bạn không thể bảo tồn một đối tượng kỹ thuật số ở dạng nguyên bản,” Manoff, cựu thủ thư MIT, nói. “Nhưng trong trường hợp sở hữu của doanh nghiệp, khả năng quản lý lâu dài có trách nhiệm đối với nội dung kỹ thuật số dưới bất kỳ hình thức nào cũng trở nên ngày càng không khả thi.”
Thời Trung Cổ Tối Tăm, như các nhà sử học từng gọi những thế kỷ đầu của châu Âu thời Trung Cổ, kéo dài trong 500 năm. Phiên bản kỹ thuật số của chúng ta có thể không bao giờ kết thúc. Một xã hội hậu văn tự để lại ít dấu ấn trên thế giới không khác gì một xã hội tiền văn tự. Nghĩa là, không để lại nhiều dấu ấn gì cả.
Tác giả: Adam Rogers
Link bài gốc: OpenAI’s AI-adjustWe’re about to enter the Digital Dark Ages | Bài được đăng vào ngày 15/10/2024, trên báo điện tử businessinsider.com
Dịch giả: Hoàng Phan – KenkAI Nhiều thứ hay
(*) Bạn có thể sao chép và chia sẻ thoải mái.
(**) Follow KenkAI Nhiều thứ hay để đọc các bài dịch khác và cập nhật thông tin bổ ích hằng ngày.
Để lại một bình luận