Đừng để di sản số rơi vào “hố đen” lãng quên

Việc quy hoạch phát triển và quản lý báo chí toàn quốc đang bước vào giai đoạn quyết liệt. Theo Bộ Thông tin và Truyền Thông, đến đầu năm 2026, cả nước còn 778 [1] cơ quan báo chí, giảm 58[2] cơ quan báo chí. Hàng loạt đài, báo địa phương đã sáp nhập, đổi tên, tinh gọn bộ máy để hướng tới một nền báo chí "tinh - gọn - mạnh" đủ sức cạnh tranh.

Thế nhưng, đằng sau sự tinh gọn về bộ máy và bài toán tự chủ tài chính đang làm đau đầu các Tổng Biên tập, thì một cuộc khủng hoảng âm thầm, để lại hậu quả khôn lường cũng xuất hiện: Khi một tờ báo hay tạp chí điện tử đóng cửa, hàng vạn bài báo, hình ảnh và tư liệu số tích lũy hàng thập kỷ sẽ đi về đâu?

Nỗi xót xa mang tên "đường link chết" và bài học từ quá khứ

Trong quá khứ, kỷ nguyên báo in đã để lại cho chúng ta một di sản đồ sộ. Những tờ báo Quốc ngữ đầu thế kỷ 20 như Lục Tỉnh Tân Văn (1907-1938), Nông Cổ Min Đàm, Phụ Nữ Tân Văn hay Tri Tân [3] dù chỉ tồn tại một thời gian rồi đình bản, nhưng nhờ xuất bản trên giấy, chúng đã được các thư viện lớn như Thư viện Quốc gia Pháp thu thập, lưu trữ cẩn thận dưới dạng vi phim (microfilm). Nhờ sự bảo quản vật lý vững chắc đó, ngày nay chúng ta mới có thể tập hợp, in lại thành những cuốn sách bách khoa vô giá như bộ khảo cứu về Tạp chí Tri Tân hay cuốn Vấn đề phụ nữ ở nước ta trích từ báo Phụ Nữ Tân Văn...

Tuy nhiên, với báo mạng điện tử, lịch sử đang lặp lại nhưng khốc liệt hơn rất nhiều. Dữ liệu số vô cùng mong manh và có thể biến mất vĩnh viễn trong chớp mắt chỉ vì một sự cố máy chủ, thay đổi hệ thống hoặc khi tên miền hết hạn. Mới đây nhất, sự kiện tờ báo điện tử Zing (Tri thức trực tuyến) bị đóng cửa là một ví dụ nhãn tiền. Toàn bộ kho dữ liệu, các bài báo, hình ảnh và đường link truy cập đều "chết" hoàn toàn, người đọc không thể tìm lại được. Tương tự, ở địa phương, tờ Tạp chí Văn hoá Nghệ An điện tử chứa một kho tàng tri thức văn hoá phong phú, được giới học thuật cả nước trân quý sau khi bị sáp nhập cũng biến mất trong sự tìm kiếm đầy tiếc nuối của các thức giả. Đây không chỉ là câu chuyện của riêng Việt Nam. Tại Mỹ, giới truyền thông từng bàng hoàng khi các trang mạng lớn như Gawker hay Gothamist đột ngột đóng cửa, khiến hàng chục năm lao động của các nhà báo bị tước đoạt và biến mất ngay lập tức.

Mỗi một đường link chết đi không đơn thuần là lỗi kỹ thuật. Đó là sự xóa sổ một lát cắt thời gian, một mảnh ghép của lịch sử kinh tế, xã hội, giáo dục và văn hóa.

Hệ thống CMS không phải là "két sắt" vĩnh cửu

Tại sao chúng ta lại để mất dữ liệu dễ dàng đến vậy? Câu trả lời nằm ở sự lầm tưởng của chính các cơ quan báo chí. Nghiên cứu của Đại học Columbia (Mỹ) chỉ ra rằng, phần lớn các tòa soạn hiện nay đánh đồng việc sao lưu (backup) trên Google Docs hay máy chủ với việc lưu trữ vĩnh viễn (archiving)[4]. Nhưng thực tế thì sao lưu chỉ là tạo bản sao để phục hồi khi mất dữ liệu, còn lưu trữ là đảm bảo khả năng truy cập dài hạn dù công nghệ có thay đổi. Các hệ thống Quản trị nội dung (CMS) sinh ra để phục vụ quá trình sản xuất và xuất bản web nhanh chóng chứ không được thiết kế làm kho lưu trữ lịch sử.

Quá trình chuyển đổi, nâng cấp hệ thống CMS cũng là một "máy chém" dữ liệu. Viện Báo chí Reynolds (RJI) cảnh báo rằng, việc dịch chuyển từ hệ thống xuất bản này sang hệ thống khác thường xuyên làm mất mát hoặc đứt gãy các siêu dữ liệu (metadata) quan trọng[5]. Siêu dữ liệu chính là chiếc chìa khóa định danh tác giả, ngày tháng, bản quyền và ngữ cảnh của bức ảnh hay bài viết. Thiếu siêu dữ liệu, công cụ tìm kiếm trở nên vô dụng, bức ảnh gốc bị mồ côi và bài báo không thể xác minh tính xác thực.

Hạ tầng tri thức và "nguồn sống" cho Trí tuệ nhân tạo

Chúng ta đang hô hào chuyển đổi số, xây dựng các mô hình Trí tuệ nhân tạo (AI) khổng lồ. Nhưng AI không tự sinh ra tri thức. Nó không tự đi xuống một bản làng vùng cao để ghi nhận đời sống người dân, cũng không tự bước vào bệnh viện hay công trường để điều tra xác minh.

Báo chí là một trong những "dữ liệu gốc" đó. Những bài phóng sự, ghi chép, điều tra của hàng ngàn nhà báo mỗi ngày chính là "cánh đồng dữ liệu" nuôi dưỡng sự phát triển của AI. Tư duy bảo vệ dữ liệu báo chí phải được nâng tầm tương đương với việc bảo vệ các di sản tại trung tâm lưu trữ quốc gia hay hiện vật bảo tàng. Nghiên cứu của RJI Mỹ đã chỉ ra một sự thật đáng suy ngẫm: Các cơ quan truyền thông công cộng, phi lợi nhuận làm tốt công tác lưu trữ dữ liệu số hơn 22% so với các báo tư nhân hay báo thuần túy mạng[6]. Lý do rất đơn giản, họ đưa việc bảo tồn di sản tri thức vào sứ mệnh và chính sách bắt buộc của cơ quan. Điều này cho thấy, công nghệ chỉ là công cụ, ý chí và nhận thức của con người mới là yếu tố quyết định.

Những giải pháp cấp bách

Để cứu vãn di sản báo chí số trước khi chúng rơi vào "hố đen" của công nghệ, chúng ta cần phải hành động ngay lập tức bằng các chiến lược cụ thể:

Thứ nhất, tách bạch hệ thống xuất bản và hệ thống lưu trữ. Các cơ quan báo chí không thể dựa dẫm vào CMS để bảo quản dữ liệu. Cần đầu tư hoặc đề xuất Nhà nước hỗ trợ trang bị các Hệ thống quản lý tài sản kỹ thuật số hoặc kho lưu trữ độc lập tách rời với hệ thống xuất bản. Những hệ thống này đảm bảo rằng dù tòa soạn có thay đổi công nghệ web hay ngừng hoạt động, dữ liệu gốc và toàn bộ siêu dữ liệu vẫn được bảo tồn toàn vẹn.

Thứ hai, thể chế hóa trách nhiệm lưu trữ báo chí số. Cần có quy định bắt buộc các thư viện quốc gia và hệ thống thư viện chuyên ngành lưu trữ các bản sao kỹ thuật số tĩnh (như định dạng PDF hoặc vi bản web) của báo điện tử và tạp chí, giống như cách thu thập báo in. Đồng thời, các cơ quan báo chí cần thiết lập quy chế rõ ràng về việc bảo tồn siêu dữ liệu (metadata), đảm bảo minh bạch bản quyền và tính xác thực của thông tin khi truy xuất trong tương lai.

Thứ ba, "đóng băng" tri thức số bằng việc in sách. Đối với các tạp chí chuyên ngành học thuật bị sáp nhập hoặc đình bản, nơi chứa đựng hàm lượng nghiên cứu cao, các nhà xuất bản và hội nghề nghiệp nên phối hợp tuyển chọn những bài báo xuất sắc nhất để biên soạn thành sách chuyên khảo. Đây là cách làm truyền thống nhưng cực kỳ hiệu quả để tái sinh vòng đời của dữ liệu điện tử, chuyển hóa chúng thành tài sản vật lý lưu truyền vĩnh viễn cho thế hệ sau.

Một quốc gia phát triển không chỉ biết đi tới tương lai mà còn phải biết gìn giữ tri thức của quá khứ. Khi một cơ quan báo chí bị sáp nhập hay đình bản, nếu chúng ta chỉ quan tâm đến con dấu, bộ máy hay việc thanh lý tài sản mà bỏ rơi hàng triệu tệp dữ liệu số, đó là một sự lãng phí lịch sử không thể tha thứ. Đừng để vài chục năm nữa, con cháu chúng ta tìm kiếm về những biến động kinh tế - xã hội của thập niên này và chỉ nhận lại thông báo lỗi "404 Not Found" hiển thị trên màn hình vô hồn. Việc cứu lấy các kho lưu trữ báo chí phải được triển khai một cách nghiêm túc, khoa học thực sự đã là vấn đề cấp bách./.

Thái Văn Sinh

Lượt xem: 12

Xem nhiều nhất

Nâng cao kỹ năng hoạt động cho gần 1.400 đại biểu HĐND cấp xã

Trao đổi nghiên cứu 31/05/2026

Trong 2 ngày 29 - 30/5, Thường trực HĐND tỉnh Hà Tĩnh tổ chức 2 đợt tập huấn, bồi dưỡng nâng cao kỹ năng hoạt động cho gần 1.400 đại biểu HĐND cấp xã nhiệm kỳ 2026 - 2031.