یک تریلیون صفحه وب در سایت Internet Archive بایگانی شدند
وبسایت Internet Archive بهعنوان یکی از مهمترین پروژههای کتابخانهای در فضای سایبری، به دستاوردی رسیده که تصورش دشوار است. این سازمان غیرانتفاعی پس از نزدیک به ۳۰ سال تلاش شبانهروزی، توانست «یک تریلیون» صفحهی وب را ذخیره کند.
اتفاق یادشده نقطهعطفی در تاریخچهی تلاشها برای حفظ اسناد دیجیتال محسوب میشود؛ بهویژه در دورانی که اینترنت هم به بخشی جداییناپذیر از زندگی روزمره تبدیل شده و هم جستوجو در آن بهطور فزایندهای دشوار و غیرقابلاعتماد است.
شبکهی جهانی وب مزایای زیادی دارد، اما «ماندگاری» هرگز یکی از آنها نبوده است. محتوای دیجیتال ذاتا ماهیتی گذرا دارد و معمولا تا زمانی دوام میآورد که شخصی مایل به حفظش باشد.
برای مثال، در سال ۲۰۱۹ پلتفرم مایاسپیس (یکی از محبوبترین شبکههای اجتماعی اولیه) اعلام کرد که خطای پیشبینینشده در انتقال سرور، تمام فایلهای آپلودی کاربران را بین سالهای ۲۰۰۳ تا ۲۰۱۵ بهطور تصادفی پاک کرد. در پی این اتفاق، تخمین زده میشود که حدود ۵۰ میلیون آهنگ از ۱۴ میلیون هنرمند در یک شب ناپدید شد.
Internet Archive دقیقا برای جلوگیری از چنین حوادثی تلاش میکند. سازمان یادشده از سال ۱۹۹۶ با هدف ایجاد «سابقهای دائمی از تکامل اینترنت»، عمدتا با استفاده از خزندههای وب هر وبسایت در دسترس عموم را که پیدا میکرد، ذخیره میساخت.
داوطلبان نیز فایلهای خود را از جمله نشریات چاپی، موسیقیهای کمیاب و سایر فرمتهای رسانهای در پلتفرم مذکور آپلود میکنند. Internet Archive پس از گذشت نزدیک به سه دهه، بیش از ۸۶۶ میلیارد صفحهی وب، ۴۱ میلیون متن و میلیونها شکل دیگر از محتوای دیجیتال را بایگانی کرده است.
در مجموع، روزانه حدود ۵۰۰ میلیون وبسایت جدید به این پایگاه اضافه میشود که تاکنون حجمی معادل ۱۰۰ هزار ترابایت اطلاعات را در بر گرفته است. برای درک بهتر، این حجم از داده برابر با پرکردن ظرفیت کامل ۵۰ هزار دستگاه از گرانترین مدلهای آیفون در بازار فعلی است.
Internet Archive با وجود اهمیت حیاتی برای آرشیویستها، روزنامهنگاران، محققان دانشگاهی و حتی بازدیدکنندگان کنجکاو، با فشارهای فزایندهای از سوی دنیای در حال تغییر وب مواجه است. شرکتهای فناوری برای آموزش سیستمهای هوش مصنوعی مبتنیبر مدلهای زبانی بزرگ (LLM)، در حال جستوجوی آنلاین برای یافتن دیتاستهای جدید هستند؛ آنهم اغلب تحت شرایط حقوقی بسیار مبهم.
در نتیجهی این شرایط، بسیاری از رسانههای بزرگ از جمله نیویورک تایمز، گاردین و یواسای تودی برای محافظت از محتوای خود در برابر هوش مصنوعی، مطالب جدیدشان را از دسترس پلتفرم بایگانی دور نگه میدارند.
در نبود چارچوب قانونی مشخص برای جبران زحمات شرکتها و نویسندگان، چنین رویکردی کاملا قابل درک به نظر میرسد؛ اما همزمان حفظ ظریفترین اکوسیستم اطلاعاتی در تاریخ بشر را نیز بسیار دشوارتر میکند.