أرشفة الويب معلومات


بواسطة التلميذ(ة):
أرشفة الويب معلومات

١ مقدمة

أرشفة الويب (بالإنجليزية: Web archiving)‏ هي عملية جمع أجزاء من محتوى الشبكة العنكبوتية العالمية لضمان أن هذه المعلومات محفوظة رقميا في أرشيف للباحثين المستقبليين والمؤرخين والجمهور.
يستخدم أمناء أرشيف الويب عادة برامج زاحف الشبكة لإجراء عمليات الإستخلاص والالتقاط الآلي، نظرا لحجم المعلومات الهائل وكميتها على الشبكة.
تعتبر أرشيف الإنترنت أكبر منظمات أرشفة الويب المستندة على نهج الزحف المجمع (bulk crawling approach)؛ حيث أنها تسعى جاهدة للحفاظ على أرشيف للويب بأكمله.
لقد وفرت الورشة الدولية لأرشفة الويب -منذ إنشائها عام 2001- منصة لتشارك الخبرات وتبادل الأفكار، كما ساهم تأسيس الرابطة الدولية لحفظ الإنترنت لاحقا عام 2003 في تيسير التعاون الدولى بصورة كبيرة لتطوير المعايير والأدوات مفتوحة المصدر، الازمة لإنشاء أرشيفات الويب.
تضافرت هذه التطورات، مع النسبة المتزايدة من الثقافة الإنسانية التي أنشئت وسجلت على الشبكة، في أن تصبح مواجهة المكتبات ودور المحفوظات لتحديات أرشفة الويب أمرا حتميا لا مفر منه.
تشارك جهات مختلفة أيضا مثل المكتبات الوطنية، الأرشيف الوطني، ومختلف اتحادات المنظمات، في أرشفة محتوى الويب ذي الأهمية الثقافية.
تتوفر أيضا برمجيات وخدمات أرشفة الويب التجارية للمنظمات التي تحتاج إلى أرشفة محتوى الويب الخاص بشبكاتهم، وذلك من أجل التأريخ المؤسسي للمنظمة، أو لأغراض قانونية أو تنظيمية.

٢ المنشأ والتطور:

شملت الممارسات المبكرة لأرشفة الويب إلقاء الضوء على جائزة موقع الإسبوع لحفظ سجل هذه المسابقة. كان هناك ممارسة مبكرة أخرى بالإضافة إلى ذلك، تتصمن قائمة الروابط المهنية مثل:/ قائمة منظمة العفو الدولية لمجموعات حقوق الإنسان؛ دليل مواقع الويب الخاص بشركة ياهو!؛ الدليل المفتوح وغيرها.

قامت عدة مواقع للسرد في مجالها بتحديث دوري لمؤشرها الخاص بمواقع الويب الجديرة بالاهتمام بحسب فئة المحتوى، وذلك في منتصف تسعينيات القرن العشرين. اعتبر دليل مواقع ياهو عام 1998 أنه قدم اسهامات كبيرة في علم المكتبات الناشئة على الشبكة؛ ليس من حيث نظام التصنيف فقط، بل من حيث اسلوب تصفح المحتوى الذي قامت على تطويره الشركة.

اعتبرت عمليات التماس وتقييم وتصنيف المواقع -من حيث جمعها على نطاق واسع، ثم فرزها يدويا، ثم عرضها إلكترونيا- من أوائل صور تحليل مواقع الويب. تراجعت هذه الطرق اليدوية حتى اختفائها، نتيجة لظهور محركات البحث وتطورها لتعمل استنادا على نظام الخوارزميات الحاسوبية.

٣ جمع ويب:

يقوم أمناء أرشفة الويب عامة بحفظ أنواع مختلفة من المحتوى، بما في ذلك:/ صفحات ويب إتش تي إم إل؛ أوراق النمط؛ جافا سكريبت؛ الصور الرقمية والفيديو الرقمي، كما أنهم يقومون بأرشفة البيانات الوصفية عن الموارد التي جمعت، مثل:/ وقت الوصول؛ نوع الملف (MIME type)؛ وطول المحتوى. تفيد هذه البيانات في إقرار عمليات الاستيثاق وتحديد المنشأ للمجموعة المؤرشفة.

٤ أساليب الجمع:

التحصيل عن بعد
تعتمد أكثر تقنيات أرشفة الويب شيوعا على زواحف الشبكة (عناكب الشبكة) لأتمتتة عمليات جمع صفحات الويب، حيث تقوم هذه البرمجيات عادة باستعرض تلك الصفحات، بنفس الطريقة التي تمكن المستخدمين من مطالعتها من خلال مستعرضات الويب على أجهزتهم المختلفة، وبالتالي توفر طريقة بسيطة نسبيا لتحصيل المحتوى على الشبكة عن بعد. من أمثلة البرامج الزاحفة التي يكثر استخدامها لأرشفة الويب تتضمن ما يلي:/

هريتركس
HTTrack
وجت
هناك العديد من الخدمات المجانية التي يمكن استخدامها لأرشفة موارد الويب بناء على الطلب، وذلك اعتمادا على تقنيات الزحف على الشبكة مثل:/ خدمة WebCite، خدمة واي باك مشين وخدمات أخرى.

أرشفة قاعدة البيانات
يشير أرشفة قاعدة البيانات إلى أساليب أرشفة المحتوى الأساسي للمواقع المصممة استنادا على قواعد البيانات. يتطلب الأمر عادة استخراج محتوى قاعدة البيانات إلى مخطط منطقي قياسي، باستخدام إكس إم إل غالبا. هكذا تصبح المحتويات المؤرشفة من قواعد البيانات المتعددة متاحة باستخدام نظام وصول واحد، متى خزنت في تلك الهيئة القياسية الموحدة.

يتمثل هذا النهج من قبل أدوات DeepArc وXinq التي طورتها كل من المكتبة الوطنية الفرنسية والمكتبة الوطنية الأسترالية على التوالي. تمكن أداة DeepArc من تعيين بنية قاعدة البيانات المترابطة إلى مخطط XML، ثم يصدر المحتوى إلى وثيقة إكس إم إل. تسمح أداة Xinq بعد ذلك بتسليم هذا المحتوى عبر الإنترنت، كما تسمح بتكرار وظائف الاستعلام والاسترجاع الأساسية لقاعدة البيانات، وذلك على الرغم من أن التخطيط الأصلي وسلوك الموقع لا يمكن الحفاظ عليها تماما.

أرشفة المعاملات
تعتمد أرشفة المعاملات نهج قائم على الحدث؛ حيث يجمع المعاملات الفعلية التي تجري بين خوادم الويب من جهة الموقع ومتصفحات الويب من جهة الزائر. تستخدم تلك المعاملات في المقام الأول كوسيلة لحفظ أدلة من المحتوى الفعلي الذي طالعه زوار موقع ويب معين في تاريخ معين. قد يمثل هذا أهمية خاصة لدى المنظمات التي تحتاج إلى الامتثال للمتطلبات القانونية والتنظيمية من أجل الكشف عن المعلومات والاحتفاظ بها.

التحصيل عن بعد
تعتمد أكثر تقنيات أرشفة الويب شيوعا على زواحف الشبكة (عناكب الشبكة) لأتمتتة عمليات جمع صفحات الويب، حيث تقوم هذه البرمجيات عادة باستعرض تلك الصفحات، بنفس الطريقة التي تمكن المستخدمين من مطالعتها من خلال مستعرضات الويب على أجهزتهم المختلفة، وبالتالي توفر طريقة بسيطة نسبيا لتحصيل المحتوى على الشبكة عن بعد. من أمثلة البرامج الزاحفة التي يكثر استخدامها لأرشفة الويب تتضمن ما يلي:/

هريتركس
HTTrack
وجت
هناك العديد من الخدمات المجانية التي يمكن استخدامها لأرشفة موارد الويب بناء على الطلب، وذلك اعتمادا على تقنيات الزحف على الشبكة مثل:/ خدمة WebCite، خدمة واي باك مشين وخدمات أخرى.

أرشفة قاعدة البيانات
يشير أرشفة قاعدة البيانات إلى أساليب أرشفة المحتوى الأساسي للمواقع المصممة استنادا على قواعد البيانات. يتطلب الأمر عادة استخراج محتوى قاعدة البيانات إلى مخطط منطقي قياسي، باستخدام إكس إم إل غالبا. هكذا تصبح المحتويات المؤرشفة من قواعد البيانات المتعددة متاحة باستخدام نظام وصول واحد، متى خزنت في تلك الهيئة القياسية الموحدة.

يتمثل هذا النهج من قبل أدوات DeepArc وXinq التي طورتها كل من المكتبة الوطنية الفرنسية والمكتبة الوطنية الأسترالية على التوالي. تمكن أداة DeepArc من تعيين بنية قاعدة البيانات المترابطة إلى مخطط XML، ثم يصدر المحتوى إلى وثيقة إكس إم إل. تسمح أداة Xinq بعد ذلك بتسليم هذا المحتوى عبر الإنترنت، كما تسمح بتكرار وظائف الاستعلام والاسترجاع الأساسية لقاعدة البيانات، وذلك على الرغم من أن التخطيط الأصلي وسلوك الموقع لا يمكن الحفاظ عليها تماما.

أرشفة المعاملات
تعتمد أرشفة المعاملات نهج قائم على الحدث؛ حيث يجمع المعاملات الفعلية التي تجري بين خوادم الويب من جهة الموقع ومتصفحات الويب من جهة الزائر. تستخدم تلك المعاملات في المقام الأول كوسيلة لحفظ أدلة من المحتوى الفعلي الذي طالعه زوار موقع ويب معين في تاريخ معين. قد يمثل هذا أهمية خاصة لدى المنظمات التي تحتاج إلى الامتثال للمتطلبات القانونية والتنظيمية من أجل الكشف عن المعلومات والاحتفاظ بها.

يعمل نظام أرشفة المعاملات عادة عن طريق اعتراض كل طلب بروتوكول HTTP واستجابة من خادم الويب، كما يعمل أيضا على تصفية تلك الاستجابات للقضاء على ازدواجية المحتوى، ومن ثم يقوم بتخزينها بصورة دائمة من خلال bitstreams. هناك نظام أرشفة معاملات يتطلب تثبيت برنامج على خادم الويب، وبالتالي لا يمكن استخدامها لجمع المحتوى من موقع بعيد.

المراجع التي إعتمد عليها التلميذ(ة)

    ١ wikipedia