الوصف الفني
يتضمن مشروع "القاهرة الرقمية" إنشاء مفردات للترميز “mark-up” (مجموعة أساسية من العناصر والصفات تُعرف بـ "schema" بالعربي "مخطط")، بالاضافةإلى نظام شبه آلي لإدارة سير العمل يتم فيه تحويل النصوص المستندة إلى الأحرف العربية في مستندات Microsoft Word إلى صيغة XML واستخدام الترميز TEI. يعتمد سير العمل على برنامج تحرير Oxygen ومنصة GitHub للتعاون في الترميز والتشغيل الآلي والتخزين. قام هيوغ كايلس بمعظم أعمال البرمجة والتصميم، بمساعدة آدم مستيان في مهام البرمجة الثانوية. بمجرد أن يُعلن المحررون انتهاء العمل على ملف مُرَمَز، يتم تنفيذ عمليات تحويل آلية إضافية لتعيين معرفات (IDs) لمجموعات البيانات، ثم تُنشأ الفهارس باستخدام تحويلات XSLT وأخيراً، أنشأ هيوغ كايلس وآدم مستيان هذا الموقع باستخدام GitHub. نعتقد أن أحد أبرز مساهمات هذا المشروع في مجال العلوم الإنسانية الرقمية (المعتمدة على النصوص المكتتبة بالحروف العربية) هو نظام إدارة سير العمل الخاص به.
ويَهدف هذا النص إلى توضيح الخطوط الأساسية للنظام المستخدم في العمل، بما في ذلك تفاصيل حول الإجراءات التي تتم بشكل آلي في GitHub وغيرها من العمليات التقنية، مثل إنشاء الخط الزمني في هذا الموقع. يمكن للمبتدئين في استخدام برنامج Oxygen للترميز TEI الخاص بالنصوص العربية زيارة موقعنا حيث يمكنه الحصول على دروس تدريبية قصيرة مع تعريفات أساسية. ويمكن كذلك الرجوع إلى مقال كايلس ومستيان المنشور هنا للحصول على تفاصيل تقنية إضافية.
١. المخطط المستخدم
طورنا "مخطط" (schema) TEI ODD يركز على بنية أساسية للوثائق مع دعم لتحديد أسماء الأشخاص، الأماكن، والمؤسسات. أُدخلت قيود إضافية، تهدف بشكل رئيسي إلى مساعدة المحررين في اكتشاف الأخطاء المتعلقة بالمسافات الخاطئة، التي قد يصعب ملاحظتها في "وضع المؤلف" (Author mode) في برنامج Oxygen ومع تعمق فهمنا لبياناتنا، أضفنا ميزات جديدة إلى المخطط، مثل القيم المقترحة لسمة النوع (type) لمساعدة المحررين في ترميز المقالات.
٢. نظام سير العمل المستخدم
١.٢ إنشاء البيانات في مستندات Microsoft Word
حدد آدم مستيان ومرسيدس فولايه معايير للباحثين المساعدين المسؤولين عن قراءة، اختيار، ونسخ المقالات من الوقائع المصرية. شملت هذه المعايير المقالات المتعلقة بالتطور العمراني في القاهرة، بما في ذلك الهدم وإعادة الإعمار، تنظيمات وسياسات التنمية العمرانية، مزادات العقارات، الاوقاف في القاهرة، تغييرات البنية التحتية (مثل الطرق والجسور والقطارات والنقل)، والكوارث الطبيعية مثل الزلازل. بناءً على هذه المعايير، قرأ كل من سارة فتح الله جعارة، كريمة نصر، ورزق نوري، وقاموا بنسخ يدوي لمقالات من الميكروفيلم الخاص بالوقائع المصرية (1828–1914) المحفوظة بدار الكتب المصرية. كما قام عارف أربيل وحسين صاغلام بنسخ مقالات من النسخ العثمانية المتوفرة في مكتبة أتاتورك (استانبول). تم إنتاج نصوص عربية في مستندات Microsoft Word بتنسيقات وأنظمة تاريخية متفاوتة (هجري وميلادي)، وهو ما تسبب في البداية في وجود بعض عدم التناسق.
في هذه المرحلة المبكرة، تقرر إعتماد المقال كوحدة أساسية، وأن يُرفق بها تفاصيلها الببليوغرافية، بما في ذلك تواريخ النشر بالتقويمين الهجري والميلادي (تم استبعاد التواريخ القبطية المستخدمة بين 1865 و1882).
٢.٢ تحرير ملفات Word وتنظيمها حسب السنوات الهجرية
بسبب التفاوت في البيانات، أمضى مستيان وقتاً طويلاً في تحرير النصوص لتوحيدها. في الوقت نفسه، قامت فولايه بمراجعة المستندات وإنشاء جدول زمني يبرز الأعداد المفقودة. قرر مستيان تنظيم العمل التحريري حسب السنوات الهجرية، بحيث يحتوي كل ملف Word على سنة هجرية واحدة إن أمكن. أما بالنسبة للنسخ بعد سبعينيات القرن التاسع عشر، حيث كانت النصوص كبيرة الحجم، فقد تم تقسيم بعض السنوات الهجرية إلى ملفات متعددة.
٣.٢ التحويل الآلي الأول: من Word إلى XML مع ترميز أساسي (TEI)
بمجرد تنظيم ملفات Word القياسية حسب السنة الهجرية، صمم هيوغ كايلس إجراءً آليًا في GitHub لتحويل النصوص إلى XML مع ترميز أساسي. تم تفعيل هذا الإجراء عند تحميل ملفات Word جديدة إلى المستودع، باستخدام TEI Stylesheets لتحويل ملفات Word إلى XML. بعد ذلك، خضعت الملفات لعمليات تنظيف وتوحيد إضافية لإنتاج وثائق TEI جاهزة للتحرير.
تضمن النظام ملف XML رئيسي يحتوي على معلومات للجزء العلوي من الملف (TEI Header) لجميع الملفات. وينتج عن تحديث هذا الملف الرئيسي تفعيل إجراء في GitHub يقوم بمزامنة معلومات الجزء العلوي من الملف بين جميع ملفات XML الأخرى، مما يسهل إدارة البيانات المركزية.
٤.٢ التحرير اليدوي والترميز، بما في ذلك الرموز غير المندرجة ضمن Unicode
بعد إنشاء ملف XML ، قام المحررون بتنقيح النص باستخدام مخطط TEI الخاص بنا. وزع مستيان الملفات على محرر أو اثنين لترميز المحتوى يدويًا ليتناسب مع الآلات. استُخدم وضع المؤلف (Author mode) في برنامج oXygen مع ملف CSS لجعل عرض الحروف العربية (من اليمين إلى اليسار) أكثر سهولة.
خلال هذه العملية، واجهت الرموز المستخدمة لصورة الكسور ( في العدد من أواخر سبعينيات القرن التاسع عشر إلى أوائل ثمانينياته) مشكلة لعدم وجود معادل Unicode لها. ولحل هذه المشكلة، صمم كايلس صور JPEG صغيرة كبدائل لهذه الرموز.
عملية المراجعة والتحقق
بعد الانتهاء من التحرير والترميز الأساسي، خضعت الملفات لعملية مراجعة دقيقة تضمنت الخطوات التالية:
- المراجعة الأولية: قامت كل من سارة فتح الله جعارة وأحمد كمال بمراجعة الملفات يدويًا، بحثًا عن الأخطاء الإملائية، المصطلحات الغامضة، والمشاكل المتعلقة بالرموز أو الترميز. في حال وجود مصطلحات غير واضحة، تمت مراجعتها مقابل النسخ الأصلية في الميكروفيلم المحفوظ بدار الكتب أو النسخ المتاحة عبر الإنترنت.
- عرض الملفات بصيغة HTML: أنشأ هيوغ كايلس نسخًا من الملفات بتنسيق HTML لتسهيل قراءتها.
- التدقيق المطبوع: قامت مرسيدس فولايه بطباعة النصوص بصيغة PDF وإضافة ملاحظات واقتراحات للتصحيح مباشرةً عليها، ثم أعادتها إلى مستيان.
- التدقيق النهائي: قام مستيان بمراجعة كل ملف بعناية، ومقارنته بجميع الإصدارات المختلفة. غالبًا ما كان يطلب من الباحثين العودة إلى المصادر الأصلية (الميكروفيلم أو النسخ الرقمية) للتحقق من النقاط الغامضة. بعد التأكد من اكتمال الملف، أضاف مستيان سمة "cleared" (تم) إلى الملف، مما يعني أنه تم الانتهاء من مراجعته واعتماده.
٥.٢ التحويل الآلي الثاني: إضافة المعرفات (IDs)
عندما يتم وضع علامة "cleared" على ملف من قِبل مستيان، يتم تفعيل إجراء آلي في GitHub لإضافة معرفات (ID) فريدة إلى أقسام المقالات وأسماء الأشخاص، الأماكن، والمؤسسات داخل النصوص. يضمن هذا النظام توحيد الهوية داخل مجموعة البيانات.
٣. تحويل البيانات باستخدام XSLT لإنشاء الفهارس
(العمل جارٍ) يتم استخدام برنامج XQuery لاستخراج أسماء الأشخاص (والمؤسسات والأماكن) المُعلَّمة (marked-up) من الملفات، ثم إجراء تجميع أولي لها. يتم بعد ذلك إنشاء ملف TEI يحتوي على تعريفات أسماء الأشخاص مع مواقعها في الوثائق. تستخدم أداة OpenRefine لتنقية البيانات أكثر ومحاولة ربطها، عند الإمكان، ببيانات من الأدلة الجغرافية عبر الإنترنت ومصادر Wikidata.
٤. إنشاء الخط الزمني على الموقع الإلكتروني
تم تنظيم الملفات على الموقع الإلكتروني حسب السنوات والأشهر الهجرية باستخدام البيانات الموجودة في رؤوس المقالات. يدير إجراء آلي في GitHub عملية النشر، حيث يقوم بتقسيم المقالات إلى ملفات منفصلة وتحويل TEI XML إلى عناصر HTML مخصصة باستخدام CETEIcean. تُنسق هذه العناصر باستخدام CSS وJavaScript لعرضها بطريقة مهنية وسهلة القراءة.