البحث المتقدم

ثورة في رقمنة الوثائق التاريخية: تقنية التعرف الضوئي على الحروف (OCR) المُحسّنة بتقنية LSTM للمخطوطات العربية المكتوبة بخط اليد

Title Revolutionizing Historical Document Digitization: LSTM-Enhanced OCR for Arabic Handwritten Manuscripts

الباحث الرئيس تركي محمد خرشان آل سعد الغامدي
التخصص: علوم الحاسب
التخصص الدقيق:
المستخلص: يمتلك التعرف البصري على الحروف (OCR) قيمة عملية كبيرة في مجال تحليل الوثائق المكتوبة بخط اليد، نظرًا لاستخدامه الواسع في مختلف المعاملات البشرية. تُمكن هذه العملية العلمية من تحويل مستندات أو صور متنوعة إلى بيانات قابلة للتحليل والتعديل والبحث. في هذه الورقة البحثية، نقدم منهجًا جديدًا يجمع بين التعلم بالنقل (transfer learning) وتقنية OCR العربية لرقمنة النصوص القديمة المكتوبة بخط اليد. يهدف أسلوبنا إلى الحفاظ على المجموعات الواسعة من المواد ذات الأهمية التاريخية وتحسين إتاحتها، بما في ذلك المخطوطات الهشة والكتب النادرة. من خلال دراسة شاملة للتحديات التي تواجه رقمنة النصوص العربية المكتوبة بخط اليد، نقترح إطار عمل قائمًا على التعلم بالنقل يستفيد من النماذج المدربة مسبقًا للتغلب على ندرة البيانات الموصوفة اللازمة لتدريب أنظمة OCR. تظهر النتائج التجريبية تحسنًا ملحوظًا في دقة التعرف على النصوص العربية المكتوبة بخط اليد، مما يوفر حلًا واعدًا جدًا لرقمنة الوثائق التاريخية. تمكن أعمالنا من رقمنة المجموعات الكبيرة من المواد التاريخية القديمة، بما في ذلك المخطوطات والكتب النادرة التي تتسم بحالاتها المادية الهشة. يمثل المنهج المقترح خطوة مهمة نحو الحفاظ على تراثنا الثقافي وتسهيل البحث المتقدم في تحليل الوثائق التاريخية.
Abstract: Optical Character Recognition (OCR) holds immense practical value in the realm of handwritten document analysis, given its widespread use in various human transactions. This scientific process enables the conversion of diverse documents or images into analyzable, editable, and searchable data. In this paper, we present a novel approach that combines transfer learning and Arabic OCR technology to digitize ancient handwritten scripts. Our method aims to preserve and enhance accessibility to extensive collections of historically significant materials, including fragile manuscripts and rare books. Through a comprehensive examination of the challenges encountered in digitizing Arabic handwritten texts, we propose a transfer learning-based framework that leverages pre-trained models to overcome the scarcity of labeled data for training OCR systems. The experimental results demonstrate a remarkable improvement in the recognition accuracy of Arabic handwritten texts, thereby offering a highly promising solution for the digitization of historical documents. Our work enables the digitization of large collections of ancient historical materials, including manuscripts and rare books characterized by delicate physical conditions. The proposed approach signifies a significant step towards preserving our cultural heritage and facilitating advanced research in historical document analysis.
الحالة: محكم ومنشور
جهة التحكيم:
دار النشر: the Science and Information Organization
سنة النشر: 0
تحويل التاريخ