ثورة في رقمنة الوثائق التاريخية: تقنية التعرف الضوئي على الحروف (OCR) المُحسّنة بتقنية LSTM للمخطوطات العربية المكتوبة بخط اليد
Title Revolutionizing Historical Document Digitization: LSTM-Enhanced OCR for Arabic Handwritten Manuscripts
الباحث الرئيس تركي محمد خرشان آل سعد الغامدي
التخصص: علوم الحاسب
التخصص الدقيق:
المستخلص: يمتلك التعرف البصري على الحروف (OCR) قيمة عملية كبيرة في مجال تحليل الوثائق المكتوبة بخط اليد، نظرًا لاستخدامه الواسع في مختلف المعاملات البشرية. تُمكن هذه العملية العلمية من تحويل مستندات أو صور متنوعة إلى بيانات قابلة للتحليل والتعديل والبحث.
في هذه الورقة البحثية، نقدم منهجًا جديدًا يجمع بين التعلم بالنقل (transfer learning) وتقنية OCR العربية لرقمنة النصوص القديمة المكتوبة بخط اليد. يهدف أسلوبنا إلى الحفاظ على المجموعات الواسعة من المواد ذات الأهمية التاريخية وتحسين إتاحتها، بما في ذلك المخطوطات الهشة والكتب النادرة.
من خلال دراسة شاملة للتحديات التي تواجه رقمنة النصوص العربية المكتوبة بخط اليد، نقترح إطار عمل قائمًا على التعلم بالنقل يستفيد من النماذج المدربة مسبقًا للتغلب على ندرة البيانات الموصوفة اللازمة لتدريب أنظمة OCR. تظهر النتائج التجريبية تحسنًا ملحوظًا في دقة التعرف على النصوص العربية المكتوبة بخط اليد، مما يوفر حلًا واعدًا جدًا لرقمنة الوثائق التاريخية.
تمكن أعمالنا من رقمنة المجموعات الكبيرة من المواد التاريخية القديمة، بما في ذلك المخطوطات والكتب النادرة التي تتسم بحالاتها المادية الهشة. يمثل المنهج المقترح خطوة مهمة نحو الحفاظ على تراثنا الثقافي وتسهيل البحث المتقدم في تحليل الوثائق التاريخية.
Abstract: Optical Character Recognition (OCR) holds immense
practical value in the realm of handwritten document
analysis, given its widespread use in various human transactions.
This scientific process enables the conversion of diverse
documents or images into analyzable, editable, and searchable
data. In this paper, we present a novel approach that combines
transfer learning and Arabic OCR technology to digitize ancient
handwritten scripts. Our method aims to preserve and enhance
accessibility to extensive collections of historically significant
materials, including fragile manuscripts and rare books. Through
a comprehensive examination of the challenges encountered
in digitizing Arabic handwritten texts, we propose a transfer
learning-based framework that leverages pre-trained models to
overcome the scarcity of labeled data for training OCR systems.
The experimental results demonstrate a remarkable improvement
in the recognition accuracy of Arabic handwritten texts, thereby
offering a highly promising solution for the digitization of
historical documents. Our work enables the digitization of large
collections of ancient historical materials, including manuscripts
and rare books characterized by delicate physical conditions. The
proposed approach signifies a significant step towards preserving
our cultural heritage and facilitating advanced research in
historical document analysis.
الحالة: محكم ومنشور
جهة التحكيم:
دار النشر: the Science and Information Organization