شبكات عصبية عميقة مدمجة مع STN لاكتشاف النص متعدد الاتجاهات والتعرف عليه

Title Deep Neural Networks Combined with STN for Multi-Oriented Text Detection and Recognition

الباحث الرئيس عبدالله محفوظ محمد امين الشنقيطي

الباحثون المشاركون

التخصص: علوم الحاسب
التخصص الدقيق: machine learning algorithms
المستخلص: يعد تطوير أنظمة لتفسير العناصر المرئية ، مثل الصور ومقاطع الفيديو ، أمرًا صعبًا حقًا ولكن يجب تطويره وتطبيقه على مجموعات البيانات المعيارية. تحل هذه الدراسة التحدي ذاته باستخدام نموذج STN-OCR الذي يتكون من شبكات عصبية عميقة (DNN) وشبكات محولات مكانية (STNs). تتكون بنية الشبكة لهذه الدراسة من مرحلتين: شبكة التعريب وشبكة التعرف. في شبكة الترجمة ، يقوم بالعثور على مناطق النص وتوطينها وإنشاء شبكة أخذ العينات. بينما ، في شبكة التعرف ، سيتم إدخال مناطق النص ثم تتعلم هذه الشبكة التعرف على النص بما في ذلك النص منخفض الدقة والمنحني ومتعدد الاتجاهات. تتطلب الأساليب القائمة على التعلم العميق الكثير من البيانات للتدريب بشكل فعال ، لذلك استخدمت هذه الدراسة مجموعتين من مجموعات البيانات المعيارية ، وهما Street View House Numbers (SVHN) والمؤتمر الدولي لتحليل المستندات والتعرف عليها (ICDAR) 2015 لتقييم النظام. يحقق نموذج STN-OCR نتائج أفضل من الأدبيات الموجودة في مجموعات البيانات هذه.
Abstract: Developing systems for interpreting visuals, such as images, videos is really challenging but important task to be developed and applied on benchmark datasets. This study solves the very challenge by using STN-OCR model consisting of deep neural networks (DNN) and Spatial Transformer Networks (STNs). The network architecture of this study consists of two stages: localization network and recognition network. In the localization network it finds and localizes text regions and generates sampling grid. Whereas, in the recognition network, text regions will be input and then this network learns to recognize text including low resolution, curved and multioriented text. Deep learning-based approaches require a lot of data for training effectively, therefore, this study has used two benchmark datasets, Street View House Numbers (SVHN) and International Conference on Document Analysis and Recognition (ICDAR) 2015 to evaluate the system. The STN-OCR model achieves better results than literature on these datasets.
الحالة: محكم ومنشور
جهة التحكيم: IJACSA
دار النشر:
سنة النشر: 2020
