البحث المتقدم

الاستفادة من DistilBERT لتلخيص النص العربي: نهج استخلاصي ثنائي المرحلة

Title Leveraging DistilBERT for Summarizing Arabic Text: An Extractive Dual-Stage Approach

الباحث الرئيس عبدالله نعمون

الباحثون المشاركون

التخصص: علوم الحاسب
التخصص الدقيق:
المستخلص: من أجل معالجة ظاهرة الحمل الزائد للمعلومات النصية التي تضخ بشكل كبير مع التكرار عبر الإنترنت ، تبحث هذه الورقة في حل يعتمد على طريقة التلخيص التلقائي للنص (ATS). تتمثل فكرة ATS في مساعدة ، على سبيل المثال ، القراء عبر الإنترنت ، في الحصول على نسخة مبسطة من النصوص للحفاظ على وقتهم / جهدهم المطلوب لقراءة نص كبير معين. ومع ذلك ، تعتبر ATS واحدة من أكثر تطبيقات البرمجة اللغوية العصبية تعقيدًا ، خاصة بالنسبة للغة العربية التي لم يتم تطويرها بذكاء مثل اللغات الهندية الأوروبية الأخرى. وهكذا ، نقدم مُلخِّصًا استخلاصيًا (ArDBertSum) للنص المكتوب باللغة العربية ، بالاعتماد على نموذج DistilBERT. إلى جانب ذلك ، نقترح مقطعًا محددًا لجمل الجمل (SCSAR) لدعم ArDBertSum في مزيد من تقصير الجمل الطويلة / المعقدة. توضح نتائج تجاربنا أن ArDBertSum لدينا يحقق أفضل أداء ، مقارنةً بالملخصات العربية غير التجريبية ، في إنتاج نوعية مقبولة من الملخصات المرشحة. تم إجراء هذه التجارب على مجموعة بيانات EASC (جنبًا إلى جنب مع مجموعة البيانات المقترحة لدينا) للإبلاغ عن (1) تقييم إحصائي باستخدام مقاييس ROUGE و (2) تقييم محدد قائم على الإنسان. كشفت نتائج التقييم البشري عن تصورات واعدة ؛ ومع ذلك ، هناك حاجة إلى مزيد من الأعمال لتحسين تماسك وعلامات الترقيم في الملخصات التلقائية.
Abstract: Towards tackling the phenomenon of textual information overload that is exponentially pumping with redundancy over the Internet, this paper investigates a solution depending on the Automatic Text Summarization (ATS) method. The idea of ATS is to assist, e.g., online readers, in getting a simplified version of texts for preserving their time/effort required to skim a given large body of text. However, ATS is deemed as one of the most complex NLP applications, particularly for the Arabic language that has not been intelligently developed like the other Indo-European languages. Thus, we present an extractive-based summarizer (ArDBertSum) for text written in Arabic, relying on the DistilBERT model. Besides, we propose a domain-specific sentence-clauses segmentater (SCSAR) to support our ArDBertSum in further shortening long/complex sentences. The results of our experiments illustrate that our ArDBertSum yields the best performance, compared with non-heuristic Arabic summarizers, in producing an acceptable quality of candidate summaries. These experiments have been conducted on EASC-dataset (along with our proposed dataset) to report on (1) a statistical evaluation utilizing ROUGE metrics and (2) a specific human-based evaluation. The human evaluation results revealed promising perceptions; however, further works are needed to ameliorate the coherence and punctuation of the automatic summaries.
الحالة: محكم ومنشور
جهة التحكيم: IEEE Access
دار النشر: IEEE
سنة النشر: 2021
تحويل التاريخ