البحث المتقدم

دراسة مقارنة لأدوات توسيم النصوص العربية باستخدام عينة من الروايات السعودية

Title A Comparative Study of Arabic Part of Speech Taggers Using Literary Text Samples from Saudi Novels

الباحث الرئيس طارق ربيع خلف الفريدي

الباحثون المشاركون

التخصص: اللغويات
التخصص الدقيق: علم اللغة الحديث / اللسانيات
المستخلص: تعد عملية توسيم أقسام الكلام أحد أكثر التقنيات شيوعًا في تطبيقات معالجة اللغة الطبيعية (NLP) ولغويات المدونات [الحاسوبية]. وقد طُورت في هذا المجال عدة أدوات للتوسيم للغة العربية والتي تختلف في العديد من الجوانب ، مثل تقنيات النمذجة ورموز التوسيم وبيانات التدريب والاختبار. وقد قمنا في هذا البحث بمقارنة أداء خمسة أدوات، وهي: Stanford Arabic, CAMeL Tools, Farasa, MADAMIRA and Arabic Linguistic Pipeline (ALP) باستخدام عينات نصية متنوعة من الروايات السعودية. وتشير النتيجة الرئيسية التي حصلنا عليها إلى أن أداة التوسيم ALP تؤدي أداءً أفضل من غيرها في هذا السياق، وأن الصفات هي أكثر أنواع أقسام الكلام عرضة للخطأ في التوسيم مقارنةً بالأسماء والأفعال.
Abstract: Part of Speech (POS) tagging is one of the most common techniques used in natural language processing (NLP) applications and corpus linguistics. Various POS tagging tools have been developed for Arabic. These taggers differ in several aspects, such as in their modeling techniques, tag sets and training and testing data. In this paper we conduct a comparative study of five Arabic POS taggers, namely: Stanford Arabic, CAMeL Tools, Farasa, MADAMIRA and Arabic Linguistic Pipeline (ALP) which examine their performance using text samples from Saudi novels. The testing data has been extracted from different novels that represent different types of narrations. The main result we have obtained indicates that the ALP tagger performs better than others in this particular case, and that Adjective is the most frequent mistagged POS type as compared to Noun and Verb
الحالة: محكم ومنشور
جهة التحكيم: Information
دار النشر: MDPI
سنة النشر: 2021
تحويل التاريخ