دراسة مقارنة لمناهج اختيار الميزات لتصنيف النص باللغة الأردية
Title Comparative Study of Feature Selection Approaches for Urdu Text Categorization
الباحث الرئيس قيصر عباس خالق داد خان
التخصص: علوم الحاسب
التخصص الدقيق:
المستخلص: يقدم هذا البحث دراسة مقارنة لطرق اختيار الميزات لتصنيف النص باللغة الأردية. تم تحليل خمس طرق لاختيار الميزات المعروفة عن طريق ستة خوارزميات تصنيف معترف بها: آلات ناقلات الدعم (مع حبات ذات أساس خطي ومتعدد الحدود وشعاعي)، وBayes الساذجة، وأقرب جار k (KNN)، وشجرة القرار (أي J48). يتم إجراء التجارب على مجموعتين اختباريتين، بما في ذلك مجموعة EMILLE القياسية ومجموعة ساذجة. لقد وجدنا أن اكتساب المعلومات وإحصائيات الطاقة وطرق اختيار الميزات غير المؤكدة المتناظرة كان أداءها موحدًا في معظم الحالات. لقد وجدنا أيضًا أنه لا توجد تقنية اختيار ميزة منفردة هي الأفضل لكل مصنف. وهذا يعني أن Naive Bayes و J48 يتمتعان بميزة نسبة الكسب مقارنة بطرق اختيار الميزات الأخرى. وبالمثل، أظهرت أجهزة ناقل الدعم (SVM) ومصنفات KNN أعلى أداء مع اكتساب المعلومات. بشكل عام، تفوقت SVM الخطية مع أي من طرق اختيار الميزات على المصنفات الأخرى في المجموعة الساذجة متوسطة الحجم. وعلى العكس من ذلك، فإن Naive Bayes مع أي من تقنيات اختيار الميزات لديه ميزة على المصنفات الأخرى لمجموعة EMILLE صغيرة الحجم.
Abstract: This paper presentsacomparative study of feature selection methods for Urdu text categorization. Fivewellknownfeature selection methods were analyzedby means ofsixrecognized classification algorithms: support vector machines (with linear, polynomial and radial basis kernels), naive Bayes, k-nearest neighbour (KNN), and decision tree (i.e. J48). Experimentations are performed on two test collections includinga standard EMILLE collection and a naive collection. We have found that information gain, Chi statistics, and symmetrical uncertainfeature selection methods have uniformly performed in mostly cases. We also found that no solo feature selection technique is best for every classifier.That is,naive Bayes and J48 have advantage with gain ratio than other feature selection methods. Similarly, support vector machines (SVM) and KNN classifiers have shown top performance with information gain.Generally,linear SVM with any of feature selection methods outperformed other classifiers on moderate-size naive collection.Conversely, naive Bayes with any of feature selection technique has an advantage over other classifiers for a small-size EMILLE corpus.
الحالة: محكم ومنشور
جهة التحكيم: WoS, Scopus, Q4
دار النشر: Faculty of Computer Science and Information Technology, University of Malaya