تحديد أولوية الأخطاء باستخدام تقليل الميزات والتكتل مع التصنيف
Title Determining Bug Prioritization Using Feature Reduction and Clustering With Classification
الباحث الرئيس أرشد علي
التخصص: تقنية المعلومات
التخصص الدقيق: Information Technology
المستخلص: إن تحديد أولويات دقيقة وفي الوقت المناسب للأخطاء يدويًا هو استهلاك للموارد وتأثيراته
معالجة الأخطاء الهامة. في العمل الحالي ، يتم استخدام ميزة واحدة تؤدي إلى فقدان المعلومات بسبب
تحتوي البق على الكثير من الميزات بما في ذلك `` الخطورة '' و''المكوِّن '' و''نظام التشغيل '' و''المالك '' و''الحالة '' و
`` مخصص لـ '' ، `` ملخص '' إلخ. في هذا البحث ، اقترح المؤلفون نموذجًا محسنًا يعتمد على المشكلة
العنوان والخطورة والمكون لتحديد أولويات الأخطاء. قمنا بتحويل هذه الميزات النصية إلى ميزات رقمية
باستخدام مصطلح التردد المعكوس في المستند. أثناء التحويل ، تم إنشاء 5591 ميزة جديدة ،
مما يزيد من تعقيد الخوارزميات ووقت تشغيلها. لتقليل هذه الجوانب ، مصفوفة غير سلبية
يتم استخدام خوارزميات التحليل العاملي (NMF) وتحليل المكونات الرئيسية (PCA). نموذجنا المقترح
عبارة عن مزيج من خوارزميات تقليل الميزات والتجميع والتصنيف. يتم تنفيذ التجميع على
كل الميزات وخفضها. لتجميع خوارزميات X-Mean و K-Mean. SVM و Naive Bayes
يتم تطبيق الفئات على جميع الميزات ، والميزات المصغرة ، وعلى الميزات المجمعة. لتجارب الكروم ،
يتم استخدام كسوف ، صافي الفول ، موزيلا ، ومجموعات بيانات سطح المكتب المجانية. النتائج التجريبية تكشف عن أداء أفضل
من الطراز ، مع كل الميزات ومع ميزات منخفضة من حيث الدقة ، والاستدعاء ، والنتيجة ، والدقة.
يتم تحقيق أقصى قدر من التحسين مع ميزات مخفضة مع جميع ميزات الكروم والكسوف وسطح المكتب المجاني ،
موزيلا وصافي الفول حققوا تحسنًا بنسبة 22.46٪ و 8.32٪ و 30.93٪ و 25.79٪ و 37.78٪ على التوالي في
الدقة مع ميزات مخفضة الكروم ، elipse ، سطح المكتب المجاني ، موزيلا ، صافي الفول حقق 14.64٪ ، 8.81٪ ،
33.22٪ ، 34.37٪ و 41.01٪ دقة على التوالي. التصنيف العام مع التجميع والاختزال
أداء أفضل من التصنيف في جميع الميزات ، والتصنيف مع التجميع على جميع الميزات ،
والتصنيف على الميزات المخفضة. في جميع الأساليب ، تفوقت SVM classi على Naive Bayes في
شروط الدقة والاستدعاء و f-Score والدقة. في المتوسط ، يتم تحقيق أقصى قدر من الدقة بواسطة SVM مع
مجموعات NMF و X-Mean.
Abstract: Assigning accurate and timely priorities to bugs manually is resource consuming and effects
addressing important bugs. In the existingwork single feature is used which leads to information loss because
bugs have a lot of features including ``severity'', ``component'', ``operation system'', ``owner'', ``status'',
``assigned to'', ``summary'' etc. In this research, the authors proposed an improved model based on problem
title, severity, and component for bug prioritization. We converted these textual features to numeric features
using Term Frequency Inverse Document Frequency. During conversion, 5591 new features are generated,
which increase complexity and running time of algorithms. To minimize these aspects, non-negative Matrix
Factorization (NMF) and Principal Component Analysis (PCA) algorithms are used. Our proposed model
is a combination of feature reduction, clustering, and classication algorithms. Clustering is performed on
all and reduced features. For clustering X-Mean and K-Mean algorithms are used. SVM and Naive Bayes
classiers are applied on all features, reduced features, and on clustered features. For experiments chromium,
eclipse, net beans, mozilla, and free desktop datasets are used. Experimental results reveal better performance
of model, both with all features and with reduced features in terms of precision, recall, f-score, and accuracy.
Maximum improvement is achieved with reduced features.With all features chromium, eclipse, free desktop,
mozilla and net beans achieved 22.46%, 8.32%, 30.93%, 25.79% and 37.78% respectively improvement in
accuracy.With reduced features chromium, elipse, free desktop, mozilla, net beans achieved 14.64%, 8.81%,
33.22%, 34.37% and 41.01% accuracy respectively. Overall classication with clustering and reduced
features performed better than classication on all features, classication with clustering on all features,
and classication on reduced features. In all the approaches SVM classier outperformed Naive Bayes in
terms of precision, recall, f-score, and accuracy. On average maximum accuracy is achieved by SVM with
NMF and X-Mean clustering.