تحديد أولوية الأخطاء باستخدام تقليل الميزات والتجميع مع التصنيف
Title Determining Bug Prioritization Using Feature Reduction and Clustering With Classification
الباحث الرئيس سامي محمد احمد الشمراني
الباحثون المشاركون
التخصص: تقنية المعلومات
التخصص الدقيق:
المستخلص: إن تحديد أولويات دقيقة وفي الوقت المناسب للأخطاء يدويًا هو استهلاك للموارد والتأثيرات التي تعالج الأخطاء المهمة. في العمل الحالي ، يتم استخدام ميزة واحدة تؤدي إلى فقدان المعلومات لأن الأخطاء لديها الكثير من الميزات بما في ذلك "الخطورة" و "المكون" و "نظام التشغيل" و "المالك" و "الحالة" "،" مخصص لـ "،" ملخص "إلخ. في هذا البحث ، اقترح المؤلفون نموذجًا محسّنًا يعتمد على عنوان المشكلة وشدتها ومكون تحديد أولويات الأخطاء. قمنا بتحويل هذه الميزات النصية إلى ميزات رقمية باستخدام مصطلح تردد معكوس المستند. أثناء التحويل ، يتم إنشاء 5591 ميزة جديدة ، مما يزيد من تعقيد الخوارزميات ووقت تشغيلها. لتقليل هذه الجوانب ، يتم استخدام خوارزميات عامل المصفوفة غير السلبي (NMF) وتحليل المكونات الرئيسية (PCA). نموذجنا المقترح هو مزيج من خوارزميات تقليل الميزات والتجميع والتصنيف. يتم تنفيذ المجموعات على جميع الميزات وتقليلها. لتجميع خوارزميات X-Mean و K-Mean. يتم تطبيق مصنفات SVM و Naive Bayes على جميع الميزات ، والميزات المصغرة ، وعلى الميزات المجمعة. بالنسبة للتجارب ، يتم استخدام الكروم والكسوف وصافي الفاصوليا والموزيلا ومجموعات بيانات سطح المكتب المجانية. تكشف النتائج التجريبية عن أداء أفضل للنموذج ، مع كل الميزات ومع ميزات منخفضة من حيث الدقة والتذكر والنتيجة f والدقة. يتم تحقيق أقصى قدر من التحسين مع ميزات مخفضة. مع جميع ميزات الكروم ، الكسوف ، سطح المكتب المجاني ، الموزيلا ، والفاصوليا الصافية حقق 22.46٪ ، 8.32٪ ، 30.93٪ ، 25.79٪ و 37.78٪ على التوالي تحسن في الدقة. مع ميزات مخفضة الكروم ، elipse ، سطح المكتب المجاني ، mozilla ، حقق صافي حبوب 14.64٪ ، 8.81٪ ، 33.22٪ ، 34.37٪ و 41.01٪ دقة على التوالي. كان التصنيف العام مع التجميع والميزات المخففة أفضل من التصنيف في جميع الميزات ، والتصنيف مع التجميع على جميع الميزات ، والتصنيف على الميزات المخفضة. في جميع الأساليب ، تفوق مصنف SVM على Naive Bayes من حيث الدقة والتذكر والنتيجة f والدقة. في المتوسط ، يتم تحقيق أقصى قدر من الدقة بواسطة SVM مع مجموعات NMF و X-Mean.
Abstract: Assigning accurate and timely priorities to bugs manually is resource consuming and effects addressing important bugs. In the existing work single feature is used which leads to information loss because bugs have a lot of features including ‘‘severity’’, ‘‘component’’, ‘‘operation system’’, ‘‘owner’’, ‘‘status’’, ‘‘assigned to’’, ‘‘summary’’ etc. In this research, the authors proposed an improved model based on problem title, severity, and component for bug prioritization. We converted these textual features to numeric features using Term Frequency Inverse Document Frequency. During conversion, 5591 new features are generated, which increase complexity and running time of algorithms. To minimize these aspects, non-negative Matrix Factorization (NMF) and Principal Component Analysis (PCA) algorithms are used. Our proposed model is a combination of feature reduction, clustering, and classification algorithms. Clustering is performed on all and reduced features. For clustering X-Mean and K-Mean algorithms are used. SVM and Naive Bayes classifiers are applied on all features, reduced features, and on clustered features. For experiments chromium, eclipse, net beans, mozilla, and free desktop datasets are used. Experimental results reveal better performance of model, both with all features and with reduced features in terms of precision, recall, f-score, and accuracy. Maximum improvement is achieved with reduced features. With all features chromium, eclipse, free desktop, mozilla and net beans achieved 22.46%, 8.32%, 30.93%, 25.79% and 37.78% respectively improvement in accuracy. With reduced features chromium, elipse, free desktop, mozilla, net beans achieved 14.64%, 8.81%, 33.22%, 34.37% and 41.01% accuracy respectively. Overall classification with clustering and reduced features performed better than classification on all features, classification with clustering on all features, and classification on reduced features. In all the approaches SVM classifier outperformed Naive Bayes in terms of precision, recall, f-score, and accuracy. On average maximum accuracy is achieved by SVM with NMF and X-Mean clustering.