البحث المتقدم

النهج القائم على العلاقات المعرفية للغة الأردية السخرية وتصنيف المشاعر

Title Cognitive Relationship-based Approach for Urdu Sarcasm and Sentiment Classification

الباحث الرئيس محمد شعيب محمد صديقي
التخصص: علوم الحاسب
التخصص الدقيق: Natural Language Processing
المستخلص: لدى البشر ميل طبيعي للتعبير عن مشاعرهم، لكنهم ماهرون أيضًا في استخدام السخرية لتشكيل مشاعرهم. في أبحاث الحوسبة المعرفية ومعالجة اللغة الطبيعية، يتم عادةً التعامل مع تحليل المشاعر والكشف عن السخرية كمهام منفصلة، حيث يتم تحليل كل نص على حدة. ومع ذلك، فإن هذا النهج يتجاهل العلاقة بين المشاعر والسخرية. نحن نؤمن بأن المشاعر والسخرية مرتبطان ارتباطًا وثيقًا ويجب تحليلهما معًا لتحقيق فهم أفضل للسياق واللغة الطبيعية. في هذه الورقة، نقترح إطارًا جديدًا يعزز العلاقة المعرفية (CR) بين السخرية والمشاعر لتحسين دقة التصنيف. ومن خلال مراعاة العلاقة بين هذين العاملين، يمكننا تحقيق نتائج أفضل في تحليل المشاعر والكشف عن السخرية. لقد أنشأنا أيضًا مجموعة بيانات جديدة ومتوازنة تقريبًا لتصنيف المشاعر والسخرية باللغة الأردية القياسية والتي تحتوي على 7000 تغريدة، والتي تشكل أكثر من 210 ألف رمز مميز. للحصول على فهم أفضل للبيانات، أجرينا تحليلًا استكشافيًا للبيانات على الكلمات وعلامات التصنيف والرموز التعبيرية. أجرت المنهجية المقترحة مجموعة متنوعة من مصنفات التعلم الآلي الكلاسيكية واختبرتها باستخدام أشكال مختلفة من مجموعة البيانات. بعد تحليل شامل للنتائج والأخطاء، وجدنا أن النهج القائم على CR لتصنيف السخرية والمشاعر كان أفضل من النهج التقليدي المستقل (SA). من بين المصنفات، أثبت الانحدار الخطي وتعزيز التدرج الشديد أنهما الأكثر فعالية. أظهر تصنيف المشاعر المستند إلى CR تحسنًا بنسبة 9.3% مقارنة بالطريقة المستقلة (SA) مع الحفاظ على تحسن إجمالي يبلغ حوالي 22% مقارنة بالتوزيع الأساسي. بنفس الطريقة، أظهر تصنيف السخرية المعتمد على الرد المباشر تحسنًا بنسبة 9.1% مقارنة بأسلوب SA وتحسنًا بنسبة 23.6% تقريبًا مقارنة بالتوزيع الأساسي
Abstract: Humans have a natural tendency to express their emotions, but they are also skilled at using sarcasm to shape their feelings. In cognitive computing and natural language processing research, sentiment analysis and sarcasm detection are typically treated as separate tasks, with each text analyzed in isolation. However, this approach overlooks the connection between sentiment and sarcasm. We believe that sentiment and sarcasm are closely related and should be analyzed together to achieve a better understanding of context and natural language. In this paper, we propose a new framework that leverages the Cognitive Relationship (CR) between sarcasm and sentiment to improve the accuracy of classification. By taking into account the relationship between these two factors, we can achieve better results in sentiment analysis and sarcasm detection. We have also created a new and nearly balanced dataset for sentiment and sarcasm classification in standard Urdu that contains 7,000 tweets, which make up over 210K tokens. To gain a better understanding of the data, we conducted exploratory data analysis on words, hashtags, and emojis. The proposed methodology conducted a variety of classical machine learning classifiers and tested them with different variations of the dataset. After a thorough analysis of the results and errors, we found that the CR-based approach for sarcasm and sentiment classification performed better than the traditional stand-alone (SA) approach. Among the classifiers, Linear Regression and eXtreme Gradient Boosting proved to be the most effective. The sentiment classification based on CR has demonstrated a 9.3% enhancement compared to the stand-alone (SA) method while maintaining an overall improvement of approximately 22% compared to the baseline distribution. In the same way, the sarcasm classification based on CR has shown a 9.1% improvement over the SA approach and approximately 23.6% improvement over the baseline distribution.
الحالة: محكم ومنشور
جهة التحكيم:
دار النشر: IEEE Access
سنة النشر: 2023
تحويل التاريخ