البحث المتقدم

الضبط الدقيق القائم على المطالبة باستخدام المحولات متعددة اللغات لتحليل المشاعر المستقلة عن اللغة

Title Prompt-Based Fine-Tuning with Multilingual Transformers for Language-Independent Sentiment Analysis

الباحث الرئيس تركي محمد خرشان آل سعد الغامدي
التخصص: علوم الحاسب
التخصص الدقيق:
المستخلص: في عصر الاتصالات الرقمية العالمية، يُمثل فهم مشاعر المستخدمين عبر لغات متعددة تحديًا بالغ الأهمية، مع تطبيقات واسعة النطاق في استخلاص الآراء، وتحليل ملاحظات العملاء، ومراقبة وسائل التواصل الاجتماعي. تُطور هذه الدراسة مجال تحليل المشاعر المستقل عن اللغة من خلال الاستفادة من الضبط الدقيق القائم على الاستجابة السريعة باستخدام نماذج المحولات المتطورة. يتم تقييم أداء مناهج التعلم الآلي التقليدية، وهياكل التعلم العميق الهجينة، ونماذج المحولات متعددة اللغات عبر ثماني لغات متنوعة من حيث النمط: العربية، والإنجليزية، والفرنسية، والألمانية، والهندية، والإيطالية، والبرتغالية، والإسبانية. تُنشأ نماذج أساسية باستخدام مناهج التعلم الآلي التقليدية، مثل آلات المتجهات الداعمة (SVM) والانحدار اللوجستي، مع أساليب استخراج السمات مثل TF-IDF. يُقدم نموذج تعلم عميق هجين يجمع بين الذاكرة طويلة المدى قصيرة المدى (LSTM) والشبكات العصبية التلافيفية (CNNs) لالتقاط أنماط النصوص المحلية والمتسلسلة. بناءً على ذلك، تُعدّل نماذج المحولات متعددة اللغات المُدرَّبة مُسبقًا، وتحديدًا نموذج BERT-base-multilingual ونموذج XLM-RoBERTa، لمهام تصنيف المشاعر المستقلة عن اللغة. تكمن المساهمة الرئيسية في تطبيق استراتيجيات الضبط الدقيق القائمة على المطالبات لتحليل المشاعر المستقلة عن اللغة. باستخدام (1) مطالبات البادئة و(2) مطالبات نمط الإكمال، يُنشأ إطار عمل موحد يستخدم قوالب مُصممة بلغة واحدة، ويُقيِّم أداءها على بيانات من اللغات المتبقية (n-1). تُظهر النتائج التجريبية أن نماذج المحولات، وتحديدًا نموذج XLM-RoBERTa المُزوَّدة بالضبط الدقيق القائم على المطالبات، تتفوق على كلٍّ من أساليب التعلم الكلاسيكية والعميقة. مع 32 مثالًا تدريبيًا فقط لكل فئة، تُنتج مطالبات البادئات نتائج تُضاهي الضبط الدقيق القياسي، الذي يستخدم عادةً 70-80% من البيانات للتدريب. يُسلِّط هذا الضوء على إمكانات التعلم القائم على المطالبات في تحليل المشاعر متعدد اللغات وقابل للتطوير في بيئات لغوية متنوعة.
Abstract: In the era of global digital communication, understanding user sentiment across multiple languages is a critical challenge with wide-ranging applications in opinion mining, customer feedback analysis, and social media monitoring. This study advances the field of language-independent sentiment analysis by leveraging prompt-based fine-tuning with state-of-the-art transformer models. The performance of classical machine learning approaches, hybrid deep learning architectures, and multilingual transformer models is evaluated across eight typologically diverse languages: Arabic, English, French, German, Hindi, Italian, Portuguese, and Spanish. Baseline models are established using traditional machine learning approaches such as Support Vector Machines (SVM) and Logistic Regression, with feature extraction methods like TF-IDF. A hybrid deep learning model is introduced, combining Long Short-Term Memory (LSTM) and Convolutional Neural Networks (CNNs) to capture local and sequential text patterns. Building on these, pre-trained multilingual transformer models, specifically BERT-base-multilingual and XLM-RoBERTa, are fine-tuned for language-independent sentiment classification tasks. The key contribution lies in the implementation of prompt-based fine-tuning strategies for language independent sentiment analysis. Using (1) prefix prompts and (2) cloze-style prompts, a unified framework is established that employs templates designed in one language and evaluates their performance on data from the remaining (n−1) languages. Experimental results demonstrate that transformer models, particularly XLM-RoBERTa with prompt-based fine-tuning outperform both classical and deep learning methods. With only 32 training examples per class, prefix prompts produce results comparable to standard fine-tuning, which typically uses 70-80% of the data for training. This highlights the potential of prompt-based learning for scalable, multilingual sentiment analysis in diverse language settings.
الحالة: محكم غير منشور
جهة التحكيم: Scientific Reports
دار النشر: Springer Nature Link
سنة النشر: 0
تحويل التاريخ