البحث المتقدم

التنبؤ الآلي لأمثلة القاموس الجيد (GDEX): تجربة شاملة مع الإشراف عن بعد، والتعلم الآلي، وتقنيات التعلم العميق القائمة على تضمين الكلمات

Title Automated Prediction of Good Dictionary EXamples (GDEX): A Comprehensive Experiment with Distant Supervision, Machine Learning, andWord Embedding-Based Deep Learning Techniques

الباحث الرئيس محمد شعيب محمد صديقي
التخصص: علوم الحاسب
التخصص الدقيق: Machine Learning
المستخلص: لا تعد القواميس مصدرًا للحصول على معاني الكلمة فحسب، بل تخدم أيضًا غرض فهم السياق الذي تُستخدم فيه الكلمات. ولهذا الغرض، نرى جملة صغيرة كمثال للكلمة ذاتها في قواميس الكتب الشاملة ومؤخرًا في القواميس الإلكترونية. يقوم المعجميون بنشاط دقيق للغاية لاستخراج أمثلة القاموس الجيد (GDEX) - الجملة التي تناسب بشكل أفضل القاموس لتعريف الكلمة. تعتبر قواعد استنباط GDEX شاقة للغاية وتتطلب الكثير من الوقت لارتكاب العملية اليدوية. في هذا الصدد، تركز هذه الورقة على مهمتين رئيسيتين، أي تطوير مجموعات مصنفة لأفضل 3 آلاف كلمة إنجليزية من خلال استخدام نهج الإشراف عن بعد واستنباط إجراء آلي يعتمد على الذكاء الاصطناعي للتمييز الجيد. أمثلة القاموس من السيئة. تتضمن المنهجية المقترحة مجموعة من خمسة أبنية للتعلم الآلي (ML) وخمسة أبنية للتعلم العميق القائم على تضمين الكلمات (DL). ويبين التحليل الشامل للنتائج أن استنباط GDEX يمكن أن يتم عن طريق نماذج ML وDL؛ ومع ذلك، تُظهر النماذج المستندة إلى DL تحسنًا طفيفًا بنسبة 3.5% مقارنة بنماذج ML التقليدية. لقد وجدنا أن الغابات العشوائية التي تحتوي على معلومات أجزاء الكلام وLSTM ثنائية الاتجاه المستندة إلى word2vec هي أفضل مجموعات ML وDL لاستنتاج GDEX الآلي؛ في مجموعة الاختبار، حصلت هذه النماذج، على التوالي، على دقة متوازنة بنسبة 73% و77%.
Abstract: Dictionaries not only are the source of getting meanings of the word but also serve the purpose of comprehending the context in which the words are used. For such purpose, we see a small sentence as an example for the very word in comprehensive bookdictionaries and more recently in online dictionaries. The lexicographers perform a very meticulous activity for the elicitation of Good Dictionary EXamples (GDEX)—a sentence that is best fit in a dictionary for the word’s definition. The rules for the elicitation of GDEX are very strenuous and require a lot of time for committing the manual process. In this regard, this paper focuses on two major tasks, i.e., the development of labelled corpora for top 3K English words through the usage of distant supervision approach and devising a state-of-the-art artificial intelligence-based automated procedure for discriminating Good Dictionary EXamples from the bad ones. The proposed methodology involves a suite of five machine learning (ML) and five word embedding-based deep learning (DL) architectures. A thorough analysis of the results shows that GDEX elicitation can be done by both ML and DL models; however, DL-based models show a trivial improvement of 3.5% over the conventional ML models. We find that the random forests with parts-of-speech information and word2vec-based bidirectional LSTM are the most optimal ML and DL combinations for automated GDEX elicitation; on the test set, these models, respectively, secured a balanced accuracy of 73% and 77%.
الحالة: محكم ومنشور
جهة التحكيم:
دار النشر: Wiley-Hindawi
سنة النشر: 2021
تحويل التاريخ