البحث المتقدم

استخراج الكلمات الرئيسية للمستندات متوسطة الحجم باستخدام التجانس الدلالي السياقي القائم على المجموعة

Title Keyword Extraction for Medium-Sized Documents Using Corpus-Based Contextual Semantic Smoothing

الباحث الرئيس محمد شعيب محمد صديقي
التخصص: علوم الحاسب
التخصص الدقيق: Natural Language Processing
المستخلص: يشير استخراج الكلمات الرئيسية إلى عملية اختيار المصطلحات الأكثر أهمية وذات الصلة والوصفية ككلمات رئيسية، والتي تكون موجودة داخل مستند واحد. لاستخراج الكلمات الرئيسية تطبيقات رئيسية في مجال استرجاع المعلومات، مثل تحليل المستندات وتلخيصها وفهرستها والبحث عنها. في هذا البحث، نقدم تقنية جديدة تحت الإشراف لاستخراج الكلمات الرئيسية من المستندات متوسطة الحجم، وهي التجانس الدلالي السياقي القائم على متن النص (CCSS). تعمل CCSS على توسيع مفهوم التجانس الدلالي السياقي (CSS)، الذي يأخذ في الاعتبار أنماط استخدام المصطلحات في النصوص المشابهة لتحسين المعلومات المتعلقة بالمصطلحات. نقدم أربع ميزات أخرى تتجاوز CSS كمساهماتنا الجديدة في هذا العمل. نحن نقارن بشكل منهجي أداء CCSS مع التقنيات الأخرى، عند تنفيذها عبر مجموعة بيانات INSPEC، حيث يتفوق CCSS في الأداء على جميع تقنيات استخراج العبارات الرئيسية المقدمة في الأدبيات
Abstract: Keyword extraction refers to the process of selecting most significant, relevant, and descriptive terms as keywords, which are present inside a single document. Keyword extraction has major applications in the information retrieval domain, such as analysis, summarization, indexing, and search, of documents. In this paper, we present a novel supervised technique for extraction of keywords from medium-sized documents, namely Corpus-based Contextual Semantic Smoothing (CCSS). CCSS extends the concept of Contextual Semantic Smoothing (CSS), which considers term usage patterns in similar texts to improve term relevance information. We introduce four more features beyond CSS as our novel contributions in this work. We systematically compare the performance of CCSS with other techniques, when implemented over INSPEC dataset, where CCSS outperforms all state-of-theart keyphrase extraction techniques presented in the literature
الحالة: محكم ومنشور
جهة التحكيم:
دار النشر: Wiley-Hindawi
سنة النشر: 2022
تحويل التاريخ