البحث المتقدم

خوارزمية متعددة الخيوط لتعدين بنية الويب العربية

Title A Multi-Threaded Algorithm for Mining the Arabic Web Structure

الباحث الرئيس سامي سعد يوسف البوق

الباحثون المشاركون

التخصص: علوم الحاسب
التخصص الدقيق: Text processing
المستخلص: أصبحت شبكة الويب العالمية الوجهة الافتراضية للحصول على معلومات حول أي مجال معرفي. يغطي هذا النطاق من المعرفة طيفًا واسعًا ؛ من أحدث التطورات التكنولوجية في الإجراءات الطبية إلى الأدوية الأكثر فاعلية والسيارات الرياضية والأكسسوارات الشخصية الأكثر شهرة. تتضمن الطريقة التي يتم بها تنظيم الويب معلومات ضمنية بداخلها والتي تصبح مفيدة في استرجاع المعلومات وفي تطبيقات محرك البحث. تقدم هذه الورقة محاولة أولية لتعدين بنية الجزء العربي من الويب بغرض إنتاج نتائج أفضل لمحركات البحث في مساحة الويب العربية. نحن نقدم خوارزمية متعددة الخيوط توفر محاولة أولية للكشف عن بنية الويب العربي. تقوم الخوارزمية بالزحف إلى الويب وتجمع معلومات الارتباط المتبادل على ما يصل إلى مليون موقع عربي. توفر الخوارزمية تحليلاً أوليًا للمواقع "التي تم الاستشهاد بها" وتقدم قائمة بأفضل 20 موقعًا. لقد استخدمنا حساب الاقتباس من موقع الويب كمقياس لتصنيف موقع ويب. جدير بالذكر أن المواقع الأعلى تصنيفًا لا تنتمي إلى فئات معينة مثل الرياضة أو الأخبار أو نمط الحياة أو غيرها. بدلاً من ذلك ، تمثل مواقع الويب الموجودة أعلى القائمة المزيد من مواقع الدليل. تم تضمين بعض المواقع الإخبارية في قائمة أفضل 20 موقعًا على الرغم من أنها ليست في أعلى القائمة. يتم تمثيل الفئات الأخرى مثل فئة التكنولوجيا على الرغم من تمثيلها بموقع ويب واحد فقط في أسفل القائمة.
Abstract: The world wide web has become the default destination of acquiring information in just about any knowledge domain. This range of knowledge covers a wide spectrum; from the latest technological advances in medical procedures to most effective drugs and most popular sports cars and personal accessories. The way the web is structured embodies implicit information within it that turns to be useful in information retrieval and in search engine applications. This paper presents an initial attempt at mining the structure of the Arabic portion of the web for the purpose to produce better results of search engines in the Arabic web space. We are presenting a multi-threaded algorithm that provides an initial attempt to reveal the structure of the Arabic web. The algorithm crawls the web and collects interlink information on as many as one million Arabic websites. The algorithm provides an initial analysis of the most “cited” websites and presents a list of the top 20 websites. We have used the website citation count as the measure for ranking a website. It is worth noting that the top ranked websites do not belong to specific categories such as sports, news, lifestyle, or others. Rather the websites on the top of the list represent more of directory websites. Some news websites are included in the top 20 list despite not at the very top of the list. Other categories are represented such as the technology category although represented with only one website at the bottom of the list.
الحالة: محكم ومنشور
جهة التحكيم: RSeconf
دار النشر:
سنة النشر: 0
تحويل التاريخ