اكتشاف هجمات الروبوتات في إنترنت الأشياء باستخدام التعلم الآلي
Title Botnet Attack Detection in IoT Using Machine Learning
الباحث الرئيس قيصر عباس خالق داد خان
التخصص: علوم الحاسب
التخصص الدقيق:
المستخلص: هناك عدد متزايد من أجهزة إنترنت الأشياء (IoT) المتصلة بالشبكة هذه الأيام، ونظرًا للتقدم التكنولوجي، فإن الخيوط الأمنية والهجمات الإلكترونية، مثل شبكات الروبوت، تظهر وتتطور بسرعة مع الهجمات عالية المخاطر. تعمل هذه الهجمات على تعطيل انتقال إنترنت الأشياء عن طريق تعطيل الشبكات والخدمات لأجهزة إنترنت الأشياء. اقترحت العديد من الدراسات الحديثة تقنيات ML وDL لاكتشاف وتصنيف هجمات الروبوتات في بيئة إنترنت الأشياء. تقترح هذه الدراسة طرق التعلم الآلي لتصنيف الفئات الثنائية. يتم خدمة هذا الغرض باستخدام مجموعة البيانات المتاحة للجمهور UNSW-NB15. قامت مجموعة البيانات هذه بحل مشكلة عدم توازن الفئة باستخدام تقنية SMOTE-OverSampling. تم اقتراح خط أنابيب كامل للتعلم الآلي، بما في ذلك تحليل البيانات الاستكشافية، والذي يوفر رؤى تفصيلية للبيانات، تليها المعالجة المسبقة. خلال هذه العملية، تمر البيانات عبر ست خطوات أساسية. يتم اقتراح شجرة القرار ونموذج XgBoost ونموذج الانحدار اللوجستي وتدريبهما واختبارهما وتقييمهما على مجموعة البيانات. بالإضافة إلى دقة النموذج، يتم أيضًا أخذ درجة F1 والاستدعاء والدقة في الاعتبار. استنادا إلى جميع التجارب، خلص إلى أن شجرة القرار تفوقت في دقة الاختبار بنسبة 94٪.
Abstract: There are an increasing number of Internet of Things (IoT) devices connected to the network these days, and due to the advancement in technology, the security threads and cyberattacks, such as botnets, are emerging and evolving rapidly with high-risk attacks. These attacks disrupt IoT transition by disrupting networks and services for IoT devices. Many recent studies have proposed ML and DL techniques for detecting and classifying botnet attacks in the IoT environment. This study proposes machine learning methods for classifying binary classes. This purpose is served by using the publicly available dataset UNSW-NB15. This dataset resolved a class imbalance problem using the SMOTE-OverSampling technique. A complete machine learning pipeline was proposed, including exploratory data analysis, which provides detailed insights into the data, followed by preprocessing. During this process, the data passes through six fundamental steps. A decision tree, an XgBoost model, and a logistic regression model are proposed, trained, tested, and evaluated on the dataset. In addition to model accuracy, F1-score, recall, and precision are also considered. Based on all experiments, it is concluded that the decision tree outperformed with 94% test accuracy.