تقليل خصوصية مجموعة البيانات للتزييفات العميقة باستخدام التعلم الجماعي
Title Reducing Dataset Specificity for Deepfakes Using Ensemble Learning
الباحث الرئيس تركي محمد خرشان آل سعد الغامدي
التخصص: علوم الحاسب
التخصص الدقيق:
المستخلص: أدى ظهور مقاطع الفيديو المزيفة العميقة في السنوات الأخيرة إلى جعل تزوير الصور خطرًا حقيقيًا. يتم تزييف وجه الشخص ومشاعره في مقطع فيديو أو خطاب ويتم استبداله بوجه أو صوت مختلف باستخدام التعلم العميق لتحليل الكلام أو المحتوى العاطفي. ونظرًا لمدى ذكاء هذه المقاطع بشكل متكرر، يصعب اكتشاف التلاعب بها. تعد وسائل التواصل الاجتماعي الأهداف الأكثر شيوعًا وخطورة لأنها منافذ ضعيفة مفتوحة للابتزاز أو التشهير بالإنسان. في الأوقات السابقة، لم يكن من السهل تغيير مقاطع الفيديو، الأمر الذي يتطلب خبرة في المجال والوقت. في الوقت الحاضر، أصبح إنشاء مقاطع فيديو مزيفة أسهل وبمستوى عالٍ من الواقعية في الفيديو. التزييف العميق هو عمليات تزوير وبيانات بصرية معدلة تظهر في الصور الثابتة أو لقطات الفيديو. تم تطوير العديد من أنظمة التعريف التلقائي لحل هذه المشكلة، ومع ذلك فهي مقيدة بمجموعات بيانات معينة وأداءها ضعيف عند تطبيقها على مجموعات بيانات مختلفة. تهدف هذه الدراسة إلى تطوير نموذج تعلّم جماعي باستخدام شبكة عصبية ملتوية (CNN) لمعالجة مقاطع الفيديو المزيفة بعمق أو وجهًا لوجه. استخدمنا التعلّم الجماعي، وهي تقنية تجمع بين عدة مصنفات لتحقيق أداء تنبؤ أعلى من مصنف واحد، مما يعزز دقة النموذج. يتم تقييم أداء النموذج المُولّد باستخدام برنامج تحليل الوجه الجنائي (Face Forensics). يتمحور هذا العمل حول بناء نموذج قوي جديد لتحديد مقاطع الفيديو المزيفة بعمق تلقائيًا باستخدام مجموعة بيانات "تحديات كشف التزييف العميق" (DFDC). اختبرنا نموذجنا باستخدام مجموعة بيانات "DFDC"، وهي إحدى أصعب مجموعات البيانات، وحصلنا على دقة 96%.
Abstract: The emergence of deep fake videos in recent years has made image falsification a real danger. A person’s face and emotions are deep-faked in a video or speech and are substituted with a different face or voice employing deep learning to analyze speech or emotional content. Because of how clever these videos are frequently, Manipulation is challenging to spot. Social media are the most frequent and dangerous targets since they are weak outlets that are open to extortion or slander a human. In earlier times, it was not so easy to alter the videos, which required expertise in the domain and time. Nowadays, the generation of fake videos has become easier and with a high level of realism in the video. Deepfakes are forgeries and altered visual data that appear in still photos or video footage. Numerous automatic identification systems have been developed to solve this issue, however they are constrained to certain datasets and perform poorly when applied to different datasets. This study aims to develop an ensemble learning model utilizing a convolutional neural network (CNN) to handle deepfakes or Face2Face. We employed ensemble learning, a technique combining many classifiers to achieve higher prediction performance than a single classifier, boosting the model’s accuracy. The performance of the generated model is evaluated on Face Forensics. This work is about building a new powerful model for automatically identifying deep fake videos with the DeepFake-Detection-Challenges (DFDC) dataset. We test our model using the DFDC, one of the most difficult datasets and get an accuracy of 96%.