مجموعة بيانات لصور التجمعات الكبيرة لتحديد هوية الأشخاص وتتبعهم
Title Dataset of Large Gathering Images for Person Identification and Tracking
الباحث الرئيس عدنان نديم مبارك الحسن
التخصص: علوم الحاسب
التخصص الدقيق: تحديد هوية الشخص وتتبعه
المستخلص: تقدم هذه الورقة مجموعة كبيرة من البيانات المجمعة من الصور المستخرجة من مقاطع الفيديو التي تم تصويرها علنًا بواسطة 24 كاميرا مثبتة في مباني المسجد النبوي ، المدينة المنورة ، المملكة العربية السعودية. تتكون مجموعة البيانات هذه من صور خام ومعالجة تعكس بيئة صعبة للغاية وغير مقيدة. تتكون منهجية بناء مجموعة البيانات من أربع مراحل أساسية ؛ التي تتضمن الحصول على مقاطع فيديو ، واستخراج الإطارات ، وتوطين مناطق الوجه ، واقتصاص مناطق الوجوه المكتشفة وتغيير حجمها. تتكون الصور الأولية في مجموعة البيانات من إجمالي 4613 إطارًا تم الحصول عليها من تسلسلات الفيديو. تتكون الصور المعالجة في مجموعة البيانات من مناطق الوجه لـ 250 شخصًا مستخرجة من صور البيانات الخام لضمان صحة البيانات المقدمة. تتكون مجموعة البيانات أيضًا من 8 صور مطابقة لكل من 250 موضوعًا (شخصًا) لما مجموعه 2000 صورة. إنه يصور بيئة غير مقيدة وصعبة للغاية مع وجوه بشرية بأحجام مختلفة وجودة بكسل (دقة). نظرًا لأن مناطق الوجه في تسلسل الفيديو تتدهور بشدة بسبب عوامل مختلفة لا يمكن تجنبها ، يمكن استخدامها كمعيار لاختبار وتقييم خوارزميات اكتشاف الوجه والتعرف عليه لأغراض البحث. لقد قمنا أيضًا بجمع وعرض سجلات حضور الأشخاص الذين يظهرون في الإطارات المعروضة ؛ في سياق زمني. يمكن أيضًا استخدام هذا كمعيار زمني للتتبع والعثور على الأشخاص ومراقبة النشاط وعد الجماهير في سيناريوهات الحشد الكبير
Abstract: This paper presents a large gathering dataset of images extracted from publicly filmed videos by 24 cameras installed on the premises of Masjid Al-Nabvi, Madinah, Saudi Arabia. This dataset consists of raw and processed images reflecting a highly challenging and unconstraint environment. The methodology for building the dataset consists of four core phases; that include acquisition of videos, extraction of frames, localization of face regions, and cropping and resizing of detected face regions. The raw images in the dataset consist of a total of 4613 frames obtained from video sequences. The processed images in the dataset consist of the face regions of 250 persons extracted from raw data images to ensure the authenticity of the presented data. The dataset further consists of 8 images corresponding to each of the 250 subjects (persons) for a total of 2000 images. It portrays a highly unconstrained and challenging environment with human faces of varying sizes and pixel quality (resolution). Since the face regions in video sequences are severely degraded due to various unavoidable factors, it can be used as a benchmark to test and evaluate face detection and recognition algorithms for research purposes. We have also gathered and displayed records of the presence of subjects who appear in presented frames; in a temporal context. This can also be used as a temporal benchmark for tracking, finding persons, activity monitoring, and crowd counting in large crowd scenarios
الحالة: محكم غير منشور
جهة التحكيم:
دار النشر: Computer , Material and Continua Jouranl of Techscience Press