فالبداية سأطلب منك ان تجرب هذا التطبيق homecourt
هذا التطبيق يستخدم رؤية الكمبيوتر في تقدير الوضع البشري لتحليل حركات لاعب كرة السلة، بالإضافة الى الواقع المعزز.
مشكلة تحديد مواقع المفاصل البشرية في الصور أو مقاطع الفيديو، يمكن تعريفها على أنها البحث في الفضاء عن جميع المواضع المفصلية، حيث يلزم الكشف عن المفاصل الرئيسية في الجسم وتحديد موقعها (مثل الكتفين والكاحل والركبة والمعصم وما إلى ذلك).
بطبع إن المفاصل القوية والمفاصل الصغيرة التي بالكاد تكون ظاهرة والملابس وتغييرات الإضاءة كل هذه العوامل تزيد من صعوبة المشكلة.
على الرغم من صعوبتها إلا أنه يمكننا صنع تطبيقات مذهلة من خلالها.
فالحقيقة لدينا نوعين لتقدير الوضع البشري :
تقدير الوضع ثنائي الأبعاد (2D) بإحداثيات (x، y) لكل مفصل في الجسم، من صورة RGB.
تقدير الوضع ثلاثي الأبعاد (3D) بإحداثيات (x، y، z) لكل مفصل في الجسم، من صورة RGB.
يوجد أساليب مختلفة لتقدير الوضع البشري سأستعرض أبرز الأوراق العلمية بالترتيب من الأقدم الى الأحدث.
Deformable part models او “DPM”
هو تمثيل كائن من خلال مجموعة من "الأجزاء" مرتبة في تكوين قابل للحركة.
يتكون النموذج من ثلاثة مكونات رئيسية:
(root filter) يحدد نافذة الكشف التي تغطي جذر الكائن تقريبًا.
(part filters) تغطي أجزاء أصغر في الكائن. و يتم تعلم مرشحات الأجزاء بدقة أكثر مرتين من مرشح الجذر.
(spatial model) يشير الى الإتصالات المكانية بين الأجزاء بالنسبة إلى الجذر.
DeepPose
تصيغ هذه الخوارزمية المشكلة كإنحدار قائم على CNN للإحداثيات المشتركة ويستند إلى سلسلة من الانحدارات ، أحد الأشياء المهمة التي يفعلها هذا النهج هو تشكيل الوضع بطريقة شمولية ، أي حتى إذا كانت بعض المفاصل مخفية ، يمكن تقديرها إذا تم التفكير في الوضع بشكل كلي .
يتألف النموذج من 7 طبقات من بنية AlexNet مع طبقة نهائية إضافية تنتج إحداثيات مشتركة.
فكرة هذا النموذج هي تحسين التنبؤات باستخدام تسلسل الانحدار . يتم تحسين الوضع الأولي وتحقيق تقدير أفضل. يتم اقتصاص الصور حول المفصل المتوقع ويغذى إلى المرحلة التالية ، وبهذه الطريقة ، ترى مسجلات الانحدار اللاحقة صورًا عالية الدقة وبالتالي تتعلم ميزات المقاييس الدقيقة التي تؤدي في النهاية إلى دقة أعلى.
نتائج معدل المفاصل المكتشفة (PDJ) من مجموعة البيانات FLIC (تحتوي على 5003 صورة جمعت تلقائيًا من أفلام هوليوود الشهيرة.) لمفصلين الكوع والمعصم. مقارنة DeepPose بأربع خوارزميات اخرى.
ايضاً DeepPose اظهرت نتائج جيدة بمقارنتها بخوارزميات اخرى في معدل الكشف عن الأطراف (PCP).
هذه ورقة مثيرة للإهتمام تستخدم ما يسمى ب(Pose machine) تتكون آلة الوضع من وحدة حساب ميزات الصورة متبوعة بوحدة التنبؤ. تختلف آلات الوضع التلافيفي تمامًا ويمكن تدريب بنيتها متعددة المراحل من طرف إلى آخر. توفر إطار تنبؤ متسلسل لتعلم النماذج المكانية الضمنية وتعمل بشكل جيد للغاية لوضع الإنسان.
أحد الدوافع الرئيسية لهذه الورقة هو معرفة العلاقات المكانية بعيدة المدى ، و أضهروا أنه يمكن تحقيق ذلك باستخدام حقول استقبالية أكبر.
تظهر آلة الوضع في المدخلات (a) و (b) ، وتظهر الشبكات الترشيحية في المدخلات (c) و (d)، تُظهر الإدخالات (a) و (c) البنية التي تعمل فقط على مدخلات الصور في المرحلة الأولى
و تُظهر الإدخالات (b) و (d) البنية للمراحل اللاحقة.
إستخدمت الورقة إشرافًا متوسطًا بعد كل مرحلة لتجنب مشكلة تلاشي التدرجات ، وهي مشكلة شائعة للشبكات متعددة المراحل العميقة.
حقق مجموع PCKh-0.5 (عندما تكون العتبة = 50٪) 87.95٪ , وهو أعلى بنسبة 6.11٪ من أقرب منافس ، ومن الجدير بالذكر أنه في الكاحل (الجزء الأكثر تحديًا) ، درجة PCKh0.5 هي 78.28٪ ، وهي أعلى بنسبة 10.76٪ من أقرب المنافسين.
تفوقت على جميع الطرق الموجودة في الكشف عن Keypoint وتقدير الوضع المتعدد الأشخاص وتقدير الوضع في مجموعة بيانات COCO وهي الأحدث. يتبع HRNet فكرة بسيطة للغاية. تقوم معظم الأوراق السابقة بتمثيل عالي الدقة ← منخفض ← عالي الدقة. تحتفظ HRNet بتمثيل عالي الدقة طوال العملية بأكملها وهذا يعمل بشكل جيد جداً.
تبدأ البنية من شبكة فرعية عالية الدقة كمرحلة أولى ، وتضيف تدريجياً شبكات فرعية عالية الدقة إلى منخفضة واحدة تلو الأخرى لتشكيل المزيد من المراحل وربط الشبكات الفرعية متعددة الدقة بالتوازي.
يتم إجراء عمليات الاندماج المتكررة متعددة المقاييس من خلال تبادل المعلومات عبر الشبكات الفرعية المتوازية متعددة الدقة مرارًا وتكرارًا خلال العملية بأكملها.