دورة حياة “مشاريع”
علم البيانات
يتطور علم البيانات بشكل متسارع ليصبح واحداً من أهم المجالات في صناعة التكنولوجيا. الفضل للتقدم السريع في مجالات عدة كالاتصالات و الخدمات السحابية وكفاءة الأجهزة الحاسوبية والذي جعل المستحيل ممكناً. من الممكن الآن تحليل مجموعات كبيرة من البيانات الضخمة والتي بدورها تمكننا و إلى حد غير مسبوق من اكتشاف حقائق و أنماط ورؤى ربما يستحيل اكتشافها بدون تحليل البيانات. مثال على هذه البيانات، سجلات زوار موقع إلكتروني بيانات المرضى.
هناك عدة تفسيرات وأطروحات حول الخطوات والعمليات التي تتضمنها مشاريع علم البيانات. تقدم هذه المقالة نظرة عامة ومختصرة حول الخطوات السبعة التي تتمحور حولها مشاريع علم البيانات. بداية بفهم العمل واحتياجاته، جمع وجلب البيانات، تنظيف البيانات، استكشاف وتفحص البيانات، هندسة الخصائص، النمذجة، وتصوير البيانات.
جدير بالذكر وكما يلاحظ المهتم والمتابع، التطور في هذا المجال يحصل بشكل مطرد وبالتالي مايطرح هنا ربما يكون مناسباً لفترة معينة ويتختلف بحسب احتياجات المنظمة ومتطلبات العمل.
فهم العمل واحتياجاته
المعرفة بمجال الأعمال والسياق المحيط بعملياته وبطبيعة التحديات التي تواجهها المنظمة أمر مهم عند تنفيذ تحليل البيانات. ونظراً لندرة المتخصصين في مجال علم البيانات وبالمجالات الأخرى، يمكن التغلب على هذا العجز من خلال بناء فريق تحليل البيانات بحيث يكون مشتملاً على خبراء في الموضوع (subject matter expert) المرغوب معالجته ليعمل جنبا إلى جنب مع عالم البيانات. بالطبع ، سيتغير هذا في السنوات القليلة المقبلة وسيصبح لدينا علماء بيانات متخصصين مثل، عالم بيانات متخصص بالتسويق، عالم بيانات متخصص بالطب، عالم بيانات متخصص بالطقس، عالم بيانات متخصص بحلول النقل، عالم بيانات متخصص بالعلوم السياسية وغيره.
أهم ثلاثة عمليات تتضمنها هذه المرحلة وبشكل مختصر:
تحديد مشكلة الأعمال التي يمكن حلها بواسطة علم البيانات
تحديد كيفية حل هذه المشكلة بواسطة علم البيانات
الاستمرار بمتابعة كفاءة ودقة النموذج وتحديثه بعد بنائه
الغرض من تحليل البيانات هو في الغالب لحل مشكلة أو مشاكل تواجهها المنظمة, أو تطوير العمليات والأعمال لتصبح أكثر كفاءة. يُساعد الخبراء المتخصصين في المواضيع (Subject matter experts) - وهم الخبراء في مجالاتهم وبأولويات المنظمة الحقيقية والتحديات التي تواجهها- توضيح السياق الخاص بالمشاكل لعلماء البيانات ليتمكنوا من الغوص فيما هو متاح من البيانات في بحيرة البيانات (Data Lake) أو البنى التحتية المماثلة (Data warehouse) حتى يتمكنوا من استخدامها في بناء نماذج تعلم الآلة. ولأنه لا يوجد حل مناسب لجميع المشاكل ، سيكون لكل عمل احتياجات فريدة وأولويات مختلفة وبالتالي هناك حاجة لأن يعمل مختص علم البيانات مع الخبراء في المواضيع.
على سبيل المثال ، دعنا نقول أن إحدى شركات الاتصالات تريد أن تصبح أكثر تنافسية. يستطيع الموظف المخضرم في الشركة والذي أمضى سنوات طويلة في حل مشاكل العملاء وصف أهم التحديات والمشاكل التي يمكن حلها بواسطة علم البيانات. فلو قلنا أن العملاء يشتكون من تأخر الرد عليهم عند الاتصال بخدمات العملاء، سيسهل توجيه عالم البيانات ليركز جهده ووقته في بناء نموذج تعلم الآلة (Mechine learning) من شأنه أن ينظم عمليات تلقي اتصالات العملاء ويسرع من عملية الإجابة على استفساراتهم.
جمع البيانات
جمع البيانات هي عملية تهتم بالحصول على البيانات وهناك عدة طرق تختلف باختلاف المجال. يمكن توفير البيانات من خلال قواعد بيانات المؤسسة، أنظمة المؤسسة، الإنترنت، استفتاءات وغيرها. الهدف الرئيسي لجمع البيانات هو توفير بيانات جيدة وبأعلى دقة ممكنة بحيث يمكن استخدامها في مشاريع تحليل البيانات وبالتالي الإجابة على الأسئلة التي تم طرحها.
الإهمال في جمع البيانات الدقيقة اللازمة لعمليات التحليل من شأنه أن يؤدي إلى نتائج غير دقيقة وربما أخطاء فادحة في الأعمال (garbage in garbage out).
تهيئة البيانات
تنظيف وتهيئة البيانات هي من أهم الخطوات وربما الأكثر تعقيداً في علم البيانات وتستغرق الوقت الأطول في التنفيذ. في مشاريع البيانات الضخمة يمكن أن تستغرق هذه العملية 70٪ من وقت المشروع. لماذا؟ يقوم عالم البيانات في هذه المرحلة بالتحقق من عدم وجود تضارب وتناقضات في البيانات والتعامل مع البيانات المفقودة والسجلات الغير مكتملة. تؤثر نتائج هذه المرحلة بشكل كبير على الخطوات التالية المتعلقة ببناء النموذج وبجودة ودقة نتائج التحليل.
استكشاف البيانات
تتم في هذه المرحلة أول العمليات الحقيقة للتعرف على البيانات وتحليلها بعد أن تمت تهيئتها وتنظيفها . يطلق الكثير على هذه المرحلة بمحطة العصف الذهني لعلم البيانات. حيث يمكن البدء بطرح الأسئلة والفرضيات حول البيانات والمشكلة التي تعالجها. يتم هنا علميات احصائية أولية لفهم الأنماط (patterns) والتجمعات (clusters) والقيم الشاذة أو المتطرفة (outliers) في البيانات. أيضاً قد يتم في هذه المرحلة سحب عينات من البيانات وتحليلها للتعرف أكثر على الخصائص والمميزات التي تخفيها البيانات.
اختيار المتغيرات
يقول د.أندرو وهو من كبار المتخصصين في مجال علم الآلة أن اختيار المتغيرات (feature selection) أمر صعب ويستغرق وقتًا طويلاً ويتطلب معرفة متخصصة. تشتمل البيانات في الغالب على عدد كبير من الخصائص أو المتغيرات (variables) والتي ربما تكون لها علاقة بالمشكلة المرجو حلها.
على سبيل المثال، لو كان الهدف بناء نموذج يقرر إما (قبول أو رفض) المتقدم على طلب بطاقة ائتمانية. لنفترض أن البيانات المتوفرة تشتمل على ( العمر، الراتب، الوظيفة، الالتزامات المالية، الطول، الوزن، النادي الرياضي المفضل). بدون شك سيكون من ضمن الخصائص محل الاهتمام ( العمر، الراتب، الوظيفة، الالتزامات المالية) وربما يستبعد من هذه الخصائص (الطول، الوزن، النادي الرياضي المفضل).
هذا الأمر لا يتم بطريقة عشوائية، هناك أساليب رياضية وإحصائية يتم من خلالها تحديد الخصائص المهمة في عمليات التحليل.
بناء النماذج
تأتي هنا مرحلة توظيف خوارزميات تعلم الآلة لبناء النماذج الخاصة باكتشاف العلاقات والتنبؤ. في مشروع علم البيانات، اختيار النموذج وتطويره هي عملية معقدة تتطلب خبرة في مجالات مثل علوم الحاسب الآلي والإحصاء. بناء نموذج التنبؤات الجيد يعني أن يتم تزويده بالبيانات الجيدة والتحقق بشكل كبير من دقة المعلومات التي يوفرها بحيث تستخدم أساليب وطرق إحصائية ورياضية واختبارات شاملة للتأكد من أن نتائج النموذج منطقية ولها فائدة. كل هذا يتم بناءً على الأسئلة التي تم طرحها في المراحل الأولية والخاصة بفهم الأعمال واحتياجاته.
عرض النتائج
مخرجات هذه المرحلة هي ما سوف يظهر لصناع القرار وبالتالي ربما من خلالها سيحكم المستفيدون من نتائج تحليل البيانات على المخرجات. بالتالي تتطلب هذه المرحلة الاهتمام الكبير بالتفاصيل و الجمع بين مجالات كالتصميم، الاتصال، مع الهدف النهائي المتمثل في إيصال نتائج تحليل البيانات بطريقة بسيطة ولكنها فعالة ومرضية يسهل من خلالها استنباط الرؤى واتخاذ القرارات.
فهم العمل واحتياجاته
الآن بعد أن تم استعراض دورة حياة مشروع علم البيانات ، حان الوقت للعودة إلى مرحلة البداية. وبما أن مشاريع تحليل البيانات هي دورة متكررة، لذا فهذا هو المكان المناسب لقياس مدى تأثير نجاح النموذج الذي تم تطويره و هل استطاع أن يعالج المشاكل المحددة والإجابة على الأسئلة المطروحة. ستكون المعرفة التي اكتسبتها خلال تطوير النموذج مصدر رئيسي يساعدك في فهم العمل وبالتالي ينعكس على نوعية النماذج التي تطورها مستقبلاً.