بقلم:

شهد الشهراني

LinkedIn: Shahad Alshahrani

هندسة البيانات

قد تكون هندسة البيانات هي خطوتك الأولى والأكثر أهمية.

Ramya Shankar

بدايةً

كما نعلم فإن البيانات تمر بعدة مراحل تسمى دورة حياة البيانات, وفي نهايتها نستطيع إستخراج بيانات مفيدة وبمقدورنا الإستافة منها.


ولكن!

ماهي العملية المسؤولة عن جمع البيانات من المصدر بشكل مباشر وتنقيحها وتنظيفها؟


هندسة البيانات

 هندسة البيانات، هي العملية التي يتم فيها جمع البيانات من المصدر بشكل مباشر وتنقيحها وتنظيفها وربطها ثم التأكد من جودتها، من ثم بناء مستودعات البيانات والتي تسمح بالوصول للبيانات بسرعة ودقة، ثم تجهيزها لمرحلة التحليل.


وتراعي هندسة البيانات:

كفاءة الأداء وأمن المعلومات والخصوصية وحوكمة البيانات. وكذلك التواصل مع كل من له علاقة بالمشروع بشكل تقني كإدارة الخوادم والشبكات وكذلك مصنعي التقنيات المستخدمة لمتابعة كل جديد.


مخطط هندسة البيانات

وحتى نستطيع توضيح الفكرة الرئيسية لهندسة البيانات و طريقة عملها سنوضح مخطط هندسة البيانات, والذي يتفرع الى عدة اقسام وهي :

  • مصادر البيانات: هي الأنظمة وقواعد البيانات والملفات التي سيتم ربطها بنظام البيانات. 

  • استخراج نقل تحميل ETL:  ثلاث خطوات لأدارة البيانات , إستخراج البيانات من مصادر البيانات المهيكلة وغير المهيكلة ، التحويلات إلى شكل يفي بالمتطلبات التشغيلية والتحليلية للشركة ، و الأحمال إلى الوجهة المستهدفة.

  • مصدر البيانات التشغيلي Operational Data Source-ODS: وهي عبارة عن خادم قواعد بيانات يتم أخذ نسخ طبق الأصل من المصدر. 

  • تنظيف وجودة البيانات: في هذه المرحلة يتم تنظيف البيانات وهي عبارة عن تصحيح الأخطاء الإملائية أو تغير الرموز الى مسميات أو استبدال NULL بمصطلح “غير معرف” وحذف الزائد من الرموز البرمجية وتوحيد اشكال التواريخ وغيرها.

    أما جودة البيانات: فهي التأكد من دقة البيانات عن طريق ربطها بمصدر آخر أو عرضها على خبير أو مقارنتها مع تقارير أخرى.

  • مستودعات البيانات Data Warehouses: تبنى على أساسين: الأول الحقيقة (Fact)  والثاني البعد (Dimension).  كل حقل في قاعدة البيانات يمكن تجميعه يعتبر Fact، وكل حقل نص أو تاريخ يصف هذا الرقم يعتبر Dimension.

  • مستودعات البيانات المصغرة Data Mart: تجميع جزء معين من مستودعات البيانات الرئيسية، يتم بناؤها لعدة أهداف رئيسية.

  • تحليل البيانات المجدول Tabular: هذه التقنية تدعم بناء التقارير من قاعدة البيانات بشكلها الطبيعي المسمى Normalization.

  • تحليل البيانات متعدد الابعاد Multi-Dimensional: هذه التقنية تعتمد على أساس الحقيقة Fact والبعد Dimension بما يعرف بـ Denormalization. حيث تجمع كل Fact ثم تربطه مع كل الابعاد وبكل أشكالها، وتجهيزها للرد على أي سؤال ممكن ومحتمل.

  • بناء التقارير ولوحات المعلومات والمؤشرات Report & Dashboard: في هذه المرحلة يكون الدور متبادل بين مهندس البيانات وعالم ومحلل البيانات، فالكل يسهم في بناء التقارير.

أيضًا,

فيما يلي رسم توضيحي  مبسط لما تم ذكره في شرح المخطط :


أخيراً

يتمتع مهندسو البيانات بنطاق واسع في المستقبل وسيزداد الطلب عليهم طالما أن العالم يمر بتحول رقمي. إنها خطوة أساسية في عملية علم البيانات بالكامل وتقنية في الغالب.  هندسة البيانات قد تبدو رهانًا سهلاً في البداية ، إلا أنها تنطوي على الكثير من التحديات نظرًا لأن معظم البيانات في الوقت الفعلي غير منظمة وتحتاج إلى الكثير من المعالجة.


أتمنى أن التدوينة أفادتكم ولو بنسبة قليلة..

شكرًا لكم !

Join