DATA SCIENCE | Caramella

مقدمة في علم البيانات والبيانات

(365 DATA SCIENCE)

المقدمة

علم البيانات هو مجال خبرة دائم التطور حيث إنه ينجو من أي محاولة للتبسيط أو التنظيم (بمعنى ليس بتخصص السهل). يمكننا القول إنه مجال متعدد التخصصات يهتم بتوليد رؤى وقيمة للأعمال بواسطة معالجة كميات كبيرة من البيانات (معتمد بشكل كبير على البيانات) .

ماهو علم البيانات (بشكل خاص):

علم البيانات هو موضوع واسع. إنه مجال متعدد التخصصات يجمع بين الأدوات الإحصائية والرياضية والبرمجة وحل المشكلات وإدارة البيانات.

مجالات علوم البيانات المختلفة

ليس هناك من ينكر أن البيانات الحالية والعمرية هي أساس أي شركة ناجحة. يعرف رواد الأعمال أن التعمق في البيانات هو ما سيبقيهم في صدارة المنافسة. يمكن لأي شخص مؤهل كخبير إحصائي منذ 25 عامًا ومواكب للتقنيات الجديدة أن يتناسب مع العديد من الفئات المهنية اليوم.

التحليل مقابل التحليلات:
التحليل و التحليلات ليسا مصطلحين قابلين للتبادل. على الرغم من ذالك الا إنه في كثير من الأحيان يتم استخدام احدهم بدلاً من الآخر نتيجة لعدم وجود فهم شفاف لكليهما.
1. التحليل (Analysis)- تقسيم البيانات إلى مكونات قابلة للفهم يسهل فهمها ودراسة كيفية ارتباط الأجزاء المختلفة ببعضها البعض. تم إجراؤه على البيانات السابقة ، يشرح لماذا انتهت القصة بالطريقة التي انتهت بها. نريد أن نشرح "كيف" و "لماذا" حدث شيء ما.
2. التحليلات (Analytics)- يستكشف المستقبل !! . عن طريق تطبيق منطق وحساب الاستدلال على الأجزاء المكونة التي تم الحصول عليها في التحليل. في القيام بذلك ، أنت تبحث عن الأنماط واستكشاف ما يمكنك فعله بها في المستقبل. فإننا يمكن أن يكون:
  • التحليلات النوعية - باستخدام الحدس والخبرة بالتزامن مع التحليل لتخطيط خطوتك التجارية التالية.
  
  • التحليلات الكمية - تطبيق الصيغ والخوارزميات على الأرقام جمعت من تحليلك.
معلومة:
علم البيانات هو تخصص يعتمد على توافر البيانات . ومع ذلك ، يتضمن علم البيانات جزءًا من تحليلات البيانات. في الغالب الجزء الذي يستخدم أدوات رياضية وإحصائية وبرمجة معقدة.
ذكاء الأعمال (Business Intelligence):
هي عملية تحليل بيانات الأعمال التاريخية والإبلاغ عنها. بعد إعداد التقارير ولوحات المعلومات ، يمكن استخدامها لاتخاذ قرارات إستراتيجية وعملية مستنيرة من قبل المستخدمين النهائيين مثل المدير العام. بإيجاز ، يهدف ذكاء الأعمال إلى شرح الأحداث الماضية باستخدام بيانات الأعمال.
- يمكن اعتبار ذكاء الأعمال بمثابة الخطوة الأولية للتحليلات التنبؤية. حيث انك تقوم بتحليل البيانات السابقة ثم تستخدام هذه الاستدلالات التي تسمح لك بإنشاء نماذج مناسب يمكنك بالتنبؤ بمستقبل عملك بدقة.
- يشمل ذكاء الأعمال جميع الأدوات التي تعتمد على التقنية والمشتركة في عملية تحليل البيانات السابقة المتاحة وفهمها والإبلاغ عنها.
- يتيح لك اتخاذ القرارات واستخراج الأفكار.
التعلم الآلي(Machine learning):
هو قدرة الآلات على التنبؤ بالنتائج دون أن تتم برمجتها بشكل صريح للقيام بذلك. يتعلق الأمر بإنشاء وتنفيذ خوارزميات تتيح للآلات تلقي البيانات واستخدام هذه البيانات من أجل:

• عمل تنبؤات
• تحليل الأنماط
• إعطاء التوصيات

يحاكي الذكاء الاصطناعي المعرفة البشرية واتخاذ القرار باستخدام أجهزة الكمبيوتر. تمكن البشر من الوصول إلى الذكاء الاصطناعي من خلال التعلم الآلي والعميق.
الاستدلال الرمزي (Symbolic reasoning):
هو نوع من الذكاء الاصطناعي يجعلة استثنائي ولا يستخدم التعلم الآلي والتعلم العميق. وهو يقوم على تمثيلات عالية المستوى يمكن قراءتها من قبل الإنسان للمشكلات والمنطق. نادرا ما تستخدم في الممارسة.
التحليلات المتقدمة (Advanced analytics):
تعني جميع أنواع عمليات التحليل عالية المستوى.

العلاقة بين مجالات علوم البيانات المختلفة

يمكن تعريف البيانات على أنها معلومات مخزنة في تنسيق رقمي ، والتي يمكن استخدامها بعد ذلك كأساس لإجراء التحليل واتخاذ القرار.

يمكننا التمييز بين نوعين من البيانات:

البيانات التقليدية (Traditional data): بيانات في شكل جداول تحتوي على أرقام أو نصوص القيم؛ البيانات التي يتم تنظيمها وتخزينها في قواعد البيانات.
البيانات الضخمة (Big data): بيانات كبيرة للغاية. عملاق من حيث الحجم. غالبًا ما تتميز البيانات الضخمة بالحرف "V". في ظل أطر مختلفة ، قد يكون لدينا 3،5،7 وحتى 11 إطار عمل ؛ أهمها الحجم والتنوع والسرعة.
يمكن أن يكون بأشكال مختلفة:
- منظم (structured)
- شبه منظم(semi-structured)
- غير منظم(unstructured)

تقنيات علوم البيانات الشائعة

البيانات التقليدية:
يمكن أن يشير مصطلح البيانات إلى "الحقائق الأولية" أو "البيانات المعالجة" أو "المعلومات".

البيانات الأولية (raw data) ، وتسمى أيضًا "البيانات الأولية (primary data)" هي البيانات التي لا يمكن تحليلها على الفور. إنها بيانات لم تمسها وقمت بتجميعها وتخزينها على الخادم.

يمكن جمع البيانات بعدة طرق. أحد الأمثلة على ذلك هو استخدام الاستطلاعات ، حيث تطلب من الأشخاص تقييم مدى إعجابهم أو عدم إعجابهم بمنتج أو تجربة على مقياس من 1 إلى 10. بدلاً من ذلك ، يمكن أن يكون جمع البيانات تلقائيًا (على سبيل المثال ملفات تعريف الارتباط).

يجب إجراء المعالجة المسبقة للبيانات على البيانات الخام للحصول على معلومات مفيدة. حيث تتم عن طريق مجموعة من العمليات التي ستحول بشكل أساسي بياناتك الأولية إلى تنسيق أكثر قابلية للفهم.
- تصنيف الفئة (Class labelling): وهو عبارة عن تسمية البيانات بنوع البيانات الصحيح (أو الترتيب البيانات حسب الفئة).
- تنقية البيانات (Data cleansing): ("تنظيف البيانات" ، "تنقية البيانات"): التعامل مع البيانات غير المتسقة. على سبيل المثال ، العمل على مجموعة بيانات تحتوي على ولايات أمريكية واكتشاف أن بعض الأسماء بها أخطاء إملائية.
- موازنة البيانات (Data balancing): التأكد من أن العينة تعطي أولوية متساوية لكل فئة. على سبيل المثال ، إذا كنت تعمل مع مجموعة بيانات تحتوي على 80٪ من بيانات الذكور و 20٪ للإناث ، وتعلم أن السكان يحتويون على ما يقرب من 50٪ من الرجال و 50٪ من النساء ، فأنت بحاجة إلى تطبيق أسلوب موازنة لمواجهة هذه المشكلة (باستخدام عدد متساو من البيانات من كل مجموعة).
- خلط البيانات (Data shuffling): خلط الملاحظات من مجموعة البيانات تمامًا مثل خلط مجموعة أوراق اللعب. سيضمن ذلك أن مجموعة البيانات الخاصة بك خالية من الأنماط غير المرغوب فيها التي تسببها مشاكل جمع البيانات.
البيانات التقليدية
أمثلة من الحياة الواقعية:
المتغير العددي: الأرقام التي يمكن التلاعب بها بسهولة (على سبيل المثال مضافة) ، والتي تعطينا معلومات مفيدة.
المتغير الفئوي: يمكن اعتبار الأرقام التي لا تحتوي على قيمة عددية بيانات فئوية. تعتبر التواريخ أيضًا بيانات فئوية.
البيانات الضخمة
أمثلة على البيانات الضخمة:
البيانات النصية وبيانات الصور الرقمية وبيانات الفيديو الرقمية والصوت الرقمي البيانات ، إلخ.

مع مجموعة متنوعة من أنواع البيانات ، تأتي مجموعة واسعة من طرق تنقية البيانات.
- التنقيب عن البيانات النصية: عملية استخلاص بيانات قيمة وغير منظمة من النص.
- إخفاء البيانات: عندما تعمل مع بيانات المستخدم الخاصة ، يجب أن تكون قادرًا على الحفاظ على المعلومات السرية. ومع ذلك ، هذا لا يعني أنه لا يمكن لمس البيانات أو استخدامها للتحليل. بدلاً من ذلك ، يجب عليك تطبيق بعض تقنيات إخفاء البيانات للاستفادة من المعلومات دون المساس بالتفاصيل الخاصة. في الأساس ، يخفي إخفاء البيانات البيانات الأصلية ببيانات عشوائية وكاذبة ، مما يسمح لك بإجراء تحليل والحفاظ على المعلومات السرية في مكان آمن.
البيانات الضخمة
أمثلة من الحياة الواقعية:
نجد البيانات الضخمة في المزيد من الصناعات والشركات بشكل متزايد. ربما يكون أهم مثال على شركة تستفيد من الإمكانات الحقيقية للبيانات الضخمة هو Facebook. تتعقب الشركة أسماء المستخدمين والبيانات الشخصية والصور ومقاطع الفيديو والرسائل المسجلة وما إلى ذلك. هذا يعني أن بياناتهم بها الكثير من التنوع. ومع وجود ملياري مستخدم حول العالم ، فإن حجم البيانات المخزنة على خوادمهم هائل.
ذكاء الأعمال(BI)
يتطلب ذكاء الأعمال مزيجًا من مهارات البيانات والمعرفة التجارية في محاولة لشرح الأداء السابق. يجيب على الأسئلة "ماذا حدث؟" ، "متى حدث ذلك؟" ، "كم عدد الوحدات التي قمنا ببيعها؟"، "في أي منطقة قمنا ببيع معظم السلع؟" إلخ.
تتطلب وظيفة محلل ذكاء الأعمال منها فهم جوهر العمل وتقوية هذا العمل من خلال قوة البيانات.

متري (Metric) يشير إلى قيمة مشتقة من التدابير التي حصلت عليها وتهدف إلى قياس أداء الأعمال أو التقدم. له معنى تجاري مرتبط به. و القياس (Measure) إحصائيات وصفية بسيطة للأداء السابق.
(Metric = Measure + Business meaning)

مؤشرات الأداء الرئيسية (KPIs) ليس من المنطقي تتبع جميع المقاييس. لذلك ، تختار الشركات التركيز على أهمها.
(KPIs = metrics + Business objective)

ذكاء الأعمال
أمثلة من الحياة الواقعية:
يسمح لك ذكاء الأعمال بضبط استراتيجيتك على البيانات السابقة بمجرد توفرها. إذا تم القيام بذلك بشكل صحيح ، فستساعد Business Intelligence في إدارة لوجستيات شحنتك بكفاءة ، وبالتالي تقليل التكاليف وزيادة الأرباح.
التعلم الالي
هو عبارة عن إنشاء خوارزمية ، يستخدمها الحاسب للعثور على نموذج يناسب البيانات على أفضل وجه ممكن لعمل تنبؤات دقيقة للغاية. في معظم الحالات ، تكون عملية التجربة والخطأ ، ولكن الشيء المميز فيها هو أن كل تجربة متتالية تكون على الأقل بنفس جودة التجربة السابقة.

هناك أربعة مكونات للتعلم الآلي:
- البيانات (Data)
- النموذج (Model) يستخدم الحاسب خوارزمية للتعرف على أنواع معينة من الأنماط.
- الوظيفة الموضوعية (Objective function) تحديد مشكلة التعلم الآلي ؛ وظيفة يتم تكبيرها أو تصغيرها وفقًا للمهمة المطروحة
- خوارزمية التحسين (Optimization algorithm) عملية يتم فيها حل مشكلة مسبقًا مقارنة للعثور على الحل الأمثل.

أنواع التعلم الآلي

التعلم تحت الإشراف (Supervised learning)
يشبه تدريب الخوارزمية قيام المعلمة بالإشراف على طلابها. يقدم ملاحظات في كل خطوة على الطريق. إخبار الطلاب ما إذا كانوا قد أدوا "حسنًا" أو ما إذا كانوا بحاجة إلى تحسين أدائهم.
عند استخدام التعلم الخاضع للإشراف ، فإنك تستخدم البيانات المصنفة (يتم تصنيف كل نقطة بيانات على أنها أداء "جيد" أو "أداء يحتاج إلى تحسين" في مثالنا).
تعليم غير مشرف عليه (Unsupervised learning)
في هذه الحالة ، تقوم الخوارزمية بتدريب نفسها. لا يوجد معلم يقدم ملاحظات. تستخدم الخوارزمية بيانات غير مصنفة لم يتم تصنيفها على أنها "جيدة" أو "أداء يحتاج إلى تحسين". يستخدم نموذج ML غير الخاضع للإشراف البيانات وأنواعها في مجموعات مختلفة. في مثالنا ، سيكون قادرًا على إظهار مجموعتين "أداء جيد" و "أداء يحتاج إلى تحسين" ، لكن نموذج ML لن يكون قادرًا على إخبارنا أيهما.
تعزيز التعلم (Reinforcement learning)
تم تقديم نظام المكافآت. في كل مرة يقوم فيها الطالب بمهمة أفضل مما كان عليه في الماضي ، سيحصل على مكافأة (ولا شيء إذا لم يتم أداء المهمة بشكل أفضل). بدلاً من تقليل الخطأ إلى الحد الأدنى ، نقوم بتعظيم المكافأة ، أو بعبارة أخرى ، نقوم بتعظيم الوظيفة الموضوعية (Objects Function).
التعلم العميق (Deep learning)
أحدث نهج للتعلم الآلي - يعزز قوة الشبكات العصبية ويمكن وضعه في كلتا الفئتين - التعلم الخاضع للإشراف وغير الخاضع للإشراف.

أدوات علوم البيانات الشائعة

هناك نوعان رئيسان من الأدوات التي يمكن للمرء استخدامها في علم البيانات - لغات البرمجة والبرمجيات. تمكنك لغات البرمجة من ابتكار برامج يمكنها تنفيذ عمليات محددة. إضافة الى ذلك ، يمكنك إعادة استخدام هذه البرامج متى احتجت إلى تنفيذ نفس الإجراء. يُظهر البحث السنوي الخاص با (365datascience) على 1001 ملفًا شخصيًا لعالم البيانات أن لغة البرمجة الأكثر شيوعًا لعلوم البيانات هي Python متبوعة بـ R. هذه اللغات ليست مناسبة فقط للحسابات الرياضية والإحصائية. إنها لغات برمجة للأغراض العامة.

بايثون و R لها حدودها. إنهم غير قادرين على معالجة المشاكل الخاصة ببعض المجالات. أحد الأمثلة هو "أنظمة إدارة قواعد البيانات العلائقية". في هذه الحالات ، يعمل SQL بشكل أفضل.

من حيث البرامج ، يلعب Excel دورًا مهمًا. إنه قادر على إجراء حسابات معقدة نسبيًا وتصورات جيدة بسرعة. SPSS هي أداة شائعة أخرى للعمل مع البيانات التقليدية وتطبيق التحليل الإحصائي.

هناك قدر كبير من البرامج المصممة للعمل مع البيانات الضخمة -Apache Hadoop و Apache Hbase و Mongo. تعد Power BI و Qlik و Tableau أمثلة من الدرجة الأولى على البرامج المصممة لتصورات ذكاء الأعمال.

وظائف علوم البيانات

مهندس البيانات(Data architect) - يصمم الطريقة التي سيتم بها استرجاع البيانات ومعالجتها واستهلاكها.
مهندس البيانات (Data engineer) - معالجة البيانات التي تم الحصول عليها بحيث تكون جاهزة للتحليل.
مسؤول قاعدة البيانات (Database administrator) - يتعامل مع عنصر التحكم هذا في البيانات ؛ يعمل مع البيانات التقليدية.
محلل BI - يقوم بتحليلات وإعداد التقارير عن البيانات التاريخية السابقة.
مستشار BI - "محلل BI خارجي".
مطور ذكاء الأعمال (BI developer) - يقوم بإجراء تحليلات مصممة خصيصًا للشركة.
عالم البيانات (Data scientist) - يستخدم الأساليب الإحصائية التقليدية أو تقنيات التعلم الآلي غير التقليدية لعمل التنبؤات.
محلل بيانات (Data analyst) - إعداد تحليلات متقدمة.
مهندس تعلم الآلة (Machine learning engineer) - يطبق تقنيات تعلم الآلة الحديثة.

اخيرا بعض من المفاهيم الخاطئة الشائعة في البيانات

1. 200000 سطر من البيانات تشكل بيانات ضخمة - ليس الحجم فقط هو الذي يحدد مجموعة البيانات على أنها "كبيرة" - يلعب التنوع والتنوع والسرعة والصدق والخصائص الأخرى دورًا مهمًا أيضًا.

2. لا يتم استخدام التحليل النوعي مثل SWOT للتحليل الكمي. وبالتالي ، فهم ليسوا جزءًا من ذكاء الأعمال.

3. يمكن استخدام برامج مثل Excel و SPSS و Stata بنجاح بواسطة فرق علوم البيانات في العديد من الشركات.

4. في التعلم العميق ، لا يزال هناك نقاش حول سبب تفوق الخوارزميات المستخدمة على جميع الطرق التقليدية.