البرنامج التعليمي لاستخراج البيانات: ما هو استخراج البيانات؟ التقنيات والعملية

ما هو استخراج البيانات؟

تنقيب في البيانات هي عملية إيجاد أنماط مفيدة محتملة من مجموعات بيانات ضخمة. إنها مهارة متعددة التخصصات تستخدم آلة التعلموالإحصائيات والذكاء الاصطناعي لاستخراج المعلومات لتقييم احتمالية الأحداث المستقبلية. تُستخدم الأفكار المستمدة من التنقيب في البيانات في التسويق واكتشاف الاحتيال والاكتشاف العلمي وما إلى ذلك.

يعتمد استخراج البيانات على اكتشاف العلاقات الخفية وغير المتوقعة وغير المعروفة سابقًا ولكنها صالحة بين البيانات. يُطلق على استخراج البيانات أيضًا اكتشاف المعرفة في البيانات (KDD)، واستخراج المعرفة، وتحليل البيانات/الأنماط، وحصاد المعلومات، وما إلى ذلك.

أنواع البيانات

يمكن إجراء استخراج البيانات على الأنواع التالية من البيانات

  • قواعد البيانات العلائقية
  • مستودعات البيانات
  • قواعد البيانات المتقدمة ومستودعات المعلومات
  • قواعد البيانات الموجهة للكائنات والكائنات العلائقية
  • قواعد البيانات المعاملاتية والمكانية
  • قواعد البيانات غير المتجانسة والقديمة
  • الوسائط المتعددة وقاعدة بيانات التدفق
  • قواعد البيانات النصية
  • التعدين النص والتعدين على شبكة الإنترنت

عملية تنفيذ استخراج البيانات

عملية تنفيذ استخراج البيانات
عملية تنفيذ استخراج البيانات

دعونا ندرس عملية تنفيذ استخراج البيانات بالتفصيل

فهم الأعمال

في هذه المرحلة، يتم تحديد أهداف الأعمال واستخراج البيانات.

  • أولاً، عليك أن تفهم أهداف العمل والعملاء. تحتاج إلى تحديد ما يريده عميلك (والذي في كثير من الأحيان لا يعرفه هو نفسه)
  • تقييم السيناريو الحالي لاستخراج البيانات. ضع في الاعتبار الموارد والافتراضات والقيود والعوامل المهمة الأخرى في تقييمك.
  • باستخدام أهداف العمل والسيناريو الحالي، حدد أهداف استخراج البيانات الخاصة بك.
  • إن خطة التنقيب عن البيانات الجيدة مفصلة للغاية ويجب تطويرها لتحقيق أهداف الأعمال واستخراج البيانات.

فهم البيانات

في هذه المرحلة، يتم إجراء فحص سلامة البيانات للتحقق مما إذا كانت مناسبة لأهداف استخراج البيانات.

  • أولاً، يتم جمع البيانات من مصادر بيانات متعددة متوفرة في المؤسسة.
  • قد تتضمن مصادر البيانات هذه قواعد بيانات متعددة أو ملفات مسطحة أو مكعبات بيانات. هناك مشكلات مثل مطابقة الكائنات وتكامل المخطط والتي قد تنشأ أثناء عملية تكامل البيانات. إنها عملية معقدة للغاية وصعبة حيث من غير المرجح أن تتطابق البيانات من مصادر مختلفة بسهولة. على سبيل المثال، يحتوي الجدول A على كيان يسمى cust_no بينما يحتوي جدول آخر B على كيان يسمى cust-id.
  • لذلك، من الصعب جدًا التأكد من أن كلا هذين الكائنين المعينين يشيران إلى نفس القيمة أم لا. هنا، يجب استخدام البيانات الوصفية لتقليل الأخطاء في عملية تكامل البيانات.
  • الخطوة التالية هي البحث عن خصائص البيانات المكتسبة. إحدى الطرق الجيدة لاستكشاف البيانات هي الإجابة على أسئلة استخراج البيانات (التي تم تحديدها في مرحلة العمل) باستخدام أدوات الاستعلام وإعداد التقارير والتصور.
  • وبناء على نتائج الاستعلام، ينبغي التأكد من جودة البيانات. ينبغي الحصول على البيانات المفقودة إن وجدت.

إعداد البيانات

في هذه المرحلة، تصبح البيانات جاهزة للإنتاج.

تستهلك عملية إعداد البيانات حوالي 90% من وقت المشروع.

ينبغي اختيار البيانات من مصادر مختلفة، وتنظيفها، وتحويلها، وتنسيقها، وإخفاء هويتها، وإنشائها (إذا لزم الأمر).

تنظيف البيانات هو عملية "تنظيف" البيانات عن طريق تسهيل البيانات المزعجة وملء القيم المفقودة.

على سبيل المثال، بالنسبة للملف التعريفي الديموغرافي للعميل، فإن بيانات العمر مفقودة. البيانات غير كاملة ويجب ملؤها. في بعض الحالات، قد تكون هناك قيم متطرفة للبيانات. على سبيل المثال، العمر له قيمة 300. قد تكون البيانات غير متناسقة. على سبيل المثال، اسم العميل يختلف في الجداول المختلفة.

تعمل عمليات تحويل البيانات على تغيير البيانات لجعلها مفيدة في استخراج البيانات. يمكن تطبيق التحويل التالي

تحويل البيانات

إن عمليات تحويل البيانات من شأنها أن تساهم في نجاح عملية التعدين.

التنعيم: يساعد على إزالة الضوضاء من البيانات.

تجميع: يتم تطبيق عمليات التلخيص أو التجميع على البيانات. أي يتم تجميع بيانات المبيعات الأسبوعية لحساب الإجمالي الشهري والسنوي.

تعميم: في هذه الخطوة، يتم استبدال البيانات منخفضة المستوى بمفاهيم ذات مستوى أعلى بمساعدة التسلسل الهرمي للمفاهيم. على سبيل المثال، يتم استبدال المدينة بالمقاطعة.

تطبيع: يتم إجراء التسوية عندما يتم تكبير بيانات السمة أو تصغيرها. مثال: يجب أن تقع البيانات في النطاق -2.0 إلى 2.0 بعد التسوية.

بناء السمة: يتم إنشاء هذه السمات وتضمين مجموعة السمات المحددة المفيدة في استخراج البيانات.

نتيجة هذه العملية هي مجموعة بيانات نهائية يمكن استخدامها في النمذجة.

نمذجة

في هذه المرحلة، يتم استخدام النماذج الرياضية لتحديد أنماط البيانات.

  • واستنادا إلى أهداف العمل، ينبغي اختيار تقنيات النمذجة المناسبة لمجموعة البيانات المعدة.
  • قم بإنشاء سيناريو لاختبار التحقق من جودة وصلاحية النموذج.
  • قم بتشغيل النموذج على مجموعة البيانات المعدة.
  • وينبغي تقييم النتائج من قبل جميع أصحاب المصلحة للتأكد من أن هذا النموذج يمكن أن يلبي أهداف استخراج البيانات.

التقييم

في هذه المرحلة، يتم تقييم الأنماط المحددة مقابل أهداف العمل.

  • يجب تقييم النتائج الناتجة عن نموذج استخراج البيانات مقابل أهداف العمل.
  • إن اكتساب فهم الأعمال هو عملية متكررة. في الواقع، مع الفهم، قد تنشأ متطلبات عمل جديدة بسبب التنقيب في البيانات.
  • يتم اتخاذ قرار الانتقال أو عدم الانتقال لتحريك النموذج في مرحلة النشر.

التنفيذ

في مرحلة النشر، يمكنك إرسال اكتشافات استخراج البيانات الخاصة بك إلى عمليات العمل اليومية.

  • يجب أن تكون المعرفة أو المعلومات المكتشفة أثناء عملية استخراج البيانات سهلة الفهم لأصحاب المصلحة غير التقنيين.
  • يتم إنشاء خطة نشر مفصلة للشحن والصيانة ومراقبة اكتشافات استخراج البيانات.
  • يتم إنشاء تقرير المشروع النهائي مع الدروس المستفادة والخبرات الأساسية خلال المشروع. وهذا يساعد على تحسين سياسة عمل المنظمة.

تقنيات استخراج البيانات

تقنيات استخراج البيانات
تقنيات استخراج البيانات

1. تصنيف

يُستخدم هذا التحليل لاسترداد المعلومات المهمة وذات الصلة حول البيانات والبيانات الوصفية. تساعد طريقة استخراج البيانات هذه على تصنيف البيانات في فئات مختلفة.

2. Clusterجي

Clusterالتحليل هو أسلوب لاستخراج البيانات لتحديد البيانات المتشابهة. تساعد هذه العملية على فهم الاختلافات والتشابهات بين البيانات.

3. انحسار

تحليل الانحدار هو طريقة استخراج البيانات لتحديد وتحليل العلاقة بين المتغيرات. يتم استخدامه لتحديد احتمالية وجود متغير معين، نظرا لوجود متغيرات أخرى.

4. قواعد الرابطة

تساعد تقنية استخراج البيانات هذه في العثور على الارتباط بين عنصرين أو أكثر. يكتشف نمطًا مخفيًا في مجموعة البيانات.

5. الكشف الخارجي

يشير هذا النوع من تقنيات استخراج البيانات إلى ملاحظة عناصر البيانات الموجودة في مجموعة البيانات والتي لا تتطابق مع النمط المتوقع أو السلوك المتوقع. يمكن استخدام هذه التقنية في مجموعة متنوعة من المجالات، مثل التسلل أو الكشف أو الاحتيال أو اكتشاف الأخطاء، وما إلى ذلك. ويسمى الاكتشاف الخارجي أيضًا التحليل الخارجي أو التعدين الخارجي.

6. الأنماط المتسلسلة

تساعد تقنية استخراج البيانات هذه على اكتشاف أو تحديد أنماط أو اتجاهات مماثلة في بيانات المعاملات لفترة معينة.

7. تنبؤ

لقد استخدم التنبؤ مجموعة من التقنيات الأخرى لاستخراج البيانات مثل الاتجاهات والأنماط المتسلسلة والتجميع والتصنيف وما إلى ذلك. فهو يحلل الأحداث أو الحالات الماضية في تسلسل صحيح للتنبؤ بحدث مستقبلي.

تحديات تنفيذ منجم البيانات

  • هناك حاجة إلى خبراء مهرة لصياغة استعلامات استخراج البيانات.
  • التجهيز الزائد: نظرًا لصغر حجم قاعدة بيانات التدريب، قد لا يتناسب النموذج مع الحالات المستقبلية.
  • يحتاج استخراج البيانات إلى قواعد بيانات كبيرة يصعب إدارتها في بعض الأحيان
  • قد تحتاج الممارسات التجارية إلى تعديل لتحديد كيفية استخدام المعلومات التي تم الكشف عنها.
  • إذا لم تكن مجموعة البيانات متنوعة، فقد لا تكون نتائج استخراج البيانات دقيقة.
  • قد تكون المعلومات المتكاملة المطلوبة من قواعد البيانات غير المتجانسة وأنظمة المعلومات العالمية معقدة

أمثلة على استخراج البيانات

الآن في دورة التنقيب عن البيانات، دعونا نتعرف على التنقيب عن البيانات مع الأمثلة:

مثال 1:

خذ بعين الاعتبار رئيس تسويق خدمات الاتصالات الذي يرغب في زيادة إيرادات خدمات المسافات الطويلة. للحصول على عائد استثمار مرتفع على جهود المبيعات والتسويق، يعد تصنيف العملاء أمرًا مهمًا. لديه مجموعة كبيرة من البيانات الخاصة بمعلومات العملاء مثل العمر والجنس والدخل والتاريخ الائتماني وما إلى ذلك. ولكن من المستحيل تحديد خصائص الأشخاص الذين يفضلون المكالمات البعيدة عن طريق التحليل اليدوي. وباستخدام تقنيات استخراج البيانات، يمكنه اكتشاف الأنماط بين مستخدمي المكالمات البعيدة المدى وخصائصهم.

على سبيل المثال، قد يعلم أن أفضل عملائه هم النساء المتزوجات الذين تتراوح أعمارهم بين 45 و54 عامًا والذين يحصلون على أكثر من 80,000 ألف دولار سنويًا. يمكن أن تستهدف جهود التسويق هذه الديموغرافية.

مثال 2:

يريد أحد البنوك البحث عن طرق جديدة لزيادة الإيرادات من عمليات بطاقات الائتمان. ويريدون التحقق مما إذا كان الاستخدام سيتضاعف إذا تم خفض الرسوم إلى النصف.

يتمتع البنك بسجل متعدد السنوات في متوسط ​​أرصدة بطاقات الائتمان، ومبالغ الدفع، واستخدام الحد الائتماني، والمعلمات الرئيسية الأخرى. يقومون بإنشاء نموذج للتحقق من تأثير سياسة العمل الجديدة المقترحة. تظهر نتائج البيانات أن خفض الرسوم إلى النصف لقاعدة العملاء المستهدفة يمكن أن يزيد الإيرادات بمقدار 10 ملايين دولار.

أدوات استخراج البيانات

فيما يلي 2 من أشهر أدوات استخراج البيانات تستخدم على نطاق واسع في الصناعة

لغة R:

اللغة R هي أداة مفتوحة المصدر للحوسبة الإحصائية والرسومات. لدى R مجموعة واسعة من الاختبارات الإحصائية الكلاسيكية وتحليل السلاسل الزمنية والتصنيف والتقنيات الرسومية. وهو يوفر وسيلة فعالة لتسليم البيانات وتخزينها.

انقر هنا لمعرفة المزيد

Oracle بيانات التعدين:

Oracle تنقيب في البيانات المعروف شعبيا باسم ODM هو وحدة نمطية من Oracle قاعدة بيانات التحليلات المتقدمة. تسمح أداة استخراج البيانات هذه لمحللي البيانات بإنشاء رؤى تفصيلية وإجراء تنبؤات. فهو يساعد على التنبؤ بسلوك العملاء، وتطوير ملفات تعريف العملاء، وتحديد فرص البيع المتبادل.

انقر هنا لمعرفة المزيد

فوائد استخراج البيانات

  • تساعد تقنية استخراج البيانات الشركات في الحصول على معلومات قائمة على المعرفة.
  • يساعد استخراج البيانات المؤسسات على إجراء التعديلات المربحة في التشغيل والإنتاج.
  • يعد استخراج البيانات حلاً فعالاً من حيث التكلفة وفعالاً مقارنة بتطبيقات البيانات الإحصائية الأخرى.
  • يساعد استخراج البيانات في عملية صنع القرار.
  • يسهل التنبؤ الآلي للاتجاهات والسلوكيات بالإضافة إلى الاكتشاف الآلي للأنماط المخفية.
  • يمكن تنفيذه في الأنظمة الجديدة بالإضافة إلى الأنظمة الأساسية الحالية
  • إنها العملية السريعة التي تسهل على المستخدمين تحليل كمية هائلة من البيانات في وقت أقل.

عيوب التنقيب عن البيانات

  • هناك فرص أن تقوم الشركات ببيع معلومات مفيدة عن عملائها لشركات أخرى مقابل المال. على سبيل المثال، باعت شركة أمريكان إكسبريس مشتريات عملائها من بطاقات الائتمان إلى الشركات الأخرى.
  • من الصعب تشغيل العديد من برامج تحليلات استخراج البيانات وتتطلب تدريبًا متقدمًا للعمل عليها.
  • تعمل أدوات التعدين المختلفة للبيانات بطرق مختلفة بسبب الخوارزميات المختلفة المستخدمة في تصميمها. لذلك، فإن اختيار أداة التعدين الصحيحة للبيانات يعد مهمة صعبة للغاية.
  • تقنيات استخراج البيانات ليست دقيقة، وبالتالي يمكن أن تسبب عواقب وخيمة في ظروف معينة.

تطبيقات التنقيب عن البيانات

ذكية ومتخصصة الأستعمال
مجال الاتصالات تُستخدم تقنيات استخراج البيانات في قطاع الاتصالات للتنبؤ بسلوك العملاء لتقديم حملات مستهدفة للغاية وذات صلة.
تأمين يساعد استخراج البيانات شركات التأمين على تسعير منتجاتها بشكل مربح والترويج لعروض جديدة لعملائها الجدد أو الحاليين.
قطاع التعليم يفيد استخراج البيانات المعلمين في الوصول إلى بيانات الطلاب والتنبؤ بمستويات الإنجاز والعثور على الطلاب أو مجموعات الطلاب الذين يحتاجون إلى مزيد من الاهتمام. على سبيل المثال، الطلاب الذين هم ضعفاء في مادة الرياضيات.
تصنيع بمساعدة استخراج البيانات، يمكن للمصنعين التنبؤ بتآكل أصول الإنتاج. يمكنهم توقع الصيانة مما يساعدهم على تقليل وقت التوقف عن العمل.
البنوك والمصارف يساعد التنقيب في البيانات القطاع المالي في الحصول على رؤية لمخاطر السوق وإدارة الامتثال التنظيمي. فهو يساعد البنوك على تحديد المتعثرين المحتملين لاتخاذ قرار بشأن إصدار بطاقات الائتمان والقروض وما إلى ذلك.
خدمات البيع بالتجزئة تساعد تقنيات التنقيب في البيانات مراكز البيع بالتجزئة ومحلات البقالة على تحديد وترتيب معظم العناصر القابلة للبيع في المواقف الأكثر انتباهاً. فهو يساعد أصحاب المتاجر على التوصل إلى العرض الذي يشجع العملاء على زيادة إنفاقهم.
مقدمي الخدمات يستخدم مزودو الخدمات مثل صناعة الهواتف المحمولة والمرافق العامة استخراج البيانات للتنبؤ بالأسباب التي تدفع العميل إلى ترك شركتهم. يقومون بتحليل تفاصيل الفواتير وتفاعلات خدمة العملاء والشكاوى المقدمة للشركة لتعيين درجة احتمالية لكل عميل وتقديم الحوافز.
التجارة الإلكترونية تستخدم مواقع التجارة الإلكترونية "استخراج البيانات" لتقديم عمليات البيع المتقاطع والمبيعات الإضافية من خلال مواقعها الإلكترونية. ومن أشهر الأسماء هو Amazon، الذين يستخدمون تقنيات استخراج البيانات لجذب المزيد من العملاء إلى متجر التجارة الإلكترونية الخاص بهم.
سوبر ماركت يسمح استخراج البيانات لقواعد تطوير السوبر ماركت بالتنبؤ بما إذا كان من المحتمل أن يتوقع المتسوقون أم لا. ومن خلال تقييم نمط الشراء الخاص بهم، يمكنهم العثور على عملاء من النساء على الأرجح أنهن حوامل. يمكنهم البدء في استهداف منتجات مثل بودرة الأطفال ومتجر الأطفال والحفاضات وما إلى ذلك.
التحقيق الجنائي يساعد التنقيب في البيانات وكالات التحقيق في الجرائم على نشر القوى العاملة في الشرطة (أين من المرجح أن تحدث الجريمة ومتى؟)، ومن يجب البحث عند المعبر الحدودي وما إلى ذلك.
المعلوماتية الحيوية يساعد التنقيب في البيانات على استخراج البيانات البيولوجية من مجموعات البيانات الضخمة المجمعة في علم الأحياء والطب.

ملخص

  • تعريف التنقيب في البيانات: التنقيب في البيانات يدور حول شرح الماضي والتنبؤ بالمستقبل من خلال تحليل البيانات.
  • يساعد التنقيب في البيانات على استخراج المعلومات من مجموعات ضخمة من البيانات. إنه إجراء استخراج المعرفة من البيانات.
  • تتضمن عملية استخراج البيانات فهم الأعمال وفهم البيانات وإعداد البيانات والنمذجة والتطور والنشر.
  • تقنيات التعدين الهامة للبيانات هي التصنيف والتجميع والانحدار وقواعد الارتباط والكشف الخارجي والأنماط المتسلسلة والتنبؤ
  • لغة R و Oracle يعد استخراج البيانات من أدوات وتقنيات استخراج البيانات البارزة.
  • تساعد تقنية استخراج البيانات الشركات في الحصول على معلومات قائمة على المعرفة.
  • العيب الرئيسي لتعدين البيانات هو أن العديد من برامج التحليلات يصعب تشغيلها وتتطلب تدريبًا مسبقًا للعمل عليها.
  • يتم استخدام استخراج البيانات في صناعات متنوعة مثل الاتصالات والتأمين والتعليم والتصنيع والخدمات المصرفية وتجارة التجزئة ومقدمي الخدمات والتجارة الإلكترونية ومحلات السوبر ماركت المعلوماتية الحيوية.

تلخيص هذه التدوينة بـ: