برنامج تعليمي حول الخلية للمبتدئين
ملخص البرنامج التعليمي للخلية
يساعد Apache Hive في الاستعلام عن مجموعات البيانات الكبيرة وإدارتها بسرعة كبيرة. إنه ل أداة ETL لنظام Hadoop البيئي. في هذا البرنامج التعليمي Apache Hive للمبتدئين، ستتعلم أساسيات Hive والموضوعات المهمة مثل استعلامات HQL واستخراج البيانات والأقسام والدلاء وما إلى ذلك. ستساعدك سلسلة دروس Hive هذه على تعلم مفاهيم Hive وأساسياتها.
ماذا يجب أن أعرف؟
لتعلم هذا البرنامج التعليمي للاستعلام عن Hive، تحتاج إلى معرفة أساسية بـ SQL ، Hadoop والمعرفة بقواعد البيانات الأخرى ستكون ذات فائدة إضافية.
منهج دورة الخلية
المقدمة
| ؟؟؟؟ الدرس 1 | ما هي الخلية؟ - Archiالبنية والأوضاع |
| ؟؟؟؟ الدرس 2 | تنزيل وتثبيت خلية - كيفية تنزيل وتثبيت HIVE على Ubuntu |
| ؟؟؟؟ الدرس 3 | تكوين HIVE Metastore - لماذا الاستخدام MySQL? |
| ؟؟؟؟ الدرس 4 | أنواع بيانات الخلية - إنشاء وإسقاط قاعدة البيانات في الخلية |
أشياء متقدمة
| ؟؟؟؟ الدرس 1 | خلية إنشاء الجدول - أنواعها واستخدامها |
| ؟؟؟؟ الدرس 2 | أقسام الخلية والدلاء - تعلم مع المثال |
| ؟؟؟؟ الدرس 3 | فهارس الخلية وعرضها - تعلم مع المثال |
| ؟؟؟؟ الدرس 4 | استعلامات الخلية - تعلم مع المثال |
| ؟؟؟؟ الدرس 5 | البرنامج التعليمي للانضمام إلى الخلية والاستعلام الفرعي - تعلم مع المثال |
| ؟؟؟؟ الدرس 6 | دروس لغة الاستعلام في الخلية - مدمج Operaالاختصاصات |
| ؟؟؟؟ الدرس 7 | وظيفة الخلية — وظائف مدمجة ومحددة من قبل المستخدم |
| ؟؟؟؟ الدرس 8 | خلية إي تي إل - تحميل JSON، XML، أمثلة البيانات النصية |
| ؟؟؟؟ الدرس 9 | أسئلة مقابلة الخلية — أسئلة وأجوبة مقابلة مع أفضل 40 شخصية في برنامج Hive |
مقدمة إلى الخلية
تطورت Hive كحل لتخزين البيانات مبني على إطار عمل Hadoop Map-Reduce.
حجم مجموعات البيانات التي يتم جمعها وتحليلها في الصناعة ذكاء الأعمال تتزايد أهمية تكنولوجيا المعلومات والاتصالات، الأمر الذي يجعل حلول تخزين البيانات التقليدية أكثر تكلفة. Hadoop مع إطار عمل MapReduce، يتم استخدامه كحل بديل لتحليل مجموعات البيانات ذات الحجم الضخم. على الرغم من أن Hadoop أثبت فائدته في العمل على مجموعات ضخمة من البيانات، إلا أن إطار عمل MapReduce الخاص به منخفض المستوى للغاية ويتطلب من المبرمجين كتابة برامج مخصصة يصعب صيانتها وإعادة استخدامها. تأتي الخلية إلى هنا لإنقاذ المبرمجين.
محرك الخلية يقوم Hive بتجميع هذه الاستعلامات في وظائف Map-Reduce ليتم تنفيذها على Hadoop. بالإضافة إلى ذلك، يمكن أيضًا توصيل نصوص Map-Reduce المخصصة بالاستعلامات. يعمل Hive على البيانات المخزنة في الجداول والتي تتكون من أنواع بيانات بدائية وأنواع بيانات التجميع مثل المصفوفات والخرائط.
يأتي Hive مزودًا بواجهة سطر أوامر يمكن استخدامها لإنشاء الجداول وتنفيذ الاستعلامات.
تشبه لغة استعلام الخلية لغة SQL حيث تدعم الاستعلامات الفرعية. باستخدام لغة استعلام Hive، من الممكن ربط MapReduce عبر جداول Hive. لديها دعم بسيط وظائف مثل SQL- CONCAT، SUBSTR، ROUND وما إلى ذلك، و وظائف التجميع- SUM، COUNT، MAX وما إلى ذلك. كما أنه يدعم عبارات GROUP BY وSORT BY. من الممكن أيضًا كتابة وظائف محددة بواسطة المستخدم بلغة استعلام الخلية.
ما هي الخلية؟
اباتشي خلية هو إطار عمل لمستودع البيانات للاستعلام عن البيانات المخزنة في HDFS وتحليلها. تم تطويره على رأس Hadoop. Hive هو برنامج مفتوح المصدر لتحليل مجموعات البيانات الكبيرة على Hadoop. وهو يوفر لغة تعريفية تشبه SQL، تسمى HiveQL، للتعبير عن الاستعلامات. باستخدام Hive-QL، يرتبط المستخدمون بـ SQL يمكن إجراء تحليل البيانات بسهولة بالغة.
خلية مقابل خريطة تقليل
قبل اختيار أحد هذين الخيارين، يجب أن ننظر إلى بعض ميزاتهما.
عند الاختيار بين Hive وMap، يجب مراعاة العوامل التالية:
- نوع البيانات
- كمية البيانات
- تعقيد الكود
خلية مقابل خريطة تقليل؟
| الميزات | خلية النحل | تقليل الخريطة |
|---|---|---|
| اللغة | وهو يدعم SQL مثل لغة الاستعلام للتفاعل ونمذجة البيانات |
|
| مستوى التجريد | مستوى أعلى من التجريد أعلى HDFS | انخفاض مستوى التجريد |
| الكفاءة في الكود | أقل نسبيًا من تقليل الخريطة | يوفر كفاءة عالية |
| مدى الكود | Less عدد أسطر الكود المطلوبة للتنفيذ | سيتم تحديد عدد أكبر من أسطر الرموز |
| نوع أعمال التطوير المطلوبة | Less مطلوب أعمال تطوير | هناك حاجة إلى المزيد من أعمال التطوير |
انقر للحصول على ملف البرنامج التعليمي التالي
