Tutorial Hive per principianti
Riepilogo del tutorial di Hive
Apache Hive aiuta a eseguire query e gestire set di dati di grandi dimensioni in modo molto veloce. ร un Strumento ETL per l'ecosistema Hadoop. In questo tutorial Apache Hive per principianti, imparerai le basi di Hive e argomenti importanti come query HQL, estrazioni di dati, partizioni, bucket e cosรฌ via. Questa serie di tutorial Hive ti aiuterร a imparare i concetti e le basi di Hive.
Cosa dovrei sapere?
Per apprendere questo tutorial sulle query Hive, รจ necessaria una conoscenza di base di SQL, Hadoop e la conoscenza di altri database sarร di ulteriore aiuto.
Programma del corso Hive
Introduzione
| ๐ Lesssu 1 | Cos'รจ Hive? - ArchiTecnologia e modalitร |
| ๐ Lesssu 2 | Scarica e installa HIVE โ Come scaricare e installare HIVE su Ubuntu |
| ๐ Lesssu 3 | Configurazione HIVE Metastore โ Perchรฉ usarlo MySQL? |
| ๐ Lesssu 4 | Tipi di dati dell'alveare - Crea e rilascia database in Hive |
Roba avanzata
| ๐ Lesssu 1 | Hive Crea tabella โ Tipi e suo utilizzo |
| ๐ Lesssu 2 | Partizioni e bucket Hive โ Impara con l'esempio |
| ๐ Lesssu 3 | Indici e visualizzazioni Hive โ Impara con l'esempio |
| ๐ Lesssu 4 | Query alveare โ Impara con l'esempio |
| ๐ Lesssu 5 | Esercitazione su join Hive e sottoquery โ Impara con l'esempio |
| ๐ Lesssu 6 | Esercitazione sul linguaggio di query Hive โ Incorporato OperaTors |
| ๐ Lesssu 7 | Funzione alveare โ Funzioni integrate e definite dall'utente |
| ๐ Lesssu 8 | Alveare ETL โ Caricamento di esempi di dati JSON, XML e di testo |
| ๐ Lesssu 9 | Domande per l'intervista ad Hive โ Domande e risposte sull'intervista Top 40 Hive |
Introduzione ad Hive
Hive si รจ evoluto come una soluzione di data warehousing basata sul framework Hadoop Map-Reduce.
La dimensione dei set di dati raccolti e analizzati nel settore business intelligence sta crescendo e, in un certo senso, sta rendendo piรน costose le soluzioni tradizionali di data warehousing. Hadoop con il framework MapReduce, viene utilizzato come soluzione alternativa per l'analisi di set di dati di enormi dimensioni. Tuttavia, Hadoop si รจ rivelato utile per lavorare su enormi set di dati, il suo framework MapReduce รจ di livello molto basso e richiede ai programmatori di scrivere programmi personalizzati difficili da mantenere e riutilizzare. Hive viene qui per salvare i programmatori.
Motore dell'alveare compila queste query in lavori Map-Reduce da eseguire su Hadoop. Inoltre, รจ possibile inserire nelle query anche script personalizzati di Map-Reduce. Hive opera sui dati archiviati in tabelle costituite da tipi di dati primitivi e tipi di dati di raccolta come array e mappe.
Hive viene fornito con un'interfaccia shell della riga di comando che puรฒ essere utilizzata per creare tabelle ed eseguire query.
Il linguaggio di query Hive รจ simile a SQL in cui supporta le sottoquery. Con il linguaggio di query Hive, รจ possibile eseguire join MapReduce tra tabelle Hive. Ha un supporto per simple Funzioni simili a SQLโ CONCAT, SUBSTR, ROUND ecc., e funzioni di aggregazioneโ SUM, COUNT, MAX ecc. Supporta anche le clausole GROUP BY e SORT BY. ร anche possibile scrivere funzioni definite dall'utente nel linguaggio di query Hive.
Cos'รจ Hive?
Alveare di Apache รจ un framework di data warehouse per l'interrogazione e l'analisi dei dati archiviati in HDFS. ร sviluppato su Hadoop. Hive รจ un software open source per analizzare grandi set di dati su Hadoop. Fornisce un linguaggio dichiarativo simile a SQL, chiamato HiveQL, per esprimere query. Utilizzando Hive-QL, gli utenti associati a SQL puรฒ eseguire l'analisi dei dati molto facilmente.
Hive Vs Mappa Riduci
Prima di scegliere una di queste due opzioni, dobbiamo esaminare alcune delle loro caratteristiche.
Nella scelta tra Hive e Map Reduce vengono presi in considerazione i seguenti fattori:
- Tipo di dati
- Quantitร di dati
- Complessitร del codice
Hive Vs Mappa ridotta?
| Caratteristica | Alveare | Riduci mappa |
|---|---|---|
| Lingue disponibili | Supporta il linguaggio di query simile a SQL per l'interazione e per la modellazione dei dati |
|
| Livello di astrazione | Livello di astrazione piรน elevato su HDFS | Livello di astrazione inferiore |
| Efficienza nel codice | Relativamente inferiore alla riduzione della mappa | Fornisce alta efficienza |
| Estensione del codice | Less numero di righe di codice necessarie per l'esecuzione | Piรน numero di righe di codici da definire |
| Tipo di lavoro di sviluppo richiesto | Less Richiesto lavoro di sviluppo | ร necessario ulteriore lavoro di sviluppo |
Clicca per il Prossimo tutorial
