Tutorial Hive per principianti

Riepilogo del tutorial di Hive

Apache Hive aiuta a eseguire query e gestire set di dati di grandi dimensioni in modo molto veloce. È un Strumento ETL per l'ecosistema Hadoop. In questo tutorial Apache Hive per principianti, imparerai le basi di Hive e argomenti importanti come query HQL, estrazioni di dati, partizioni, bucket e così via. Questa serie di tutorial Hive ti aiuterà a imparare i concetti e le basi di Hive.

Cosa dovrei sapere?

Per apprendere questo tutorial sulle query Hive, è necessaria una conoscenza di base di SQL, Hadoop e la conoscenza di altri database sarà di ulteriore aiuto.

Programma del corso Hive

Introduzione

👉 Lesssu 1	Cos'è Hive? - ArchiTecnologia e modalità
👉 Lesssu 2	Scarica e installa HIVE — Come scaricare e installare HIVE su Ubuntu
👉 Lesssu 3	Configurazione HIVE Metastore — Perché usarlo MySQL?
👉 Lesssu 4	Tipi di dati dell'alveare - Crea e rilascia database in Hive

Roba avanzata

👉 Lesssu 1	Hive Crea tabella — Tipi e suo utilizzo
👉 Lesssu 2	Partizioni e bucket Hive — Impara con l'esempio
👉 Lesssu 3	Indici e visualizzazioni Hive — Impara con l'esempio
👉 Lesssu 4	Query alveare — Impara con l'esempio
👉 Lesssu 5	Esercitazione su join Hive e sottoquery — Impara con l'esempio
👉 Lesssu 6	Esercitazione sul linguaggio di query Hive — Incorporato OperaTors
👉 Lesssu 7	Funzione alveare — Funzioni integrate e definite dall'utente
👉 Lesssu 8	Alveare ETL — Caricamento di esempi di dati JSON, XML e di testo
👉 Lesssu 9	Domande per l'intervista ad Hive — Domande e risposte sull'intervista Top 40 Hive

Introduzione ad Hive

Hive si è evoluto come una soluzione di data warehousing basata sul framework Hadoop Map-Reduce.

La dimensione dei set di dati raccolti e analizzati nel settore business intelligence sta crescendo e, in un certo senso, sta rendendo più costose le soluzioni tradizionali di data warehousing. Hadoop con il framework MapReduce, viene utilizzato come soluzione alternativa per l'analisi di set di dati di enormi dimensioni. Tuttavia, Hadoop si è rivelato utile per lavorare su enormi set di dati, il suo framework MapReduce è di livello molto basso e richiede ai programmatori di scrivere programmi personalizzati difficili da mantenere e riutilizzare. Hive viene qui per salvare i programmatori.

Motore dell'alveare compila queste query in lavori Map-Reduce da eseguire su Hadoop. Inoltre, è possibile inserire nelle query anche script personalizzati di Map-Reduce. Hive opera sui dati archiviati in tabelle costituite da tipi di dati primitivi e tipi di dati di raccolta come array e mappe.

Hive viene fornito con un'interfaccia shell della riga di comando che può essere utilizzata per creare tabelle ed eseguire query.

Il linguaggio di query Hive è simile a SQL in cui supporta le sottoquery. Con il linguaggio di query Hive, è possibile eseguire join MapReduce tra tabelle Hive. Ha un supporto per simple Funzioni simili a SQL– CONCAT, SUBSTR, ROUND ecc., e funzioni di aggregazione– SUM, COUNT, MAX ecc. Supporta anche le clausole GROUP BY e SORT BY. È anche possibile scrivere funzioni definite dall'utente nel linguaggio di query Hive.

Cos'è Hive?

Alveare di Apache è un framework di data warehouse per l'interrogazione e l'analisi dei dati archiviati in HDFS. È sviluppato su Hadoop. Hive è un software open source per analizzare grandi set di dati su Hadoop. Fornisce un linguaggio dichiarativo simile a SQL, chiamato HiveQL, per esprimere query. Utilizzando Hive-QL, gli utenti associati a SQL può eseguire l'analisi dei dati molto facilmente.

Hive Vs Mappa Riduci

Prima di scegliere una di queste due opzioni, dobbiamo esaminare alcune delle loro caratteristiche.

Nella scelta tra Hive e Map Reduce vengono presi in considerazione i seguenti fattori:

Tipo di dati
Quantità di dati
Complessità del codice

Hive Vs Mappa ridotta?

Caratteristica	Alveare	Riduci mappa
Lingue disponibili	Supporta il linguaggio di query simile a SQL per l'interazione e per la modellazione dei dati	Compila il linguaggio con due attività principali presenti in esso. Uno è il compito della mappa e un altro è un riduttore. Possiamo definire queste attività utilizzando Java or Python
Livello di astrazione	Livello di astrazione più elevato su HDFS	Livello di astrazione inferiore
Efficienza nel codice	Relativamente inferiore alla riduzione della mappa	Fornisce alta efficienza
Estensione del codice	Less numero di righe di codice necessarie per l'esecuzione	Più numero di righe di codici da definire
Tipo di lavoro di sviluppo richiesto	Less Richiesto lavoro di sviluppo	È necessario ulteriore lavoro di sviluppo

Clicca per il Prossimo tutorial

Tutorial Hive per principianti

Riepilogo del tutorial di Hive

Cosa dovrei sapere?

Programma del corso Hive

Introduzione

Roba avanzata

Introduzione ad Hive

Cos'è Hive?

Hive Vs Mappa Riduci

Hive Vs Mappa ridotta?

Riassumi questo post con:

Iscriviti alla newsletter

Riepilogo del tutorial di Hive

Cosa dovrei sapere?

Programma del corso Hive

Introduzione

Roba avanzata

Introduzione ad Hive

ARTICOLI CORRELATI

Cos'è Hive?

Hive Vs Mappa Riduci

Hive Vs Mappa ridotta?

Riassumi questo post con:

Iscriviti alla newsletter