Hive-vejledning for begyndere

Resumรฉ af Hive-tutorial


Apache Hive hjรฆlper med at forespรธrge og administrere store datasรฆt rigtig hurtigt. Det er en ETL vรฆrktรธj for Hadoop-รธkosystemet. I denne Apache Hive-tutorial for begyndere vil du lรฆre Hive-grundlรฆggende og vigtige emner som HQL-forespรธrgsler, dataudtrรฆk, partitioner, buckets og sรฅ videre. Denne Hive-tutorialserie hjรฆlper dig med at lรฆre Hive-koncepter og grundlรฆggende.

Hvad skal jeg vide?


For at lรฆre denne Hive-forespรธrgselstutorial skal du have grundlรฆggende viden om SQL, Hadoop og kendskab til andre databaser vil vรฆre en yderligere hjรฆlp.

Hive kursus pensum

Introduktion

๐Ÿ‘ Lesspรฅ 1 Hvad er Hive? โ€” Architecture & Modes
๐Ÿ‘ Lesspรฅ 2 Download og installer HIVE โ€” Sรฅdan downloades og installeres HIVE pรฅ Ubuntu
๐Ÿ‘ Lesspรฅ 3 HIVE Metastore-konfiguration - Hvorfor bruge MySQL?
๐Ÿ‘ Lesspรฅ 4 Hive-datatyper โ€” Opret og slip database i Hive

Avancerede ting

๐Ÿ‘ Lesspรฅ 1 Hive Opret tabel โ€” Typer og dens Anvendelse
๐Ÿ‘ Lesspรฅ 2 Hive skillevรฆgge og spande โ€” Lรฆr med eksempel
๐Ÿ‘ Lesspรฅ 3 Hive-indekser og visning โ€” Lรฆr med eksempel
๐Ÿ‘ Lesspรฅ 4 Hive-forespรธrgsler โ€” Lรฆr med eksempel
๐Ÿ‘ Lesspรฅ 5 Hive-deltagelse og underforespรธrgsel selvstudie โ€” Lรฆr med eksempel
๐Ÿ‘ Lesspรฅ 6 Hive Query Language Tutorial โ€” Indbygget Operatorer
๐Ÿ‘ Lesspรฅ 7 Hive funktion โ€” Indbyggede og brugerdefinerede funktioner
๐Ÿ‘ Lesspรฅ 8 Hive ETL โ€” Indlรฆsning af JSON, XML, tekstdataeksempler
๐Ÿ‘ Lesspรฅ 9 Hive-interviewspรธrgsmรฅl โ€” Top 40 Hive-interviewspรธrgsmรฅl og svar

Introduktion til Hive

Hive udviklede sig som en data warehousing-lรธsning bygget oven pรฅ Hadoop Map-Reduce framework.

Stรธrrelsen af โ€‹โ€‹datasรฆt, der indsamles og analyseres i branchen for business intelligence er i vรฆkst og pรฅ en mรฅde gรธr det traditionelle data warehousing-lรธsninger dyrere. Hadoop med MapReduce framework, bliver brugt som en alternativ lรธsning til at analysere datasรฆt med enorm stรธrrelse. Selvom Hadoop har vist sig nyttig til at arbejde med enorme datasรฆt, er dens MapReduce-ramme pรฅ meget lavt niveau, og det krรฆver, at programmรธrer skriver brugerdefinerede programmer, som er svรฆre at vedligeholde og genbruge. Hive kommer her for at redde programmรธrer.


Hive motor kompilerer disse forespรธrgsler til Map-Reduce-job, der skal udfรธres pรฅ Hadoop. Derudover kan brugerdefinerede Map-Reduce-scripts ogsรฅ tilsluttes forespรธrgsler. Hive opererer pรฅ data gemt i tabeller, som bestรฅr af primitive datatyper og indsamlingsdatatyper som arrays og kort.

Hive kommer med en kommandolinje-shell-grรฆnseflade, som kan bruges til at oprette tabeller og udfรธre forespรธrgsler.

Hive-forespรธrgselssprog ligner SQL, hvor det understรธtter underforespรธrgsler. Med Hive forespรธrgselssprog er det muligt at tage en MapReduce joins pรฅ tvรฆrs af Hive-tabeller. Det har en understรธttelse for simple SQL-lignende funktionerโ€“ CONCAT, SUBSTR, ROUND osv., og aggregeringsfunktionerโ€“ SUM, COUNT, MAX osv. Det understรธtter ogsรฅ GROUP BY- og SORT BY-sรฆtninger. Det er ogsรฅ muligt at skrive brugerdefinerede funktioner i Hive-forespรธrgselssprog.

Hvad er Hive?

Apache Hive er en datavarehusramme til forespรธrgsel og analyse af data, der er lagret i HDFS. Den er udviklet oven pรฅ Hadoop. Hive er en open source-software til at analysere store datasรฆt pรฅ Hadoop. Det giver SQL-lignende deklarativt sprog, kaldet HiveQL, til at udtrykke forespรธrgsler. Ved hjรฆlp af Hive-QL, brugere tilknyttet SQL kan udfรธre dataanalyse meget nemt.

Hive Vs Kort Reducer

Inden vi vรฆlger en af โ€‹โ€‹disse to muligheder, skal vi se pรฅ nogle af deres funktioner.

Mens du vรฆlger mellem Hive og Map, tages der hensyn til fรธlgende faktorer;

  • Datatype
  • Mรฆngde af data
  • Kodens kompleksitet

Hive vs Map Reducer?

Feature Hive Kort Reducer
Sprog Det understรธtter SQL-lignende forespรธrgselssprog til interaktion og til datamodellering
  • Det kompilerer sprog med to hovedopgaver til stede i det. En er kortopgave, og en anden er en reducering.
  • Vi kan definere disse opgaver vha Java or Python
Abstraktionsniveau Hรธjere abstraktionsniveau oven pรฅ HDFS Lavere abstraktionsniveau
Effektivitet i kode Forholdsvis mindre end Map-reduktion Giver hรธj effektivitet
Udstrรฆkning af kode Less antal linjer kode pรฅkrรฆvet for udfรธrelse Flere antal linjer med koder skal defineres
Type udviklingsarbejde pรฅkrรฆvet Less Udviklingsarbejde pรฅkrรฆvet Der er brug for mere udviklingsarbejde

Klik for at Nรฆste tutorial

Opsummer dette indlรฆg med: