Taruõpetus algajatele: õppige näidetega 3 päevaga

Taru õpetuse kokkuvõte


Apache Hive aitab kiiresti päringuid teha ja suuri andmekogumeid hallata. See on an ETL tööriist Hadoopi ökosüsteemi jaoks. Sellest Apache Hive'i algajatele mõeldud õpetusest saate teada Hive'i põhitõdesid ja olulisi teemasid, nagu HQL-päringud, andmete eraldamine, partitsioonid, ämbrid ja nii edasi. See Hive'i õpetuste seeria aitab teil õppida Hive'i kontseptsioone ja põhitõdesid.

Mida ma peaksin teadma?


Selle Hive päringuõpetuse õppimiseks vajate põhiteadmisi SQL, hadoop ja teiste andmebaaside tundmine on täiendavaks abiks.

Tarukursuse ainekava

Sissejuhatus

👉 Lessaasta 1 Mis on taru? - Architektuur ja režiimid
👉 Lessaasta 2 Laadige alla ja installige HIVE - Kuidas HIVE-d alla laadida ja installida Ubuntu
👉 Lessaasta 3 HIVE metastore'i konfiguratsioon — Miks kasutada MySQL?
👉 Lessaasta 4 Taru andmetüübid - Looge ja pukseerige Hive'is andmebaas

Täiustatud asjad

👉 Lessaasta 1 Taru Loo tabel — Tüübid ja selle kasutamine
👉 Lessaasta 2 Tarude vaheseinad ja ämbrid — Õppige näitega
👉 Lessaasta 3 Tarude indeksid ja vaade — Õppige näitega
👉 Lessaasta 4 Tarupäringud — Õppige näitega
👉 Lessaasta 5 Taruga liitumise ja alampäringu õpetus — Õppige näitega
👉 Lessaasta 6 Taru päringu keele õpetus — Sisseehitatud Operatorse
👉 Lessaasta 7 Taru funktsioon — sisseehitatud ja kasutaja määratud funktsioonid
👉 Lessaasta 8 Taru ETL — JSON-i, XML-i, tekstiandmete näidete laadimine

Taru tutvustus

Hive arenes välja andmehoidlalahendusena, mis on üles ehitatud Hadoop Map-Reduce raamistikule.

Tööstuses kogutavate ja analüüsitavate andmekogumite suurus ärianalüüsi kasvab ja omamoodi muudab traditsioonilised andmehoidla lahendused kallimaks. hadoop MapReduce raamistikuga kasutatakse alternatiivse lahendusena tohutu suurusega andmekogumite analüüsimiseks. Kuigi Hadoop on osutunud kasulikuks tohutute andmekogumitega töötamiseks, on selle MapReduce'i raamistik väga madal ja nõuab programmeerijatelt kohandatud programmide kirjutamist, mida on raske hooldada ja taaskasutada. Taru tuleb siia programmeerijaid päästma.


Taru mootor kompileerib need päringud Map-Reduce töödeks, mida Hadoopis täidetakse. Lisaks saab päringutesse ühendada ka kohandatud Map-Reduce skripte. Taru töötab tabelites salvestatud andmetel, mis koosnevad primitiivsetest andmetüüpidest ja kogumisandmete tüüpidest, nagu massiivid ja kaardid.

Taru on varustatud käsurea kestaliidesega, mida saab kasutada tabelite loomiseks ja päringute täitmiseks.

Taru päringukeel on sarnane SQL-iga, kus see toetab alampäringuid. Hive päringukeelega on võimalik Hive'i tabelite vahel MapReduce'i liite teha. Sellel on tugi lihtsatele SQL-i sarnased funktsioonid– CONCAT, SUBSTR, ROUND jne ja liitmisfunktsioonid– SUM, COUNT, MAX jne. See toetab ka klausleid GROUP BY ja SORT BY. Samuti on võimalik Hive päringukeeles kirjutada kasutaja määratud funktsioone.

Mis on taru?

Apache taru on andmehoidla raamistik HDFS-is salvestatud andmete päringute tegemiseks ja analüüsimiseks. See on välja töötatud Hadoopi peal. Hive on avatud lähtekoodiga tarkvara Hadoopi suurte andmekogumite analüüsimiseks. See pakub päringute väljendamiseks SQL-i sarnast deklaratiivset keelt, mida nimetatakse HiveQL-iks. Kasutades Hive-QL-i, kasutajad on seotud SQL saab andmeanalüüsi teha väga lihtsalt.

Taru vs kaardi vähendamine

Enne nende kahe variandi valimist peame vaatama nende mõningaid funktsioone.

Taru ja kaardi vähendamise vahel valides võetakse arvesse järgmisi tegureid;

  • Andmete tüüp
  • Andmete hulk
  • Koodi keerukus

Taru vs kaardi vähendamine?

tunnusjoon Mesilaspere Kaart Vähenda
Keel See toetab suhtlemiseks ja andmete modelleerimiseks SQL-i sarnast päringukeelt
  • See koostab keele kahe peamise ülesandega. Üks on kaardiülesanne ja teine ​​reduktor.
  • Saame need ülesanded määratleda kasutades Java or Python
Abstraktsiooni tase Kõrgem abstraktsioonitase HDFS-i peal Madalam abstraktsioonitase
Koodi tõhusus Suhteliselt vähem kui kaardi vähendamine Tagab kõrge efektiivsuse
Koodi ulatus Less täitmiseks vajalik ridade arv Rohkem koodiridu tuleb määratleda
Nõutav arendustöö tüüp Less Vajalik arendustöö Vaja on rohkem arendustööd
Klõpsake Järgmine õpetus