Résumé

Hadoop est une plateforme pour le traitement de grandes quantités de données, utilisant HDFS pour le stockage et MapReduce pour le traitement. HDFS assure la tolérance aux pannes par la réplication des données, tandis que MapReduce divise le traitement en étapes de mapping et de réduction. D'autres outils comme Elastic Search, Hive et Spark complètent l'écosystème Hadoop pour la recherche, l'analyse et le traitement des données.

Transféré par

Kemel Arbi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

35 vues9 pages

Résumé

Transféré par

Kemel Arbi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Hadoop

• Diviser les données en plusieurs parties pour les stocker sur

plusieurs machines
• Sert dans le traitement de grands volumes de données
• Principes :
o Division des données
o Sauvegarder dans des Clusters (collection de machines)
o Traiter les données dans les Clusters
• Avantages :
o Forte tolérance aux pannes
o Sécurité des données
o Complexité réduite
o Coût réduit

HDFS : Stockage des données

MapReduce : Traitement des données

HDFS
• Avantages :
o Traitement rapide
o Garantir la lecture malgré la défaillance d’une machine
• Problèmes du DataNode :
o Si un nœud a un problème, les données sont perdues
• Solutions :
o Hadoop réplique chaque bloc 3 fois
o Place une copie du bloc dans 3 nœuds au hasard
o Si un nœud est endommagé, le NN réplique ses blocs encore
• Commandes :
o Hadoop fs -commande (-help)
o Cat : Afficher le contenu d’un doc
o Cp : Copier un fichier de HDFS vers HDFS
o Ls : Lister
o create table A(x "type", ...) row format delimited field
terminated by ',' stored as textfile;
o load data local inpath 'CHEMIN' overwrite into table A;
(=> Add file in an existing table in the database)

MapReduce
• Permet de traiter des données volumineuses de manière parallèle et
distribuée
• Il est basé sur 2 étapes :
o Mapping : Analyser les données brutes du HDFS afin de
les sortir
o Réduction : Récupérer les données sorties et les analyser
pour extraire les données les plus importantes

• Fonctionne avec 2 processeurs :

➢ Job Tracker :
▪ Planifie les taches
▪ Affecte les taches au Task Tracker
▪ Gère le Map Reduce
▪ Récupère les erreurs et redémarre les taches lentes ou
qui ont échoué
➢ Task Tracker :
▪ Notifie le Job Tracker du niveau de progression d’une
tache et la notifie lors d’une erreur
▪ S’exécute sur chacun des nœuds
▪ Traite un bloc sur la même machine que lui
• Modèle de gestion de mémoire basé sur les slots :
➢ Configurés au démarrage
➢ Une tache est exécutée sur un slot
• YARN :
➢ Traitement de grandes quantités de données (PetaBytes …)
dans HDFS en utilisant des applications

Job Tracker et Task Tracker n’existent plus

• Commandes:
o $ Hadoop jar app.jar data.txt output
Exécution d’un job

Elastic Search
• C’est un outil de recherche et d’analyse
• Un stockage de document temps réel distribué où tous les champs
sont indexés et consultables
• Architecture :
o Nœud : une instance
o Cluster : Composé de plusieurs nœuds, dont un nœud maître
o Index : Espace logique de stockage de documents
o Shard : Instance Lucéne
o Prim. Shard : 5 Shards primaires impossible de les changer
après création
o Sec. Shard : Partition répliquées (infinité)

• Commandes :
Add PUT /boutique/_doc/1
{ "titre" : "19 Nocturnes",
"artiste" : "Arthur Rubinstein",
"compositeur" : "Fryderyk Chopin",
"genre" : "romantique "}
View GET /boutique/_doc/1

View all GET /boutique/_search

Seach GET /boutique/_search ?q=x

( =x )
Delete doc GET /boutique/_doc/1

Delete GET /boutique/

index

Hive
• Il consiste à réduire la taille des programmes Java
• Il traduit les requêtes HiveQL en un ensemble de jobs MapReduce
qui seront exécutés dans un cluster Hadoop

• Hive utilise le langage SQL (insert, drop, select …)

• Commandes :
mysql-u root–p
MySQL> show databases;
MySQL> show tables;
MySQL> select TBL_NAME
from TBLS;
Hive
Create database test;
Use test;
…

Spark
• Il essaye de stocker le plus possible en mémoire avant de basculer
sur disque
• Il est capable de travailler avec une partie des données en mémoire
et une autre sur disque
• Spark Streaming : Traitement des données à temps réel [reçu
de diff. Sources et envoyé à un système d’ingestion de données
(Kafka, …)
o Inconvénients :
▪ Pas de récupération auto en cas d’erreur
▪ Combinaison Streaming, batch, interactif impossible
o Avantages :
▪ Découpe les données en micro Batch

• Spark SQL : Extraction et transformation des données

sous plusieurs formats (JSON, BD, Parquet)
• Spark MLIB : Librairie de machine learning
• SparkGraphX : Traitement et parallélisation des graphes

• Driver :
o Exécute la fonction Main et crée le SparkContext
o Contient plusieurs composants qui sont responsables de la
traduction du code Spark en Job (ensembles de taches Tasks)
o Planifie l’exécution des jobs et négocie les ressources avec le
cluster manager
• Cluster Manager :
o Service externe responsable de l’allocation des ressources aux
jobs et peut être de type Yarn ou autre
• Une partition (qui constitue le RDD) est une division logique de
données qui est immuable
• Pandas : sert dans la création des graphes
• Commandes :
RDD.collect() Retourne le contenu
de RDD
RDD.count() Retourne le nombre
d’éléments
RDD.first() Retourne le premier
élément
RDD.take(n) Retourne les n
premiers éléments
RDD.reduce(F) Joindre les éléments
de RDD avec une
fonction F
RDD.persist() Sauvegarde RDD en
RDD.cache() mémoire
RDD.saveAsTextFile(path) Sauvegarder le RDD
sous forme txt
sc.parallelize(array) Ajouter un tab.
sc.textfile(‘path’) Prendre un fichier
RDD.map(F) Retourne une valeur
mise en dans le RDD
RDD.flatMap(F) Items du RDD
source = 0 ou autres
RDD.filter(F) Filtre de recherche
df.sql(requête).show() Afficher une requête
SQL
Df.printSchema() Description d’un
schéma
Df.select(x) Affichage d’un
champ x
Df.limit(n) Retourne un data
frame avec les n
premiers n-uplets
Df.join(x, condition, type) Join de df avec x

Spark MLab
• Supervisé :
o On dispose d’un Data Set compose de features associées à des
labels (target)
▪ Algo de classification : le label est une classe (mail :
spam ou non)
▪ Algo de régression : le label est prédit (la taille en
fonction du poids et âge)
• Non supervisé :
o On ne dispose pas de label pour nos données
o On doit alors trouver des similarités entre les objets observés,
pour les regrouper au sein de clusters
• Les algos implémentés nécessitent en entrée :
o RDD Vector : Vecteurs de doubles
o RDD Labeled Point : Vecteur + Label
o RDD Rating : Tuple

• Commandes :
df = sqlContext.read.load('bank.csv', Ouvrir le
format='com.databricks.spark.csv', fichier
header='true',inferSchema='true') bank.csv

df.printSchema() Afficher les

colonnes et
leurs types
Df.drop(‘x’) Supprimer la
colonne x
Df. groupBy(« x ») Trier par x
Others
• Architecture Hadoop 2 :

• Dans Kibana, l’Index Pattern sert à accélérer la recherche

•

Le nombre de process qui seront utilisés

Import des données et struct.

Vous aimerez peut-être aussi

Big Data et Hadoop : Guide Essentiel
Pas encore d'évaluation
Big Data et Hadoop : Guide Essentiel
8 pages
Introduction à Apache Spark et Hadoop
Pas encore d'évaluation
Introduction à Apache Spark et Hadoop
53 pages
Spark : Framework Big Data Rapide et Flexible
Pas encore d'évaluation
Spark : Framework Big Data Rapide et Flexible
138 pages
Projet Hadoop
Pas encore d'évaluation
Projet Hadoop
17 pages
Généralité Big Data
Pas encore d'évaluation
Généralité Big Data
6 pages
Cours1 2 Bigdata 1
Pas encore d'évaluation
Cours1 2 Bigdata 1
93 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
31 pages
Data Chapitre 5 À Imprimer
Pas encore d'évaluation
Data Chapitre 5 À Imprimer
11 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
37 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
59 pages
Résumé Advanced Big Data
Pas encore d'évaluation
Résumé Advanced Big Data
16 pages
Big Data Spark
Pas encore d'évaluation
Big Data Spark
3 pages
Bibidada Final
Pas encore d'évaluation
Bibidada Final
10 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
20 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
53 pages
Introduction à Apache Spark et ses APIs
Pas encore d'évaluation
Introduction à Apache Spark et ses APIs
56 pages
Chapitre IV Spark
Pas encore d'évaluation
Chapitre IV Spark
48 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
Cours Hadoop
Pas encore d'évaluation
Cours Hadoop
80 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
93 pages
Hadoop: Architecture et Outils
Pas encore d'évaluation
Hadoop: Architecture et Outils
58 pages
Chapitre 4 - Apache Spark
Pas encore d'évaluation
Chapitre 4 - Apache Spark
13 pages
Chapitre 2 Final FR
Pas encore d'évaluation
Chapitre 2 Final FR
94 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
Chap 2
Pas encore d'évaluation
Chap 2
84 pages
BIG DATA Resumé
Pas encore d'évaluation
BIG DATA Resumé
6 pages
Ecosystème Hadoop Chapitre2
Pas encore d'évaluation
Ecosystème Hadoop Chapitre2
12 pages
résBigData 2
Pas encore d'évaluation
résBigData 2
11 pages
Introduction à l'Architecture Big Data
100% (1)
Introduction à l'Architecture Big Data
9 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
16 pages
Comprendre le Framework Hadoop
Pas encore d'évaluation
Comprendre le Framework Hadoop
18 pages
Cours Intro Hadoop v27022014 Erraki Haddad
Pas encore d'évaluation
Cours Intro Hadoop v27022014 Erraki Haddad
62 pages
Spark
Pas encore d'évaluation
Spark
24 pages
Chapitre2 Hadoop MapReduce
Pas encore d'évaluation
Chapitre2 Hadoop MapReduce
28 pages
Spark : Analyse Big Data et RDD
Pas encore d'évaluation
Spark : Analyse Big Data et RDD
42 pages
Part3 Spark Ongoing
Pas encore d'évaluation
Part3 Spark Ongoing
27 pages
Chapitre 1&chapitre 2
Pas encore d'évaluation
Chapitre 1&chapitre 2
5 pages
Introduction à Hadoop et Apache Spark
Pas encore d'évaluation
Introduction à Hadoop et Apache Spark
61 pages
MPRA Paper 110334
Pas encore d'évaluation
MPRA Paper 110334
78 pages
Expose Bigdata
Pas encore d'évaluation
Expose Bigdata
33 pages
Introduction à Apache Spark et ses Avantages
Pas encore d'évaluation
Introduction à Apache Spark et ses Avantages
29 pages
Part1 Spark VF
Pas encore d'évaluation
Part1 Spark VF
90 pages
Leçon EcoSystemHadoop PDF
Pas encore d'évaluation
Leçon EcoSystemHadoop PDF
15 pages
Big Data Las9
Pas encore d'évaluation
Big Data Las9
3 pages
Slides Big Data PDF
Pas encore d'évaluation
Slides Big Data PDF
45 pages
Cours - Spark - Partie 3 Et 4
Pas encore d'évaluation
Cours - Spark - Partie 3 Et 4
46 pages
Cours Complet Sur Les Principes Techniques Des Composants Clés Du Big Data
Pas encore d'évaluation
Cours Complet Sur Les Principes Techniques Des Composants Clés Du Big Data
6 pages
Ch2 (Part 1)
Pas encore d'évaluation
Ch2 (Part 1)
27 pages
Borel
Pas encore d'évaluation
Borel
12 pages
Architecture HDFS et MapReduce
Pas encore d'évaluation
Architecture HDFS et MapReduce
33 pages
Cours Gratuit - Com Id 11770
Pas encore d'évaluation
Cours Gratuit - Com Id 11770
56 pages
Spark : RDD et Transformations Optimisées
Pas encore d'évaluation
Spark : RDD et Transformations Optimisées
11 pages
Introduction au Big Data et Hadoop
100% (1)
Introduction au Big Data et Hadoop
6 pages
Chapitre 1 - Spark Overview
Pas encore d'évaluation
Chapitre 1 - Spark Overview
14 pages
Introduction aux Big Data
Pas encore d'évaluation
Introduction aux Big Data
10 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
CH 2 Hadoop
Pas encore d'évaluation
CH 2 Hadoop
56 pages
Journal de Stage Du 24 Au 28 Février
Pas encore d'évaluation
Journal de Stage Du 24 Au 28 Février
1 page
Les Fleurs Dans Le Jardin Commencent À Éclore Avec L
Pas encore d'évaluation
Les Fleurs Dans Le Jardin Commencent À Éclore Avec L
1 page
Le Soleil Se Couche Lentement Derrière L
Pas encore d'évaluation
Le Soleil Se Couche Lentement Derrière L
1 page
4 Wael
Pas encore d'évaluation
4 Wael
23 pages
ch5-1 - Langages de Requête - Hive
Pas encore d'évaluation
ch5-1 - Langages de Requête - Hive
24 pages
TD2 - Segmentation Par Masque Variable VLSM (Partie B) - Correction
50% (2)
TD2 - Segmentation Par Masque Variable VLSM (Partie B) - Correction
2 pages
Emploi Du Temps Semaine 10-10-2022
Pas encore d'évaluation
Emploi Du Temps Semaine 10-10-2022
307 pages
CP Res
Pas encore d'évaluation
CP Res
3 pages
Cours Reseau Ip MPLS
100% (1)
Cours Reseau Ip MPLS
286 pages
Travaux Pratiques - Initiation Aux Réseaux IP
Pas encore d'évaluation
Travaux Pratiques - Initiation Aux Réseaux IP
24 pages
Projet Network Operation Center
Pas encore d'évaluation
Projet Network Operation Center
59 pages
Guide Complet Windows Server 2016
100% (1)
Guide Complet Windows Server 2016
160 pages
Expertise en réseaux d'entreprise
Pas encore d'évaluation
Expertise en réseaux d'entreprise
577 pages
Déploiement de VLAN et RSTP en entreprise
Pas encore d'évaluation
Déploiement de VLAN et RSTP en entreprise
103 pages
WorkshopA Fascicule5
Pas encore d'évaluation
WorkshopA Fascicule5
8 pages
Protocoles de Communication (Cours)
Pas encore d'évaluation
Protocoles de Communication (Cours)
14 pages
Yobo-Introd Au Routage Ip
Pas encore d'évaluation
Yobo-Introd Au Routage Ip
27 pages
Internet - I3 - Correction - Le Protocole TCP - IP - Ressources Et Questions
Pas encore d'évaluation
Internet - I3 - Correction - Le Protocole TCP - IP - Ressources Et Questions
4 pages
Big Data et R : Synergie avec Hadoop
Pas encore d'évaluation
Big Data et R : Synergie avec Hadoop
6 pages
TD 4 Correction
Pas encore d'évaluation
TD 4 Correction
3 pages
Service DNS: Pr. JAMALI Abdellah
Pas encore d'évaluation
Service DNS: Pr. JAMALI Abdellah
37 pages
H323 Vs SIP
Pas encore d'évaluation
H323 Vs SIP
2 pages
TP DNS Avancee
Pas encore d'évaluation
TP DNS Avancee
28 pages
Calculate IPv4 Subnets
Pas encore d'évaluation
Calculate IPv4 Subnets
5 pages
Description Du Modèle
Pas encore d'évaluation
Description Du Modèle
3 pages
Formation MTCNA MikroTik : 3 jours intensifs
Pas encore d'évaluation
Formation MTCNA MikroTik : 3 jours intensifs
5 pages
QCM TD10-14
Pas encore d'évaluation
QCM TD10-14
3 pages
Architecture Et Protocole Des Réseaux Informatiques
Pas encore d'évaluation
Architecture Et Protocole Des Réseaux Informatiques
13 pages
Exercice OSPF: Questions (1) Et
Pas encore d'évaluation
Exercice OSPF: Questions (1) Et
5 pages
Concepts clés du DNS et DHCP
100% (1)
Concepts clés du DNS et DHCP
2 pages
Rapp MP
Pas encore d'évaluation
Rapp MP
28 pages
Kali Linux
Pas encore d'évaluation
Kali Linux
3 pages
TD Reseaux Serie2 2023
Pas encore d'évaluation
TD Reseaux Serie2 2023
5 pages
Introduction aux Protocoles Réseau
Pas encore d'évaluation
Introduction aux Protocoles Réseau
16 pages
TD3 Ordonnencement Des Processus - Correction
Pas encore d'évaluation
TD3 Ordonnencement Des Processus - Correction
4 pages
Réseau Informatique Partie2
Pas encore d'évaluation
Réseau Informatique Partie2
27 pages
Ipv6 Cidr
Pas encore d'évaluation
Ipv6 Cidr
44 pages
Simulation Reseau Sous Gns3
Pas encore d'évaluation
Simulation Reseau Sous Gns3
20 pages