0% ont trouvé ce document utile (0 vote)

59 vues35 pages

Bigdata Docker

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

59 vues35 pages

Bigdata Docker

Transféré par

manarsalah070503

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Fait par DORIAN CURTIS TEFFO en L2 BIG DATA

COMPTE RENDU DU DS DE BIG DATA

1- Mise en place du cluster Hadoop sur Docker (+ SPARK)

Pour ce faire nous allons créer plusieurs services (qui correspondent à

des containers Docker) qui sont :

En plus de ces services nous allons aussi ajouter un spark-master et

deux spark-worker.

 Structure du dossier
 Création de l’image de base Docker qui sera utilisé par tous les
containers : dans celle-ci nous allons installer Hadoop, Spark, et
ajouter les fichiers de configuration(core-site.xml, hdfs-site.xml,
etc) dans cette image.
 Fichiers de configuration
Core-site.xml

Hdfs-site.xml
Yarn-site.xml
Mapred-site.xml

Hadoop_env.sh :
Pour créer cette image de base, il suffit de saisir cette commande :

docker build -t hadoop-base :3.3.5-dorian base/ (car le dockerfile de

l’image de base est dans le dossier « base »)

 Image des différents services de notre cluster : Namenode,

DataNode, History Server, Resource Manager and Nodemanager
Namenode

DataNode

Resource Manager
Nodemanager

History Server
 Création du docker-compose file où nous allons définir tous nos
services (containers)
R.Q : Lorsqu’on définit des containers dans le même dockerfile, ils sont
par défaut dans le même docker network (donc peuvent communiquer
entre eux).

Pour démarrer notre cluster nous devons démarrer tous les containers
grâce à la commande

docker compose up -d (-d pour que ca soit executer en background, pour

pouvour utiliser le terminal)
Pour vérifier que le cluster est bien mis en place, nous pouvons nous
connecter au namenode et rentrer une commande permettant de vérifier
l’état du cluster :
docker exec -it namenode bash hdfs dfsadmin -report
2- Exécution du code MapReduce sur le dataset
purchases.txt
Pour pouvoir exécuter les différents programmes, nous devons nous
connecter au container du namenode en utilisant :
docker exec -it namenode bash
Et ensuite mettre le fichier purchases.txt dans hdfs, et ensuite utiliser la
command hadoop jar pour exécuter le mapper et le reducer

Résultat:

a-Chiffres d’affaires par item

mapper .py

reducer.py
Résultat :
Vérification avec SPARK SQL
On remarque bien que les chiffres pour chaque item correspondent
effectivement

b- Item le plus vendu selon le chiffre d’affaires

mapper.py

reducer.py
Résultat

Vérification avec SPARK SQL

c- Moyenne de vente par Store
mapper.py

Reducer.py
Résultat
Vérification avec SPARK SQL

On remarque bien que les résulats sont les mêmes (Baton Rouge,
Cincinati, Baltimore, …..)

d- Item le plus vendu pour chaque store ( en terme de nombre de

ventes )
mapper.py
Reducer.py
3- Partie SPARK
Comme précisez plus haut, nous allons aussi créer un cluster Spark
avec un master et 2 workers.
Pour se faire nous devon d’abord créer l’image docker de base :
Nous devons aussi modifier le docker-compose.yml contenant les
services Hadoop pour y ajouter les services Spark.
 Présentation du Dataset :
En m’inspirant d’un dataset provenant de Kaggle, et du fait que celui-ci
n’avait pas assez de colonnes, j’ai décidé de créer deux datasets (avec
lesquelles une jointure serait possible), et voici la description de ceux-ci :
Et voici le code Python qui m’a permis de générer ses deux fichier csv
(avec des données aléatoires)
A partir de ces deux datasets, voici quelques KPIs qu’on aimerait
générer :

 Un fichier contenant des statistiques clés d’un joueur durant une

session de jeu telle que la durée moyenne d’une session de jeu, le
nombre moyen de points d’expérience générés, nombre moyen de
quêtes complétées

 Un autre fichier contenant des métriques par genre de jeux ( qui

pourrait servir par exemple pour trouver le genre de jeux le plus
apprécié afin de créer un jeu du même genre) telles que : le
nombre moyen de quêtes complétées par genre, la durée
moyenne de session, la longueur de jeu par genre.

 Un dernier fichier contenant des métriques par Niveau de joueur

(qui pourrait servir à savoir si le niveau d’un joueur impacte son
expérience du jeu afin de créer un jeu avec des niveaux de
difficultés adaptés) telles que : le nombre d’ennemies éliminés par
niveau du joueur

Code SPARK :
Pour saisir le code Spark, il faut d’abord se rendre dans le container sur
spark-master et ensuite créer un fichier python (qui contiendra le code
Pyspark)
On remarque bien que dans la fonction main(), je lis les fichiers à partir
de HDFS (que j’ai préalablement chargé dans HDFS), et à la fin, tous les
KPIs, je les charge sous forme de fichier parquet toujours dans HDFS.

Pour exécuter ce code, nous devons utiliser la commande « spark-

submit »

Et voici quelques lignes de l’output

On remarque bien que grâce au système de logging que j’ai implementé
dans le code, nous pouvons voir au fur et à mesure que les différents
fichier parquet ont bien été sauvegardé dans HDFS.

Pour vérifier ces fichiers nous pouvons utiliser SparkSQL

Vous aimerez peut-être aussi

Rapport de Proje BIGDATA
Pas encore d'évaluation
Rapport de Proje BIGDATA
15 pages
Configuration d'un Cluster Spark sous Docker
Pas encore d'évaluation
Configuration d'un Cluster Spark sous Docker
8 pages
Rapport de Projet Big Data
Pas encore d'évaluation
Rapport de Projet Big Data
25 pages
TP1: Installation D'un Cluster Hadoop Avec Docker
Pas encore d'évaluation
TP1: Installation D'un Cluster Hadoop Avec Docker
4 pages
Atelier Big Data : Traitement Batch avec Hadoop
Pas encore d'évaluation
Atelier Big Data : Traitement Batch avec Hadoop
11 pages
TP HDFS Hadoop Spark Docker
Pas encore d'évaluation
TP HDFS Hadoop Spark Docker
4 pages
Big Data Et Architectures Associées: Examen de La Session Principale
Pas encore d'évaluation
Big Data Et Architectures Associées: Examen de La Session Principale
2 pages
Examen Big Data 3ème IM
Pas encore d'évaluation
Examen Big Data 3ème IM
2 pages
TP Hadoop Et Map
Pas encore d'évaluation
TP Hadoop Et Map
4 pages
TP1 BigDataAnalytics Initiation Hadoop
Pas encore d'évaluation
TP1 BigDataAnalytics Initiation Hadoop
9 pages
Installation et Configuration Big Data
Pas encore d'évaluation
Installation et Configuration Big Data
23 pages
TP 2
Pas encore d'évaluation
TP 2
22 pages
TP MapReduce
Pas encore d'évaluation
TP MapReduce
5 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
16 pages
Initiation à Hadoop et Map-Reduce
Pas encore d'évaluation
Initiation à Hadoop et Map-Reduce
10 pages
Résumé
Pas encore d'évaluation
Résumé
9 pages
Introduction à Apache Spark et Hadoop
Pas encore d'évaluation
Introduction à Apache Spark et Hadoop
53 pages
Big Data Tps
Pas encore d'évaluation
Big Data Tps
28 pages
ABL Cloud
100% (1)
ABL Cloud
9 pages
Cours Hadoop
Pas encore d'évaluation
Cours Hadoop
80 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
TP Scala
Pas encore d'évaluation
TP Scala
2 pages
Généralité Big Data
Pas encore d'évaluation
Généralité Big Data
6 pages
TP4 BigData
Pas encore d'évaluation
TP4 BigData
3 pages
tp1 IRS
100% (1)
tp1 IRS
7 pages
Introduction à Spark et Scala avec Docker
Pas encore d'évaluation
Introduction à Spark et Scala avec Docker
6 pages
Atelier Framework Big Data PDF
Pas encore d'évaluation
Atelier Framework Big Data PDF
21 pages
Mini Projet Spark Hadoop Detaille
Pas encore d'évaluation
Mini Projet Spark Hadoop Detaille
2 pages
Initiation à Hadoop et MapReduce
Pas encore d'évaluation
Initiation à Hadoop et MapReduce
5 pages
TP Bigdata ModouFall
Pas encore d'évaluation
TP Bigdata ModouFall
10 pages
Hadoop MapReduce - Apache Sqoop
Pas encore d'évaluation
Hadoop MapReduce - Apache Sqoop
83 pages
Initiation à Hadoop et MapReduce
100% (4)
Initiation à Hadoop et MapReduce
5 pages
TP3 - BD - 2024
Pas encore d'évaluation
TP3 - BD - 2024
5 pages
Introduction à Spark avec Scala et RDDs
Pas encore d'évaluation
Introduction à Spark avec Scala et RDDs
5 pages
TP 2.3 Spark Batch Scala
Pas encore d'évaluation
TP 2.3 Spark Batch Scala
10 pages
Big Data et Hadoop : Guide Essentiel
Pas encore d'évaluation
Big Data et Hadoop : Guide Essentiel
8 pages
Compte Rendu TP 1 Big Data PDF Free
Pas encore d'évaluation
Compte Rendu TP 1 Big Data PDF Free
6 pages
Compte Rendu TP 1 Big Data
Pas encore d'évaluation
Compte Rendu TP 1 Big Data
6 pages
Les Données Massives
Pas encore d'évaluation
Les Données Massives
80 pages
TP MapReduce Python
Pas encore d'évaluation
TP MapReduce Python
5 pages
Projet - Hadoop (1) (1) Ssssssssssssssssssssssssssssssssssssss
Pas encore d'évaluation
Projet - Hadoop (1) (1) Ssssssssssssssssssssssssssssssssssssss
14 pages
Installation PySpark avec Docker
Pas encore d'évaluation
Installation PySpark avec Docker
2 pages
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
Pas encore d'évaluation
tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
10 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
59 pages
Tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
Pas encore d'évaluation
Tp1 Initiationahadoopetmapreduce 140428050032 Phpapp02
8 pages
Chap 8
Pas encore d'évaluation
Chap 8
15 pages
Cluster Spark Standalone: Installation et Configuration Docker
Pas encore d'évaluation
Cluster Spark Standalone: Installation et Configuration Docker
9 pages
Hadoop: Architecture et Outils
Pas encore d'évaluation
Hadoop: Architecture et Outils
58 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Bibidada Final
Pas encore d'évaluation
Bibidada Final
10 pages
MPRA Paper 110334
Pas encore d'évaluation
MPRA Paper 110334
78 pages
TP IA et Big Data : Utilisation de Hive
Pas encore d'évaluation
TP IA et Big Data : Utilisation de Hive
2 pages
Sparks Tre Ming
Pas encore d'évaluation
Sparks Tre Ming
13 pages
Big Data TP 2 RDD (Dataframe)
Pas encore d'évaluation
Big Data TP 2 RDD (Dataframe)
23 pages
Examen 1
Pas encore d'évaluation
Examen 1
3 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
93 pages
Lab - Docker Hadoop-02-2024
Pas encore d'évaluation
Lab - Docker Hadoop-02-2024
6 pages
L'apprentissage Automatique Octobre 2024
Pas encore d'évaluation
L'apprentissage Automatique Octobre 2024
61 pages
Communication et Travail en Équipe
Pas encore d'évaluation
Communication et Travail en Équipe
3 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
91 pages
Chap 1 BD
Pas encore d'évaluation
Chap 1 BD
17 pages
2 Multithreading
Pas encore d'évaluation
2 Multithreading
20 pages
Facture d'Achat Chanel Paris
Pas encore d'évaluation
Facture d'Achat Chanel Paris
1 page
Innovations de Sonal en enquêtes qualitatives
Pas encore d'évaluation
Innovations de Sonal en enquêtes qualitatives
12 pages
Première Année: Programme Accréditation 2021 - 2025
Pas encore d'évaluation
Première Année: Programme Accréditation 2021 - 2025
4 pages
Enregistrements SRV et NAPTR en VoIP
Pas encore d'évaluation
Enregistrements SRV et NAPTR en VoIP
21 pages
Covadis Voirie Et Assainissement
Pas encore d'évaluation
Covadis Voirie Et Assainissement
11 pages
Cours Chapitre 3
Pas encore d'évaluation
Cours Chapitre 3
38 pages
Le Lien Social A L'heure Du Numérique
Pas encore d'évaluation
Le Lien Social A L'heure Du Numérique
2 pages
Méthodes Numériques Essentielles
Pas encore d'évaluation
Méthodes Numériques Essentielles
3 pages
PredimRC GuideUtilisateur
Pas encore d'évaluation
PredimRC GuideUtilisateur
47 pages
Electronique Numérique
Pas encore d'évaluation
Electronique Numérique
92 pages
Carte VPS35: Guide Technique Alcatel
Pas encore d'évaluation
Carte VPS35: Guide Technique Alcatel
18 pages
L'importance Des Mots Dans La Redaction Du Rapport
Pas encore d'évaluation
L'importance Des Mots Dans La Redaction Du Rapport
3 pages
Audit financier de la société SEFO
Pas encore d'évaluation
Audit financier de la société SEFO
7 pages
Liste Des Ressources
Pas encore d'évaluation
Liste Des Ressources
4 pages
Adresses IP - Comprendre L'essentiel en 7 Minutes
Pas encore d'évaluation
Adresses IP - Comprendre L'essentiel en 7 Minutes
3 pages
Recrutement IT Support CDI à Yaoundé
Pas encore d'évaluation
Recrutement IT Support CDI à Yaoundé
3 pages
Optimisation du Grandissement des Lentilles
Pas encore d'évaluation
Optimisation du Grandissement des Lentilles
1 page
Algoetprogaucycle 4 Ciilycee
Pas encore d'évaluation
Algoetprogaucycle 4 Ciilycee
142 pages
Corrigé BTS 2017: Développement SI
Pas encore d'évaluation
Corrigé BTS 2017: Développement SI
8 pages
Capteurs et STI: Mesure de la Circulation
Pas encore d'évaluation
Capteurs et STI: Mesure de la Circulation
58 pages
Nac FR DS
Pas encore d'évaluation
Nac FR DS
7 pages
Ue201718 213 S3 PDF
Pas encore d'évaluation
Ue201718 213 S3 PDF
120 pages
REX615 Data Sheet 2NGA001975 LRFRa
Pas encore d'évaluation
REX615 Data Sheet 2NGA001975 LRFRa
6 pages
Cadres de Controles
Pas encore d'évaluation
Cadres de Controles
21 pages
Mini-projet SI pour AUTOCARE
Pas encore d'évaluation
Mini-projet SI pour AUTOCARE
2 pages
Types avancés en WLangage
100% (2)
Types avancés en WLangage
66 pages
Qualcomm EDL Mode - Wikipedia
Pas encore d'évaluation
Qualcomm EDL Mode - Wikipedia
11 pages
Consultation Redaction 11.04.22
Pas encore d'évaluation
Consultation Redaction 11.04.22
15 pages
Rapport Du Stage Corrigé
88% (8)
Rapport Du Stage Corrigé
28 pages
Chapitre 1 CO
Pas encore d'évaluation
Chapitre 1 CO
29 pages