0% ont trouvé ce document utile (0 vote)

97 vues83 pages

Guide d'installation de Hadoop et Docker

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

97 vues83 pages

Guide d'installation de Hadoop et Docker

Transféré par

Felix Gannandje

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Hadoop

MapReduce &
Apache Sqoop
Automne 2024
Hamza Takrouni
[Link]@[Link]
• Le formatage du fichier peut entraîner la présentation docker run -d \
de commandes sur plusieurs lignes, ce qui peut
parfois causer des erreurs d'exécution. Afin de --name nom_conteneur \
résoudre ce problème, il est crucial d'adapter les
commandes en utilisant le caractère de barre oblique -p 80:80 \
inverse (\) pour indiquer que la commande continue
sur la ligne suivante dans Linux. Pour Windows, ubuntu
l'accent circonflexe (^) est utilisé à la place.

• D'autre part, il est tout aussi important de supprimer docker run -d ^

les barres obliques et les accents circonflexes inutiles --name nom_conteneur ^
dans les commandes, afin d'éviter toute confusion et
de garantir une exécution sans erreur. -p 80:80 ^
ubuntu

2
Docker
• Docker est une plateforme open-source qui permet de créer, de déployer et de gérer des
applications dans des conteneurs. Les conteneurs sont des unités légères et portables qui
peuvent être exécutées sur n'importe quel système compatible avec Docker, offrant ainsi
une grande flexibilité et portabilité aux applications.

• Conteneurs
• Un conteneur est une unité logicielle légère qui encapsule une application et ses dépendances.
• Les conteneurs sont portables et peuvent fonctionner sur n'importe quel système compatible avec
Docker, qu'il s'agisse d'un ordinateur portable, d'un serveur ou même dans le cloud.
• Ils isolent les applications les unes des autres, garantissant qu'elles fonctionnent de manière
cohérente dans différents environnements.

• Isolation : Les conteneurs offrent une isolation des applications, assurant qu'elles ne se
interfèrent pas mutuellement.
• Portabilité : Les conteneurs peuvent être exécutés sur n'importe quel système compatible
avec Docker, garantissant une portabilité totale des applications. Source : Docker vs Virtual Machines (VMs) A Practical Guide to
• Facilité de déploiement : Docker simplifie le déploiement d'applications en éliminant les Docker Containers and VMs
problèmes de compatibilité et en assurant que l'application fonctionne de la même manière
partout.
• Flexibilité : Docker permet d'utiliser différentes technologies, langages de programmation,
bases de données, etc., dans un même environnement.

3
Installation de Docker
• Docker Desktop
• [Link]
• Installation (étapes): [Link]

4
Installation de Docker
• Lancement : Test

5
Installation de Docker
• Lancement : Test

6
Installation de Docker
• Lancement : Test

7
Apache Sqoop
• Apache Sqoop est un outil conçu pour transférer
efficacement des données en masse entre Apache Hadoop
et les sources de données externes telles que des bases de
données relationnelles, des entrepôts de données
d'entreprise.

• Le transfert de données entre les systèmes de bases de

données relationnelles et HDFS est fastidieux. Les
développeurs peuvent toujours écrire des scripts
personnalisés pour transférer des données vers et depuis
Hadoop, mais Apache Sqoop offre une alternative.

• Sqoop automatise la majeure partie du processus.

Source : techvidvan
• Sqoop utilise le Framework MapReduce pour importer et
exporter les données, qui fournit un mécanisme parallèle ainsi
qu'une tolérance aux pannes.
• Les développeurs doivent simplement fournir des informations
de base telles que les détails d'authentification de la source, de
la destination et de la base de données dans la commande
Sqoop et Sqoop s'occupe de la partie restante.

8
Apache Sqoop
• Un flux de travail typique du Big Data avec Hadoop et
Sqoop consiste à envoyer les données vers Hive par
exemple afin que les tâches de traitement et de
transformation puissent être effectuées sur Apache
Hadoop.

• Une fois le traitement terminé, les données peuvent

être réexportées vers la base de données.

• Hadoop est utilisé à des fins ETL dans ce cas.

• Lors d'une importation Sqoop, chaque tâche de

mappage se voit attribuer une partie des données à
importer.

• Sqoop distribue les données uniformément entre les

taches pour garantir des performances élevées. Source : educba

9
Hadoop Streaming (hadoop-
[Link])
• Un fichier avec l'extension de fichier .JAR est un
fichier d'archive Java utilisé pour stocker des
programmes Java dans un seul fichier.

• Certains contiennent des fichiers qui les font

fonctionner comme des applications autonomes et
d'autres contiennent des bibliothèques de
programmes que d'autres programmes peuvent
utiliser.
• Contient les classes d'une application Java, ainsi que
toutes les ressources utilisées.

• Hadoop streaming est une bibliothèque Hadoop

qui permet d'utiliser n'importe quel programme
comme un programme MapReduce.
• Il existe de nombreux programmeurs non-java qui ont
besoin d’effectuer des traitements sur les
mégadonnées.

10
Infrastructure
1 2

basenode
Ubuntu

basenode

master slaveone slavetwo

11
Infrastructure
Maitre

master

demonetwork
slaveone
slavetwo

Esclave Esclave
12
Création des conteneurs
• Création d’un pont réseau dans Docker.

13
Création des conteneurs
• Création d’une image/nœud contenant les configurations de
base pour un cluster Hadoop.

14
Création des conteneurs
• Création d’une image/nœud contenant les configurations de
base pour un cluster Hadoop.

• Image docker
• Les images Docker sont des modèles de conteneurs qui contiennent
l'application et ses dépendances. Elles sont utilisées pour créer des
conteneurs.

15
Création des conteneurs
• apt update

• Création d’une • apt install openjdk-8-jdk

image/nœud
• apt install ssh

• apt install pdsh

contenant les •

•
apt install wget

apt install nano

configurations de •

•
wget -P ~ [Link]

tar xzf /root/[Link]

base pour un • mv hadoop-3.3.4 hadoop

• nano hadoop/etc/hadoop/[Link]

cluster Hadoop. •
• export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/

mv hadoop /usr/local/hadoop

• nano /etc/environment
• :/usr/local/hadoop/bin:/usr/local/hadoop/sbin
• JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64/jre"

• adduser userdemo
• nano /etc/hosts
• usermod -aG userdemo userdemo
• [Link] master
• chown userdemo:root -R /usr/local/hadoop/
• [Link] slaveone
• chmod g+rwx -R /usr/local/hadoop/
• [Link] slavetwo
• adduser userdemo sudo

16
Création des conteneurs
• nano /usr/local/hadoop/etc/hadoop/[Link]
• Création d’une • <property>
• <name>[Link]</name>

image/nœud •
• <value>hdfs://master:9000</value>
</property>

contenant les • nano /usr/local/hadoop/etc/hadoop/[Link]

• <property>

configurations de
• <name>[Link]</name>
• <value>/usr/local/hadoop/data/nameNode</value>
• </property>

base pour un • <property>

• <name>[Link]</name>

cluster Hadoop.
• <value>/usr/local/hadoop/data/dataNode</value>
• </property>
• <property>
• <name>[Link]</name>
• <value>2</value>
• </property>
• <property>
• <name>[Link]</name>
• <value>true</value>
• </property>

• nano /usr/local/hadoop/etc/hadoop/workers
• slaveone
• slavetwo
17
Création des conteneurs
• Création d’une image/nœud contenant les configurations de base pour un cluster
Hadoop.

• Configurer MapReduce
• Ajouter la configuration dans le fichier « [Link] » et sauvegarder.
• Nous devons configurer la variable [Link] qui spécifie l' hôte et le port de JobTracker (MapReduce
maitre).

• nano /usr/local/hadoop/etc/hadoop/[Link]

<configuration>
<property>
<name>[Link]</name>
<value>master:9001</value>
</property>
</configuration>

18
Création des conteneurs
• Configurer MapReduce
• Le fichier de configuration [Link] est un fichier de
configuration spécifique à Hadoop. Il est utilisé pour définir divers
paramètres de configuration pour le système MapReduce d'Hadoop.
Ce fichier se trouve généralement dans le répertoire de configuration
d'Hadoop sur le système de fichiers de chaque nœud du cluster
Hadoop.
• La propriété [Link] était utilisée dans les versions antérieures
d'Hadoop pour spécifier l'adresse du JobTracker dans un cluster MapReduce.

19
Création des conteneurs
• Création d’une image/nœud contenant les configurations de
base pour un cluster Hadoop.

• Configurer MapReduce

20
Création des conteneurs
• Création d’une image/nœud contenant les configurations de
base pour un cluster Hadoop.

• Configurer MapReduce

21
Création des conteneurs
• Création d’une image/nœud contenant les configurations de
base pour un cluster Hadoop.
• Sauvegarder le conteneur comme une image.

22
Création des conteneurs
• Création d’une image/nœud contenant les configurations de
base pour un cluster Hadoop.
• Sauvegarder le conteneur comme une image.

23
Création du cluster Hadoop
• Création du cluster Hadoop à partir de l’image « basenode »
• Maitre

24
Création du cluster Hadoop
• Création du cluster Hadoop à partir de l’image « basenode »
• Les deux esclaves

25
Création du cluster Hadoop
• Configuration du ssh
• Les deux esclaves

26
Création du cluster Hadoop
• Configuration du ssh
• Maitre

27
Création du cluster Hadoop
• Configuration du ssh
• Maitre

28
Démarrage de Hadoop
• Dans le nœud :
• Maitre

29
Démarrage de Hadoop

30
Exemple MapReduce
• Calcul du nombre d’occurrences
• Dans le nœud :
• Maitre
• Création des répertoires.

• hdfs dfs -mkdir /user

• hdfs dfs -mkdir /user/userdemo
• hdfs dfs -mkdir /user/userdemo/demo1
• hdfs dfs -mkdir /user/userdemo/demo1/input
• hdfs dfs -mkdir /user/userdemo/demo1/output

31
Exemple MapReduce
• Calcul du nombre d’occurrences
• Dans le nœud :
• Maitre
• Création des répertoires.

32
Exemple MapReduce
• Calcul du nombre d’occurrences
• Dans le nœud :
• Maitre

• Création d’un fichier texte incluant les

données.
• echo " toronto gatineau ottawa
montreal toronto toronto toronto
toronto toronto gatineau gatineau
gatineau gatineau gatineau gatineau
gatineau gatineau ottawa ottawa
ottawa ottawa gatineau toronto toronto
toronto " >> demo1fichier

33
Exemple MapReduce
• Calcul du nombre
d’occurrences
• Dans le nœud :
• Maitre

• Copier le fichier dans le

répertoire « demo1/input »

• hdfs dfs -copyFromLocal

demo1fichier
/user/userdemo/demo1/input

34
Exemple MapReduce
• Calcul du nombre d’occurrences
• Dans le nœud :
• Maitre

• Exécuter le programme MapReduce en utilisant l’exemple fourni dans

l’installation de Hadoop.

• hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-

[Link] wordcount
/user/userdemo/demo1/input/demo1fichier
/user/userdemo/demo1/output/demo1output

35
Exemple MapReduce
• [Link]
• Un fichier JAR (Java Archive) est un package Java qui contient des classes
Java, des métadonnées et des ressources. Il est utilisé pour distribuer des
applications Java.

• [Link] est le fichier JAR qui contient les

classes Java nécessaires pour exécuter divers exemples de MapReduce
inclus avec Hadoop.

• wordcount est le nom de la classe principale dans le fichier JAR hadoop-

[Link].
• Dans Hadoop, l'exemple WordCount est une application MapReduce simple qui
compte le nombre d'occurrences de chaque mot dans un ensemble de fichiers texte.

36
Exemple MapReduce
• Calcul du nombre d’occurrences
• Dans le nœud :
• Maitre

• Exécuter le programme MapReduce

en utilisant l’exemple fourni dans
l’installation de Hadoop.

• hadoop jar
/usr/local/hadoop/share/hadoop/mapre
duce/hadoop-mapreduce-examples-
[Link] wordcount
/user/userdemo/demo1/input/demo1fic
hier
/user/userdemo/demo1/output/demo1
output

37
Exemple MapReduce
• Calcul du nombre d’occurrences
• Dans le nœud :
• Maitre

• Exécuter le programme MapReduce

en utilisant l’exemple fourni dans
l’installation de Hadoop.

• hadoop jar
/usr/local/hadoop/share/hadoop/mapre
duce/hadoop-mapreduce-examples-
[Link] wordcount
/user/userdemo/demo1/input/demo1fic
hier
/user/userdemo/demo1/output/demo1
output

38
Exemple MapReduce
• Calcul du nombre
d’occurrences
• Dans le nœud :
• Maitre

• Exécuter le
programme
MapReduce en
utilisant l’exemple
fourni dans
l’installation de
Hadoop.

39
Installation et configuration d’Apache
Sqoop
• Dans le nœud :
• Maitre

• wget
[Link]
g/dist/sqoop/1.4.7/sqoop-
[Link]
• tar -xvf [Link]

40
Installation et configuration d’Apache
Sqoop
• Dans le nœud :
• Maitre

• mv sqoop-1.4.7 /usr/lib/sqoop
• cd /usr/lib/sqoop/conf
• mv [Link] [Link]

41
Installation et configuration d’Apache
Sqoop
• [Link]
• C’est un modèle de fichier de configuration utilisé dans Apache Sqoop.

• Il contient des variables d'environnement et des paramètres de configuration à personnaliser en fonction de

l’environnement spécifique.

• Les utilisateurs peuvent copier ce modèle et le personnaliser en fonction desbesoins en renommant le fichier en
[Link].

• export HADOOP_MAPRED_HOME=/usr/local/hadoop
• export HADOOP_COMMON_HOME=/usr/local/hadoop

• HADOOP_MAPRED_HOME et HADOOP_COMMON_HOME spécifient les chemins vers les composants

MapReduce et Common d'Hadoop respectivement.

• Ces variables d'environnement indiquent à Sqoop où trouver les bibliothèques et les fichiers nécessaires pour
interagir avec Hadoop.

42
Installation et configuration d’Apache
Sqoop
• Dans le nœud :
• Maitre

• nano [Link]
• export
HADOOP_MAPRED_HOME=/usr/l
ocal/hadoop
• export
HADOOP_COMMON_HOME=/usr/l
ocal/hadoop

43
Installation et configuration d’Apache
Sqoop
• Dans le nœud :
• Maitre

• cd /usr/lib/sqoop/
• wget [Link]
[Link]/n
exus/content/reposit
ories/libraries/org/ap
ache/sqoop/sqoop/1
.4.7/[Link]

44
Installation et configuration d’Apache
Sqoop
• wget [Link]
[Link]/nexus/content/repositories/libraries/org/apache/s
qoop/sqoop/1.4.7/[Link]

• [Link] est un fichier JAR (Java Archive) qui contient les

classes et les ressources nécessaires pour exécuter Sqoop version
1.4.7.

• Le fichier [Link] peut être présent dans le répertoire de

Sqoop une fois l'archive extraite sinon il faut l’ajouter.

45
Installation et configuration d’Apache
Sqoop
• Dans le nœud :
• Maitre

• export
SQOOP_HOME=/usr/lib/sqoop
• export
PATH=$PATH:$SQOOP_HOME
/bin
• sqoop version

46
Installation et configuration d’Apache
Sqoop
• Dans le nœud (configuration):
• Maitre

• cd /usr/lib/sqoop/lib
• apt install links

47
Installation et configuration d’Apache
Sqoop
• Dans le nœud (configuration):
• Maitre

• links [Link]

48
Installation et configuration d’Apache
Sqoop
• Dans le nœud (configuration):
• Maitre

• links [Link]
• Taper « q » pour quitter

49
Installation et configuration d’Apache
Sqoop
• Dans le nœud (configuration):
• Maitre

• tar -xvf sqljdbc_11.2.0.0_enu.[Link]

• rm -r sqljdbc_11.2.0.0_enu.[Link]

50
Installation et configuration d’Apache
Sqoop
• Dans le nœud (configuration):
• Maitre

• cd sqljdbc_11.2/enu/
• mv [Link] [Link] mssql-jdbc-
[Link] [Link] /usr/lib/sqoop/lib/

51
Installation et configuration d’Apache
Sqoop
• Dans le nœud (configuration):
• Maitre

• cd ../../
• rm -r sqljdbc_11.2

52
Installation et configuration d’Apache
Sqoop
• Dans le nœud (configuration):
• Maitre

• links [Link]
• links [Link]
lang/2.6/

53
Installation et configuration d’Apache
Sqoop
• Dans le nœud
(configuration):
• Maitre

• links
[Link]
maven2/org/apache/avro/
avro/1.8.2/
• links
[Link]
maven2/commons-
lang/commons-lang/2.6/
54
Installation et configuration d’Apache
Sqoop
• Dans le nœud
(configuration):
• Maitre

• links
[Link]
maven2/org/apache/avro/
avro/1.8.2/
• links
[Link]
maven2/commons-
lang/commons-lang/2.6/
55
Installation et configuration d’Apache
Sqoop
• Dans le nœud
(configuration):
• Maitre

• links
[Link]
maven2/org/apache/avro/
avro/1.8.2/
• links
[Link]
maven2/commons-
lang/commons-lang/2.6/
56
Installation et configuration d’Apache
Sqoop
• avro/avro/1.8.2/ : La bibliothèque Apache Avro version 1.8.2. Avro est un
framework de sérialisation de données qui est souvent utilisé dans le
contexte du traitement de données et du stockage de données.

• commons-lang/commons-lang/2.6/ : La bibliothèque Apache Commons

Lang version 2.6. est une bibliothèque qui fournit de nombreuses classes
utilitaires pour la manipulation de chaînes, d'objets et d'autres tâches
courantes en Java.

• sqljdbc_11.2 : Pilote JDBC pour Microsoft SQL Server, qui permet de

connecter une application Java à une base de données SQL Server.
57
Installation et configuration d’Apache
Sqoop
• Dans le nœud
(configuration):
• Maitre

• mkdir classdir
• chown userdemo:root -
R /usr/lib/sqoop/
• chmod g+rwx -R
/usr/lib/sqoop/
• su – userdemo
• cd /usr/lib/sqoop/lib

58
SQOOP importation des données
• Importation des données de SQL Server vers HDFS avec SQOOP
• SQL Server (configuration):

59
SQOOP importation des données
• Importation des données de SQL Server vers HDFS avec SQOOP
• SQL Server (configuration):

60
SQOOP importation des données
• Importation des données de SQL Server vers HDFS avec SQOOP
• SQL Server (configuration):

61
SQOOP importation des données
• Importation des données de SQL Server vers HDFS avec SQOOP
• SQL Server (configuration):

62
SQOOP importation des données
• sqoop list-tables --connect
• La commande Sqoop indique à Sqoop de lister les tables de la base de
données spécifiée.

• --connect : Cela spécifie l'URL de connexion JDBC à la base de

données SQL Server.

• --username demo -P: Cela spécifie le nom d'utilisateur (demo) pour se

connecter à la base de données. L'option -P indique à Sqoop de
demander le mot de passe lors de l'exécution de la commande.

63
SQOOP importation des données
• Importation des données de SQL Server
vers HDFS avec SQOOP
• Dans le nœud (exécution):
• Maitre

• Afficher la liste des tables dans la bd

« NorthwindDW »
• export SQOOP_HOME=/usr/lib/sqoop
• export
PATH=$PATH:$SQOOP_HOME/bin
• sqoop list-tables \
--connect
'jdbc:sqlserver://[Link]:1433;datab
ase=NorthwindDW' --username demo -P

64
SQOOP importation des données
• Importation des données de SQL Server vers
HDFS avec SQOOP
• Dans le nœud (exécution):
• Maitre

65
SQOOP importation des données
• sqoop codegen
• Commande Sqoop utilisée pour générer des classes Java basées sur le résultat de la requête SQL spécifiée.

• sqoop codegen : Cela indique à Sqoop de générer du code Java basé sur le résultat de la requête SQL.

• [Link]=true : Cette option est utilisée pour influencer la manière dont les classes
et les dépendances sont chargées lors de l'exécution des travaux MapReduce dans un cluster Hadoop.
• Plus précisément, cela signifie que les classes définies par l'utilisateur (comme celles générées par Sqoop) auront la priorité
sur les classes système lors de l'exécution des travaux MapReduce.

• --query : Spécifie la requête SQL à exécuter

• L'option \$CONDITIONS est utilisée par Sqoop pour diviser la requête et effectuer une importation parallèle des
données.

• --bindir : Spécifie le répertoire de sortie où les classes Java générées seront stockées.

• Cette commande générera des classes Java basées sur le schéma de résultat de la requête SQL, et ces classes
peuvent ensuite être utilisées dans des applications Java pour traiter les données extraites de la base de données
SQL Server.
66
SQOOP importation des données
• Importation des données de SQL Server vers HDFS avec
SQOOP
• Dans le nœud (exécution):
• Maitre

67
SQOOP importation des données
• Importation des données de SQL Server vers HDFS avec
SQOOP
• Dans le nœud (exécution):
• Maitre

sqoop import -[Link]=true -

68
SQOOP importation des données
• sqoop import
• Importe des données depuis SQL Server vers Hadoop.

• -[Link].allow_text_splitter=true : Cette option spécifie

d'autoriser l'utilisation du séparateur de texte pour les colonnes de type texte lors de
la division des données.

• -libjars /usr/lib/sqoop/lib/classdir/[Link] : Spécifie un fichier JAR externe

qui contient des classes personnalisées nécessaires pour l'importation des données.

• --target-dir : Spécifie le répertoire de destination dans Hadoop où les données

extraites seront stockées.

• --split-by : Indique à Sqoop de diviser les données en utilisant la colonne

ProductName pour garantir une répartition efficace des données entre les tâches
MapReduce.
69
SQOOP importation des données
• Importation des données de SQL
Server vers HDFS avec SQOOP
• Dans le nœud (résultat):
• Maitre

70
Exemple MapReduce
• Calcul du total de la quantité de produits vendus dans l’entrepôt
NorthwindDW.
• Dans le nœud :
• Maitre
• Création des répertoires.

• hdfs dfs -mkdir /user

• hdfs dfs -mkdir /user/userdemo
• hdfs dfs -mkdir /user/userdemo/demo2
• hdfs dfs -mkdir /user/userdemo/demo2/output

71
Exemple MapReduce
• Calcul du total de la quantité de produits vendus dans l’entrepôt
NorthwindDW.
• Dans le nœud :
• Maitre
• Création des répertoires.

72
Exemple MapReduce
• Calcul du total de la
quantité de produits vendus
dans l’entrepôt
NorthwindDW.
• Dans le nœud :
• Maitre

• Création d’un fichier

« [Link] ».

73
Exemple MapReduce
• Calcul du total de la
quantité de produits
vendus dans l’entrepôt
NorthwindDW.
• Dans le nœud :
• Maitre

• Création d’un fichier

« [Link] ».

74
Exemple MapReduce
• Calcul du total de la
quantité de produits vendus
dans l’entrepôt
NorthwindDW.
• Dans le nœud :
• Maitre

• Création d’un fichier

« [Link] ».

75
Exemple MapReduce
• Calcul du total de la
quantité de produits
vendus dans l’entrepôt
NorthwindDW.
• Dans le nœud :
• Maitre

• Création d’un fichier

« [Link] ».

76
Exemple MapReduce
• Calcul du total de la quantité de produits vendus dans l’entrepôt
NorthwindDW.
• Dans le nœud :
• Maitre
• Exécuter le programme MapReduce

hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/[Link] \

-file /home/userdemo/[Link] -mapper /home/userdemo/[Link] \
-file /home/userdemo/[Link] -reducer /home/userdemo/[Link] \
-input /user/userdemo/northwinddw/* -output
/user/userdemo/demo2/output/demo2output

77
Exemple MapReduce
• hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/[Link] \
-file /home/userdemo/[Link] -mapper /home/userdemo/[Link] \
-file /home/userdemo/[Link] -reducer /home/userdemo/[Link] \
-input /user/userdemo/northwinddw/* -output\
/user/userdemo/demo2/output/demo2output

• Cette commande Hadoop exécute un travail MapReduce en utilisant les scripts Python [Link] et [Link]
pour effectuer des opérations de map et de reduce respectivement. Les données sont lues à partir du répertoire
d'entrée spécifié et les résultats sont écrits dans le répertoire de sortie spécifié.

• hadoop jar : Indique à Hadoop d'utiliser l'outil de streaming pour exécuter un travail MapReduce.

• -file …. -mapper …. : Spécifie le fichier et la commande qui seront utilisés comme tâche de map. Le fichier
[Link] est envoyé à tous les nœuds du cluster et la commande spécifiée est utilisée pour exécuter la tâche de
map.

• -file …. -reducer …. : Spécifie le fichier et la commande qui seront utilisés comme tâche de reduce. Le fichier
[Link] est envoyé à tous les nœuds du cluster et la commande spécifiée est utilisée pour exécuter la tâche de
reduce.

78
Exemple MapReduce
• Calcul du total de la
quantité de produits
vendus dans l’entrepôt
NorthwindDW.
• Dans le nœud :
• Maitre
• Exécuter le programme
MapReduce

79
Exemple MapReduce
• Calcul du total de la
quantité de produits
vendus dans l’entrepôt
NorthwindDW.
• Dans le nœud :
• Maitre
• Résultats

80
Exemple MapReduce
• Calcul du total de la
quantité de produits
vendus dans l’entrepôt
NorthwindDW.
• Dans le nœud :
• Maitre
• Résultats

81
Exemple MapReduce
• Calcul du
total de la
quantité de
produits
vendus
dans
l’entrepôt
NorthwindD
W.
• Dans le
nœud :
• Maitre
• Résultats
82
Références

• Big Data with Hadoop MapReduce A Classroom Approach , 2020, par Rathinaraja Jeyaraj,
Ganeshkumar Pugalendhi et Anand Paul.
• Hadoop Real-World Solutions Cookbook - Second Edition, 2016, par Tanmay Deshpande.
• Field Guide to Hadoop: An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies, 2015,
par Kevin Sitto et Marshall Presser.
• Apache Hadoop, [Link]
• Ubuntu, [Link]
• VirtualBox, [Link]

Vous aimerez peut-être aussi

Rapport de Projet Big Data
Pas encore d'évaluation
Rapport de Projet Big Data
25 pages
Atelier Big Data : Traitement Batch avec Hadoop
Pas encore d'évaluation
Atelier Big Data : Traitement Batch avec Hadoop
11 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
16 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
10 pages
TP1: Installation D'un Cluster Hadoop Avec Docker
Pas encore d'évaluation
TP1: Installation D'un Cluster Hadoop Avec Docker
4 pages
Lab - Docker Hadoop-02-2024
Pas encore d'évaluation
Lab - Docker Hadoop-02-2024
6 pages
Configuration Cluster Hadoop avec Docker et VM
Pas encore d'évaluation
Configuration Cluster Hadoop avec Docker et VM
4 pages
Atelier3-KafkaLocal Said Ali Abdi
Pas encore d'évaluation
Atelier3-KafkaLocal Said Ali Abdi
24 pages
Manipulation Shell Hadoop avec Docker
Pas encore d'évaluation
Manipulation Shell Hadoop avec Docker
6 pages
Installation de Hadoop et Spark sur Windows
Pas encore d'évaluation
Installation de Hadoop et Spark sur Windows
5 pages
Installation et Configuration de Hadoop
Pas encore d'évaluation
Installation et Configuration de Hadoop
17 pages
TP2 - BD
0% (1)
TP2 - BD
8 pages
Atelier 3 1
Pas encore d'évaluation
Atelier 3 1
20 pages
Borel
Pas encore d'évaluation
Borel
12 pages
Atelier3.1-KafkaLocal Said Ali Abdi
Pas encore d'évaluation
Atelier3.1-KafkaLocal Said Ali Abdi
12 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
84 pages
Installer et configurer Hadoop sur Ubuntu
Pas encore d'évaluation
Installer et configurer Hadoop sur Ubuntu
11 pages
Youssef Boukhmira - Workshop 3 - (Responses)
Pas encore d'évaluation
Youssef Boukhmira - Workshop 3 - (Responses)
14 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
31 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
93 pages
Big Data et Hadoop : Guide Essentiel
Pas encore d'évaluation
Big Data et Hadoop : Guide Essentiel
8 pages
Installation de Hadoop sur Linux
100% (1)
Installation de Hadoop sur Linux
10 pages
Installation et Configuration de Hadoop
Pas encore d'évaluation
Installation et Configuration de Hadoop
7 pages
Outils Hadoop pour le Big Data
Pas encore d'évaluation
Outils Hadoop pour le Big Data
107 pages
Cours sur Hadoop et MapReduce
100% (2)
Cours sur Hadoop et MapReduce
107 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
6 pages
DM1 Intro Docker.
Pas encore d'évaluation
DM1 Intro Docker.
23 pages
Jour1 Configuration Hadoop (4th Copy)
Pas encore d'évaluation
Jour1 Configuration Hadoop (4th Copy)
9 pages
Lecture2 Bis
Pas encore d'évaluation
Lecture2 Bis
41 pages
Outils Big Data et Apache Pig
Pas encore d'évaluation
Outils Big Data et Apache Pig
132 pages
Installation de Hadoop en mode standalone
Pas encore d'évaluation
Installation de Hadoop en mode standalone
7 pages
Introduction à Apache Hadoop et ses Concepts Clés
Pas encore d'évaluation
Introduction à Apache Hadoop et ses Concepts Clés
27 pages
Installation et configuration de Hadoop
Pas encore d'évaluation
Installation et configuration de Hadoop
11 pages
Installation Hadoop 2 sur Ubuntu 16.04
Pas encore d'évaluation
Installation Hadoop 2 sur Ubuntu 16.04
13 pages
Bibidada Final
Pas encore d'évaluation
Bibidada Final
10 pages
Introduction à l'écosystème Hadoop
Pas encore d'évaluation
Introduction à l'écosystème Hadoop
52 pages
Cours Hadoop et Big Data
Pas encore d'évaluation
Cours Hadoop et Big Data
105 pages
TP Hadoop
Pas encore d'évaluation
TP Hadoop
50 pages
Introduction à Hadoop et son écosystème
Pas encore d'évaluation
Introduction à Hadoop et son écosystème
17 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
6 pages
Guide Sur Docker
Pas encore d'évaluation
Guide Sur Docker
7 pages
Cours Hadoop
Pas encore d'évaluation
Cours Hadoop
80 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
84 pages
Mise en Place Envr TP
Pas encore d'évaluation
Mise en Place Envr TP
2 pages
Hadoop Install
Pas encore d'évaluation
Hadoop Install
6 pages
Installation de Hadoop sur Ubuntu
Pas encore d'évaluation
Installation de Hadoop sur Ubuntu
11 pages
TP HDFS Hadoop Spark Docker
Pas encore d'évaluation
TP HDFS Hadoop Spark Docker
4 pages
Procedure D'installation de Hadoop
Pas encore d'évaluation
Procedure D'installation de Hadoop
13 pages
Tp1 Big Data
Pas encore d'évaluation
Tp1 Big Data
8 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Introduction à Docker Compose et Volumes
Pas encore d'évaluation
Introduction à Docker Compose et Volumes
37 pages
Installation de Hadoop avec Docker Compose
Pas encore d'évaluation
Installation de Hadoop avec Docker Compose
7 pages
Guide Complet Recommandation Hadoop
Pas encore d'évaluation
Guide Complet Recommandation Hadoop
40 pages
Introduction au DevOps et Docker
Pas encore d'évaluation
Introduction au DevOps et Docker
3 pages
Apprentissage par renforcement en IA
Pas encore d'évaluation
Apprentissage par renforcement en IA
88 pages
Concepts Avancés en IA pour IIdO
Pas encore d'évaluation
Concepts Avancés en IA pour IIdO
8 pages
Responsabilité Civile et Objets Connectés
Pas encore d'évaluation
Responsabilité Civile et Objets Connectés
53 pages
Gestion des vulnérabilités en entreprise
Pas encore d'évaluation
Gestion des vulnérabilités en entreprise
6 pages
Categorisation Information
Pas encore d'évaluation
Categorisation Information
74 pages
Le Modèle Des 3 Lignes de Défense
Pas encore d'évaluation
Le Modèle Des 3 Lignes de Défense
3 pages
Endurcissement de Windows 10 Entreprise
Pas encore d'évaluation
Endurcissement de Windows 10 Entreprise
1 page
Atelier sur la sécurité des réseaux avec Nmap et Nessus
Pas encore d'évaluation
Atelier sur la sécurité des réseaux avec Nmap et Nessus
5 pages
3.3 Ordonnancement Des Processus
Pas encore d'évaluation
3.3 Ordonnancement Des Processus
55 pages
Inf 261 001
Pas encore d'évaluation
Inf 261 001
4 pages
Syntaxe Commandes at Et Crontab PDF
Pas encore d'évaluation
Syntaxe Commandes at Et Crontab PDF
6 pages
Spark et Hadoop : Architectures Big Data
Pas encore d'évaluation
Spark et Hadoop : Architectures Big Data
43 pages
2 - Interblocage
Pas encore d'évaluation
2 - Interblocage
74 pages
Comprendre l'écosystème Hadoop Big Data
Pas encore d'évaluation
Comprendre l'écosystème Hadoop Big Data
22 pages
Java pour le Web : Applets et Exemples
Pas encore d'évaluation
Java pour le Web : Applets et Exemples
6 pages
Visual TOM Guide Administrateur
100% (3)
Visual TOM Guide Administrateur
183 pages
Introduction à OpenMP pour Ingénieurs
Pas encore d'évaluation
Introduction à OpenMP pour Ingénieurs
37 pages
Code Java pour Client et Serveur TCP/UDP
Pas encore d'évaluation
Code Java pour Client et Serveur TCP/UDP
2 pages
1 Presentation Cluster Muse
Pas encore d'évaluation
1 Presentation Cluster Muse
40 pages
Main 3
Pas encore d'évaluation
Main 3
54 pages
Corrigé CF Sys1 2020 2021
Pas encore d'évaluation
Corrigé CF Sys1 2020 2021
4 pages
Chapitre 2 Gestion CPU SEI
Pas encore d'évaluation
Chapitre 2 Gestion CPU SEI
40 pages
Programmation Système Linux/Unix
Pas encore d'évaluation
Programmation Système Linux/Unix
18 pages
Chapitre 2 Partie3 Seii-1
Pas encore d'évaluation
Chapitre 2 Partie3 Seii-1
8 pages
Architectures Parallèles sur Puce
Pas encore d'évaluation
Architectures Parallèles sur Puce
22 pages
TD1 - Ordonnancement
50% (2)
TD1 - Ordonnancement
3 pages
Examen SEA2 : Système d'exploitation
Pas encore d'évaluation
Examen SEA2 : Système d'exploitation
2 pages
Devoir Surveille SE1 AVRIL 2024
Pas encore d'évaluation
Devoir Surveille SE1 AVRIL 2024
3 pages
Gestion des Processus OS
Pas encore d'évaluation
Gestion des Processus OS
49 pages
Synchronisation et Sémaphores: Solutions et Exercices
100% (1)
Synchronisation et Sémaphores: Solutions et Exercices
3 pages
Appels Systèmes : Fork, Wait, Exec en C
Pas encore d'évaluation
Appels Systèmes : Fork, Wait, Exec en C
3 pages
Presentation Open MP Et MPI
Pas encore d'évaluation
Presentation Open MP Et MPI
32 pages
Chapitre3 Optimisation Et Augmentation Des Performances Des Processeurs
Pas encore d'évaluation
Chapitre3 Optimisation Et Augmentation Des Performances Des Processeurs
19 pages
Mise en Place Et Optimisation D'un Cluster Slurm: Pour L'exécution de Grands Modèles de Langage
Pas encore d'évaluation
Mise en Place Et Optimisation D'un Cluster Slurm: Pour L'exécution de Grands Modèles de Langage
75 pages
Introduction à HDFS et ses fonctionnalités
Pas encore d'évaluation
Introduction à HDFS et ses fonctionnalités
26 pages
Architectures Distribuées et Client-Serveur
Pas encore d'évaluation
Architectures Distribuées et Client-Serveur
63 pages
Serveur Multi-Thread en Java
Pas encore d'évaluation
Serveur Multi-Thread en Java
22 pages
Guide de programmation Java avancée
Pas encore d'évaluation
Guide de programmation Java avancée
94 pages

Guide d'installation de Hadoop et Docker

Transféré par

Guide d'installation de Hadoop et Docker

Transféré par

Hadoop

• D'autre part, il est tout aussi important de supprimer docker run -d ^

• Le transfert de données entre les systèmes de bases de

• Sqoop automatise la majeure partie du processus.

• Une fois le traitement terminé, les données peuvent

• Hadoop est utilisé à des fins ETL dans ce cas.

• Lors d'une importation Sqoop, chaque tâche de

• Sqoop distribue les données uniformément entre les

• Certains contiennent des fichiers qui les font

• Hadoop streaming est une bibliothèque Hadoop

master slaveone slavetwo

• Création d’une • apt install openjdk-8-jdk

• apt install pdsh

apt install nano

tar xzf /root/[Link]

base pour un • mv hadoop-3.3.4 hadoop

contenant les • nano /usr/local/hadoop/etc/hadoop/[Link]

base pour un • <property>

• hdfs dfs -mkdir /user

• Création d’un fichier texte incluant les

• Copier le fichier dans le

• hdfs dfs -copyFromLocal

• Exécuter le programme MapReduce en utilisant l’exemple fourni dans

• hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-

• [Link] est le fichier JAR qui contient les

• wordcount est le nom de la classe principale dans le fichier JAR hadoop-

• Exécuter le programme MapReduce

• Exécuter le programme MapReduce

• Il contient des variables d'environnement et des paramètres de configuration à personnaliser en fonction de

• HADOOP_MAPRED_HOME et HADOOP_COMMON_HOME spécifient les chemins vers les composants

• [Link] est un fichier JAR (Java Archive) qui contient les

• Le fichier [Link] peut être présent dans le répertoire de

• tar -xvf sqljdbc_11.2.0.0_enu.[Link]

• commons-lang/commons-lang/2.6/ : La bibliothèque Apache Commons

• sqljdbc_11.2 : Pilote JDBC pour Microsoft SQL Server, qui permet de

• --connect : Cela spécifie l'URL de connexion JDBC à la base de

• --username demo -P: Cela spécifie le nom d'utilisateur (demo) pour se

• Afficher la liste des tables dans la bd

sqoop codegen -[Link]=true \

• --query : Spécifie la requête SQL à exécuter

sqoop import -[Link]=true -

sqoop import -[Link]=true -

• -[Link].allow_text_splitter=true : Cette option spécifie

• -libjars /usr/lib/sqoop/lib/classdir/[Link] : Spécifie un fichier JAR externe

• --target-dir : Spécifie le répertoire de destination dans Hadoop où les données

• --split-by : Indique à Sqoop de diviser les données en utilisant la colonne

• hdfs dfs -mkdir /user

• Création d’un fichier

• Création d’un fichier

• Création d’un fichier

• Création d’un fichier

hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/[Link] \

Vous aimerez peut-être aussi