0% ont trouvé ce document utile (0 vote)

17 vues12 pages

Borel

Ce document fournit un guide complet sur l'installation et la configuration d'Hadoop sur Ubuntu, en commençant par une introduction à Hadoop et ses composants principaux, tels que HDFS, YARN et MapReduce. Il décrit également l'architecture logique d'Hadoop, ses avantages et limites, ainsi qu'une comparaison avec d'autres solutions Big Data. Enfin, le document détaille les étapes nécessaires pour installer Hadoop, y compris la configuration des fichiers et le démarrage du cluster.

Transféré par

www.kountchou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

17 vues12 pages

Borel

Transféré par

www.kountchou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

SOMMAIRE

I. GENERALITES SUR HADOOP .................................................................................................................. 2

II. ARCHITECTURE LOGIQUE D’HADOOP .................................................................................................. 4

III. ETAPES D’INSTALLATION D HADOOP ................................................................................................... 7

INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

I. GENERALITES SUR HADOOP

1. Qu'est-ce que Hadoop ?

Apache Hadoop est un Framework open source développée par la Fondation Apache. Il
permet de stocker et traiter de très grandes quantités de données (Big Data) de manière
distribuée sur un cluster de serveurs.
Il a été conçu pour être :
➢ Scalable (extensible) : on peut facilement ajouter de nouveaux nœuds.
➢ Fault-tolerant (tolérant aux pannes) : les données sont dupliquées, donc pas de
perte si un nœud tombe.
➢ Flexible : il peut traiter des données structurées, semi-structurées ou non
structurées.

2. Les composants principaux de Hadoop

1. HDFS (Hadoop Distributed File System) o Système de fichiers

distribué.

o Stocke les données sur plusieurs machines.

o Divise les fichiers en blocs (par défaut 128 Mo ou 256 Mo) et les réplique
(souvent 3 copies).

2. YARN (Yet Another Resource Negotiator) o Gère les ressources

du cluster.
o Planifie et supervise l’exécution des tâches.

3. MapReduce
o Modèle de programmation pour le traitement parallèle des données.
o Divisé en deux étapes :
▪ Map : traite et transforme les données.
▪ Reduce : agrège les résultats.

4. Hadoop Common
o Contient les bibliothèques et utilitaires partagés par les autres modules.
INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

3. Fonctionnement de Hadoop

1. Les données sont chargées dans HDFS.

2. Une tâche MapReduce est lancée via YARN.

3. Les données sont traitées localement sur les nœuds où elles sont stockées.

4. Les résultats sont agrégés et renvoyés à l'utilisateur ou stockés dans HDFS.

Écosystème Hadoop
Hadoop est souvent utilisé avec d'autres outils, comme :
• Hive : requêtes de type SQL sur des données dans HDFS.
• Pig : langage de script pour le traitement de données.
• HBase : base NoSQL sur HDFS.
• Sqoop : import/export de données entre bases de données relationnelles et Hadoop.
• Flume : collecte de données en temps réel.
• Spark : alternative plus rapide à MapReduce pour le traitement de données.

4. Avantages de Hadoop
• Open source et gratuit.
• Adapté aux très grands volumes de données.
• Haute tolérance aux pannes.
• Flexibilité dans le type de données traitées.

5. Limites de Hadoop
• MapReduce est parfois lent pour les traitements interactifs ou en temps réel.
• Complexité de mise en œuvre et de gestion.
• Consommation de ressources importante.
INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

II. ARCHITECTURE LOGIQUE D’HADOOP

L’architecture de Hadoop se divise en deux grandes couches principales :

1. Stockage distribué : HDFS (Hadoop Distributed File System) 2. Traitement distribué :

YARN + MapReduce

Explications des composants

1. HDFS (Hadoop Distributed File System) – couche de stockage

• NameNode (maître) :
o Gère les métadonnées : structure des fichiers, emplacement des blocs. o
Ne stocke pas les données elles-mêmes.
o Point critique du système (il doit être sauvegardé).
• DataNode (esclaves) :
o Stockent les blocs de données réels.
o Envoient régulièrement un heartbeat au NameNode pour signaler qu’ils sont
actifs.
o Répliquent les blocs selon la politique de réplication (souvent 3 copies).
2. YARN (Yet Another Resource Negotiator) – couche de traitement
• ResourceManager (maître) :

o Gère les ressources globales du cluster.

o Planifie et attribue les tâches aux nœuds disponibles.
• NodeManager (esclaves) :
o Exécute les tâches assignées.
o Supervise l'utilisation locale des ressources (mémoire, CPU).
3. MapReduce (moteur de traitement)

• S’exécute sur YARN.

• Se décompose en deux phases :
o Map : divise les données en paires clé/valeur pour traitement.
o Reduce : regroupe les résultats du Map et les agrège.
• Le traitement est parallèle et proche des données (data locality).
4. Outils en haut de la pile (clients)
• Pig : langage de scripts pour transformer les données.
• Hive : interface SQL pour interroger les données.
• Spark : moteur de traitement alternatif plus rapide.
• Oozie, Sqoop, Flume : orchestration, import/export, ingestion.
INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

Résumé des flux de données

1. Données chargées dans HDFS → stockées en blocs sur plusieurs DataNodes.

2. Job soumis à Hadoop → le ResourceManager planifie le traitement.

3. Le traitement s'exécute en parallèle sur les NodeManagers.

Résultats éventuellement enregistrés dans HDFS ou renvoyés à l’utilisateur.

Comparaison d’Hadoop avec d’autres solutions Big Data

Critère Hadoop (avec Apache Apache Google Amazon EMR

MapReduce) Spark Flink BigQuery

Type de Framework Moteur de Traitement Solution cloud Service

projet open source traitement de flux et d’analyse de managé
de traitement distribué in- batch unifié données Hadoop/Spark
distribué memory massives sur AWS
(PaaS)

Traitement Batch Batch & Streaming SQL-like, Batch &

(MapReduce) Streaming natif (temps batch streaming
(plus réel) &
rapide) batch

Performance Moins rapide Très rapide Temps réel, Très rapide, Dépend des
(traitement (traitement très selon usage ressources
disque) en performant cloud AWS allouées
mémoire)

Tolérance Oui (via HDFS Oui (RDD Oui Géré par Géré par AWS
aux pannes et YARN) résilients) (stateful Google
streaming)

Scalabilité Horizontale Horizontale Horizontale Très haute Très haute

(scalabilité
automatique)

Facilité Complexe API simples API Très simple Intégration

d’utilisation (MapReduce (Scala, modernes (requêtes facile avec
en Java) Python, (Java, Scala) SQL) AWS
SQL)
INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

Stockage HDFS Non (utilise Non (utilise Cloud Storage S3, HDFS
intégré HDFS, S3, sources intégré
etc.) externes)

Cas d’usage Traitement Machine Streaming BI, analyse de Traitement Big

typiques batch Learning, temps réel, logs, Data dans le
volumineux traitements détection requêtes cloud
itératifs, d’anomalies rapides
interactifs

Déploiement Sur site ou Sur site ou Sur site ou Cloud Cloud

cloud cloud cloud uniquement uniquement
(Google) (AWS)

Pour récapituler :
• Apache Spark est souvent préféré à Hadoop MapReduce pour sa vitesse et sa
flexibilité, tout en pouvant utiliser HDFS.
• Apache Flink est idéal pour des traitements en temps réel, contrairement à Hadoop
qui est orienté batch.
• BigQuery est une solution gérée dans le cloud, excellente pour les analyses massives
sans gestion d’infrastructure.
• Amazon EMR permet d'exécuter des tâches Hadoop, Spark, etc. dans le cloud AWS,
avec gestion automatique.

III. ETAPES D’INSTALLATION D HADOOP

Pour installer quoi que ce soit il faut au préalable faire une mise à jour du système, en
tapant la commande : sudo apt update.

1. Se connecter en mode ROOT et installer JAVA

Apt-get install default-jdk default-jre -y

2. Vérifier la version de JAVA

JAVA -version

3. On va maintenant créer l’utilisateur HADOOP (adduser hadoop ; password :doop).

Maintenant on va se connecter à l’utilisateur hadoop (su - hadoop)
4. On va générer la clé SSH : ssh-keygen -t rsa. Lorsque vous taper cette commande, vous
continuez en appuyant la touche entrée jusqu’ à la génération de la clé.
INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

5. Donner la permission au fichier authorized_keys cat ~/.ssh/id_rsa.pub >>

~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys

6. Vérifier la connexion ssh sans mot de passe :ssh server’s_ip_address

7. Télécharger la dernière version d hadoop wget
https://dlcdn.apache.org/hadoop/common/hadoop-3.4.0/hadoop-3.3.6.tar.gz

On va décompresser le fichier téléchargé : tar -xvzf hadoop-3.3.0.tar.gz

8. On se connecte sur root, puis déplacer le fichier extrait dans un répertoire spécifique

mv hadoop-3.3.0 hadoop
9. Ensuite, changez la propriété du répertoire hadoop en hadoop :
sudo chown -R hduser_:hadoop_ hadoop
INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

Part 2) Configure Hadoop

1. Modifier le fichier ~/.bashrc file

Ajouter les lignes suivante dans le fichier ~/.bashrc

export HADOOP_HOME=/usr/local/hadoop export

HADOOP_INSTALL=$HADOOP_HOME export

HADOOP_MAPRED_HOME=$HADOOP_HOME export

HADOOP_COMMON_HOME=$HADOOP_HOME export

HADOOP_HDFS_HOME=$HADOOP_HOME export

YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export

HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

2. Modifier le fichier hadoop-env.sh

3. Modifier le fichier /usr/local/hadoop/etc/hadoop/hadoop-core.site.xml

INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

5. Modifier le fichier /etc/hadoop/mapred-site.xml

INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

6. Modifier le fichier /etc/hadoop/yarn-site.xml

Formater le HDFS NameNode hdfs

namenode -format
INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

Démarrer Hadoop Cluster

./start-dfs.sh et ./start-yarn.sh

Ensuite taper Jps

Démarrage de Namenode

/usr/local/hadoop/sbin/start-dfs.sh

Puis vérifiez avec : jps

Access Hadoop from Browser

http://localhost:9870

http://localhost:9864

http://localhost:8088

Vous aimerez peut-être aussi

Bibidada Final
Pas encore d'évaluation
Bibidada Final
10 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
9 pages
Présentation Hadoop1
Pas encore d'évaluation
Présentation Hadoop1
13 pages
Atelier Big Data : Traitement Batch avec Hadoop
Pas encore d'évaluation
Atelier Big Data : Traitement Batch avec Hadoop
11 pages
Youssef Boukhmira - Workshop 3 - (Responses)
Pas encore d'évaluation
Youssef Boukhmira - Workshop 3 - (Responses)
14 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
16 pages
Rapport de Projet Big Data
Pas encore d'évaluation
Rapport de Projet Big Data
25 pages
Introduction à Hadoop et son écosystème
Pas encore d'évaluation
Introduction à Hadoop et son écosystème
17 pages
Introduction à MapReduce et Spark
Pas encore d'évaluation
Introduction à MapReduce et Spark
6 pages
Introduction à Apache Spark et Hadoop
Pas encore d'évaluation
Introduction à Apache Spark et Hadoop
53 pages
Les Données Massives
Pas encore d'évaluation
Les Données Massives
80 pages
Big Data et Hadoop : Guide Essentiel
Pas encore d'évaluation
Big Data et Hadoop : Guide Essentiel
8 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
31 pages
Big 20 Data
Pas encore d'évaluation
Big 20 Data
3 pages
Guide d'installation de Hadoop et Docker
Pas encore d'évaluation
Guide d'installation de Hadoop et Docker
83 pages
Résumé
Pas encore d'évaluation
Résumé
9 pages
Jour1 Configuration Hadoop (4th Copy)
Pas encore d'évaluation
Jour1 Configuration Hadoop (4th Copy)
9 pages
Chapitre 1&chapitre 2
Pas encore d'évaluation
Chapitre 1&chapitre 2
5 pages
Installation et Configuration de Hadoop
Pas encore d'évaluation
Installation et Configuration de Hadoop
17 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
84 pages
Outils Hadoop pour le Big Data
Pas encore d'évaluation
Outils Hadoop pour le Big Data
107 pages
Cours sur Hadoop et MapReduce
100% (2)
Cours sur Hadoop et MapReduce
107 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
16 pages
Installer et configurer Hadoop sur Ubuntu
Pas encore d'évaluation
Installer et configurer Hadoop sur Ubuntu
11 pages
Installation et Configuration de Hadoop
100% (1)
Installation et Configuration de Hadoop
15 pages
Installation et Configuration de Hadoop
Pas encore d'évaluation
Installation et Configuration de Hadoop
7 pages
TP2 - BD
0% (1)
TP2 - BD
8 pages
Projet Big Data
Pas encore d'évaluation
Projet Big Data
19 pages
Lecture2 Bis
Pas encore d'évaluation
Lecture2 Bis
41 pages
TD2 (Chap3 4)
Pas encore d'évaluation
TD2 (Chap3 4)
6 pages
TP Big Data : Hadoop et MapReduce
Pas encore d'évaluation
TP Big Data : Hadoop et MapReduce
15 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
62 pages
Introduction à Apache Hadoop et HDFS
Pas encore d'évaluation
Introduction à Apache Hadoop et HDFS
42 pages
Guide d'installation et configuration Hadoop
Pas encore d'évaluation
Guide d'installation et configuration Hadoop
10 pages
Outils Big Data et Apache Pig
Pas encore d'évaluation
Outils Big Data et Apache Pig
132 pages
Installation de Hadoop sur Ubuntu
Pas encore d'évaluation
Installation de Hadoop sur Ubuntu
11 pages
Introduction à Hadoop pour Big Data
Pas encore d'évaluation
Introduction à Hadoop pour Big Data
94 pages
Guide d'installation Hadoop sur Linux
Pas encore d'évaluation
Guide d'installation Hadoop sur Linux
5 pages
TP1: Installation D'un Cluster Hadoop Avec Docker
Pas encore d'évaluation
TP1: Installation D'un Cluster Hadoop Avec Docker
4 pages
Installation de Hadoop sur Ubuntu 14.10
Pas encore d'évaluation
Installation de Hadoop sur Ubuntu 14.10
10 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
43 pages
Installation de Hadoop et Spark sur Windows
Pas encore d'évaluation
Installation de Hadoop et Spark sur Windows
5 pages
Installation Hadoop 2 sur Ubuntu 16.04
Pas encore d'évaluation
Installation Hadoop 2 sur Ubuntu 16.04
13 pages
Atelier3.1-KafkaLocal Said Ali Abdi
Pas encore d'évaluation
Atelier3.1-KafkaLocal Said Ali Abdi
12 pages
Expose Bigdata
Pas encore d'évaluation
Expose Bigdata
33 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
Cours Hadoop et Big Data
Pas encore d'évaluation
Cours Hadoop et Big Data
105 pages
Hadoop Install
Pas encore d'évaluation
Hadoop Install
6 pages
Big Data Las9
Pas encore d'évaluation
Big Data Las9
3 pages
IoT Big Data Analytics Session2
Pas encore d'évaluation
IoT Big Data Analytics Session2
18 pages
Introduction à Hadoop pour le Big Data
Pas encore d'évaluation
Introduction à Hadoop pour le Big Data
2 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
93 pages
Ecosystème Hadoop Chapitre2
Pas encore d'évaluation
Ecosystème Hadoop Chapitre2
12 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
84 pages
Guide Complet Recommandation Hadoop
Pas encore d'évaluation
Guide Complet Recommandation Hadoop
40 pages
Installation de Hadoop sur Linux
100% (1)
Installation de Hadoop sur Linux
10 pages
Cours 02 Intro Hadoop
Pas encore d'évaluation
Cours 02 Intro Hadoop
30 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
10 pages
Installation de Hadoop en mode standalone
Pas encore d'évaluation
Installation de Hadoop en mode standalone
7 pages
Berlin
Pas encore d'évaluation
Berlin
1 page
Rapport Iae
Pas encore d'évaluation
Rapport Iae
17 pages
Solo 1
Pas encore d'évaluation
Solo 1
17 pages
Nguimeya Tsofack Borel Flowcv Resume 20250610
Pas encore d'évaluation
Nguimeya Tsofack Borel Flowcv Resume 20250610
1 page
Introduction à la Cryptographie
Pas encore d'évaluation
Introduction à la Cryptographie
67 pages
Notions clés sur l'interaction homme-machine
100% (1)
Notions clés sur l'interaction homme-machine
78 pages
Créer une application web facilement
Pas encore d'évaluation
Créer une application web facilement
151 pages
Quiz sur la Sécurité Informatique
Pas encore d'évaluation
Quiz sur la Sécurité Informatique
4 pages
Memoire Spring Boot
Pas encore d'évaluation
Memoire Spring Boot
4 pages
Modèle Relationnel et Intégrité des Bases de Données
Pas encore d'évaluation
Modèle Relationnel et Intégrité des Bases de Données
26 pages
Fiche Progression 4eme
Pas encore d'évaluation
Fiche Progression 4eme
1 page
CV Matthieu 1725613208
Pas encore d'évaluation
CV Matthieu 1725613208
1 page
Esp 1 Sic 2025
Pas encore d'évaluation
Esp 1 Sic 2025
2 pages
Chapitre - 1 Techniques Dindexation Et Recherche Multimedia 2 1
Pas encore d'évaluation
Chapitre - 1 Techniques Dindexation Et Recherche Multimedia 2 1
40 pages
Les Quiz de Culture Digitale S2
67% (3)
Les Quiz de Culture Digitale S2
9 pages
Rapport Site Web Commercial
Pas encore d'évaluation
Rapport Site Web Commercial
25 pages
Se L1aaf-18 08 2025 123354
Pas encore d'évaluation
Se L1aaf-18 08 2025 123354
51 pages
11 Sig
Pas encore d'évaluation
11 Sig
10 pages
Dépendances Fonctionnelles et Formes Normales
Pas encore d'évaluation
Dépendances Fonctionnelles et Formes Normales
33 pages
Schéma Général D'un Système Informatique
100% (1)
Schéma Général D'un Système Informatique
17 pages
Acteurs et Métiers des Systèmes d'Information
Pas encore d'évaluation
Acteurs et Métiers des Systèmes d'Information
51 pages
Organisation de l'information sur intranet
Pas encore d'évaluation
Organisation de l'information sur intranet
8 pages
Semi Naire Ged
Pas encore d'évaluation
Semi Naire Ged
31 pages
UE 14. Généralités Sur Les Bases de Données
Pas encore d'évaluation
UE 14. Généralités Sur Les Bases de Données
3 pages
TD1 Les Mémoires 3
100% (1)
TD1 Les Mémoires 3
3 pages
Chap.01 Intro 18-19 1
Pas encore d'évaluation
Chap.01 Intro 18-19 1
17 pages
Liste des candidats au concours RADEEMA 2023
Pas encore d'évaluation
Liste des candidats au concours RADEEMA 2023
23 pages
Cours - Datawarehouse
Pas encore d'évaluation
Cours - Datawarehouse
83 pages
CV - Mohamed SIKOU
Pas encore d'évaluation
CV - Mohamed SIKOU
1 page
LP Info 2023
Pas encore d'évaluation
LP Info 2023
1 page
TP3 C++ : Structure et Compilation
Pas encore d'évaluation
TP3 C++ : Structure et Compilation
2 pages
Cédric Tailly - CV Détaillé
Pas encore d'évaluation
Cédric Tailly - CV Détaillé
5 pages
Rappot de Stage Devops - Hazem Soussi-FINALE - Hazem Soussi
75% (4)
Rappot de Stage Devops - Hazem Soussi-FINALE - Hazem Soussi
65 pages
Architecture de L - Ordinateur
Pas encore d'évaluation
Architecture de L - Ordinateur
4 pages

Borel

Transféré par

Borel

Transféré par

INSTALLATION ET CONFIGURATION D’HADOOP SUR UBUNTU

I. GENERALITES SUR HADOOP .................................................................................................................. 2

II. ARCHITECTURE LOGIQUE D’HADOOP .................................................................................................. 4

III. ETAPES D’INSTALLATION D HADOOP ................................................................................................... 7

I. GENERALITES SUR HADOOP

1. Qu'est-ce que Hadoop ?

2. Les composants principaux de Hadoop

1. HDFS (Hadoop Distributed File System) o Système de fichiers

o Stocke les données sur plusieurs machines.

2. YARN (Yet Another Resource Negotiator) o Gère les ressources

1. Les données sont chargées dans HDFS.

4. Les résultats sont agrégés et renvoyés à l'utilisateur ou stockés dans HDFS.

II. ARCHITECTURE LOGIQUE D’HADOOP

L’architecture de Hadoop se divise en deux grandes couches principales :

1. Stockage distribué : HDFS (Hadoop Distributed File System) 2. Traitement distribué :

Explications des composants

1. HDFS (Hadoop Distributed File System) – couche de stockage

o Gère les ressources globales du cluster.

• S’exécute sur YARN.

Résumé des flux de données

1. Données chargées dans HDFS → stockées en blocs sur plusieurs DataNodes.

2. Job soumis à Hadoop → le ResourceManager planifie le traitement.

3. Le traitement s'exécute en parallèle sur les NodeManagers.

Comparaison d’Hadoop avec d’autres solutions Big Data

Critère Hadoop (avec Apache Apache Google Amazon EMR

Type de Framework Moteur de Traitement Solution cloud Service

Traitement Batch Batch & Streaming SQL-like, Batch &

Scalabilité Horizontale Horizontale Horizontale Très haute Très haute

Facilité Complexe API simples API Très simple Intégration

Cas d’usage Traitement Machine Streaming BI, analyse de Traitement Big

Déploiement Sur site ou Sur site ou Sur site ou Cloud Cloud

III. ETAPES D’INSTALLATION D HADOOP

1. Se connecter en mode ROOT et installer JAVA

2. Vérifier la version de JAVA

3. On va maintenant créer l’utilisateur HADOOP (adduser hadoop ; password :doop).

5. Donner la permission au fichier authorized_keys cat ~/.ssh/id_rsa.pub >>

~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys

6. Vérifier la connexion ssh sans mot de passe :ssh server’s_ip_address

On va décompresser le fichier téléchargé : tar -xvzf hadoop-3.3.0.tar.gz

Part 2) Configure Hadoop

1. Modifier le fichier ~/.bashrc file

Ajouter les lignes suivante dans le fichier ~/.bashrc

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export

2. Modifier le fichier hadoop-env.sh

3. Modifier le fichier /usr/local/hadoop/etc/hadoop/hadoop-core.site.xml

4. Modifier le fichier /etc/hadoop/hdfs-site.xml

5. Modifier le fichier /etc/hadoop/mapred-site.xml

6. Modifier le fichier /etc/hadoop/yarn-site.xml

Formater le HDFS NameNode hdfs

Démarrer Hadoop Cluster

Ensuite taper Jps

Puis vérifiez avec : jps

Access Hadoop from Browser

Vous aimerez peut-être aussi