Installation des outils de TP
Installation des outils de TP
Objectifs
Installer une VM tel que VirtualBox
Installer Hortonworks Data Platform
Accéder à la plateforme de données Hortonworks
Introduction
La plate-forme de données Hortonworks (HDP) est une distribution Hadoop open source
sécurisée et prête à l'emploi, basée sur une architecture centralisée (YARN).
Hortonworks Sandbox peut être exécuté à l'aide d'une machine virtuelle. HDP
est un système complet pour gérer
([Link]
le traitement et le stockage des données volumineuses.
Configuration matérielle requise
Mémoire dédiée au cluster (Minimum : 8 Go, Recommandé : 10+ Go).
Processeur (minimum : 4 cores, recommandé : 6+ cores)
La virtualisation doit être activée
(Vérifier Virtualisation sous Windows ([Link]
processor-supports-hyper-v) , Sur Linux : lscpu ). Parfois, il est désactivé dans le BIOS.
Stockage
25 à 35 Gio
pour HDP 2.5.0
65 à 75 Gio
pour HDP 2.6.5
80 à 100 Gio
pour HDP 3.0.1
Nous vous recommandons d'installer HDP 2.6.5 à moins que vous ne disposiez de
moins de ressources.
1
Installation des outils de TP
Installation de Hortonworks Sandbox
Il existe deux façons courantes d'installer HDP Sandbox sur votre PC, soit en utilisant un
hyperviseur tel que VirtualBox qui extraira l'image Docker et exécutera un conteneur pour votre
cluster, soit en utilisant directement Docker où vous devez gérer vos ressources via les options de
ligne de commande docker ([Link]
A. Utilisation d' un hyperviseur
Dans cette approche, vous allez exécuter une machine virtuelle qui à son tour exécutera
votre conteneur de cluster, de sorte que le système d'exploitation de la machine virtuelle
sera différent du système d'exploitation du conteneur (cluster HDP Sandbox).
1. Installation d' un hyperviseur
Nous recommandons VirtualBox en tant qu'hyperviseur car il est pris en charge par la plupart des
systèmes d'exploitation courants (Linux, Windows et macOS). Veuillez suivre le lien ci-joint dans la
liste suivante pour télécharger votre hyperviseur préféré.
Oracle VM VirtualBox ([Link] (Recommandé)
VMware Workstation Player ([Link] (Uniquement pour Linux
et Windows)
VMware Fusion for mac ([Link] (Uniquement pour macOS)
2. Installation de HDP S andbox
Hortonworks Data Platform (HDP) est un environnement d'apprentissage préconfiguré qui contient
les derniers développements d'Apache Hadoop. Le Sandbox vous permet d'apprendre et d'explorer
HDP par vous-même.
2.1. Téléchargement de Sandbox
Vous pouvez trouver les liens de téléchargement du Sandbox au format .ova par rapport à
l'hyperviseur choisi. Si vous utilisez VirtualBox, téléchargez-le à partir d'ici
([Link] Pour les utilisateurs de
VMware, le lien de téléchargement se trouve ici ([Link]
/HDP_2.6.5_vmware_180622.ov). Vous pouvez également les télécharger sur le(s) site (s) officiel(s)
[Link] mais il faut un compte sur le site Web de
Cloudera. Je partage ci-dessous les liens de téléchargement pour toutes les versions disponibles de
HDP Sandbox.
2
Installation des outils de TP
Les liens de téléchargement de HDP Sandbox sur VirtualBox :
HDP 2.5.0 ([Link]
2.5.0/HDP_2.5_virtualbox.ova ([Link]
2.5.0/HDP_2.5_virtualbox.ova))
HDP 2.6.5 ([Link]
2.6.5/HDP_2.6.5_virtualbox_180626.ova ([Link]
sandbox/hdp/hdp-2.6.5/HDP_2.6.5_virtualbox_180626.ova))
HDP 3.0.1 ([Link]
3.0.1/HDP_3.0.1_virtualbox_181205.ova ([Link]
3.0.1/HDP_3.0.1_virtualbox_181205.ova))
Les liens de téléchargement de HDP Sandbox sur VMware :
HDP 2.5.0 ([Link]
2.5.0/HDP_2.5_vmware.ova ([Link]
2.5.0/HDP_2.5_vmware.ova))
HDP 2.6.5 ([Link]
2.6.5/HDP_2.6.5_vmware_180622.ova ([Link]
2.6.5/HDP_2.6.5_vmware_180622.ova))
HDP 3.0.1 ([Link]
3.0.1/HDP_3.0.1_vmware_181205.ova ([Link]
3.0.1/HDP_3.0.1_vmware_181205.ova))
2.2. Installing the Sandbox
Je vais montrer ici les étapes pour installer le HDP Sandbox sur VirtualBox. Tout d'abord, vous
devez vous assurer que vous avez installé VirtualBox et qu'il est prêt à créer des machines
virtuelles.
Oracle VM VirtualBox
3
Installation des outils de TP
Sélectionnez Fichier dans la barre d'outils supérieure, puis choisissez Importer l'appliance... dans
la liste déroulante ou appuyez sur Ctrl+I . La fenêtre suivante s'affiche et vous permet de spécifier
le fichier à partir duquel importer l'appliance virtuelle. Ici, vous devez sélectionner le chemin d'accès
de l' appliance virtuelle. L'appliance virtuelle porte l'extension .ova .
Fenêtre Importer l'appliance
Comme le montre la figure ci-dessous, sélectionnez le chemin du fichier .ova puis appuyez sur
Suivant.
Fenêtre Importer l'appliance
Dans la fenêtre suivante, vous devrez peut-être modifier certains paramètres. Assurez-
vous de définir les cœurs du processeur sur 4 et la taille de la RAM sur 8192 Mo.
4
Installation des outils de TP
Fenêtre des paramètres de l'appareil
Et attendez que l'appliance soit importée comme indiqué dans la figure ci-dessous.
Progression de l'importation de l'appliance virtuelle
Si vous avez obtenu une valeur 0 pour la mémoire de base après l'importation de
l'appliance (un bug dans VirtualBox), veuillez mettre à jour la valeur comme expliqué ci-
dessus et démarrer la machine virtuelle.
2.3. Exécution de la machine virtuelle
Le premier démarrage de HDP Sandbox prend beaucoup de temps, veuillez faire une
pause et attendre qu'il se termine. En fait, pendant ce temps, la machine virtuelle crée
l'image Docker, puis elle commence à exécuter un conteneur pour votre cluster où vous
pouvez y accéder à partir de la machine hôte.
5
Installation des outils de TP
Démarrage de la sandbox HDP
Une fois le processus d'extraction terminé, le système fonctionnera comme indiqué ci-dessous.
Exécution de HDP Sandbox
Une fois l'opération de démarrage terminée, vous verrez l'écran suivant où il donne
l'adresse pour accéder à la page Web d'accueil de la plate-forme à [Link]
([Link] ou [Link] ([Link] pour HDP 2.6.5.
6
Installation des outils de TP
HDP Sandbox 2.6.5
L'installation est maintenant terminée et vous êtes prêt à accéder au cluster.
Accéder au cluster HDP Sandbox
Que vous suiviez la première approche ou la seconde lors de l'installation du cluster, vous vous
retrouverez ici. Le cluster HDP Sandbox installé est une implémentation à nœud unique de HDP. Il
est présenté sous la forme d'une machine virtuelle pour rendre l'évaluation et l'expérimentation avec
HDP rapides et faciles. Vous pouvez accéder à la page d'accueil du cluster via
[Link] ([Link] pour HDP 2.6.5 et [Link] ([Link] pour
HDP 2.5.0.
HDP Sandbox Page d'accueil
Le bouton Liens rapides vous transférera vers la page de liens où vous pourrez accéder à
certains services du cluster.
7
Installation des outils de TP
Page web des liens rapides HDP Sandbox
Pour voir tous les services du cluster, vous devez accéder au service Ambari à l'[Link]
([Link] où vous pouvez surveiller et gérer tous les services.
Page de connexion Ambari
Vous devez vous connecter pour accéder à ce service. Vous pouvez utiliser les informations
d'identification de l' utilisateur maria_dev/maria_dev comme (nom d'utilisateur/mot de
passe). HDP Sandbox est livré avec 4 utilisateurs par défaut avec des rôles différents
dans le cluster et il y a aussi Ambari Admin qui peut gérer les autres utilisateurs du
cluster.
8
Installation des outils de TP
Page d'accueil Ambari
Comme vous pouvez le voir sur la page d'accueil d'Ambari, la plupart des services affichent des alertes
car ils n'ont pas démarré jusqu'à présent ou en raison de certains problèmes. Vous devez attendre
que les services commencent pour pouvoir y accéder. Si vous avez défini moins de ressources que
nécessaire, c'est probablement
La plupart des services ne peuvent pas être exécutés, vous pouvez donc arrêter les services qui ne
sont pas nécessaires pour laisser les services requis s'exécuter.
Remarque : Vous pouvez réinitialiser le mot de passe d'Ambari Admin en exécutant la commande
ambari-admin-password-reset via ssh comme suit : (utilisateur root/Hadoop comme nom
d'utilisateur/mot de passe)
[root@sandbox-hdp ~]# ambari-admin-password-reset
9
Installation des outils de TP
Vue d'ensemble des services HDP
Accès via SSH
Vous pouvez accéder au cluster via le client web shell ou appelé shell-in-a-box en suivant l' adresse
[Link] ([Link] dans votre navigateur.
Pour la toute première fois, les informations d'identification par défaut sont root/hadoop et il vous
sera demandé de réinitialiser le mot de passe. Vous devez définir un mot de passe fort pour
passer l'étape de réinitialisation du mot de passe . Par exemple, j'utilise le mot de passe hdpIU2023
.
Client Web Shell pour HDP Sandbox
Accéder à HDFS
Vous pouvez accéder aux fichiers HDFS en sélectionnant la vue Fichiers sur la page d'accueil
d'Ambari.
10
Installation des outils de TP
Ambari - Vue Fichiers
Vous pouvez voir dans l'écran suivant le contenu de HDFS sur le cluster. La page vous permet de
télécharger des fichiers/dossiers depuis/vers le système de fichiers local et HDFS.
HDFS sur un cluster Sandbox HDP
Vous pouvez également accéder à HDFS via l'interface de ligne de commande à l'aide de la
commande hdfs dfs . Par exemple, pour lister le contenu du répertoire racine / dans HDFS, vous
pouvez écrire comme suit :
[root@sandbox-hdp ~]# hdfs dfs -ls /
Transfert de données entre HDFS et les systèmes de fichiers
locaux
Le nœud unique du cluster s'exécute sur CentOS qui dispose du système de fichiers local ext4, tandis
que les données distribuées dans le cluster sont stockées dans HDFS. Vous disposez également d'un
11
Installation des outils de TP
système de fichiers local sur la machine hôte. Nous avons plusieurs systèmes de fichiers parmi
lesquels des données peuvent avoir besoin d'être transférées. Par exemple, pour traiter les données
dans le cluster, vous devez les stocker dans HDFS.
Questions d'auto-évaluation
Quels sont les principaux composants de Hadoop c ore ?
Qu'est-ce qu' Apache Ambari ?
Comment importer une appliance virtuelle dans VirtualBox ?
Comment définissons-nous le mot de passe de Ambari Admin ?
Quelle est la version de la distribution Hadoop dans le cluster installé ?
Quels sont les services proposés par HDP ?
Comment télécharger un fichier du système de fichiers local sur HDFS ?
Comment télécharger un fichier HDFS versle système de fichiers local ?
Comment accédez-vous au cluster via ssh ?
Comment accédons-nous au cluster via shell-in-a-box ?
Quelles sont les informations d' identification par défaut de l' utilisateur root dans le
cluster ?
Comment transférer des fichiersde la machine hôte versle nœud du cluster ?
Ambari Roles
Ambari 2.4 a introduit la notion de contrôle d'accès basé sur les rôles (RBAC) pour l'interface Web
d'Ambari. Ambari inclut désormais des rôles d'opération de cluster supplémentaires, ce qui permet
une division plus granulaire du contrôle du tableau de bord Ambari et des différentes vues Ambari.
Seul l'ID administrateur a accès à l'affichage ou à la modification de ces rôles. Vous pouvez en
savoir plus sur les rôles ici ([Link]
[Link]#login-credentials).
Références
Learning the Ropes of the HDP Sandbox ([Link] the-
[Link]) Getting Started with HDP Sandbox ([Link] started-
with-hdp-sandbox/[Link]) Hortonworks - Wikipedia ([Link] IBM
Analytics - Data Sheet ([Link] PostgreSQL: The World's
Most Advanced Open Source Relational Database ([Link] Movingdata in
HDFS ([Link] Hadoop HDFS Command Cheatsheet
([Link]
12