100% ont trouvé ce document utile (1 vote)

251 vues69 pages

Hadoop : Traitement et Stockage de Données Massives

Hadoop est une plateforme open source pour le traitement de grandes quantités de données distribuées sur des clusters de machines. Elle utilise HDFS pour le stockage des données et MapReduce pour le traitement parallèle des données.

Transféré par

nafissa bridah

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

100% ont trouvé ce document utile (1 vote)

251 vues69 pages

Hadoop : Traitement et Stockage de Données Massives

Transféré par

nafissa bridah

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Hadoop

 Le traitement d’aussi grandes quantités de données impose des méthodes

particulières :
Répartir les données sur plusieurs machines (de 5 à plusieurs millions d’ordinateurs):
 système de fichiers spécial permettant de ne voir qu’un seul espace pouvant contenir des
fichiers gigantesques et/ou très nombreux,
 bases de données spécifiques.
 algorithmes faciles à écrire,
 exécutions faciles à paralléliser.

[Link]@[Link] 51
Hadoop
High-Availability Distributed Object-Oriented Platform
un cadriciel (framework) de référence libre et opensource
 Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation
logicielle Apache depuis 2009.
Plateforme distribuée pour le stockage et traitement de données massives
Composition:
HDFS : un système de fichier distribué qui répartit les données sur de
nombreuses machines,
YARN : un mécanisme d’ordonnancement de programmes de type MapReduce
(architecture pour un calcul parallèle de larges ensembles de données)

[Link]@[Link] 52
Hadoop
 Principe:
Division de données

 Stockage des données sur un ensemble de machines (cluster)

Traitement des données localement (pas d’utilisation du serveur distribué pour

copier les données)

 Avec la croissance des données, on a l’ajout des machines au cluster

[Link]@[Link] 53
Distributions de Hadoop

[Link]@[Link] 54
Data Center
Un centre de données est un lieu (et un service) regroupant des équipements
constituants du système d’information d'une ou plusieurs entreprise(s)
(ordinateurs centraux, serveurs, équipements réseaux et de
télécommunications, etc).
Milliers d’ordinateurs connectés entre eux = un cluster

[Link]@[Link] 55
Serveur lame
Un serveur lame (aussi appelé serveur blade ou carte serveur ; en
anglais, blade server) est un serveur conçu pour un très faible encombrement.
Alors qu'un serveur en rack n'est qu'un serveur traditionnel de taille un peu
réduite, le serveur lame est beaucoup plus compact, car plusieurs composants
sont enlevés.
Exemple: 4 CPU multi-coeurs, 128 Go de RAM, 24 To de disques rapides, 5000€

[Link]@[Link] 56
Ecosystème de Hadoop

[Link]@[Link] 57
Ecosystème de Hadoop
Autres outils pour :
 Extraction et stockage des données (HDFS)
 Simplification de traitement des données
 Gestion et coordination des opérations
 Surveillance du cluster (Monitoring)

[Link]@[Link] 58
Ecosystème de Hadoop
Oozie: l’ordonnancement des tâches de
Map Reduce (jobs) par la définition des
workflows
Pig: langage de programmation de
requêtes sur des fichiers HDFS (plus simple
que Java) pour écrire des jobs MapReduce.
Mahout: bibliothèque de Machine learning
et mathématiques
R Connectors: exécution des requêtes Map
Reduce avec langage R
Hive: base de données de Hadoop qui
possède un langage d’interrogation,
HiveQL, inspiré de SQL
[Link]@[Link] 59
Ecosystème de Hadoop
Hbase: base de données NoSQL orientée
colonnes
Impala: requetâge de données à partir du
HDFS (ou Hbase, Hive) par des requêtes
Hive QL
 Outils pour la connexion HDFS et sources
externes:
Sqoop: manipulation des bases de
données externes
Flume: collecte de logs et stockage dans
HDFS

[Link]@[Link] 60
Ecosystème de Hadoop
Outils pour la gestion et
l’administration de Hadoop:
Ambari: outil pour l’administration, la
gestion et monitoring du cluster
Zookeeper: outil pour maintenir les
informations de configuration, de
nommage et de synchronisation
distribuée

[Link]@[Link] 61
HDFS (Hadoop Distributed File System)
HDFS = un seul arbre pour les réunir tous
 HDFS permet de voir tous les dossiers et fichiers des milliers de machines du
cluster comme un seul arbre, contenant des Po de données.
 Ecrit en java
 Stockage d’une grande quantité de données sur un grand nombre de machines
(nodes)
Cluster= node+ node +…+ node
Node = CPU + plusieurs disques
Un fichier [Link] sous HDFS est composé de blocs
Chaque bloc possède un nom unique; blk_1, blk_2, etc.

[Link]@[Link] 62
HDFS (Hadoop Distributed File System)
Un fichier sous HDFS est composé de blocs
Chaque bloc possède un nom unique; blk_1, blk_2, etc (par défaut 64Mo pour
Apache Hadoop et 128 Mo pour cloudera Hadoop ).

[Link]@[Link] 63
HDFS (Hadoop Distributed File System)
Architecture

[Link]@[Link] 64
HDFS (Hadoop Distributed File System)
Architecture
Concept de Rack Awareness (rack=baie de stockage)

[Link]@[Link] 65
HDFS (Hadoop Distributed File System)
Architecture
Les datanodes contiennent des blocs (notés A,B,C. . . ). Les mêmes blocs sont dupliqués
(replication) sur différents datanodes, en général 3 fois.
 fiabilité des données en cas de panne d’un datanode,
 accès parallèle par différents processus aux mêmes données.
Le namenode sait à la fois :
 sur quels blocs sont contenus les fichiers,
 sur quels datanodes se trouvent les blocs voulus.
 On parle de metadata.
Inconvénient majeur : panne du namenode = mort de HDFS,
Solution: un secondary namenode archive les metadata.

[Link]@[Link] 66
HDFS (Hadoop Distributed File System)
Comment fonctionne HDFS ?
Un cluster HDFS est constitué de machines jouant différents rôles exclusifs entre eux :
• L’une des machines est le maître HDFS, appelé le namenode. Cette machine contient
tous les noms et emplacement des fichiers, comme un gros annuaire téléphonique.
• Une autre machine est le secondary namenode, une sorte de namenode de secours,
qui enregistre des sauvegardes de l’annuaire à intervalles réguliers.
• Certaines machines sont des clients. Ce sont des points d’accès au cluster pour s’y
connecter et travailler.
• Toutes les autres machines sont des datanodes. Elles stockent le contenu des fichiers
sous forme de blocs. Selon la taille d’un fichier, il lui faudra un certain nombre de blocs.

[Link]@[Link] 67
[Link]@[Link] 68
HDFS (Hadoop Distributed File System)
Mode high availability
Comme le namenode est absolument vital pour HDFS mais unique, Hadoop version 2
propose une configuration appelée high availability dans laquelle il y a 2 autres
namenodes en secours, capables de prendre le relais instantanément en cas de panne
du namenode initial.

Les namenodes de secours se comportent comme des clones. Ils sont en état d’attente
et mis à jour en permanence à l’aide de services appelés JournalNodes.

Les namenodes de secours font également le même travail que le secondary

namenode, d’archiver régulièrement l’état des fichiers, donc ils rendent ce dernier inutile.

[Link]@[Link] 69
Map Reduce
MapReduce est un patron ou modèle d’architecture de
développement informatique, dans lequel sont effectués des calculs
parallèles et souvent distribués sur des données volumineuses.
MapReduce est un environnement Java pour écrire des programmes.
Il est possible d’utiliser d’autres langages comme Python et Ruby
(Hadoop Streaming).
Principe: selon le modèle MapReduce, Hadoop transfère le code à
chaque nœud et chaque nœud traite les données dont il dispose.
Cela permet de traiter un volume important de données plus
rapidement et plus efficacement.

[Link]@[Link] 70
Map Reduce
Objectif: permet de manipuler de grandes quantités de données en les
distribuant dans un cluster de machines pour être traitées.
Exemples d’application: Amazon, Facebook et Cloud Computing.
Il repose sur deux fonctions : « Map » et « Reduce ».
Map: fonction exécutée par un nœud spécifique, analyse un problème, le
découpe en sous-problèmes,
Reduce: fonction qui délègue la résolution de ces sous-problèmes à
d’autres nœuds de traitements pour être traités en parallèle.
 Ces nœuds font ensuite remonter leurs résultats au nœud qui les
avait sollicités.

[Link]@[Link] 71
Map Reduce
Exemple:
Soient les 4 n-uplets fictifs suivants :

Calculer le prix maximal, moyen ou total peut s’écrire à l’aide d’algorithmes de

type :
pour chaque n-uplet, faire :
valeur = FonctionM(n-uplet courant)
retourner FonctionR(valeurs rencontrées)

[Link]@[Link] 72
Map Reduce
Exemple:
• FonctionM est une fonction de correspondance : elle calcule une valeur qui nous intéresse à
partir d’un n-uplet,
• FonctionR est une fonction de regroupement (agrégation) : maximum, somme, nombre,
moyenne, . . .
 Par exemple, FonctionM extrait le prix d’une voiture, FonctionR calcule le max d’un
ensemble de valeurs :
pour chaque voiture, faire :
prix = getPrix(voiture courante)
retourner max(prix rencontrés)

[Link]@[Link] 73
Map Reduce
Exemple en Python :

[Link]@[Link] 74
Map Reduce
 map(fonction, liste) : applique la fonction à chaque élément de la liste. Elle effectue la boucle
«pour» de l’algorithme précédent et retourne la liste des prix des voitures.

 max(liste) : retourne le plus grand élément de la liste fournie. C’est une fonction de type
«reduce».

Ces deux fonctions constituent un couple « map-reduce ».

 La possibilité de paralléliser ces fonctions afin de calculer beaucoup plus vite sur une
machine ayant plusieurs cœurs ou sur un ensemble de machines reliées entre elles.

[Link]@[Link] 75
Map Reduce

[Link]@[Link] 76
Map Reduce
Parallélisation de Map
La fonction map est par nature parallélisable, car les calculs sont indépendants.
Exemple, pour 4 éléments à traiter :
• valeur1 = FonctionM(element1)
• valeur2 = FonctionM(element2)
• valeur3 = FonctionM(element3)
• valeur4 = FonctionM(element4)
Les quatre calculs peuvent se faire simultanément, par exemple sur 4 machines différentes.
Remarque : il faut que la fonction mappée soit une pure fonction de son paramètre, qu’elle n’ait pas
d’effet de bord tels que modifier une variable globale ou mémoriser ses valeurs précédentes.

[Link]@[Link] 77
Map Reduce
Parallélisation de Reduce
La fonction reduce se parallélise partiellement, sous une forme hiérarchique, par exemple :
• inter1 et 2 = FonctionR(valeur1, valeur2)
• inter3 et 4 = FonctionR(valeur3, valeur4)
• resultat = FonctionR(inter1 et 2, inter3 et 4)
Seuls les deux premiers calculs peuvent être faits simultanément. Le 3e doit attendre. S’il y avait
davantage de valeurs, on procéderait ainsi :
1. calcul parallèle de la FonctionR sur toutes les paires de valeurs issues du map
2. calcul parallèle de la FonctionR sur toutes les paires de valeurs intermédiaires issues de la phase
précédente.
3. et ainsi de suite, jusqu’à ce qu’il ne reste qu’une seule valeur.

[Link]@[Link] 78
Map Reduce V1 (MRv1)
Terminologie
Mapper - mappe les paires clé / valeur en entrée sur un ensemble de paires clé / valeur
intermédiaires.
Reducer - réduit un ensemble de valeurs intermédiaires partageant une clé à un ensemble de valeurs
plus petit.
Job - Une exécution du programme MapReduce sur un ensemble de données.
Task - Exécution d'un Mapper ou d'un Reducer sur une tranche de données.
JobTracker - Planifie les travaux et suit les travaux assignés au TaskTracker.
TaskTracker - Suit la tâche et signale l’état à JobTracker.
MasterNode - Nœud où JobTracker est exécuté et qui accepte les demandes de travail des clients.
SlaveNode - Nœud où le programme Map et Reduce est exécuté.

[Link]@[Link] 79
Map Reduce V1 (MRv1)
Composants
JobTracker: divise le travail sur les Mappers et Reducers, s’exécutant sur
les différents nœuds
TaskTracker:
 s’exécute sur chacun des nœuds pour appliquer les vraies tâches de
MapReduce.
Choisit en général de traiter (Map ou Reduce) un bloc sur la même machine que
lui
S’il est déjà occupé, la tâche revient à un autre tracker qui utilisera le réseau
(rare)

[Link]@[Link] 80
Map Reduce V1 (MRv1)
Fonctionnement:
 Un job Map Reduce (ou une application MR) est divisé sur plusieurs tâches appelées mappers
et reducers
 Chaque tâche est exécutée sur un nœud du cluster
 Chaque nœud a un certain nombre de slots prédéfinis: Map Slots et Reduce Slots
 Un slot est une unité d’exécution qui représente la capacité du taskTracker à exécuter une
tâche (map ou reduce) individuellement à un moment donné
 Le jobTracker se charge de:
Allouer les ressources (mémoire, CPU,…) aux différentes tâches
Coordonner l’exécution des jobs MapReduce
Réserver et ordonner les slots, et de gérer les fautes en réallouant les slots au besoin

[Link]@[Link] 81
Map Reduce V1 (MRv1)
Paires clé-valeurs :
Les données échangées entre Map et Reduce, et plus encore, dans la totalité du job sont des
paires (clé, valeur) :
• une clé : c’est n’importe quel type de données : entier, texte. . .
• une valeur : c’est n’importe quel type de données
Exemple :
• un fichier texte est un ensemble de (n° de ligne, ligne).
• un fichier météo est un ensemble de (date et heure, température)

[Link]@[Link] 82
[Link]@[Link] 83
Map Reduce V1 (MRv1)
Étapes d’un job MapReduce
Un job MapReduce comprend plusieurs phases :
1. Prétraitement des données d’entrée, ex: décompression des fichiers
2. Split: séparation des données en blocs traitables séparément et mise sous
forme de (clé, valeur), ex: en lignes ou en n-uplets
3. Map: application de la fonction map sur toutes les paires (clé, valeur) formées
à partir des données d’entrée, cela produit d’autres paires (clé, valeur) en sortie
4. Shuffle & Sort: redistribution des données afin que les paires produites par
Map ayant les mêmes clés soient sur les mêmes machines,
5. Reduce: agrégation des paires ayant la même clé pour obtenir le résultat final.

[Link]@[Link] 84
Map Reduce V1 (MRv1) 1
2

1- lancement d’un programme MR 4

2- JC envoie un message au JT. Le JT produit un identifiant
unique pour le travail (job)
3 5 6 8
3- JC copie les ressources du job (telles que les fichiers jar) vers
un espace de stockage partagé (shared FS).
4- Une fois les ressources du job sont copiées, le JC demande
au JT de démarrer le travail. Le JT initialise le job.
5- Le JT récupère les données d'entrée (input splits) à partir du 7
DFS après avoir communiqué le NameNode
6- Le JT soumet le travail (Map ou Reduce) aux nœuds
TaskTracker choisis.
7- Le TT obtient le code à exécuter à partir du fichier partagé
8- Le TT envoie des signaux (heart beats) pour informer le JT de
la progression des tâches qui lui sont assignées.

[Link]@[Link] 85
Map Reduce V1 (MRv1)
Limites
Le JobTracker coordonne tous les jobs du cluster. Pour chaque travail, il assigne les
tâches Map et Reduce à TaskTarcker.
Gestion centralisée du flux de travaux (job workflow): problème d'évolutivité
(scalability).
Dans MR v1, le nombre de slots de map et de reduce est défini. Ainsi, un nœud ne
peut exécuter plus de tâches de map que de slots de map à un moment donné.
Les ressources de cluster pour le calcul ne sont pas utilisées avec une efficacité
optimale: problème d'utilisation des ressources.
Il est nécessaire de prendre en charge les paradigmes de programmation autres
que MapReduce: aucune prise en charge de charges de travail différentes de
MapReduce (tels que le traitement graphique)
[Link]@[Link] 86
YARN… MRv2
MRv2 sépare la gestion des ressources de celle
des tâches MR
Pas de slots (les ressources pour les nœuds
sont allouées aux applications à la demande )
La majorité des fonctionnalités du JobTracker
sont accordées à Application Masters
Un cluster peut avoir plusieurs Application
Masters
Supporter les applications MR et non-MR

[Link]@[Link] 87
YARN… MRv2
Apache YARN (Yet Another Resource Negotiator), est une solution de
gestion du resource du cluster dans Hadoop 2
Améliore l’implémentation MR et supporte autres modèles informatiques
distributés
Deux fonctions de MR JobTracker sont divisées en deux modèles :
◦ Resource Management
◦ Job scheduling/monitoring

[Link]@[Link] 88
YARN… MRv2

[Link]@[Link] 89
[Link]@[Link] Source: [Link] 90
YARN… MRv2

[Link]@[Link] 91
YARN… MRv2

[Link]@[Link] 92
YARN… MRv2

[Link]@[Link] 93
YARN… MRv2

[Link]@[Link] 94
YARN… MRv2

[Link]@[Link] 95
UNIVERSITE DE LA MANOUBA
Ecole Supérieure de l'Economie Numérique

CLOUD COMPUTING
[Link]@[Link] 97
Avant le cloud computing?
 Avant le cloud computing, lorsque vous créez un site Web basique pour des clients:
• développement de l’application avec un langage de programmation (Java, [Link] ou PHP)
• déploiement sur une machine physique (serveur).
• Exécution de l’application sur ce serveur (runtime, système d'exploitation, les configurations et
middleware nécessaires)
• Liaison à une base de données
• configurations réseau : @IP et nom de domaine, serveurs
• Electricité pour les serveurs
• La sécurité
• Gestion des mises à niveau pour les ressources.

 Une grande équipe d'experts pour installer, configurer, tester, exécuter, sécuriser et mettre à
jour ces ressources

[Link]@[Link] 98
Avant le cloud computing?
Défis rencontrés avant le cloud computing

 Coût :
 besoins de transformer notre propre infrastructure (les serveurs, l'équipement réseau, le stockage de
données, etc).
 Besoin d'embaucher une équipe d'experts pour gérer toutes ces ressources (les petites et moyennes
entreprises?).

 Évolutivité (Scalability:):
 forte demande pour l’application  augmenter la capacité de l’application plus de ressources et des
temps d'arrêt pour intégrer et mettre à niveau ces ressources.
 la demande diminuait  présence de ressources qui n'ont pas été utilisés efficacement.

[Link]@[Link] 99
Avant le cloud computing?
Défis rencontrés avant le cloud computing

Fiabilité :
 temps d'arrêt pour effectuer des opérations de maintenance et mises à jour.
 Pannes, problèmes matériels
 problèmes de réseau généraux
 catastrophes naturelles.

 Sécurité : est nécessaire à tous les niveaux : application, réseau, infrastructure et ressources.
 Mobilité : travail sur site pour mettre en place l'infrastructure et configurer le réseau.

[Link]@[Link] 100
[Link]@[Link] 101
Cloud computing ?
Le cloud computing ou informatique dans les nuages peut être vu comme la
dématérialisation totale ou partielle des systèmes informatiques.
Le terme cloud est utilisé comme métaphore d'Internet et d'un ensemble virtualisé de
ressources matérielles.
une abstraction pour l'infrastructure complexe qu'elle masque.
La définition généralement acceptée de l'informatique en nuage vient du National Institut
des normes et de la technologie (NIST) :
“Cloud Computing is a model for enabling convenient, on-demand network access to a
shared pool of configurable computing resources that can be rapidly provisioned and
released with minimal management effort or service provider interaction.”

[Link]@[Link] 102
Cloud computing ?
Le cloud rend les ressources matérielles facilement disponibles et rapides à configurer
 ce qui réduit le temps nécessaire aux développeurs pour afficher une version
fonctionnelle de leurs produits.
Le cloud permet la réutilisation des mêmes ressources pour plusieurs projets
successifs, ce qui est plus rentable (cost-efficient).
Exemples de ressources informatiques :
 Réseaux
 Serveurs
 Stockage
 Applications
 Services
[Link]@[Link] 103
Cloud computing ?
 Toutes les ressources seront virtualisées (sauf louer un emplacement dans un data
center pour y placer ses propres machines)
 Les services fonctionneront en général sur une ferme de serveurs dont les capacités
allouées peuvent changer avec le temps (en termes de puissance, d'espace de
stockage, de bande passante).
Ces serveurs peuvent être répartis ou répliqués dans plusieurs centres de données
(data center).

 louer des services externalisés et/ou du matériel et ainsi de ne pas avoir à les gérer.
 Avec le cloud, on ne fournit pas du matériel (bien que ce soit possible), mais plutôt de
la ressource d'accès à celui-ci.

[Link]@[Link] 104
Cloud computing ?
 Pourquoi ai-je besoin du cloud ?
Pour un accès permanent aux services depuis n'importe où,
Pour une sauvegarde sur Internet permanente.
Comment accéder à un serveur de fichiers dans une entreprise?
pas forcément une solution cloud, VPN permettant d'entrer sur le réseau interne de
l'entreprise pouvant suffire.
Une solution cloud sera justifiée dans le cas de dématérialiser des serveurs internes.

[Link]@[Link] 105
Caractéristiques du cloud
Ressources à la demande : obtenez-le quand vous en avez besoin  pas besoin de
préparation, de téléchargements et d'installations fastidieuses.
 Libre-service (Self-service) : un client peut provisionner lui-même des ressources en
accédant à un portail en libre-service et en demandant la ressource qu'il souhaite.
 Accès omniprésent (Ubiquitous access): accédez au cloud de n'importe où  une
connexion Internet et un compte cloud (nom d'utilisateur et mot de passe).
 Mise en commun des ressources (Resource pooling): mise en commun des ressources
matérielles  réutilisation des ressources inactives.
 Élasticité rapide (Rapid elasticity) : l'augmentation ou la diminution de la consommation
des ressources.
 Service mesuré : ne payez que pour ce que vous utilisez  pas de gaspillage de ressources.

[Link]@[Link] 106
Facteurs contribuant à la croissance du
cloud
Applications avec un délai de livraison court

 Les développeurs s'attendent à avoir des options de langage de

programmation et à interagir avec des services prédéfinis

 Les applications modernes doivent pouvoir évoluer et être gérées de manière

dynamique

 Les développeurs s'attendent à la méthode de facturation des services publics

par répartition (pay-as-you-go utility computing billing method)

[Link]@[Link] 107
Cloud service models

 Infrastructure as a service (IaaS)

 Platform as a service (PaaS)
 Software as a service (SaaS)

[Link]@[Link] 108
Cloud service models
L'analogie de la pizza

[Link]@[Link] 109
Cloud service models
 une pizza :
 Préparation de la pâte
 achat de certaines garnitures
 Utilisation du four
 servir et manger la pizza avec des boissons à la maison.
 Infrastructure as a Service (IaaS), c'est comme acheter une pizza pré-faite au supermarché.
Vous la faites cuire dans votre four, la servez avec des boissons et mangez la pizza à la maison.
 Platform as a Service (PaaS), c'est comme commander une pizza dans un restaurant de
livraison de pizzas. La pizza est préparée par le restaurant et livrée à votre porte d'entrée. Vous
fournissez les boissons et les mangez à la maison.
 Software as a Service (SaaS), c'est comme aller dans un restaurant et y manger une pizza tout
en profitant de la compagnie des autres et en partageant l'atmosphère du restaurant.

[Link]@[Link] 110
Cloud service models
Pour créer une application, vous devez fournir l'infrastructure, les plates-formes, les systèmes
d'exploitation, les composants réseau, etc.
IaaS  vous commandez du matériel et une infrastructure. Souvent, cette infrastructure est
gérée pour vous. Vous déployez uniquement le middleware, le runtime et votre application.
L'infrastructure est comme la pizza qui est pré-faite, et vous la faites cuire à votre guise.
PaaS  le fournisseur de cloud offre un accès à la plate-forme et au runtime et qu'il vous suffit
de pousser l'application.
SaaS  utilise une application hébergée chez le fournisseur de cloud, ce qui revient à aller au
restaurant et à y déguster sa pizza.

[Link]@[Link] 111
Cloud service models

[Link]@[Link] 112
Cloud service models
Architecture Infrastructure as a service (IaaS)
Un fournisseur d'infrastructure (IP-infrastructure provider) met une infrastructure informatique
physique ou virtuelle (via un hyperviseur) à disposition “as a service.”
Gère un pool de ressources informatiques partagées (parfois isolées).
Utilise la virtualisation pour affecter et redimensionner dynamiquement les ressources des
clients en fonction de leurs besoins.
Les clients utilisent des points de terminaison accessibles (internet-accessible endpoints) sur
Internet pour louer de la puissance de calcul, de la mémoire, du stockage de données et des
ressources réseau.

[Link]@[Link] 113
Cloud service models
Architecture Platform as a service (PaaS)
Le fournisseur de services (SP-Service provider) fournit les exécutables et les frameworks
d'exécution sur lesquels les nouvelles applications sont automatiquement déployées.
L'utilisateur du service est responsable de la création, de la mise à jour et de la maintenance de
l'application.
Le fournisseur PaaS peut fournir des services externes, une gestion des URL, une capacité
d'évolutivité et une surveillance des applications intégrée.

[Link]@[Link] 114
Cloud service models
Architecture Software as a service (SaaS)
Le fournisseur de services (SP) est responsable de la création, de la mise à jour et de la
maintenance du logiciel d'exécution et des applications.
L'utilisateur du service accède au service via des interfaces Internet.
SaaS est une offre de cloud computing qui permet aux utilisateurs d'accéder au logiciel cloud
d'un fournisseur. Les utilisateurs n'installent pas d'applications sur leurs appareils locaux.
Au lieu de cela, les applications se trouvent sur un réseau cloud distant accessible via le Web ou
une API. Grâce à l'application, les utilisateurs peuvent stocker et analyser des données et
collaborer sur des projets.

[Link]@[Link] 115
Cloud service models
Responsabilités du fournisseur et du client

[Link]@[Link] 116
Cloud service models
Exemple de services cloud

[Link]@[Link] 117
Modèle de déploiement cloud-Cloud
deployment model
• Les différents types de modèles de déploiement de cloud computing incluent le cloud public,
privé et hybrid.,

[Link]@[Link] 118
Bibliographie
IBM Big Insight Foundation v4.0. Course code DW316. 2015

Hadoop, The Definitive Guide. Second Release, O’REILLY, 2015.

Big Data et Machine Learning. Second Edition, DUNOD, 2016.

Official Documentation of Hadoop; [Link]

Cours lilia Sfaxi, INSAT, 2016.

TUTORIAL IN THE WEB: [Link]

Introduction to Big Data and Data Analytics, IBM Corporation 2018 (Cours de certification)

2018 - 2019 [Link]@[Link] 119

Vous aimerez peut-être aussi

Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
16 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
62 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
56 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
84 pages
Cours Big Data2024
Pas encore d'évaluation
Cours Big Data2024
99 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
43 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Fondements de l'environnement Hadoop
Pas encore d'évaluation
Fondements de l'environnement Hadoop
32 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
31 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Spark : Analyse Big Data et RDD
Pas encore d'évaluation
Spark : Analyse Big Data et RDD
42 pages
QCM Sur Apache Spark11
Pas encore d'évaluation
QCM Sur Apache Spark11
4 pages
Introduction à Hadoop et HDFS
Pas encore d'évaluation
Introduction à Hadoop et HDFS
5 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
Cours sur l'Architecture SOA et XML
Pas encore d'évaluation
Cours sur l'Architecture SOA et XML
64 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
Modélisation CSP : Monnaie et N Reines
Pas encore d'évaluation
Modélisation CSP : Monnaie et N Reines
3 pages
Cluster Hadoop - Docker Portainee
Pas encore d'évaluation
Cluster Hadoop - Docker Portainee
33 pages
Tpe Yarn-1
Pas encore d'évaluation
Tpe Yarn-1
11 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
17 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Exercices MapReduce
Pas encore d'évaluation
Exercices MapReduce
3 pages
Hive Installation
100% (1)
Hive Installation
37 pages
HadoopMapReduce CD 2 1
Pas encore d'évaluation
HadoopMapReduce CD 2 1
72 pages
Installation et configuration de Hadoop
Pas encore d'évaluation
Installation et configuration de Hadoop
11 pages
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
Pas encore d'évaluation
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
10 pages
Ventes Totales par Produit et Région
100% (1)
Ventes Totales par Produit et Région
5 pages
Introduction à Spark et Scala avec Docker
Pas encore d'évaluation
Introduction à Spark et Scala avec Docker
6 pages
Cours Big Data : Gestion et Outils 2021
Pas encore d'évaluation
Cours Big Data : Gestion et Outils 2021
14 pages
Spark-Td 1
Pas encore d'évaluation
Spark-Td 1
3 pages
Presentation YARN
Pas encore d'évaluation
Presentation YARN
28 pages
Chapitre 2 - HDFS
Pas encore d'évaluation
Chapitre 2 - HDFS
23 pages
Spark : RDD et Transformations Optimisées
Pas encore d'évaluation
Spark : RDD et Transformations Optimisées
11 pages
Atelier 1 - RDD
0% (1)
Atelier 1 - RDD
1 page
Cours RNN LSTM Gru
Pas encore d'évaluation
Cours RNN LSTM Gru
39 pages
(Big Data) CHAP3 - MapReduce
Pas encore d'évaluation
(Big Data) CHAP3 - MapReduce
29 pages
Classification par arbres de décision
Pas encore d'évaluation
Classification par arbres de décision
30 pages
Règles d'association et algorithmes d'extraction
Pas encore d'évaluation
Règles d'association et algorithmes d'extraction
56 pages
Introduction aux Réseaux de Neurones Récurrents
Pas encore d'évaluation
Introduction aux Réseaux de Neurones Récurrents
66 pages
Chapitre N°4 Apache Spark
Pas encore d'évaluation
Chapitre N°4 Apache Spark
43 pages
Frameworks Big Data Isima Cour
Pas encore d'évaluation
Frameworks Big Data Isima Cour
99 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
5 pages
Modélisation SAT et DPLL en M1 Info
Pas encore d'évaluation
Modélisation SAT et DPLL en M1 Info
2 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
Spark et Hadoop : Architectures Big Data
Pas encore d'évaluation
Spark et Hadoop : Architectures Big Data
43 pages
TP PIG Hadoop
Pas encore d'évaluation
TP PIG Hadoop
3 pages
Chapitre 5-Système Hive Apache - Dec 2023
Pas encore d'évaluation
Chapitre 5-Système Hive Apache - Dec 2023
75 pages
TP 01 - RDD
Pas encore d'évaluation
TP 01 - RDD
2 pages
Cours Pig
Pas encore d'évaluation
Cours Pig
93 pages
Gestion Projet Big Data
Pas encore d'évaluation
Gestion Projet Big Data
28 pages
Spark et Critique de MapReduce
Pas encore d'évaluation
Spark et Critique de MapReduce
14 pages
Chapitre1 Mapreduce
Pas encore d'évaluation
Chapitre1 Mapreduce
20 pages
Cours DL - Part5 (Prof)
Pas encore d'évaluation
Cours DL - Part5 (Prof)
78 pages
TP - Hive (Chap 4 - Partie 3) - V 2024
Pas encore d'évaluation
TP - Hive (Chap 4 - Partie 3) - V 2024
4 pages
Big Data Chap 2 - Principes Hadoop
Pas encore d'évaluation
Big Data Chap 2 - Principes Hadoop
51 pages
Examen Algorithmique et Structures 1
Pas encore d'évaluation
Examen Algorithmique et Structures 1
2 pages
QCM et exercices sur Hadoop et MapReduce
Pas encore d'évaluation
QCM et exercices sur Hadoop et MapReduce
3 pages
Architectures Big Data et Traitements
Pas encore d'évaluation
Architectures Big Data et Traitements
24 pages
Architecture HDFS et MapReduce
Pas encore d'évaluation
Architecture HDFS et MapReduce
33 pages
Graphiques et visualisations Power BI
Pas encore d'évaluation
Graphiques et visualisations Power BI
3 pages
Cours Tableau de Bord
100% (1)
Cours Tableau de Bord
55 pages
TD3 - Les Fonctions Et Les Modules en Python - CorrigÇ
Pas encore d'évaluation
TD3 - Les Fonctions Et Les Modules en Python - CorrigÇ
10 pages
Collections de données en Python
Pas encore d'évaluation
Collections de données en Python
61 pages
TD2 - Les Collections de Donnçes en Python - CorrigÇ
Pas encore d'évaluation
TD2 - Les Collections de Donnçes en Python - CorrigÇ
8 pages
TD4 - Les Fichiers en Python - CorrigÇ
Pas encore d'évaluation
TD4 - Les Fichiers en Python - CorrigÇ
4 pages
Definition Couplage For Et Couplage Leger
Pas encore d'évaluation
Definition Couplage For Et Couplage Leger
2 pages
Enseignant de guitare classique en Suisse
Pas encore d'évaluation
Enseignant de guitare classique en Suisse
1 page
Présentation de PwC Tunisie et services
Pas encore d'évaluation
Présentation de PwC Tunisie et services
83 pages
Processus Autorégressifs AR(p)
100% (2)
Processus Autorégressifs AR(p)
20 pages
Les Processus de Moyenne Mobile (MA) 12-12-2021
Pas encore d'évaluation
Les Processus de Moyenne Mobile (MA) 12-12-2021
14 pages
Introduction à Apache Pig et Big Data
Pas encore d'évaluation
Introduction à Apache Pig et Big Data
25 pages
Analyse de la stationnarité des processus
Pas encore d'évaluation
Analyse de la stationnarité des processus
3 pages