100% ont trouvé ce document utile (1 vote)
251 vues69 pages

Hadoop : Traitement et Stockage de Données Massives

Hadoop est une plateforme open source pour le traitement de grandes quantités de données distribuées sur des clusters de machines. Elle utilise HDFS pour le stockage des données et MapReduce pour le traitement parallèle des données.

Transféré par

nafissa bridah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
251 vues69 pages

Hadoop : Traitement et Stockage de Données Massives

Hadoop est une plateforme open source pour le traitement de grandes quantités de données distribuées sur des clusters de machines. Elle utilise HDFS pour le stockage des données et MapReduce pour le traitement parallèle des données.

Transféré par

nafissa bridah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Hadoop

 Le traitement d’aussi grandes quantités de données impose des méthodes


particulières :
Répartir les données sur plusieurs machines (de 5 à plusieurs millions d’ordinateurs):
 système de fichiers spécial permettant de ne voir qu’un seul espace pouvant contenir des
fichiers gigantesques et/ou très nombreux,
 bases de données spécifiques.
 algorithmes faciles à écrire,
 exécutions faciles à paralléliser.

[Link]@[Link] 51
Hadoop
High-Availability Distributed Object-Oriented Platform
un cadriciel (framework) de référence libre et opensource
 Hadoop a été créé par Doug Cutting et fait partie des projets de la fondation
logicielle Apache depuis 2009.
Plateforme distribuée pour le stockage et traitement de données massives
Composition:
HDFS : un système de fichier distribué qui répartit les données sur de
nombreuses machines,
YARN : un mécanisme d’ordonnancement de programmes de type MapReduce
(architecture pour un calcul parallèle de larges ensembles de données)

[Link]@[Link] 52
Hadoop
 Principe:
Division de données

 Stockage des données sur un ensemble de machines (cluster)

Traitement des données localement (pas d’utilisation du serveur distribué pour


copier les données)

 Avec la croissance des données, on a l’ajout des machines au cluster

[Link]@[Link] 53
Distributions de Hadoop

[Link]@[Link] 54
Data Center
Un centre de données est un lieu (et un service) regroupant des équipements
constituants du système d’information d'une ou plusieurs entreprise(s)
(ordinateurs centraux, serveurs, équipements réseaux et de
télécommunications, etc).
Milliers d’ordinateurs connectés entre eux = un cluster

[Link]@[Link] 55
Serveur lame
Un serveur lame (aussi appelé serveur blade ou carte serveur ; en
anglais, blade server) est un serveur conçu pour un très faible encombrement.
Alors qu'un serveur en rack n'est qu'un serveur traditionnel de taille un peu
réduite, le serveur lame est beaucoup plus compact, car plusieurs composants
sont enlevés.
Exemple: 4 CPU multi-coeurs, 128 Go de RAM, 24 To de disques rapides, 5000€

[Link]@[Link] 56
Ecosystème de Hadoop

[Link]@[Link] 57
Ecosystème de Hadoop
Autres outils pour :
 Extraction et stockage des données (HDFS)
 Simplification de traitement des données
 Gestion et coordination des opérations
 Surveillance du cluster (Monitoring)

[Link]@[Link] 58
Ecosystème de Hadoop
Oozie: l’ordonnancement des tâches de
Map Reduce (jobs) par la définition des
workflows
Pig: langage de programmation de
requêtes sur des fichiers HDFS (plus simple
que Java) pour écrire des jobs MapReduce.
Mahout: bibliothèque de Machine learning
et mathématiques
R Connectors: exécution des requêtes Map
Reduce avec langage R
Hive: base de données de Hadoop qui
possède un langage d’interrogation,
HiveQL, inspiré de SQL
[Link]@[Link] 59
Ecosystème de Hadoop
Hbase: base de données NoSQL orientée
colonnes
Impala: requetâge de données à partir du
HDFS (ou Hbase, Hive) par des requêtes
Hive QL
 Outils pour la connexion HDFS et sources
externes:
Sqoop: manipulation des bases de
données externes
Flume: collecte de logs et stockage dans
HDFS

[Link]@[Link] 60
Ecosystème de Hadoop
Outils pour la gestion et
l’administration de Hadoop:
Ambari: outil pour l’administration, la
gestion et monitoring du cluster
Zookeeper: outil pour maintenir les
informations de configuration, de
nommage et de synchronisation
distribuée

[Link]@[Link] 61
HDFS (Hadoop Distributed File System)
HDFS = un seul arbre pour les réunir tous
 HDFS permet de voir tous les dossiers et fichiers des milliers de machines du
cluster comme un seul arbre, contenant des Po de données.
 Ecrit en java
 Stockage d’une grande quantité de données sur un grand nombre de machines
(nodes)
Cluster= node+ node +…+ node
Node = CPU + plusieurs disques
Un fichier [Link] sous HDFS est composé de blocs
Chaque bloc possède un nom unique; blk_1, blk_2, etc.

[Link]@[Link] 62
HDFS (Hadoop Distributed File System)
Un fichier sous HDFS est composé de blocs
Chaque bloc possède un nom unique; blk_1, blk_2, etc (par défaut 64Mo pour
Apache Hadoop et 128 Mo pour cloudera Hadoop ).

[Link]@[Link] 63
HDFS (Hadoop Distributed File System)
Architecture

[Link]@[Link] 64
HDFS (Hadoop Distributed File System)
Architecture
Concept de Rack Awareness (rack=baie de stockage)

[Link]@[Link] 65
HDFS (Hadoop Distributed File System)
Architecture
Les datanodes contiennent des blocs (notés A,B,C. . . ). Les mêmes blocs sont dupliqués
(replication) sur différents datanodes, en général 3 fois.
 fiabilité des données en cas de panne d’un datanode,
 accès parallèle par différents processus aux mêmes données.
Le namenode sait à la fois :
 sur quels blocs sont contenus les fichiers,
 sur quels datanodes se trouvent les blocs voulus.
 On parle de metadata.
Inconvénient majeur : panne du namenode = mort de HDFS,
Solution: un secondary namenode archive les metadata.

[Link]@[Link] 66
HDFS (Hadoop Distributed File System)
Comment fonctionne HDFS ?
Un cluster HDFS est constitué de machines jouant différents rôles exclusifs entre eux :
• L’une des machines est le maître HDFS, appelé le namenode. Cette machine contient
tous les noms et emplacement des fichiers, comme un gros annuaire téléphonique.
• Une autre machine est le secondary namenode, une sorte de namenode de secours,
qui enregistre des sauvegardes de l’annuaire à intervalles réguliers.
• Certaines machines sont des clients. Ce sont des points d’accès au cluster pour s’y
connecter et travailler.
• Toutes les autres machines sont des datanodes. Elles stockent le contenu des fichiers
sous forme de blocs. Selon la taille d’un fichier, il lui faudra un certain nombre de blocs.

[Link]@[Link] 67
[Link]@[Link] 68
HDFS (Hadoop Distributed File System)
Mode high availability
Comme le namenode est absolument vital pour HDFS mais unique, Hadoop version 2
propose une configuration appelée high availability dans laquelle il y a 2 autres
namenodes en secours, capables de prendre le relais instantanément en cas de panne
du namenode initial.

Les namenodes de secours se comportent comme des clones. Ils sont en état d’attente
et mis à jour en permanence à l’aide de services appelés JournalNodes.

Les namenodes de secours font également le même travail que le secondary


namenode, d’archiver régulièrement l’état des fichiers, donc ils rendent ce dernier inutile.

[Link]@[Link] 69
Map Reduce
MapReduce est un patron ou modèle d’architecture de
développement informatique, dans lequel sont effectués des calculs
parallèles et souvent distribués sur des données volumineuses.
MapReduce est un environnement Java pour écrire des programmes.
Il est possible d’utiliser d’autres langages comme Python et Ruby
(Hadoop Streaming).
Principe: selon le modèle MapReduce, Hadoop transfère le code à
chaque nœud et chaque nœud traite les données dont il dispose.
Cela permet de traiter un volume important de données plus
rapidement et plus efficacement.

[Link]@[Link] 70
Map Reduce
Objectif: permet de manipuler de grandes quantités de données en les
distribuant dans un cluster de machines pour être traitées.
Exemples d’application: Amazon, Facebook et Cloud Computing.
Il repose sur deux fonctions : « Map » et « Reduce ».
Map: fonction exécutée par un nœud spécifique, analyse un problème, le
découpe en sous-problèmes,
Reduce: fonction qui délègue la résolution de ces sous-problèmes à
d’autres nœuds de traitements pour être traités en parallèle.
 Ces nœuds font ensuite remonter leurs résultats au nœud qui les
avait sollicités.

[Link]@[Link] 71
Map Reduce
Exemple:
Soient les 4 n-uplets fictifs suivants :

Calculer le prix maximal, moyen ou total peut s’écrire à l’aide d’algorithmes de


type :
pour chaque n-uplet, faire :
valeur = FonctionM(n-uplet courant)
retourner FonctionR(valeurs rencontrées)

[Link]@[Link] 72
Map Reduce
Exemple:
• FonctionM est une fonction de correspondance : elle calcule une valeur qui nous intéresse à
partir d’un n-uplet,
• FonctionR est une fonction de regroupement (agrégation) : maximum, somme, nombre,
moyenne, . . .
 Par exemple, FonctionM extrait le prix d’une voiture, FonctionR calcule le max d’un
ensemble de valeurs :
pour chaque voiture, faire :
prix = getPrix(voiture courante)
retourner max(prix rencontrés)

[Link]@[Link] 73
Map Reduce
Exemple en Python :

[Link]@[Link] 74
Map Reduce
 map(fonction, liste) : applique la fonction à chaque élément de la liste. Elle effectue la boucle
«pour» de l’algorithme précédent et retourne la liste des prix des voitures.

 max(liste) : retourne le plus grand élément de la liste fournie. C’est une fonction de type
«reduce».

Ces deux fonctions constituent un couple « map-reduce ».

 La possibilité de paralléliser ces fonctions afin de calculer beaucoup plus vite sur une
machine ayant plusieurs cœurs ou sur un ensemble de machines reliées entre elles.

[Link]@[Link] 75
Map Reduce

[Link]@[Link] 76
Map Reduce
Parallélisation de Map
La fonction map est par nature parallélisable, car les calculs sont indépendants.
Exemple, pour 4 éléments à traiter :
• valeur1 = FonctionM(element1)
• valeur2 = FonctionM(element2)
• valeur3 = FonctionM(element3)
• valeur4 = FonctionM(element4)
Les quatre calculs peuvent se faire simultanément, par exemple sur 4 machines différentes.
Remarque : il faut que la fonction mappée soit une pure fonction de son paramètre, qu’elle n’ait pas
d’effet de bord tels que modifier une variable globale ou mémoriser ses valeurs précédentes.

[Link]@[Link] 77
Map Reduce
Parallélisation de Reduce
La fonction reduce se parallélise partiellement, sous une forme hiérarchique, par exemple :
• inter1 et 2 = FonctionR(valeur1, valeur2)
• inter3 et 4 = FonctionR(valeur3, valeur4)
• resultat = FonctionR(inter1 et 2, inter3 et 4)
Seuls les deux premiers calculs peuvent être faits simultanément. Le 3e doit attendre. S’il y avait
davantage de valeurs, on procéderait ainsi :
1. calcul parallèle de la FonctionR sur toutes les paires de valeurs issues du map
2. calcul parallèle de la FonctionR sur toutes les paires de valeurs intermédiaires issues de la phase
précédente.
3. et ainsi de suite, jusqu’à ce qu’il ne reste qu’une seule valeur.

[Link]@[Link] 78
Map Reduce V1 (MRv1)
Terminologie
Mapper - mappe les paires clé / valeur en entrée sur un ensemble de paires clé / valeur
intermédiaires.
Reducer - réduit un ensemble de valeurs intermédiaires partageant une clé à un ensemble de valeurs
plus petit.
Job - Une exécution du programme MapReduce sur un ensemble de données.
Task - Exécution d'un Mapper ou d'un Reducer sur une tranche de données.
JobTracker - Planifie les travaux et suit les travaux assignés au TaskTracker.
TaskTracker - Suit la tâche et signale l’état à JobTracker.
MasterNode - Nœud où JobTracker est exécuté et qui accepte les demandes de travail des clients.
SlaveNode - Nœud où le programme Map et Reduce est exécuté.

[Link]@[Link] 79
Map Reduce V1 (MRv1)
Composants
JobTracker: divise le travail sur les Mappers et Reducers, s’exécutant sur
les différents nœuds
TaskTracker:
 s’exécute sur chacun des nœuds pour appliquer les vraies tâches de
MapReduce.
Choisit en général de traiter (Map ou Reduce) un bloc sur la même machine que
lui
S’il est déjà occupé, la tâche revient à un autre tracker qui utilisera le réseau
(rare)

[Link]@[Link] 80
Map Reduce V1 (MRv1)
Fonctionnement:
 Un job Map Reduce (ou une application MR) est divisé sur plusieurs tâches appelées mappers
et reducers
 Chaque tâche est exécutée sur un nœud du cluster
 Chaque nœud a un certain nombre de slots prédéfinis: Map Slots et Reduce Slots
 Un slot est une unité d’exécution qui représente la capacité du taskTracker à exécuter une
tâche (map ou reduce) individuellement à un moment donné
 Le jobTracker se charge de:
Allouer les ressources (mémoire, CPU,…) aux différentes tâches
Coordonner l’exécution des jobs MapReduce
Réserver et ordonner les slots, et de gérer les fautes en réallouant les slots au besoin

[Link]@[Link] 81
Map Reduce V1 (MRv1)
Paires clé-valeurs :
Les données échangées entre Map et Reduce, et plus encore, dans la totalité du job sont des
paires (clé, valeur) :
• une clé : c’est n’importe quel type de données : entier, texte. . .
• une valeur : c’est n’importe quel type de données
Exemple :
• un fichier texte est un ensemble de (n° de ligne, ligne).
• un fichier météo est un ensemble de (date et heure, température)

[Link]@[Link] 82
[Link]@[Link] 83
Map Reduce V1 (MRv1)
Étapes d’un job MapReduce
Un job MapReduce comprend plusieurs phases :
1. Prétraitement des données d’entrée, ex: décompression des fichiers
2. Split: séparation des données en blocs traitables séparément et mise sous
forme de (clé, valeur), ex: en lignes ou en n-uplets
3. Map: application de la fonction map sur toutes les paires (clé, valeur) formées
à partir des données d’entrée, cela produit d’autres paires (clé, valeur) en sortie
4. Shuffle & Sort: redistribution des données afin que les paires produites par
Map ayant les mêmes clés soient sur les mêmes machines,
5. Reduce: agrégation des paires ayant la même clé pour obtenir le résultat final.

[Link]@[Link] 84
Map Reduce V1 (MRv1) 1
2

1- lancement d’un programme MR 4


2- JC envoie un message au JT. Le JT produit un identifiant
unique pour le travail (job)
3 5 6 8
3- JC copie les ressources du job (telles que les fichiers jar) vers
un espace de stockage partagé (shared FS).
4- Une fois les ressources du job sont copiées, le JC demande
au JT de démarrer le travail. Le JT initialise le job.
5- Le JT récupère les données d'entrée (input splits) à partir du 7
DFS après avoir communiqué le NameNode
6- Le JT soumet le travail (Map ou Reduce) aux nœuds
TaskTracker choisis.
7- Le TT obtient le code à exécuter à partir du fichier partagé
8- Le TT envoie des signaux (heart beats) pour informer le JT de
la progression des tâches qui lui sont assignées.

[Link]@[Link] 85
Map Reduce V1 (MRv1)
Limites
Le JobTracker coordonne tous les jobs du cluster. Pour chaque travail, il assigne les
tâches Map et Reduce à TaskTarcker.
Gestion centralisée du flux de travaux (job workflow): problème d'évolutivité
(scalability).
Dans MR v1, le nombre de slots de map et de reduce est défini. Ainsi, un nœud ne
peut exécuter plus de tâches de map que de slots de map à un moment donné.
Les ressources de cluster pour le calcul ne sont pas utilisées avec une efficacité
optimale: problème d'utilisation des ressources.
Il est nécessaire de prendre en charge les paradigmes de programmation autres
que MapReduce: aucune prise en charge de charges de travail différentes de
MapReduce (tels que le traitement graphique)
[Link]@[Link] 86
YARN… MRv2
MRv2 sépare la gestion des ressources de celle
des tâches MR
Pas de slots (les ressources pour les nœuds
sont allouées aux applications à la demande )
La majorité des fonctionnalités du JobTracker
sont accordées à Application Masters
Un cluster peut avoir plusieurs Application
Masters
Supporter les applications MR et non-MR

[Link]@[Link] 87
YARN… MRv2
Apache YARN (Yet Another Resource Negotiator), est une solution de
gestion du resource du cluster dans Hadoop 2
Améliore l’implémentation MR et supporte autres modèles informatiques
distributés
Deux fonctions de MR JobTracker sont divisées en deux modèles :
◦ Resource Management
◦ Job scheduling/monitoring

[Link]@[Link] 88
YARN… MRv2

[Link]@[Link] 89
[Link]@[Link] Source: [Link] 90
YARN… MRv2

[Link]@[Link] 91
YARN… MRv2

[Link]@[Link] 92
YARN… MRv2

[Link]@[Link] 93
YARN… MRv2

[Link]@[Link] 94
YARN… MRv2

[Link]@[Link] 95
UNIVERSITE DE LA MANOUBA
Ecole Supérieure de l'Economie Numérique

CLOUD COMPUTING
[Link]@[Link] 97
Avant le cloud computing?
 Avant le cloud computing, lorsque vous créez un site Web basique pour des clients:
• développement de l’application avec un langage de programmation (Java, [Link] ou PHP)
• déploiement sur une machine physique (serveur).
• Exécution de l’application sur ce serveur (runtime, système d'exploitation, les configurations et
middleware nécessaires)
• Liaison à une base de données
• configurations réseau : @IP et nom de domaine, serveurs
• Electricité pour les serveurs
• La sécurité
• Gestion des mises à niveau pour les ressources.

 Une grande équipe d'experts pour installer, configurer, tester, exécuter, sécuriser et mettre à
jour ces ressources

[Link]@[Link] 98
Avant le cloud computing?
Défis rencontrés avant le cloud computing

 Coût :
 besoins de transformer notre propre infrastructure (les serveurs, l'équipement réseau, le stockage de
données, etc).
 Besoin d'embaucher une équipe d'experts pour gérer toutes ces ressources (les petites et moyennes
entreprises?).

 Évolutivité (Scalability:):
 forte demande pour l’application  augmenter la capacité de l’application plus de ressources et des
temps d'arrêt pour intégrer et mettre à niveau ces ressources.
 la demande diminuait  présence de ressources qui n'ont pas été utilisés efficacement.

[Link]@[Link] 99
Avant le cloud computing?
Défis rencontrés avant le cloud computing

Fiabilité :
 temps d'arrêt pour effectuer des opérations de maintenance et mises à jour.
 Pannes, problèmes matériels
 problèmes de réseau généraux
 catastrophes naturelles.

 Sécurité : est nécessaire à tous les niveaux : application, réseau, infrastructure et ressources.
 Mobilité : travail sur site pour mettre en place l'infrastructure et configurer le réseau.

[Link]@[Link] 100
[Link]@[Link] 101
Cloud computing ?
Le cloud computing ou informatique dans les nuages peut être vu comme la
dématérialisation totale ou partielle des systèmes informatiques.
Le terme cloud est utilisé comme métaphore d'Internet et d'un ensemble virtualisé de
ressources matérielles.
une abstraction pour l'infrastructure complexe qu'elle masque.
La définition généralement acceptée de l'informatique en nuage vient du National Institut
des normes et de la technologie (NIST) :
“Cloud Computing is a model for enabling convenient, on-demand network access to a
shared pool of configurable computing resources that can be rapidly provisioned and
released with minimal management effort or service provider interaction.”

[Link]@[Link] 102
Cloud computing ?
Le cloud rend les ressources matérielles facilement disponibles et rapides à configurer
 ce qui réduit le temps nécessaire aux développeurs pour afficher une version
fonctionnelle de leurs produits.
Le cloud permet la réutilisation des mêmes ressources pour plusieurs projets
successifs, ce qui est plus rentable (cost-efficient).
Exemples de ressources informatiques :
 Réseaux
 Serveurs
 Stockage
 Applications
 Services
[Link]@[Link] 103
Cloud computing ?
 Toutes les ressources seront virtualisées (sauf louer un emplacement dans un data
center pour y placer ses propres machines)
 Les services fonctionneront en général sur une ferme de serveurs dont les capacités
allouées peuvent changer avec le temps (en termes de puissance, d'espace de
stockage, de bande passante).
Ces serveurs peuvent être répartis ou répliqués dans plusieurs centres de données
(data center).

 louer des services externalisés et/ou du matériel et ainsi de ne pas avoir à les gérer.
 Avec le cloud, on ne fournit pas du matériel (bien que ce soit possible), mais plutôt de
la ressource d'accès à celui-ci.

[Link]@[Link] 104
Cloud computing ?
 Pourquoi ai-je besoin du cloud ?
Pour un accès permanent aux services depuis n'importe où,
Pour une sauvegarde sur Internet permanente.
Comment accéder à un serveur de fichiers dans une entreprise?
pas forcément une solution cloud, VPN permettant d'entrer sur le réseau interne de
l'entreprise pouvant suffire.
Une solution cloud sera justifiée dans le cas de dématérialiser des serveurs internes.

[Link]@[Link] 105
Caractéristiques du cloud
Ressources à la demande : obtenez-le quand vous en avez besoin  pas besoin de
préparation, de téléchargements et d'installations fastidieuses.
 Libre-service (Self-service) : un client peut provisionner lui-même des ressources en
accédant à un portail en libre-service et en demandant la ressource qu'il souhaite.
 Accès omniprésent (Ubiquitous access): accédez au cloud de n'importe où  une
connexion Internet et un compte cloud (nom d'utilisateur et mot de passe).
 Mise en commun des ressources (Resource pooling): mise en commun des ressources
matérielles  réutilisation des ressources inactives.
 Élasticité rapide (Rapid elasticity) : l'augmentation ou la diminution de la consommation
des ressources.
 Service mesuré : ne payez que pour ce que vous utilisez  pas de gaspillage de ressources.

[Link]@[Link] 106
Facteurs contribuant à la croissance du
cloud
Applications avec un délai de livraison court

 Les développeurs s'attendent à avoir des options de langage de


programmation et à interagir avec des services prédéfinis

 Les applications modernes doivent pouvoir évoluer et être gérées de manière


dynamique

 Les développeurs s'attendent à la méthode de facturation des services publics


par répartition (pay-as-you-go utility computing billing method)

[Link]@[Link] 107
Cloud service models

 Infrastructure as a service (IaaS)


 Platform as a service (PaaS)
 Software as a service (SaaS)

[Link]@[Link] 108
Cloud service models
L'analogie de la pizza

[Link]@[Link] 109
Cloud service models
 une pizza :
 Préparation de la pâte
 achat de certaines garnitures
 Utilisation du four
 servir et manger la pizza avec des boissons à la maison.
 Infrastructure as a Service (IaaS), c'est comme acheter une pizza pré-faite au supermarché.
Vous la faites cuire dans votre four, la servez avec des boissons et mangez la pizza à la maison.
 Platform as a Service (PaaS), c'est comme commander une pizza dans un restaurant de
livraison de pizzas. La pizza est préparée par le restaurant et livrée à votre porte d'entrée. Vous
fournissez les boissons et les mangez à la maison.
 Software as a Service (SaaS), c'est comme aller dans un restaurant et y manger une pizza tout
en profitant de la compagnie des autres et en partageant l'atmosphère du restaurant.

[Link]@[Link] 110
Cloud service models
Pour créer une application, vous devez fournir l'infrastructure, les plates-formes, les systèmes
d'exploitation, les composants réseau, etc.
IaaS  vous commandez du matériel et une infrastructure. Souvent, cette infrastructure est
gérée pour vous. Vous déployez uniquement le middleware, le runtime et votre application.
L'infrastructure est comme la pizza qui est pré-faite, et vous la faites cuire à votre guise.
PaaS  le fournisseur de cloud offre un accès à la plate-forme et au runtime et qu'il vous suffit
de pousser l'application.
SaaS  utilise une application hébergée chez le fournisseur de cloud, ce qui revient à aller au
restaurant et à y déguster sa pizza.

[Link]@[Link] 111
Cloud service models

[Link]@[Link] 112
Cloud service models
Architecture Infrastructure as a service (IaaS)
Un fournisseur d'infrastructure (IP-infrastructure provider) met une infrastructure informatique
physique ou virtuelle (via un hyperviseur) à disposition “as a service.”
Gère un pool de ressources informatiques partagées (parfois isolées).
Utilise la virtualisation pour affecter et redimensionner dynamiquement les ressources des
clients en fonction de leurs besoins.
Les clients utilisent des points de terminaison accessibles (internet-accessible endpoints) sur
Internet pour louer de la puissance de calcul, de la mémoire, du stockage de données et des
ressources réseau.

[Link]@[Link] 113
Cloud service models
Architecture Platform as a service (PaaS)
Le fournisseur de services (SP-Service provider) fournit les exécutables et les frameworks
d'exécution sur lesquels les nouvelles applications sont automatiquement déployées.
L'utilisateur du service est responsable de la création, de la mise à jour et de la maintenance de
l'application.
Le fournisseur PaaS peut fournir des services externes, une gestion des URL, une capacité
d'évolutivité et une surveillance des applications intégrée.

[Link]@[Link] 114
Cloud service models
Architecture Software as a service (SaaS)
Le fournisseur de services (SP) est responsable de la création, de la mise à jour et de la
maintenance du logiciel d'exécution et des applications.
L'utilisateur du service accède au service via des interfaces Internet.
SaaS est une offre de cloud computing qui permet aux utilisateurs d'accéder au logiciel cloud
d'un fournisseur. Les utilisateurs n'installent pas d'applications sur leurs appareils locaux.
Au lieu de cela, les applications se trouvent sur un réseau cloud distant accessible via le Web ou
une API. Grâce à l'application, les utilisateurs peuvent stocker et analyser des données et
collaborer sur des projets.

[Link]@[Link] 115
Cloud service models
Responsabilités du fournisseur et du client

[Link]@[Link] 116
Cloud service models
Exemple de services cloud

[Link]@[Link] 117
Modèle de déploiement cloud-Cloud
deployment model
• Les différents types de modèles de déploiement de cloud computing incluent le cloud public,
privé et hybrid.,

[Link]@[Link] 118
Bibliographie
IBM Big Insight Foundation v4.0. Course code DW316. 2015

Hadoop, The Definitive Guide. Second Release, O’REILLY, 2015.

Big Data et Machine Learning. Second Edition, DUNOD, 2016.

Official Documentation of Hadoop; [Link]

Cours lilia Sfaxi, INSAT, 2016.

TUTORIAL IN THE WEB: [Link]

Introduction to Big Data and Data Analytics, IBM Corporation 2018 (Cours de certification)

2018 - 2019 [Link]@[Link] 119

Vous aimerez peut-être aussi