0% ont trouvé ce document utile (0 vote)
70 vues67 pages

Big Data et Cloud: Faits, Intérêts, Défis

Transféré par

malekbellaaj22
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
70 vues67 pages

Big Data et Cloud: Faits, Intérêts, Défis

Transféré par

malekbellaaj22
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

08/12/2024

Institut Supérieur d’Administration des Affaires de Sfax

Maha Ben Kraiem


&
Rim Rebai

Année Universitaire : 2024-2025

1 Introduction au Big Data et Cloud

2 Big Data

3 Cloud Computing

4 Traitement des données

2
08/12/2024

1. Big Data
1.1. Faits
1.2. Intérêts
1.3. Sources
1.4. Challenges

2. Cloud Computing
2.1. Faits
2.2. Intèrêts
2.3. Fourisseurs Cloud
2.4. Challenges

1. Big Data
1.1. Faits 1.2. Intérêts 1.3. Sources 1.4. Challenges

• Chaque jour, nous générons plus que 2,5 trillions d’octets de données
• 90% des données dans le monde ont été créées au cours des dizaine dernières années.
• 90% des données générées sont non structurées.

• Diversité des sources de données :


o Capteurs utilisés pour collecter les informations climatiques
o Messages sur les médias sociaux.
o Images numériques et vidéos publiées en ligne
o Enregistrements transactionnels d’achat en ligne
o Signaux GPS de téléphones mobiles
o Des données informationnelles stockées dans les bases de données des entreprises
o ………..

 Données appelées Big Data ou Données Massives. 4


08/12/2024

1. Big Data
1.1. Faits 1.2. Intérêts 1.3. Sources 1.4. Challenges

Chefs d'Enterprise prennent


fréquemment des décisions basées
sur des informations en lesquelles Chefs d’entreprises disent
ils n’ont pas confiance, ou qu’ils 1/3 qu’ils n’ont pas accès aux
informations dont ils ont
n’ont pas
besoin pour faire leur travail
1/2
83%
Des DSI (Directeurs des SI) citent:
« l’informatique décisionnelle et
analytique » comme faisant partie de
60%
Des PDG ont besoin d’améliorer
leurs plans pour améliorer leur la capture et compréhension des
compétitivité. informations pour prendre des
décisions plus rapide.
5

1. Big Data
1.1. Faits 1.2. Intérêts 1.3. Sources 1.4. Challenges

6
08/12/2024

1. Big Data
1.1. Faits 1.2. Intérêts 1.3. Sources 1.4. Challenges

• Sources Multiples: Sites, bases de données, téléphones, serveurs:


o Détecter les sentiments et réactions des clients
o Détecter les conditions critiques ou potentiellement mortelles dans les hôpitaux, et à
temps pour intervenir
o Prédire des modèles météorologiques pour planifier l’usage optimal des éoliennes.
o Prendre des décisions risquées basées sur des données transactionnelles en temps réel.
o Identifier les criminels et les menaces à partir des vidéos, sons et flux de données
o Étudier les réactions des étudiants pendant un cour, prédire ceux qui vont réussir,
d’après les statistiques et modèles réunis au long des années. (Domain Big data in
Education ) 7

1. Big Data
1.1. Faits 1.2. Intérêts 1.3. Sources 1.4. Challenges

Réunir un grand volume de données variées pour trouver de nouvelles idées.

Capturer des données créées rapidement.

Traiter ces données et les utiliser.

Sauvegarder toutes ces données.


8
08/12/2024

Alimente

2. Cloud Computing
2.1. Faits 2.1. Intérêts 2.3. Fournisseurs Cloud 2.4. Challenges

• Sauvegarder des données sur plusieurs support de stockage.


• Besoin d’un espace de stockage accessible à chacun des appareils concernés.
• Besoin ainsi de supprimer quoi que ce soit de son ordinateur par manque de place.
• Besoin de s’embêter à transmettre des documents par mail, pour que l’interlocuteur nous les renvoie
après les avoir modifiés.
Tous ces faits ont été les raisons pour la création du Cloud Computing depuis les années
80.
• Mais le terme Cloud n’est cependant pas utilisé avant 1997 par le professeur Ramnath
Chellappa.
• Deux ans plus tard, la société Salesforce aux Etats-Unis fournit aux entreprises des
applications par intermédiaires d’un site web. Cette action représente le premier pas vers le
Cloud de nos jours.
Cloud Computing = l'informatique en nuage

10
08/12/2024

2. Cloud Computing
2.1. Faits 2.1. Intérêts 3.1. Fournisseurs Cloud 2.4. Challenges

• Réduction des coûts


Les coûts liés à la mise en place et à l’exploitation du centre de données sont exclus:
Le cloud vous permet d’accéder en temps réel aux ressources informatiques dont vous avez
besoin, évitant ainsi des coûts supplémentaires tels que la maintenance, l’achat d’équipements ou
le recours à un technicien informatique.
• Sécurité accrue
La sécurité de l’infrastructure cloud est une priorité pour les fournisseurs. Pour assurer la sécurité de
toutes vos données, documents et applications, vous pouvez maintenir votre technologie de sécurité à
jour.

11

2. Cloud Computing
2.1. Faits 2.1. Intérêts 3.1. Fournisseurs Cloud 2.4. Challenges

• Gestion optimisée de vos ressources


Le cloud computing permet un développement et une gestion plus efficaces des applications. En
conséquence, les fournisseurs de cloud computing mettent constamment à jour leurs centres de
stockage, vous fournissant ainsi des ressources informatiques rapides et performantes qui ne sont
jamais dépassées et qui seraient plus coûteuses à mettre en œuvre dans une seule base de données.
• Sauvegarde décentralisée
Parce que les serveurs en nuage sont décentralisés, ils vous permettent de sauvegarder les
données sur plusieurs sites géographiques, offrant ainsi un haut niveau de fiabilité. Ils vous
permettent également d’allouer des ressources informatiques à partir de zones géographiques
spécifiques selon vos besoins.
12
08/12/2024

2. Cloud Computing
2.1. Faits 2.1. Intérêts 3.1. Fournisseurs Cloud 2.4. Challenges

Software as a Infrastructure as a Platform as a


Service Service Service

13

2. Cloud Computing
2.1. Faits 2.1. Intérêts 3.1. Fournisseurs Cloud 2.4. Challenges

Sécurité et confidentialité des données

Interopérabilité et
flexibilité Environnements multi-clouds

Challenges

Dépendance à l'égard Performance


du réseau

Gestion des coûts


14
08/12/2024

1 Introduction au Big Data et Cloud

2 Big Data

3 Cloud Computing

4 Traitement des données

15

1. Motivations
2. Définitions
3. Caractéristiques
4. Généralités
5. Cas d’utilisation
6. Les acteurs de l’Open Source
7. Plateformes, Technologies & Outils
8. Conclusion
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

1. Motivations
L’apparition du phénomène Big Data ces dernières
années résulte de plusieurs constats :
• Les sources et volumes de données disponibles ne
cessent de croître.
• Le concept de Big Data est apparu pour faire face
à l’augmentation croissante de la masse de
données.
• Aujourd’hui, les volumes de données sont très
[Link]
conséquents et il est impératif de trouver des evolution-volume-donnees-numeriques-genere-dans-le-
monde/
solutions de stockage et d’analyse adéquates. 17

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

1. Motivations
• L’évolution du hardware de stockage capable de stocker de plus en plus de
données, ainsi que la remise en cause du modèle matériel existant, celui où il
fallait acheter le plus gros serveur possible. Actuellement, la nouvelle
évolution consiste à mettre en série des petits serveurs remplaçables et de
créer un système distribué résistant aux pannes.
• Dans des marchés de plus en plus compétitifs, la survie d’une entreprise
dépend de sa capacité à anticiper et se montrer réactive face aux fluctuations
de son marché et aux événements culturels, politiques ou économiques. D’où
l’explosion des outils d’analyse, d’extraction et de traitement des données de
manière non structurée.
18
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

1. Motivations
• Le Big Data a ainsi permis d’étendre et de diversifier le périmètre
d’analyses prédictives et de sentiments, et d’en renforcer leur fiabilité,
par l’intégration de nouvelles variables issues de réseaux sociaux,
moteurs de recherche, presse, données macro-économiques, etc.
• En s’appuyant sur ces nouvelles méthodes d’analyse prédictive, les
entreprises peuvent dégager des tendances de marché, identifier des
risques et des opportunités, fiabiliser leurs prévisions de marché, ou
encore prédire le succès d’un futur produit.
 Les bases de données classiques ne permettant plus de gérer de tels volumes, les grands
acteurs du web ont créé des applications Big Data permettant de gérer, traiter et analyser des
grandes quantités de données pour répondre aux besoins évoqués ci-dessus. 19

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

2. Définitions
• L’expression Big Data traduite en français « méga_données » ou « données massives »
désigne la masse de données numériques produites par les particuliers ou les entreprises
lorsqu’ils se connectent sur Internet.

Big Data : « des données qui sont trop volumineuses ou ayant une arrivée trop rapide ou une
variété trop grande pour permettre de les ranger directement dans des bases de données
traditionnelles ou de les traiter par les algorithmes actuels » . Les informations récupérées
nécessitent des outils de stockage (serveurs) et d’analyse de plus en plus puissants et
sophistiqués. Ces données permettent d’analyser, d’anticiper ou de répondre aux besoins de
produits ou services des consommateurs.
20
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

Big Data est une trace numérique que nous générons Big Data fait référence que volumes de données
dans cette ère numérique. Cette trace numérique est dynamiques, volumineux et disparates créés par des
constituée de toutes les données capturées lorsque personnes, des outils et des machines. Elle nécessite
nous utilisons la technologie numérique. L’idée de base une technologie nouvelle, innovante et évolutive pour
derrière l’expression Big Data est que tout ce que nous collecter, héberger et analyser analytiquement la
faisons laisse de plus en plus une trace numérique que grande quantité de données collectées afin d’obtenir
nous pouvons utiliser et analyser pour devenir des informations en temps réel sur les clients, les
intelligent. risques, les bénéfices, la performance, la gestion de la
productivité et la valeur actionnariale.
Bernard Moore Ernst and Yong

Big Data sont des ressources d’information high- Big Data comme une collection de données provenant
volume, high-velocity, and/or high-variety qui exigent de sources traditionnelles et numériques de l’intérieur
des formes de traitement de l’information rentables et et de l’extérieur d’une entreprise qui représentent une
innovantes permettant une meilleure compréhension, source continue de découverte et d’analyse.
prise de décision et automatisation des processus.

Cabinet d’études Gartner Lisa Arthur(Collaboratrice de Forbes)


21

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
2017
• Les V(s) de Big Data
2016
2015 10V
2012 1. Volume
7V 2. Variété
2001 1. Volume
5V 2. Variété
3. Vélocité
4V 1. Volume
3. Vélocité
4. Véracité
3V 1. Volume 2. Variété 5. Valeur
4. Véracité
2. Variété 3. Vélocité 6. Variabilité
1. Volume 5. Valeur
3. Vélocité 4. Véracité 7. Visualisation
2. Variété 6. Variabilité
4. Véracité 5. Valeur 8. Validité
3. Vélocité 7. Visualisation
9. Vulnérabilité
10. Volatilité
22
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
• Volume 2017
- C’est le caractère qui décrit le mieux par le terme «Big». 2016
- Décrit la quantité de données générées par des
2015 entreprises, les objets connectés, ou des personnes.
- Fait référence à la quantité d’informations, trop volumineuses pour être acquises, stockées, traitées,
analysées et diffusées par des outils standards.
- Peut s’interpréter comme le traitement d’objets informationnels de grandes tailles ou de grandes
collections d’objets.
Exemple:
- Les médias sociaux, car ils ont un impact considérable sur l’explosion des données.
- Depuis 2016, plus de 2 000 milliards de publications et 250 milliards de photos ont été
téléchargés.
- Facebook regorge de données personnelles et ses 2,2 milliards d’utilisateurs partageant des
données à chaque seconde.
 La gestion de cette quantité de données serait impossible sans le développement du Big
Data. 23

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
• Volume 2017
- 4,4 zettaoctets de données = 4,4 trillion de gigaoctets 2016
- En 2013, il y a autant de données que les étoiles
2015 connues dans tout l’univers.

- 44 zettaoctets de données = 44 millards gigaoctets


- 62 fois le nombre de tous les sables dans toutes les plages de la terre.

24
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
2017
• Variété
2016
- Traitement des données sous forme: 2015
o Structurée ( base de données structurée, feuilles de calcul venant de
tableur, …),
o Semi- Structurée (Les fichiers XML ou les documents JSON sont
des exemples de données , …)
o Non structurée( textes, sons, images, vidéos, données de capteurs
fichiers journaux, médias sociaux, signaux,…)
qui doivent faire l’objet d’une analyse collective
25

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
2017
• Vélocité (=Vitesse)
2016
– Fait référence à l’aspect dynamique 2015
et/ou temporel des données, à leur délai
d’actualisation et d’analyse.
– La vitesse décrit la fréquence à laquelle les données sont générées, capturées ou
partagées.
– Fait référence à la vitesse à laquelle de nouvelles données sont générées et la vitesse à
laquelle les données sont traitées par le système pour être bien analysées.
– La technologie nous permet maintenant d’analyser les données pendant qu’elles sont
générées, sans jamais mettre en bases de données
26
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
• Vélocité (=Vitesse) 2017
2016
2015

Une minute sur Internet en 2020


27

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
• Véracité 2017
2016
– Fait référence à la précision et à la correction des données pour l’usage auquel elles sont destinées.
C’est à dire à la qualité ou à la fidélité des
2015 données et/ou aux problèmes éthiques liés à leur
utilisation.
– Il comprend les problèmes de valeurs aberrantes ou manquantes (ces problèmes pouvant être
résolus par le volume de données), mais aussi à la confiance que l’on peut avoir dans les données.
 Données bruités, imprécises, prédictives,…
Exemple:
– La génération des données par Spambots est un exemple digne de confiance
 l’élection présidentielle de 2012 au Mexique avec de faux comptes Twitter.
– Des Millions de Dollars $ par An
 Ce que la pauvre qualité de données coute pour l’économie des Etats-Unis.
– 1 à 3 Chefs d’Entreprise : ne font pas confiance à l’information qu’ils utilisent.
28
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
2017
• Valeur
2016
– Fait référence à la potentialité des données,
2015en particulier en termes économiques.
– Il est ainsi associé à l’usage qui peut être fait de ces mégadonnées, de leur analyse, notamment d’un
point de vue économique.
– L’analyse de ces mégadonnées demande une certaine expertise tant liée à des méthodes et
techniques en statistique, en analyse de données, que de domaine pour l’interprétation de ces
analyses.
 La valeur est, donc, définie comme l'utilité des données pour une entreprise.
– La valeur dépend également de la durée du traitement des données parce que les résultats d'analyse
ont une durée de vie. 29

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
2017
• Valeur
2016
Exemple
2015
une cotation boursière différée de 20 minutes a peu ou pas de valeur pour effectuer une
transaction par rapport à un devis vieux de 20 millisecondes.

 La valeur et le temps sont inversement liés: Plus il faut de temps pour que les données
soient transformées en informations significatives, moins elles ont de valeur pour une
entreprise.

 Résultats périmés nuisent à la qualité et à la rapidité d’une prise de décision éclairée.

30
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
• Valeur 2017
Exemple 2016
2015 a peu ou pas de
une cotation boursière différée de 20 minutes
valeur pour effectuer une transaction par rapport à un devis vieux
de 20 millisecondes.

 La valeur et le temps sont inversement liés: Plus il faut de


temps pour que les données soient transformées en
informations significatives, moins elles ont de valeur pour une
entreprise.

 Résultats périmés nuisent à la qualité et à la rapidité d’une


prise de décision éclairée. 31

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
• Variabilité 2017
– Fait référence à plusieurs choses:
2016
2015
o Tout d’abord c’est le nombre d’incohérences dans les données. Celles-ci doivent être
détectées par des techniques de détection d’anomalies et de valeurs aberrantes pour faciliter
la création d’analyse significative.
o Les mégadonnées sont également variables en raison de la diversité de dimensions
résultant de multiples types et sources de données.
 La variabilité peut également faire référence à la vitesse incohérente à laquelle les données
volumineuses sont chargées dans votre base de données.
32
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
• Visualisation 2017
– Une autre caractéristique du Big Data est la difficulté à les visualiser.
2016
• Problème: Les logiciels de visualisation de 2015
données volumineuses actuels sont confrontés à des
problèmes techniques en raison des limitations de la technologie en mémoire, de leur faible
évolutivité, de leur fonctionnalité et de leur temps de réponse. Il est impossible de vous fier aux
graphiques traditionnels lorsque vous essayez de tracer un milliard de points de données.

• Solution: Il est donc nécessaire d’avoir différentes manières de représenter des données. Telles
que la mise en cluster de données ou l’utilisation de cartes d’arbres, de sunbursts, de
coordonnées parallèles, de diagrammes de réseau circulaires ou de cônes.

 Si on associe cela avec la multitude de composante résultant de la variété et de la vélocité


des données massives et des relations complexes qui les lient, il est possible de voir qu’il n’est
pas si simple de créer une visualisation significative. 33

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
• Validité 2017
2016
– Similaire à la véracité,
2015
– Fait référence à la précision et à la correction des données pour l’usage auquel elles sont
destinées.
– Selon Forbes, environ 60% du temps d’un scientifique est consacré au nettoyage de ses données
avant de pouvoir effectuer une analyse.
– L’avantage de l’analyse des données massives est aussi primordiale que celui des données sous-
jacentes.
 Vous devez donc avoir de bonnes pratiques. De gouvernance des données pour garantir une
qualité des données cohérente, des définitions communes et des métadonnées. 34
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
• Vulnérabilité 2017
2016
– Le Big Data apporte de nouveaux problèmes de sécurité. Après tout, une violation de données
2015
avec Big Data est une grande violation.
 Malheureusement, il y a quotidiennement des violations de données massives.!!!!!!!!!!!!!!

– Un exemple, rapporté par CRN: en mai 2016, “un pirate informatique appelé Peace a posté des
données sur le web sombre pour les vendre, qui auraient inclus des informations sur 167 millions
de comptes LinkedIn et … 360 millions d’e-mails et de mots de passe pour les utilisateurs de
MySpace”.
35

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
• Volatilité 2017
2016
– Quel âge doivent avoir vos données pour qu’elles soient considérées comme non pertinentes,
2015
historiques ou obsolete?
– Combien de temps faut-il conserver les données?
– Avant l’ere big data, en général on stockait les données indéfiniment. Quelques téraoctets de
données ne pouvaient pas engendrer de dépenses de stockage élevées.
– En raison de la vitesse et du volume de ces données massives, leur volatilité doit être
soigneusement prise en compte.
 Il est maintenant fondamental d’établir des règles pour la disponibilité et à la mise à jour des
données afin de garantir une récupération rapide des informations en cas de besoin. 36
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

3. Caractéristiques
2017
2016
2015

[Link] 37

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Types des données Big Data 2017
2016
2015

Types de données de Big Data 38


08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Types des données Big Data 2017
• Structurées 2016
2015
– Les données qui peuvent être stockées et traitées dans un format fixe sont appelées données
structurées.
– Les données stockées dans un système de gestion de bases de données relationnelles (SGBDR)
sont un exemple de données « structurées ».
– Il est facile de traiter des données structurées car il y’a un schéma.
– Le langage de requête structuré (SQL) est souvent utilisé pour gérer ce type de données.

39

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Types des données Big Data 2017
2016
2015
• Semi-structurées

– Les données semi-structurées sont un type de données qui n'a pas de structure d'un modèle de
données: c'est-à-dire une définition de table dans un SGBD relationnel, mais néanmoins à des
propriétés organisationnelles comme des balises et d'autres marqueurs pour séparer la
sémantique élément qui facilitent l'analyse.
– Les fichiers XML ou les documents JSON sont des exemples de données semi-structurées.

40
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Types des données Big Data 2017
2016
• Non structurées
2015
– Les données qui ont une forme inconnue , ne peuvent pas être stockées dans SGBDR et ne
peuvent être analysées que si elles sont transformées en un format structuré.
– Exemples: Fichiers texte et contenu multimédia tels que des images, des fichiers audio et des
vidéos. Les données non structurées croissent plus rapidement que d'autres, les experts affirment
que 80% des données d'une organisation ne sont pas structurées.

Le Big Data comprend toujours des données de sources multiples et, la plupart du temps, de
différents types. Il n’est donc pas toujours facile de savoir comment intégrer tous les outils
dont on a besoin pour travailler avec différents types de données.
41

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Quel est le problème posé par ces énormes quantités de données? 2017
2016
2015
– Auparavant, quand les systèmes d’application de gestion de base de données ont été réalisés, ils
ont construits avec une échelle à l’esprit (limité).
– Même les organisation n’ont pas été préparées à l’échelle que nous produisons aujourd’hui.

– Comme les exigences de ces organisations ont augmenté au fil du temps, ils doivent repenser et
réinvestir dans l’infrastructure.
– Actuellement, le coût des ressources impliquées dans l’extension de l’infrastructure,
s’augmente avec un facteur exponentiel.

– De plus, il y aurait une limitation sur les différents facteurs tels que la taille de la machine, CPU,
RAM, etc. qui peuvent être mis à l’échelle (scaled up). Ces systèmes traditionnels ne seraient pas
en mesure de soutenir l’échelle requise par la plupart de ces entreprises
42
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Adaptabilité 2017
2016
Dans ce nouveau contexte, les méthode2015 de traitement de ces données (Capture, stockage,
recherche, partage, analyse, visualisation) doivent être redéfinies car l’ensemble de ces
données deviennent difficilement manipulables par les outils classiques.

43

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Comment le Big Data gère ces situations complexes? 2017
2016
La plupart des outils et des frameworks de Big Data sont construits en gardant à l’esprit les
2015
caractéristiques suivantes:
- La distribution des données: Le grand ensemble de données est divisée en morceaux ou en
petits blocs et réparti sur un nombre N de nœuds ou de machines.
- Ainsi les données sont réparties sur plusieurs nœuds et sont prêtes au traitement parallèle.
- Dans le monde de Big Data, ce type de distribution de données est réalisé à l’aide d’un Système
de Fichiers Distribués-DFS (Distributed File System).

44
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Comment le Big Data gère ces situations complexes? 2017
2016
2015
- Le traitement en parallèle: Les données distribuées obtiennent la puissance de N nombre de
serveurs et de machines dont les données résident. Ces serveurs travaillent en parallèle pour le
traitement et l’analyse. Après le traitement, les données sont fusionnées pour le résultat final
recherché. (Actuellement ce processus est réalisé par MapReduce de Google qui sera détaille
dans un chapitre ultérieur).

- La tolérance aux pannes: En général, nous gardons la réplique d’un seul bloc (ou chunk) de
données plus qu’une fois. Par conséquent, même si l’un des serveurs ou des machines est
complètement en panne, nous pouvons obtenir nos données à partir d’une autre machine ou
d’un autre « data center ».

45

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Comment le Big Data gère ces situations complexes? 2017
2016
2015
- L’utilisation de matériel standard: La plupart des outils et des frameworks Big Data
ont
besoin du matériel standard pour leur travail. Donc nous n’avons pas besoin de matériel
spécialisé avec un conteneur spécial des données « RAID ». Cela réduit le coût de
l’infrastructure totale.

- Flexibilité, évolutivité et scalabilité: il est assez facile d’ajouter de plus en plus de nœuds
dans le cluster quand la demande pour l’espace augmente. De plus, la façon dont les
architectures de ces frameworks sont faites, convient très bien le scénario de Big Data.

46
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités Temps d’accès


2017
• Taux moyen d’accès aux données ~12MB/sec
• Exemple
- Analyser une Dataset de 1TB
2016
• 1 fichier de 1TB prendera 2h22 mins pour être lu à
2015
partir du disque
1 sec – 122MB
X secs- 1048576 MB ( TB)

X= 1048576 /122 = 8595 secs = 2h22 mins


Temps d’accès( lecteur) > 2h
+
Temps de calcul ~1h
+
Bande passante du réseau etc. > 3h 47

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Exemple 2017
- Division d’un fichier de 1 TB en 100 bloques égaux 2016
- Lecture Parallèle. 2015

Temps de Lecture = 150min / 100 <2min


Temps de Calcul= 60 min / 100 < 1min
48
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

4. Généralités
• Perspectives & Domaines d’application 2017
2016
Les perspectives d’utilisation de ces données sont énormes, notamment pour l’analyse d’opinions
2015 la lutte contre la criminalité et la fraude, les
politiques, de tendance industrielles, la génomique,
méthodes de marketing publicitaire et de vente, etc….

49

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

5. Cas d’utilisation Patients utiliseront des dispositifs de


surveillance à distance en 2016

• Santé 2017
2016
Est le taux annuel d’augmentation
prévu entre 2010 et 2016 pour les
patients qui vont utiliser les

Hôpitaux du monde
2015 dispositifs
distance
de surveillance à

entier collectent des


données sur les
patients

Des données de santé non


structurées et stockées sous Lecture par seconde issues des
plusieurs formes telles que les équipements de surveillance des
images et transcriptions patients
médicales

50
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

5. Cas d’utilisation
• Santé
- Analyse des données globales des patients et des résultats pour comparer l’efficacité des
différentes interventions.

- Analyse des résultats de santé d’une population pour prévoir les maladies et les épidémies,
savoir les causes environnementales et prendre les prévention nécessaire dans les stages primaires.

- Déploiement de système d’aide à la décision clinique pour améliorer l’efficacité et la qualité des
opérations.

- Télésurveillance des patients; La collecte de données pour les patients souffrants de maladies
chroniques et l’analyse des données résultant pour surveiller la conformité et pour améliorer les
futures options de médicaments et de traitement.

51

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

5. Cas d’utilisation
• Marketing
Plus d’intelligence pour plus de ventes.
- Analyse prédictive: En analysant l’historique des achats du client ou les fichiers Logs qui
contiennent les pages visitées, l’entreprise peut prévoir ce que le client cherche et les mettre dans
les zones des offres et publicités afin d’augmenter les achats.
- Analyse des sentiments: De nombreuses sociétés utilisent les échanges sur les réseaux sociaux
comme le reflet de l’opinion publique. Celle-ci devient une nouvelle source d’informations en
temps réel directement fournie par le consommateur.
- Les questions d’e-réputation: « à quoi est associée min image? » ou « comment est
accueilli le nouveau produits que je viens de lancer? » peuvent être analysées avec ces
données.
 Le Big Data permet de prendre le pouls quasiment en direct, mesurer l’impact de sa
marque, savoir comment est perçue la société pour le public et anticiper les mauvaises
critiques.
52
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

5. Cas d’utilisation
• Marketing
- Analyse des comportements :

- L’analyse du comportement des clients en magasin permet d’améliorer l’aménagement du


magasin, le mix produit et la disposition des produits dans les rayons et sur les étagères.
- Les dernières innovations ont également permis de suivre les habitudes d’achat (compter le
nombre de pas effectués et le temps passé dans chaque rayon du magasin), c.à.d. géo-localiser en
temps réel le clients, …
- Les données issues des tickets de caisse, captées depuis longtemps, peuvent maintenant être
analysées et révèlent les habitudes d’achat des tickets des clients.

53

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

5. Cas d’utilisation
• Politique
- L’analyse de Big Data a joué un rôle important dans la campagne de ré-élection de Barack Obama,
notamment pour analyser les opinions politiques de la population.
- Depuis l’année 2012, le Département de la Défense américain investit annuellement sur les
projets de Big Data plus de 250 millions de dollars.
- Le gouvernement américain possède six des dix plus puissants supercalculateurs de la planète.
- La National Security Agency a construire le Utah Data Center. Il supporte des yottaoctets
d’information collectés par la NASA sur internet.
- En 2014, SIGMA conseil a utilisé le Big Data pour donner l’estimation du résultat de vote
préliminaire en Tunisie. 54
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

5. Cas d’utilisation
• Sport
- La première source de données recueillie s’appuie sur
des capteurs intégrés aux protège-tibias ou aux
chaussures. Ces minuscules composants remontent
des informations biométriques sur les joueurs:
• Le distance parcourue
• Les vitesses en sprint
• Les accélérations
• Le nombre de ballons touchés
• Le rythme cardiaque, etc.
 A terme et quand l’analyse en temps réel sera
réellement possible, on peut très bien imaginer
qu’une alerte remonte lorsqu’un joueur fatigue afin
que l’entraîneur le remplace
55

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

5. Cas d’utilisation
• Sport
- Une deuxième source de récolte de données provient de caméras installées en hauteur autour
du terrain. Tous les déplacements des joueurs et leurs positions les uns par rapport aux autres
sont ainsi filmés et enregistrés.

- Lors de son débriefing, le tacticien peut ainsi comparer plusieurs fois par match la position
géométrique de son équipe au moment des temps forts, quand l’équipe se montre offensive,
s’ouvre des occasions et marque des buts.

- Les tacticien à également la capacité d’analyser le comportement de son équipe en fonction de


la réaction de l’équipe concurrente.

 Ces données peuvent ensuite être agrégées avec d’autres sources telles que l’historique
des matchs joués ou les données recueillies pendant les entraînements.
56
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

5. Cas d’utilisation
• Sécurité publique

- Aujourd’hui, avec le Big Data, la vidéosurveillance va beaucoup plus loin: elle permet d’analyser
automatiquement les images et les situations, de croiser les informations, et d’envoyer des alertes.
- Cette analyse de vidéo avancée est utilisée en particulier pour :
• La sécurité du trafic ( routier, ferroviaire, maritime et aérien)
• La protection des espaces et des bâtiments publics
• La sécurité personnelle.
- Il est aujourd’hui possible à travers l’analyse des images vidéo de faire de:
• La reconnaissance d’objets et de mouvements
• Le lecture de plaques minéralogiques
• La détection de véhicule non autorisé
• La reconnaissance faciale
• L’auto-surveillance avec possibilité de déclenchement d’alertes ou autres actions automatisées
57

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

5. Cas d’utilisation
• Sécurité publique

Exemple: Avec 15 000 caméras de reconnaissance faciale et des techniques algorithmiques de


pointe, l’événement sportif s’accompagne d’un déploiement inédit de technologies de surveillance.

58
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

6. Les acteurs de l’Open Source


• Les acteurs de Big Data et les Solutions

– Les fournisseurs historiques de solutions IT tels que HP, Oracle, IBM ou SAP figurent
parmi les principaux acteurs du Big Data.
– Dès le départ le Big Data a su intéresser les géants du secteur informatique, les éditeurs de
logiciels, les intégrateurs historiques de software sur les serveurs d’entreprises qui,
voyant le potentiel de ce marché se sont lancés certes un peu plus tard que Google et
Facebook, mais profitent toujours de la vague de croissance du Big Data.

59

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

6. Les acteurs de l’Open Source


• Les acteurs de Big Data et les Solutions
Un recueil des plus gros acteurs Big Data donne :

• Hortonworks, Cloudera et Mapr


Ce sont les éditeurs des distributions Big Data.
- Cloudera: se consacre au développement de logiciels de type Big Data basées sur le framework
Hadoop.
- Hortonworks est une retombée de Yahoo et a le positionnement le plus open source.
- Mapr a une autre approche, les moteurs de stockage et de calculs ont été refaits mais les API de
Hadoop ont été conservés pour assurer la compatibilité avec l’écosystème et l’existant.

60
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

6. Les acteurs de l’Open Source


• Les acteurs de Big Data et les Solutions
• Google
– Google est le pilier et le précurseur des technologies Big Data.
– Utilise largement sa technologie pour ses algorithmes d’indexation sur les moteurs de recherche, Google
Translate ou encore Google Earth.
– S’oriente très fortement sur le streaming au détriment de MapReduce. Google a aussi mis à disposition la
version open source de Google Data Flow avec Apache Beam.

• Amazon

– Amazon est devenu en quelques années un des leaders du Big Data en proposant Amazon Web Service
depuis 2009.
– L’avènement du Cloud Computing lancé par Amazon, lui permet aussi d’étendre un peu plus son terrain sur
le Big Data.
61

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

6. Les acteurs de l’Open Source


• Les acteurs de Big Data et les Solutions

• IBM

IBM comme beaucoup d’autres grands acteurs du web s’est lancé aussi dans ce
domaine en intégrant dans ses services des briques de traitements liées à Hadoop
et MapReduce.

• ODPi
L’Open Data Platform Initiative réunit Hortonworks, IBM, Pivotal pour tenter
d’établir des standards sur la mise en place de plateformes Big Data.

62
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

6. Les acteurs de l’Open Source


• Les contributeurs de l’implémentation Libre et
Open source:
• Ces entreprises ont décidé d’ouvrir leurs
développements internes au monde Open Source.
• Un certain nombre de ces technologies comme
« Hadoop » et « Spark » font partie de la fondation
Apache et ont intégrés aux offres de « Big Data » twitter
des grandes acteurs tel que IBM, Oracle, Microsoft,

63

Société Technologie Type de technologie


1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
développée
Google BigTableTechnologies
7. Plateformes, Système & de Outils
base de données distribuée
propriétaire
Quelques Technologies reposant
Open Source du sur
BigGFS(Google
Data File
System). Technologie non open source, mais
qui a inspiré Hbase qui est open source
MapeReduce Plate-forme de développement pour traitements
distribués
Yahoo Hadoop Plate-forme Java destinée aux applications
distribuées et à la gestion intensive des
données.
Issue à l’origine de Google BigTable,
MapReduce et Google File System 64

S4 Plate-forme de développement dédiée aux


08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

7. Plateformes, Technologies & Outils


• Traitement: Hadoop, Hive, Pig, mrjob, Caffeine
• Base de données NoSQL: Hbase, MongoDB, Vertica, Cassandra, Neo4j, etc.
• Serveurs: EC2, Google App Engine, Elastic, Beanstalk, Heroku
• Analytique: R, SAS, Python scikit-learn, Spark MLLib, Apache Mahout
• Recherche: Solr/Lucene, ElasticSearch

65

66
08/12/2024

67

68
08/12/2024

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

7. Plateformes, Technologies & Outils


• Big Data Landscape

Dans le paysage de cette année, on compte 1 426 entreprises,


contre 139 entreprises dans le premier paysage de 2012. Cela
représente une augmentation de +1 000 % en une décennie !

69

1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion

8. Conclusion
• Nous somme actuellement dans l’ère de la production massive de données. D’une part, les applications
génèrent des données issues des logs, des réseaux de capteurs , des rapports de transactions, des traces de
GPS, etc. et d’autre part, les individus produisent des données telles que des photographies, des vidéos,
des musiques ou encore des données sur l’état de santé (rythme cardiaque, pression ou poids).

• Un problème se pose alors quant au stockage et à l’analyse de données.


• La capacité de stockage des disques durs augmente mais le temps de lecture croît également. Il devient
alors nécessaire de paralléliser les traitements en stockant sur plusieurs machines.

• Plusieurs solutions, inspirées des solutions de Google, ont été proposées.


• Hadoop est la solution la plus répondue au monde de Big Data.
70
08/12/2024

1 Introduction au Big Data et Cloud

2 Big Data

3 Cloud Computing

4 Traitement des données

71

1. Définition
2. Concepts Fondamentaux
3. Modèles de déploiement
4. Les avantages
5. Les défis
6. Les principaux Services
7. Autres Services
8. Les contrôleurs du Cloud
9. Les acteurs du Cloud
10. Sécurité du Cloud
11. Conclusion
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

1. Définition
• Le Cloud Computing est une technologie révolutionnaire qui a transformé la
manière dont les entreprises gèrent leurs données, applications et ressources
informatiques.

• Qu'est-ce que le Cloud Computing ?


 Le Cloud Computing consiste à accéder à des ressources informatiques
telles que des serveurs, des bases de données, du stockage, des logiciels,
etc., via Internet, au lieu de les posséder physiquement sur site.
 Cette technologie permet aux utilisateurs d'accéder à ces ressources à la
demande, avec une flexibilité accrue et des coûts réduits.

73

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

2. Concepts fondamentaux du Cloud Computing


1. Services sur demande : Accès à la demande à divers services informatiques, tels que
stockage, calcul, bases de données, etc., sans nécessiter de gestion directe par
l'utilisateur.
2. Évolutivité et élasticité : Capacité à ajuster rapidement les ressources en fonction des
besoins fluctuants, permettant une montée en charge ou une réduction sans
interruption de service.
3. Modèle de paiement à l'usage : Payer uniquement pour les ressources utilisées, ce
qui peut être plus rentable que l'acquisition et la maintenance de matériel informatique
physique. 74
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

3. Modèles de déploiement du Cloud Computing


1. Cloud public : Services accessibles au grand public sur des infrastructures partagées
par plusieurs organisations.
2. Cloud privé : Infrastructure dédiée à une seule organisation, généralement gérée en
interne ou par un tiers.
3. Cloud hybride : Combinaison de Cloud public et privé, permettant la portabilité des
données et des applications entre les deux environnements.

75

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

4. Les avantages du Cloud Computing

76
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

4. Les avantages du Cloud Computing

Cloud Public Cloud Privé


• Utilisateur unique
• Evolutivité
• Haute sécurité
• Rentabilité
• Flexibilité
• Stockage illimité
• Totalement personnalisable
• Paiement à l’utilisation

Cloud Hybride
• Evolutivité
• Haute sécurité
• Flexibilité
• Rentabilité
• Stockage illimité

77

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

5. Les défis et préoccupations


1. Sécurité et confidentialité des données : Risques potentiels liés au stockage et au traitement
des données sensibles hors des infrastructures internes.
2. Disponibilité et performance : Dépendance à l'égard de la connectivité Internet et des
performances des fournisseurs de services Cloud.
3. Conformité réglementaire : Besoin de respecter les règles et les normes de protection des
données propres à chaque secteur et région.
 Le Cloud Computing a révolutionné la façon dont les entreprises opèrent en offrant une agilité,
une accessibilité et une efficacité considérables. Cependant, il nécessite une évaluation minutieuse
des besoins, des risques et des avantages pour chaque organisation envisageant d'y recourir.
78
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

6. Les principaux Services Cloud:


Selon le National Institute of Standards and
Technology il existe trois catégories de
Service:
1. Infrastructure as a Service (IaaS) : Fournit des
ressources informatiques (serveurs virtuels,
stockage, réseaux) sur demande.
2. Platform as a Service (PaaS) : Offre une
plateforme permettant aux développeurs de créer,
déployer et gérer des applications sans se soucier
de l'infrastructure sous-jacente.
3. Software as a Service (SaaS) : Applications
accessibles via le Cloud plutôt que via des
installations locales. [Dutta et Nangunuri, 2013]
79

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

6. Les principaux Services Cloud:


6.1. Infrastructure as a Service (IaaS) :
Ceci est la couche de base du modèle de la pile du Cloud.
• Il sert de base pour les deux autres couches, pour leur exécution. Le mot-clé
derrière cette couche est de virtualisation.
• Exemple: Amazon EC2.
– Dans Amazon EC2 (Elastic Compute Cloud) votre demande sera exécutée sur un ordinateur
virtuel (instance virtuelle).
– Vous avez le choix de l'ordinateur virtuel, où vous pouvez sélectionner une configuration de
processeur, de mémoire et de stockage qui est optimale pour votre application.
– L'ensemble de l’infrastructure globale du Cloud _ i.e. les serveurs, routeurs, matériel à partage de
charge (load balancing hardware), pare-feu, stockage et autres équipements réseau sont fournis par le
fournisseur de l’IaaS.
– Le client achète ces ressources comme un service, sur la base de ses besoins. 80
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

6. Les principaux Services Cloud:


6.1. Infrastructure as a Service (IaaS) :
• C'est le service de plus bas niveau.
• Il consiste à offrir un accès à un parc informatique virtualisé. Des machines virtuelles
sur lesquelles le consommateur peut installer un système d'exploitation et des
applications. Le consommateur est ainsi dispensé de l'achat de matériel informatique.
• Ce service s'apparente aux services d'hébergement classiques des centre de
traitement de données [datacenter: usine ou centre de stockage de données,
fonctionnant jour et nuit.] et la tendance est en faveur de services de plus haut
niveau, qui font davantage abstraction de détails techniques.
81

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

6. Les principaux Services Cloud:


6.2. Platform as a Service (PaaS) :

• PaaS propose à l'utilisateur d'avoir accès à une véritable plateforme de développement


(langage de programmation, outils de développements, modules).

• Exemples de PaaS

– [Link] (SalesForce), Titan (Microsoft Dynamics CRM) (Gestion Relation Client).


– Google App Engine (Développer un site web dynamique)
– Intuit (Comptabilité)

82
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

6. Les principaux Services Cloud:


6.2. Platform as a Service (PaaS) :
• Dans ce type de service, situé juste au-dessus du précédent, le système d'exploitation
et les outils d'infrastructure sont sous la responsabilité du fournisseur.

• Le consommateur a le contrôle des applications et peut ajouter ses propres


outils.

• Le consommateur loue l'exploitation de serveurs sur lesquels les outils nécessaires


sont préalablement placés et contrôlés par le fournisseur.

• La différence étant que les systèmes sont mutualisés et offrent une grande élasticité -
capacité de s'adapter automatiquement à la demande, alors que dans une offre classique
d'hébergement web l'adaptation fait suite à une demande formelle du consommateur. 83

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

6. Les principaux Services Cloud:


6.3. Software as a Service (SaaS) :
• Concerne la mise à disposition d’applications d’entreprise : CRM, outils collaboratifs,
messagerie, Business Intelligence, ERP, etc.

• Les applications ici sont mises à la disposition des consommateurs. Elles peuvent être
manipulées à l'aide d'un navigateur web ou installées de façon locative sur un PC, et le
consommateur n'a pas à se soucier d'effectuer des mises à jour, d'ajouter des patches de
sécurité et d'assurer la disponibilité du service.

• Le fournisseur offre une fonction opérationnelle et gère de façon transparente pour


l’utilisateur l’ensemble des aspects techniques requérant des compétences
informatiques. Le client garde la possibilité d’effectuer quelques paramétrages de
l’application.
• Un fournisseur de software as a service peut exploiter des services de type platform as a 84service,
qui peut lui-même se servir de infrastructure as a service.
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

6. Les principaux Services Cloud:


6.3. Software as a Service (SaaS) :
Exemples

• Salesforce CRM, Microsoft Dynamics CRM on line (Gestion Relation Client).


• Google Apps (Outils bureautiques) : Google documents, Agenda, Talk…
• BaseCamp (Gestion de projets) – La tendance est au travail en mode projet et il est important d’y
avoir accès en continue.
• FaceBook, Viadeo (Réseaux sociaux) : nouveau mode de communication.
• Gmail est un exemple de tel service. Il offre au consommateur un service de courrier électronique.
• Office 365 propose un ensemble de services en abonnement dont la suite logicielle Office qui se met
automatiquement à jour, l'utilisateur ne se soucie pas de racheter un nouveau logiciel ou de le mettre à
jour. On parle ici de location de services hébergés par Microsoft.
• Autres exemples : Google Apps, Office Online ou LotusLive (IBM) 85

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

7. Autres Services Cloud:


Autres services également disponibles :

• Data as a Service : correspond à la mise à disposition de données


délocalisées quelque part sur le réseau.

• BPaaS : il s'agit du concept de Business Process as a service (BPaaS) qui consiste à externaliser
une procédure d'entreprise suffisamment industrialisée pour s'adresser directement aux
managers d'une organisation, sans nécessiter l'aide de professionnels de l'informatique

• Network as a Service (NaaS) : le Network as a Service correspond à la fourniture de


services réseaux, suivant le concept de Software Defined Networking (SDN).

86
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

7. Autres Services Cloud:

• STaaS : STorage as a Service correspond au stockage de fichiers chez des prestataires


externes, qui les hébergent pour le compte de leurs clients. Des services grand public, tels
que Microsoft OneDrive, SugarSync et [Link], proposent ce type de stockage, le plus
souvent à des fins de sauvegarde ou de partage de fichiers. Voici d'autres exemples :
Microsoft SharePoint, Amazon S3, Dropbox, Google Drive, HubiC, iCloud, Ubuntu One,
Windows Live Mesh, Wuala.

• Communication as a Service (CaaS): correspond à la fourniture de solutions de


communication substituant aux matériels et serveurs locaux (PABX, ACD, SVI...) des
ressources partagées sur Internet.

87

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

8. Les contrôleurs du Cloud

Cette représentation des différents


modèles de service comment montre
les responsabilités sont théoriquement
réparties suivant les modèles interne,
IaaS, PaaS, SaaS

88
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

9. Les principaux acteurs du Cloud:


Les fournisseurs de services de Cloud Computing sont des hébergeurs, Ils
mettent à disposition des infrastructures physiques proposant une plate-
forme de Cloud. Les principaux acteurs: [Link], Amazon, Google,
VMware et Microsoft :

1. SALESFORCE:
[Link] est une société créée en 1999. Elle est devenue l'une des
pionnières du modèle SaaS grâce à son outil historique de CRM (Customer
Relationship Management) intitulé Salesforce.
2. Google
En 2008, Google a lancé son Cloud public orienté pour les services Web
offrant une plateforme (PaaS) nommée « Google App Engine» et permettant
l'hébergement d'applications Python ou Java, ainsi que des applications SaaS
regroupées dans la gamme «Google App». 89

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

9. Les principaux acteurs du Cloud:


3. Amazon
Amazon, au travers d’ « Amazon Web Services » (AWS) met à disposition un Cloud public
depuis 2006. Aujourd'hui, Amazon propose un service d’IaaS avec « EC2 » (Elastic
Compute Cloud) et différents PaaS liés ou non à leur boutique.
4. VMware
VMware est une entreprise créée en 1998. Pendant plus de 10 ans, elle a conçu différents
produits liés à la virtualisation. En 1999 apparaissait la première version de VMware
Workstation, un logiciel client permettant la virtualisation de machines virtuelles. Depuis
2008, VMware n'a cessé d'investir dans le marché du Computing, en rachetant différentes
entreprises comme Zimbra (application SaaS de collaboration)
5. Microsoft
Microsoft annonçait l'arrivée de sa propre solution de Cloud Computing nommée
Windows Azure. Cette dernière a été rendue commerciale en janvier 2010, Le Cloud de
Microsoft s'est aussi des applications SaaS de la gamme Live et Online Service.

90
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

9. Les acteurs du Cloud:

91

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

9. Les acteurs du Cloud:


Exemple: DROPBOX

• Permet de synchroniser les dossiers, ainsi que les sous-dossiers applicatifs … et les
fichiers préférences, entre des ordinateurs distants, une tablette et un Smartphone
[étant tous connectés à Internet _ ADSL, WiFi …).
• Assure un accès sécurisé à tous vos fichiers. Collaborez avec amis, famille et collègues
depuis tout appareil.

92
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

Acteur Description
Un outil de stockage qui manque de fonctionnalités. On apprécie pourtant son interface Web.
(Basic Features)
Un service assez complet et surtout dédié au monde de l'entreprise, qui regorge de plugin en tout genre.
En revanche, sa version gratuite est relativement lente (environ 500 ko/s en upload), ce qui gâche
l'ensemble. (15 Go gratuit)
Streaming, édition de contenu, facilité d'accès : tout y est. On se sent juste un peu à l'étroit avec 2 Go par
défaut. . (2 Go+ gratuit)
Tout y est : du streaming à l'édition de fichiers, en passant par une disponibilité exemplaire. On espère
juste qu'un jour, Google chiffre les données sur ses serveurs. . (15 Go gratuit)
Un bon site, qui offre 25 Go gratuitement. En revanche, on peut lui reprocher sa vitesse de transfert
limitée et son absence de streaming. . (Gratuit)
Le fameux site de Kim Dotcom chiffre vos données, offre 50 Go et ne manque pas de rapidité. Vivement
que les logiciels de synchronisation pour PC et MAC fassent leur apparition. (Gratuit)
Dommage que sa vitesse de chargement ne soit pas à la hauteur, car le service de Microsoft est
vraiment très complet. (Gratuit)
Un service qui offre 100 Go, mais qui manque vraiment d'originalité et de fonctionnalités. 93
(Standard Free)

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

10. Sécurité et Cloud:

• La sécurité du Cloud englobe les technologies, les contrôles, les processus et les
politiques qui se combinent pour protéger les systèmes, les données et les
infrastructures basés sur le Cloud.

• Il s’agit d’une responsabilité partagée entre le client et son fournisseur de services


de Cloud.

• Avec les dernières études de l’(ISC)2 (International Information System Security


Certification Consortium) indiquant que 93 % des organisations sont modérément ou
extrêmement préoccupées par la sécurité dans le Cloud.
94
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

10. Sécurité et Cloud:


Problématiques de sécurité spécifiques

Confidentialité, intégrité,
disponibilité Juridique, souveraineté
•Accès aux données par du personnel externe à
l’entreprise et pas directement sous contrat
(exemple prestataire réseau). •De quelle juridiction/pays vont
•Authentification hors défenses périmétriques dépendre vos données et les machines
(login/password sur internet). de votre fournisseur de cloud ?
•Hébergement des données sur du matériel
n’appartenant pas à l’entreprise (exemple espace
de stockage à la demande).
•…
95

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

10. Sécurité et Cloud:


La sécurité dans le Cloud est une exigence essentielle.
• Gestion des identifiants (identités).
• Secret: Sécurité et confidentialité des données.
• Sécurité physique et personnelle.
• Non maîtrise de son informatique confiée des tiers. Confiance accordée dans le prestataire tiers.
Dépendance ou liberté par rapport à ce dernier ? Pérennité de l’hébergeur.
• Disponibilité (garantie à 99 % ? Ou bien à combien ? Quel contrat ?).
• Maturité des applications. Certaines applications sont peu ou pas adaptées à l’interface web.
• Contrôle des applications.
• Questions juridiques _ localisation des données ou du data center, dépendantes de législations
territoriales.
• Aspects contractuels : Les clauses des contrats de services cloud concernent principalement la
disponibilité, la sécurité, la confidentialité et le support.
96
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

10. Sécurité et Cloud:


Il existe un ensemble de stratégies et d’outils largement établis que vous pouvez utiliser pour mettre en place une
solide sécurité dans le Cloud, notamment:
 Gestion des identités et des accès
Toutes les entreprises doivent disposer d’un système de gestion des identités et des accès (IAM) pour contrôler
l’accès aux informations. Un IAM combine des politiques d’authentification et d’accès des utilisateurs pour aider à
contrôler leurs applications et leurs données. Sécurité physique
 Renseignement, surveillance et prévention des menaces
Les outils de renseignement sur les menaces et les IDS offrent des fonctionnalités pour identifier les attaquants qui
ciblent actuellement ces systèmes ou qui constitueront une menace future. Cryptage (chiffrement)
En utilisant la technologie du Cloud, vous envoyez des données vers et depuis la plateforme du fournisseur de
Cloud, souvent en les stockant dans leur infrastructure. C’est pour protéger les données, en les encodant
lorsqu’elles sont au repos et en transit et garantir que les données sont quasiment impossibles à déchiffrer.

97

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

10. Sécurité et Cloud:

 Test de vulnérabilité et de pénétration du Cloud


Se sont des pratiques impliquent que le client peut (ou son fournisseur) – attaquer son propre
infrastructure de Cloud afin d’identifier toute faiblesse ou exploitation potentielle.

 Micro-Segmentation
Il s’agit de la pratique consistant à diviser le déploiement de client dans le Cloud en segments de
sécurité distincts, jusqu’au niveau de la charge de travail individuelle.
En isolant les charges de travail individuelles, on applique des politiques de sécurité flexibles pour
minimiser les dommages qu’un attaquant pourrait causer, s’il y avait accès

98
08/12/2024

1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion

11. Conclusion
• Le Cloud Computing émerge comme une révolution technologique majeure qui transforme la
manière dont les entreprises gèrent leurs ressources informatiques. Nous avons exploré les
différentes couches du cloud, de l'infrastructure en tant que service (IaaS) à la plateforme en tant
que service (PaaS) et au logiciel en tant que service (SaaS). Ce modèle offre une flexibilité
inégalée, permettant aux organisations de dimensionner leurs ressources en fonction des besoins,
d'améliorer l'efficacité opérationnelle et de réduire les coûts.

• En outre, le Cloud Computing favorise l'innovation en offrant un accès facile aux dernières
technologies telles que l'intelligence artificielle, l'apprentissage automatique et l'analyse de
données avancée. Les avantages sont évidents, mais il est essentiel de considérer également les
défis liés à la sécurité, à la confidentialité des données et à la dépendance envers les fournisseurs
de services Cloud.
99

1 Introduction au Big Data et Cloud

2 Big Data

3 Cloud Computing

4 Traitement des données

100
08/12/2024

1. Introduction
2. Hadoop
3. HDFS
4. MapReduce V1
5. MapReduce V2 & YARN
6. La différence entre Hadoop &
MongoDB
7. MongoDB
8. Conclusion

1. Introduction 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

1. Introduction
• La capacité à gérer, analyser et extraire des informations exploitables à partir de vastes ensembles de
données est essentielle dans un monde où les données prolifèrent à une échelle sans précédent.
• Avec son volume, sa vélocité et sa variété uniques, le Big Data a donné naissance à des technologies
spécialisées qui sont importantes dans ce contexte.
• Hadoop et MongoDB sont deux technologies importantes qui proposent des approches distinctes mais
complémentaires pour résoudre les problèmes de Big Data.

102
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

2. Hadoop

103

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

2. Hadoop
• Le système de stockage de données HDFS (Hadoop Distributed File System)
• Le traitement des données utilise MapReduce/Yarn.

• Principe :
 Diviser les données et les stocker dans un groupe de machines appelé cluster.
 Plutôt que de copier les données à partir d'un serveur distribué, traiter les données directement dans
leur emplacement de stockage.

104
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

2. Hadoop
 Parmi ces outils, certains se trouvent au dessus de la couche
Yarn/MR, tel que:

• Pig: Langage de script


• Hive: Langage proche de SQL (HiveQL)
• RConnectors: permet l’accès à HDFS et l’exécution de requêtes
Map/Reduce à partir du langage R
• Mahout: bibliothèque de machine Learning et mathématiques
• Oozie: permet d’ordonnancer les jobs MapReduce, en définissant des
workflows

 D’autres outils sont directement au dessus de HDFS, tel que :


• Hbase: Base de données NoSQL orientée colonnes
• Impala: Permet le requêtage de données directement à partir de HDFS
(ou de Hbase) en utilisant des requêtes Hive SQL
105

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

 Certains outils permettent de connecter HDFS aux sources


externes, tel que:

• Sqoop: Lecture et écriture des données à partir de bases de données


externes
• Flume: Collecte de logs et stockage dans HDFS

 Outils permettent la gestion et administration de Hadoop:


• Ambari: outil pour le provisionnement, gestion et monitoring des
clusters
• Zookeeper: fournit un service centralisé pour maintenir les
information de configuration, de nommage et de synchronisation
distribuée

106
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

Les distributions Hadoop

• Hortonworks:

- Fondée par un groupe de Yahoo en juin 2011.


- La distribution Hadoop la plus proche de la plateforme d'origine Apache Hadoop
- Utilisé dans la gamme de services cloud de Microsoft Azure

• MapR:
- Fondée par une équipe de Google en 2009,
- Versions payantes et open-source
- Composants spécifiques (MapR FS, MapR MR,...).
- Utilisé dans les offres cloud de Google GCE et Amazon EMR

• Cloudera:
- Fondée par des professionnels de diverses origines (Facebook, Google, Oracle et Yahoo)
- Spécialisé dans les services de support commercial, de formation et de certification
107

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

3. Présentation de l'HDFS
 Définition:  Fonctionnalités :
HDFS est un système de fichiers distribué qui gère de • Gestion des fichiers par blocks
grands ensembles de données sur du matériel de base. • Réplication & distribution
Il permet d'étendre un seul cluster Apache Hadoop à • Distribution sur le réseau
des centaines, voire des milliers de nœuds.
 Utilisation:
 Caractéristiques : • Commandes bash
• Tolérance aux pannes • Librairies Java & autres langages
• Scalable • Interfaces REST (HttpFS ou WebHDFS)
• Simple à mettre en place

108
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

3. Présentation de l'HDFS
 Notion de NameNode & DataNode:

109

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

3. Présentation de l'HDFS
 Notion de NameNode & DataNode:

110
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

3. Présentation de l'HDFS
 Notion de NameNode & DataNode:

 Si l'un des nœuds a un problème, les données seront


perdues
• Hadoop réplique chaque bloc 3 fois
• Il choisit 3 nœuds au hasard, et place une copie du bloc
dans chacun d'eux
• Si le nœud est en panne, le NN le détecte, et s'occupe de
répliquer encore les blocs qui y étaient hébergés pour avoir
toujours 3 copies stockées
• Concept de Rack Awareness (rack baie de stockage)

111

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

3. Présentation de l'HDFS
 Notion de NameNode & DataNode:

112
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

4. MapReduce V1

113

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

4. MapReduce V1
 Exemple

114
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

4. MapReduce V1
 Exemple

115

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

4. MapReduce V1

116
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

4. MapReduce V1 - Exemple

117

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

4. MapReduce V1 - Exemple

118
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

Fonctionnement
• Les Mappers sont des petits programmes qui commencent par traiter une petite
quantité de données.
• Ils fonctionnent en parallèle
• Les enregistrements intermédiaires sont représentés par leurs sorties : sous forme
d’un couple (clef et valeur)
• Il y an une étape de mélange et de tri qui suit.
o Mélange: Sélection des mappers de piles de fiches
o Tri: Les piles sont rangées par ordre au niveau de chaque Reducer.
• Pour générer les résultats finaux, chaque Reducer traite un ensemble
d'enregistrements à la fois.
• Pour obtenir des résultats triés par ordre, il est nécessaire de :
o Si vous avez un seul Reducer mais qu'il ne se met pas bien à l'échelle,
o vous devez ajouter une autre étape pour faire le tri final.
• Dans le cas où il y a plusieurs Reducers, il est impossible de déterminer lesquels
traitent certains clés, car le partitionnement est aléatoire. 119

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

Fonctionnement

120
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

4. MapReduce V1- Problèmes

121

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

5. MapReduce V2 & YARN

YARN: Yet Another Resource Negotiator

122
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

5. MapReduce V2 & YARN -Fonctionnement

123

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

5. MapReduce V2 & YARN -Fonctionnement

124
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

6. La différence entre Hadoop & MongoDB


• Deux technologies distinctes, MongoDB et Hadoop, sont utilisées pour des applications distinctes dans les
domaines du stockage et du traitement des données.

125

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

6. La différence entre Hadoop & MongoDB

• Hadoop est un framework conçu pour le stockage et le traitement


distribué de grands ensembles de données, souvent utilisé pour l'analyse de
données massives.
• MongoDB est une base de données NoSQL adaptée à la gestion de
données non structurées.
• Certains architectures peuvent combiner ces deux technologies pour
maximiser leurs avantages.

126
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

7. MongoDB- Concepts
• MongoDB fonctionne sur le concept de : Base de données, Collection, Document, Base de
données
Base de données
• La base de données dans MongoDB est le conteneur physique des données. Ensuite, sur un seul serveur
MongoDB, plusieurs bases de données sont disponibles et chaque base de données contient un système de
fichiers et un ensemble de fichiers.
Collection
• La collection dans MongoDB est le groupe de documents de base de données. MongoDB peut avoir
différents champs dans le même document, mais les documents de la même collection sont destinés à être
stockés dans le même but.
Document
Le document est l'ensemble des paires clé-valeur (essentiellement au format JSON). Chaque document a une
structure de schéma dynamique. Cela signifie que chaque document de la collection peut avoir une structure ou
des champs différents et si les deux documents ont un champ identique ou commun. Ensuite, il se peut qu’il ne
contienne pas le même type de données. 127

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

7. MongoDB- Architecture

128
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

7. MongoDB- Architecture

Mongos
Mongos est le composant qui fait office d'interface entre le client et les clusters de partitions. Ensuite, cette
instance Mongos se connecte aux serveurs de configuration pour déterminer quelle partition doit répondre à
quelle requête.

Serveur de configuration
Config Server contient les métadonnées d'une partie des données dans chaque partition. Ensuite, cela
continuera à se connecter de manière redondante avec tous les autres composants de la base de données pour
garantir que les mangues puissent répondre à tout moment avec les données demandées.

129

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

7. MongoDB- Architecture
 Fragment
La fragmentation est le concept de distribution de données sur plusieurs machines. Ce qui signifie mettre à
l'échelle ou répondre à la croissance du système de mongoDB. Essentiellement, il dispose de deux méthodes de
fragmentation

• Fragmentation verticale : cela augmentera la capacité d'un seul serveur, comme la puissance du processeur,
en ajoutant plus de RAM ou en augmentant la quantité d'espace de stockage.

• Fragmentation horizontale : cela divisera l'ensemble de données du système et le distribuera sur plusieurs
serveurs, en ajoutant des serveurs supplémentaires pour augmenter la capacité si nécessaire.

 Ensemble de répliques
Chaque fragment est déployé en tant qu'ensemble de réplicas, qui est le cluster de serveurs MongoDB qui
implémente le basculement et la réplication automatisés.
130
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

7. MongoDB- Exemple

131

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

7. MongoDB- Importance
MongoDB présente de nombreux avantages par rapport aux autres bases de données traditionnelles.
« L’évolutivité » est un aspect important à considérer MongoDB.
D'autres raisons importantes que nous devons considérer MongoDB sont les suivantes:
Plateforme de données distribuées : les données peuvent être distribuées à l'échelle global si vous configurez
correctement le système.
Recherche de texte : une fonctionnalité prête à l'emploi appelée Recherche de texte permet aux données
d'entrer dans la couche d'application sans effort.
Modèle de données flexible : MongoDB prend en charge le schéma dynamique qui n'empêchera pas les
développeurs de modifier la structure à tout moment.
Développement rapide et itératif : comme MongoDB prend en charge le changement et adopte les
changements, le développement du projet peut être plus rapide et agile.
Fonctionnalités intégrées : des fonctionnalités telles que la plateforme analytique, la visualisation des
données, le pipeline de données en streaming piloté par événements, la recherche textuelle et géospatiale, le
traitement des graphiques, les performances en mémoire et la sécurité aident les développeurs à mettre en
œuvre sans efforts d'intégration supplémentaires.
Économique et rentable :comparé à d'autres systèmes de bases de données, MongoDB est rentable, et le
support et la maintenance sont très économiques. 132
08/12/2024

[Link] 2. Hadoop 3. HDFS 4. MapReduce V1 5. MapReduce V2 & YARN


6. La différence entre Hadoop & MongoDB 7. MongoDB 8. Conclusion

8. Conclusion

133

Références

• Big Data Analytics- lesson 1: What is big Data, IBM, Big Data University
• Intro to Hadoop and Map reduce, Coursera, Udacity
• Introduction to YARN and MapReduce2, Cloudera
• 7 Most Infamous Cloud Security Breaches – StorageCraft. Retrieved
from [Link]

134

Vous aimerez peut-être aussi