Big Data et Cloud: Faits, Intérêts, Défis
Big Data et Cloud: Faits, Intérêts, Défis
2 Big Data
3 Cloud Computing
2
08/12/2024
1. Big Data
1.1. Faits
1.2. Intérêts
1.3. Sources
1.4. Challenges
2. Cloud Computing
2.1. Faits
2.2. Intèrêts
2.3. Fourisseurs Cloud
2.4. Challenges
1. Big Data
1.1. Faits 1.2. Intérêts 1.3. Sources 1.4. Challenges
• Chaque jour, nous générons plus que 2,5 trillions d’octets de données
• 90% des données dans le monde ont été créées au cours des dizaine dernières années.
• 90% des données générées sont non structurées.
1. Big Data
1.1. Faits 1.2. Intérêts 1.3. Sources 1.4. Challenges
1. Big Data
1.1. Faits 1.2. Intérêts 1.3. Sources 1.4. Challenges
6
08/12/2024
1. Big Data
1.1. Faits 1.2. Intérêts 1.3. Sources 1.4. Challenges
1. Big Data
1.1. Faits 1.2. Intérêts 1.3. Sources 1.4. Challenges
Alimente
2. Cloud Computing
2.1. Faits 2.1. Intérêts 2.3. Fournisseurs Cloud 2.4. Challenges
10
08/12/2024
2. Cloud Computing
2.1. Faits 2.1. Intérêts 3.1. Fournisseurs Cloud 2.4. Challenges
11
2. Cloud Computing
2.1. Faits 2.1. Intérêts 3.1. Fournisseurs Cloud 2.4. Challenges
2. Cloud Computing
2.1. Faits 2.1. Intérêts 3.1. Fournisseurs Cloud 2.4. Challenges
13
2. Cloud Computing
2.1. Faits 2.1. Intérêts 3.1. Fournisseurs Cloud 2.4. Challenges
Interopérabilité et
flexibilité Environnements multi-clouds
Challenges
2 Big Data
3 Cloud Computing
15
1. Motivations
2. Définitions
3. Caractéristiques
4. Généralités
5. Cas d’utilisation
6. Les acteurs de l’Open Source
7. Plateformes, Technologies & Outils
8. Conclusion
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
1. Motivations
L’apparition du phénomène Big Data ces dernières
années résulte de plusieurs constats :
• Les sources et volumes de données disponibles ne
cessent de croître.
• Le concept de Big Data est apparu pour faire face
à l’augmentation croissante de la masse de
données.
• Aujourd’hui, les volumes de données sont très
[Link]
conséquents et il est impératif de trouver des evolution-volume-donnees-numeriques-genere-dans-le-
monde/
solutions de stockage et d’analyse adéquates. 17
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
1. Motivations
• L’évolution du hardware de stockage capable de stocker de plus en plus de
données, ainsi que la remise en cause du modèle matériel existant, celui où il
fallait acheter le plus gros serveur possible. Actuellement, la nouvelle
évolution consiste à mettre en série des petits serveurs remplaçables et de
créer un système distribué résistant aux pannes.
• Dans des marchés de plus en plus compétitifs, la survie d’une entreprise
dépend de sa capacité à anticiper et se montrer réactive face aux fluctuations
de son marché et aux événements culturels, politiques ou économiques. D’où
l’explosion des outils d’analyse, d’extraction et de traitement des données de
manière non structurée.
18
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
1. Motivations
• Le Big Data a ainsi permis d’étendre et de diversifier le périmètre
d’analyses prédictives et de sentiments, et d’en renforcer leur fiabilité,
par l’intégration de nouvelles variables issues de réseaux sociaux,
moteurs de recherche, presse, données macro-économiques, etc.
• En s’appuyant sur ces nouvelles méthodes d’analyse prédictive, les
entreprises peuvent dégager des tendances de marché, identifier des
risques et des opportunités, fiabiliser leurs prévisions de marché, ou
encore prédire le succès d’un futur produit.
Les bases de données classiques ne permettant plus de gérer de tels volumes, les grands
acteurs du web ont créé des applications Big Data permettant de gérer, traiter et analyser des
grandes quantités de données pour répondre aux besoins évoqués ci-dessus. 19
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
2. Définitions
• L’expression Big Data traduite en français « méga_données » ou « données massives »
désigne la masse de données numériques produites par les particuliers ou les entreprises
lorsqu’ils se connectent sur Internet.
Big Data : « des données qui sont trop volumineuses ou ayant une arrivée trop rapide ou une
variété trop grande pour permettre de les ranger directement dans des bases de données
traditionnelles ou de les traiter par les algorithmes actuels » . Les informations récupérées
nécessitent des outils de stockage (serveurs) et d’analyse de plus en plus puissants et
sophistiqués. Ces données permettent d’analyser, d’anticiper ou de répondre aux besoins de
produits ou services des consommateurs.
20
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
Big Data est une trace numérique que nous générons Big Data fait référence que volumes de données
dans cette ère numérique. Cette trace numérique est dynamiques, volumineux et disparates créés par des
constituée de toutes les données capturées lorsque personnes, des outils et des machines. Elle nécessite
nous utilisons la technologie numérique. L’idée de base une technologie nouvelle, innovante et évolutive pour
derrière l’expression Big Data est que tout ce que nous collecter, héberger et analyser analytiquement la
faisons laisse de plus en plus une trace numérique que grande quantité de données collectées afin d’obtenir
nous pouvons utiliser et analyser pour devenir des informations en temps réel sur les clients, les
intelligent. risques, les bénéfices, la performance, la gestion de la
productivité et la valeur actionnariale.
Bernard Moore Ernst and Yong
Big Data sont des ressources d’information high- Big Data comme une collection de données provenant
volume, high-velocity, and/or high-variety qui exigent de sources traditionnelles et numériques de l’intérieur
des formes de traitement de l’information rentables et et de l’extérieur d’une entreprise qui représentent une
innovantes permettant une meilleure compréhension, source continue de découverte et d’analyse.
prise de décision et automatisation des processus.
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
2017
• Les V(s) de Big Data
2016
2015 10V
2012 1. Volume
7V 2. Variété
2001 1. Volume
5V 2. Variété
3. Vélocité
4V 1. Volume
3. Vélocité
4. Véracité
3V 1. Volume 2. Variété 5. Valeur
4. Véracité
2. Variété 3. Vélocité 6. Variabilité
1. Volume 5. Valeur
3. Vélocité 4. Véracité 7. Visualisation
2. Variété 6. Variabilité
4. Véracité 5. Valeur 8. Validité
3. Vélocité 7. Visualisation
9. Vulnérabilité
10. Volatilité
22
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
• Volume 2017
- C’est le caractère qui décrit le mieux par le terme «Big». 2016
- Décrit la quantité de données générées par des
2015 entreprises, les objets connectés, ou des personnes.
- Fait référence à la quantité d’informations, trop volumineuses pour être acquises, stockées, traitées,
analysées et diffusées par des outils standards.
- Peut s’interpréter comme le traitement d’objets informationnels de grandes tailles ou de grandes
collections d’objets.
Exemple:
- Les médias sociaux, car ils ont un impact considérable sur l’explosion des données.
- Depuis 2016, plus de 2 000 milliards de publications et 250 milliards de photos ont été
téléchargés.
- Facebook regorge de données personnelles et ses 2,2 milliards d’utilisateurs partageant des
données à chaque seconde.
La gestion de cette quantité de données serait impossible sans le développement du Big
Data. 23
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
• Volume 2017
- 4,4 zettaoctets de données = 4,4 trillion de gigaoctets 2016
- En 2013, il y a autant de données que les étoiles
2015 connues dans tout l’univers.
24
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
2017
• Variété
2016
- Traitement des données sous forme: 2015
o Structurée ( base de données structurée, feuilles de calcul venant de
tableur, …),
o Semi- Structurée (Les fichiers XML ou les documents JSON sont
des exemples de données , …)
o Non structurée( textes, sons, images, vidéos, données de capteurs
fichiers journaux, médias sociaux, signaux,…)
qui doivent faire l’objet d’une analyse collective
25
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
2017
• Vélocité (=Vitesse)
2016
– Fait référence à l’aspect dynamique 2015
et/ou temporel des données, à leur délai
d’actualisation et d’analyse.
– La vitesse décrit la fréquence à laquelle les données sont générées, capturées ou
partagées.
– Fait référence à la vitesse à laquelle de nouvelles données sont générées et la vitesse à
laquelle les données sont traitées par le système pour être bien analysées.
– La technologie nous permet maintenant d’analyser les données pendant qu’elles sont
générées, sans jamais mettre en bases de données
26
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
• Vélocité (=Vitesse) 2017
2016
2015
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
• Véracité 2017
2016
– Fait référence à la précision et à la correction des données pour l’usage auquel elles sont destinées.
C’est à dire à la qualité ou à la fidélité des
2015 données et/ou aux problèmes éthiques liés à leur
utilisation.
– Il comprend les problèmes de valeurs aberrantes ou manquantes (ces problèmes pouvant être
résolus par le volume de données), mais aussi à la confiance que l’on peut avoir dans les données.
Données bruités, imprécises, prédictives,…
Exemple:
– La génération des données par Spambots est un exemple digne de confiance
l’élection présidentielle de 2012 au Mexique avec de faux comptes Twitter.
– Des Millions de Dollars $ par An
Ce que la pauvre qualité de données coute pour l’économie des Etats-Unis.
– 1 à 3 Chefs d’Entreprise : ne font pas confiance à l’information qu’ils utilisent.
28
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
2017
• Valeur
2016
– Fait référence à la potentialité des données,
2015en particulier en termes économiques.
– Il est ainsi associé à l’usage qui peut être fait de ces mégadonnées, de leur analyse, notamment d’un
point de vue économique.
– L’analyse de ces mégadonnées demande une certaine expertise tant liée à des méthodes et
techniques en statistique, en analyse de données, que de domaine pour l’interprétation de ces
analyses.
La valeur est, donc, définie comme l'utilité des données pour une entreprise.
– La valeur dépend également de la durée du traitement des données parce que les résultats d'analyse
ont une durée de vie. 29
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
2017
• Valeur
2016
Exemple
2015
une cotation boursière différée de 20 minutes a peu ou pas de valeur pour effectuer une
transaction par rapport à un devis vieux de 20 millisecondes.
La valeur et le temps sont inversement liés: Plus il faut de temps pour que les données
soient transformées en informations significatives, moins elles ont de valeur pour une
entreprise.
30
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
• Valeur 2017
Exemple 2016
2015 a peu ou pas de
une cotation boursière différée de 20 minutes
valeur pour effectuer une transaction par rapport à un devis vieux
de 20 millisecondes.
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
• Variabilité 2017
– Fait référence à plusieurs choses:
2016
2015
o Tout d’abord c’est le nombre d’incohérences dans les données. Celles-ci doivent être
détectées par des techniques de détection d’anomalies et de valeurs aberrantes pour faciliter
la création d’analyse significative.
o Les mégadonnées sont également variables en raison de la diversité de dimensions
résultant de multiples types et sources de données.
La variabilité peut également faire référence à la vitesse incohérente à laquelle les données
volumineuses sont chargées dans votre base de données.
32
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
• Visualisation 2017
– Une autre caractéristique du Big Data est la difficulté à les visualiser.
2016
• Problème: Les logiciels de visualisation de 2015
données volumineuses actuels sont confrontés à des
problèmes techniques en raison des limitations de la technologie en mémoire, de leur faible
évolutivité, de leur fonctionnalité et de leur temps de réponse. Il est impossible de vous fier aux
graphiques traditionnels lorsque vous essayez de tracer un milliard de points de données.
• Solution: Il est donc nécessaire d’avoir différentes manières de représenter des données. Telles
que la mise en cluster de données ou l’utilisation de cartes d’arbres, de sunbursts, de
coordonnées parallèles, de diagrammes de réseau circulaires ou de cônes.
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
• Validité 2017
2016
– Similaire à la véracité,
2015
– Fait référence à la précision et à la correction des données pour l’usage auquel elles sont
destinées.
– Selon Forbes, environ 60% du temps d’un scientifique est consacré au nettoyage de ses données
avant de pouvoir effectuer une analyse.
– L’avantage de l’analyse des données massives est aussi primordiale que celui des données sous-
jacentes.
Vous devez donc avoir de bonnes pratiques. De gouvernance des données pour garantir une
qualité des données cohérente, des définitions communes et des métadonnées. 34
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
• Vulnérabilité 2017
2016
– Le Big Data apporte de nouveaux problèmes de sécurité. Après tout, une violation de données
2015
avec Big Data est une grande violation.
Malheureusement, il y a quotidiennement des violations de données massives.!!!!!!!!!!!!!!
– Un exemple, rapporté par CRN: en mai 2016, “un pirate informatique appelé Peace a posté des
données sur le web sombre pour les vendre, qui auraient inclus des informations sur 167 millions
de comptes LinkedIn et … 360 millions d’e-mails et de mots de passe pour les utilisateurs de
MySpace”.
35
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
• Volatilité 2017
2016
– Quel âge doivent avoir vos données pour qu’elles soient considérées comme non pertinentes,
2015
historiques ou obsolete?
– Combien de temps faut-il conserver les données?
– Avant l’ere big data, en général on stockait les données indéfiniment. Quelques téraoctets de
données ne pouvaient pas engendrer de dépenses de stockage élevées.
– En raison de la vitesse et du volume de ces données massives, leur volatilité doit être
soigneusement prise en compte.
Il est maintenant fondamental d’établir des règles pour la disponibilité et à la mise à jour des
données afin de garantir une récupération rapide des informations en cas de besoin. 36
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
3. Caractéristiques
2017
2016
2015
[Link] 37
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Types des données Big Data 2017
2016
2015
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Types des données Big Data 2017
• Structurées 2016
2015
– Les données qui peuvent être stockées et traitées dans un format fixe sont appelées données
structurées.
– Les données stockées dans un système de gestion de bases de données relationnelles (SGBDR)
sont un exemple de données « structurées ».
– Il est facile de traiter des données structurées car il y’a un schéma.
– Le langage de requête structuré (SQL) est souvent utilisé pour gérer ce type de données.
39
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Types des données Big Data 2017
2016
2015
• Semi-structurées
– Les données semi-structurées sont un type de données qui n'a pas de structure d'un modèle de
données: c'est-à-dire une définition de table dans un SGBD relationnel, mais néanmoins à des
propriétés organisationnelles comme des balises et d'autres marqueurs pour séparer la
sémantique élément qui facilitent l'analyse.
– Les fichiers XML ou les documents JSON sont des exemples de données semi-structurées.
40
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Types des données Big Data 2017
2016
• Non structurées
2015
– Les données qui ont une forme inconnue , ne peuvent pas être stockées dans SGBDR et ne
peuvent être analysées que si elles sont transformées en un format structuré.
– Exemples: Fichiers texte et contenu multimédia tels que des images, des fichiers audio et des
vidéos. Les données non structurées croissent plus rapidement que d'autres, les experts affirment
que 80% des données d'une organisation ne sont pas structurées.
Le Big Data comprend toujours des données de sources multiples et, la plupart du temps, de
différents types. Il n’est donc pas toujours facile de savoir comment intégrer tous les outils
dont on a besoin pour travailler avec différents types de données.
41
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Quel est le problème posé par ces énormes quantités de données? 2017
2016
2015
– Auparavant, quand les systèmes d’application de gestion de base de données ont été réalisés, ils
ont construits avec une échelle à l’esprit (limité).
– Même les organisation n’ont pas été préparées à l’échelle que nous produisons aujourd’hui.
– Comme les exigences de ces organisations ont augmenté au fil du temps, ils doivent repenser et
réinvestir dans l’infrastructure.
– Actuellement, le coût des ressources impliquées dans l’extension de l’infrastructure,
s’augmente avec un facteur exponentiel.
– De plus, il y aurait une limitation sur les différents facteurs tels que la taille de la machine, CPU,
RAM, etc. qui peuvent être mis à l’échelle (scaled up). Ces systèmes traditionnels ne seraient pas
en mesure de soutenir l’échelle requise par la plupart de ces entreprises
42
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Adaptabilité 2017
2016
Dans ce nouveau contexte, les méthode2015 de traitement de ces données (Capture, stockage,
recherche, partage, analyse, visualisation) doivent être redéfinies car l’ensemble de ces
données deviennent difficilement manipulables par les outils classiques.
43
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Comment le Big Data gère ces situations complexes? 2017
2016
La plupart des outils et des frameworks de Big Data sont construits en gardant à l’esprit les
2015
caractéristiques suivantes:
- La distribution des données: Le grand ensemble de données est divisée en morceaux ou en
petits blocs et réparti sur un nombre N de nœuds ou de machines.
- Ainsi les données sont réparties sur plusieurs nœuds et sont prêtes au traitement parallèle.
- Dans le monde de Big Data, ce type de distribution de données est réalisé à l’aide d’un Système
de Fichiers Distribués-DFS (Distributed File System).
44
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Comment le Big Data gère ces situations complexes? 2017
2016
2015
- Le traitement en parallèle: Les données distribuées obtiennent la puissance de N nombre de
serveurs et de machines dont les données résident. Ces serveurs travaillent en parallèle pour le
traitement et l’analyse. Après le traitement, les données sont fusionnées pour le résultat final
recherché. (Actuellement ce processus est réalisé par MapReduce de Google qui sera détaille
dans un chapitre ultérieur).
- La tolérance aux pannes: En général, nous gardons la réplique d’un seul bloc (ou chunk) de
données plus qu’une fois. Par conséquent, même si l’un des serveurs ou des machines est
complètement en panne, nous pouvons obtenir nos données à partir d’une autre machine ou
d’un autre « data center ».
45
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Comment le Big Data gère ces situations complexes? 2017
2016
2015
- L’utilisation de matériel standard: La plupart des outils et des frameworks Big Data
ont
besoin du matériel standard pour leur travail. Donc nous n’avons pas besoin de matériel
spécialisé avec un conteneur spécial des données « RAID ». Cela réduit le coût de
l’infrastructure totale.
- Flexibilité, évolutivité et scalabilité: il est assez facile d’ajouter de plus en plus de nœuds
dans le cluster quand la demande pour l’espace augmente. De plus, la façon dont les
architectures de ces frameworks sont faites, convient très bien le scénario de Big Data.
46
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Exemple 2017
- Division d’un fichier de 1 TB en 100 bloques égaux 2016
- Lecture Parallèle. 2015
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
4. Généralités
• Perspectives & Domaines d’application 2017
2016
Les perspectives d’utilisation de ces données sont énormes, notamment pour l’analyse d’opinions
2015 la lutte contre la criminalité et la fraude, les
politiques, de tendance industrielles, la génomique,
méthodes de marketing publicitaire et de vente, etc….
49
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
• Santé 2017
2016
Est le taux annuel d’augmentation
prévu entre 2010 et 2016 pour les
patients qui vont utiliser les
Hôpitaux du monde
2015 dispositifs
distance
de surveillance à
50
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
5. Cas d’utilisation
• Santé
- Analyse des données globales des patients et des résultats pour comparer l’efficacité des
différentes interventions.
- Analyse des résultats de santé d’une population pour prévoir les maladies et les épidémies,
savoir les causes environnementales et prendre les prévention nécessaire dans les stages primaires.
- Déploiement de système d’aide à la décision clinique pour améliorer l’efficacité et la qualité des
opérations.
- Télésurveillance des patients; La collecte de données pour les patients souffrants de maladies
chroniques et l’analyse des données résultant pour surveiller la conformité et pour améliorer les
futures options de médicaments et de traitement.
51
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
5. Cas d’utilisation
• Marketing
Plus d’intelligence pour plus de ventes.
- Analyse prédictive: En analysant l’historique des achats du client ou les fichiers Logs qui
contiennent les pages visitées, l’entreprise peut prévoir ce que le client cherche et les mettre dans
les zones des offres et publicités afin d’augmenter les achats.
- Analyse des sentiments: De nombreuses sociétés utilisent les échanges sur les réseaux sociaux
comme le reflet de l’opinion publique. Celle-ci devient une nouvelle source d’informations en
temps réel directement fournie par le consommateur.
- Les questions d’e-réputation: « à quoi est associée min image? » ou « comment est
accueilli le nouveau produits que je viens de lancer? » peuvent être analysées avec ces
données.
Le Big Data permet de prendre le pouls quasiment en direct, mesurer l’impact de sa
marque, savoir comment est perçue la société pour le public et anticiper les mauvaises
critiques.
52
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
5. Cas d’utilisation
• Marketing
- Analyse des comportements :
53
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
5. Cas d’utilisation
• Politique
- L’analyse de Big Data a joué un rôle important dans la campagne de ré-élection de Barack Obama,
notamment pour analyser les opinions politiques de la population.
- Depuis l’année 2012, le Département de la Défense américain investit annuellement sur les
projets de Big Data plus de 250 millions de dollars.
- Le gouvernement américain possède six des dix plus puissants supercalculateurs de la planète.
- La National Security Agency a construire le Utah Data Center. Il supporte des yottaoctets
d’information collectés par la NASA sur internet.
- En 2014, SIGMA conseil a utilisé le Big Data pour donner l’estimation du résultat de vote
préliminaire en Tunisie. 54
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
5. Cas d’utilisation
• Sport
- La première source de données recueillie s’appuie sur
des capteurs intégrés aux protège-tibias ou aux
chaussures. Ces minuscules composants remontent
des informations biométriques sur les joueurs:
• Le distance parcourue
• Les vitesses en sprint
• Les accélérations
• Le nombre de ballons touchés
• Le rythme cardiaque, etc.
A terme et quand l’analyse en temps réel sera
réellement possible, on peut très bien imaginer
qu’une alerte remonte lorsqu’un joueur fatigue afin
que l’entraîneur le remplace
55
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
5. Cas d’utilisation
• Sport
- Une deuxième source de récolte de données provient de caméras installées en hauteur autour
du terrain. Tous les déplacements des joueurs et leurs positions les uns par rapport aux autres
sont ainsi filmés et enregistrés.
- Lors de son débriefing, le tacticien peut ainsi comparer plusieurs fois par match la position
géométrique de son équipe au moment des temps forts, quand l’équipe se montre offensive,
s’ouvre des occasions et marque des buts.
Ces données peuvent ensuite être agrégées avec d’autres sources telles que l’historique
des matchs joués ou les données recueillies pendant les entraînements.
56
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
5. Cas d’utilisation
• Sécurité publique
- Aujourd’hui, avec le Big Data, la vidéosurveillance va beaucoup plus loin: elle permet d’analyser
automatiquement les images et les situations, de croiser les informations, et d’envoyer des alertes.
- Cette analyse de vidéo avancée est utilisée en particulier pour :
• La sécurité du trafic ( routier, ferroviaire, maritime et aérien)
• La protection des espaces et des bâtiments publics
• La sécurité personnelle.
- Il est aujourd’hui possible à travers l’analyse des images vidéo de faire de:
• La reconnaissance d’objets et de mouvements
• Le lecture de plaques minéralogiques
• La détection de véhicule non autorisé
• La reconnaissance faciale
• L’auto-surveillance avec possibilité de déclenchement d’alertes ou autres actions automatisées
57
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
5. Cas d’utilisation
• Sécurité publique
58
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
– Les fournisseurs historiques de solutions IT tels que HP, Oracle, IBM ou SAP figurent
parmi les principaux acteurs du Big Data.
– Dès le départ le Big Data a su intéresser les géants du secteur informatique, les éditeurs de
logiciels, les intégrateurs historiques de software sur les serveurs d’entreprises qui,
voyant le potentiel de ce marché se sont lancés certes un peu plus tard que Google et
Facebook, mais profitent toujours de la vague de croissance du Big Data.
59
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
60
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
• Amazon
– Amazon est devenu en quelques années un des leaders du Big Data en proposant Amazon Web Service
depuis 2009.
– L’avènement du Cloud Computing lancé par Amazon, lui permet aussi d’étendre un peu plus son terrain sur
le Big Data.
61
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
• IBM
IBM comme beaucoup d’autres grands acteurs du web s’est lancé aussi dans ce
domaine en intégrant dans ses services des briques de traitements liées à Hadoop
et MapReduce.
• ODPi
L’Open Data Platform Initiative réunit Hortonworks, IBM, Pivotal pour tenter
d’établir des standards sur la mise en place de plateformes Big Data.
62
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
65
66
08/12/2024
67
68
08/12/2024
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
69
1. Motivations 2. Définitions 3. Caractéristiques 4. Généralités 5. Cas d’utilisation 6. les acteurs de l’open Source
7. Plateformes, Technologies & Outils 8. Conclusion
8. Conclusion
• Nous somme actuellement dans l’ère de la production massive de données. D’une part, les applications
génèrent des données issues des logs, des réseaux de capteurs , des rapports de transactions, des traces de
GPS, etc. et d’autre part, les individus produisent des données telles que des photographies, des vidéos,
des musiques ou encore des données sur l’état de santé (rythme cardiaque, pression ou poids).
2 Big Data
3 Cloud Computing
71
1. Définition
2. Concepts Fondamentaux
3. Modèles de déploiement
4. Les avantages
5. Les défis
6. Les principaux Services
7. Autres Services
8. Les contrôleurs du Cloud
9. Les acteurs du Cloud
10. Sécurité du Cloud
11. Conclusion
08/12/2024
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
1. Définition
• Le Cloud Computing est une technologie révolutionnaire qui a transformé la
manière dont les entreprises gèrent leurs données, applications et ressources
informatiques.
73
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
75
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
76
08/12/2024
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
Cloud Hybride
• Evolutivité
• Haute sécurité
• Flexibilité
• Rentabilité
• Stockage illimité
77
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
• Exemples de PaaS
82
08/12/2024
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
• La différence étant que les systèmes sont mutualisés et offrent une grande élasticité -
capacité de s'adapter automatiquement à la demande, alors que dans une offre classique
d'hébergement web l'adaptation fait suite à une demande formelle du consommateur. 83
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
• Les applications ici sont mises à la disposition des consommateurs. Elles peuvent être
manipulées à l'aide d'un navigateur web ou installées de façon locative sur un PC, et le
consommateur n'a pas à se soucier d'effectuer des mises à jour, d'ajouter des patches de
sécurité et d'assurer la disponibilité du service.
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
• BPaaS : il s'agit du concept de Business Process as a service (BPaaS) qui consiste à externaliser
une procédure d'entreprise suffisamment industrialisée pour s'adresser directement aux
managers d'une organisation, sans nécessiter l'aide de professionnels de l'informatique
86
08/12/2024
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
87
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
88
08/12/2024
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
1. SALESFORCE:
[Link] est une société créée en 1999. Elle est devenue l'une des
pionnières du modèle SaaS grâce à son outil historique de CRM (Customer
Relationship Management) intitulé Salesforce.
2. Google
En 2008, Google a lancé son Cloud public orienté pour les services Web
offrant une plateforme (PaaS) nommée « Google App Engine» et permettant
l'hébergement d'applications Python ou Java, ainsi que des applications SaaS
regroupées dans la gamme «Google App». 89
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
90
08/12/2024
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
91
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
• Permet de synchroniser les dossiers, ainsi que les sous-dossiers applicatifs … et les
fichiers préférences, entre des ordinateurs distants, une tablette et un Smartphone
[étant tous connectés à Internet _ ADSL, WiFi …).
• Assure un accès sécurisé à tous vos fichiers. Collaborez avec amis, famille et collègues
depuis tout appareil.
92
08/12/2024
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
Acteur Description
Un outil de stockage qui manque de fonctionnalités. On apprécie pourtant son interface Web.
(Basic Features)
Un service assez complet et surtout dédié au monde de l'entreprise, qui regorge de plugin en tout genre.
En revanche, sa version gratuite est relativement lente (environ 500 ko/s en upload), ce qui gâche
l'ensemble. (15 Go gratuit)
Streaming, édition de contenu, facilité d'accès : tout y est. On se sent juste un peu à l'étroit avec 2 Go par
défaut. . (2 Go+ gratuit)
Tout y est : du streaming à l'édition de fichiers, en passant par une disponibilité exemplaire. On espère
juste qu'un jour, Google chiffre les données sur ses serveurs. . (15 Go gratuit)
Un bon site, qui offre 25 Go gratuitement. En revanche, on peut lui reprocher sa vitesse de transfert
limitée et son absence de streaming. . (Gratuit)
Le fameux site de Kim Dotcom chiffre vos données, offre 50 Go et ne manque pas de rapidité. Vivement
que les logiciels de synchronisation pour PC et MAC fassent leur apparition. (Gratuit)
Dommage que sa vitesse de chargement ne soit pas à la hauteur, car le service de Microsoft est
vraiment très complet. (Gratuit)
Un service qui offre 100 Go, mais qui manque vraiment d'originalité et de fonctionnalités. 93
(Standard Free)
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
• La sécurité du Cloud englobe les technologies, les contrôles, les processus et les
politiques qui se combinent pour protéger les systèmes, les données et les
infrastructures basés sur le Cloud.
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
Confidentialité, intégrité,
disponibilité Juridique, souveraineté
•Accès aux données par du personnel externe à
l’entreprise et pas directement sous contrat
(exemple prestataire réseau). •De quelle juridiction/pays vont
•Authentification hors défenses périmétriques dépendre vos données et les machines
(login/password sur internet). de votre fournisseur de cloud ?
•Hébergement des données sur du matériel
n’appartenant pas à l’entreprise (exemple espace
de stockage à la demande).
•…
95
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
97
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
Micro-Segmentation
Il s’agit de la pratique consistant à diviser le déploiement de client dans le Cloud en segments de
sécurité distincts, jusqu’au niveau de la charge de travail individuelle.
En isolant les charges de travail individuelles, on applique des politiques de sécurité flexibles pour
minimiser les dommages qu’un attaquant pourrait causer, s’il y avait accès
98
08/12/2024
1.Définition 2. Concepts Fondamentaux [Link]èles de déploiement 4. Les avantages 5. Les défis 6. Les principaux
Services 7. Autres Services 8. Les contrôleurs du Cloud 9. Les acteurs du Cloud 10. Sécurité et Cloud 11. Conclusion
11. Conclusion
• Le Cloud Computing émerge comme une révolution technologique majeure qui transforme la
manière dont les entreprises gèrent leurs ressources informatiques. Nous avons exploré les
différentes couches du cloud, de l'infrastructure en tant que service (IaaS) à la plateforme en tant
que service (PaaS) et au logiciel en tant que service (SaaS). Ce modèle offre une flexibilité
inégalée, permettant aux organisations de dimensionner leurs ressources en fonction des besoins,
d'améliorer l'efficacité opérationnelle et de réduire les coûts.
• En outre, le Cloud Computing favorise l'innovation en offrant un accès facile aux dernières
technologies telles que l'intelligence artificielle, l'apprentissage automatique et l'analyse de
données avancée. Les avantages sont évidents, mais il est essentiel de considérer également les
défis liés à la sécurité, à la confidentialité des données et à la dépendance envers les fournisseurs
de services Cloud.
99
2 Big Data
3 Cloud Computing
100
08/12/2024
1. Introduction
2. Hadoop
3. HDFS
4. MapReduce V1
5. MapReduce V2 & YARN
6. La différence entre Hadoop &
MongoDB
7. MongoDB
8. Conclusion
1. Introduction
• La capacité à gérer, analyser et extraire des informations exploitables à partir de vastes ensembles de
données est essentielle dans un monde où les données prolifèrent à une échelle sans précédent.
• Avec son volume, sa vélocité et sa variété uniques, le Big Data a donné naissance à des technologies
spécialisées qui sont importantes dans ce contexte.
• Hadoop et MongoDB sont deux technologies importantes qui proposent des approches distinctes mais
complémentaires pour résoudre les problèmes de Big Data.
102
08/12/2024
2. Hadoop
103
2. Hadoop
• Le système de stockage de données HDFS (Hadoop Distributed File System)
• Le traitement des données utilise MapReduce/Yarn.
• Principe :
Diviser les données et les stocker dans un groupe de machines appelé cluster.
Plutôt que de copier les données à partir d'un serveur distribué, traiter les données directement dans
leur emplacement de stockage.
104
08/12/2024
2. Hadoop
Parmi ces outils, certains se trouvent au dessus de la couche
Yarn/MR, tel que:
106
08/12/2024
• Hortonworks:
• MapR:
- Fondée par une équipe de Google en 2009,
- Versions payantes et open-source
- Composants spécifiques (MapR FS, MapR MR,...).
- Utilisé dans les offres cloud de Google GCE et Amazon EMR
• Cloudera:
- Fondée par des professionnels de diverses origines (Facebook, Google, Oracle et Yahoo)
- Spécialisé dans les services de support commercial, de formation et de certification
107
3. Présentation de l'HDFS
Définition: Fonctionnalités :
HDFS est un système de fichiers distribué qui gère de • Gestion des fichiers par blocks
grands ensembles de données sur du matériel de base. • Réplication & distribution
Il permet d'étendre un seul cluster Apache Hadoop à • Distribution sur le réseau
des centaines, voire des milliers de nœuds.
Utilisation:
Caractéristiques : • Commandes bash
• Tolérance aux pannes • Librairies Java & autres langages
• Scalable • Interfaces REST (HttpFS ou WebHDFS)
• Simple à mettre en place
108
08/12/2024
3. Présentation de l'HDFS
Notion de NameNode & DataNode:
109
3. Présentation de l'HDFS
Notion de NameNode & DataNode:
110
08/12/2024
3. Présentation de l'HDFS
Notion de NameNode & DataNode:
111
3. Présentation de l'HDFS
Notion de NameNode & DataNode:
112
08/12/2024
4. MapReduce V1
113
4. MapReduce V1
Exemple
114
08/12/2024
4. MapReduce V1
Exemple
115
4. MapReduce V1
116
08/12/2024
4. MapReduce V1 - Exemple
117
4. MapReduce V1 - Exemple
118
08/12/2024
Fonctionnement
• Les Mappers sont des petits programmes qui commencent par traiter une petite
quantité de données.
• Ils fonctionnent en parallèle
• Les enregistrements intermédiaires sont représentés par leurs sorties : sous forme
d’un couple (clef et valeur)
• Il y an une étape de mélange et de tri qui suit.
o Mélange: Sélection des mappers de piles de fiches
o Tri: Les piles sont rangées par ordre au niveau de chaque Reducer.
• Pour générer les résultats finaux, chaque Reducer traite un ensemble
d'enregistrements à la fois.
• Pour obtenir des résultats triés par ordre, il est nécessaire de :
o Si vous avez un seul Reducer mais qu'il ne se met pas bien à l'échelle,
o vous devez ajouter une autre étape pour faire le tri final.
• Dans le cas où il y a plusieurs Reducers, il est impossible de déterminer lesquels
traitent certains clés, car le partitionnement est aléatoire. 119
Fonctionnement
120
08/12/2024
121
122
08/12/2024
123
124
08/12/2024
125
126
08/12/2024
7. MongoDB- Concepts
• MongoDB fonctionne sur le concept de : Base de données, Collection, Document, Base de
données
Base de données
• La base de données dans MongoDB est le conteneur physique des données. Ensuite, sur un seul serveur
MongoDB, plusieurs bases de données sont disponibles et chaque base de données contient un système de
fichiers et un ensemble de fichiers.
Collection
• La collection dans MongoDB est le groupe de documents de base de données. MongoDB peut avoir
différents champs dans le même document, mais les documents de la même collection sont destinés à être
stockés dans le même but.
Document
Le document est l'ensemble des paires clé-valeur (essentiellement au format JSON). Chaque document a une
structure de schéma dynamique. Cela signifie que chaque document de la collection peut avoir une structure ou
des champs différents et si les deux documents ont un champ identique ou commun. Ensuite, il se peut qu’il ne
contienne pas le même type de données. 127
7. MongoDB- Architecture
128
08/12/2024
7. MongoDB- Architecture
Mongos
Mongos est le composant qui fait office d'interface entre le client et les clusters de partitions. Ensuite, cette
instance Mongos se connecte aux serveurs de configuration pour déterminer quelle partition doit répondre à
quelle requête.
Serveur de configuration
Config Server contient les métadonnées d'une partie des données dans chaque partition. Ensuite, cela
continuera à se connecter de manière redondante avec tous les autres composants de la base de données pour
garantir que les mangues puissent répondre à tout moment avec les données demandées.
129
7. MongoDB- Architecture
Fragment
La fragmentation est le concept de distribution de données sur plusieurs machines. Ce qui signifie mettre à
l'échelle ou répondre à la croissance du système de mongoDB. Essentiellement, il dispose de deux méthodes de
fragmentation
• Fragmentation verticale : cela augmentera la capacité d'un seul serveur, comme la puissance du processeur,
en ajoutant plus de RAM ou en augmentant la quantité d'espace de stockage.
• Fragmentation horizontale : cela divisera l'ensemble de données du système et le distribuera sur plusieurs
serveurs, en ajoutant des serveurs supplémentaires pour augmenter la capacité si nécessaire.
Ensemble de répliques
Chaque fragment est déployé en tant qu'ensemble de réplicas, qui est le cluster de serveurs MongoDB qui
implémente le basculement et la réplication automatisés.
130
08/12/2024
7. MongoDB- Exemple
131
7. MongoDB- Importance
MongoDB présente de nombreux avantages par rapport aux autres bases de données traditionnelles.
« L’évolutivité » est un aspect important à considérer MongoDB.
D'autres raisons importantes que nous devons considérer MongoDB sont les suivantes:
Plateforme de données distribuées : les données peuvent être distribuées à l'échelle global si vous configurez
correctement le système.
Recherche de texte : une fonctionnalité prête à l'emploi appelée Recherche de texte permet aux données
d'entrer dans la couche d'application sans effort.
Modèle de données flexible : MongoDB prend en charge le schéma dynamique qui n'empêchera pas les
développeurs de modifier la structure à tout moment.
Développement rapide et itératif : comme MongoDB prend en charge le changement et adopte les
changements, le développement du projet peut être plus rapide et agile.
Fonctionnalités intégrées : des fonctionnalités telles que la plateforme analytique, la visualisation des
données, le pipeline de données en streaming piloté par événements, la recherche textuelle et géospatiale, le
traitement des graphiques, les performances en mémoire et la sécurité aident les développeurs à mettre en
œuvre sans efforts d'intégration supplémentaires.
Économique et rentable :comparé à d'autres systèmes de bases de données, MongoDB est rentable, et le
support et la maintenance sont très économiques. 132
08/12/2024
8. Conclusion
133
Références
• Big Data Analytics- lesson 1: What is big Data, IBM, Big Data University
• Intro to Hadoop and Map reduce, Coursera, Udacity
• Introduction to YARN and MapReduce2, Cloudera
• 7 Most Infamous Cloud Security Breaches – StorageCraft. Retrieved
from [Link]
134