Chapitre 1 COMPLER
Chapitre 1 COMPLER
Plan du chapitre
▪ Contexte général
▪ Big Data : Présentation, caractéristiques et limitations
▪ Traitement distribué
▪ Traitement distribué et Big Data
▪ Terminologies des architectures matériels et logicielles distribuées
▪ Objectifs du module
1
18/03/2025
Contexte Général
Changement de modèle
▪ Les origines des grands ensembles de données remontent aux années 1960 et 1970 (premiers
centres des données et début des bases de données relationnelles)
▪ Vers 2005, les gens ont commencé à réaliser à quel point les utilisateurs de données généraient via
Facebook, YouTube et d'autres services en ligne.
▪ Le modèle de génération / consommation des données a changé
▪ Ancien Modèle : Peu d'entreprises génèrent ▪ Nouveau Modèle : Nous générons tous des
des données, toutes les autres consomment données et nous consommons tous des
des données données
Contexte général
2
18/03/2025
▪ Avec l'avènement de l'Internet des objets (IoT), davantage d'objets et d'appareils sont connectés à
Internet, recueillant des données sur les habitudes d'utilisation des clients et les performances des
produits.
3
18/03/2025
Industrie 4.0
▪ l’industrie 4.0 désigne une nouvelle génération d’usines connectées, robotisées et intelligentes. Avec la
révolution numérique, les frontières entre le monde physique et digital s’amenuisent pour donner vie à une
nouvelle génération d’usine : l’usine 4.0 interconnectée dans laquelle les collaborateurs, les machines et les
produits interagissent.
La Réalité augmentée
La Fabrication additive
L’Intelligence artificielle
Le Cobot
Le Jumeau numérique
Contexte général
4
18/03/2025
• 2,935 milliards d’utilisateurs • Tous les mois, 1 milliard • Le radiotélescope à réseau d'un
actifs mensuels en 2022 (+1% d’utilisateurs actifs. kilomètre carré produit 7 Po de
par rapport à Q2 2021) • Plus de 100 millions de données brutes par seconde: 50
• 1,967 milliard d'utilisateurs photos et vidéos sont postées To de données analysées par
actifs journaliers en juillet 2022 chaque jour journée
• 6 nouveaux profils créés • 40 milliards de photos sont • Airbus génère 40 To pour chaque
chaque seconde. partagées. essai d'avion
• 500 millions stories Facebook • 4,2 milliards de likes sont • Création de données numériques
sont partagées tous les jours comptabilisés chaque jour sur dans le monde entier:
• L’utilisateur moyen sur Instagram • 2010 : 1,2 Zb
Facebook va “liker” en moyenne • 500 millions de stories sont • 2011 : 1,8 Zb
13 posts, fait 5 commentaires, postées par jour • 2012 : 2,8 Zb
partage 1 post et clique sur 12 • Chaque année, le nombre de
publicités en 30 jours. • 2020 : 40 Zb
Contexte général
10
5
18/03/2025
11
12
6
18/03/2025
Conséquences
13
14
7
18/03/2025
Larges définitions
1. Le Big Data est défini comme un ensemble de données dont le volume, la vitesse ou la variété sont si
importants qu'il est difficile de les stocker, de les gérer, de les traiter et de les analyser à l'aide de bases de
données et d'outils de traitement de données traditionnels.
Big Data : Présentation, caractéristiques et limitations
2. Les Big Data sont des ressources d’information à haut volume, à grande vitesse et à grande variété qui
nécessitent des formes de traitement de l’information rentables et innovantes pour une meilleure
compréhension et une meilleure prise de décision.
3. Plusieurs zettaoctets de données provenant de nos ordinateurs, de nos appareils mobiles et de divers
capteurs. Le Big Data est « Big » non seulement en raison de son volume, mais aussi de sa variété et de sa
complexité. Il dépasse en général la capacité des bases de données traditionnelles à capturer, à gérer et à
traiter les données
4. On considère généralement qu'on entre dans le monde du Big Data lorsque le traitement ne peut être
effectué avec un seul ordinateur (même de grande taille).
15
Big Data
Véracité Vélocité
Valeur
Prendre en compte la La vitesse à laquelle les
confiance dans les données données sont reçues et
traitées (peut-être) traitées.
16
8
18/03/2025
▪ Un volume de données que l'on peut traiter au moyen d'une fiche Excel.
Big Data : Présentation, caractéristiques et limitations
▪ Des données que l'on peut héberger dans un seul nœud d'une b ase de données relationnelle.
▪ Les données qui sont « chères » à produire telles que celles qui sont collectées par sondage ou par
recensement ou produite par un organisme tel que l'INSEE.
▪ L'idée ici est que les données qui relèvent du Big Data sont typiquement créées pour un coût quasi nul.
▪ Les données issues de capteurs physiques comme ceux de l'internet des objets à venir.
▪ Les données publiques librement disponibles au téléchargement. Là encore on se place dans une perspective
où ce qui relève du Big Data ne pourra être téléchargé au moyen d'une seule connexion Internet même à très
haut débit.
17
▪ Les volumes de données qu’il n'est pas possible de stocker ou de traiter avec les technologies traditionnelles
que les SGBDR ou pour lesquelles le coût d'un tel traitement serait prohibitif.
Big Data : Présentation, caractéristiques et limitations
▪ Les données de logs transactionnelles d'un site web d'un e grande enseigne de distribution.
▪ Les données de localisation GSM d'un opérateur téléphonique sur une journée.
▪ Les données boursières échangées quotidiennement sur une grande place financière.
18
9
18/03/2025
▪ Le Big Data permet d'obtenir des réponses plus complètes car on dispose de plus d'informations.
▪ Des réponses plus complètes signifient plus de confiance dans les données, ce qui signifie une approche
complètement différente pour résoudre les problèmes.
Big Data : Présentation, caractéristiques et limitations
On ne cherche pas à savoir les choses mais à les comprendre Big Data Analytics
19
On ne cherche pas à savoir les choses mais à les comprendre Big Data Analytics
Big Data : Présentation, caractéristiques et limitations
• Suivi de flotte en temps • Diagnostic et pronostic • Gestion des stocks • Enseignement adaptatif
réel des machines • Recommandations aux • Prédiction des
• Suivi des expéditions • Analyse des risques des clients abondants
• Diagnostic à distance opérations industrielles • Optimisation de • Recommandation
des véhicules • Planification et contrôle l'agencement du d’orientation
• Génération et de la production magasin académique
planification • Prédiction des
d'itinéraires demandes
20
10
18/03/2025
Limitations
21
23
11
18/03/2025
Input Output
24
Un processus en 2011
Unité de commande
Bus Interace
Instruction
L2
Vers des architectures distribuées
L3
L1 Data
Core 0 Core 1 Core n
25
12
18/03/2025
Calcul parallèle
26
Calcul parallèle
Si un CPU peut exécuter les opérations arithmétiques du programme en temps t, alors n CPU peuvent
idéalement les exécuter en temps t/n
27
13
18/03/2025
28
Classification de Flynn
▪ La taxonomie de Flynn est une classification des architectures d'ordinateur, proposée par Michael Flynn en
1966. Les quatre catégories définies par Flynn sont classées selon le type d'organisation du flux de données et
du flux d'instructions.
• architecture // , toutes les unités de
traitement exécutent la même
• architecture séquentielle avec un
instruction à un cycle d’horloge
seul flot d’instructions,
donnée, chaque unité peut opérer
• un seul flot de données, exécution
sur des données différentes
déterministe
exécution déterministe
Vers des architectures distribuées
SISD SIMD
• un seul flot de données alimente • architecture la plus courante
plusieurs unités de traitement, MISD MIMD aujourd’hui,
• chaque unité de traitement opère • Chaque unité de traitement peut
indépendamment des autres, sur gérer un flot d’instructions différent
• des flots d’instructions • Chaque unité peut opérer sur un flot
indépendants de données différent
• Peu implémenté • L’exécution peut être synchrone ou
asynchrone
29
14
18/03/2025
Disque
30
Disque
31
15
18/03/2025
▪ Un cluster est un ensemble de serveurs interconnectés qui sont exploités par un système
d'exploitation distribué afin de donner l'illusion d'un ordinateur géant.
▪ Les principaux acteurs du domaine ont développé de tels frameworks de systèmes d'exploitation distribués
pour mettre en place une sorte d'ordinateur géant de stockage et de traitement des données.
▪ L'approche générale utilisée pour traiter efficacement de très grands ensembles de données consiste à
Vers des architectures distribuées
▪ Le principe est de diviser une tâche en plusieurs sous-tâches qui peuvent être réparties sur des
ordinateurs distribués, bénéficiant ainsi d'E/S parallèles (lectures sur différents disques) et/ou de calculs
parallèles (sur différents processeurs).
32
Switch
… …
33
16
18/03/2025
Data Center
Vers des architectures distribuées
34
35
17
18/03/2025
▪ Contrairement au traitement par lots où les données sont liées avec un début et une fin dans
▪ un traitement qui se termine après le traitement de données finies,
▪ Le Stream Processing est destiné au traitement de flux de données sans fin arrivant en temps réel de façon
continue pendant des jours, des mois, des années et à jamais.
▪ Le traitement de flux nous permet de traiter les données en temps réel
▪ Le traitement de flux permet d'introduire des données dans des outils d'analyse dès qu’elles sont générées
et d'obtenir des résultats d'analyse instantanés.
Vers des architectures distribuées
36
Techniques et technologies
37
18
18/03/2025
de données
“Big Data” parle HDFS
• La nécessité d’interroger le Namenode pour chaque
• Disponibilité du support (les “vendeurs”
lecture
Hadoop)
• Nombre de blocs limité par l’espace mémoire du
Namenode (Scale-up du Namenode)
38
39
19
18/03/2025
• Performant
• Architecture moderne: aucun point de
• Configuration extrêmement complexe
Techniques et technologies
défaillance unique
• Très peu de cas d’usage (public) Hadoop
• Polyvalent: permet de consolider plusieurs cas
d’utilisation
40
▪ Afin de traiter de très grandes quantités de données, inverser la responsabilité: déplacer l’algorithme vers
les données
• Algorithme composé de 2 étapes • Chaque donnée en entrée est • contient les mêmes étapes
conceptuelles traitée individuellement conceptuelles que Map/Reduce
• Sa résilience et son parallélisme • La topologie de traitement mais n’utilise pas Map/Reduce de
sont ce qui le rendent peut être très complexe Hadoop
particulièrement • Développé chez Twitter dans le • plan d’exécution plus sophistiqué
intéressant pour le Big-Data but de générer les tweets en • Spark permet aujourd’hui
Techniques et technologies
41
20
18/03/2025
Systèmes de BD
▪ Les paradigmes de batch et de flux sont insuffisants => il est aussi nécessaire de lire et écrire aléatoirement
(random read/write)
▪ Les bases de données traditionnelles (du type scale-up) ne sont pas appropriées
• Volume: un seul serveur ne peut plus contenir toutes les données
• Vélocité: la bande passante d’un seul serveur ne peut pas soutenir le taux de requêtes
• Variété: les données ne sont pas toutes tabulaires (relationnelles)
42
▪ Généralement (et non strictement), une BD ▪ Étant donné le design simple, une BD
NoSQL: NoSQL peut:
• offre un paradigme d’accès ou stockage ▪ soutenir un taux de requête très grand
non relationnel
▪ survivre à des défaillances réseau ou de
• est distribuée
nœud
• offre une certaine forme de capacité
“scale-out” ▪ offrir une capacité très grande de stockage
• utilise un design simple (qui offre
parfois peu de fonctionnalités)
▪ Les familles (selon le paradigme d’accès):
• Document
Techniques et technologies
43
21
18/03/2025
Systèmes de BD – Familles
• unité de stockage est un • une géante table d’association clé • Paradigme d’accès est celui de
“document” (ex. : JSON) → valeur (Array[Byte] → noeuds et liens (nodes and edges)
• les documents d’une même Array[Byte] ) • Généralement pour des
collection ne sont pas • offre généralement très peu de problèmes spécialisés (types
nécessairement homogènes fonctionnalités réseaux)
• on accède au document sous une • deux grandes familles: • Permet des interrogations très
clé primaire • clés ordonnées complexes
lexicographiquement • Peu de cas d’usage public
Techniques et technologies
• hash-ring
44
Suite du module
45
22
18/03/2025
Suite du module
46
23