0% ont trouvé ce document utile (0 vote)
112 vues23 pages

Chapitre 1 COMPLER

Le document présente un module sur le Big Data et le traitement distribué, abordant son contexte, ses caractéristiques, et ses limitations. Il souligne l'évolution des données générées par les utilisateurs et les défis associés à leur traitement. Le Big Data est défini par ses volumes, sa vélocité, sa variété, sa véracité et sa valeur, nécessitant des approches innovantes pour l'analyse.

Transféré par

Sim prod
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
112 vues23 pages

Chapitre 1 COMPLER

Le document présente un module sur le Big Data et le traitement distribué, abordant son contexte, ses caractéristiques, et ses limitations. Il souligne l'évolution des données générées par les utilisateurs et les défis associés à leur traitement. Le Big Data est défini par ses volumes, sa vélocité, sa variété, sa véracité et sa valeur, nécessitant des approches innovantes pour l'analyse.

Transféré par

Sim prod
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

18/03/2025

Université Cadi Ayyad


Faculté Polydisciplinaire, Safi
Département Mathématiques et Informatique
Master Science de données et Analytiques

Module Traitement distribué

Introduction à la notion du Big


Data et traitement parallèle
Pr. Mourdi Youssef
Département de Mathématiques et Informatique
Laboratoire de Modélisation et Combinatoire
Contact : [Link]@[Link]

Année universitaire 2024 - 2025

Plan du chapitre

▪ Contexte général
▪ Big Data : Présentation, caractéristiques et limitations
▪ Traitement distribué
▪ Traitement distribué et Big Data
▪ Terminologies des architectures matériels et logicielles distribuées
▪ Objectifs du module

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 2

1
18/03/2025

Contexte Général

Pr. Mourdi Youssef @ Faculté Polydisciplinaire de Safi / Université Cadi Ayyad 3

Changement de modèle

▪ Les origines des grands ensembles de données remontent aux années 1960 et 1970 (premiers
centres des données et début des bases de données relationnelles)
▪ Vers 2005, les gens ont commencé à réaliser à quel point les utilisateurs de données généraient via
Facebook, YouTube et d'autres services en ligne.
▪ Le modèle de génération / consommation des données a changé

▪ Ancien Modèle : Peu d'entreprises génèrent ▪ Nouveau Modèle : Nous générons tous des
des données, toutes les autres consomment données et nous consommons tous des
des données données
Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 4

2
18/03/2025

Développement des réseaux sociaux

▪ Développement du nombre des utilisateurs des réseaux sociaux


Contexte général

De 2004 à 2018 En 2018 seulement

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 5

Avènement de l'Internet des objets (IoT) et smartphone

▪ Avec l'avènement de l'Internet des objets (IoT), davantage d'objets et d'appareils sont connectés à
Internet, recueillant des données sur les habitudes d'utilisation des clients et les performances des
produits.

Internet of Things (IoT) connected devices from 2015


to 2025 (in billions)
Contexte général

International Journal of Scientific Research in Computer Science, Engineering and


Information Technology

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 6

3
18/03/2025

Industrie 4.0

▪ l’industrie 4.0 désigne une nouvelle génération d’usines connectées, robotisées et intelligentes. Avec la
révolution numérique, les frontières entre le monde physique et digital s’amenuisent pour donner vie à une
nouvelle génération d’usine : l’usine 4.0 interconnectée dans laquelle les collaborateurs, les machines et les
produits interagissent.
La Réalité augmentée

La Fabrication additive

L’Intelligence artificielle

Le Cobot

Le Jumeau numérique
Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 7

Prix de la mémoire et des supports stockage


Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 8

4
18/03/2025

De plus en plus de données…

Facebook (Meta) Instagram Entreprises

• 2,935 milliards d’utilisateurs • Tous les mois, 1 milliard • Le radiotélescope à réseau d'un
actifs mensuels en 2022 (+1% d’utilisateurs actifs. kilomètre carré produit 7 Po de
par rapport à Q2 2021) • Plus de 100 millions de données brutes par seconde: 50
• 1,967 milliard d'utilisateurs photos et vidéos sont postées To de données analysées par
actifs journaliers en juillet 2022 chaque jour journée
• 6 nouveaux profils créés • 40 milliards de photos sont • Airbus génère 40 To pour chaque
chaque seconde. partagées. essai d'avion
• 500 millions stories Facebook • 4,2 milliards de likes sont • Création de données numériques
sont partagées tous les jours comptabilisés chaque jour sur dans le monde entier:
• L’utilisateur moyen sur Instagram • 2010 : 1,2 Zb
Facebook va “liker” en moyenne • 500 millions de stories sont • 2011 : 1,8 Zb
13 posts, fait 5 commentaires, postées par jour • 2012 : 2,8 Zb
partage 1 post et clique sur 12 • Chaque année, le nombre de
publicités en 30 jours. • 2020 : 40 Zb
Contexte général

vidéos créées tous les jours sur


Instagram est multiplié par 4. • 90 % des données ont été créées
au cours des 2 dernières années

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 9

De plus en plus de données…


Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 10

10

5
18/03/2025

De plus en plus de données…

▪ Statistiques et prévisions 2025 : en un coup d’œil


• 2,5 quintillions d'octets de données sont créés chaque
jour
• 181 zettaoctets de données devraient être générés en Nom Symbole Valeur
2025.
kilooctet ko 103
• Le monde numérique mondial contient 64 zettaoctets de
données. mégaoctet Mo 106
gigaoctet Go 109
• 70 % de toutes les données sont générées par les téraoctet To 1012
utilisateurs.
pétaoctet Po 1015
• Plus de 97 % des entreprises ont investi dans le Big exaoctet Eo 1018
Data.
zettaoctet Zo 1021
• Le marché de l'analyse du Big Data est estimé à 348,21
milliards de dollars. yottaoctet Yo 1024
Quintillion Qo 1030
Contexte général

• Le marché du Big Data devrait croître à un rythme


annuel de 13 % pour atteindre 924,39 milliards de
dollars d'ici 2032
[Link]

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 11

11

De plus en plus de données…


Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 12

12

6
18/03/2025

Conséquences

▪ Ces données proviennent de nombreuses sources


• avec la multiplication des appareils (ordinateurs personnels, téléphones, tablettes)
• le développement des applications cloud.
▪ Ces diverses sources génèrent des données dans de nombreux formats différents.
• Un tel format peut être structuré (avec XML, Json ..)
• ou non structuré (comme des données textuelles)
▪ Le temps de lecture et de traitement
Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 13

13

Big Data : Présentation,


caractéristiques et limitations

Pr. Mourdi Youssef @ Faculté Polydisciplinaire de Safi / Université Cadi Ayyad 14

14

7
18/03/2025

Larges définitions

1. Le Big Data est défini comme un ensemble de données dont le volume, la vitesse ou la variété sont si
importants qu'il est difficile de les stocker, de les gérer, de les traiter et de les analyser à l'aide de bases de
données et d'outils de traitement de données traditionnels.
Big Data : Présentation, caractéristiques et limitations

2. Les Big Data sont des ressources d’information à haut volume, à grande vitesse et à grande variété qui
nécessitent des formes de traitement de l’information rentables et innovantes pour une meilleure
compréhension et une meilleure prise de décision.

3. Plusieurs zettaoctets de données provenant de nos ordinateurs, de nos appareils mobiles et de divers
capteurs. Le Big Data est « Big » non seulement en raison de son volume, mais aussi de sa variété et de sa
complexité. Il dépasse en général la capacité des bases de données traditionnelles à capturer, à gérer et à
traiter les données

4. On considère généralement qu'on entre dans le monde du Big Data lorsque le traitement ne peut être
effectué avec un seul ordinateur (même de grande taille).

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 15

15

Les 5V du Big Data

Traiter de très gros volumes Les données peuvent être de


Volume Variété
de données types très différents
Big Data : Présentation, caractéristiques et limitations

Big Data
Véracité Vélocité

Valeur
Prendre en compte la La vitesse à laquelle les
confiance dans les données données sont reçues et
traitées (peut-être) traitées.

Découvrir la valeur des données en les


analysant et prédire des comportements
futurs

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 16

16

8
18/03/2025

Exemples qui ne relèvent pas du Big Data

▪ Un volume de données que l'on peut traiter au moyen d'une fiche Excel.
Big Data : Présentation, caractéristiques et limitations

▪ Des données que l'on peut héberger dans un seul nœud d'une b ase de données relationnelle.
▪ Les données qui sont « chères » à produire telles que celles qui sont collectées par sondage ou par
recensement ou produite par un organisme tel que l'INSEE.
▪ L'idée ici est que les données qui relèvent du Big Data sont typiquement créées pour un coût quasi nul.
▪ Les données issues de capteurs physiques comme ceux de l'internet des objets à venir.
▪ Les données publiques librement disponibles au téléchargement. Là encore on se place dans une perspective
où ce qui relève du Big Data ne pourra être téléchargé au moyen d'une seule connexion Internet même à très
haut débit.

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 17

17

Exemples qui relèvent du Big Data

▪ Les volumes de données qu’il n'est pas possible de stocker ou de traiter avec les technologies traditionnelles
que les SGBDR ou pour lesquelles le coût d'un tel traitement serait prohibitif.
Big Data : Présentation, caractéristiques et limitations

▪ Les données de logs transactionnelles d'un site web d'un e grande enseigne de distribution.

▪ Le trafic d'un gros site web.

▪ Les données de localisation GSM d'un opérateur téléphonique sur une journée.

▪ Les données boursières échangées quotidiennement sur une grande place financière.

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 18

18

9
18/03/2025

Quoi faire avec des Big Data ? -1-

▪ Le Big Data permet d'obtenir des réponses plus complètes car on dispose de plus d'informations.
▪ Des réponses plus complètes signifient plus de confiance dans les données, ce qui signifie une approche
complètement différente pour résoudre les problèmes.
Big Data : Présentation, caractéristiques et limitations

On ne cherche pas à savoir les choses mais à les comprendre Big Data Analytics

Web Finance Santé et médecine IoT Environnement

• Web Analytics • Modélisation du • Surveillance • Détection • Surveillance


• Analyse des risque de crédit épidémiologique d’intrusion météorologique
performances • Détection des • Prévision des • Parkings • Surveillance de la
• Recommandation fraudes effets indésirables intelligents pollution
du contenu des médicaments • Routes atmosphérique
• Ciblage et analyse • Surveillance de la intelligentes • Surveillance de la
des publicités santé en temps • Agriculture de qualité de l'eau
réel précision

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 19

19

Quoi faire avec des Big Data ? -2-

On ne cherche pas à savoir les choses mais à les comprendre Big Data Analytics
Big Data : Présentation, caractéristiques et limitations

Logistique et transport Industrie Vente Education

• Suivi de flotte en temps • Diagnostic et pronostic • Gestion des stocks • Enseignement adaptatif
réel des machines • Recommandations aux • Prédiction des
• Suivi des expéditions • Analyse des risques des clients abondants
• Diagnostic à distance opérations industrielles • Optimisation de • Recommandation
des véhicules • Planification et contrôle l'agencement du d’orientation
• Génération et de la production magasin académique
planification • Prédiction des
d'itinéraires demandes

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 20

20

10
18/03/2025

Limitations

▪ les volumes de données doublent environ tous les deux ans


▪ problèmes de stockage
▪ Problèmes de préparation (nettoyage par exemple) : Les data scientists passent 50 à 80 % de leur temps à
conserver et à préparer des données avant qu'elles ne puissent être réellement utilisées.
Big Data : Présentation, caractéristiques et limitations

▪ Exemple : Google en 2012


• Données traitées par google chaque jour : +100 PB
• Analyser 10 milliards de pages Web
✓ Taille moyenne d'une page Web : 20 Ko
✓ Taille de la collection : 10 milliards x 20 Ko = 200 To
✓ Bande passante de lecture du disque dur HDD/SDD : 150/550 Mo/sec
✓ Temps nécessaire pour lire toutes les pages Web (sans les analyser) : plus de 15 / 4jours

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 21

21

Vers des architectures


distribuées

Pr. Mourdi Youssef @ Faculté Polydisciplinaire de Safi / Université Cadi Ayyad 23

23

11
18/03/2025

Modèle de Von Neumann (1945)

Mémoire ▪ La mémoire : contient le programme (instructions)


et les données.
▪ Une Unité Arithmétique et Logique : UAL qui
effectue les opérations.
Contrôle UAL ▪ Une unité de contrôle : chargée du séquençage des
opérations.
Vers des architectures distribuées

▪ Une unité d’Entrée/Sortie.

Input Output

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 24

24

Un processus en 2011

Mémoire Système E/S

Unité de commande
Bus Interace
Instruction

UAL UAL UAL


L1

L2
Vers des architectures distribuées

L3

L1 Data
Core 0 Core 1 Core n

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 25

25

12
18/03/2025

Calcul parallèle

▪ Un calcul parallèle est exécuté sur plusieurs unités de calcul


▪ Le calcul est découpé en plusieurs parties pouvant s exécuter ’exécuter simultanément
▪ Chaque partie est découpée en séquences d’instructions
▪ Des instructions de chaque partie s’exécutent simultanément sur un CPU
Vers des architectures distribuées

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 26

26

Calcul parallèle

▪ Les ressources de calcul peuvent être

• Une seule machine avec un ou plusieurs processeurs


• Plusieurs machines avec un ou plusieurs processeurs interconnectées par un réseau rapide
• Une grille de calcul : plusieurs ensembles de plusieurs machines
Vers des architectures distribuées

Si un CPU peut exécuter les opérations arithmétiques du programme en temps t, alors n CPU peuvent
idéalement les exécuter en temps t/n

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 27

27

13
18/03/2025

Pourquoi utiliser le parallélisme ?

▪ Economiser du temps (à la montre)


▪ Résoudre des problèmes de + grande taille
▪ Avoir accès à plus de mémoire et plus de puissance en cumulant les ressources matérielles
▪ Pouvoir traiter plusieurs choses en même temps
▪ Les limites du séquentiel :
• Limites de la vitesse de transmission ( transmission des données entre les différents éléments du
hardware) La taille mémoire
Vers des architectures distribuées

• Les limites de la miniaturisation


• Les limites économiques: + cher d’augmenter la rapidité d’un processeur que de multiplier les
processeurs ou les cores

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 28

28

Classification de Flynn

▪ La taxonomie de Flynn est une classification des architectures d'ordinateur, proposée par Michael Flynn en
1966. Les quatre catégories définies par Flynn sont classées selon le type d'organisation du flux de données et
du flux d'instructions.
• architecture // , toutes les unités de
traitement exécutent la même
• architecture séquentielle avec un
instruction à un cycle d’horloge
seul flot d’instructions,
donnée, chaque unité peut opérer
• un seul flot de données, exécution
sur des données différentes
déterministe
exécution déterministe
Vers des architectures distribuées

SISD SIMD
• un seul flot de données alimente • architecture la plus courante
plusieurs unités de traitement, MISD MIMD aujourd’hui,
• chaque unité de traitement opère • Chaque unité de traitement peut
indépendamment des autres, sur gérer un flot d’instructions différent
• des flots d’instructions • Chaque unité peut opérer sur un flot
indépendants de données différent
• Peu implémenté • L’exécution peut être synchrone ou
asynchrone

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 29

29

14
18/03/2025

Architecture en Single-node : Limitations

▪ Petites données : Les données peuvent être entièrement chargées


CPU dans la mémoire principale
▪ Exemple : Apprentissage automatique superficiel,
Mémoire statistiques
Vers des architectures distribuées

Disque

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 30

30

Architecture en Single-node : Limitations

CPU ▪ Données volumineuses


▪ Les données ne peuvent pas être entièrement chargées dans la
mémoire principale
Mémoire • Charger dans la mémoire principale un bloc de données à la fois
• Traitez-le et stockez des statistiques
• Combinez les statistiques pour calculer le résultat final
Vers des architectures distribuées

▪ Exemple : Data Mining classique

Disque

Une architecture à nœud unique n'est pas adéquate

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 31

31

15
18/03/2025

Architecture de Cluster : Diviser pour régner

▪ Un cluster est un ensemble de serveurs interconnectés qui sont exploités par un système
d'exploitation distribué afin de donner l'illusion d'un ordinateur géant.

▪ Les principaux acteurs du domaine ont développé de tels frameworks de systèmes d'exploitation distribués
pour mettre en place une sorte d'ordinateur géant de stockage et de traitement des données.

▪ L'approche générale utilisée pour traiter efficacement de très grands ensembles de données consiste à
Vers des architectures distribuées

appliquer un principe bien connu appelé "diviser pour mieux régner".

▪ Le principe est de diviser une tâche en plusieurs sous-tâches qui peuvent être réparties sur des
ordinateurs distribués, bénéficiant ainsi d'E/S parallèles (lectures sur différents disques) et/ou de calculs
parallèles (sur différents processeurs).

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 32

32

Architecture de Cluster : Diviser pour régner

Switch

Switch Switch Switch

CPU CPU CPU CPU

Mémoire Mémoire Mémoire Mémoire


Vers des architectures distribuées

… …

Disque Disque Disque Disque


Serveur 1 Serveur .. Serveur .. Serveur M

Rack 1 Rack … Rack N


Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 33

33

16
18/03/2025

Data Center
Vers des architectures distribuées

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 34

34

Deux modes de traitement : le Traitement par lots (Batch processing)

▪ Traitement de blocs de données déjà stockés sur une période donnée.


▪ Par exemple, traiter toutes les transactions effectuées par une entreprise financière en une semaine.
▪ Ces données contiennent des millions d’enregistrements pour chaque jour
▪ pouvant être stockés sous forme de fichiers textes (CSV) ou d’enregistrements stockées
Vers des architectures distribuées

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 35

35

17
18/03/2025

Deux modes de traitement : le Traitement de flux (Stream processing)

▪ Contrairement au traitement par lots où les données sont liées avec un début et une fin dans
▪ un traitement qui se termine après le traitement de données finies,
▪ Le Stream Processing est destiné au traitement de flux de données sans fin arrivant en temps réel de façon
continue pendant des jours, des mois, des années et à jamais.
▪ Le traitement de flux nous permet de traiter les données en temps réel
▪ Le traitement de flux permet d'introduire des données dans des outils d'analyse dès qu’elles sont générées
et d'obtenir des résultats d'analyse instantanés.
Vers des architectures distribuées

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 36

36

Techniques et technologies

Pr. Mourdi Youssef @ Faculté Polydisciplinaire de Safi / Université Cadi Ayyad 37

37

18
18/03/2025

Systèmes de fichiers distribués - HDFS

▪ La base du Big Data: Le stockage


▪ Besoin d’un système de fichier “général”, qui permet de stocker n’importe quel genre de donnée

• La configuration est complexe et fragile et


• En production dans des milliers de compagnies
relativement lent
• Documentation
• Ne supporte que la réplication pour éviter la perte
• Compatibilité - pratiquement tout l’écosystème
Techniques et technologies

de données
“Big Data” parle HDFS
• La nécessité d’interroger le Namenode pour chaque
• Disponibilité du support (les “vendeurs”
lecture
Hadoop)
• Nombre de blocs limité par l’espace mémoire du
Namenode (Scale-up du Namenode)

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 38

38

Systèmes de fichiers distribués – S3

▪ Produit d’Amazon sur la plateforme AWS


▪ Option intéressante lorsque les données sont produites depuis AWS
▪ Permet de rendre des données publiques très facilement / Plusieurs options d’authentification

• Système propriétaire et opaque =>


• Disponible dès le jour 0 Potentiellement coûteux à long terme
• 99,9% de disponibilité: non disponible durant • Moins intéressant lorsqu’on produit les données
Techniques et technologies

pas plus de 43 minutes par année localement


• Simple d’utilisation (HTTP) • Certaines opérations sont contre-intuitivement très
coûteuses (renommer un fichier est une copie)

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 39

39

19
18/03/2025

Systèmes de fichiers distribués – CEPH

▪ Système de fichiers distribué conçu et développé par RedHat


▪ Conceptuellement semblable à HDFS: différences architecturales fondamentales
▪ Possible d’utiliser avec Hadoop

• Performant
• Architecture moderne: aucun point de
• Configuration extrêmement complexe
Techniques et technologies

défaillance unique
• Très peu de cas d’usage (public) Hadoop
• Polyvalent: permet de consolider plusieurs cas
d’utilisation

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 40

40

Algorithmes Distribués – Frameworks Apache

▪ Afin de traiter de très grandes quantités de données, inverser la responsabilité: déplacer l’algorithme vers
les données

Hadoop Map/Reduce Apache Storm Apache Spark

• Algorithme composé de 2 étapes • Chaque donnée en entrée est • contient les mêmes étapes
conceptuelles traitée individuellement conceptuelles que Map/Reduce
• Sa résilience et son parallélisme • La topologie de traitement mais n’utilise pas Map/Reduce de
sont ce qui le rendent peut être très complexe Hadoop
particulièrement • Développé chez Twitter dans le • plan d’exécution plus sophistiqué
intéressant pour le Big-Data but de générer les tweets en • Spark permet aujourd’hui
Techniques et technologies

• Manuellement: laborieux - sujet à temps réel d’unifier les 2 mondes (batch et


l’erreur - possibilités • A depuis été remplacé par un streaming)
d’optimisations potentiellement système encore plus performant
perdues

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 41

41

20
18/03/2025

Systèmes de BD

▪ Les paradigmes de batch et de flux sont insuffisants => il est aussi nécessaire de lire et écrire aléatoirement
(random read/write)

▪ Les bases de données traditionnelles (du type scale-up) ne sont pas appropriées
• Volume: un seul serveur ne peut plus contenir toutes les données
• Vélocité: la bande passante d’un seul serveur ne peut pas soutenir le taux de requêtes
• Variété: les données ne sont pas toutes tabulaires (relationnelles)

▪ C’est la naissance du “NoSQL”


Techniques et technologies

• un pauvre choix de nom


• ne décrit pas ce que le système est, mais plutôt ce qu’il n’est pas
• plusieurs BD “NoSQL” ont une interface SQL (ou simili-SQL)

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 42

42

Systèmes de BD – Présentation de NoSQL

▪ Généralement (et non strictement), une BD ▪ Étant donné le design simple, une BD
NoSQL: NoSQL peut:
• offre un paradigme d’accès ou stockage ▪ soutenir un taux de requête très grand
non relationnel
▪ survivre à des défaillances réseau ou de
• est distribuée
nœud
• offre une certaine forme de capacité
“scale-out” ▪ offrir une capacité très grande de stockage
• utilise un design simple (qui offre
parfois peu de fonctionnalités)
▪ Les familles (selon le paradigme d’accès):
• Document
Techniques et technologies

▪ On peut lister les avantages suivants: • Clé-valeur / famille de colonnes


• pas de transaction (begin, commit / • Graphe
rollback) • Structuré / semi-structuré
• perte des garanties de durabilité (perte
d’une écriture confirmée)

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 43

43

21
18/03/2025

Systèmes de BD – Familles

Accès par Document Clé-Valeur Graphe

• unité de stockage est un • une géante table d’association clé • Paradigme d’accès est celui de
“document” (ex. : JSON) → valeur (Array[Byte] → noeuds et liens (nodes and edges)
• les documents d’une même Array[Byte] ) • Généralement pour des
collection ne sont pas • offre généralement très peu de problèmes spécialisés (types
nécessairement homogènes fonctionnalités réseaux)
• on accède au document sous une • deux grandes familles: • Permet des interrogations très
clé primaire • clés ordonnées complexes
lexicographiquement • Peu de cas d’usage public
Techniques et technologies

• hash-ring

MongoDB - Elasticsearch Hbase - Cassandra Neo4J

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 44

44

Suite du module

Pr. Mourdi Youssef @ Faculté Polydisciplinaire de Safi / Université Cadi Ayyad 45

45

22
18/03/2025

Suite du module

▪ L’environnement Apache Hadoop (HDFS et MapReduce)


▪ Traitement MapReduce sur plusieurs nœuds
▪ L’environnement Apache Spark
▪ Le framework PySpark
▪ Spark Streaming
Vers des architectures distribuées

▪ Base de données NoSQL (Hive/Hbase)


▪ Examen final

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 46

46

23

Vous aimerez peut-être aussi