0% ont trouvé ce document utile (0 vote)

112 vues23 pages

Chapitre 1 COMPLER

Le document présente un module sur le Big Data et le traitement distribué, abordant son contexte, ses caractéristiques, et ses limitations. Il souligne l'évolution des données générées par les utilisateurs et les défis associés à leur traitement. Le Big Data est défini par ses volumes, sa vélocité, sa variété, sa véracité et sa valeur, nécessitant des approches innovantes pour l'analyse.

Transféré par

Sim prod

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

112 vues23 pages

Chapitre 1 COMPLER

Transféré par

Sim prod

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

18/03/2025

Université Cadi Ayyad

Faculté Polydisciplinaire, Safi
Département Mathématiques et Informatique
Master Science de données et Analytiques

Module Traitement distribué

Introduction à la notion du Big

Data et traitement parallèle
Pr. Mourdi Youssef
Département de Mathématiques et Informatique
Laboratoire de Modélisation et Combinatoire
Contact : [Link]@[Link]

Année universitaire 2024 - 2025

Plan du chapitre

▪ Contexte général
▪ Big Data : Présentation, caractéristiques et limitations
▪ Traitement distribué
▪ Traitement distribué et Big Data
▪ Terminologies des architectures matériels et logicielles distribuées
▪ Objectifs du module

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 2

1
18/03/2025

Contexte Général

Pr. Mourdi Youssef @ Faculté Polydisciplinaire de Safi / Université Cadi Ayyad 3

Changement de modèle

▪ Les origines des grands ensembles de données remontent aux années 1960 et 1970 (premiers
centres des données et début des bases de données relationnelles)
▪ Vers 2005, les gens ont commencé à réaliser à quel point les utilisateurs de données généraient via
Facebook, YouTube et d'autres services en ligne.
▪ Le modèle de génération / consommation des données a changé

▪ Ancien Modèle : Peu d'entreprises génèrent ▪ Nouveau Modèle : Nous générons tous des
des données, toutes les autres consomment données et nous consommons tous des
des données données
Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 4

2
18/03/2025

Développement des réseaux sociaux

▪ Développement du nombre des utilisateurs des réseaux sociaux

Contexte général

De 2004 à 2018 En 2018 seulement

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 5

Avènement de l'Internet des objets (IoT) et smartphone

▪ Avec l'avènement de l'Internet des objets (IoT), davantage d'objets et d'appareils sont connectés à
Internet, recueillant des données sur les habitudes d'utilisation des clients et les performances des
produits.

Internet of Things (IoT) connected devices from 2015

to 2025 (in billions)
Contexte général

International Journal of Scientific Research in Computer Science, Engineering and

Information Technology

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 6

3
18/03/2025

Industrie 4.0

▪ l’industrie 4.0 désigne une nouvelle génération d’usines connectées, robotisées et intelligentes. Avec la
révolution numérique, les frontières entre le monde physique et digital s’amenuisent pour donner vie à une
nouvelle génération d’usine : l’usine 4.0 interconnectée dans laquelle les collaborateurs, les machines et les
produits interagissent.
La Réalité augmentée

La Fabrication additive

L’Intelligence artificielle

Le Cobot

Le Jumeau numérique
Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 7

Prix de la mémoire et des supports stockage

Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 8

4
18/03/2025

De plus en plus de données…

Facebook (Meta) Instagram Entreprises

• 2,935 milliards d’utilisateurs • Tous les mois, 1 milliard • Le radiotélescope à réseau d'un
actifs mensuels en 2022 (+1% d’utilisateurs actifs. kilomètre carré produit 7 Po de
par rapport à Q2 2021) • Plus de 100 millions de données brutes par seconde: 50
• 1,967 milliard d'utilisateurs photos et vidéos sont postées To de données analysées par
actifs journaliers en juillet 2022 chaque jour journée
• 6 nouveaux profils créés • 40 milliards de photos sont • Airbus génère 40 To pour chaque
chaque seconde. partagées. essai d'avion
• 500 millions stories Facebook • 4,2 milliards de likes sont • Création de données numériques
sont partagées tous les jours comptabilisés chaque jour sur dans le monde entier:
• L’utilisateur moyen sur Instagram • 2010 : 1,2 Zb
Facebook va “liker” en moyenne • 500 millions de stories sont • 2011 : 1,8 Zb
13 posts, fait 5 commentaires, postées par jour • 2012 : 2,8 Zb
partage 1 post et clique sur 12 • Chaque année, le nombre de
publicités en 30 jours. • 2020 : 40 Zb
Contexte général

vidéos créées tous les jours sur

Instagram est multiplié par 4. • 90 % des données ont été créées
au cours des 2 dernières années

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 9

De plus en plus de données…

Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 10

5
18/03/2025

De plus en plus de données…

▪ Statistiques et prévisions 2025 : en un coup d’œil

• 2,5 quintillions d'octets de données sont créés chaque
jour
• 181 zettaoctets de données devraient être générés en Nom Symbole Valeur
2025.
kilooctet ko 103
• Le monde numérique mondial contient 64 zettaoctets de
données. mégaoctet Mo 106
gigaoctet Go 109
• 70 % de toutes les données sont générées par les téraoctet To 1012
utilisateurs.
pétaoctet Po 1015
• Plus de 97 % des entreprises ont investi dans le Big exaoctet Eo 1018
Data.
zettaoctet Zo 1021
• Le marché de l'analyse du Big Data est estimé à 348,21
milliards de dollars. yottaoctet Yo 1024
Quintillion Qo 1030
Contexte général

• Le marché du Big Data devrait croître à un rythme

annuel de 13 % pour atteindre 924,39 milliards de
dollars d'ici 2032
[Link]

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 11

De plus en plus de données…

Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 12

6
18/03/2025

Conséquences

▪ Ces données proviennent de nombreuses sources

• avec la multiplication des appareils (ordinateurs personnels, téléphones, tablettes)
• le développement des applications cloud.
▪ Ces diverses sources génèrent des données dans de nombreux formats différents.
• Un tel format peut être structuré (avec XML, Json ..)
• ou non structuré (comme des données textuelles)
▪ Le temps de lecture et de traitement
Contexte général

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 13

Big Data : Présentation,

caractéristiques et limitations

Pr. Mourdi Youssef @ Faculté Polydisciplinaire de Safi / Université Cadi Ayyad 14

7
18/03/2025

Larges définitions

1. Le Big Data est défini comme un ensemble de données dont le volume, la vitesse ou la variété sont si
importants qu'il est difficile de les stocker, de les gérer, de les traiter et de les analyser à l'aide de bases de
données et d'outils de traitement de données traditionnels.
Big Data : Présentation, caractéristiques et limitations

2. Les Big Data sont des ressources d’information à haut volume, à grande vitesse et à grande variété qui
nécessitent des formes de traitement de l’information rentables et innovantes pour une meilleure
compréhension et une meilleure prise de décision.

3. Plusieurs zettaoctets de données provenant de nos ordinateurs, de nos appareils mobiles et de divers
capteurs. Le Big Data est « Big » non seulement en raison de son volume, mais aussi de sa variété et de sa
complexité. Il dépasse en général la capacité des bases de données traditionnelles à capturer, à gérer et à
traiter les données

4. On considère généralement qu'on entre dans le monde du Big Data lorsque le traitement ne peut être
effectué avec un seul ordinateur (même de grande taille).

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 15

Les 5V du Big Data

Traiter de très gros volumes Les données peuvent être de

Volume Variété
de données types très différents
Big Data : Présentation, caractéristiques et limitations

Big Data
Véracité Vélocité

Valeur
Prendre en compte la La vitesse à laquelle les
confiance dans les données données sont reçues et
traitées (peut-être) traitées.

Découvrir la valeur des données en les

analysant et prédire des comportements
futurs

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 16

8
18/03/2025

Exemples qui ne relèvent pas du Big Data

▪ Un volume de données que l'on peut traiter au moyen d'une fiche Excel.
Big Data : Présentation, caractéristiques et limitations

▪ Des données que l'on peut héberger dans un seul nœud d'une b ase de données relationnelle.
▪ Les données qui sont « chères » à produire telles que celles qui sont collectées par sondage ou par
recensement ou produite par un organisme tel que l'INSEE.
▪ L'idée ici est que les données qui relèvent du Big Data sont typiquement créées pour un coût quasi nul.
▪ Les données issues de capteurs physiques comme ceux de l'internet des objets à venir.
▪ Les données publiques librement disponibles au téléchargement. Là encore on se place dans une perspective
où ce qui relève du Big Data ne pourra être téléchargé au moyen d'une seule connexion Internet même à très
haut débit.

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 17

Exemples qui relèvent du Big Data

▪ Les volumes de données qu’il n'est pas possible de stocker ou de traiter avec les technologies traditionnelles
que les SGBDR ou pour lesquelles le coût d'un tel traitement serait prohibitif.
Big Data : Présentation, caractéristiques et limitations

▪ Les données de logs transactionnelles d'un site web d'un e grande enseigne de distribution.

▪ Le trafic d'un gros site web.

▪ Les données de localisation GSM d'un opérateur téléphonique sur une journée.

▪ Les données boursières échangées quotidiennement sur une grande place financière.

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 18

9
18/03/2025

Quoi faire avec des Big Data ? -1-

▪ Le Big Data permet d'obtenir des réponses plus complètes car on dispose de plus d'informations.
▪ Des réponses plus complètes signifient plus de confiance dans les données, ce qui signifie une approche
complètement différente pour résoudre les problèmes.
Big Data : Présentation, caractéristiques et limitations

On ne cherche pas à savoir les choses mais à les comprendre Big Data Analytics

Web Finance Santé et médecine IoT Environnement

• Web Analytics • Modélisation du • Surveillance • Détection • Surveillance

• Analyse des risque de crédit épidémiologique d’intrusion météorologique
performances • Détection des • Prévision des • Parkings • Surveillance de la
• Recommandation fraudes effets indésirables intelligents pollution
du contenu des médicaments • Routes atmosphérique
• Ciblage et analyse • Surveillance de la intelligentes • Surveillance de la
des publicités santé en temps • Agriculture de qualité de l'eau
réel précision

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 19

Quoi faire avec des Big Data ? -2-

On ne cherche pas à savoir les choses mais à les comprendre Big Data Analytics
Big Data : Présentation, caractéristiques et limitations

Logistique et transport Industrie Vente Education

• Suivi de flotte en temps • Diagnostic et pronostic • Gestion des stocks • Enseignement adaptatif
réel des machines • Recommandations aux • Prédiction des
• Suivi des expéditions • Analyse des risques des clients abondants
• Diagnostic à distance opérations industrielles • Optimisation de • Recommandation
des véhicules • Planification et contrôle l'agencement du d’orientation
• Génération et de la production magasin académique
planification • Prédiction des
d'itinéraires demandes

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 20

10
18/03/2025

Limitations

▪ les volumes de données doublent environ tous les deux ans

▪ problèmes de stockage
▪ Problèmes de préparation (nettoyage par exemple) : Les data scientists passent 50 à 80 % de leur temps à
conserver et à préparer des données avant qu'elles ne puissent être réellement utilisées.
Big Data : Présentation, caractéristiques et limitations

▪ Exemple : Google en 2012

• Données traitées par google chaque jour : +100 PB
• Analyser 10 milliards de pages Web
✓ Taille moyenne d'une page Web : 20 Ko
✓ Taille de la collection : 10 milliards x 20 Ko = 200 To
✓ Bande passante de lecture du disque dur HDD/SDD : 150/550 Mo/sec
✓ Temps nécessaire pour lire toutes les pages Web (sans les analyser) : plus de 15 / 4jours

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 21

Vers des architectures

distribuées

Pr. Mourdi Youssef @ Faculté Polydisciplinaire de Safi / Université Cadi Ayyad 23

11
18/03/2025

Modèle de Von Neumann (1945)

Mémoire ▪ La mémoire : contient le programme (instructions)

et les données.
▪ Une Unité Arithmétique et Logique : UAL qui
effectue les opérations.
Contrôle UAL ▪ Une unité de contrôle : chargée du séquençage des
opérations.
Vers des architectures distribuées

▪ Une unité d’Entrée/Sortie.

Input Output

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 24

Un processus en 2011

Mémoire Système E/S

Unité de commande
Bus Interace
Instruction

UAL UAL UAL

L2
Vers des architectures distribuées

L1 Data
Core 0 Core 1 Core n

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 25

12
18/03/2025

Calcul parallèle

▪ Un calcul parallèle est exécuté sur plusieurs unités de calcul

▪ Le calcul est découpé en plusieurs parties pouvant s exécuter ’exécuter simultanément
▪ Chaque partie est découpée en séquences d’instructions
▪ Des instructions de chaque partie s’exécutent simultanément sur un CPU
Vers des architectures distribuées

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 26

Calcul parallèle

▪ Les ressources de calcul peuvent être

• Une seule machine avec un ou plusieurs processeurs

• Plusieurs machines avec un ou plusieurs processeurs interconnectées par un réseau rapide
• Une grille de calcul : plusieurs ensembles de plusieurs machines
Vers des architectures distribuées

Si un CPU peut exécuter les opérations arithmétiques du programme en temps t, alors n CPU peuvent
idéalement les exécuter en temps t/n

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 27

13
18/03/2025

Pourquoi utiliser le parallélisme ?

▪ Economiser du temps (à la montre)

▪ Résoudre des problèmes de + grande taille
▪ Avoir accès à plus de mémoire et plus de puissance en cumulant les ressources matérielles
▪ Pouvoir traiter plusieurs choses en même temps
▪ Les limites du séquentiel :
• Limites de la vitesse de transmission ( transmission des données entre les différents éléments du
hardware) La taille mémoire
Vers des architectures distribuées

• Les limites de la miniaturisation

• Les limites économiques: + cher d’augmenter la rapidité d’un processeur que de multiplier les
processeurs ou les cores

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 28

Classification de Flynn

▪ La taxonomie de Flynn est une classification des architectures d'ordinateur, proposée par Michael Flynn en
1966. Les quatre catégories définies par Flynn sont classées selon le type d'organisation du flux de données et
du flux d'instructions.
• architecture // , toutes les unités de
traitement exécutent la même
• architecture séquentielle avec un
instruction à un cycle d’horloge
seul flot d’instructions,
donnée, chaque unité peut opérer
• un seul flot de données, exécution
sur des données différentes
déterministe
exécution déterministe
Vers des architectures distribuées

SISD SIMD
• un seul flot de données alimente • architecture la plus courante
plusieurs unités de traitement, MISD MIMD aujourd’hui,
• chaque unité de traitement opère • Chaque unité de traitement peut
indépendamment des autres, sur gérer un flot d’instructions différent
• des flots d’instructions • Chaque unité peut opérer sur un flot
indépendants de données différent
• Peu implémenté • L’exécution peut être synchrone ou
asynchrone

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 29

14
18/03/2025

Architecture en Single-node : Limitations

▪ Petites données : Les données peuvent être entièrement chargées

CPU dans la mémoire principale
▪ Exemple : Apprentissage automatique superficiel,
Mémoire statistiques
Vers des architectures distribuées

Disque

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 30

Architecture en Single-node : Limitations

CPU ▪ Données volumineuses

▪ Les données ne peuvent pas être entièrement chargées dans la
mémoire principale
Mémoire • Charger dans la mémoire principale un bloc de données à la fois
• Traitez-le et stockez des statistiques
• Combinez les statistiques pour calculer le résultat final
Vers des architectures distribuées

▪ Exemple : Data Mining classique

Disque

Une architecture à nœud unique n'est pas adéquate

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 31

15
18/03/2025

Architecture de Cluster : Diviser pour régner

▪ Un cluster est un ensemble de serveurs interconnectés qui sont exploités par un système
d'exploitation distribué afin de donner l'illusion d'un ordinateur géant.

▪ Les principaux acteurs du domaine ont développé de tels frameworks de systèmes d'exploitation distribués
pour mettre en place une sorte d'ordinateur géant de stockage et de traitement des données.

▪ L'approche générale utilisée pour traiter efficacement de très grands ensembles de données consiste à
Vers des architectures distribuées

appliquer un principe bien connu appelé "diviser pour mieux régner".

▪ Le principe est de diviser une tâche en plusieurs sous-tâches qui peuvent être réparties sur des
ordinateurs distribués, bénéficiant ainsi d'E/S parallèles (lectures sur différents disques) et/ou de calculs
parallèles (sur différents processeurs).

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 32

Architecture de Cluster : Diviser pour régner

Switch

Switch Switch Switch

CPU CPU CPU CPU

Mémoire Mémoire Mémoire Mémoire

Vers des architectures distribuées

… …

Disque Disque Disque Disque

Serveur 1 Serveur .. Serveur .. Serveur M

Rack 1 Rack … Rack N

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 33

16
18/03/2025

Data Center
Vers des architectures distribuées

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 34

Deux modes de traitement : le Traitement par lots (Batch processing)

▪ Traitement de blocs de données déjà stockés sur une période donnée.

▪ Par exemple, traiter toutes les transactions effectuées par une entreprise financière en une semaine.
▪ Ces données contiennent des millions d’enregistrements pour chaque jour
▪ pouvant être stockés sous forme de fichiers textes (CSV) ou d’enregistrements stockées
Vers des architectures distribuées

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 35

17
18/03/2025

Deux modes de traitement : le Traitement de flux (Stream processing)

▪ Contrairement au traitement par lots où les données sont liées avec un début et une fin dans
▪ un traitement qui se termine après le traitement de données finies,
▪ Le Stream Processing est destiné au traitement de flux de données sans fin arrivant en temps réel de façon
continue pendant des jours, des mois, des années et à jamais.
▪ Le traitement de flux nous permet de traiter les données en temps réel
▪ Le traitement de flux permet d'introduire des données dans des outils d'analyse dès qu’elles sont générées
et d'obtenir des résultats d'analyse instantanés.
Vers des architectures distribuées

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 36

Techniques et technologies

Pr. Mourdi Youssef @ Faculté Polydisciplinaire de Safi / Université Cadi Ayyad 37

18
18/03/2025

Systèmes de fichiers distribués - HDFS

▪ La base du Big Data: Le stockage

▪ Besoin d’un système de fichier “général”, qui permet de stocker n’importe quel genre de donnée

• La configuration est complexe et fragile et

• En production dans des milliers de compagnies
relativement lent
• Documentation
• Ne supporte que la réplication pour éviter la perte
• Compatibilité - pratiquement tout l’écosystème
Techniques et technologies

de données
“Big Data” parle HDFS
• La nécessité d’interroger le Namenode pour chaque
• Disponibilité du support (les “vendeurs”
lecture
Hadoop)
• Nombre de blocs limité par l’espace mémoire du
Namenode (Scale-up du Namenode)

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 38

Systèmes de fichiers distribués – S3

▪ Produit d’Amazon sur la plateforme AWS

▪ Option intéressante lorsque les données sont produites depuis AWS
▪ Permet de rendre des données publiques très facilement / Plusieurs options d’authentification

• Système propriétaire et opaque =>

• Disponible dès le jour 0 Potentiellement coûteux à long terme
• 99,9% de disponibilité: non disponible durant • Moins intéressant lorsqu’on produit les données
Techniques et technologies

pas plus de 43 minutes par année localement

• Simple d’utilisation (HTTP) • Certaines opérations sont contre-intuitivement très
coûteuses (renommer un fichier est une copie)

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 39

19
18/03/2025

Systèmes de fichiers distribués – CEPH

▪ Système de fichiers distribué conçu et développé par RedHat

▪ Conceptuellement semblable à HDFS: différences architecturales fondamentales
▪ Possible d’utiliser avec Hadoop

• Performant
• Architecture moderne: aucun point de
• Configuration extrêmement complexe
Techniques et technologies

défaillance unique
• Très peu de cas d’usage (public) Hadoop
• Polyvalent: permet de consolider plusieurs cas
d’utilisation

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 40

Algorithmes Distribués – Frameworks Apache

▪ Afin de traiter de très grandes quantités de données, inverser la responsabilité: déplacer l’algorithme vers
les données

Hadoop Map/Reduce Apache Storm Apache Spark

• Algorithme composé de 2 étapes • Chaque donnée en entrée est • contient les mêmes étapes
conceptuelles traitée individuellement conceptuelles que Map/Reduce
• Sa résilience et son parallélisme • La topologie de traitement mais n’utilise pas Map/Reduce de
sont ce qui le rendent peut être très complexe Hadoop
particulièrement • Développé chez Twitter dans le • plan d’exécution plus sophistiqué
intéressant pour le Big-Data but de générer les tweets en • Spark permet aujourd’hui
Techniques et technologies

• Manuellement: laborieux - sujet à temps réel d’unifier les 2 mondes (batch et

l’erreur - possibilités • A depuis été remplacé par un streaming)
d’optimisations potentiellement système encore plus performant
perdues

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 41

20
18/03/2025

Systèmes de BD

▪ Les paradigmes de batch et de flux sont insuffisants => il est aussi nécessaire de lire et écrire aléatoirement
(random read/write)

▪ Les bases de données traditionnelles (du type scale-up) ne sont pas appropriées
• Volume: un seul serveur ne peut plus contenir toutes les données
• Vélocité: la bande passante d’un seul serveur ne peut pas soutenir le taux de requêtes
• Variété: les données ne sont pas toutes tabulaires (relationnelles)

▪ C’est la naissance du “NoSQL”

Techniques et technologies

• un pauvre choix de nom

• ne décrit pas ce que le système est, mais plutôt ce qu’il n’est pas
• plusieurs BD “NoSQL” ont une interface SQL (ou simili-SQL)

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 42

Systèmes de BD – Présentation de NoSQL

▪ Généralement (et non strictement), une BD ▪ Étant donné le design simple, une BD
NoSQL: NoSQL peut:
• offre un paradigme d’accès ou stockage ▪ soutenir un taux de requête très grand
non relationnel
▪ survivre à des défaillances réseau ou de
• est distribuée
nœud
• offre une certaine forme de capacité
“scale-out” ▪ offrir une capacité très grande de stockage
• utilise un design simple (qui offre
parfois peu de fonctionnalités)
▪ Les familles (selon le paradigme d’accès):
• Document
Techniques et technologies

▪ On peut lister les avantages suivants: • Clé-valeur / famille de colonnes

• pas de transaction (begin, commit / • Graphe
rollback) • Structuré / semi-structuré
• perte des garanties de durabilité (perte
d’une écriture confirmée)

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 43

21
18/03/2025

Systèmes de BD – Familles

Accès par Document Clé-Valeur Graphe

• unité de stockage est un • une géante table d’association clé • Paradigme d’accès est celui de
“document” (ex. : JSON) → valeur (Array[Byte] → noeuds et liens (nodes and edges)
• les documents d’une même Array[Byte] ) • Généralement pour des
collection ne sont pas • offre généralement très peu de problèmes spécialisés (types
nécessairement homogènes fonctionnalités réseaux)
• on accède au document sous une • deux grandes familles: • Permet des interrogations très
clé primaire • clés ordonnées complexes
lexicographiquement • Peu de cas d’usage public
Techniques et technologies

• hash-ring

MongoDB - Elasticsearch Hbase - Cassandra Neo4J

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 44

Suite du module

Pr. Mourdi Youssef @ Faculté Polydisciplinaire de Safi / Université Cadi Ayyad 45

22
18/03/2025

Suite du module

▪ L’environnement Apache Hadoop (HDFS et MapReduce)

▪ Traitement MapReduce sur plusieurs nœuds
▪ L’environnement Apache Spark
▪ Le framework PySpark
▪ Spark Streaming
Vers des architectures distribuées

▪ Base de données NoSQL (Hive/Hbase)

▪ Examen final

Pr. Mourdi Youssef / Faculté Polydisciplinaire de Safi, université Cadi Ayyad 46

Vous aimerez peut-être aussi

Introduction au Big Data
100% (1)
Introduction au Big Data
15 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
20 pages
Introduction au Big Data et ses technologies
Pas encore d'évaluation
Introduction au Big Data et ses technologies
12 pages
Lecture 1 Bis
Pas encore d'évaluation
Lecture 1 Bis
53 pages
Article Intro Big Data
Pas encore d'évaluation
Article Intro Big Data
11 pages
Introduction au Big Data et ses Défis
Pas encore d'évaluation
Introduction au Big Data et ses Défis
112 pages
Chapitre1: Introduction: Big Data
Pas encore d'évaluation
Chapitre1: Introduction: Big Data
31 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
42 pages
Introduction aux enjeux des BIG DATA en France
Pas encore d'évaluation
Introduction aux enjeux des BIG DATA en France
24 pages
Préparation à la certification Big Data
Pas encore d'évaluation
Préparation à la certification Big Data
42 pages
BIG DATA - Niv III PP 1&2 - 023-024
Pas encore d'évaluation
BIG DATA - Niv III PP 1&2 - 023-024
15 pages
Big Data
Pas encore d'évaluation
Big Data
48 pages
Big Data Maintenance Predictive Au Servi
Pas encore d'évaluation
Big Data Maintenance Predictive Au Servi
14 pages
Gestion et Analyse des Big Data
Pas encore d'évaluation
Gestion et Analyse des Big Data
26 pages
Comprendre le phénomène Big Data
Pas encore d'évaluation
Comprendre le phénomène Big Data
16 pages
Introduction au Big Data et ses Enjeux
100% (1)
Introduction au Big Data et ses Enjeux
16 pages
Chapitre1 Mapreduce
Pas encore d'évaluation
Chapitre1 Mapreduce
20 pages
HadoopMapReduce CD 2 1
Pas encore d'évaluation
HadoopMapReduce CD 2 1
72 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
104 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
44 pages
Introduction au Big Data par Abir Khaldi
Pas encore d'évaluation
Introduction au Big Data par Abir Khaldi
31 pages
Culture Digitale: Big Data & Data Science
Pas encore d'évaluation
Culture Digitale: Big Data & Data Science
22 pages
Introduction A Big Data
100% (1)
Introduction A Big Data
48 pages
Chapitre 1 - Big Data
100% (2)
Chapitre 1 - Big Data
30 pages
2 - Big Data
Pas encore d'évaluation
2 - Big Data
60 pages
Coursbigdata Chap1 - Introduction À Big Data
Pas encore d'évaluation
Coursbigdata Chap1 - Introduction À Big Data
53 pages
État de l'art des Big Data en 2015
Pas encore d'évaluation
État de l'art des Big Data en 2015
68 pages
Introduction Vers Les Big Data Et Chapitre 1
Pas encore d'évaluation
Introduction Vers Les Big Data Et Chapitre 1
49 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Comprendre le Big Data et ses enjeux
Pas encore d'évaluation
Comprendre le Big Data et ses enjeux
13 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
27 pages
Rapport sur le Big Data et ses applications
Pas encore d'évaluation
Rapport sur le Big Data et ses applications
13 pages
Technologies Big Data II - CH1
Pas encore d'évaluation
Technologies Big Data II - CH1
23 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
148 pages
Miniprojet BigData
Pas encore d'évaluation
Miniprojet BigData
9 pages
Gestion de Projet et Applications Big Data
Pas encore d'évaluation
Gestion de Projet et Applications Big Data
30 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
10 pages
Chapitre 3 BDA - 2023
Pas encore d'évaluation
Chapitre 3 BDA - 2023
28 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
23 pages
Cours Big D
Pas encore d'évaluation
Cours Big D
81 pages
Cours Big Data
Pas encore d'évaluation
Cours Big Data
64 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
173 pages
Tout Savoir Sur Le Big Data
Pas encore d'évaluation
Tout Savoir Sur Le Big Data
9 pages
Tout Savoir Sur Le Big Data
Pas encore d'évaluation
Tout Savoir Sur Le Big Data
9 pages
Big Data
100% (1)
Big Data
88 pages
Cours
Pas encore d'évaluation
Cours
54 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
25 pages
Big Data 2
Pas encore d'évaluation
Big Data 2
89 pages
Big Data : enjeux et défis marketing
Pas encore d'évaluation
Big Data : enjeux et défis marketing
22 pages
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
Pas encore d'évaluation
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
10 pages
Big Data - Generalite
Pas encore d'évaluation
Big Data - Generalite
28 pages
Chap1 Intro Au Big Data
Pas encore d'évaluation
Chap1 Intro Au Big Data
28 pages
Introduction aux Big Data et défis clés
Pas encore d'évaluation
Introduction aux Big Data et défis clés
26 pages
Introduction Big Data-1
Pas encore d'évaluation
Introduction Big Data-1
55 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
49 pages
Big Data Chap 1 - Introduction
Pas encore d'évaluation
Big Data Chap 1 - Introduction
33 pages
Big Data and Machine Learning Course. Part No 1
Pas encore d'évaluation
Big Data and Machine Learning Course. Part No 1
96 pages
Big Data Et Data Mining
Pas encore d'évaluation
Big Data Et Data Mining
14 pages
Chapitre 2 HADOOP
Pas encore d'évaluation
Chapitre 2 HADOOP
26 pages
Chapitre 3 SPARK
Pas encore d'évaluation
Chapitre 3 SPARK
23 pages
Gestion de Bibliothèque en Java DAI 2014
Pas encore d'évaluation
Gestion de Bibliothèque en Java DAI 2014
7 pages
Corrigé CAI Brevet 2022 DSI
Pas encore d'évaluation
Corrigé CAI Brevet 2022 DSI
5 pages
Manuel de Solutions Pour Réseaux Informatiques, 4ème Éd., Par Andrew S. Tanenbaum
Pas encore d'évaluation
Manuel de Solutions Pour Réseaux Informatiques, 4ème Éd., Par Andrew S. Tanenbaum
3 pages
Chauffage Induction - Partie - 1 - Sur - 2 - 2
Pas encore d'évaluation
Chauffage Induction - Partie - 1 - Sur - 2 - 2
251 pages
Conception Sites Web
Pas encore d'évaluation
Conception Sites Web
2 pages
Exemple Dossier de Sponsoring PDF
Pas encore d'évaluation
Exemple Dossier de Sponsoring PDF
2 pages
Injection-GESTION MOTEUR ESSENCE Profs
67% (3)
Injection-GESTION MOTEUR ESSENCE Profs
30 pages
Pointeurs et tableaux en C++
Pas encore d'évaluation
Pointeurs et tableaux en C++
4 pages
Attestation Droit S
Pas encore d'évaluation
Attestation Droit S
2 pages
Comment Piraté Un Compte Facebook
Pas encore d'évaluation
Comment Piraté Un Compte Facebook
3 pages
Fiche SQL Exists in All Astuces
Pas encore d'évaluation
Fiche SQL Exists in All Astuces
4 pages
Cine 32
Pas encore d'évaluation
Cine 32
18 pages
TP Poo
Pas encore d'évaluation
TP Poo
4 pages
RAM PC BUREAU DDR4 - PC Gamer Maroc 1ère Chaîne de Magasins Gaming Au Maroc
Pas encore d'évaluation
RAM PC BUREAU DDR4 - PC Gamer Maroc 1ère Chaîne de Magasins Gaming Au Maroc
1 page
Chap5 Réseaux Routage
Pas encore d'évaluation
Chap5 Réseaux Routage
31 pages
Analyse du protocole AODV en réseaux ad hoc
Pas encore d'évaluation
Analyse du protocole AODV en réseaux ad hoc
51 pages
Inventaire Matériel Agence Temara
Pas encore d'évaluation
Inventaire Matériel Agence Temara
1 page
TP Access
Pas encore d'évaluation
TP Access
4 pages
MQT-7001: Modélisation Et Optimisation: Plan de Cours
100% (1)
MQT-7001: Modélisation Et Optimisation: Plan de Cours
9 pages
Relevé N°006 Du 14 - 06 - 2022
Pas encore d'évaluation
Relevé N°006 Du 14 - 06 - 2022
3 pages
Centrale KARA
Pas encore d'évaluation
Centrale KARA
4 pages
Plateforme Cim Guide Utilisateur
Pas encore d'évaluation
Plateforme Cim Guide Utilisateur
21 pages
Exercices sur limites et continuité
50% (2)
Exercices sur limites et continuité
9 pages
Lumiere Et Couleurs Principes
Pas encore d'évaluation
Lumiere Et Couleurs Principes
40 pages
Lignes D'influence
100% (3)
Lignes D'influence
28 pages
Notice Legrand Horloge 412633
100% (1)
Notice Legrand Horloge 412633
5 pages
Sec505 Windows Alpha
Pas encore d'évaluation
Sec505 Windows Alpha
96 pages
Systèmes d'Info et Données Com.
Pas encore d'évaluation
Systèmes d'Info et Données Com.
36 pages
Comparaison des Algorithmes d'Ordonnancement
Pas encore d'évaluation
Comparaison des Algorithmes d'Ordonnancement
5 pages
Audit ISO 27001 : Sécurité des SI
100% (1)
Audit ISO 27001 : Sécurité des SI
12 pages
Elum Energy
Pas encore d'évaluation
Elum Energy
26 pages
Communication Pro
Pas encore d'évaluation
Communication Pro
5 pages