BIG DATA
CHAPITRE 1 : INTRODUCTION AU BIG DATA
M1 - SII (2022-2023)
Plan du cours
1) Introduction au Big Data
2) Fondements de l’environnement Hadoop
3) Les modèles de données : les architectures NoSQL
4) Acquisition de données
5) Exploitation des données
2
Qu’est ce que le BIG DATA
Changement en volume
Changement d’origine des données (origines variées)
Changement de structure (semi-structurées, non-structurées)
Capacités de stockage accrues (stockage dans le Cloud)
Changement des traitements (batch, flux etc…)
Evolution des usages (Avertissements, traitements des flux)
3
Qu’est ce que le BIG DATA
Le Big Data fait référence aux volumes de données dynamiques,
volumineux et disparates créés par des personnes, des outils et
des machines. Elle nécessite une technologie innovante et
évolutive pour collecter, héberger et analyser analytiquement la
grande quantité de données collectées afin d’obtenir des
informations en temps réel sur les clients, les risques, les
bénéfices, la performance et la gestion de la productivité d’une
entreprise. (Source : Le Cabinet d’Audit E&Y)
4
Les V du Big Data
5
La Volumétrie (Volume)
En 2021, en 1 minute
d’internet 3 787 915
giga bytes de données
transférées
6
Les V du Big Data
7
La vitesse (vélocité)
Augmentation des besoins de
traitement :
Comment conserver une bonne vitesse ?
Traitement Big Data
Origine Google
8
La vitesse (vélocité)
MapReduce
Traitement parallélisé en Batch
Traitement périodique
9
La valeur
La maitrise des 3V génère de la valeur
o Valeur stratégique
o Valeur opérationnelle
o Nouvelles opportunités
10
La variété
Le Big Data
Mégadonnées
Structurées Semi-structurées Non-structurées
Données de reconnaissances faciales
Logs
Données sociales
Mobiles
Capteurs (IoT : Internet des objets)
11
Les débuts du Big Data
Google
Début des années 2000
Indexation du web entier
Publications de congrès
12
- Le client contacte le maître
Les débuts du Big Data - Distribution des données
- Commodity hardware
Google File System
13
Les débuts du Big Data
Map = Traitement de chaque élément
MapReduce Reduce = Regroupement
14
Les débuts du Big Data
MapReduce a tout son intérêt dans le Big Data car il permet le passage
à l’échelle de traitements sur de gros volumes de données.
Cependant, il faut une infrastructure logicielle dédiée qui permette
d’exécuter le schéma MapReduce de manière distribuée sur un cluster
de machines.
Cette infrastructure c’est le framework Hadoop de la fondation
Apache.
15
Le projet Hadoop
Hadoop est un framework open source écrit en Java et fait partie des
projets de la fondation Apache depuis 2008. Il a été conçu pour
réaliser des traitements distribués sur des données massives.
• La version stable la plus récente est la version 3.3.1
• Hadoop est composé principalement :
du modèle de programmation MapReduce
du système de gestion de fichiers HDFS
16
L’écosystème Hadoop
17
L’écosystème Hadoop
18
L’écosystème Hadoop
19
Exemple d’application
20