Traitement distribué pour les
Big Data
Master Ingénierie des Systèmes
d'Information
M. Jean-Marie PREIRA
[email protected] Juin 2022
1
SOMMAIRE
I. Introduction à l'informatique parallèle
II. Big Data et analyse de données
III.Le paradigme MapReduce
IV.L'écosystème Hadoop
V. Apache Hive
VI.Apache Spark
2
Traitement distribué pour les
Big Data
II. Big Data et analyse de données
3
Big Data et analyse de données
● Rappel sur les caractéristiques du Big Data
– Volume
– Variété
– Vélocité
– Les 5V
● Le pipeline du Big Data
– Le pipeline de données
– La collecte de données
– Le traitement des données
– L'analyse des données
● Les acteurs du pipeline de données
– L'Administrateur Système
– Le développeur
4
– Data Analyst et Data Scientist
Rappel sur les caractéristiques du Big Data
● Data
– Nombres, textes, images, audio, vidéo.
● Big Data
– Difficultés à décrire,stocker et traiter
– Possède une des caractéristiques des
3V
5
Rappel sur les caractéristiques du Big Data
● Volume : quantité
6
Rappel sur les caractéristiques du Big Data
● Variété: type
7
Rappel sur les caractéristiques du Big Data
● Vélocité: vitesse
8
Rappel sur les caractéristiques du Big Data
● Les 5V
9
Le pipeline du Big Data
● Le pipeline de données
● Les données de vos sources doivent être ingérées,
traitées, stockées et analysées.
● Il existe de nombreux outils, processus et acteurs qui
interviennent à chaque étape du pipeline de données.10
Le pipeline du Big Data
● Le pipeline de données
● Le pipeline de données n'est pas nécessairement linéaire.
● La production d'une analyse pourrait être l'entrée de d'un
autre pipeline. 11
Le pipeline du Big Data
● La collecte de données
➢ Le Volume : estimation de l'espace de stockage
– Prendre en considération :
● L'évolution ou non des données dans le temps
● La tolérance aux pannes (3 réplicas)
● Les méta-données 12
Le pipeline du Big Data
● Le traitement des données
● Le processus ETL peut inclure :
– la normalisation ou le nettoyage des données
– l'échantilonnage des données
– la séparation en données de test et d'apprentissage pour le 13
Machine Learning
Le pipeline du Big Data
● L'analyse de données
– Elle permet :
● La visualisation des données
● L'aide à la décision
● L'apprentissage automatique
14
Les acteurs du pipeline de données
● L'Administrateur système
15
Les acteurs du pipeline de données
● L'Administrateur Système
➢ Pipeline de données
● Les administrateurs mettent en place les serveurs où
seront ingérées et stockées les données.
● Ils installent également les logiciels nécessaires pour
16
traiter et analyser les données.
Les acteurs du pipeline de données
● Le développeur (Java, Python ou Scala)
17
Les acteurs du pipeline de données
● Le développeur
➢ Pipeline de données
● Les développeurs sont chargés de développer des
programmes pour ingérer et traiter les données.
● Ils convertissent les données dans un format afin que
celles-ci soient stockées sur le cluster et analysées pour 18
obtenir des résultats.
Les acteurs du pipeline de données
● Data Analyst et Data Scientist
19
Les acteurs du pipeline de données
● Data Analyst et Data Scientist
➢ Pipeline de données
Les Data analyst et les Data scientist sont chargés d'analyser les
données. Cela comprend l'extraction, la normalisation, le filtrage,
l'agrégation, l'interrogation, l'interprétation des données, et leur
représentation graphique.
20
Les acteurs du pipeline de données
● Data Analyst et Data Scientist
➢ Leur profil
– Ils maîtrisent les langages de programmation
fonctionnelle ou de script comme Python, R, le
langage SQL.
– Ils ont généralement une solide expérience en
statistiques et sont des experts dans un domaine
particulier, tel que la finance, la médecine ou le
traitement des langues.
– En outre le Data Scientist est fortement impliqué dans
les projets de Machine Learning.
21
Les acteurs du pipeline de données
● Data Analyst et Data Scientist
➢ L'analyse de données
● L'exploration de ces données nécessite des compétences
en SQL alors que l'analyse nécessite une connaissance
22
avancée des modèles statistiques.
Les acteurs du pipeline de données
● Data Analyst et Data Scientist
➢ Visualisation des données
● Nécessite une bonne maîtrise des outils de visualisation
de données comme Tableau. 23
Les acteurs du pipeline de données
● Data Analyst et Data Scientist
➢ Data Scientist vs Data Engineer
24
Les acteurs du pipeline de données
● Data Analyst et Data Scientist
➢ Data Scientist vs Data Engineer
25
Références
(1) MAPR Academy : ESS 1000 – Big Data Essentials - Slide Guide,
Introduction to Big Data, Lesson 1 & 2.
26