0% ont trouvé ce document utile (0 vote)
90 vues26 pages

TDBD Part2

Le document décrit le pipeline de données du Big Data, y compris la collecte, le traitement et l'analyse des données. Il explique les rôles de l'administrateur système, du développeur, de l'analyste de données et du scientifique de données dans ce pipeline.

Transféré par

Mbaye Babacar MBODJ
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
90 vues26 pages

TDBD Part2

Le document décrit le pipeline de données du Big Data, y compris la collecte, le traitement et l'analyse des données. Il explique les rôles de l'administrateur système, du développeur, de l'analyste de données et du scientifique de données dans ce pipeline.

Transféré par

Mbaye Babacar MBODJ
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Traitement distribué pour les

Big Data

Master Ingénierie des Systèmes


d'Information
M. Jean-Marie PREIRA
[email protected]

Juin 2022
1
SOMMAIRE

I. Introduction à l'informatique parallèle


II. Big Data et analyse de données
III.Le paradigme MapReduce
IV.L'écosystème Hadoop
V. Apache Hive
VI.Apache Spark

2
Traitement distribué pour les
Big Data

II. Big Data et analyse de données

3
Big Data et analyse de données
● Rappel sur les caractéristiques du Big Data
– Volume
– Variété
– Vélocité
– Les 5V
● Le pipeline du Big Data
– Le pipeline de données
– La collecte de données
– Le traitement des données
– L'analyse des données
● Les acteurs du pipeline de données
– L'Administrateur Système
– Le développeur
4
– Data Analyst et Data Scientist
Rappel sur les caractéristiques du Big Data

● Data
– Nombres, textes, images, audio, vidéo.
● Big Data
– Difficultés à décrire,stocker et traiter
– Possède une des caractéristiques des
3V

5
Rappel sur les caractéristiques du Big Data

● Volume : quantité

6
Rappel sur les caractéristiques du Big Data

● Variété: type

7
Rappel sur les caractéristiques du Big Data

● Vélocité: vitesse

8
Rappel sur les caractéristiques du Big Data

● Les 5V

9
Le pipeline du Big Data
● Le pipeline de données

● Les données de vos sources doivent être ingérées,


traitées, stockées et analysées.
● Il existe de nombreux outils, processus et acteurs qui
interviennent à chaque étape du pipeline de données.10
Le pipeline du Big Data
● Le pipeline de données

● Le pipeline de données n'est pas nécessairement linéaire.


● La production d'une analyse pourrait être l'entrée de d'un
autre pipeline. 11
Le pipeline du Big Data
● La collecte de données
➢ Le Volume : estimation de l'espace de stockage

– Prendre en considération :
● L'évolution ou non des données dans le temps
● La tolérance aux pannes (3 réplicas)
● Les méta-données 12
Le pipeline du Big Data
● Le traitement des données

● Le processus ETL peut inclure :


– la normalisation ou le nettoyage des données
– l'échantilonnage des données
– la séparation en données de test et d'apprentissage pour le 13
Machine Learning
Le pipeline du Big Data
● L'analyse de données
– Elle permet :
● La visualisation des données
● L'aide à la décision
● L'apprentissage automatique

14
Les acteurs du pipeline de données

● L'Administrateur système

15
Les acteurs du pipeline de données

● L'Administrateur Système
➢ Pipeline de données

● Les administrateurs mettent en place les serveurs où


seront ingérées et stockées les données.
● Ils installent également les logiciels nécessaires pour
16
traiter et analyser les données.
Les acteurs du pipeline de données

● Le développeur (Java, Python ou Scala)

17
Les acteurs du pipeline de données

● Le développeur
➢ Pipeline de données

● Les développeurs sont chargés de développer des


programmes pour ingérer et traiter les données.
● Ils convertissent les données dans un format afin que
celles-ci soient stockées sur le cluster et analysées pour 18
obtenir des résultats.
Les acteurs du pipeline de données

● Data Analyst et Data Scientist

19
Les acteurs du pipeline de données

● Data Analyst et Data Scientist


➢ Pipeline de données

Les Data analyst et les Data scientist sont chargés d'analyser les
données. Cela comprend l'extraction, la normalisation, le filtrage,
l'agrégation, l'interrogation, l'interprétation des données, et leur
représentation graphique.
20
Les acteurs du pipeline de données

● Data Analyst et Data Scientist


➢ Leur profil
– Ils maîtrisent les langages de programmation
fonctionnelle ou de script comme Python, R, le
langage SQL.
– Ils ont généralement une solide expérience en
statistiques et sont des experts dans un domaine
particulier, tel que la finance, la médecine ou le
traitement des langues.
– En outre le Data Scientist est fortement impliqué dans
les projets de Machine Learning.
21
Les acteurs du pipeline de données

● Data Analyst et Data Scientist


➢ L'analyse de données

● L'exploration de ces données nécessite des compétences


en SQL alors que l'analyse nécessite une connaissance
22
avancée des modèles statistiques.
Les acteurs du pipeline de données

● Data Analyst et Data Scientist


➢ Visualisation des données

● Nécessite une bonne maîtrise des outils de visualisation


de données comme Tableau. 23
Les acteurs du pipeline de données

● Data Analyst et Data Scientist


➢ Data Scientist vs Data Engineer

24
Les acteurs du pipeline de données

● Data Analyst et Data Scientist


➢ Data Scientist vs Data Engineer

25
Références
(1) MAPR Academy : ESS 1000 – Big Data Essentials - Slide Guide,
Introduction to Big Data, Lesson 1 & 2.

26

Vous aimerez peut-être aussi