0% ont trouvé ce document utile (0 vote)

90 vues26 pages

TDBD Part2

Le document décrit le pipeline de données du Big Data, y compris la collecte, le traitement et l'analyse des données. Il explique les rôles de l'administrateur système, du développeur, de l'analyste de données et du scientifique de données dans ce pipeline.

Transféré par

Mbaye Babacar MBODJ

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

90 vues26 pages

TDBD Part2

Transféré par

Mbaye Babacar MBODJ

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Traitement distribué pour les

Big Data

Master Ingénierie des Systèmes

d'Information
M. Jean-Marie PREIRA
[email protected]

Juin 2022
1
SOMMAIRE

I. Introduction à l'informatique parallèle

II. Big Data et analyse de données
III.Le paradigme MapReduce
IV.L'écosystème Hadoop
V. Apache Hive
VI.Apache Spark

2
Traitement distribué pour les
Big Data

II. Big Data et analyse de données

3
Big Data et analyse de données
● Rappel sur les caractéristiques du Big Data
– Volume
– Variété
– Vélocité
– Les 5V
● Le pipeline du Big Data
– Le pipeline de données
– La collecte de données
– Le traitement des données
– L'analyse des données
● Les acteurs du pipeline de données
– L'Administrateur Système
– Le développeur
4
– Data Analyst et Data Scientist
Rappel sur les caractéristiques du Big Data

● Data
– Nombres, textes, images, audio, vidéo.
● Big Data
– Difficultés à décrire,stocker et traiter
– Possède une des caractéristiques des
3V

5
Rappel sur les caractéristiques du Big Data

● Volume : quantité

6
Rappel sur les caractéristiques du Big Data

● Variété: type

7
Rappel sur les caractéristiques du Big Data

● Vélocité: vitesse

8
Rappel sur les caractéristiques du Big Data

● Les 5V

9
Le pipeline du Big Data
● Le pipeline de données

● Les données de vos sources doivent être ingérées,

traitées, stockées et analysées.
● Il existe de nombreux outils, processus et acteurs qui
interviennent à chaque étape du pipeline de données.10
Le pipeline du Big Data
● Le pipeline de données

● Le pipeline de données n'est pas nécessairement linéaire.

● La production d'une analyse pourrait être l'entrée de d'un
autre pipeline. 11
Le pipeline du Big Data
● La collecte de données
➢ Le Volume : estimation de l'espace de stockage

– Prendre en considération :
● L'évolution ou non des données dans le temps
● La tolérance aux pannes (3 réplicas)
● Les méta-données 12
Le pipeline du Big Data
● Le traitement des données

● Le processus ETL peut inclure :

– la normalisation ou le nettoyage des données
– l'échantilonnage des données
– la séparation en données de test et d'apprentissage pour le 13
Machine Learning
Le pipeline du Big Data
● L'analyse de données
– Elle permet :
● La visualisation des données
● L'aide à la décision
● L'apprentissage automatique

14
Les acteurs du pipeline de données

● L'Administrateur système

15
Les acteurs du pipeline de données

● L'Administrateur Système
➢ Pipeline de données

● Les administrateurs mettent en place les serveurs où

seront ingérées et stockées les données.
● Ils installent également les logiciels nécessaires pour
16
traiter et analyser les données.
Les acteurs du pipeline de données

● Le développeur (Java, Python ou Scala)

17
Les acteurs du pipeline de données

● Le développeur
➢ Pipeline de données

● Les développeurs sont chargés de développer des

programmes pour ingérer et traiter les données.
● Ils convertissent les données dans un format afin que
celles-ci soient stockées sur le cluster et analysées pour 18
obtenir des résultats.
Les acteurs du pipeline de données

● Data Analyst et Data Scientist

19
Les acteurs du pipeline de données

● Data Analyst et Data Scientist

➢ Pipeline de données

Les Data analyst et les Data scientist sont chargés d'analyser les
données. Cela comprend l'extraction, la normalisation, le filtrage,
l'agrégation, l'interrogation, l'interprétation des données, et leur
représentation graphique.
20
Les acteurs du pipeline de données

● Data Analyst et Data Scientist

➢ Leur profil
– Ils maîtrisent les langages de programmation
fonctionnelle ou de script comme Python, R, le
langage SQL.
– Ils ont généralement une solide expérience en
statistiques et sont des experts dans un domaine
particulier, tel que la finance, la médecine ou le
traitement des langues.
– En outre le Data Scientist est fortement impliqué dans
les projets de Machine Learning.
21
Les acteurs du pipeline de données

● Data Analyst et Data Scientist

➢ L'analyse de données

● L'exploration de ces données nécessite des compétences

en SQL alors que l'analyse nécessite une connaissance
22
avancée des modèles statistiques.
Les acteurs du pipeline de données

● Data Analyst et Data Scientist

➢ Visualisation des données

● Nécessite une bonne maîtrise des outils de visualisation

de données comme Tableau. 23
Les acteurs du pipeline de données

● Data Analyst et Data Scientist

➢ Data Scientist vs Data Engineer

24
Les acteurs du pipeline de données

● Data Analyst et Data Scientist

➢ Data Scientist vs Data Engineer

25
Références
(1) MAPR Academy : ESS 1000 – Big Data Essentials - Slide Guide,
Introduction to Big Data, Lesson 1 & 2.

Vous aimerez peut-être aussi

Introduction Au Big Data
Pas encore d'évaluation
Introduction Au Big Data
10 pages
Cours Modelisation de Grand Volume de Donnees Big Data (M1-SIGL-2025)
Pas encore d'évaluation
Cours Modelisation de Grand Volume de Donnees Big Data (M1-SIGL-2025)
378 pages
Panorama Du Big Data
Pas encore d'évaluation
Panorama Du Big Data
80 pages
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
Pas encore d'évaluation
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
10 pages
Big Data et Streaming en Temps Réel
Pas encore d'évaluation
Big Data et Streaming en Temps Réel
34 pages
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
Pas encore d'évaluation
Notes de Cours de Big Data en L3 LMD INFORMATIQUE INDUSTRIELLE Version Longue Et Detaillees
10 pages
Lecture 1 Bis
Pas encore d'évaluation
Lecture 1 Bis
53 pages
Introduction AuBigData
Pas encore d'évaluation
Introduction AuBigData
25 pages
Introduction
Pas encore d'évaluation
Introduction
27 pages
Big Data Et Data Mining
Pas encore d'évaluation
Big Data Et Data Mining
14 pages
Outils et techniques du Big Data
Pas encore d'évaluation
Outils et techniques du Big Data
29 pages
Glossaire Big Data
Pas encore d'évaluation
Glossaire Big Data
3 pages
Gestion et Analyse des Big Data
Pas encore d'évaluation
Gestion et Analyse des Big Data
26 pages
Bigdata 1
Pas encore d'évaluation
Bigdata 1
25 pages
Définition Du Big Data
Pas encore d'évaluation
Définition Du Big Data
4 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
13 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
112 pages
Fiche Essentielle Big Data
100% (1)
Fiche Essentielle Big Data
4 pages
Chapitre N°4 Apache Spark
Pas encore d'évaluation
Chapitre N°4 Apache Spark
43 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
43 pages
Ecosystème Big Data
Pas encore d'évaluation
Ecosystème Big Data
5 pages
EID DEPE855 ATL Déploiement Pipeline
Pas encore d'évaluation
EID DEPE855 ATL Déploiement Pipeline
3 pages
r18 - Analyse Des Big Data - Cse (DS)
Pas encore d'évaluation
r18 - Analyse Des Big Data - Cse (DS)
1 page
Chap1 Introduction
Pas encore d'évaluation
Chap1 Introduction
44 pages
Big Data - Part1
Pas encore d'évaluation
Big Data - Part1
30 pages
Introduction au Big Data et NoSQL
Pas encore d'évaluation
Introduction au Big Data et NoSQL
38 pages
C1 Big Data Intro 2022
Pas encore d'évaluation
C1 Big Data Intro 2022
56 pages
Introduction au Big Data avancé
Pas encore d'évaluation
Introduction au Big Data avancé
28 pages
Introduction A La Formation Sur Le Big Data
Pas encore d'évaluation
Introduction A La Formation Sur Le Big Data
13 pages
HadoopMapReduce CD 2 1
Pas encore d'évaluation
HadoopMapReduce CD 2 1
72 pages
Introduction Big Data-1
Pas encore d'évaluation
Introduction Big Data-1
55 pages
Architecture Cloud et Big Data
Pas encore d'évaluation
Architecture Cloud et Big Data
70 pages
Introduction au Big Data et OLAP/OLTP
Pas encore d'évaluation
Introduction au Big Data et OLAP/OLTP
58 pages
Chap 1 BD
Pas encore d'évaluation
Chap 1 BD
17 pages
ESCT - 2023 - 2024 - 3LMKG - Big - Data en Assurance Avec Python 17 02 2024
Pas encore d'évaluation
ESCT - 2023 - 2024 - 3LMKG - Big - Data en Assurance Avec Python 17 02 2024
39 pages
Big DATA MASTER 2 G - Nie Logiciel - R - Seau v1.0 R
Pas encore d'évaluation
Big DATA MASTER 2 G - Nie Logiciel - R - Seau v1.0 R
58 pages
Chapitre1: Introduction: Big Data
Pas encore d'évaluation
Chapitre1: Introduction: Big Data
31 pages
Architectures Big Data : Lambda et Kappa
Pas encore d'évaluation
Architectures Big Data : Lambda et Kappa
56 pages
Chapitre I Big Data Et Ses Technologies
Pas encore d'évaluation
Chapitre I Big Data Et Ses Technologies
43 pages
Introduction Au Big Data
Pas encore d'évaluation
Introduction Au Big Data
9 pages
Chapitre 0 - Introduction
Pas encore d'évaluation
Chapitre 0 - Introduction
27 pages
Support de Cours BIG DATA
Pas encore d'évaluation
Support de Cours BIG DATA
31 pages
Architectures Big Data et Traitements
Pas encore d'évaluation
Architectures Big Data et Traitements
24 pages
Chapitre Big Data (GLO 642)
Pas encore d'évaluation
Chapitre Big Data (GLO 642)
57 pages
Support de Cours - Spark - Intro - Partie 1 Et 2
100% (1)
Support de Cours - Spark - Intro - Partie 1 Et 2
52 pages
Notes Diapo 2
Pas encore d'évaluation
Notes Diapo 2
3 pages
Big Data
Pas encore d'évaluation
Big Data
174 pages
Big Data 2020
Pas encore d'évaluation
Big Data 2020
186 pages
Technologies clés du Big Data expliquées
Pas encore d'évaluation
Technologies clés du Big Data expliquées
3 pages
IoT Big Data Analytics Session1
Pas encore d'évaluation
IoT Big Data Analytics Session1
19 pages
UDEMY Hadoop BigData Pascal Lochert
Pas encore d'évaluation
UDEMY Hadoop BigData Pascal Lochert
316 pages
2 - Big Data
Pas encore d'évaluation
2 - Big Data
60 pages
Big Data - Generalite
Pas encore d'évaluation
Big Data - Generalite
28 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
104 pages
Cours 1 Architecture - Big Data Fondements de BIG DATA
Pas encore d'évaluation
Cours 1 Architecture - Big Data Fondements de BIG DATA
49 pages
Mise en Place D'un Pipeline Big Data Avec Dask Et PySpark
100% (1)
Mise en Place D'un Pipeline Big Data Avec Dask Et PySpark
10 pages
Introduction au Big Data et Hadoop
Pas encore d'évaluation
Introduction au Big Data et Hadoop
75 pages
Service Oriented Architecture Cours Master 2 Isi Esmt 22
Pas encore d'évaluation
Service Oriented Architecture Cours Master 2 Isi Esmt 22
96 pages
Memoire Automatisation CI-CD Master ISI Mbaye Babacar MBODJ
Pas encore d'évaluation
Memoire Automatisation CI-CD Master ISI Mbaye Babacar MBODJ
103 pages
Prédiction d'incidents sur Smart Grid
100% (1)
Prédiction d'incidents sur Smart Grid
67 pages
Tableau de bord avec MongoDB Charts
Pas encore d'évaluation
Tableau de bord avec MongoDB Charts
2 pages
Traitement Distribué et Big Data
Pas encore d'évaluation
Traitement Distribué et Big Data
24 pages
28 Ausfall Mobilfunk GD FR
Pas encore d'évaluation
28 Ausfall Mobilfunk GD FR
13 pages
Optimisation des Systèmes Multisources
Pas encore d'évaluation
Optimisation des Systèmes Multisources
167 pages
Introduction à PowerShell et Cmdlets
Pas encore d'évaluation
Introduction à PowerShell et Cmdlets
28 pages
Bepc Blanc n1
Pas encore d'évaluation
Bepc Blanc n1
3 pages
FS Bachelor Science-Donnees
Pas encore d'évaluation
FS Bachelor Science-Donnees
2 pages
Modèle Relationnel pour Licence 2
Pas encore d'évaluation
Modèle Relationnel pour Licence 2
21 pages
Liste des moteurs de recherche par catégorie
Pas encore d'évaluation
Liste des moteurs de recherche par catégorie
21 pages
CH1 - Culture Informatique
Pas encore d'évaluation
CH1 - Culture Informatique
3 pages
Devoir IA Complete
Pas encore d'évaluation
Devoir IA Complete
3 pages
Fiche TD - INFO4 - Juin2022
Pas encore d'évaluation
Fiche TD - INFO4 - Juin2022
3 pages
PARTIE 2 COURS SECURITE INFORMATIQUE Nizar Ben Neji
Pas encore d'évaluation
PARTIE 2 COURS SECURITE INFORMATIQUE Nizar Ben Neji
57 pages
Speech
Pas encore d'évaluation
Speech
6 pages
Exposé Physique
Pas encore d'évaluation
Exposé Physique
17 pages
MUJINGA NSEYA Dorcas BAC3 IG
Pas encore d'évaluation
MUJINGA NSEYA Dorcas BAC3 IG
82 pages
Comprendre les API et Web Services
Pas encore d'évaluation
Comprendre les API et Web Services
3 pages
Master en Ingénierie Big Data et Cloud
Pas encore d'évaluation
Master en Ingénierie Big Data et Cloud
1 page
Retrivial Augmented Generation
Pas encore d'évaluation
Retrivial Augmented Generation
36 pages
Exposé
Pas encore d'évaluation
Exposé
3 pages
Chap1-Introduction Au Modèle Relationnel-Objet IA
Pas encore d'évaluation
Chap1-Introduction Au Modèle Relationnel-Objet IA
4 pages
Pack Complet Des Résumés de Toutes Les Matières
Pas encore d'évaluation
Pack Complet Des Résumés de Toutes Les Matières
4 pages
Avantages des Conteneurs pour le Déploiement d'Applications
Pas encore d'évaluation
Avantages des Conteneurs pour le Déploiement d'Applications
82 pages
Génération automatique de commentaires Java
Pas encore d'évaluation
Génération automatique de commentaires Java
38 pages
Résumé-Big Data Et Cloud
Pas encore d'évaluation
Résumé-Big Data Et Cloud
7 pages
Parlemploi - Analyser Une Offre Demploi
Pas encore d'évaluation
Parlemploi - Analyser Une Offre Demploi
3 pages
Vidéo Numérique
Pas encore d'évaluation
Vidéo Numérique
7 pages
Revue de La Littérature IOT
Pas encore d'évaluation
Revue de La Littérature IOT
22 pages
Formation Bac +3 en Cybersécurité
Pas encore d'évaluation
Formation Bac +3 en Cybersécurité
16 pages
IaC et API : Gestion et Communication
Pas encore d'évaluation
IaC et API : Gestion et Communication
4 pages
Bases de Données: Concepts et Types
Pas encore d'évaluation
Bases de Données: Concepts et Types
41 pages
Introduction Aux LLMs Et Au RAG
Pas encore d'évaluation
Introduction Aux LLMs Et Au RAG
13 pages
F2 Elazizi 058 CV
Pas encore d'évaluation
F2 Elazizi 058 CV
1 page
Vmwar Presentation22
Pas encore d'évaluation
Vmwar Presentation22
7 pages