Cours 2 - TP

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

44 vues2 pages

Cours 2 - TP

Transféré par

ihsanechoundi100

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Exercice : Traitement de données en streaming avec Apache Spark

Objectif

Configurer un pipeline de traitement de données en temps réel en utilisant Apache Spark

Structured Streaming. L'objectif est d'ingérer des données en streaming, d'appliquer des
transformations, et d'optimiser la performance du pipeline en utilisant des techniques comme
le partitionnement et la mise en cache.

Étapes à suivre

1. Simuler des données en streaming à partir de fichiers

● Créez un script qui génère des fichiers JSON ou CSV dans un dossier pour simuler
l'arrivée de données en temps réel. Par exemple, ces fichiers peuvent contenir des
données de capteurs (ID du capteur, horodatage, température, etc.) et être générés
à intervalles réguliers. Cette simulation permet de reproduire un flux de données
comme celui généré par des capteurs IoT ou des journaux de transactions.

Résultat attendu : Une série de fichiers de données est générée dans un dossier à
intervalles réguliers, créant un flux de données en continu.

2. Ingestion des données en streaming avec Apache Spark

● Utilisez Apache Spark pour lire en continu les fichiers qui sont ajoutés dans le
dossier. Cette ingestion imite un flux de données en temps réel. En utilisant Spark
Structured Streaming, vous pouvez configurer un "écouteur" qui surveille un
répertoire et traite les nouveaux fichiers à mesure qu'ils apparaissent.

Résultat attendu : Spark ingère les fichiers en streaming et traite les données en continu.

3. Appliquer des transformations aux données

● Appliquez des transformations aux données en streaming, telles que le filtrage des
enregistrements, l'agrégation par ID de capteur, ou le calcul de moyennes mobiles
sur les mesures comme la température ou l'humidité. Ces transformations permettent
d'obtenir des informations en temps réel sur les données ingérées.

Résultat attendu : Les transformations sont appliquées et les résultats sont calculés en
continu à partir des données en streaming.
4. Optimisation des requêtes de streaming

● Pour améliorer les performances, mettez en place des optimisations telles que le
partitionnement des données en fonction de l'ID de capteur et la mise en cache des
résultats intermédiaires. Le partitionnement permet de mieux répartir la charge de
travail entre les nœuds de calcul, tandis que la mise en cache accélère les requêtes
répétitives en stockant les résultats en mémoire.

Résultat attendu : Les performances du pipeline de traitement sont améliorées grâce au

partitionnement et à la mise en cache des données.

5. Sauvegarder les données transformées

● Enregistrez les données transformées dans un format persistant tel que des fichiers
Parquet ou CSV pour une analyse ultérieure. Cela permet de stocker les résultats du
traitement en temps réel pour les consulter plus tard ou pour les analyser avec
d'autres outils.

Résultat attendu : Les données transformées sont sauvegardées dans un format

persistant, prêtes pour une future analyse.

6. Surveillance et mise à l'échelle

● Surveillez l'exécution des tâches en temps réel dans l'interface utilisateur de Spark,
en observant l'utilisation des ressources telles que la mémoire et le CPU. Si
nécessaire, ajustez manuellement la configuration des partitions et la taille du cluster
pour adapter les performances en fonction de la charge de travail.

Résultat attendu : Vous ajustez les ressources du cluster en fonction des besoins et
surveillez les performances de manière proactive.

7. Nettoyer les ressources

● Une fois l'exercice terminé, assurez-vous de nettoyer les ressources utilisées. Cela
inclut l'arrêt des processus de streaming en cours et la suppression des fichiers
temporaires ou des données inutilisées. Cette étape permet d'éviter l'encombrement
du système et de libérer les ressources.

Résultat attendu : Les fichiers temporaires sont supprimés et les processus de streaming
sont arrêtés en toute sécurité.

Vous aimerez peut-être aussi

TP4 Spark MLlib
Pas encore d'évaluation
TP4 Spark MLlib
7 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
(Big Data Analytics) CHAP4 - Spark Streaming
Pas encore d'évaluation
(Big Data Analytics) CHAP4 - Spark Streaming
29 pages
Introduction à Spark Streaming
Pas encore d'évaluation
Introduction à Spark Streaming
44 pages
Ch2 (Part 1)
Pas encore d'évaluation
Ch2 (Part 1)
27 pages
Big Data 2 TP n1
Pas encore d'évaluation
Big Data 2 TP n1
11 pages
Sparkml 170218214151 PDF
Pas encore d'évaluation
Sparkml 170218214151 PDF
50 pages
API SparkSQL et DataFrames en Spark 2
Pas encore d'évaluation
API SparkSQL et DataFrames en Spark 2
4 pages
Chapitre 5
Pas encore d'évaluation
Chapitre 5
58 pages
TP Scala
Pas encore d'évaluation
TP Scala
2 pages
Séance 4 - Cours - Spark - ML - Partie 6
Pas encore d'évaluation
Séance 4 - Cours - Spark - ML - Partie 6
19 pages
Cours TraitementAvancéBigData Version Finale
Pas encore d'évaluation
Cours TraitementAvancéBigData Version Finale
180 pages
Classification Iris avec KMeans Spark
Pas encore d'évaluation
Classification Iris avec KMeans Spark
6 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
31 pages
Tutoriel MLlib Spark avec PySpark
Pas encore d'évaluation
Tutoriel MLlib Spark avec PySpark
7 pages
TP1 - Bases Documentaires Et Moteur de Recherche
Pas encore d'évaluation
TP1 - Bases Documentaires Et Moteur de Recherche
12 pages
D3 Architecture Hadoop
Pas encore d'évaluation
D3 Architecture Hadoop
6 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
53 pages
Spark
Pas encore d'évaluation
Spark
28 pages
Spark SQL: Architecture et Fonctionnalités
Pas encore d'évaluation
Spark SQL: Architecture et Fonctionnalités
42 pages
Gestion Projet Big Data
Pas encore d'évaluation
Gestion Projet Big Data
28 pages
Big Data (Résumé)
Pas encore d'évaluation
Big Data (Résumé)
8 pages
Introduction à PySpark pour le Big Data
Pas encore d'évaluation
Introduction à PySpark pour le Big Data
2 pages
5-Diagramme D'activités
Pas encore d'évaluation
5-Diagramme D'activités
19 pages
TP 01 - RDD
Pas encore d'évaluation
TP 01 - RDD
2 pages
DS-2-Big Data Et Cloud
Pas encore d'évaluation
DS-2-Big Data Et Cloud
2 pages
Hadoop
Pas encore d'évaluation
Hadoop
13 pages
Architecture Cloud et Big Data
Pas encore d'évaluation
Architecture Cloud et Big Data
70 pages
HadoopMapReduce CD 2 1
Pas encore d'évaluation
HadoopMapReduce CD 2 1
72 pages
Optimisation des Requêtes SQL
Pas encore d'évaluation
Optimisation des Requêtes SQL
8 pages
Module Quiz 1
Pas encore d'évaluation
Module Quiz 1
10 pages
Spark et Critique de MapReduce
Pas encore d'évaluation
Spark et Critique de MapReduce
14 pages
Cours - Spark - Partie 3 Et 4
Pas encore d'évaluation
Cours - Spark - Partie 3 Et 4
46 pages
Atelier EtudeCas Recup Transf Donnees
Pas encore d'évaluation
Atelier EtudeCas Recup Transf Donnees
3 pages
C41-MapReduce Design Patterns
Pas encore d'évaluation
C41-MapReduce Design Patterns
23 pages
Big Data 2
Pas encore d'évaluation
Big Data 2
89 pages
tp3 Scala
Pas encore d'évaluation
tp3 Scala
2 pages
Système de recommandation de films
100% (1)
Système de recommandation de films
4 pages
Installation Cloudera HDFS
Pas encore d'évaluation
Installation Cloudera HDFS
5 pages
Introduction aux bases de données SGBD
100% (1)
Introduction aux bases de données SGBD
86 pages
Mbds Big Data Hadoop 2019 2020 TP 1
Pas encore d'évaluation
Mbds Big Data Hadoop 2019 2020 TP 1
17 pages
Manipulation des données avec Pandas
Pas encore d'évaluation
Manipulation des données avec Pandas
9 pages
Chapitre 3 - RUP
Pas encore d'évaluation
Chapitre 3 - RUP
54 pages
Comparaison des arbres de décision : TANAGRA, ORANGE, WEKA
Pas encore d'évaluation
Comparaison des arbres de décision : TANAGRA, ORANGE, WEKA
14 pages
Tp8 K-meansHaoop
Pas encore d'évaluation
Tp8 K-meansHaoop
11 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Introduction à la Data Science
Pas encore d'évaluation
Introduction à la Data Science
23 pages
Spark-Td 1
Pas encore d'évaluation
Spark-Td 1
3 pages
Chap4 MapReduce
Pas encore d'évaluation
Chap4 MapReduce
17 pages
BD 1
Pas encore d'évaluation
BD 1
17 pages
Introduction à Apache Pig et Pig Latin
Pas encore d'évaluation
Introduction à Apache Pig et Pig Latin
22 pages
Cours - Polycopié Data Mining - Brahim FAROU (Université de Guelma, 2022)
Pas encore d'évaluation
Cours - Polycopié Data Mining - Brahim FAROU (Université de Guelma, 2022)
188 pages
Cours DL - Part5 (Prof)
Pas encore d'évaluation
Cours DL - Part5 (Prof)
78 pages
(Big Data) CHAP5 - Hive
Pas encore d'évaluation
(Big Data) CHAP5 - Hive
18 pages
Scala: Bases et Boucles en Big Data
Pas encore d'évaluation
Scala: Bases et Boucles en Big Data
57 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
BigData Technologies Avancées
Pas encore d'évaluation
BigData Technologies Avancées
81 pages
Intro Data Mining v2
Pas encore d'évaluation
Intro Data Mining v2
69 pages
Spark Streaming Presentation
Pas encore d'évaluation
Spark Streaming Presentation
12 pages
Fiche Pedagogique Chapitre 1 - 4
Pas encore d'évaluation
Fiche Pedagogique Chapitre 1 - 4
1 page
Introduction aux Méthodes en Java
Pas encore d'évaluation
Introduction aux Méthodes en Java
63 pages
tp3 Is1
Pas encore d'évaluation
tp3 Is1
3 pages
Introduction aux banques de données
100% (3)
Introduction aux banques de données
5 pages
TP61
Pas encore d'évaluation
TP61
26 pages
Rapport Ibrahim
67% (3)
Rapport Ibrahim
45 pages
Chap - 1-L'ENVIRONNEMENT INFORMATIQUE
Pas encore d'évaluation
Chap - 1-L'ENVIRONNEMENT INFORMATIQUE
6 pages
Gestion des Registres de Commerce BADR
Pas encore d'évaluation
Gestion des Registres de Commerce BADR
29 pages
Les Réseaux Informatiques - 2
Pas encore d'évaluation
Les Réseaux Informatiques - 2
4 pages
TP 1 Unix
0% (1)
TP 1 Unix
2 pages
Introduction au logiciel Stata
Pas encore d'évaluation
Introduction au logiciel Stata
40 pages
Application JavaFX pour Lecture Vidéo
Pas encore d'évaluation
Application JavaFX pour Lecture Vidéo
4 pages
TP2 Se1
Pas encore d'évaluation
TP2 Se1
2 pages
Notice Camescope 1080P
Pas encore d'évaluation
Notice Camescope 1080P
6 pages
Guide des opérations topographiques
100% (1)
Guide des opérations topographiques
7 pages
Guide des commandes MS-DOS
Pas encore d'évaluation
Guide des commandes MS-DOS
19 pages
Next - Js - Implémenter Un Contrôle D'accès Basé Sur Les Rôles (RBAC) de Base Avec Métadonnées
Pas encore d'évaluation
Next - Js - Implémenter Un Contrôle D'accès Basé Sur Les Rôles (RBAC) de Base Avec Métadonnées
11 pages
COURS - SIG - QGIS Prof MITI
Pas encore d'évaluation
COURS - SIG - QGIS Prof MITI
40 pages
Les Requêtes Mise À Jour
Pas encore d'évaluation
Les Requêtes Mise À Jour
13 pages
Sujet Compresseur PDF
Pas encore d'évaluation
Sujet Compresseur PDF
12 pages
Un Gestionnaire de Presentations-276
Pas encore d'évaluation
Un Gestionnaire de Presentations-276
2 pages
Commandes de base Linux en TP
Pas encore d'évaluation
Commandes de base Linux en TP
12 pages
Comment Réparer Un Disque Dur Externe
Pas encore d'évaluation
Comment Réparer Un Disque Dur Externe
20 pages
Introduction aux Systèmes Distribués
Pas encore d'évaluation
Introduction aux Systèmes Distribués
4 pages
Commandes Shell et exercices pratiques
Pas encore d'évaluation
Commandes Shell et exercices pratiques
14 pages
Contrôle N1 Module: Services Réseaux Locaux
Pas encore d'évaluation
Contrôle N1 Module: Services Réseaux Locaux
7 pages
Tournoi de Chauvency
Pas encore d'évaluation
Tournoi de Chauvency
222 pages
TP01 QCM Linux Sujets
Pas encore d'évaluation
TP01 QCM Linux Sujets
6 pages
Découverte du Patrimoine Littéraire
100% (1)
Découverte du Patrimoine Littéraire
351 pages
Charte d'archivage du Ministère de l'Environnement
100% (1)
Charte d'archivage du Ministère de l'Environnement
20 pages