0% ont trouvé ce document utile (0 vote)

38 vues9 pages

Analyse de données avec PySpark TP3

Ce document contient le code Python pour résoudre plusieurs exercices sur l'analyse de données météorologiques à l'aide de Spark. Les exercices impliquent le filtrage, la transformation et l'agrégation de données météorologiques chargées sous forme de RDD afin de répondre à des questions telles que le pays avec le plus grand nombre de stations météorologiques.

Transféré par

22061

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

38 vues9 pages

Analyse de données avec PySpark TP3

Transféré par

22061

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Compte Rendu du TP3 :

22061

Exercice 4 :

Q1/ le nombre de ligne dans le fichier romeoetjuliette.txt est :

# Importer les bibliothèques nécessaires

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, to_date

# Créer une session Spark

spark = SparkSession.builder \
.appName("Exercice 4") \
.getOrCreate()

# 1. Lire le fichier CSV en tant que DataFrame

df = spark.read.option("header", "true").csv("commandes.csv")

# Afficher le schéma du DataFrame

df.printSchema()

# 2. Afficher le nombre total de lignes dans le fichier

total_rows = df.count()
print("Nombre total de lignes dans le fichier:", total_rows)

# 3. Convertir le champ "date_commande" en format Date

df = df.withColumn("date_commande",
to_date(col("date_commande")))

# 4. Adresse postale de Champagne Louise

adresse_champagne_louise = df.filter((col("nom") == "Louise") &
(col("prenom") == "Champagne")) \
.select("id_client", "nom", "prenom", "adresse") \
.distinct()

adresse_champagne_louise.show(truncate=False)

# 5. Clients avec des commandes d'un montant supérieur à 298

clients_montant_sup_298 = df.filter(col("montant") > 298) \
.select("id_client") \
.distinct()

clients_montant_sup_298.show(truncate=False)
# 6. Ajouter une nouvelle commande à la collection
nouvelle_commande = spark.createDataFrame([(1001, 90,
"2023-07-15", 300, "Villeneuve", "Patrick", "90 avenue de la
République", "[email protected]")],
["id_commande",
"id_client", "date_commande", "montant", "nom", "prenom",
"adresse", "email"])

df = df.union(nouvelle_commande)

# 7. Nombre de commandes d'un montant supérieur à 298

nb_commandes_sup_298 = df.filter(col("montant") > 298).count()
print("Nombre de commandes d'un montant supérieur à 298:",
nb_commandes_sup_298)

# 8. Nombre de clients distincts avec des commandes d'un montant

supérieur à 298
nb_clients_distincts_montant_sup_298 =
clients_montant_sup_298.count()
print("Nombre de clients distincts avec des commandes d'un
montant supérieur à 298:", nb_clients_distincts_montant_sup_298)

# 9. Commande la plus récente du client avec ID 5

commande_recente_client_5 = df.filter(col("id_client") == 5) \
.orderBy(col("date_commande").desc()) \
.limit(1)

commande_recente_client_5.show(truncate=False)

# 10. Clients ayant passé une commande le 09 Septembre 2023

clients_commande_09_sept_2023 = df.filter(col("date_commande") ==
"2023-09-09") \
.select("nom", "prenom") \
.distinct()

clients_commande_09_sept_2023.show(truncate=False)

# 11. Client avec le plus grand nombre de commandes

client_plus_commandes = df.groupBy("id_client").count() \
.orderBy(col("count").desc()) \
.limit(1)

client_plus_commandes.show(truncate=False)

# 12. Nombre de commandes passées par les 10 clients ayant passé

le plus de commandes
clients_plus_commandes = df.groupBy("id_client").count() \
.orderBy(col("count").desc()) \
.limit(10)

clients_plus_commandes.show(truncate=False)

# Fermer la session Spark

spark.stop()
Q2/ :

from pyspark import SparkContext

# Créer le contexte Spark

sc = SparkContext("local", "Exercise3_Q2")

print('* The BEGINING *')

print('**************************')
print('**************************')
print('**************************')

# Charger le fichier dans un RDD

stations_rdd = sc.textFile("isd-history.txt")

# Filtrer les lignes contenant des valeurs non numériques pour

les années
def is_valid_year(year):
return year.isdigit()

# Filtrer les lignes contenant des années valides

filtered_rdd = stations_rdd.filter(lambda line:
is_valid_year(line.split(',')[9]) and
is_valid_year(line.split(',')[10]))

# Vérifier si l'RDD filtré est vide

if filtered_rdd.isEmpty():
print("Aucune donnée valide trouvée dans le RDD.")
else:
station_with_max_years_diff = filtered_rdd.map(lambda line:
(line.split(',')[0], (int(line.split(',')[9]),
int(line.split(',')[10])))) \
.map(lambda x:
(x[0], abs(x[1][1] - x[1][0]))) \
.max(lambda x:
x[1])

# Afficher les résultats

print("Station avec le plus grand écart d'années :")
print("Identifiant de la station :",
station_with_max_years_diff[0].strip())
print("Nom de la station :",
station_with_max_years_diff[0].strip())

results_rdd = sc.parallelize([
"Station avec le plus grand écart d'années :",
f"Identifiant de la station :
{station_with_max_years_diff[0].strip()}",
f"Nom de la station :
{station_with_max_years_diff[0].strip()}"
])

results_rdd.saveAsTextFile("output/tp3/22061/exo3/Q2")

print('**************************')
print('**************************')
print('**************************')

print('* The END *')

Q3/ :

from pyspark import SparkContext

# Créer le contexte Spark

sc = SparkContext("local", "Exercise3_Q3")

# Charger le fichier dans un RDD

stations_rdd = sc.textFile("isd-history.txt")

# Filtrer les lignes contenant des en-têtes

header = stations_rdd.first()
stations_rdd = stations_rdd.filter(lambda line: line != header)

# Mapper chaque ligne pour extraire le pays

stations_by_country = stations_rdd.map(lambda line:
(line.split(',')[3], 1))

# Réduire pour compter le nombre de stations par pays

stations_count_by_country =
stations_by_country.reduceByKey(lambda x, y: x + y)

# Trouver le pays avec le plus grand nombre de stations

country_with_most_stations = stations_count_by_country.max(lambda
x: x[1])

# Afficher le résultat
print("Le pays avec le plus de stations est :",
country_with_most_stations[0])
print("Nombre de stations :", country_with_most_stations[1])

# Sauvegarder les résultats

results_rdd = sc.parallelize([
f"Le pays avec le plus de stations est :
{country_with_most_stations[0]}",
f"Nombre de stations : {country_with_most_stations[1]}"
])

results_rdd.saveAsTextFile("output/tp3/22061/exo3/Q3")

print('**************************')
print('**************************')
print('**************************')

print('* The END *')

Q4/ :

from pyspark import SparkContext

# Créer le contexte Spark

sc = SparkContext("local", "Exercise3_Q4")

# Charger le fichier dans un RDD

stations_rdd = sc.textFile("isd-history.txt")

# Filtrer les lignes contenant des en-têtes

header = stations_rdd.first()
stations_rdd = stations_rdd.filter(lambda line: line != header)

# Mapper chaque ligne pour extraire le pays

countries_rdd = stations_rdd.map(lambda line: line.split(',')[3])

# Supprimer les doublons pour obtenir une liste unique de pays

unique_countries_rdd = countries_rdd.distinct()

# Compter le nombre de pays

num_countries_with_stations = unique_countries_rdd.count()

# Afficher le résultat
print("Le nombre de pays possédant des stations météo est :",
num_countries_with_stations)

# Sauvegarder les résultats

results_rdd = sc.parallelize([
f"Le nombre de pays possédant des stations météo est :
{num_countries_with_stations}"
])

results_rdd.saveAsTextFile("output/tp3/22061/exo3/Q4")

print('**************************')
print('**************************')
print('**************************')

print('* The END *')

Q5/ :

from pyspark import SparkContext

# Créer le contexte Spark

sc = SparkContext("local", "Exercise3_Q5")

print('* The BEGINING *')

print('**************************')
print('**************************')
print('**************************')

# Charger le fichier dans un RDD

stations_rdd = sc.textFile("isd-history.txt")

# Filtrer les lignes contenant des en-têtes

header = stations_rdd.first()
stations_rdd = stations_rdd.filter(lambda line: line != header)

# Filtrer les lignes correspondant à la Mauritanie

stations_in_mauritania_rdd = stations_rdd.filter(lambda line:
line.split(',')[3] == "Mauritania")

# Compter le nombre de stations en Mauritanie

num_stations_in_mauritania = stations_in_mauritania_rdd.count()

# Afficher le résultat
print("Le nombre de stations météo en Mauritanie est :",
num_stations_in_mauritania)

# Sauvegarder les résultats

results_rdd = sc.parallelize([
f"Le nombre de stations météo en Mauritanie est :
{num_stations_in_mauritania}"
])

results_rdd.saveAsTextFile("output/tp3/22061/exo3/Q5")

print('**************************')
print('**************************')
print('**************************')

print('* The END *')

Vous aimerez peut-être aussi

Analyse de texte avec PySpark TP3
Pas encore d'évaluation
Analyse de texte avec PySpark TP3
27 pages
TD Pyspark
Pas encore d'évaluation
TD Pyspark
2 pages
Examen TP Data Science 2024
Pas encore d'évaluation
Examen TP Data Science 2024
4 pages
Tutoriel Spark : Analyse et Modélisation
Pas encore d'évaluation
Tutoriel Spark : Analyse et Modélisation
6 pages
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
100% (1)
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
9 pages
Traitement Distribué avec Hadoop et Spark
Pas encore d'évaluation
Traitement Distribué avec Hadoop et Spark
2 pages
TP4 BigData
Pas encore d'évaluation
TP4 BigData
3 pages
TP PySpark : Traitement Big Data et ML
Pas encore d'évaluation
TP PySpark : Traitement Big Data et ML
4 pages
Spark Courses
Pas encore d'évaluation
Spark Courses
183 pages
Big Data TP 2 RDD (Dataframe)
Pas encore d'évaluation
Big Data TP 2 RDD (Dataframe)
23 pages
Compte Rendu Du TP
Pas encore d'évaluation
Compte Rendu Du TP
20 pages
Introduction à Pandas en Python
Pas encore d'évaluation
Introduction à Pandas en Python
1 page
Atelier 1 - RDD
0% (1)
Atelier 1 - RDD
1 page
Lab 3-Spark RDD
Pas encore d'évaluation
Lab 3-Spark RDD
2 pages
Spark-Td 1
Pas encore d'évaluation
Spark-Td 1
3 pages
Introduction à Spark : TP sur DataFrames et RDDs
Pas encore d'évaluation
Introduction à Spark : TP sur DataFrames et RDDs
2 pages
Cheat Sheet PySpark : Guide Complet
Pas encore d'évaluation
Cheat Sheet PySpark : Guide Complet
5 pages
TP Lab Spark
Pas encore d'évaluation
TP Lab Spark
3 pages
Spark SQL : Analyse de données de citations
Pas encore d'évaluation
Spark SQL : Analyse de données de citations
1 page
Performance Sportive
Pas encore d'évaluation
Performance Sportive
8 pages
Examen final INF2 Automne 2023
Pas encore d'évaluation
Examen final INF2 Automne 2023
2 pages
Introduction à Spark et Scala avec Docker
Pas encore d'évaluation
Introduction à Spark et Scala avec Docker
6 pages
Exercice 1
Pas encore d'évaluation
Exercice 1
4 pages
TD 2
Pas encore d'évaluation
TD 2
3 pages
Analyse Big Data des trajets de taxis NYC
Pas encore d'évaluation
Analyse Big Data des trajets de taxis NYC
2 pages
TP4 - Spark: Outils Pour Le Big Data
Pas encore d'évaluation
TP4 - Spark: Outils Pour Le Big Data
6 pages
TD3-Python Analyse
Pas encore d'évaluation
TD3-Python Analyse
1 page
Tutoriel Spark : Création et Manipulation de DataFrames
Pas encore d'évaluation
Tutoriel Spark : Création et Manipulation de DataFrames
2 pages
Examen BDA
Pas encore d'évaluation
Examen BDA
3 pages
API SparkSQL et DataFrames en Spark 2
Pas encore d'évaluation
API SparkSQL et DataFrames en Spark 2
4 pages
tp2 ML
Pas encore d'évaluation
tp2 ML
7 pages
Liste Projets
Pas encore d'évaluation
Liste Projets
4 pages
Installation et Configuration Big Data
Pas encore d'évaluation
Installation et Configuration Big Data
23 pages
Big Data 2 TP n1
Pas encore d'évaluation
Big Data 2 TP n1
11 pages
1478 Inf2 Other Final A2022
Pas encore d'évaluation
1478 Inf2 Other Final A2022
7 pages
TP 1 Spark
Pas encore d'évaluation
TP 1 Spark
3 pages
Atelier 3
Pas encore d'évaluation
Atelier 3
3 pages
Chapitre 4 - Pyspark SQL DataFrame
Pas encore d'évaluation
Chapitre 4 - Pyspark SQL DataFrame
12 pages
Introduction à Spark SQL en PySpark
Pas encore d'évaluation
Introduction à Spark SQL en PySpark
19 pages
Bac Pratique 25052022 Eco Corrige1
Pas encore d'évaluation
Bac Pratique 25052022 Eco Corrige1
4 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
Cours TP Pandas
Pas encore d'évaluation
Cours TP Pandas
9 pages
Importation et manipulation de données Python
Pas encore d'évaluation
Importation et manipulation de données Python
2 pages
Examen Big Data 3ème IM - Jan 2024
Pas encore d'évaluation
Examen Big Data 3ème IM - Jan 2024
2 pages
Big Data Et Architectures Associées: Examen de La Session Principale
Pas encore d'évaluation
Big Data Et Architectures Associées: Examen de La Session Principale
2 pages
ÉNONCÉ Prototype - EG - 2023.
Pas encore d'évaluation
ÉNONCÉ Prototype - EG - 2023.
4 pages
TP 01 - RDD
Pas encore d'évaluation
TP 01 - RDD
2 pages
Test Prise en Main Pandas - VF
Pas encore d'évaluation
Test Prise en Main Pandas - VF
3 pages
TP1 - PySpark
Pas encore d'évaluation
TP1 - PySpark
5 pages
Introduction à Spark SQL et DataFrames
Pas encore d'évaluation
Introduction à Spark SQL et DataFrames
11 pages
Analyse et Prétraitement de Données Python
Pas encore d'évaluation
Analyse et Prétraitement de Données Python
4 pages
Gestion - Restaurant Pandas
Pas encore d'évaluation
Gestion - Restaurant Pandas
3 pages
Gestion des expériences scientifiques en Python
Pas encore d'évaluation
Gestion des expériences scientifiques en Python
1 page
Examen ProgrammationR L3 2025
Pas encore d'évaluation
Examen ProgrammationR L3 2025
2 pages
Épreuve Pratique Informatique Bac 2022
Pas encore d'évaluation
Épreuve Pratique Informatique Bac 2022
4 pages
Guide Pandas: Importation et Manipulation de Données
Pas encore d'évaluation
Guide Pandas: Importation et Manipulation de Données
13 pages
Page - 1
Pas encore d'évaluation
Page - 1
20 pages
Correction Examen Big Data 2020 2021 Session Normale
90% (10)
Correction Examen Big Data 2020 2021 Session Normale
4 pages
Introduction aux bases de données NoSQL
100% (1)
Introduction aux bases de données NoSQL
163 pages
Leçon1 Concepts de Base Des Bases de Données
Pas encore d'évaluation
Leçon1 Concepts de Base Des Bases de Données
14 pages
Quiz MCD sur le Langage SQL
Pas encore d'évaluation
Quiz MCD sur le Langage SQL
6 pages
Requêtes SQL Avancées et Analyse de Données
Pas encore d'évaluation
Requêtes SQL Avancées et Analyse de Données
175 pages
08 - 09 - Tp7 - SQL Server 3iir
Pas encore d'évaluation
08 - 09 - Tp7 - SQL Server 3iir
2 pages
Gestion de L'instance
Pas encore d'évaluation
Gestion de L'instance
19 pages
Travauxpratiques LDAP2019
Pas encore d'évaluation
Travauxpratiques LDAP2019
25 pages
Sage BDC 49903 070420211153
Pas encore d'évaluation
Sage BDC 49903 070420211153
5 pages
Bases - de - Donnees - Master 1 - UNIKIN-1
Pas encore d'évaluation
Bases - de - Donnees - Master 1 - UNIKIN-1
122 pages
Analyse de Big Data avec Hive et HDFS
Pas encore d'évaluation
Analyse de Big Data avec Hive et HDFS
27 pages
Rman
Pas encore d'évaluation
Rman
14 pages
ch4 MongoDB Part2
Pas encore d'évaluation
ch4 MongoDB Part2
72 pages
Contraintes
Pas encore d'évaluation
Contraintes
10 pages
CM 2 Hive
Pas encore d'évaluation
CM 2 Hive
8 pages
Projet Expertise
Pas encore d'évaluation
Projet Expertise
5 pages
Architecture et gestion d'Oracle DB
Pas encore d'évaluation
Architecture et gestion d'Oracle DB
20 pages
Interrogation D'une BDD - Langage SQL
Pas encore d'évaluation
Interrogation D'une BDD - Langage SQL
22 pages
2 Intro Entrepots 4p
Pas encore d'évaluation
2 Intro Entrepots 4p
14 pages
Cours Mongobd
Pas encore d'évaluation
Cours Mongobd
35 pages
Projet Spring Boot
Pas encore d'évaluation
Projet Spring Boot
3 pages
TP Complementaire
Pas encore d'évaluation
TP Complementaire
2 pages
Cours Hive Hem
Pas encore d'évaluation
Cours Hive Hem
61 pages
Application Visual Basic : Tri et Calculs
Pas encore d'évaluation
Application Visual Basic : Tri et Calculs
26 pages
Introduction aux bases de données XML
Pas encore d'évaluation
Introduction aux bases de données XML
2 pages
Procédure de Suppression Dossier X3
Pas encore d'évaluation
Procédure de Suppression Dossier X3
4 pages
Gestion Structures Stockage
Pas encore d'évaluation
Gestion Structures Stockage
26 pages
Atelier 1-Administration BD
Pas encore d'évaluation
Atelier 1-Administration BD
10 pages
Questions fréquentes sur PL/SQL et SQL
Pas encore d'évaluation
Questions fréquentes sur PL/SQL et SQL
17 pages
Introduction aux bases de données NoSQL
Pas encore d'évaluation
Introduction aux bases de données NoSQL
43 pages
Cours Administration Des BD BTS 2
Pas encore d'évaluation
Cours Administration Des BD BTS 2
29 pages

Analyse de données avec PySpark TP3

Transféré par

Analyse de données avec PySpark TP3

Transféré par

Compte Rendu du TP3 :

Q1/ le nombre de ligne dans le fichier romeoetjuliette.txt est :

# Importer les bibliothèques nécessaires

# Créer une session Spark

# 1. Lire le fichier CSV en tant que DataFrame

# Afficher le schéma du DataFrame

# 2. Afficher le nombre total de lignes dans le fichier

# 3. Convertir le champ "date_commande" en format Date

# 4. Adresse postale de Champagne Louise

# 5. Clients avec des commandes d'un montant supérieur à 298

# 7. Nombre de commandes d'un montant supérieur à 298

# 8. Nombre de clients distincts avec des commandes d'un montant

# 9. Commande la plus récente du client avec ID 5

# 10. Clients ayant passé une commande le 09 Septembre 2023

# 11. Client avec le plus grand nombre de commandes

# 12. Nombre de commandes passées par les 10 clients ayant passé

# Fermer la session Spark

from pyspark import SparkContext

# Créer le contexte Spark

print('*** The BEGINING ***')

# Charger le fichier dans un RDD

# Filtrer les lignes contenant des valeurs non numériques pour

# Filtrer les lignes contenant des années valides

# Vérifier si l'RDD filtré est vide

# Afficher les résultats

print('*** The END ***')

from pyspark import SparkContext

# Créer le contexte Spark

# Charger le fichier dans un RDD

# Filtrer les lignes contenant des en-têtes

# Mapper chaque ligne pour extraire le pays

# Réduire pour compter le nombre de stations par pays

# Trouver le pays avec le plus grand nombre de stations

# Sauvegarder les résultats

print('*** The END ***')

from pyspark import SparkContext

# Créer le contexte Spark

# Charger le fichier dans un RDD

# Filtrer les lignes contenant des en-têtes

# Mapper chaque ligne pour extraire le pays

# Supprimer les doublons pour obtenir une liste unique de pays

# Compter le nombre de pays

# Sauvegarder les résultats

print('*** The END ***')

from pyspark import SparkContext

# Créer le contexte Spark

print('*** The BEGINING ***')

# Charger le fichier dans un RDD

# Filtrer les lignes contenant des en-têtes

# Filtrer les lignes correspondant à la Mauritanie

# Compter le nombre de stations en Mauritanie

# Sauvegarder les résultats

print('*** The END ***')

Vous aimerez peut-être aussi

print('* The BEGINING *')

print('* The END *')

print('* The END *')

print('* The END *')

print('* The BEGINING *')

print('* The END *')