0% ont trouvé ce document utile (0 vote)
455 vues2 pages

TD Pyspark

Le document décrit trois exercices utilisant Spark et Python pour traiter des données de ventes. L'exercice 1 crée un RDD à partir d'un fichier CSV. L'exercice 2 crée un DataFrame à partir d'un autre fichier CSV et effectue des calculs et filtrages. L'exercice 3 crée une vue temporaire et écrit des requêtes SQL.

Transféré par

Ahmed Yassine
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
455 vues2 pages

TD Pyspark

Le document décrit trois exercices utilisant Spark et Python pour traiter des données de ventes. L'exercice 1 crée un RDD à partir d'un fichier CSV. L'exercice 2 crée un DataFrame à partir d'un autre fichier CSV et effectue des calculs et filtrages. L'exercice 3 crée une vue temporaire et écrit des requêtes SQL.

Transféré par

Ahmed Yassine
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TD 1 : Traitement des données avec Spark

Exercice 1 :
Ecrire un programme python qui permet de :
❑ Créer une session Spark nommée « Magasin »
❑ Créer un RDD nommé « commande » partir d’un fichier « datasets/[Link] »
❑ Afficher les 10 premières commandes.
❑ Arrêter de la session Spark

Exercice 2 :
Soit le schéma de données suivant :
date,produit,montant,quantité
2024-01-01,Ordinateur portable,1200,2
2024-01-02,Smartphone,800,3
2024-01-03,Tablette,500,1
2024-01-04,Ordinateur portable,1500,2
2024-01-05,Smartphone,900,2

Ecrire un programme python qui permet de :


❑ Créer une session Spark nommée « Entreprise »
❑ Créer un DataFrame nommée « ventes » à partir d'un fichier CSV contenant des
données de ventes « /datasets/[Link] ».
❑ Affichez le schéma du DataFrame avec la méthode « printSchema() »
❑ Affichez les 5 premières ventes du DataFrame.
❑ Filtrer les ventes où le montant est supérieur à 1000.
❑ Calculez le montant total des ventes par produit.
❑ Trouvez le produit le plus vendu.
Exercice 3 :
Ecrire un programme python qui permet de :

❑ Créer une vue temporaire à partir du DataFrame nommée « ventes » chargé dans
l'exercice précédent.

Écrivez une requête SQL pour :

❑ Lister les produits et le montant de chaque produit.


❑ Afficher les produits dont le montant est supérieur à 3000.
❑ Calculer le montant total des ventes par produit.
❑ Calculer le montant total des ventes.
❑ Filtrer les ventes où le montant est supérieur à 1000 et trier par date.

Vous aimerez peut-être aussi