0% ont trouvé ce document utile (0 vote)

46 vues11 pages

Sparks QL

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

46 vues11 pages

Sparks QL

Transféré par

whamrane

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Nom et Prenom:

WIAME HAMRANE

Intitulé de Mater:
Ingénieurie de devlepoment logiciel
et décisionnel

Spark SQL
ADDRESS: PHONE: WEB:
1. SparkContext et SQLContext
On a lancer le shell Spark (« spark-shell ») puis, SQLContext peut être initialisé.

Nous avons créé un fichier nommé EMPLOYEE.json.

Ce fichier est ensuite lu dans Spark pour créer un DataFrame.

MASTER IDLD
2. Opérations sur les DataFrames:
nous avons affiché les données et examiné le schéma correspondant.

Sélection d'une colonne spécifique, par exemple, name.

Filtrage des données pour afficher les employés dont l'âge est supérieur à 23.

MASTER IDLD
Nous avons regroupé les données selon le critère âge, pour réaliser des analyses plus poussées.

3. Spécification programmée du schéma:

Nous avons créé un fichier texte nommé employee.txt et l'avons chargé dans Hadoop pour qu'il
puisse être utilisé dans Spark.

Un schéma basé sur trois attributs (« id », « name », « age ») a été défini.

MASTER IDLD
Conversion en DataFrame

Ce DataFrame a ensuite été enregistré comme table temporaire, permettant l'exécution de

requêtes SQL, comme l'utilisation de la clause WHERE pour le filtrage des données.

4. Inférence de schéma avec la réflexion:

Une case class a été définie pour représenter la structure des données. Les transformations
nécessaires ont été appliquées sur un RDD pour analyser les données de manière plus efficace.

Exemples pratiques d’Apache Spark SQL

MASTER IDLD
MASTER IDLD
1. Exemple de création de DataFrame basé sur un fichier JSON
Étapes :

1. Importer une session Spark dans Apache Spark, qui est le point d'entrée de toutes les
fonctionnalités Spark.
2. Créer une session Spark 'spark' à l'aide de la fonction builder().
3. Importer la classe Implicits dans la session Spark.
4. Créer un DataFrame 'df' en chargeant les données du fichier employees.json.
5. Afficher les résultats avec la commande df.show().

MASTER IDLD
Code

2. Exemple de traitement de données structurées à l'aide

d'ensembles de données
Étapes :

1. Importer la classe Implicits dans la session Spark.

2. Afficher le schéma dans un format d'arborescence.
3. Sélectionner uniquement la colonne « name ».
4. Augmenter les salaires de 1000 pour tous les employés.
5. Filtrer les employés avec un salaire supérieur à 4000.

MASTER IDLD
6. Compter les employés par groupe de salaires.

Code

Exécution

3. Exemple d'exécution programmatique d'une requête SQL

Étapes :

1. Enregistrer le DataFrame comme vue temporaire SQL.

2. Définir un DataFrame pour stocker les enregistrements de la table temporaire.
3. Afficher les valeurs filtrées avec une requête SQL.

MASTER IDLD
Code

Exécution

4. Exemple de création de DataSets

Étapes :

1. Définissez une classe de cas Personne avec nom et âge

2. Les encodeurs sont créés pour les classes de cas.
3. Affichez le résultat caseClassDS.

MASTER IDLD
4. Les encodeurs sont importés automatiquement du paquet spark.implicits._ et sont de
types très courants.
5. Renvoie : Array(2, 3, 4).
6. En implémentant une classe, un DataFrames est transformé en un Dataset.
7. La cartographie sera effectuée par nom.
8. Affichez le résultat peopleDS.

Code

MASTER IDLD
Execution

Conclusion :
Ce laboratoire sur Spark SQL a permis de comprendre les bases de la manipulation de données
structurées, en créant et utilisant des DataFrames, en définissant des schémas, et en exécutant des
requêtes SQL. Les exemples pratiques, comme l'utilisation de fichiers JSON, ont montré comment Spark
SQL facilite les analyses à grande échelle dans des environnements distribués, rendant les processus
analytiques plus rapides et efficaces.

MASTER IDLD

Vous aimerez peut-être aussi

Introduction à Spark SQL et DataFrames
Pas encore d'évaluation
Introduction à Spark SQL et DataFrames
12 pages
Introduction à Spark SQL et DataFrames
Pas encore d'évaluation
Introduction à Spark SQL et DataFrames
11 pages
Big Data Spark SQL: Sparkcontext Et Sqlcontext 1
Pas encore d'évaluation
Big Data Spark SQL: Sparkcontext Et Sqlcontext 1
3 pages
TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
API SparkSQL et DataFrames en Spark 2
Pas encore d'évaluation
API SparkSQL et DataFrames en Spark 2
4 pages
Spark SQL: Architecture et Fonctionnalités
Pas encore d'évaluation
Spark SQL: Architecture et Fonctionnalités
42 pages
Introduction à Apache Spark et Cassandra
Pas encore d'évaluation
Introduction à Apache Spark et Cassandra
7 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
Introduction à Apache Spark et ses APIs
Pas encore d'évaluation
Introduction à Apache Spark et ses APIs
56 pages
Introduction à Spark pour Data Scientists
Pas encore d'évaluation
Introduction à Spark pour Data Scientists
19 pages
Introduction à Spark SQL en PySpark
Pas encore d'évaluation
Introduction à Spark SQL en PySpark
19 pages
Chapitre 4 - Pyspark SQL DataFrame
Pas encore d'évaluation
Chapitre 4 - Pyspark SQL DataFrame
12 pages
Chapitre 4 - Apache Spark
Pas encore d'évaluation
Chapitre 4 - Apache Spark
13 pages
Introduction à Apache Spark et RDD
Pas encore d'évaluation
Introduction à Apache Spark et RDD
63 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
Présentation Scala - Spark SQL
Pas encore d'évaluation
Présentation Scala - Spark SQL
32 pages
TP 3 Spark
Pas encore d'évaluation
TP 3 Spark
3 pages
Spark Courses
Pas encore d'évaluation
Spark Courses
183 pages
Introduction à Hadoop et Apache Spark
Pas encore d'évaluation
Introduction à Hadoop et Apache Spark
61 pages
TP 2
Pas encore d'évaluation
TP 2
22 pages
Introduction à Apache Spark et ses Avantages
Pas encore d'évaluation
Introduction à Apache Spark et ses Avantages
29 pages
Spark
Pas encore d'évaluation
Spark
22 pages
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
100% (1)
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
9 pages
Spark
Pas encore d'évaluation
Spark
24 pages
Spark
Pas encore d'évaluation
Spark
54 pages
TP 8
Pas encore d'évaluation
TP 8
8 pages
Apache Spark
Pas encore d'évaluation
Apache Spark
3 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
Maîtriser Spark SQL pour Big Data
Pas encore d'évaluation
Maîtriser Spark SQL pour Big Data
1 page
TP4-5 Spark
Pas encore d'évaluation
TP4-5 Spark
21 pages
Big Data TP 2 RDD (Dataframe)
Pas encore d'évaluation
Big Data TP 2 RDD (Dataframe)
23 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
Configuration d'un Cluster Spark sous Docker
Pas encore d'évaluation
Configuration d'un Cluster Spark sous Docker
8 pages
Chapitre 1 - Spark Overview
Pas encore d'évaluation
Chapitre 1 - Spark Overview
14 pages
Big Data Spark
Pas encore d'évaluation
Big Data Spark
3 pages
Spark : Analyse Big Data et RDD
Pas encore d'évaluation
Spark : Analyse Big Data et RDD
42 pages
TD 2
Pas encore d'évaluation
TD 2
3 pages
Cours - Spark - Partie 3 Et 4
Pas encore d'évaluation
Cours - Spark - Partie 3 Et 4
46 pages
Spark Java, Développer Des Applications Pour Le Big Data
Pas encore d'évaluation
Spark Java, Développer Des Applications Pour Le Big Data
2 pages
P5 - Spark SQL
Pas encore d'évaluation
P5 - Spark SQL
1 page
TP1 - PySpark
Pas encore d'évaluation
TP1 - PySpark
5 pages
Lecture 3
Pas encore d'évaluation
Lecture 3
15 pages
Qlik View
Pas encore d'évaluation
Qlik View
19 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
50 pages
Spark SQL et MLlib : Guide Complet
Pas encore d'évaluation
Spark SQL et MLlib : Guide Complet
6 pages
Guide d'installation et exercices Apache Spark
Pas encore d'évaluation
Guide d'installation et exercices Apache Spark
2 pages
Tutoriel Spark : Création et Manipulation de DataFrames
Pas encore d'évaluation
Tutoriel Spark : Création et Manipulation de DataFrames
2 pages
TP - Initiation Spark
Pas encore d'évaluation
TP - Initiation Spark
6 pages
Spark : Framework Big Data Rapide et Flexible
Pas encore d'évaluation
Spark : Framework Big Data Rapide et Flexible
138 pages
Data Chapitre 5 À Imprimer
Pas encore d'évaluation
Data Chapitre 5 À Imprimer
11 pages
Technologies Big Data : Spark, Scala, Kafka
Pas encore d'évaluation
Technologies Big Data : Spark, Scala, Kafka
12 pages
Spark SQL : Analyse de données de citations
Pas encore d'évaluation
Spark SQL : Analyse de données de citations
1 page
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
16 pages
TP Sparks QL
Pas encore d'évaluation
TP Sparks QL
19 pages
Ch2 (Part 1)
Pas encore d'évaluation
Ch2 (Part 1)
27 pages
Installation et Configuration Big Data
Pas encore d'évaluation
Installation et Configuration Big Data
23 pages
Microsoft PowerPoint - Traitement - Big - Data-2023-2024 V1
Pas encore d'évaluation
Microsoft PowerPoint - Traitement - Big - Data-2023-2024 V1
9 pages
Spark Introduction
Pas encore d'évaluation
Spark Introduction
22 pages
Travaux Pratiques 1: Structure de Donnée
Pas encore d'évaluation
Travaux Pratiques 1: Structure de Donnée
3 pages
Beige Watercolor Project Presentation
Pas encore d'évaluation
Beige Watercolor Project Presentation
37 pages
Analyse de Films XML avec XPath
Pas encore d'évaluation
Analyse de Films XML avec XPath
3 pages
Introduction à XPath pour XML
Pas encore d'évaluation
Introduction à XPath pour XML
5 pages
Exercices de Programmation en C
Pas encore d'évaluation
Exercices de Programmation en C
1 page
Examen Systèmes d'Exploitation I 2021
Pas encore d'évaluation
Examen Systèmes d'Exploitation I 2021
4 pages
Analyse de Données avec Spark
Pas encore d'évaluation
Analyse de Données avec Spark
7 pages
Les Obstacles A La Croissance
100% (3)
Les Obstacles A La Croissance
10 pages
Rapport TP Télédétection
Pas encore d'évaluation
Rapport TP Télédétection
21 pages
Chitra Sutra
100% (4)
Chitra Sutra
10 pages
Visual TOM : Automatisation et Orchestration IT
Pas encore d'évaluation
Visual TOM : Automatisation et Orchestration IT
4 pages
Anatomie de l'appareil respiratoire
Pas encore d'évaluation
Anatomie de l'appareil respiratoire
5 pages
Fondements de la Microfinance et Inclusion
100% (2)
Fondements de la Microfinance et Inclusion
47 pages
Introduction Elie
Pas encore d'évaluation
Introduction Elie
36 pages
Hopitaux Et Pharmacies (1) - 1
Pas encore d'évaluation
Hopitaux Et Pharmacies (1) - 1
14 pages
TP N B05 - Eclairage de La Cage D 27escalier Du Batiment A (Montage Minuterie) Ver 1.01
Pas encore d'évaluation
TP N B05 - Eclairage de La Cage D 27escalier Du Batiment A (Montage Minuterie) Ver 1.01
6 pages
Document-Le Cercle Du SIRH - L Etat de L Art Du SIRH
Pas encore d'évaluation
Document-Le Cercle Du SIRH - L Etat de L Art Du SIRH
137 pages
ADEME RCP SN-Référentiel RCP Services Numériques
Pas encore d'évaluation
ADEME RCP SN-Référentiel RCP Services Numériques
29 pages
Les Amortissements Travaux de Fin Dexercice 2 Bac Sciences Economiques PDF
100% (1)
Les Amortissements Travaux de Fin Dexercice 2 Bac Sciences Economiques PDF
8 pages
No28 20 Sept 2022 Sujetexa - Com
Pas encore d'évaluation
No28 20 Sept 2022 Sujetexa - Com
1 page
Présentation 1
Pas encore d'évaluation
Présentation 1
32 pages
Système de Santé Du Mali
100% (1)
Système de Santé Du Mali
7 pages
Thème 1 Géographie 5ème. Chapitre 2 - Géo - La Répartition de La Richesse Et de La Pauvreté Dans Le Monde
Pas encore d'évaluation
Thème 1 Géographie 5ème. Chapitre 2 - Géo - La Répartition de La Richesse Et de La Pauvreté Dans Le Monde
2 pages
Le Nom Propre dans le Cratyle de Platon
Pas encore d'évaluation
Le Nom Propre dans le Cratyle de Platon
456 pages
Effectuer Des Calculs Sur Des Données de Type Heure
Pas encore d'évaluation
Effectuer Des Calculs Sur Des Données de Type Heure
2 pages
Correction Exercices Angles Et Parallélisme + Comp 250305 162505
Pas encore d'évaluation
Correction Exercices Angles Et Parallélisme + Comp 250305 162505
6 pages
Éducation chrétienne des enfants
Pas encore d'évaluation
Éducation chrétienne des enfants
4 pages
Résumé de "Adieu, ma jolie"
Pas encore d'évaluation
Résumé de "Adieu, ma jolie"
14 pages
Droit Des Affaires OHADA
100% (2)
Droit Des Affaires OHADA
3 pages
Avantages Et Inconvénients Scikit
Pas encore d'évaluation
Avantages Et Inconvénients Scikit
2 pages
Maths 3ème Eval N°3 2024 2025
100% (1)
Maths 3ème Eval N°3 2024 2025
2 pages
Résumé Made in Germany
Pas encore d'évaluation
Résumé Made in Germany
6 pages
Cours de Planification. Cfora PDF
100% (3)
Cours de Planification. Cfora PDF
12 pages
Certificat Medical Minsantecm V6ol0425017490
Pas encore d'évaluation
Certificat Medical Minsantecm V6ol0425017490
1 page
"Foucault Anonimato", de Érik Bordeleau
100% (1)
"Foucault Anonimato", de Érik Bordeleau
28 pages
Système de Balisage
Pas encore d'évaluation
Système de Balisage
5 pages
Comprendre le Planisphère et le Globe
Pas encore d'évaluation
Comprendre le Planisphère et le Globe
3 pages