0% ont trouvé ce document utile (0 vote)
46 vues11 pages

Sparks QL

Transféré par

whamrane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
46 vues11 pages

Sparks QL

Transféré par

whamrane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Nom et Prenom:

WIAME HAMRANE

Intitulé de Mater:
Ingénieurie de devlepoment logiciel
et décisionnel

Spark SQL
ADDRESS: PHONE: WEB:
1. SparkContext et SQLContext
On a lancer le shell Spark (« spark-shell ») puis, SQLContext peut être initialisé.

Nous avons créé un fichier nommé EMPLOYEE.json.


Ce fichier est ensuite lu dans Spark pour créer un DataFrame.

MASTER IDLD
2. Opérations sur les DataFrames:
nous avons affiché les données et examiné le schéma correspondant.

Sélection d'une colonne spécifique, par exemple, name.

Filtrage des données pour afficher les employés dont l'âge est supérieur à 23.

MASTER IDLD
Nous avons regroupé les données selon le critère âge, pour réaliser des analyses plus poussées.

3. Spécification programmée du schéma:


Nous avons créé un fichier texte nommé employee.txt et l'avons chargé dans Hadoop pour qu'il
puisse être utilisé dans Spark.

Un schéma basé sur trois attributs (« id », « name », « age ») a été défini.

MASTER IDLD
Conversion en DataFrame

Ce DataFrame a ensuite été enregistré comme table temporaire, permettant l'exécution de


requêtes SQL, comme l'utilisation de la clause WHERE pour le filtrage des données.

4. Inférence de schéma avec la réflexion:


Une case class a été définie pour représenter la structure des données. Les transformations
nécessaires ont été appliquées sur un RDD pour analyser les données de manière plus efficace.

Exemples pratiques d’Apache Spark SQL

MASTER IDLD
MASTER IDLD
1. Exemple de création de DataFrame basé sur un fichier JSON
Étapes :

1. Importer une session Spark dans Apache Spark, qui est le point d'entrée de toutes les
fonctionnalités Spark.
2. Créer une session Spark 'spark' à l'aide de la fonction builder().
3. Importer la classe Implicits dans la session Spark.
4. Créer un DataFrame 'df' en chargeant les données du fichier employees.json.
5. Afficher les résultats avec la commande df.show().

MASTER IDLD
Code

2. Exemple de traitement de données structurées à l'aide


d'ensembles de données
Étapes :

1. Importer la classe Implicits dans la session Spark.


2. Afficher le schéma dans un format d'arborescence.
3. Sélectionner uniquement la colonne « name ».
4. Augmenter les salaires de 1000 pour tous les employés.
5. Filtrer les employés avec un salaire supérieur à 4000.

MASTER IDLD
6. Compter les employés par groupe de salaires.

Code

Exécution

3. Exemple d'exécution programmatique d'une requête SQL


Étapes :

1. Enregistrer le DataFrame comme vue temporaire SQL.


2. Définir un DataFrame pour stocker les enregistrements de la table temporaire.
3. Afficher les valeurs filtrées avec une requête SQL.

MASTER IDLD
Code

Exécution

4. Exemple de création de DataSets

Étapes :

1. Définissez une classe de cas Personne avec nom et âge


2. Les encodeurs sont créés pour les classes de cas.
3. Affichez le résultat caseClassDS.

MASTER IDLD
4. Les encodeurs sont importés automatiquement du paquet spark.implicits._ et sont de
types très courants.
5. Renvoie : Array(2, 3, 4).
6. En implémentant une classe, un DataFrames est transformé en un Dataset.
7. La cartographie sera effectuée par nom.
8. Affichez le résultat peopleDS.

Code

MASTER IDLD
Execution

Conclusion :
Ce laboratoire sur Spark SQL a permis de comprendre les bases de la manipulation de données
structurées, en créant et utilisant des DataFrames, en définissant des schémas, et en exécutant des
requêtes SQL. Les exemples pratiques, comme l'utilisation de fichiers JSON, ont montré comment Spark
SQL facilite les analyses à grande échelle dans des environnements distribués, rendant les processus
analytiques plus rapides et efficaces.

MASTER IDLD

Vous aimerez peut-être aussi