0% ont trouvé ce document utile (0 vote)
63 vues11 pages

Introduction à Spark SQL et DataFrames

Transféré par

risanimehdi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
63 vues11 pages

Introduction à Spark SQL et DataFrames

Transféré par

risanimehdi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Big Data Spark_SQL

Omar Mouqat IDLD

1. SparkContext et SQLContext
On a lancer le shell Spark (« spark-shell ») puis, SQLContext peut être initialisé.

Nous avons créé un fichier nommé EMPLOYEE.json.


Ce fichier est ensuite lu dans Spark pour créer un DataFrame.
2. Opérations sur les DataFrames:
nous avons affiché les données et examiné le schéma correspondant.

Sélection d'une colonne spécifique, par exemple, name.

Filtrage des données pour afficher les employés dont l'âge est supérieur à 23.
Nous avons regroupé les données selon le critère âge, pour réaliser des analyses plus poussées.

3. Spécification programmée du schéma:


Nous avons créé un fichier texte nommé employee.txt et l'avons chargé dans Hadoop pour qu'il
puisse être utilisé dans Spark.

Un schéma basé sur trois attributs (« id », « name », « age ») a été défini.


Conversion en DataFrame

Ce DataFrame a ensuite été enregistré comme table temporaire, permettant l'exécution de


requêtes SQL, comme l'utilisation de la clause WHERE pour le filtrage des données.

4. Inférence de schéma avec la réflexion:


Une case class a été définie pour représenter la structure des données. Les transformations
nécessaires ont été appliquées sur un RDD pour analyser les données de manière plus efficace.

Exemples pratiques d’Apache Spark SQL


1. Exemple de création de DataFrame basé sur un fichier JSON
Étapes :

1. Importer une session Spark dans Apache Spark, qui est le point d'entrée de toutes les
fonctionnalités Spark.
2. Créer une session Spark 'spark' à l'aide de la fonction builder().
3. Importer la classe Implicits dans la session Spark.
4. Créer un DataFrame 'df' en chargeant les données du fichier employees.json.
5. Afficher les résultats avec la commande df.show().
Code

2. Exemple de traitement de données structurées à l'aide


d'ensembles de données
Étapes :

1. Importer la classe Implicits dans la session Spark.


2. Afficher le schéma dans un format d'arborescence.
3. Sélectionner uniquement la colonne « name ».
4. Augmenter les salaires de 1000 pour tous les employés.
5. Filtrer les employés avec un salaire supérieur à 4000.
6. Compter les employés par groupe de salaires.

Code
Exécution

3. Exemple d'exécution programmatique d'une requête SQL


Étapes :

1. Enregistrer le DataFrame comme vue temporaire SQL.


2. Définir un DataFrame pour stocker les enregistrements de la table temporaire.
3. Afficher les valeurs filtrées avec une requête SQL.
Code

Exécution

4. Exemple de création de DataSets

Étapes :

1. Définissez une classe de cas Personne avec nom et âge


2. Les encodeurs sont créés pour les classes de cas.
3. Affichez le résultat caseClassDS.
4. Les encodeurs sont importés automatiquement du paquet spark.implicits._ et sont de
types très courants.
5. Renvoie : Array(2, 3, 4).
6. En implémentant une classe, un DataFrames est transformé en un Dataset.
7. La cartographie sera effectuée par nom.
8. Affichez le résultat peopleDS.

Code
Execution

Conclusion :
Ce laboratoire sur Spark SQL a permis de comprendre les bases de la manipulation de données
structurées, en créant et utilisant des DataFrames, en définissant des schémas, et en exécutant des
requêtes SQL. Les exemples pratiques, comme l'utilisation de fichiers JSON, ont montré comment Spark
SQL facilite les analyses à grande échelle dans des environnements distribués, rendant les processus
analytiques plus rapides et efficaces.

Vous aimerez peut-être aussi