Introduction à Spark SQL et DataFrames

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

63 vues11 pages

Introduction à Spark SQL et DataFrames

Transféré par

risanimehdi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Big Data Spark_SQL

Omar Mouqat IDLD

1. SparkContext et SQLContext
On a lancer le shell Spark (« spark-shell ») puis, SQLContext peut être initialisé.

Nous avons créé un fichier nommé EMPLOYEE.json.

Ce fichier est ensuite lu dans Spark pour créer un DataFrame.
2. Opérations sur les DataFrames:
nous avons affiché les données et examiné le schéma correspondant.

Sélection d'une colonne spécifique, par exemple, name.

Filtrage des données pour afficher les employés dont l'âge est supérieur à 23.
Nous avons regroupé les données selon le critère âge, pour réaliser des analyses plus poussées.

3. Spécification programmée du schéma:

Nous avons créé un fichier texte nommé employee.txt et l'avons chargé dans Hadoop pour qu'il
puisse être utilisé dans Spark.

Un schéma basé sur trois attributs (« id », « name », « age ») a été défini.

Conversion en DataFrame

Ce DataFrame a ensuite été enregistré comme table temporaire, permettant l'exécution de

requêtes SQL, comme l'utilisation de la clause WHERE pour le filtrage des données.

4. Inférence de schéma avec la réflexion:

Une case class a été définie pour représenter la structure des données. Les transformations
nécessaires ont été appliquées sur un RDD pour analyser les données de manière plus efficace.

Exemples pratiques d’Apache Spark SQL

1. Exemple de création de DataFrame basé sur un fichier JSON
Étapes :

1. Importer une session Spark dans Apache Spark, qui est le point d'entrée de toutes les
fonctionnalités Spark.
2. Créer une session Spark 'spark' à l'aide de la fonction builder().
3. Importer la classe Implicits dans la session Spark.
4. Créer un DataFrame 'df' en chargeant les données du fichier employees.json.
5. Afficher les résultats avec la commande df.show().
Code

2. Exemple de traitement de données structurées à l'aide

d'ensembles de données
Étapes :

1. Importer la classe Implicits dans la session Spark.

2. Afficher le schéma dans un format d'arborescence.
3. Sélectionner uniquement la colonne « name ».
4. Augmenter les salaires de 1000 pour tous les employés.
5. Filtrer les employés avec un salaire supérieur à 4000.
6. Compter les employés par groupe de salaires.

Code
Exécution

3. Exemple d'exécution programmatique d'une requête SQL

Étapes :

1. Enregistrer le DataFrame comme vue temporaire SQL.

2. Définir un DataFrame pour stocker les enregistrements de la table temporaire.
3. Afficher les valeurs filtrées avec une requête SQL.
Code

Exécution

4. Exemple de création de DataSets

Étapes :

1. Définissez une classe de cas Personne avec nom et âge

2. Les encodeurs sont créés pour les classes de cas.
3. Affichez le résultat caseClassDS.
4. Les encodeurs sont importés automatiquement du paquet spark.implicits._ et sont de
types très courants.
5. Renvoie : Array(2, 3, 4).
6. En implémentant une classe, un DataFrames est transformé en un Dataset.
7. La cartographie sera effectuée par nom.
8. Affichez le résultat peopleDS.

Code
Execution

Conclusion :
Ce laboratoire sur Spark SQL a permis de comprendre les bases de la manipulation de données
structurées, en créant et utilisant des DataFrames, en définissant des schémas, et en exécutant des
requêtes SQL. Les exemples pratiques, comme l'utilisation de fichiers JSON, ont montré comment Spark
SQL facilite les analyses à grande échelle dans des environnements distribués, rendant les processus
analytiques plus rapides et efficaces.

Vous aimerez peut-être aussi

Introduction à Spark SQL et DataFrames
Pas encore d'évaluation
Introduction à Spark SQL et DataFrames
12 pages
Sparks QL
Pas encore d'évaluation
Sparks QL
11 pages
Big Data Spark SQL: Sparkcontext Et Sqlcontext 1
Pas encore d'évaluation
Big Data Spark SQL: Sparkcontext Et Sqlcontext 1
3 pages
TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
Chapitre 4 - Pyspark SQL DataFrame
Pas encore d'évaluation
Chapitre 4 - Pyspark SQL DataFrame
12 pages
API SparkSQL et DataFrames en Spark 2
Pas encore d'évaluation
API SparkSQL et DataFrames en Spark 2
4 pages
Spark SQL: Architecture et Fonctionnalités
Pas encore d'évaluation
Spark SQL: Architecture et Fonctionnalités
42 pages
Introduction à Spark SQL en PySpark
Pas encore d'évaluation
Introduction à Spark SQL en PySpark
19 pages
Introduction à Apache Spark et RDD
Pas encore d'évaluation
Introduction à Apache Spark et RDD
63 pages
Présentation Scala - Spark SQL
Pas encore d'évaluation
Présentation Scala - Spark SQL
32 pages
Introduction à Spark pour Data Scientists
Pas encore d'évaluation
Introduction à Spark pour Data Scientists
19 pages
Spark Courses
Pas encore d'évaluation
Spark Courses
183 pages
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
100% (1)
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
9 pages
Big Data TP 2 RDD (Dataframe)
Pas encore d'évaluation
Big Data TP 2 RDD (Dataframe)
23 pages
Tutoriel Spark : Création et Manipulation de DataFrames
Pas encore d'évaluation
Tutoriel Spark : Création et Manipulation de DataFrames
2 pages
Introduction à Apache Spark et ses APIs
Pas encore d'évaluation
Introduction à Apache Spark et ses APIs
56 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
Spark
Pas encore d'évaluation
Spark
22 pages
TD 2
Pas encore d'évaluation
TD 2
3 pages
Introduction à Hadoop et Apache Spark
Pas encore d'évaluation
Introduction à Hadoop et Apache Spark
61 pages
TP Sparks QL
Pas encore d'évaluation
TP Sparks QL
19 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
Maîtriser Spark SQL pour Big Data
Pas encore d'évaluation
Maîtriser Spark SQL pour Big Data
1 page
Introduction à Apache Spark et Cassandra
Pas encore d'évaluation
Introduction à Apache Spark et Cassandra
7 pages
Chapitre 4 - Apache Spark
Pas encore d'évaluation
Chapitre 4 - Apache Spark
13 pages
P5 - Spark SQL
Pas encore d'évaluation
P5 - Spark SQL
1 page
TP - Initiation Spark
Pas encore d'évaluation
TP - Initiation Spark
6 pages
Configuration d'un Cluster Spark sous Docker
Pas encore d'évaluation
Configuration d'un Cluster Spark sous Docker
8 pages
TP1 - PySpark
Pas encore d'évaluation
TP1 - PySpark
5 pages
TP 3 Spark
Pas encore d'évaluation
TP 3 Spark
3 pages
Cours - Spark - Partie 3 Et 4
Pas encore d'évaluation
Cours - Spark - Partie 3 Et 4
46 pages
Installation et Configuration Big Data
Pas encore d'évaluation
Installation et Configuration Big Data
23 pages
Spark
Pas encore d'évaluation
Spark
24 pages
Technologies Big Data : Spark, Scala, Kafka
Pas encore d'évaluation
Technologies Big Data : Spark, Scala, Kafka
12 pages
Chapitre 1 - Spark Overview
Pas encore d'évaluation
Chapitre 1 - Spark Overview
14 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
16 pages
Introduction à PySpark pour le Big Data
Pas encore d'évaluation
Introduction à PySpark pour le Big Data
2 pages
Big Data 2 TP n1
Pas encore d'évaluation
Big Data 2 TP n1
11 pages
Introduction à Spark : TP sur DataFrames et RDDs
Pas encore d'évaluation
Introduction à Spark : TP sur DataFrames et RDDs
2 pages
Introduction à Apache Spark et ses Avantages
Pas encore d'évaluation
Introduction à Apache Spark et ses Avantages
29 pages
Tutoriel Spark : Analyse et Modélisation
Pas encore d'évaluation
Tutoriel Spark : Analyse et Modélisation
6 pages
Spark : Framework Big Data Rapide et Flexible
Pas encore d'évaluation
Spark : Framework Big Data Rapide et Flexible
138 pages
TP PySpark : Traitement Big Data et ML
Pas encore d'évaluation
TP PySpark : Traitement Big Data et ML
4 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
50 pages
Support de Cours - Spark - Intro - Partie 1 Et 2
100% (2)
Support de Cours - Spark - Intro - Partie 1 Et 2
52 pages
TP5 - Apache Spark
Pas encore d'évaluation
TP5 - Apache Spark
27 pages
TP 2
Pas encore d'évaluation
TP 2
22 pages
Spark : Analyse Big Data et RDD
Pas encore d'évaluation
Spark : Analyse Big Data et RDD
42 pages
Spark
Pas encore d'évaluation
Spark
54 pages
Spark SQL et MLlib : Guide Complet
Pas encore d'évaluation
Spark SQL et MLlib : Guide Complet
6 pages
Data Chapitre 5 À Imprimer
Pas encore d'évaluation
Data Chapitre 5 À Imprimer
11 pages
TP4 BigData
Pas encore d'évaluation
TP4 BigData
3 pages
Big Data Spark
Pas encore d'évaluation
Big Data Spark
3 pages
Apache Spark
Pas encore d'évaluation
Apache Spark
3 pages
Guide d'installation et exercices Apache Spark
Pas encore d'évaluation
Guide d'installation et exercices Apache Spark
2 pages
Big Data et BI : Architectures et Outils
Pas encore d'évaluation
Big Data et BI : Architectures et Outils
67 pages
Chaudières Beretta Junior 24 28 CSI
Pas encore d'évaluation
Chaudières Beretta Junior 24 28 CSI
16 pages
1 Texte Indiv3
Pas encore d'évaluation
1 Texte Indiv3
1 page
Forward
Pas encore d'évaluation
Forward
9 pages
Modernisation Écologique d'Ascenseurs
Pas encore d'évaluation
Modernisation Écologique d'Ascenseurs
22 pages
Ascensseur 300Kg R+5
Pas encore d'évaluation
Ascensseur 300Kg R+5
21 pages
Croissance Économique et Chômage : Analyse
Pas encore d'évaluation
Croissance Économique et Chômage : Analyse
3 pages
Stages Agricoles à Oued Amlil 2013
Pas encore d'évaluation
Stages Agricoles à Oued Amlil 2013
4 pages
Présentation de David Searle - 7 Août 2024
Pas encore d'évaluation
Présentation de David Searle - 7 Août 2024
71 pages
Chapitre 1 Architecture Logicielle
Pas encore d'évaluation
Chapitre 1 Architecture Logicielle
28 pages
Biophysique des solutions et concentrations
Pas encore d'évaluation
Biophysique des solutions et concentrations
71 pages
Corrigé BT Électrotechnique 2022
Pas encore d'évaluation
Corrigé BT Électrotechnique 2022
2 pages
Contrat de Management Artistique 2022
100% (1)
Contrat de Management Artistique 2022
8 pages
Pont Suspendu Le Golden Gate Bridge Ensps
Pas encore d'évaluation
Pont Suspendu Le Golden Gate Bridge Ensps
18 pages
Malassezia
Pas encore d'évaluation
Malassezia
3 pages
Techniques de Labo
Pas encore d'évaluation
Techniques de Labo
39 pages
Devoir de contrôle en sciences physiques et chimiques
Pas encore d'évaluation
Devoir de contrôle en sciences physiques et chimiques
53 pages
Rapport Campagne Nationale de Caractérisation Des Ordures Ménagères Et Assimilés (2014.2015.2016)
Pas encore d'évaluation
Rapport Campagne Nationale de Caractérisation Des Ordures Ménagères Et Assimilés (2014.2015.2016)
56 pages
Ounoughi - Safi Eddine
Pas encore d'évaluation
Ounoughi - Safi Eddine
80 pages
Prise en Charge Psychomotrice de La Dyspraxie
Pas encore d'évaluation
Prise en Charge Psychomotrice de La Dyspraxie
12 pages
Ateliers REDISSE: Outils de Sauvegarde
Pas encore d'évaluation
Ateliers REDISSE: Outils de Sauvegarde
36 pages
Ecommerce Project
100% (1)
Ecommerce Project
6 pages
Moteur Asynchrone Monophasé
0% (1)
Moteur Asynchrone Monophasé
7 pages
Une École Steiner-Waldorf, Classe 2 - Liste de Lecture Recommandée
Pas encore d'évaluation
Une École Steiner-Waldorf, Classe 2 - Liste de Lecture Recommandée
6 pages
Powerpoint
Pas encore d'évaluation
Powerpoint
7 pages
Analyse Numérique : Équations et Méthodes
Pas encore d'évaluation
Analyse Numérique : Équations et Méthodes
27 pages
Maître d'armes Zafir Callas
Pas encore d'évaluation
Maître d'armes Zafir Callas
4 pages
La Parole Et La Ecriture
Pas encore d'évaluation
La Parole Et La Ecriture
151 pages
Examen d'anglais pour élèves de 6ème
Pas encore d'évaluation
Examen d'anglais pour élèves de 6ème
2 pages
Honda NC750X Guide de L'utilisateur de L'accessoire D'origine
Pas encore d'évaluation
Honda NC750X Guide de L'utilisateur de L'accessoire D'origine
13 pages
Catalogue - Forage Eccentric PDF
Pas encore d'évaluation
Catalogue - Forage Eccentric PDF
131 pages