0% ont trouvé ce document utile (0 vote)

55 vues32 pages

Présentation Scala - Spark SQL

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

55 vues32 pages

Présentation Scala - Spark SQL

Transféré par

joan.legrand8

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Sparks SQL

&
DataFrames
Bouhrara Adam
Cassiet 29/02/2024
Clément CY-TECH
Gautier Jordan ING2 GSIA
Legrand Joan Djaouida
Zaouche 1
Table des matières

01 03
Récupération des données et
Introduction Communication avec
Database SQL
- Rappel de ce qu’est
Spark - Différentes manières de
- Introduction à Spark récupérer les données en
SQL DataFrame.
04
02 - Utilisation de JDBC et
SparkSQL pour communiquer
Intégration avec les Database SQL DataFrames
- Integrer SparkSQL a un Présentation générale des
projet Spark DataFrame, de fonctions
- Création de Spark de traitements
sessions couramment utilisées,
- Configuration de avec exemples
connexion à la base de d’utilisation concret 2
01
Introduction
Spark et Spark SQL

3
Spark Spark SQL
● Puissant framework pour traiter les ● Module majeur de Spark
données pour traiter les données structuré
⇒ Pour un grand nombre de comme les non structuré, pour les
données notamment (Big Data) analyser et les manipuler
● Haute performance, rapide et facile ● Accessible simple et puissant
d’utilisation ● Utilise un type de données les
● Opère en mémoire DataFrames
● Flexible ⇒ plusieurs langages ● Permet les utilisateurs d’agir sur les
possibles Scala/Python/Java/R DataFrames à l’aide de requêtes SQL
notamment

Utilisation de Spark :
- Traitement en temps réel Utilisation de Spark SQL :
- Machine learning - Analyse de données
- De manière générale pour traiter un - Manipulation des données
volume massif de données en parallèle - Reporting
- Incontournable de la Big Data
4
02
Intégration

5
Integrer Spark SQL à son
projet Spark

Dependance :
val sparkVersion = "3.5.0"
libraryDependencies += "[Link]" %% "spark-sql" % sparkVersion

Imports
import [Link].{SparkSession, DataFrame, Column, Row, SaveMode}
importants :
import [Link]._
import [Link]._

Démarré sbt
server avec sbt -java-home "C:\Program Files\Java\jdk-11"
jdk 11 :
6
Configuration pour se connecter
aux Bases SQL
libraryDependencies += "[Link]" % "mssql-jdbc" % "9.4.0.jre11"
libraryDependencies += "[Link]" % "ojdbc8" % "[Link]"

7
Initialisation d’une Session Gestion des Exceptions
Spark

import [Link]
import [Link]

8
03
Récupération des
données et
communication avec
database SQL
9
Récupération de données
Différentes manières de récupérer des données depuis la Session Spark (même
avant de vouloir récupérer directement en Database) :

Depuis un
JSON ou
CSV :

Directement dans le code

Scala,
depuis un Seq avec .toDF par
exemple :
10
[Link]()

[Link]()

11
Les modes
Append: Overwrite:
● Ajoute les données de la ● Remplace complètement la table
DataFrame à la table existante avec les données de la
existante DataFrame.
Ignore: ErrorIfExists:
● N'écrit pas les données si la ● Génère une erreur si la table existe
table existe déjà déjà

12
Les options
Les options permettent de configurer et personnaliser les opérations de lecture et
d'écriture de données dans Spark SQL, offrant ainsi un contrôle sur le format, le
schéma, le mode d'écriture, les paramètres de connexion à la source de données,
etc.

Quelques options
utiles :

● format: Spécifie le format. ● queryTimeout: Limite de temps pour

● query: Spécifie une requête SQL à exécuter l'exécution de la requête SQL
directement sur la source de données. ● user: Nom d'utilisateur pour la connexion à
● prepareQuery: Utilisé pour exécuter des la base de données
requêtes paramétrées avec des paramètres ● password: Mot de passe pour la connexion
dynamiques ou pour préparer la requête à la base de données
final. ● mode: Pour spécifier un mode (append,
● dbtable: Spécifie la table dans la base de overwrite…) mais dans un option
données relationnelle à lire.
● truncate: Tronquer la table avant l'écriture
● fetchsize: Taille du lot pour récupérer les
résultats 13
Les options

14
Coupler avec le module [Link]

● Permet de DROP, TRUNCATE…

● Il est possibe de faire la même chose avec les dataFrame. Ecrire une
DataFrame préalablement vidé dans la db pour truncate… Crée de la
complexité.

15
Utilisation de SparkSQL

DataFrame
[Link] [Link]
() ()

16
04
DataFrames

17
Présentation DataFrames

18
Les fonctions natives des DataFrames

Un très grand nombre de fonctions pour traiter, analyser et

manipuler les DataFrames existent :

[Link]
html

19
Utilisation des DataFrames

Manipulation de base Agrégation et Analyse

Jointure sur DataFrame Transformation

20
Manipulation de base

Fonctions natives : Fonctions

développées:
● [Link](SQLquery)
● executeAnyStateme
● [Link](StructType)
nt
● [Link](Columns names)
● truncate
● [Link](Columns names)
● deleteRows
● [Link](Columns names)
● [Link]()
● [Link](dataframe2)
● [Link](numberOfRows)
● [Link]()
21
executeAnyStatement

22
Filter (1)

23
Filter (2)
truncate deleteRows

24
Agrégation et Analyse

Fonction native :
● [Link](cols: List[ColumnOrName])
● [Link](column name, other columns)

Fonctions développées:

● computeAggregate
● groupby

25
groupby

26
computeAggregate

27
Jointure sur DataFrame

Fonctions natives :
● [Link](dataframe1, dataframe2, Column name,
mode)
● [Link](dataframe2, Column name, mode)
(mode par defaut = “inner”)

Fonctions développées:
● Left Join
● Right Join
● Inner Join
● Outer Join

28
Left Join

29
Transformations

Fonctions natives :
● [Link](dataframe1, Column name, Column type, values)
● [Link](dataframe1, Old column name, New
column name)

Fonctions développées:
● Rename Column
● Convert Column
● Add Column

30
Add Column

31
Merci !
Avez vous des
questions ?

Sources :

- Lien vers les

CREDITS: Thisfonctions natives
presentation templateSpark SQL by
was created : Slidesgo,
All :and
[Link]
includes icons by Flaticon, and infographics & images by
Freepik
Sur les DataFrames :
[Link]

- Notre Repo Github avec le Projet :

[Link]
32

Vous aimerez peut-être aussi

TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
Maîtriser Spark SQL pour Big Data
Pas encore d'évaluation
Maîtriser Spark SQL pour Big Data
1 page
Introduction à Spark pour Data Scientists
Pas encore d'évaluation
Introduction à Spark pour Data Scientists
19 pages
Spark SQL: Architecture et Fonctionnalités
Pas encore d'évaluation
Spark SQL: Architecture et Fonctionnalités
42 pages
Introduction à Spark SQL en PySpark
Pas encore d'évaluation
Introduction à Spark SQL en PySpark
19 pages
Chapitre 4 - Pyspark SQL DataFrame
Pas encore d'évaluation
Chapitre 4 - Pyspark SQL DataFrame
12 pages
API SparkSQL et DataFrames en Spark 2
Pas encore d'évaluation
API SparkSQL et DataFrames en Spark 2
4 pages
Introduction à Spark SQL et DataFrames
Pas encore d'évaluation
Introduction à Spark SQL et DataFrames
11 pages
Introduction à Spark SQL et DataFrames
Pas encore d'évaluation
Introduction à Spark SQL et DataFrames
12 pages
Big Data Spark SQL: Sparkcontext Et Sqlcontext 1
Pas encore d'évaluation
Big Data Spark SQL: Sparkcontext Et Sqlcontext 1
3 pages
Introduction à Apache Spark et RDD
Pas encore d'évaluation
Introduction à Apache Spark et RDD
63 pages
P5 - Spark SQL
Pas encore d'évaluation
P5 - Spark SQL
1 page
TP 3 Spark
Pas encore d'évaluation
TP 3 Spark
3 pages
Introduction à Hadoop et Apache Spark
Pas encore d'évaluation
Introduction à Hadoop et Apache Spark
61 pages
Introduction à Apache Spark et ses APIs
Pas encore d'évaluation
Introduction à Apache Spark et ses APIs
56 pages
TP Sparks QL
Pas encore d'évaluation
TP Sparks QL
19 pages
Sparks QL
Pas encore d'évaluation
Sparks QL
11 pages
SQL en Python : Accès et Méthodes
100% (1)
SQL en Python : Accès et Méthodes
18 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
112 pages
Chapitre 1 - Spark Overview
Pas encore d'évaluation
Chapitre 1 - Spark Overview
14 pages
Technologies Big Data : Spark, Scala, Kafka
Pas encore d'évaluation
Technologies Big Data : Spark, Scala, Kafka
12 pages
1 - Bases de Données - Cours
Pas encore d'évaluation
1 - Bases de Données - Cours
26 pages
Introduction à PySpark pour le Big Data
Pas encore d'évaluation
Introduction à PySpark pour le Big Data
2 pages
Spark
Pas encore d'évaluation
Spark
24 pages
Tutoriel Spark : Création et Manipulation de DataFrames
Pas encore d'évaluation
Tutoriel Spark : Création et Manipulation de DataFrames
2 pages
Support de Cours - Spark - Intro - Partie 1 Et 2
100% (2)
Support de Cours - Spark - Intro - Partie 1 Et 2
52 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
50 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
Support SQL 1
Pas encore d'évaluation
Support SQL 1
14 pages
BD Python
Pas encore d'évaluation
BD Python
36 pages
Big Data et BI : Architectures et Outils
Pas encore d'évaluation
Big Data et BI : Architectures et Outils
67 pages
TP - Initiation Spark
Pas encore d'évaluation
TP - Initiation Spark
6 pages
Big Data TP 2 RDD (Dataframe)
Pas encore d'évaluation
Big Data TP 2 RDD (Dataframe)
23 pages
PySpark: Guide Essentiel pour Débutants
Pas encore d'évaluation
PySpark: Guide Essentiel pour Débutants
20 pages
Introduction à Apache Spark et ses Avantages
Pas encore d'évaluation
Introduction à Apache Spark et ses Avantages
29 pages
Chapitre 4 - Apache Spark
Pas encore d'évaluation
Chapitre 4 - Apache Spark
13 pages
SQLAlchemy et JDBC : Outils de DB simplifiés
Pas encore d'évaluation
SQLAlchemy et JDBC : Outils de DB simplifiés
8 pages
Utilisation de Bibliotheques Et Frameworks SQLAlchemy JDBC Etc
Pas encore d'évaluation
Utilisation de Bibliotheques Et Frameworks SQLAlchemy JDBC Etc
8 pages
P2 - Introduction À Apache Spark - Atelier Apache Spark
Pas encore d'évaluation
P2 - Introduction À Apache Spark - Atelier Apache Spark
7 pages
Des Bases de Donnees en Python Avec Sqlite3
Pas encore d'évaluation
Des Bases de Donnees en Python Avec Sqlite3
32 pages
Quiz
Pas encore d'évaluation
Quiz
4 pages
Introduction à Apache Spark et ses avantages
Pas encore d'évaluation
Introduction à Apache Spark et ses avantages
15 pages
Big Data Spark
Pas encore d'évaluation
Big Data Spark
3 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
Spark Courses
Pas encore d'évaluation
Spark Courses
183 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
20 pages
Spark
Pas encore d'évaluation
Spark
22 pages
Spark : Framework Big Data Rapide et Flexible
Pas encore d'évaluation
Spark : Framework Big Data Rapide et Flexible
138 pages
Bases de données Python avec sqlite3
Pas encore d'évaluation
Bases de données Python avec sqlite3
18 pages
Introduction à SQLite3 avec Python
Pas encore d'évaluation
Introduction à SQLite3 avec Python
10 pages
Lecture 3
Pas encore d'évaluation
Lecture 3
15 pages
Microsoft PowerPoint - Traitement - Big - Data-2023-2024 V1
Pas encore d'évaluation
Microsoft PowerPoint - Traitement - Big - Data-2023-2024 V1
9 pages
Traitement de données massives avec Spark
Pas encore d'évaluation
Traitement de données massives avec Spark
12 pages
Data Chapitre 5 À Imprimer
Pas encore d'évaluation
Data Chapitre 5 À Imprimer
11 pages
Tutoriel MLlib Spark avec PySpark
Pas encore d'évaluation
Tutoriel MLlib Spark avec PySpark
7 pages
Spark
Pas encore d'évaluation
Spark
54 pages
Guide Complet sur les Bases de Données
Pas encore d'évaluation
Guide Complet sur les Bases de Données
8 pages
Traitement des données massives avec Spark
Pas encore d'évaluation
Traitement des données massives avec Spark
115 pages
Introduction au Big Data et NoSQL
Pas encore d'évaluation
Introduction au Big Data et NoSQL
20 pages
Bases de Donnees Relationnelles Et Contraintes SQL
Pas encore d'évaluation
Bases de Donnees Relationnelles Et Contraintes SQL
21 pages
Cours PHP Pdo 2022
Pas encore d'évaluation
Cours PHP Pdo 2022
33 pages
Approche MDA pour Systèmes d'Information
Pas encore d'évaluation
Approche MDA pour Systèmes d'Information
27 pages
Introduction aux bases de données NoSQL
Pas encore d'évaluation
Introduction aux bases de données NoSQL
3 pages
Requêtes essentielles en MongoDB
Pas encore d'évaluation
Requêtes essentielles en MongoDB
9 pages
Optimisation SQL pour BDD Oracle
Pas encore d'évaluation
Optimisation SQL pour BDD Oracle
7 pages
Création et modification de BD
Pas encore d'évaluation
Création et modification de BD
7 pages
Systèmes de Gestion de Bases de Données
Pas encore d'évaluation
Systèmes de Gestion de Bases de Données
120 pages
Concepts fondamentaux des bases de données
Pas encore d'évaluation
Concepts fondamentaux des bases de données
22 pages
Cours LOG8430 : Architecture Logicielle Avancée
Pas encore d'évaluation
Cours LOG8430 : Architecture Logicielle Avancée
26 pages
Correction Épreuve Informatique 2011
Pas encore d'évaluation
Correction Épreuve Informatique 2011
3 pages
6 - Patrons de Conception - Version Intégrale - GL - Gaceb 2024
Pas encore d'évaluation
6 - Patrons de Conception - Version Intégrale - GL - Gaceb 2024
71 pages
Les Bases de Données: Cours Assuré Par: Mlle Smii Imen Imen - Smii@
Pas encore d'évaluation
Les Bases de Données: Cours Assuré Par: Mlle Smii Imen Imen - Smii@
20 pages
Memento
Pas encore d'évaluation
Memento
1 page
Introduction à UML et ses Diagrammes
Pas encore d'évaluation
Introduction à UML et ses Diagrammes
67 pages
Cours de Bases de Données - Leçon 1
Pas encore d'évaluation
Cours de Bases de Données - Leçon 1
61 pages
Solutions SQL et PL/SQL pour Oracle
Pas encore d'évaluation
Solutions SQL et PL/SQL pour Oracle
3 pages
Introduction au SQL et bases de données
Pas encore d'évaluation
Introduction au SQL et bases de données
179 pages
Modernisation DB2 for i : DDS à SQL
Pas encore d'évaluation
Modernisation DB2 for i : DDS à SQL
64 pages
Diagramme de Séquence Supprimer Article
Pas encore d'évaluation
Diagramme de Séquence Supprimer Article
14 pages
Cours API Automatisation
Pas encore d'évaluation
Cours API Automatisation
5 pages
Gestion de livres avec EJB en Java
Pas encore d'évaluation
Gestion de livres avec EJB en Java
3 pages
Corrigé Examen SQL S6 - L3 Informatique
Pas encore d'évaluation
Corrigé Examen SQL S6 - L3 Informatique
2 pages
Rapport TP1 Et 2
Pas encore d'évaluation
Rapport TP1 Et 2
19 pages
Exposé TPW - 044825
Pas encore d'évaluation
Exposé TPW - 044825
10 pages
Introduction aux JSP en Java
Pas encore d'évaluation
Introduction aux JSP en Java
28 pages
Pfe Wejdene Bedoui
Pas encore d'évaluation
Pfe Wejdene Bedoui
41 pages
Introduction au langage SQL et DDL
Pas encore d'évaluation
Introduction au langage SQL et DDL
13 pages
Introduction au modèle relationnel SQL
Pas encore d'évaluation
Introduction au modèle relationnel SQL
79 pages
Introduction aux Bases de Données
Pas encore d'évaluation
Introduction aux Bases de Données
22 pages