Spark : RDD et Transformations Optimisées

Le document décrit les principes de base des RDD dans Spark, notamment leur résilience, leur distribution sur le cluster et les opérations possibles comme les transformations et les actions.

Transféré par

Badiss Jabou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

280 vues11 pages

Spark : RDD et Transformations Optimisées

Le document décrit les principes de base des RDD dans Spark, notamment leur résilience, leur distribution sur le cluster et les opérations possibles comme les transformations et les actions.

Transféré par

Badiss Jabou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

21/01/2020 Spark 23

RDD : Principe
 Spark est puissant car il repose sur des principes peu nombreux et
simples.
 Données : RDD (Resilient Distributed Datasets)
 Resilient : tolérance aux pannes grâce au DAG. Possibilité de recalcul des
données endommagées
 Distributed : données réparties sur plusieurs nœuds worker d’un cluster.

21/01/2020 Spark 24
RDD : Principe

21/01/2020 Spark 25
RDD : Resilient Distributed Dataset
 L’objet principal de Spark est le RDD : Resilient Distributed Dataset.
 Un dispositif pour traiter une collection de données par des
algorithmes parallèles robustes.
 Un RDD ne contient pas vraiment de données, mais seulement un
traitement. Ce traitement n’est effectué que lorsque cela apparaît
nécessaire. On appelle cela l’évaluation paresseuse.
 Variables partagées entre des traitements et distribuées sur le cluster de
machines.
 Spark fait en sorte que le traitement soit distribué sur le cluster, donc
calculé rapidement, et n’échoue pas même si des machines tombent en
panne.

21/01/2020 Spark 26
Caractéristique d’un RDD
 RDD utilise des opérations mapreduce qui permettent de traiter et de
générer un large volume de données avec un algorithme parallèle et
distribuée.
 On peut charger les données a partir de n’importe quelle source et la
convertir en RDD et les stocker en mémoire pour calculer les résultats.
 RDD est composé d’un ensemble de partitions. Une partition est une
division logique de données qui est immuable et créée suite a des
transformations d’autre partition existante.
 En cas de perte de partition RDD, on peut reprendre les
transformations sur le RDD d’origine au lieu de répliquer les données
sur plusieurs nœuds.

21/01/2020 Spark 27
RDD : Calcul
 Transformations : Comme avec MapReduce, chaque ligne du fichier
constitue un enregistrement. Les transformations appliquées sur le
RDD traiteront chaque ligne séparément. Les lignes du fichier sont
distribuées sur différentes machines pour un traitement parallèle.
Elles créent un nouveau RDD à partir d’un existant.

 Actions : ce sont des fonctions qui permettent d’extraire des

informations des RDD, par exemple les afficher sur l’écran ou les
enregistrer dans un fichier.

21/01/2020 Spark 28
Actions
 Ce sont des méthodes qui s’appliquent à un RDD pour retourner une
valeur ou une collection.
 [Link]() retourne le contenu du RDD
 [Link]() retourne le nombre d’éléments
 [Link]() retourne le premier élément
 [Link](n) retourne les n premiers éléments.
 [Link](fonction) Agréger les éléments du RDD en utilisant la fonction
définie (qui prend 2 arguments et retourne 1 résultat). La fonction devrait
être associative et commutative afin de pouvoir être correctement calculée
en parallèle.
[Link]((a, b) => a + b)
 [Link]() ou [Link]() Sauvegarder le RDD en mémoire avant
l’execution (action)

21/01/2020 Spark 29
Actions
 Un RDD peut être sauvegardé :
 sous forme de fichier texte avec saveAsTextFile(path)
 sous forme de SequenceFile Hadoop avec saveAsSequenceFile(path),
 dans un format simple en utilisant la sérialisation Java avec
saveAsObjectFile(path).

21/01/2020 Spark 30
Transformations
 Chacune de ces méthodes retourne un nouveau RDD à partir de celui
qui est concerné.
 [Link](fonction) chaque appel à la fonction doit retourner une valeur qui
est mise dans le RDD sortant.
val longueursLignes = [Link](l => [Link])
 [Link](fonction) chaque item du RDD source peut être transformé en
0 ou plusieurs items ; retourner une séquence plutôt qu’un seul item.
 parallelize() partitionner le RDD automatiquement à partir des
caractéristiques du cluster sur lequel les calculs doivent être réalisés.
val RDD = [Link](Array(1,2,3,4))
 [Link](fonction) la fonction retourne un booléen.
linesfilter = [Link](line => [Link]("Komal"))

21/01/2020 Spark 31
Transformations ensemblistes
 Ces transformations regroupent deux RDD
 [Link]() : retourne un seul exemplaire de chaque élément.
 RDD = [Link](Array(1, 2, 3, 4, 6, 5, 4, 3))
 [Link]().collect()
 [Link](RDD2) : contrairement à son nom, ça retourne la
concaténation et non pas l’union des deux RDD.
 Rajouter distinct() pour faire une vraie union.
 RDD1 = [Link](Array(1,2,3,4))
 RDD2 = [Link](Array(6,5,4,3))
 [Link](RDD2).collect()
 [Link](RDD2) : retourne l’intersection des deux RDD.
 [Link](RDD2).collect()

21/01/2020 Spark 32
Transformations de type jointure
 Spark permet de calculer des jointures entre RDD1={(K1,V1). . . } et
RDD2={(K2,V2). . . } et partageant des clés K identiques.
 [Link](RDD2) : retourne toutes les paires (K, (V1, V2)) lorsque V1 et V2
ont la même clé.
 RDD1 = [Link](Array((1,"tintin"),(2,"asterix"),(3,"spirou") ))
 RDD2 = [Link](Array((1,1930),(2,1961),(1,1931),(4,1974) ))
 print [Link](RDD2).collect()

21/01/2020 Spark 33

Vous aimerez peut-être aussi

TP2 BIGdata
Pas encore d'évaluation
TP2 BIGdata
15 pages
Spark : Analyse Big Data et RDD
Pas encore d'évaluation
Spark : Analyse Big Data et RDD
42 pages
Cours - Spark - Partie 3 Et 4
Pas encore d'évaluation
Cours - Spark - Partie 3 Et 4
46 pages
Spark Introduction
Pas encore d'évaluation
Spark Introduction
22 pages
(Big Data Analytics) CHAP4 - Spark Streaming
Pas encore d'évaluation
(Big Data Analytics) CHAP4 - Spark Streaming
29 pages
TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
BIG DATA Resumé
Pas encore d'évaluation
BIG DATA Resumé
6 pages
Architecture Cloud et Big Data
Pas encore d'évaluation
Architecture Cloud et Big Data
70 pages
Chap4 MapReduce
Pas encore d'évaluation
Chap4 MapReduce
17 pages
Ds Big Data Novembre 2023 Final
Pas encore d'évaluation
Ds Big Data Novembre 2023 Final
3 pages
Atelier 1 - RDD
0% (1)
Atelier 1 - RDD
1 page
TD Pyspark
Pas encore d'évaluation
TD Pyspark
2 pages
Spark et Critique de MapReduce
Pas encore d'évaluation
Spark et Critique de MapReduce
14 pages
DS Big Data2024
Pas encore d'évaluation
DS Big Data2024
4 pages
Cours Big Data2024
Pas encore d'évaluation
Cours Big Data2024
99 pages
Spark-Td 1
Pas encore d'évaluation
Spark-Td 1
3 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
MapReduce et YARN : Concepts Clés
Pas encore d'évaluation
MapReduce et YARN : Concepts Clés
25 pages
Exam Big Data Version Finale
Pas encore d'évaluation
Exam Big Data Version Finale
7 pages
TP 01 - RDD
Pas encore d'évaluation
TP 01 - RDD
2 pages
Big Data et Système Hadoop: Guide Complet
Pas encore d'évaluation
Big Data et Système Hadoop: Guide Complet
42 pages
CH 2 Hadoop
Pas encore d'évaluation
CH 2 Hadoop
56 pages
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
100% (1)
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
9 pages
MapReduce : Programmation Distribuée et Tolérance aux Pannes
Pas encore d'évaluation
MapReduce : Programmation Distribuée et Tolérance aux Pannes
6 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
45 pages
Exercices MapReduce
Pas encore d'évaluation
Exercices MapReduce
3 pages
Chapitre2 Hadoop MapReduce
Pas encore d'évaluation
Chapitre2 Hadoop MapReduce
28 pages
Spark et Hadoop : Architectures Big Data
Pas encore d'évaluation
Spark et Hadoop : Architectures Big Data
43 pages
TP Scala
Pas encore d'évaluation
TP Scala
2 pages
Chapitre N°4 Apache Spark
Pas encore d'évaluation
Chapitre N°4 Apache Spark
43 pages
Cluster Hadoop - Docker Portainee
Pas encore d'évaluation
Cluster Hadoop - Docker Portainee
33 pages
Installation Cloudera HDFS
Pas encore d'évaluation
Installation Cloudera HDFS
5 pages
Introduction à Spark Streaming
Pas encore d'évaluation
Introduction à Spark Streaming
44 pages
tp3 Scala
Pas encore d'évaluation
tp3 Scala
2 pages
HDFS MapReduce
Pas encore d'évaluation
HDFS MapReduce
3 pages
QCM Apache Spark
Pas encore d'évaluation
QCM Apache Spark
6 pages
Big Data Chap 2 - Principes Hadoop
Pas encore d'évaluation
Big Data Chap 2 - Principes Hadoop
51 pages
TP 2
Pas encore d'évaluation
TP 2
22 pages
TP Bigdata ApacheSparkRDD
Pas encore d'évaluation
TP Bigdata ApacheSparkRDD
3 pages
Cassandra: Architecture et Stratégies NOSQL
100% (1)
Cassandra: Architecture et Stratégies NOSQL
20 pages
Apache Spark Interview Questions and
Pas encore d'évaluation
Apache Spark Interview Questions and
19 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
32 pages
Ventes Totales par Produit et Région
100% (1)
Ventes Totales par Produit et Région
5 pages
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
Pas encore d'évaluation
Traitement Du Big Data: TP3 Le Modèle de Programmation Map Reduce
25 pages
Cours Intro Hadoop v27022014 Erraki Haddad
Pas encore d'évaluation
Cours Intro Hadoop v27022014 Erraki Haddad
62 pages
Presentation YARN
Pas encore d'évaluation
Presentation YARN
28 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
CTRL - BDSD - 2020-2021 Avec Corrigé
100% (1)
CTRL - BDSD - 2020-2021 Avec Corrigé
3 pages
Support de Cours - Spark - Intro - Partie 1 Et 2
100% (1)
Support de Cours - Spark - Intro - Partie 1 Et 2
52 pages
Bases de Données Réparties : Concepts et Conception
Pas encore d'évaluation
Bases de Données Réparties : Concepts et Conception
23 pages
TP 2 Sparql
Pas encore d'évaluation
TP 2 Sparql
4 pages
Importer et exporter avec Sqoop
Pas encore d'évaluation
Importer et exporter avec Sqoop
4 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
TP Sparks QL
Pas encore d'évaluation
TP Sparks QL
19 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
16 pages
Spark : Framework Big Data Rapide et Flexible
Pas encore d'évaluation
Spark : Framework Big Data Rapide et Flexible
138 pages
Chapitre 4 - Apache Spark
Pas encore d'évaluation
Chapitre 4 - Apache Spark
13 pages
DP - COURS - LA COUVERTURE Gnralits
Pas encore d'évaluation
DP - COURS - LA COUVERTURE Gnralits
4 pages
Amechghal Rachid Rue Vintage 74/ Pilucca: Total 29 030,00
Pas encore d'évaluation
Amechghal Rachid Rue Vintage 74/ Pilucca: Total 29 030,00
1 page
PV Visite Pont en Maçonnerie
Pas encore d'évaluation
PV Visite Pont en Maçonnerie
36 pages
Anglais: Buckingham Palace Big Ben
Pas encore d'évaluation
Anglais: Buckingham Palace Big Ben
2 pages
Encadrement Ouverture
Pas encore d'évaluation
Encadrement Ouverture
4 pages
Types et Choix des Murs de Soutènement
Pas encore d'évaluation
Types et Choix des Murs de Soutènement
21 pages
Villas de luxe pour des vacances inoubliables
Pas encore d'évaluation
Villas de luxe pour des vacances inoubliables
15 pages
Classe Et Poids Poteaux Béton
Pas encore d'évaluation
Classe Et Poids Poteaux Béton
3 pages
SO03-Intégrale Placo® Second Oeuvre 2023 - Plafonds
Pas encore d'évaluation
SO03-Intégrale Placo® Second Oeuvre 2023 - Plafonds
64 pages
BORDEREAU DE PRIX (À Jour)
Pas encore d'évaluation
BORDEREAU DE PRIX (À Jour)
28 pages
ENSA Fes FST Up
Pas encore d'évaluation
ENSA Fes FST Up
17 pages
Bibliothèques Design Atmosphera
Pas encore d'évaluation
Bibliothèques Design Atmosphera
1 page
Exercice 8
Pas encore d'évaluation
Exercice 8
5 pages
Loom Sit Ex XXX Cit TPL ZZZZ 0001 A Gabarit
Pas encore d'évaluation
Loom Sit Ex XXX Cit TPL ZZZZ 0001 A Gabarit
1 page
Projets de Construction et Calculs Techniques
Pas encore d'évaluation
Projets de Construction et Calculs Techniques
13 pages
Manuel de Réparation Raxtar Modèles RXS2332F - RXS2340F v1.0
Pas encore d'évaluation
Manuel de Réparation Raxtar Modèles RXS2332F - RXS2340F v1.0
39 pages
8 - Tracer Et Réaliser Des Assemblages en Bois de Travers
100% (1)
8 - Tracer Et Réaliser Des Assemblages en Bois de Travers
19 pages
Bruno Zevi : Voir l'Architecture
Pas encore d'évaluation
Bruno Zevi : Voir l'Architecture
163 pages
Jm-Plan de Poutraison
Pas encore d'évaluation
Jm-Plan de Poutraison
1 page
Bockou Oui Oui 1887507674343076
Pas encore d'évaluation
Bockou Oui Oui 1887507674343076
274 pages
Piece 4 3 CCTP Tunnel - Partie A
Pas encore d'évaluation
Piece 4 3 CCTP Tunnel - Partie A
188 pages
Des Pompes - Niv. 3
Pas encore d'évaluation
Des Pompes - Niv. 3
4 pages
Calcul Métré Bâtiment: Guide Étape par Étape
100% (1)
Calcul Métré Bâtiment: Guide Étape par Étape
4 pages
Exos - Analyse MERISE - F1
100% (3)
Exos - Analyse MERISE - F1
5 pages
Force, Mouvement, Forme Entretiens (Calatrava, Santiago, (1951 - ... ) )
Pas encore d'évaluation
Force, Mouvement, Forme Entretiens (Calatrava, Santiago, (1951 - ... ) )
100 pages
Arboise Rectangulaire
Pas encore d'évaluation
Arboise Rectangulaire
4 pages
Arrete 5945-MINT-PC Du 14 Mai 1969 Reglement Securite ERP
86% (7)
Arrete 5945-MINT-PC Du 14 Mai 1969 Reglement Securite ERP
72 pages
Procedure Coffrage Perdu Finale
Pas encore d'évaluation
Procedure Coffrage Perdu Finale
4 pages
Les Monuments Plus Importants de La France 2023
Pas encore d'évaluation
Les Monuments Plus Importants de La France 2023
2 pages
08 Revetement Parking
Pas encore d'évaluation
08 Revetement Parking
1 page