Introduction à Apache Spark

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

97 vues20 pages

Introduction à Apache Spark

Transféré par

Amyne Samet

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Apache Spark

Introduction Générale
Historique
Historique
• Apache Spark a été créé en 2009
• laboratoire UC Berkeley R&D Lab (appelé maintenant AMPLab)
• Devenu open-source en 2010.
• Il a intégré Apache Software Foundation en 2013
• Utilisé par Databriks pour trier des données massives faisant un
record en 2014
C’est quoi Spark?
• Plateforme open-source de traitement de données
• Assurer un traitement parallèle et distribué des données massives
• Réalise des traitement par lot (batch) ou à la volée (streaming)
• Permet d’intégrer tous les outils et technologies Big Data
• Hadoop, yarn, …
• Offre un traitement itératif et interactif
• Offre des API de haut niveau en Java, Scala, Python et R
• SQL, machine learning, …
Hadoop vs Spark

Traitement des données très lent Spark est 100 fois plus rapide que MR (In memory)

Traitement en lot seulement Traitement en lot et en streaming (temps réel)

Hadoop est écrit en Java: prend plus de temps Spark est écrit en Scala: beaucoup moins de lignes
d’exécution de code

Hadoop supporte l'authentification kerberos Spark prend en charge l'authentification par le

qui est difficile à gérer. biais d'un secret partagé.
Hadoop vs Spark
Composants de Spark
Composants de Spark
• Spark Core:
• Spark Core est le moteur d'exécu_on sous-jacent de la plateforme Spark, sur
lequel reposent toutes les autres fonc_onnalités.

• Il apporte des capacités de calcul en mémoire pour plus de rapidité

• Il apporte aussi un modèle d'exécu_on généralisé capable de prendre en

charge une vaste gamme d'applica_ons

• Con_ent des API Python, Scala et java pour un développement facilité.

Composants de Spark
• Spark SQL:
• Spark SQL permet d'exécuter des requêtes en langages SQL pour charger et
transformer des données.
• Spark Streaming:
• Spark Streaming offre à son u_lisateur un traitement des données en flux.
• MLlib:
• Bibliothèque de programmes de machine learning (appren_ssage automa_que)
adaptés à des données distribuées
• Graph X:
• C’est un moteur de calculs de graphes conçu sur la base de Spark. Il permet aux
u_lisateurs de concevoir, transformer et raisonner sur des données structurées en
graphes, de manière interac_ve et à toute échelle.
Composants de Spark
• Gestionnaire de ressources
• Permet l’interaction avec le système de fichier
• Attribuer les jobs spark aux différentes machines (nœuds)
• Standalone scheduler: propre à spark qui peut fonctionner sur un
système de fichier classique
• Yarn: gestionnaire de ressources de Hadoop
• Mesos: gestionnaire open source développé par l’université de
Berkeley
Architecture système de Spark
• Architecture maître/esclave
• Un master et plusieurs workers
• Processus Driver Program
• Coordonner et gérer l’ensemble des
applications spark
• Utilise spark context pour se
connecter au gestionnaire du cluster
• Chaque noeud (worker) contient
un à plusieurs Executors (un par
application)
• Chaque exécuteur peut contenir
plusieurs tasks (tâches)
Architecture système de Spark
• Le driver est essen_el pour l’applica_on
• Il exécute la fonc_on main() et est responsable de 3 choses :
• conserver les informa_ons rela_ves à l’applica_on
• répondre aux saisies u_lisateur ou aux demandes de programmes externes
• analyser, distribuer et ordonnancer les taches
• Un executor n’est responsable que de 2 choses : exécuter le code qui
lui est assigné par le driver et lui rapporter l’état d’avancement de la
tâche.
Architecture système de Spark
• Le driver est accessible programma_quement par un point d’entrée
appelé SparkSession (version 2.) , que l’on trouve derrière une
variable spark.
• Spark Session comprend également toutes les APIs disponibles dans
différents contextes :
• Spark Context,
• SQL Context,
• Streaming Context,
• Hive Context.
Architecture système de Spark

• master(): gestionnaire de ressources:

• sur cluster: Yarn ou Mesos
• Local[x] en mode standalone, x : nombre de cores CPU
• appName(): nom de l’application
• getOrCreate(): retourne un objet SparkSession
Caractéristiques de Spark
• Performance de traitement
• la réduc_on du nombre de lectures écritures sur le disque, la valorisa_on du
traitement en mémoire et l'u_lisa_on des mémoires cache et RAM pour les données
intermédiaires.
• Dynamicité
• Il est facile de développer des applica_ons parallèles, grâce aux opérateurs haut
niveau fournis par Spark (allant jusqu'à 80 opérateurs).
• Tolérance aux fautes
• Apache Spark fournit un mécanisme de tolérance aux fautes grâce aux RDD. Ces
structures en mémoire sont conçues pour récupérer les données en cas de panne.
• Traitement à la volée
• L'un des avantages de Spark par rapport à Hadoop Map Reduce, c'est qu'il permet de
traiter les données à la volée, pas uniquement en batch.
Caractéris<ques de Spark
• Evaluations paresseuses (Lazy Evaluations)
• On n'exécute effectivement les transformations qu'au moment de lancer une action sur
les données
• Support de plusieurs langages
• Plusieurs langages de programmation sont supportés par Spark, tel que Java, R, Scala et
Python.
• Une communauté active et en expansion
• Des développeurs de plus de 50 entreprises sont impliqués dans le développement et
l'amélioration de Spark.
• Support d’analyses sophistiquées
• Spark est fourni avec un ensemble d'outils dédiés pour le streaming, les requêtes
interactives, le machine learning, etc.
• Intégration avec Hadoop
• Spark peut s'exécuter indépendamment ou sur Hadoop YARN, et profiter ainsi de la
puissance du système de fichiers distribué Hadoop HDFS.
Limites de Spark
• Pas de support pour le traitement en temps réel
• Spark permet le traitement en temps-presque-réel, car il utilise le traitement
en micro-lot plutôt que le traitement en streaming.
• Problèmes avec les fichiers de petite taille
• Spark partitionne le traitement sur plusieurs exécuteurs, et est optimisé
principalement pour les grands volumes de données.
• L'utiliser pour des fichiers de petite taille va rajouter un coût supplémentaire.
• Il est plus judicieux dans ce cas d'utiliser un traitement séquentiel classique
sur une seule machine.
Limites de Spark
• Pas de système de gestion des fichiers
• Spark est principalement un système de traitement, et ne fournit pas de solution
pour le stockage des données. Il doit donc se baser sur d'autres systèmes de
stockage tel que Hadoop HDFS ou Amazon S3
• Couteux
• En tant que système de traitement en mémoire, le coût d'exécuter Spark sur un
cluster peut être très élevé en terme de consommation mémoire
• Nombre d’algorithmes limité
• Malgré la disponibilité de la bibliothèque MLlib, elle reste limitée en termes de
nombre d'algorithmes implémentés.
• Latence assez élevée
• La latence de Spark pour l'exécution de Jobs à la volée est plus élevée que d'autres
solutions de traitement en streaming tel que Flink.
Spark: Installation sous Ubuntu 20.04 LTS
• $ sudo apt update
• $ java –version
• $ sudo apt install default-jdk
• $ sudo apt install scala
• $ cd /opt
• $ wget hvps://archive.apache.org/dist/spark/spark-3.0.2/spark-3.0.2-
bin-hadoop2.7.tgz
• $ sudo tar –xvzf spark-3.0.2-bin-hadoop2.7.tgz
Spark: Installa<on sous Ubuntu 20.04 LTS
• $ sudo mv spark-3.0.2-bin-hadoop2.7 /opt/spark
• $ sudo cd /opt/spark
• $ export SPARK_HOME=/opt/spark
• $ export PATH=$PATH:SPARK_HOME/bin:/SPARK_HOME/sbin
• $ cd bin
• $ ./spark-shell

Vous aimerez peut-être aussi

Introduction à Apache Spark et ses Composants
Pas encore d'évaluation
Introduction à Apache Spark et ses Composants
14 pages
Lecture 3
Pas encore d'évaluation
Lecture 3
15 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
50 pages
P2 - Introduction À Apache Spark - Atelier Apache Spark
Pas encore d'évaluation
P2 - Introduction À Apache Spark - Atelier Apache Spark
7 pages
Chapitre 1 - Spark Overview
Pas encore d'évaluation
Chapitre 1 - Spark Overview
14 pages
Big Data Spark
Pas encore d'évaluation
Big Data Spark
3 pages
Spark Introduction
Pas encore d'évaluation
Spark Introduction
22 pages
Spark
Pas encore d'évaluation
Spark
54 pages
Chapitre IV Spark
Pas encore d'évaluation
Chapitre IV Spark
48 pages
Spark
Pas encore d'évaluation
Spark
24 pages
Introduction à Apache Spark et ses Avantages
Pas encore d'évaluation
Introduction à Apache Spark et ses Avantages
29 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
Chapitre 4 - Apache Spark
Pas encore d'évaluation
Chapitre 4 - Apache Spark
13 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
16 pages
Part1 Spark VF
Pas encore d'évaluation
Part1 Spark VF
90 pages
Data Chapitre 5 À Imprimer
Pas encore d'évaluation
Data Chapitre 5 À Imprimer
11 pages
Part3 Spark Ongoing
Pas encore d'évaluation
Part3 Spark Ongoing
27 pages
Ch2 (Part 1)
Pas encore d'évaluation
Ch2 (Part 1)
27 pages
Introduction à Apache Spark et ses APIs
Pas encore d'évaluation
Introduction à Apache Spark et ses APIs
56 pages
Chapitre 3 SPARK
Pas encore d'évaluation
Chapitre 3 SPARK
23 pages
Spark : Framework Big Data Rapide et Flexible
Pas encore d'évaluation
Spark : Framework Big Data Rapide et Flexible
138 pages
Apache Spark Interview Questions and
Pas encore d'évaluation
Apache Spark Interview Questions and
19 pages
Introduction à Apache Spark et RDDs
Pas encore d'évaluation
Introduction à Apache Spark et RDDs
17 pages
Support de Cours - Spark - Intro - Partie 1 Et 2
100% (1)
Support de Cours - Spark - Intro - Partie 1 Et 2
52 pages
Architecture de Spark en Détail
100% (1)
Architecture de Spark en Détail
31 pages
Chap 3
Pas encore d'évaluation
Chap 3
15 pages
Spark
Pas encore d'évaluation
Spark
28 pages
Hadoop Spark Additional Infos 1
Pas encore d'évaluation
Hadoop Spark Additional Infos 1
14 pages
Microsoft PowerPoint - Traitement - Big - Data-2023-2024 V1
Pas encore d'évaluation
Microsoft PowerPoint - Traitement - Big - Data-2023-2024 V1
9 pages
Introduction à Apache Spark et Cassandra
Pas encore d'évaluation
Introduction à Apache Spark et Cassandra
7 pages
Lab 03 - Installation Et Exécution de Spark Ver2
Pas encore d'évaluation
Lab 03 - Installation Et Exécution de Spark Ver2
15 pages
Introduction à Apache Spark et Hadoop
Pas encore d'évaluation
Introduction à Apache Spark et Hadoop
53 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
112 pages
Introduction à Hadoop et Apache Spark
Pas encore d'évaluation
Introduction à Hadoop et Apache Spark
61 pages
BigData FR P1
Pas encore d'évaluation
BigData FR P1
9 pages
Introduction à PySpark pour le Big Data
Pas encore d'évaluation
Introduction à PySpark pour le Big Data
2 pages
Tutoriel MLlib Spark avec PySpark
Pas encore d'évaluation
Tutoriel MLlib Spark avec PySpark
7 pages
Ch3 BigData2024 Spark All
Pas encore d'évaluation
Ch3 BigData2024 Spark All
115 pages
Généralité Big Data
Pas encore d'évaluation
Généralité Big Data
6 pages
Spark vs MapReduce : Avantages et Limites
Pas encore d'évaluation
Spark vs MapReduce : Avantages et Limites
3 pages
PF Course10
Pas encore d'évaluation
PF Course10
35 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
Lecture - Notes - Intro - BI - Chap4 - Apache Spark Versus Apache Hadoop
Pas encore d'évaluation
Lecture - Notes - Intro - BI - Chap4 - Apache Spark Versus Apache Hadoop
9 pages
Scala
Pas encore d'évaluation
Scala
33 pages
Spark SQL: Architecture et Fonctionnalités
Pas encore d'évaluation
Spark SQL: Architecture et Fonctionnalités
42 pages
Lecture
Pas encore d'évaluation
Lecture
1 page
TP2 Spark Amini Bekkar Compressed
Pas encore d'évaluation
TP2 Spark Amini Bekkar Compressed
15 pages
Cours1 2 Bigdata 1
Pas encore d'évaluation
Cours1 2 Bigdata 1
93 pages
Spark et Critique de MapReduce
Pas encore d'évaluation
Spark et Critique de MapReduce
14 pages
4A-Outils de Traitement Du Big Data
Pas encore d'évaluation
4A-Outils de Traitement Du Big Data
100 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
16 pages
ch3 Bigdata2020 Spark - Part1 4p
Pas encore d'évaluation
ch3 Bigdata2020 Spark - Part1 4p
12 pages
TP 2
Pas encore d'évaluation
TP 2
22 pages
Apache Spark
Pas encore d'évaluation
Apache Spark
3 pages
IoT Big Data Analytics Session1
Pas encore d'évaluation
IoT Big Data Analytics Session1
19 pages
PySpark: Guide Essentiel pour Débutants
Pas encore d'évaluation
PySpark: Guide Essentiel pour Débutants
20 pages
Introduction à Spark pour Data Scientists
Pas encore d'évaluation
Introduction à Spark pour Data Scientists
19 pages
TP1 3
Pas encore d'évaluation
TP1 3
2 pages
OLED Écran Pour Iphone X Yodoit
Pas encore d'évaluation
OLED Écran Pour Iphone X Yodoit
1 page
Systèmes d'Exploitation II
Pas encore d'évaluation
Systèmes d'Exploitation II
26 pages
Rapport Du Mini-Projet: Remerciement
100% (1)
Rapport Du Mini-Projet: Remerciement
33 pages
Examen de Qualité en Environnement 2020 - 2021
Pas encore d'évaluation
Examen de Qualité en Environnement 2020 - 2021
2 pages
Système Détection Feu et Gaz
Pas encore d'évaluation
Système Détection Feu et Gaz
25 pages
CV December2016
Pas encore d'évaluation
CV December2016
4 pages
Introduction à Arduino pour Débutants
Pas encore d'évaluation
Introduction à Arduino pour Débutants
7 pages
Introduction au Hacking Éthique CEHv11
Pas encore d'évaluation
Introduction au Hacking Éthique CEHv11
27 pages
Qu'est-Ce Un Hash-Un Bloc Et Une Blockchain
Pas encore d'évaluation
Qu'est-Ce Un Hash-Un Bloc Et Une Blockchain
4 pages
Série 2RSF. RM
Pas encore d'évaluation
Série 2RSF. RM
2 pages
Résultats de l'évaluation 6ème 2025
Pas encore d'évaluation
Résultats de l'évaluation 6ème 2025
2 pages
Epreuve D'informatique Evaluation 1 1èrea4 2024-2025
100% (1)
Epreuve D'informatique Evaluation 1 1èrea4 2024-2025
2 pages
Cahier D'exercice - Programmation Manuelle D'un To - 250519 - 172601
Pas encore d'évaluation
Cahier D'exercice - Programmation Manuelle D'un To - 250519 - 172601
46 pages
Uimm Fiche2 Metrologie-Dimensionnelle
Pas encore d'évaluation
Uimm Fiche2 Metrologie-Dimensionnelle
2 pages
Guide Et Outils Complets Pour Le Diagramme de Conception de Base de Données
Pas encore d'évaluation
Guide Et Outils Complets Pour Le Diagramme de Conception de Base de Données
15 pages
Nice WA20 Notice
Pas encore d'évaluation
Nice WA20 Notice
30 pages
Smart Metering
100% (1)
Smart Metering
44 pages
XC60 Owners Manual MY10 FC Tp10989
Pas encore d'évaluation
XC60 Owners Manual MY10 FC Tp10989
322 pages
DAVIDO ILUNGA: La Fonction Comptable Face Aux Nouvelles Technologies, L'avenir Ou La Fin Du Comptable ?
100% (1)
DAVIDO ILUNGA: La Fonction Comptable Face Aux Nouvelles Technologies, L'avenir Ou La Fin Du Comptable ?
65 pages
Ingénieur Électrique Cherche CDI
Pas encore d'évaluation
Ingénieur Électrique Cherche CDI
1 page
Optimisation de la QoS Mobile
Pas encore d'évaluation
Optimisation de la QoS Mobile
261 pages
Juste-à-Temps et VSM en Logistique
Pas encore d'évaluation
Juste-à-Temps et VSM en Logistique
84 pages
Liste de Référence Rapide Des Codes de Service
Pas encore d'évaluation
Liste de Référence Rapide Des Codes de Service
3 pages
Corrige Sujet 0 No2 BAC PRO TRANSPORT 2 PDF
Pas encore d'évaluation
Corrige Sujet 0 No2 BAC PRO TRANSPORT 2 PDF
12 pages
Alarme Maison: Fonctionnement et Révision DNB
Pas encore d'évaluation
Alarme Maison: Fonctionnement et Révision DNB
2 pages
Révision PGI et Systèmes d'Information
Pas encore d'évaluation
Révision PGI et Systèmes d'Information
8 pages
Expert en Électronique et Réseaux avec Compétences Solaires
Pas encore d'évaluation
Expert en Électronique et Réseaux avec Compétences Solaires
1 page
Porte Automatique
Pas encore d'évaluation
Porte Automatique
25 pages
Projet de Coiffure Revolutionner Votre Style
Pas encore d'évaluation
Projet de Coiffure Revolutionner Votre Style
8 pages