Big Data Spark

Apache Spark est une plateforme open-source pour le traitement distribué des données en mémoire, offrant rapidité, tolérance aux pannes et support multi-langages. Son écosystème comprend des bibliothèques pour le traitement en temps réel, SQL, machine learning et analyse de graphes, et il est utilisé par des data scientists, data engineers et analystes. Spark fonctionne sur une architecture maître-esclave, nécessitant une gestion adéquate des ressources et une surveillance pour optimiser les performances.

Transféré par

aydi eya

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

19 vues3 pages

Big Data Spark

Transféré par

aydi eya

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Apache Spark

Spark : Plateforme Open-Source conçu pour le traitement distribué des données en mémoire.
Avantages : Rapidité par rapport à Hadoop Map Reduce, Traitement des opérations en mémoire,
Support multi-langages (API pour : Java, Python, R, Scala), Tolérance aux pannes, Simple à utiliser.

Écosystème Spark :
Mode d’exécution (Context) : Runs on Hadoop clusters (YARN) or on apache Mesos or as Stand-alone.
 Spark Core : Gestion des RDD et exécution des applications (batch processing, map reduce).
Les bibliothèques de Spark :
 Streaming : Traitement en temps réel des flux de données. (exp : les transactions financières)
 DStreams : Séquence de RDD pour traiter des données en lots (on regroupe les données).
 Mécanisme de traitement : Données reçues, divisées en lots, résultats générés en continu.
 Fenêtres glissantes : Compatible avec les besoins, Micro-batch processing : Calculs par fenêtre
basés sur la taille de fenêtre et l'intervalle de glissement.
 Sources de données : Kafka, Flume, HDFS, Kinesis, Twitter.
 Destinations des résultats : HDFS, bases de données, tableaux de bord.
 Spark SQL : requêtes SQL pour manipuler des données structurées sur des datasets massifs.
 Langage supportés : SQL (BDD Relationnelles), Hive QL (requêtes simples limités), Scala (fonctions SQL)
 Schéma RDD : RDD existants, Fichiers Parquet, JSON dataset, requêtes Hive QL
 MLlib : Fournit des algorithmes de Machine Learning. (exp : clustering K-means, régression linéaire…)
 GraphX : Analyse de graphes complexes pour des modèles. (exp : les réseaux sociaux ou logistiques)
Qui utilise Spark ?
 Professions concernées :
 Data Scientists : Pour créer et exécuter des modèles de Machine Learning et Statistiques.
 Data Engineers : Pour construire des pipelines de données robustes.
 Analystes : Pour explorer les données et découvrir des tendances.
 Tout le monde : Les grandes entreprises, les startups, et les utilisateurs individuels.
Apache Spark modes :
1) Mode interactive (prompt) : le Context est initialisé automatiquement. (l’environnement de travail)
 Scala : (Spark shell) scala> Langage natif de Spark, s’exécute sur Java Virtual Machine (JVM), optimisé
pour la performance, avec la propriété tout est un objet. (les nombres, les fonctions..)
 Lancer le Scala shell : ./bin/spark-shell
 La prompt (le terminal) : scala>
 Lire un fichier texte : val textFile = sc.textFile ("README.md")
 Python : (Pyspark ) >>> Simple et idéal pour le Machine Learning, à l’intégration d’applications.
 Lancer le Scala shell : ./bin/pyspark
 La prompt (le terminal) : >>>
 Lire un fichier texte : textFile = sc.textFile ("README.md")

(Ctrl+D : quitter le shell)

Pour accéder à un cluster HDFS, on doit ajouter une dépendance au hadoop-client pour notre version de HDFS.
2) Mode développement / programmation (code) : Il faut initialiser le Context :
importer les bibliothèques > initialiser la configuration > initialiser le context (voir diapo 207-213) (diapo 217)
 R : Spécialisé dans l’analyse statistique et les visualisations complexes.
 Java : Fournit une solution robuste pour des applications d'entreprise, initialiser context avec Maven
 Scala : Configuration, créer/initialiser context avec Maven.
 Python : Langage interprété : initialiser context sans Maven. *Maven : fichier qui contient
les dépendances (libraries)
Fonction Lambda : une fonction anonyme utilisée une seule fois pour simplifier les opérations sur les RDD.
( exp : map, filter ou reduce) (rdd.map(lambda x: x * 2)
Les différentes façons pour déclarer Lambda (somme) :
 A , B => A + B exp : rdd.reduce( (A, B) => A + B
 -1 , 2 => -1 + 2 exp : rdd.reduce( -1 + 2 )
 _+_ exp : rdd.reduce( _ + _ )
 Lambda A , B : A + B exp : rdd.reduce(lambda A, B : A + B)
Composants clés de Spark :
 RDD (Resilient Distributed Dataset) : RDD est une structure de données clé dans Spark,
collection immuable d’éléments à exécuter en parallele, offrant tolérance aux pannes grâce au suivi
des transformations. (*tolérance aux pannes : lors d’une panne, on laisse une trace, on va réexécuter la
dernière opération et on va réévaluer (en action) les valeurs manquantes.)
 Directed Acyclic Graph (DAG) : Spark convertit les opérations des utilisateurs en un graphe orienté
acyclique (pas de retour à l’ancien) pour optimiser l’exécution des tâches.

Création des RDD : à partir d'un dataset existant, fonction parallelize ou transformation d'un RDD existant.
RDD Opérations ( voir diapo 190-199) :
 Transformation : Créer un nouvel RDD sans exécuter immédiatement les calculs (lazy evaluation),
retourne un pointeur vers un élément RDD.
exp : map( func ) , filter( func ) , reduceByKey( func ) agrégation, join() jointure, flatMap().
 Action : Déclencher les calculs et renvoyer un résultat. retourne un élément .
exp : count(), collect(), take().
 Persistance : Garder les RDD dans la mémoire RAM pour la réutilisation / pour éviter le recalcul.
exp : Memory-Only() fastest, Memory-and-Disk(), Memory-Only-Ser() serialisation, Disk-Only()…

Les variables partagées (voir diapo 204) :

 Read-Only : Variables immuables partagées, à ne pas modifier par tous les Workers
comme les Broadcast variables avec les algorithmes Broadcast.
 Read-Write : Variables modifiables partagées entre les différents Workers, de type numérique
(somme, compteur) comme les Accumulators. read only by the driver en lecture finale,
pas de lecture en cours de l’exécution.

Fonctionnement pratique (voir diapo 204-218) :

1) Création du contexte Spark : Point d’entrée pour Spark (exp : SparkSession).
2) Chargement des données : Depuis des sources comme HDFS ou bases de données SQL.
3) Application des transformations et actions : map(), count()...
4) Exécution sur le cluster : Les tâches sont distribuées et exécutées parallèlement.
Architecture de Spark : Spark utilise une architecture distribuée maître-esclave avec :
 Driver : Gère le contexte, alloue les ressources et coordonne les tâches.
 Clusters Manager : Gère l’ensemble des Workers.
 Workers (Executors) : Exécutent les tâches et stockent les données sur les nœuds de travail.

Apache Spark monitoring : Il existe 3 façons pour le monitoring (visualisation/surveillance) :

 Web User Interface : Accéder à l'état des applications Spark en temps réel via un navigateur web.
 Metrics : Basé sur Coda Hale Metrics Library, rapport vers des systèmes (HTTP, JMX, CSV) pour l’analyse.
 Instruments Externes : Surveiller la performance du système (OS) et de la machine virtuelle Java (JVM).

Limites et défis de Spark :

 Gestion mémoire : Utilisation excessive de la mémoire RAM.
 Courbe d’apprentissage : Nécessite une connaissance des concepts distribués et du big data.
 Coût infrastructurel : Nécessite des clusters performants pour maximiser les avantages.

Vous aimerez peut-être aussi

Data Chapitre 5 À Imprimer
Pas encore d'évaluation
Data Chapitre 5 À Imprimer
11 pages
Spark Introduction
Pas encore d'évaluation
Spark Introduction
22 pages
Chapitre IV Spark
Pas encore d'évaluation
Chapitre IV Spark
48 pages
Introduction à Apache Spark et ses Avantages
Pas encore d'évaluation
Introduction à Apache Spark et ses Avantages
29 pages
Spark : Framework Big Data Rapide et Flexible
Pas encore d'évaluation
Spark : Framework Big Data Rapide et Flexible
138 pages
Chapitre 4 - Apache Spark
Pas encore d'évaluation
Chapitre 4 - Apache Spark
13 pages
Spark
Pas encore d'évaluation
Spark
24 pages
Spark
Pas encore d'évaluation
Spark
54 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
20 pages
Chapitre 1 - Spark Overview
Pas encore d'évaluation
Chapitre 1 - Spark Overview
14 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
4 pages
Lecture 3
Pas encore d'évaluation
Lecture 3
15 pages
Ch2 (Part 1)
Pas encore d'évaluation
Ch2 (Part 1)
27 pages
Introduction à Apache Spark et ses APIs
Pas encore d'évaluation
Introduction à Apache Spark et ses APIs
56 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
50 pages
Introduction à Apache Spark et Hadoop
Pas encore d'évaluation
Introduction à Apache Spark et Hadoop
53 pages
Spark : Analyse Big Data et RDD
Pas encore d'évaluation
Spark : Analyse Big Data et RDD
42 pages
P2 - Introduction À Apache Spark - Atelier Apache Spark
Pas encore d'évaluation
P2 - Introduction À Apache Spark - Atelier Apache Spark
7 pages
Architecture de Spark en Détail
100% (1)
Architecture de Spark en Détail
31 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
16 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
Introduction à Apache Spark et ses Composants
Pas encore d'évaluation
Introduction à Apache Spark et ses Composants
14 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
Introduction à Apache Spark
Pas encore d'évaluation
Introduction à Apache Spark
16 pages
Introduction à Apache Spark et RDDs
Pas encore d'évaluation
Introduction à Apache Spark et RDDs
17 pages
Introduction à Apache Spark et Cassandra
Pas encore d'évaluation
Introduction à Apache Spark et Cassandra
7 pages
Spark
Pas encore d'évaluation
Spark
28 pages
Spark vs MapReduce : Avantages et Limites
Pas encore d'évaluation
Spark vs MapReduce : Avantages et Limites
3 pages
Résumé
Pas encore d'évaluation
Résumé
9 pages
Tutoriel MLlib Spark avec PySpark
Pas encore d'évaluation
Tutoriel MLlib Spark avec PySpark
7 pages
Microsoft PowerPoint - Traitement - Big - Data-2023-2024 V1
Pas encore d'évaluation
Microsoft PowerPoint - Traitement - Big - Data-2023-2024 V1
9 pages
Scala
Pas encore d'évaluation
Scala
33 pages
Part3 Spark Ongoing
Pas encore d'évaluation
Part3 Spark Ongoing
27 pages
Apache Spark Interview Questions and
Pas encore d'évaluation
Apache Spark Interview Questions and
19 pages
Part1 Spark VF
Pas encore d'évaluation
Part1 Spark VF
90 pages
BIG DATA Resumé
Pas encore d'évaluation
BIG DATA Resumé
6 pages
Spark et Critique de MapReduce
Pas encore d'évaluation
Spark et Critique de MapReduce
14 pages
Introduction à Hadoop et Apache Spark
Pas encore d'évaluation
Introduction à Hadoop et Apache Spark
61 pages
Support de Cours - Spark - Intro - Partie 1 Et 2
100% (2)
Support de Cours - Spark - Intro - Partie 1 Et 2
52 pages
Introduction à Apache Spark et ses avantages
Pas encore d'évaluation
Introduction à Apache Spark et ses avantages
15 pages
Cours - Spark - Partie 3 Et 4
Pas encore d'évaluation
Cours - Spark - Partie 3 Et 4
46 pages
Spark
Pas encore d'évaluation
Spark
22 pages
Apache Spark
Pas encore d'évaluation
Apache Spark
3 pages
Introduction à Apache Spark et Big Data
Pas encore d'évaluation
Introduction à Apache Spark et Big Data
112 pages
Spark : RDD et Transformations Optimisées
Pas encore d'évaluation
Spark : RDD et Transformations Optimisées
11 pages
BigData FR P1
Pas encore d'évaluation
BigData FR P1
9 pages
Introduction à PySpark pour le Big Data
Pas encore d'évaluation
Introduction à PySpark pour le Big Data
2 pages
Introduction à MapReduce et Spark
Pas encore d'évaluation
Introduction à MapReduce et Spark
6 pages
Chapitre 3 SPARK
Pas encore d'évaluation
Chapitre 3 SPARK
23 pages
Introduction à Hadoop et Spark
Pas encore d'évaluation
Introduction à Hadoop et Spark
93 pages
Concepts et Modes de Spark
Pas encore d'évaluation
Concepts et Modes de Spark
3 pages
Traitement des données massives avec Spark
Pas encore d'évaluation
Traitement des données massives avec Spark
115 pages
Hadoop Spark Additional Infos 1
Pas encore d'évaluation
Hadoop Spark Additional Infos 1
14 pages
TP2 Spark Amini Bekkar Compressed
Pas encore d'évaluation
TP2 Spark Amini Bekkar Compressed
15 pages
Introduction à Apache Spark et RDD
Pas encore d'évaluation
Introduction à Apache Spark et RDD
63 pages
TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
Introduction à l'Architecture Big Data
100% (1)
Introduction à l'Architecture Big Data
9 pages
Spark SQL: Architecture et Fonctionnalités
Pas encore d'évaluation
Spark SQL: Architecture et Fonctionnalités
42 pages
Examen Audit Et Sécurité M2
Pas encore d'évaluation
Examen Audit Et Sécurité M2
2 pages
Cours Informatique 1ere Humanites Complet Android
100% (1)
Cours Informatique 1ere Humanites Complet Android
2 pages
Stockage Cloud : Disques et Architecture
Pas encore d'évaluation
Stockage Cloud : Disques et Architecture
34 pages
EXPOSE - JAva 1
Pas encore d'évaluation
EXPOSE - JAva 1
39 pages
Chargement des stations PC SIMATIC
Pas encore d'évaluation
Chargement des stations PC SIMATIC
1 page
Contrôle d'Informatique 1APIC - Lycée Tarik
Pas encore d'évaluation
Contrôle d'Informatique 1APIC - Lycée Tarik
1 page
P Roxy List
Pas encore d'évaluation
P Roxy List
2 pages
TP1-Gestion Des Processus
100% (1)
TP1-Gestion Des Processus
10 pages
C01-Programmation Concurrente PDF
Pas encore d'évaluation
C01-Programmation Concurrente PDF
40 pages
Atelier 1 - Echange RIP-OSPF
Pas encore d'évaluation
Atelier 1 - Echange RIP-OSPF
4 pages
Introduction à Java EE pour Développeurs
Pas encore d'évaluation
Introduction à Java EE pour Développeurs
13 pages
PowerShell Simplifié pour Ados
Pas encore d'évaluation
PowerShell Simplifié pour Ados
20 pages
Zebra Linux PDF
Pas encore d'évaluation
Zebra Linux PDF
17 pages
Chapitre 1 Et 2 de La Maintenance Info
Pas encore d'évaluation
Chapitre 1 Et 2 de La Maintenance Info
17 pages
Coll Mongo Beti TC-TD Info Seq3 2021-2022
Pas encore d'évaluation
Coll Mongo Beti TC-TD Info Seq3 2021-2022
3 pages
Merce
Pas encore d'évaluation
Merce
13 pages
Matrice d'activités et Gantt PCT UVCI
Pas encore d'évaluation
Matrice d'activités et Gantt PCT UVCI
2 pages
Les Étapes D'un Projet Web
Pas encore d'évaluation
Les Étapes D'un Projet Web
14 pages
Intro GL
Pas encore d'évaluation
Intro GL
4 pages
Définition de l'Internet des Objets
Pas encore d'évaluation
Définition de l'Internet des Objets
14 pages
Exercices Résolus de Bases de Données
Pas encore d'évaluation
Exercices Résolus de Bases de Données
56 pages
Modèle de portée pour projet informatique
Pas encore d'évaluation
Modèle de portée pour projet informatique
6 pages
Supervision Réseaux avec Nagios
Pas encore d'évaluation
Supervision Réseaux avec Nagios
15 pages
Sécurité Informatique : Enjeux et Risques
Pas encore d'évaluation
Sécurité Informatique : Enjeux et Risques
23 pages
Cahier de Charges Projet Gestion de Suivie de Stages
Pas encore d'évaluation
Cahier de Charges Projet Gestion de Suivie de Stages
11 pages
Glo 4003 - Projet de Départ
Pas encore d'évaluation
Glo 4003 - Projet de Départ
6 pages
Documentation Technique OpenVPN
Pas encore d'évaluation
Documentation Technique OpenVPN
17 pages
Programme de Cours et Crédits Scolaires
Pas encore d'évaluation
Programme de Cours et Crédits Scolaires
5 pages
Pirater Facebook : Guide 2023
Pas encore d'évaluation
Pirater Facebook : Guide 2023
5 pages
Mise À Jour Du Logiciel Atal V5
Pas encore d'évaluation
Mise À Jour Du Logiciel Atal V5
13 pages