Spark ML
Réalisé par :
Sadok guermazi
Amina Boukhdhir
Planning
Spark Apache
Machine Learning
Spark MlLib
Cas d’utilisation
Les algorithmes utilisé avec Spark
ml
ML
ib
03
Apache Spark est un framework open-source de traitement de
données distribué conçu pour le traitement rapide et l'analyse de
grandes quantités de données en mémoire. Il prend en charge
divers langages de programmation et offre des bibliothèques pour
le traitement de données, le machine learning et le streaming en
temps réel.
Architecture Spark Apache
Machine learning
Le machine learning est un domaine de l'intelligence artificielle qui
permet aux model d'apprendre à partir de données et de
s'améliorer automatiquement sans être explicitement programmés.
Il utilise des algorithmes pour identifier des modèles et faire des
prédictions ou des décisions basées sur des données.
Apprentissage supervisé
Les modèles sont entraînés sur des données étiquetées, où
l'algorithme apprend à partir des entrées et des sorties
correspondantes pour faire des prédictions sur de nouvelles
données.
Apprentissage non supervisé
Les modèles cherchent des motifs ou des structures cachées dans
des données non étiquetées, souvent utilisé pour le clustering et la
réduction de dimensionnalité.
Apprentissage par renforcement
Les modèles apprennent à prendre des décisions en interagissant
avec un environnement et en recevant des récompenses ou des
pénalités en fonction de leurs actions pour maximiser un objectif
global.
Spark MLIB
Qu'est-ce que Spark MLlib ?
Une bibliothèque de machine learning distribuée
incluse dans Apache Spark, conçue pour traiter de
grands volumes de données de manière scalable
et parallèle.
Cas d'utilisation de Spark ML
•Analyse de données : exploration et
traitement de grandes quantités de
données.
•Prévision de tendances : prédictions sur
des séries temporelles.
•Recommandation de produits : système
de recommandation personnalisé.
•Analyse d'images (CNN) : classification
d'images en utilisant des réseaux de
neurones convolutifs.
Les algorithmes disponibles dans
Spark ML
Classification
algorithmes pour prédire des catégories (ex. régression logistique, SVM).
Régression
pour prédire des valeurs continues (ex.
régression linéaire, régression
décisionnelle).
Clustering
pour grouper les données (ex. K-means,
DBSCAN).
Régression logistique et arbres de décision
utilisation dans des cas pratiques
CNN (Convolutional Neural
Network)
Un réseau de neurones
convolutifs (CNN) est un modèle
d'apprentissage profond conçu
pour traiter des données
structurées en grille, comme
des images, en utilisant des
couches de convolution pour
extraire automatiquement des
caractéristiques pertinentes
Un CNN fonctionne en prenant une image et en la faisant
passer par plusieurs couches qui agissent comme des filtres.
Ces couches repèrent des motifs simples comme des bords ou
Comment fonctionnent les des couleurs dans les premières étapes, puis des motifs plus
réseaux de neurones convolutifs complexes comme des formes ou des objets à mesure que
? l'image avance dans le réseau. À la fin, le CNN utilise ces
informations pour reconnaître ce qui se trouve sur l'image, par
exemple, si c'est un chat ou un chien
partie Pratique
Conclusion
•Spark ML utilise l'architecture distribuée de Spark pour traiter
efficacement des tâches de machine learning à grande échelle.
•C’est un outil populaire pour les projets Big Data grâce à sa capacité
à traiter des données rapidement et de manière parallèle.
Merci pour
votre attention