Data Mining
Semaine 2
PANORAMA DES MÉTHODES DE
DATA MINING
Mohamed Lassoued
Sep 2024 1
Panorama des Méthodes de
Data Mining
Classification des méthodes et
introduction aux algorithmes clés
2
Introduction
Classification des méthodes de Data Mining
Présentation générale des algorithmes clés
Focus sur la régression linéaire
Travaux Dirigés (TD)
Conclusion
3
Panorama des méthodes de Data Mining
Les méthodes de DM se répartissent en deux grandes familles:
Data Mining
Méthodes Méthodes
descriptives prédictives
• Méthodes descriptives: Explorer les données pour découvrir des motifs, des
structures ou des relations cachées
• Méthodes prédictives: Prédire des valeurs ou des catégories pour de nouvelles
observations..
4
Méthodes Descriptives
Objectif : Décrire, résumer et interpréter les caractéristiques principales
des données.
Approche : Explorer les données pour découvrir des motifs, des structures
ou des relations cachées.
Exemples :
Clustering (Regroupement)
Analyse en Composantes Principales (ACP)
Règles d'Association
Utilisation : Compréhension des données, segmentation, détection
d'anomalies.
5
Méthodes Prédictives :
Objectif : Prédire des valeurs ou des catégories pour de nouvelles
observations.
Approche : Construire des modèles à partir de données historiques
étiquetées pour effectuer des prédictions sur des données futures.
Exemples :
Classification
Régression
Séries Temporelles
Utilisation : Prévision, aide à la décision, estimation de risques.
6
Relation entre Méthodes Descriptives et
Apprentissage Non Supervisé
Apprentissage Non Supervisé :
Définition : Méthodologie où l'algorithme apprend des structures
inhérentes aux données sans utiliser de labels ou de cibles prédéfinies.
o Lien avec les Méthodes Descriptives :
Les méthodes descriptives sont souvent basées sur
l'apprentissage non supervisé.
Objectif commun de découvrir des motifs cachés et de
comprendre la structure des données.
o Exemples d'Algorithmes :
K-means (Clustering)
Algorithmes de Clustering Hiérarchique
Algorithme Apriori (Règles d'Association)
7
Relation entre Méthodes Prédictives et Apprentissage
Supervisé
Apprentissage Supervisé :
oDéfinition : Méthodologie où l'algorithme apprend à partir de données
étiquetées, c'est-à-dire avec des entrées (features) et des sorties (labels).
o Lien avec les Méthodes Prédictives :
Les méthodes prédictives reposent sur l'apprentissage supervisé
pour construire des modèles capables de faire des prédictions sur
de nouvelles données.
o Exemples d'Algorithmes :
Régression Linéaire
Arbres de Décision
k-plus Proches Voisins (k-NN)
Machines à Vecteurs de Support (SVM)
8
Apprentissage Supervisé
Apprentissage :
Supervisé • Modèles entraînés avec des
Vs données étiquetées
• Objectif : Prédire des étiquettes
Non Supervisé ou valeurs pour de nouvelles
données
Apprentissage Non
Supervisé :
• Modèles entraînés avec des
données non étiquetées
• Objectif : Découvrir des structures
cachées ou des patterns dans les
données
9
Panorama des méthodes de Data Mining
Chacune des familles des méthodes regroupe des techniques
clustering classification
méthodes méthodes supervisée
descriptives prédictives prédire
Y quali.
analyse
factorielle
ACP, AFC, régression
ACM prédire
Y quanti.
détections
de liens
recherche
d’associations
10 / 79
Méthodes de Classification
• Attribuer une catégorie à une observation
• Exemples d'applications :
Classification • Détection de spam
• Diagnostic médical
• Arbres de décision
Algorithmes • k-plus proches voisins (k-NN)
courants • Machines à vecteurs de support (SVM)
11
Méthodes de Régression
Régression :
• Prédire une valeur numérique continue
• Exemples d'applications :
• Prévision des ventes
• Estimation des coûts
Algorithmes courants :
• Régression linéaire
• Régression polynomiale
• Régression logistique (pour classification binaire)
12
Classification
La classification de données est une des tâches centrales du Data
Mining.
Elle consiste à placer chaque individu d’une population donnée dans un
groupement homogène en fonction de ses caractéristiques, permettant
ainsi de réduire la taille de l'ensemble de données en regroupant ceux
qui se ressemblent.
Le résultat de la classification est un algorithme permettant
d’affecter chaque individu au meilleur groupement.
Deux types de classification:
Classification supervisée Classification non supervisée
(clustering)
13
Classification supervisée
L'approche supervisée intervient quand les groupes sont définis au
préalable, et le problème est de créer un modèle permettant d'assigner
tout nouveau objet à ces groupes.
Dans ce cas, la tâche est appelée classification supervisée et les
groupes sont appelés classes et possèdent une étiquette qui correspond
au nom de la classe.
On utilise donc un ensemble d'exemples classés pour prédire la
classe de toute nouvelle donnée ; c'est une tâche d'« apprentissage à
partir d'exemples », ou « apprentissage supervisé »
Le résultat de l’apprentissage est un algorithme (appelé classifieur)
qui, à partir d'un ensemble d'exemples, produit une prédiction de la
meilleure classe de toute donnée.
14
Classification supervisée
Formellement: On dispose d'un ensemble X de N données étiquetées
(les observations)
15
Classification supervisée
La figure suivante illustre un exemple de jeu de données décrit par deux
attributs et regroupé en trois classes visuellement identifiables.
16
Classification supervisée
Exemples de classification supervisée
Prédire si un client sera un client qui rembourse son prêt avec succès (classe
OUI) ou un client qui aura des difficultés de remboursement (classe NON) ,
Prédire si un client potentiel va acheter le produit qu’on lui propose,
Prédire la probabilité qu’un patient soit atteint d’une certaine maladie...
17
Classification supervisée
Exemples de classification supervisée
Prédire si un client sera un client qui rembourse son prêt avec succès
(classe OUI) ou un client qui aura des difficultés de remboursement (classe
NON) ,
Prédire si un client potentiel va acheter le produit qu’on lui propose,
Prédire la probabilité qu’un patient soit atteint d’une certaine maladie...
Détection des anomalies sur une chaîne de production
• Classes : Produit conforme, Produit non conforme
• Attributs : Dimensions du produit, poids, couleur, texture, taux de défauts visuels,
température de production.
Prévision des pannes de machines
• Classes : Machine en bon état, Machine défaillante
• Attributs : Température de fonctionnement, vibrations, nombre d'heures d'opération, nombre
de cycles de production, niveau d'usure des composants
18
Classification des pièces détachées
• Classes : Pièce conforme, Pièce non conforme
• Attributs : Dimensions précises, tolérance, matière utilisée, finition de
surface, tests de résistance.
Optimisation de la logistique
• Classes : Livraison à temps, Livraison en retard
• Attributs : Distance de livraison, volume du chargement, météo, état
des routes, nombre de points de livraison.
Prévision de la demande en matériaux
• Classes : Faible demande, Moyenne demande, Forte demande
• Attributs : Historique de consommation des matériaux, taux de
production, périodes de maintenance, tendance du marché, stocks
disponibles.
19
Plusieurs techniques de classification
Arbres de décision:
Un arbre de décision segmente les données en fonction de critères
successifs, à chaque nœud, pour aboutir à des feuilles représentant les
classes cibles.
K plus proches voisins,
Le k-NN classe une nouvelle donnée en fonction des classes majoritaires de
ses k voisins les plus proches dans l'espace des attributs
Machines à vecteurs de support (SVM),
Les SVM tracent une hyperplane optimale qui sépare les différentes classes
avec la plus grande marge possible dans un espace multi-dimensionnel
Régression Logistique,
La régression logistique estime la probabilité d'appartenance d'une donnée à
une classe en utilisant une fonction logistique pour modéliser la relation entre
les attributs et les classes cibles
Réseaux de neurones
Un réseau de neurones artificiels utilise des couches d'unités (neurones)
connectées pour apprendre des représentations complexes et classifier les
données en ajustant les poids des connexions
20
etc.
Méthodes de Régression
Régression :
Prédire une valeur numérique continue
Exemples d'applications :
Prévision des ventes
Estimation des coûts
Algorithmes courants :
Régression linéaire
Régression polynomiale
Régression logistique (pour classification binaire)
21
Méthodes de Clustering
Clustering :
Regrouper des données similaires sans étiquettes
préalables
Exemples d'applications :
Segmentation de clientèle
Détection d'anomalies
Algorithmes courants :
K-means
Clustering hiérarchique
DBSCAN
22
Règles d'Association
Règles d'Association :
Découvrir des relations intéressantes entre les
variables
Exemples d'applications :
Analyse du panier d'achat en grande distribution
Recommandation de produits
Algorithmes courants :
Apriori
FP-Growth
23
PRÉSENTATION GÉNÉRALE DES ALGORITHMES CLÉS
24
k-plus Proches Voisins (k-NN)
Principe :
Un nouvel échantillon est classé en fonction des
classes majoritaires de ses k voisins les plus
proches
Caractéristiques :
Simple à implémenter
Sensible à la dimensionnalité des données
Applications :
Reconnaissance de formes
Classification d'images
25
Arbres de Décision
Principe :
Modèle arborescent où chaque nœud représente
un test sur un attribut
Avantages :
Interprétabilité facile
Gestion des données numériques et catégorielles
Applications :
Diagnostic médical
Analyse de risque
26
K-means Clustering
Principe :
Partitionne les données en k clusters en
minimisant la variance intra-cluster
Étapes :
Initialisation des centroids
Attribution des points aux clusters
Mise à jour des centroids
Applications :
Segmentation de marché
Compression d'images
27
FOCUS SUR UNE MÉTHODE SIMPLE : LA RÉGRESSION
LINÉAIRE
28
Introduction à la Régression Linéaire
Définition
Modèle qui établit une relation linéaire entre
une variable indépendante (X) et une variable
dépendante (Y)
Forme générale
Objectifs
Prédire la valeur de Y pour une valeur donnée de X
Comprendre l'influence de X sur Y
29
Concepts de Base
Coefficients :
β0 : Ordonnée à l'origine (intercepte)
β1 : Pente de la droite (coefficient directeur)
Erreur aléatoire (ε) :
Représente les variations inexpliquées par le modèle
Hypothèses du modèle :
Linéarité
Indépendance des erreurs
Homoscédasticité (la variance des erreurs stochastiques de la
régression est la même pour chaque observation i)
Normalité des erreurs
30
Équations Mathématiques
Estimation des Coefficients :
Méthode des Moindres Carrés (Minimisation de la somme des carrés
des résidus)
Formules :
Interprétation :
o β1 mesure le changement moyen de Y pour une unité de changement
de X
o β0 est la valeur prédite de Y lorsque X = 0
31
Interprétation des Coefficients
Analyse de β1:
o Si β1>0 : Relation positive entre X et Y
o Si β1<0 : Relation négative entre X et Y
o Si β1=0 : Pas de relation linéaire
Coefficient de Détermination (R2) :
o Indique la proportion de la variance de Y expliquée par X
o R2=Variance expliquée par le modèle / Variance totale de Y
o Varie entre 0 et 1 (1 indiquant une parfaite corrélation)
32
Exemple Pratique
Contexte : Heures d'étude (X) Note (Y)
Étudier la relation entre le 2 70
nombre d'heures d'étude (X) 4 75
et la note obtenue à un
examen (Y) 6 80
Objectifs : 8 85
o Calculer β0 et β1 10 90
o Interpréter les résultats
Prédire la note pour un
étudiant qui étudie 7
heures 33
Calcul Manuel des Coefficients
Étapes :
Résultats :
o Présenter les calculs détaillés
o Donner les valeurs numériques de β0 et β1
34
Calcul de β0 et β1
Calcul de β0 et β1
La régression linéaire simple modélise la relation entre une variable indépendante
XXX et une variable dépendante YYY par l'équation
35
Calcul des termes nécessaires :
Construisons un tableau pour faciliter les calculs :
36
37
Interprétation des résultats
a. Interprétation de 1(Pente)
Valeur de 1 =2.5 :
Cela signifie que pour chaque heure supplémentaire d'étude, la
note moyenne augmente de 2.5 points.
b. Interprétation de 0 (Ordonnée à l'origine)
Valeur de 0=65
C'est la note prévue pour un étudiant qui n'étudie pas du tout (0
heure). Selon le modèle, un étudiant qui n'étudie pas obtiendrait
une note de 65.
Remarque :
L'interprétation de 0 doit être faite avec prudence, surtout si la
valeur de =0
X=0 est en dehors de la plage des données observées. Dans ce
cas, puisque les heures d'étude commencent à 2 heures, prédire38
pour 0 heure peut ne pas être pertinent dans le contexte réel.
Prédiction de la note pour un
étudiant qui étudie 7 heures
39
Vérification du Modèle
Coefficient de Détermination (R2)
Le coefficient de détermination R2 mesure la proportion de la variance
totale de YYY expliquée par le modèle.
40
41
Interprétation :
• Un R2 de 1 indique que le modèle explique 100% de
la variance observée dans les notes. Cela signifie que
le modèle s'ajuste parfaitement aux données.
Remarque :
• Dans ce cas, comme les données sont parfaitement
alignées sur une droite, le modèle de régression
linéaire est parfaitement adapté.
• En pratique, obtenir un R2 de 1 est rare et peut
indiquer un surajustement si le modèle est trop
complexe ou si les données sont insuffisantes.
42
Conclusion
• Coefficients estimés :
• β0=65
• β1=2.5
• Interprétations :
• β0=65 : Note prévue pour un étudiant qui n'étudie pas du tout.
• β1=2.5=2.5 : Chaque heure supplémentaire d'étude augmente la
note moyenne de 2.5 points.
• Prédiction :
• Un étudiant qui étudie 7 heures est prévu d'obtenir une note de
82.5.
• Qualité du modèle :
• Le modèle explique 100% de la variance des notes, indiquant un
ajustement parfait sur ce jeu de données.
43
Relation entre les heures d\'étude et
les notes obtenues
44
Limitations et Précautions
Suppositions du Modèle :
o Vérifier la linéarité
o S'assurer de l'indépendance des erreurs
Influence des Outliers :
o Les valeurs extrêmes peuvent affecter les coefficients
Extrapolation :
o Prudence lors de la prédiction en dehors de la plage des données
45
Extensions de la Régression Linéaire
Régression Linéaire Multiple
Inclure plusieurs variables indépendantes
Régression Non Linéaire
Modèles polynomiaux ou autres transformations
Régression Ridge et Lasso :
Techniques de régularisation pour éviter le surapprentissage
46
Travaux Dirigés (TD)
Objectifs du TD
Mettre en pratique les concepts étudiés
Développer des compétences en calcul manuel des coefficients
Interpréter les résultats dans un contexte réel
47
Contexte : Jeu de Données
Consommation d'énergie (kWh)
Relation entre la Température (°C) (X)
(Y)
température (X) et la 15 200
consommation d'énergie (Y) 18 220
d'une usine 20 230
Instructions : 22 240
o Calculer β0 et β1 β1 25 260
o Interpréter les coefficients
o Prédire la consommation d'énergie à 21°C
48
Correction
β1=340/58≈5.8621
β0=112.7586
2. Interprétation des Coefficients
• Valeur de β1=5.8621
• Pour chaque augmentation de 1°C de la
température, la consommation d'énergie
augmente en moyenne de 5.8621 kWh.
β0=112.7586:
• Lorsque la température est de 0°C, la
consommation d'énergie prévue est de 112.7586
kWh. 49
Prédiction de la Consommation d'Énergie
à 21°C
Y=235.86 kWh
Validation du Modèle
R2=0.9966
signifie que 99.66% de la variance totale de la
consommation d'énergie est expliquée par la
température dans ce modèle.
50
Conclusion de la Séance
Points Clés à Retenir
Classification des méthodes de Data Mining
Différences entre apprentissage supervisé et non supervisé
Introduction aux algorithmes clés
Maîtrise de la régression linéaire simple
51