0% ont trouvé ce document utile (0 vote)
80 vues51 pages

Introduction au Data Mining

notion de bases

Transféré par

Eya Bejaoui
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
80 vues51 pages

Introduction au Data Mining

notion de bases

Transféré par

Eya Bejaoui
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Mining

Semaine 2

PANORAMA DES MÉTHODES DE


DATA MINING

Mohamed Lassoued
Sep 2024 1
Panorama des Méthodes de
Data Mining

Classification des méthodes et


introduction aux algorithmes clés

2
 Introduction
 Classification des méthodes de Data Mining
 Présentation générale des algorithmes clés
 Focus sur la régression linéaire
 Travaux Dirigés (TD)
 Conclusion

3
Panorama des méthodes de Data Mining

 Les méthodes de DM se répartissent en deux grandes familles:

Data Mining

Méthodes Méthodes
descriptives prédictives

• Méthodes descriptives: Explorer les données pour découvrir des motifs, des
structures ou des relations cachées
• Méthodes prédictives: Prédire des valeurs ou des catégories pour de nouvelles
observations..

4
Méthodes Descriptives

 Objectif : Décrire, résumer et interpréter les caractéristiques principales


des données.
 Approche : Explorer les données pour découvrir des motifs, des structures
ou des relations cachées.
 Exemples :
 Clustering (Regroupement)

 Analyse en Composantes Principales (ACP)

 Règles d'Association

 Utilisation : Compréhension des données, segmentation, détection

d'anomalies.

5
Méthodes Prédictives :

 Objectif : Prédire des valeurs ou des catégories pour de nouvelles


observations.
 Approche : Construire des modèles à partir de données historiques
étiquetées pour effectuer des prédictions sur des données futures.
 Exemples :
 Classification

 Régression

 Séries Temporelles

 Utilisation : Prévision, aide à la décision, estimation de risques.

6
Relation entre Méthodes Descriptives et
Apprentissage Non Supervisé

 Apprentissage Non Supervisé :


Définition : Méthodologie où l'algorithme apprend des structures
inhérentes aux données sans utiliser de labels ou de cibles prédéfinies.
o Lien avec les Méthodes Descriptives :
Les méthodes descriptives sont souvent basées sur
l'apprentissage non supervisé.
Objectif commun de découvrir des motifs cachés et de

comprendre la structure des données.


o Exemples d'Algorithmes :
K-means (Clustering)
Algorithmes de Clustering Hiérarchique

 Algorithme Apriori (Règles d'Association)

7
Relation entre Méthodes Prédictives et Apprentissage
Supervisé

 Apprentissage Supervisé :
oDéfinition : Méthodologie où l'algorithme apprend à partir de données
étiquetées, c'est-à-dire avec des entrées (features) et des sorties (labels).
o Lien avec les Méthodes Prédictives :
Les méthodes prédictives reposent sur l'apprentissage supervisé

pour construire des modèles capables de faire des prédictions sur


de nouvelles données.
o Exemples d'Algorithmes :
Régression Linéaire
Arbres de Décision

k-plus Proches Voisins (k-NN)

 Machines à Vecteurs de Support (SVM)

8
Apprentissage Supervisé
Apprentissage :
Supervisé • Modèles entraînés avec des
Vs données étiquetées
• Objectif : Prédire des étiquettes
Non Supervisé ou valeurs pour de nouvelles
données

Apprentissage Non
Supervisé :
• Modèles entraînés avec des
données non étiquetées
• Objectif : Découvrir des structures
cachées ou des patterns dans les
données

9
Panorama des méthodes de Data Mining
Chacune des familles des méthodes regroupe des techniques

clustering classification
méthodes méthodes supervisée
descriptives prédictives prédire
Y quali.

analyse
factorielle
ACP, AFC, régression
ACM prédire
Y quanti.
détections
de liens
recherche
d’associations

10 / 79
Méthodes de Classification

• Attribuer une catégorie à une observation


• Exemples d'applications :
Classification • Détection de spam
• Diagnostic médical

• Arbres de décision
Algorithmes • k-plus proches voisins (k-NN)
courants • Machines à vecteurs de support (SVM)

11
Méthodes de Régression

Régression :

• Prédire une valeur numérique continue


• Exemples d'applications :
• Prévision des ventes
• Estimation des coûts

Algorithmes courants :

• Régression linéaire
• Régression polynomiale
• Régression logistique (pour classification binaire)

12
Classification
 La classification de données est une des tâches centrales du Data
Mining.
 Elle consiste à placer chaque individu d’une population donnée dans un
groupement homogène en fonction de ses caractéristiques, permettant
ainsi de réduire la taille de l'ensemble de données en regroupant ceux
qui se ressemblent.
 Le résultat de la classification est un algorithme permettant
d’affecter chaque individu au meilleur groupement.

 Deux types de classification:

Classification supervisée Classification non supervisée


(clustering)
13
Classification supervisée
 L'approche supervisée intervient quand les groupes sont définis au
préalable, et le problème est de créer un modèle permettant d'assigner
tout nouveau objet à ces groupes.

 Dans ce cas, la tâche est appelée classification supervisée et les


groupes sont appelés classes et possèdent une étiquette qui correspond
au nom de la classe.

 On utilise donc un ensemble d'exemples classés pour prédire la


classe de toute nouvelle donnée ; c'est une tâche d'« apprentissage à
partir d'exemples », ou « apprentissage supervisé »

 Le résultat de l’apprentissage est un algorithme (appelé classifieur)


qui, à partir d'un ensemble d'exemples, produit une prédiction de la
meilleure classe de toute donnée.
14
Classification supervisée
 Formellement: On dispose d'un ensemble X de N données étiquetées
(les observations)

15
Classification supervisée
 La figure suivante illustre un exemple de jeu de données décrit par deux
attributs et regroupé en trois classes visuellement identifiables.

16
Classification supervisée
 Exemples de classification supervisée
 Prédire si un client sera un client qui rembourse son prêt avec succès (classe

OUI) ou un client qui aura des difficultés de remboursement (classe NON) ,

 Prédire si un client potentiel va acheter le produit qu’on lui propose,

 Prédire la probabilité qu’un patient soit atteint d’une certaine maladie...

17
Classification supervisée
 Exemples de classification supervisée
 Prédire si un client sera un client qui rembourse son prêt avec succès

(classe OUI) ou un client qui aura des difficultés de remboursement (classe

NON) ,

 Prédire si un client potentiel va acheter le produit qu’on lui propose,

 Prédire la probabilité qu’un patient soit atteint d’une certaine maladie...


 Détection des anomalies sur une chaîne de production
• Classes : Produit conforme, Produit non conforme
• Attributs : Dimensions du produit, poids, couleur, texture, taux de défauts visuels,
température de production.
 Prévision des pannes de machines
• Classes : Machine en bon état, Machine défaillante
• Attributs : Température de fonctionnement, vibrations, nombre d'heures d'opération, nombre
de cycles de production, niveau d'usure des composants

18
 Classification des pièces détachées
• Classes : Pièce conforme, Pièce non conforme
• Attributs : Dimensions précises, tolérance, matière utilisée, finition de
surface, tests de résistance.
 Optimisation de la logistique
• Classes : Livraison à temps, Livraison en retard
• Attributs : Distance de livraison, volume du chargement, météo, état
des routes, nombre de points de livraison.
 Prévision de la demande en matériaux
• Classes : Faible demande, Moyenne demande, Forte demande
• Attributs : Historique de consommation des matériaux, taux de
production, périodes de maintenance, tendance du marché, stocks
disponibles.

19
Plusieurs techniques de classification
Arbres de décision:
Un arbre de décision segmente les données en fonction de critères
successifs, à chaque nœud, pour aboutir à des feuilles représentant les
classes cibles.
K plus proches voisins,
Le k-NN classe une nouvelle donnée en fonction des classes majoritaires de
ses k voisins les plus proches dans l'espace des attributs
Machines à vecteurs de support (SVM),
Les SVM tracent une hyperplane optimale qui sépare les différentes classes
avec la plus grande marge possible dans un espace multi-dimensionnel
Régression Logistique,
La régression logistique estime la probabilité d'appartenance d'une donnée à
une classe en utilisant une fonction logistique pour modéliser la relation entre
les attributs et les classes cibles
Réseaux de neurones
Un réseau de neurones artificiels utilise des couches d'unités (neurones)
connectées pour apprendre des représentations complexes et classifier les
données en ajustant les poids des connexions
20
etc.
Méthodes de Régression

 Régression :
 Prédire une valeur numérique continue
 Exemples d'applications :
 Prévision des ventes
 Estimation des coûts
 Algorithmes courants :
 Régression linéaire
 Régression polynomiale
 Régression logistique (pour classification binaire)

21
Méthodes de Clustering

 Clustering :
 Regrouper des données similaires sans étiquettes
préalables
 Exemples d'applications :
 Segmentation de clientèle
 Détection d'anomalies
 Algorithmes courants :
 K-means
 Clustering hiérarchique
 DBSCAN
22
Règles d'Association

 Règles d'Association :
 Découvrir des relations intéressantes entre les
variables
 Exemples d'applications :
 Analyse du panier d'achat en grande distribution
 Recommandation de produits
 Algorithmes courants :
 Apriori
 FP-Growth

23
PRÉSENTATION GÉNÉRALE DES ALGORITHMES CLÉS

24
k-plus Proches Voisins (k-NN)

 Principe :
 Un nouvel échantillon est classé en fonction des
classes majoritaires de ses k voisins les plus
proches
 Caractéristiques :
 Simple à implémenter
 Sensible à la dimensionnalité des données
 Applications :
 Reconnaissance de formes
 Classification d'images
25
Arbres de Décision

 Principe :
 Modèle arborescent où chaque nœud représente
un test sur un attribut
 Avantages :
 Interprétabilité facile
 Gestion des données numériques et catégorielles
 Applications :
 Diagnostic médical
 Analyse de risque

26
K-means Clustering

 Principe :
 Partitionne les données en k clusters en
minimisant la variance intra-cluster
 Étapes :
 Initialisation des centroids
 Attribution des points aux clusters
 Mise à jour des centroids
 Applications :
 Segmentation de marché
 Compression d'images
27
FOCUS SUR UNE MÉTHODE SIMPLE : LA RÉGRESSION
LINÉAIRE

28
Introduction à la Régression Linéaire

 Définition
 Modèle qui établit une relation linéaire entre
une variable indépendante (X) et une variable
dépendante (Y)
 Forme générale

 Objectifs
 Prédire la valeur de Y pour une valeur donnée de X
 Comprendre l'influence de X sur Y
29
Concepts de Base

 Coefficients :
 β0 : Ordonnée à l'origine (intercepte)
 β1 : Pente de la droite (coefficient directeur)
 Erreur aléatoire (ε) :
 Représente les variations inexpliquées par le modèle
 Hypothèses du modèle :
 Linéarité
 Indépendance des erreurs
 Homoscédasticité (la variance des erreurs stochastiques de la
régression est la même pour chaque observation i)
 Normalité des erreurs

30
Équations Mathématiques

 Estimation des Coefficients :


 Méthode des Moindres Carrés (Minimisation de la somme des carrés
des résidus)
 Formules :

 Interprétation :
o β1 mesure le changement moyen de Y pour une unité de changement
de X
o β0 est la valeur prédite de Y lorsque X = 0

31
Interprétation des Coefficients

 Analyse de β1:
o Si β1>0 : Relation positive entre X et Y
o Si β1<0 : Relation négative entre X et Y
o Si β1=0 : Pas de relation linéaire

 Coefficient de Détermination (R2) :


o Indique la proportion de la variance de Y expliquée par X
o R2=Variance expliquée par le modèle / Variance totale de Y
o Varie entre 0 et 1 (1 indiquant une parfaite corrélation)

32
Exemple Pratique

 Contexte : Heures d'étude (X) Note (Y)

 Étudier la relation entre le 2 70

nombre d'heures d'étude (X) 4 75


et la note obtenue à un
examen (Y) 6 80

 Objectifs : 8 85

o Calculer β0 et β1 10 90

o Interpréter les résultats


 Prédire la note pour un
étudiant qui étudie 7
heures 33
Calcul Manuel des Coefficients

 Étapes :

Résultats :
o Présenter les calculs détaillés
o Donner les valeurs numériques de β0 et β1

34
Calcul de β0 et β1
 Calcul de β0 et β1
 La régression linéaire simple modélise la relation entre une variable indépendante
XXX et une variable dépendante YYY par l'équation

35
 Calcul des termes nécessaires :
 Construisons un tableau pour faciliter les calculs :

36
37
Interprétation des résultats

 a. Interprétation de 1(Pente)
 Valeur de 1 =2.5 :
 Cela signifie que pour chaque heure supplémentaire d'étude, la
note moyenne augmente de 2.5 points.
 b. Interprétation de 0 (Ordonnée à l'origine)
 Valeur de 0=65
 C'est la note prévue pour un étudiant qui n'étudie pas du tout (0
heure). Selon le modèle, un étudiant qui n'étudie pas obtiendrait
une note de 65.
 Remarque :
 L'interprétation de 0 doit être faite avec prudence, surtout si la
valeur de =0
 X=0 est en dehors de la plage des données observées. Dans ce
cas, puisque les heures d'étude commencent à 2 heures, prédire38
pour 0 heure peut ne pas être pertinent dans le contexte réel.
Prédiction de la note pour un
étudiant qui étudie 7 heures

39
Vérification du Modèle

 Coefficient de Détermination (R2)


 Le coefficient de détermination R2 mesure la proportion de la variance
totale de YYY expliquée par le modèle.

40
41
 Interprétation :
• Un R2 de 1 indique que le modèle explique 100% de
la variance observée dans les notes. Cela signifie que
le modèle s'ajuste parfaitement aux données.
 Remarque :
• Dans ce cas, comme les données sont parfaitement
alignées sur une droite, le modèle de régression
linéaire est parfaitement adapté.
• En pratique, obtenir un R2 de 1 est rare et peut
indiquer un surajustement si le modèle est trop
complexe ou si les données sont insuffisantes.
42
Conclusion

• Coefficients estimés :
• β0=65
• β1=2.5
• Interprétations :
• β0=65 : Note prévue pour un étudiant qui n'étudie pas du tout.
• β1=2.5=2.5 : Chaque heure supplémentaire d'étude augmente la
note moyenne de 2.5 points.
• Prédiction :
• Un étudiant qui étudie 7 heures est prévu d'obtenir une note de
82.5.
• Qualité du modèle :
• Le modèle explique 100% de la variance des notes, indiquant un
ajustement parfait sur ce jeu de données.
43
Relation entre les heures d\'étude et
les notes obtenues

44
Limitations et Précautions
 Suppositions du Modèle :
o Vérifier la linéarité
o S'assurer de l'indépendance des erreurs
 Influence des Outliers :
o Les valeurs extrêmes peuvent affecter les coefficients
 Extrapolation :
o Prudence lors de la prédiction en dehors de la plage des données

45
Extensions de la Régression Linéaire

 Régression Linéaire Multiple


 Inclure plusieurs variables indépendantes

 Régression Non Linéaire


 Modèles polynomiaux ou autres transformations

 Régression Ridge et Lasso :


 Techniques de régularisation pour éviter le surapprentissage

46
Travaux Dirigés (TD)

 Objectifs du TD
 Mettre en pratique les concepts étudiés
 Développer des compétences en calcul manuel des coefficients
 Interpréter les résultats dans un contexte réel

47
Contexte : Jeu de Données
Consommation d'énergie (kWh)
 Relation entre la Température (°C) (X)
(Y)

température (X) et la 15 200

consommation d'énergie (Y) 18 220

d'une usine 20 230

 Instructions : 22 240

o Calculer β0 et β1 β1 25 260
o Interpréter les coefficients
o Prédire la consommation d'énergie à 21°C

48
Correction

 β1=340/58≈5.8621
 β0=112.7586
 2. Interprétation des Coefficients
• Valeur de β1=5.8621
• Pour chaque augmentation de 1°C de la
température, la consommation d'énergie
augmente en moyenne de 5.8621 kWh.
 β0=112.7586:
• Lorsque la température est de 0°C, la
consommation d'énergie prévue est de 112.7586
kWh. 49
 Prédiction de la Consommation d'Énergie
à 21°C
 Y=235.86 kWh
 Validation du Modèle
 R2=0.9966
 signifie que 99.66% de la variance totale de la
consommation d'énergie est expliquée par la
température dans ce modèle.

50
Conclusion de la Séance

 Points Clés à Retenir


 Classification des méthodes de Data Mining
 Différences entre apprentissage supervisé et non supervisé
 Introduction aux algorithmes clés
 Maîtrise de la régression linéaire simple

51

Vous aimerez peut-être aussi