0% ont trouvé ce document utile (0 vote)

339 vues64 pages

DataMining Part3 Classification PDF

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

339 vues64 pages

DataMining Part3 Classification PDF

Transféré par

SMARI Sawcen

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data Mining (Fouille de données)

Iskandar KESKES
iskandarkeskes@[Link]

Assistant en informatique de gestion à ISGG

Membre du laboratoire MIRACL

Membre du laboratoire IRIT

Université de Gabès
Institut supérieur de Gestion de Gabès

Cours data mining - Iskandar KESKES 1

Plan du Cours

1. Introduction au Data Mining

2. Processus ECD
3. Techniques de Data Mining
4. Découverte de règles d’association
5. Classification automatique
6. Arbres de décision
7. Réseaux de neurones
8. Manipulation d’outils logiciels de DataMining.

Cours data mining - Iskandar KESKES 2

3. Classification
automatique

Cours data mining - Iskandar KESKES 3

Avant-propos
Classification ou clustering?

Cours data mining - Iskandar KESKES 4

Définition
L’objet du clustering : le groupent automatique d'objets en classes de
telle manière à :
 Maximiser la ressemblance intra-groupes
 Minimiser la ressemblance inter-groupes =>
Maximiser la dissemblance inter-groupes
Résultats du clustering :
 les objets soient les plus similaires possibles au sein d'un groupe
(critère de compacité)
 les groupes soient aussi dissemblables que possible (critère de
séparabilité)
Utilité du clustering : réduction de la complexité dans certains
problème selon le postulat qui stipule que :
 Deux objets de la même classe se ressemblent ont donc le même
comportement
 Tout élément d’une classe peut-être remplacé par un représentant
de la classe (Choix du représentant?)
Cours data mining - Iskandar KESKES 5
Le point de départ

Regrouper est donc une histoire

d'évaluation de la ressemblance entre individus

=> Une bonne clustérisation regroupe des individus

ressemblant

d'évaluation de la dissemblance (ou ressemblance) entre

deux classes (ensembles d'individus)

=> Une bonne clustérisation sépare des groupes

dissemblables

Cours data mining - Iskandar KESKES 6

Le point de départ

Évaluation de la ressemblance (comparaison)

Comment procède-t-on?
Exemple : parmi les dix objets suivants quels sont les
deux les plus ressemblants?

Cours data mining - Iskandar KESKES 7

Le point de départ

Exemples d’application :
Identifier des groupes d’individus ou de
ménages ayant un comportement homogène
vis-à-vis de :
la consommation de différents produits,
la consommation de différentes marques ou
variétés,
l’attitude par rapport à un produit,
...

 Il s’agit de problèmes souvent traités avec les

méthodes de classification automatique.

Cours data mining - Iskandar KESKES 8

Le point de départ

Données analysées :
 Un tableau individus-variables :
n individus (objets) décrits par p variables
(descripteurs) ;
un tableau à valeurs numériques
continues (valeur de la variable j pour
l’individu i) ;
un tableau de contingence (croisant deux
partitions d’une même population) ;
un tableau de présence–absence (valeur
0 ou 1).
 Un tableau carré symétrique de
similarités ou de distances.

Cours data mining - Iskandar KESKES 9

Le point de départ

Objectifs :
Constituer des groupes d’objets
homogènes et différenciés tels que :
 les objets soient les plus similaires possibles
au sein d’un groupe (critère de compacité) ;
 les groupes soient aussi dissemblables que
possible (critère de séparabilité).

La ressemblance ou la dissemblance

étant mesurée sur l’ensemble des
variables descriptives.

Cours data mining - Iskandar KESKES 10

Le point de départ

Hypothèse :
On suppose qu’une structure de
classes existe au sein de la
population étudiée.

Le but de la classification est de la

mettre à jour ou de l’identifier.

 On suppose que la population étudiée

est séparable.

Cours data mining - Iskandar KESKES 11

Le point de départ

Représentations :
La représentation synthétique peut
être :
une typologie ;
une partition ;
une hiérarchie de partitions (arbre
hiérarchique) ;
une hiérarchie de recouvrements
(pyramide).

Cours data mining - Iskandar KESKES 12

Le point de départ

Une classification automatique obtenue sur un ensemble n’est

jamais la classification de cet ensemble . . .

 C’est une classification parmi beaucoup d’autres.

La classification fait appel à une démarche algorithmique et

non aux calculs formalisés usuels en statistique.

La définition des classes se fait à partir d’une formulation

algorithmique.
Une série d’opérations définies de façon récursive et répétitive.
La mise en oeuvre de la plupart des techniques de classification
ne nécessite que des notions mathématiques relativement
élémentaires.

Cours data mining - Iskandar KESKES 13

Le point de départ

Les étapes de la classification

automatique :
1. Choix des données.

2. Calcul des dissimilarités entre les n

individus à partir du tableau initial.
3. Choix d’un algorithme de classification et
exécution.
4. L’interprétation des résultats :
évaluation de la qualité de la classification,
description des classes obtenues.

Cours data mining - Iskandar KESKES 14

Le point de départ

Calcul des ressemblances :

 Variables quantitatives
 La distance euclidienne est une mesure
possible de la ressemblance.
 Dans le cas de variables hétérogènes, il
faut travailler sur les données centrées
réduites.
 Variables qualitatives
 De nombreux indices de ressemblance ont
été proposés.
 Dans le cas d’objets décrits par des
variables binaires, indice de Jaccard, indice
de Russel et Rao.

Cours data mining - Iskandar KESKES 15

Le point de départ

Il existe plusieurs familles d’algorithme

de classification.
On s’intéresse d'abord aux algorithmes
hiérarchiques
 Les algorithmes ascendants (ou encore
agglomératifs) qui procèdent à la construction
des classes par agglomérations successives
des objets deux à deux, et qui fournissent une
hiérarchie de partitions des objets.
 Les algorithmes descendants (ou encore
divisifs) qui procèdent par dichotomies
successives de l’ensemble des objets, et qui
peuvent encore fournir une hiérarchie de
partitions.

Cours data mining - Iskandar KESKES 16

Le point de départ

Les algorithmes ascendants (ou encore agglomératifs)

 Les algorithmes descendants (ou encore divisifs)

Cours data mining - Iskandar KESKES 17
Le point de départ

Une hiérarchie de partitions (arbre hiérarchique)

Cours data mining - Iskandar KESKES 18

Le point de départ

Évaluation de la ressemblance

Modèle pour la comparaison

Pour des approches pour l’évaluation de la ressemblance, les
modèles comprennent:
Référentiel => modèle de représentation
Une fonction de similarité => évaluation du degrés de
ressemblance dans le référentiel
Une fonction de similarité entre groupes d'objets
 Remarque
Ces composantes sont autant d'occasions/risques de s'éloigner de la
réalité

Cours data mining - Iskandar KESKES 19

Le point de départ

En résumé:

Un algorithme de classification commence par le choix des

paramètres pour la comparaison (features selection / référentiel)

Un algorithme de classification définit une mesure de

ressemblance/dissemblance
•Entre objets
•Entre groupes d’objet
Dans l’espace des paramètres choisis

Cours data mining - Iskandar KESKES 20

Vocabulaire de base

Cours data mining - Iskandar KESKES 21

Distances

Cours data mining - Iskandar KESKES 22

Distances

Cours data mining - Iskandar KESKES 23

Similarité

Cours data mining - Iskandar KESKES 24

Similarité

Cours data mining - Iskandar KESKES 25

Similarité

Cours data mining - Iskandar KESKES 26

Similarité

Cours data mining - Iskandar KESKES 27

Méthodes

Cours data mining - Iskandar KESKES 28

CAH

Cours data mining - Iskandar KESKES 29

CAH

Cours data mining - Iskandar KESKES 30

CAH

Cours data mining - Iskandar KESKES 31

CAH

Un dendrogramme

Cours data mining - Iskandar KESKES 32

CAH

Cours data mining - Iskandar KESKES 33

CAH

Cours data mining - Iskandar KESKES 34

CAH

Cours data mining - Iskandar KESKES 35

CAH

Cours data mining - Iskandar KESKES 36

CAH

Cours data mining - Iskandar KESKES 37

CAH

Première observation :
 La stratégie intuitive utilisé pour passer d’une partition
Pi à la suivante Pi+1 ne remet pas en cause les
regroupements.
 Si deux individus sont réunis dans une classe, ils
restent ensemble tout le temps.
 Les partitions ainsi construites sont emboîtées de la
plus fine à la plus grossière.
 On obtient une hiérarchie de partitions qu’on peut
représenter par un dendrogramme.

Cours data mining - Iskandar KESKES 38

CAH

Deuxième observation :

Cours data mining - Iskandar KESKES 39

K-Means (Supervisé)

Cours data mining - Iskandar KESKES 40

K-Means (Supervisé)

Cours data mining - Iskandar KESKES 41

Stratégies Mixtes

Cours data mining - Iskandar KESKES 42

Dissimilarité entre deux points

Mesures de distance :
La plupart des techniques de classification font appel à des
mesures de distance, appelé aussi métrique.

 Evaluer les degrés de dissemblance ou de ressemblance entre

deux individus ou deux groupes d’individus.

 La dissemblance entre deux d’individus est évaluée par la

notion de dissimilarité dont le sens mathématique peut se
traduire par divers critères de mesure quantitative.

Cours data mining - Iskandar KESKES 43

Dissimilarité entre deux points

Types de dissimilarité :
 Selon la nature des données, on distinguent quatre
groupes de critères de dissimilarité entre individus :

1. la dissimilarité définie sur les données quantitatives ;

2. la dissimilarité définie sur les données qualitatives,
fréquentielles, ou les données d’occurrences ;
3. la dissimilarité définie sur les données ordinales ;
4. la dissimilarité définie sur les données logiques.

Cours data mining - Iskandar KESKES 44

Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 45

Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 46

Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 47

Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 48

Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 49

Dissimilarité entre deux points

Cours data mining - Iskandar KESKES 50

Dissimilarité entre deux points

En utilisant la distance de Manhattan

Calculer les distances entre p1et p2
Calculer les distances entre p1et p3

Intuitivement on sait que p3 est plus proche à p1 que p2

 Il faut normaliser les données

Cours data mining - Iskandar KESKES 51

Dissimilarité entre deux points

Lorsque les données sont des réels

Il faut calculer des valeurs standardisées pour ces données

Les xji standardisées (z-score)

Cours data mining - Iskandar KESKES 52

Dissimilarité entre deux points

6,7
5,29

Cours data mining - Iskandar KESKES 53

Dissimilarité entre deux points

Lorsqu’il s’agit de données binaires, il faut tout

d’abord tracer la table de contingence (table de
dissimilarité) de ces données

Cours data mining - Iskandar KESKES 54

Dissimilarité entre deux points

Les distances utilisées

Le coefficient de correspondance simple

Le coefficient de Jaccard

Exemple : Oi=(1,1,0,1,0) et Oj=(1,0,0,0,1)

a= 1 b=2 c=1 d=1
dcs(Oi,Oj)=3/5
djc(Oi,Oj)=3/4

Cours data mining - Iskandar KESKES 55

Algorithme de CAH

Lance et William (1967)

Etape 0 : il y a n éléments à classer (n objets) ;

Etape 1 : on construit la matrice de distances entre les n éléments et

l’on cherche les deux plus proches, que l’on agrège en un nouvel
élément. On obtient une première partition à (n−1) classes ;
Etape 2 : on construit une nouvelle matrice des distances qui résultent
de l’agrégation, en calculant les distances entre le nouvel élément et les
éléments restants (mêmes conditions qu’à l’étape 1 avec (n−1)
éléments). On cherche les deux éléments les plus proches, que l’on
agrège. On obtient une deuxième partition avec (n−2) classes et qui
englobe la première ;
Etape m : on calcule les nouvelles distances, et l’on réitère le processus
jusqu’à n’avoir plus qu’un seul élément regroupant tous les objets et qui
constitue la dernière partition.

Cours data mining - Iskandar KESKES 56

Algorithme de CAH (Exemple)

Cours data mining - Iskandar KESKES 57

Algorithme de CAH (Exemple)

Cours data mining - Iskandar KESKES 58

Algorithme de CAH (Exemple)

Cours data mining - Iskandar KESKES 59

Algorithme de CAH (Exemple)

Cours data mining - Iskandar KESKES 60

Algorithme de CAH (Exemple)

Cours data mining - Iskandar KESKES 61

Exercice
Soit Le tableau de dissimilarités suivant:

En utilisant CAH, construire le dendrogramme en

utilisant la méthode d’agrégation suivante:
 Lien minimum (saut minimal)
 Lien maximum (saut maximal)
 Lien moyen
Cours data mining - Iskandar KESKES 62
Réponse

Cours data mining - Iskandar KESKES 63

Réponse

Cours data mining - Iskandar KESKES 64

Vous aimerez peut-être aussi

Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
DataMining Part2 ECD
100% (1)
DataMining Part2 ECD
38 pages
Partie 3-Data Mining - DRC - 2021-2022
Pas encore d'évaluation
Partie 3-Data Mining - DRC - 2021-2022
47 pages
Cours Datamining: Techniques et Processus
100% (1)
Cours Datamining: Techniques et Processus
49 pages
Systèmes de Recommandation Collaboratifs
Pas encore d'évaluation
Systèmes de Recommandation Collaboratifs
79 pages
Cours 01
Pas encore d'évaluation
Cours 01
19 pages
Le Processus de Science Des Donnees
Pas encore d'évaluation
Le Processus de Science Des Donnees
16 pages
Machine Learning - Partie 2 - Régression Logistique Et KNN
Pas encore d'évaluation
Machine Learning - Partie 2 - Régression Logistique Et KNN
37 pages
Cours ML - Introduction
Pas encore d'évaluation
Cours ML - Introduction
15 pages
ACP : Guide d'Analyse Multivariée et Visualisation
Pas encore d'évaluation
ACP : Guide d'Analyse Multivariée et Visualisation
18 pages
UP3 2 Fouille de Donnees Handout
Pas encore d'évaluation
UP3 2 Fouille de Donnees Handout
65 pages
Rapport DataMining
Pas encore d'évaluation
Rapport DataMining
31 pages
Classification par K-Medoids
Pas encore d'évaluation
Classification par K-Medoids
30 pages
Métriques de La Cohésion & Du Couplage: Liste Des Membres Du Groupe
Pas encore d'évaluation
Métriques de La Cohésion & Du Couplage: Liste Des Membres Du Groupe
28 pages
File D Attente
Pas encore d'évaluation
File D Attente
43 pages
Chapitre 1 Fouille de Données
Pas encore d'évaluation
Chapitre 1 Fouille de Données
36 pages
Clustering et Distances en ML
Pas encore d'évaluation
Clustering et Distances en ML
129 pages
Cours Data Mining - Seance 1
Pas encore d'évaluation
Cours Data Mining - Seance 1
38 pages
Chap - Analyse D'associations - Partie 01-18-19
Pas encore d'évaluation
Chap - Analyse D'associations - Partie 01-18-19
12 pages
Data Mining CAH
Pas encore d'évaluation
Data Mining CAH
18 pages
Gestion des données manquantes et binning
Pas encore d'évaluation
Gestion des données manquantes et binning
1 page
Cours Analyse de Données ISITT
Pas encore d'évaluation
Cours Analyse de Données ISITT
10 pages
Compte Rendu: Mini Projet Compression & Stockage
Pas encore d'évaluation
Compte Rendu: Mini Projet Compression & Stockage
14 pages
AFC Sous Python Avec Scientisttools
100% (1)
AFC Sous Python Avec Scientisttools
18 pages
Rapport Stage Lamme ABRAICH AYOUB
Pas encore d'évaluation
Rapport Stage Lamme ABRAICH AYOUB
97 pages
WM.B - Filtrage Collaboratif - Recommandation
Pas encore d'évaluation
WM.B - Filtrage Collaboratif - Recommandation
32 pages
IA Et ML
Pas encore d'évaluation
IA Et ML
12 pages
Ensemble Learning - Forêt Aléatoire, Boosting, Stacking
Pas encore d'évaluation
Ensemble Learning - Forêt Aléatoire, Boosting, Stacking
26 pages
Interrogation IA
Pas encore d'évaluation
Interrogation IA
10 pages
Chapitre2 DecisionTrees CART
Pas encore d'évaluation
Chapitre2 DecisionTrees CART
53 pages
Régression Linéaire: Algorithme et Optimisation
Pas encore d'évaluation
Régression Linéaire: Algorithme et Optimisation
34 pages
Système décisionnel pour gestion des ventes
Pas encore d'évaluation
Système décisionnel pour gestion des ventes
36 pages
TP 2 Data Science
Pas encore d'évaluation
TP 2 Data Science
1 page
ML Seance 6
Pas encore d'évaluation
ML Seance 6
108 pages
Data Mining Training
Pas encore d'évaluation
Data Mining Training
63 pages
Cours
Pas encore d'évaluation
Cours
54 pages
1 IRAD - FD - Chap1
Pas encore d'évaluation
1 IRAD - FD - Chap1
19 pages
TP Sur Regression Logistique
Pas encore d'évaluation
TP Sur Regression Logistique
4 pages
Cours Analyse de Données
Pas encore d'évaluation
Cours Analyse de Données
39 pages
Clustering
Pas encore d'évaluation
Clustering
50 pages
Arbres de Décision et Algorithme ID3
Pas encore d'évaluation
Arbres de Décision et Algorithme ID3
17 pages
Introduction au Machine Learning
100% (1)
Introduction au Machine Learning
78 pages
ACP Sous Python Avec Scientisttools
Pas encore d'évaluation
ACP Sous Python Avec Scientisttools
22 pages
Cours 2-ACP
Pas encore d'évaluation
Cours 2-ACP
49 pages
Apprentissage Automatique
Pas encore d'évaluation
Apprentissage Automatique
22 pages
Intro Data Mining v2
Pas encore d'évaluation
Intro Data Mining v2
69 pages
Cours Data Mining - MORIE
Pas encore d'évaluation
Cours Data Mining - MORIE
88 pages
Data Mining II. Modélisation Statistique & Apprentissage (Philppe Besse)
Pas encore d'évaluation
Data Mining II. Modélisation Statistique & Apprentissage (Philppe Besse)
115 pages
Support Cours & TD Datawarehouse: Pr. A. Elouardighi
Pas encore d'évaluation
Support Cours & TD Datawarehouse: Pr. A. Elouardighi
17 pages
Data Mining Final
100% (1)
Data Mining Final
192 pages
Chapitre1 DM Rebbah
Pas encore d'évaluation
Chapitre1 DM Rebbah
19 pages
CM4 KNN
Pas encore d'évaluation
CM4 KNN
38 pages
Exploration des Données: Guide Essentiel
Pas encore d'évaluation
Exploration des Données: Guide Essentiel
46 pages
Exam 2016
Pas encore d'évaluation
Exam 2016
4 pages
PART2 Spring Design Patterns IOC
Pas encore d'évaluation
PART2 Spring Design Patterns IOC
8 pages
Chapitre2 Exploration, Nettoyage Et Préparation Des Données
Pas encore d'évaluation
Chapitre2 Exploration, Nettoyage Et Préparation Des Données
56 pages
TP Analyse en Composantes Principales
Pas encore d'évaluation
TP Analyse en Composantes Principales
3 pages
Cours de Data Mining
Pas encore d'évaluation
Cours de Data Mining
17 pages
Machine Learning Preparation Des Donnéees
Pas encore d'évaluation
Machine Learning Preparation Des Donnéees
29 pages
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
Pas encore d'évaluation
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
48 pages
Théorie des Probabilités de Kolmogorov
Pas encore d'évaluation
Théorie des Probabilités de Kolmogorov
24 pages
Correction Examen MB3 Principale 19-20
Pas encore d'évaluation
Correction Examen MB3 Principale 19-20
3 pages
Étude des Contacts de Langues et Évolution Linguistique
Pas encore d'évaluation
Étude des Contacts de Langues et Évolution Linguistique
4 pages
Algorithmes de Tri : Insertion et Sélection
Pas encore d'évaluation
Algorithmes de Tri : Insertion et Sélection
81 pages
Chapitre 1 - Modélisation
Pas encore d'évaluation
Chapitre 1 - Modélisation
10 pages
Communication efficace en banque
Pas encore d'évaluation
Communication efficace en banque
17 pages
Cours Rheologie
Pas encore d'évaluation
Cours Rheologie
18 pages
Alim TD
Pas encore d'évaluation
Alim TD
23 pages
Republique Du Niger
Pas encore d'évaluation
Republique Du Niger
11 pages
Documents Tenus Par Le Conseiller D'orientation Affecté À L'écol
Pas encore d'évaluation
Documents Tenus Par Le Conseiller D'orientation Affecté À L'écol
4 pages
U C A D D 1/1 - Coef: 6 Série LA - Coef: 4: Séries: L1, L1, L'1, S1, S2 Coef 2
Pas encore d'évaluation
U C A D D 1/1 - Coef: 6 Série LA - Coef: 4: Séries: L1, L1, L'1, S1, S2 Coef 2
1 page
Canvas Permanente 5ème
Pas encore d'évaluation
Canvas Permanente 5ème
10 pages
2 Equations Ds Corrections
Pas encore d'évaluation
2 Equations Ds Corrections
3 pages
Examen Master GMEE 2024
Pas encore d'évaluation
Examen Master GMEE 2024
3 pages
Devoirs Généraux Des Employeurs
Pas encore d'évaluation
Devoirs Généraux Des Employeurs
3 pages
Eva 1 Phy TC
Pas encore d'évaluation
Eva 1 Phy TC
3 pages
Synthèse du Glycogène et Enzymes Clés
Pas encore d'évaluation
Synthèse du Glycogène et Enzymes Clés
2 pages
Transformée en Z pour Systèmes Numériques
Pas encore d'évaluation
Transformée en Z pour Systèmes Numériques
18 pages
Opportunités et impacts du Covid-19
Pas encore d'évaluation
Opportunités et impacts du Covid-19
3 pages
Sophrologie
Pas encore d'évaluation
Sophrologie
8 pages
Dias Du 04 05 Fevrier 2022
Pas encore d'évaluation
Dias Du 04 05 Fevrier 2022
55 pages
Correction Examen National Math 2021
100% (1)
Correction Examen National Math 2021
10 pages
Série de TD 02 + Correction Annee 2020
Pas encore d'évaluation
Série de TD 02 + Correction Annee 2020
5 pages
"Réduire le Plastique: Agissons Ensemble"
Pas encore d'évaluation
"Réduire le Plastique: Agissons Ensemble"
18 pages
Écrans tactiles : avantages et inconvénients
Pas encore d'évaluation
Écrans tactiles : avantages et inconvénients
4 pages
Perméabilité et Porosité des Milieux Poreux
Pas encore d'évaluation
Perméabilité et Porosité des Milieux Poreux
3 pages
Devoir de Contrôle N°2 2016 2017 (Boughammoura Mehdi)
Pas encore d'évaluation
Devoir de Contrôle N°2 2016 2017 (Boughammoura Mehdi)
3 pages
Statistique Desc&Infer
Pas encore d'évaluation
Statistique Desc&Infer
179 pages
1.4 Création Du Système de Gestion Stratégique Des Ressources Humaines
Pas encore d'évaluation
1.4 Création Du Système de Gestion Stratégique Des Ressources Humaines
9 pages
Cours PCSI: Espaces Vectoriels
Pas encore d'évaluation
Cours PCSI: Espaces Vectoriels
7 pages