0% ont trouvé ce document utile (0 vote)
116 vues16 pages

ADD2 Cours1

Ce document décrit diverses méthodes de classification de données multidimensionnelles, notamment la classification hiérarchique, les méthodes de partitionnement, et l'analyse factorielle discriminante. Il présente également des mesures de proximité et formules utilisées dans ces méthodes de classification.

Transféré par

uso trading
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
116 vues16 pages

ADD2 Cours1

Ce document décrit diverses méthodes de classification de données multidimensionnelles, notamment la classification hiérarchique, les méthodes de partitionnement, et l'analyse factorielle discriminante. Il présente également des mesures de proximité et formules utilisées dans ces méthodes de classification.

Transféré par

uso trading
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ANALYSE DE DONNEES

MUTLIDIMENSIONNELLES II
(ADD 2)
Ismaila DIALLO
Ingénieur Statisticien Economiste (ISE)
PLAN DU COURS
LES METHODES DE CLASSIFICATION
I- CLASSIFICATION HIERARCHIQUE
» Classification Ascendante Hiérarchique (CAH)
» Les méthodes de classification Descendante
» Méthode de Williams-Lambert
» Les méthodes de Segmentation : ELISEE ; AID
II- LES METHODES DE PARTITIONNEMENT
» Les centres mobiles
» Les K-means de McQueen
» Les nuées dynamiques
III- LA CLASSIFICATION MIXTE
IV- DESCRIPTION DES CLASSES
L ’ANALYSE FACTORIELLE DISCRIMINANTE (AFD)
2
Les méthodes de classification
Limites de l’analyse factorielle
» Difficultés d’interprétation au-delà du premier plan factoriel
» Compression excessive et déformations
» Le nombre d’axes significatifs peut être supérieur à 2 : risque de
superpositions de points occupant des positions différentes dans
l’espace.
» Manque de robustesse (des visualisations)
» Un point aberrant peut influencer le premier facteur, et donc toutes les
dimensions car elles sont liées par une contrainte d’orthogonalité.
» Graphiques factoriels inextricables
» Si la visualisation concerne des centaines de points, elle donne lieu à des
graphiques chargés et illisibles.
3
Les méthodes de classification
Nuage de points

4
Les méthodes de classification
Nuage de points

5
Les méthodes de classification
Introduction
Les méthodes de classification sont des méthodes complémentaires à l’ACP,
l’AFC et à l’ACM.
Il existe plusieurs méthodes de classification, parmi les quelles :
» Classification hiérarchique (hierarchical technic) avec les méthodes (
ascendantes et descendantes) ;
» Les méthodes de partitionnement (partitioning technic) où le nombre de
classes est fixé au départ ;
» La méthode des densités (density technic) qui cherche des zones denses
si elles existent ;
» Classification floue (cluming technic ou fuzzy clustering);

6
Les méthodes de classification
Quelques domaines d’applications
» Médecine: regrouper les patients en sous ensemble distincts,
pour définir la conduite thérapeutique ;
» Marketing: former des groupes de villes ou d’individus utilisés
comme marché-test pour le lancement d’un nouveau produit ;
» Politique: regrouper les différents types d’électeurs pour fixer
la stratégie électorale ;
» Économie: regrouper les ménages ou les individus dans des
classes homogènes pour en cibler certains groupes dans une
politique de réduction de la pauvreté, ou dans un programme de
bourse familiale, …
7
Les méthodes de classification
Problème de la classification
Aspect combinatoire

Considérons le nombre de partitions en k classes d’un ensemble de n


individus.
=
» =0 si k>n ;
» =1 si k=n ;
» =1;
» = ;
» Nombre de dichotomies possibles: .
On définit le nombre de partitions:
8
Les méthodes de classification
Problème de la classification
L’explosion combinatoire
» ;
» ;
» ;
peut être relativement grand même si n et k sont petits.
» ;
» ;
»
Même pour n petit, peut exploser.

En règle générale, on cherche la meilleure partition sur (avec k


fixé) ou bien parmi les partitions emboitées. 9
Les méthodes de classification
Mesures de proximité
» Agrégation des classes A et B en C

10
Les méthodes de classification
Mesures de proximité
Une méthode de classification nécessite deux types de mesures
respectivement appelés :
» indice de dissimilarité Sur les individus ;
» indice d’agrégation: Sur les classes ;
» Indice de dissimilarité

(i) ;
(ii)
Il permet de dire si deux individus sont semblables pour être dans une
même classe.
» Exemple: distance euclidienne, distance du
11
Les méthodes de classification
Mesures de proximité
» Indice d’agrégation

(i) D D
(ii) D
Il existe plusieurs indices d’agrégation, selon que E soit un ensemble
quelconque ou non :
» Indice du saut minimum ;
» Indice du saut maximum ;
» Indice du saut moyen ;
» Stratégie barycentrique ;
» Stratégie moment partition ou distance de l’inertie: plus utilisée.
12
Les méthodes de classification
Mesures de proximité
» E est un ensemble quelconque
» Indice du saut minimum
L’indice 𝐷 peut aboutir à des classes contenant des éléments très éloignées : Elle a tendance
à favoriser le regroupement de deux classes dès qu’elles possèdent des points proches.
𝐷 est très utilisé grâce à ses propriétés mathématiques
» Indice du saut maximum
𝐷 exige que les points les plus éloignés, c’est-à-dire tous les points (s’ils sont éloignés au
sens du saut minimal), soient proches : elle permet de corriger 𝑫𝟏 .
» Indice du saut moyen
∈ ∈

13
Les méthodes de classification
Mesures de proximité
» E est un ensemble Euclidien
Soit et le poids de l’individu i.

∈ ∈
» Stratégie barycentrique
» Stratégie moment partition : méthode de Ward

C’est l’indice le plus utilisé : il a l’avantage de minimiser la perte


d’information résultant de l’agrégation entre deux classes.

14
Les méthodes de classification
Formule de l’inertie totale
Soit une partition de E donnée. On note
les inerties interclasses et intra-classes respectivement.
Alors on a :

∈ ∈

15
Les méthodes de classification
Exercices
1. Formule de Lance-Williams
Soit A, B et C trois classes d’individus. Supposons qu’à l’étape courante,
A et B sont agrégés à . Nous cherchons à calculer l’indice du nœud
formé par .

2. Montrer que constitue la perte d’information à chaque étape


d’agrégation ; c’est-à-dire, lorsqu’on agrège deux classes, l’inertie
inter diminue.

16

Vous aimerez peut-être aussi