0% ont trouvé ce document utile (0 vote)
40 vues6 pages

Classico

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
40 vues6 pages

Classico

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

EXEMPLE D’ANALYSE D’UN TABLEAU :

LA CLASSIFICATION HIERARCHIQUE

Cette étude a pour but d’exploiter les données numériques d’un tableau pour "classer" les
individus représentés dans ce tableau. Ce classement pourra, par exemple, être représenté
sous la forme d’un dendrogramme*.
L’étude est basée sur le calcul de distances entre les individus qui sont représentés dans le
tableau de données.
Diverses méthodes de classification sont à notre disposition. Les plus importantes sont celles
basées sur les partitions et celles qui sont hiérarchiques.
Parmi les "hiérarchiques" nous avons choisi celle des "agglomérats avec chaînage simple".
Cette méthode pourra être appliquée à tous les tableaux rassemblant des observations
numériques, par exemple les résultats scolaires d’une classe dans diverses disciplines (exemple
en Annexe).

Prenons un exemple : il s’agit de classer les membres d’un jury de 5 personnes par affinité en
fonction des notes qu’ils ont attribuées à un produit alimentaire.
Quatre descripteurs** ont été mis en place afin de caractériser un nouveau "Petit Suisse".
Ce sont le goût, désigné par go ; l’odeur od ; la texture te ; la couleur co.
Afin de faire apparaître d’éventuelles disparités (ou affinités !) entre ces personnes, on pratique
une expérience qui consiste à faire noter, de 1 à 14 le nouveau "Petit Suisse", suivant chacun
des descripteurs.
Voici les résultats de cette expérience collectés sur une feuille EXCEL :

A B C D E
1 go od te co
Juré
2 A 11.5 9 12 11.5
3 B 8 9.5 11 12.5
4 C 11 10.5 11.5 11
5 D 12 11.5 9 8.5
6 E 12.5 11 10 9.5
En calculant les distances euclidiennes et en agrégeant les individus les plus proches, nous
allons faire apparaître des groupes grâce à un algorithme de "classification hiérarchique et
agglomérative".
Nous conclurons en disant que les éléments composant un agrégat ont des appréciations assez
similaires.

*
Dendrogrammes :il s’agit d’une structure arborescente accompagnée d’une échelle

**
Descripteurs : ce sont des variables qualitatives , des polytomies (voir annexe) ,ordonnées ou non .En analyse sensorielle ,
les plus connues sont les saveurs (sucrées ,amère, acide etc..) ou la texture , l’astringence etc..
Ces variables sont , en général , mises en place après discussion d’un jury d’expert suivie d’un « essai » et enfin d’une analyse
de classification ou d’une ACP .Tout ceci a pour objectif la simplification , la réduction du nombre de variables du système, et
surtout l’élimination de celles qui seraient redondantes. Par exemple il arrive que certains jury amalgament les descripteurs du
type « râpeux » ou « granuleux » en les notant de façon semblable.

ENFA - Bulletin du GRES n°6 – mars 1998 page 9


Contact : Conf [email protected]
Rappel de quelques définitions sur les distances.

Soit E un ensemble d’objets, on appelle distance sur E, toute application d de ExE sur IR+
qui vérifie : pour tout X, pour tout Y, pour tout Z de E,
- d(X,Y) = 0 <==> X = Y
- d (X,Y) = d (Y,X)
- d (X,Z) ≤ d (X,Y) + d (Y,Z)

Nous allons par la suite utiliser la définition suivante sur la distance entre un couple d’objets et
un objet :
d((X,Y) , Z)= min [d(X,Z) ;d(Y,Z)]

Une des familles de distance la plus utilisée est celle de Minkovski définie ci dessous :
Soit X et Y deux vecteurs à n composantes :
n
∑ xi − yi
p
d(X,Y) = p avec p ≥ 1
i =1

La distance la plus fréquemment utilisée est la « distance euclidienne », celle où p=2.


n
∑ (xi − y i )
2
d(X,Y) = 2
i =1
Nous allons utiliser cette distance dans l’exemple de classification hiérarchique automatique de
notre jury de « testeurs » de « Petit Suisse »

Remarques diverses :
Un deuxième type de distance est utilisé dans les tableaux de contingence , il s’agit de la
distance de χ² .
Nous traiterons un exemple dans un prochain numéro.
Nous complèterons également notre étude en pratiquant une ACP (Analyse en Composantes
Principales).

Description de l’algorithme de classification à partir de notre exemple.


1 Calcul des distances euclidiennes.
Comme nous l’avons dit, ces calculs sont le prélude à des analyses plus complexes , dont nous
parlerons dans d’autres numéros, ACP , AFC et autres techniques « d’analyse de données ».
Nous allons tout d’abord calculer les distances euclidiennes afin d’établir une classification
portant sur le jury d ’analyse sensorielle présentée plus haut. La paire constituée des éléments
les plus proches constituera le premier « agrégat ».On procédera ainsi de façon séquentielle
jusqu'à « épuisement » du tableau des distances.
n
∑ (x i − y i )
2
Ces distances sont donc obtenues grâce à l’expression : d(X,Y) = 2 .
i =1
Avec le tableur EXCEL, le calcul peut se faire en utilisant la fonction SOMME.XMY2(X;Y)
dont on prendra la racine carrée.

ENFA - Bulletin du GRES n°6 – mars 1998 page 10


Contact : Conf [email protected]
A B C D E F G H
9 A B C D E
10 A 0 3,81 1,73 4,95 3,61
11 B 3,81 0 3,54 6,32 5,70
12 C 1,73 3,54 0 3,81 2,65
13 D 4,95 6,32 3,81 0 1,58
14 E 3,61 5,70 2,65 1,58 0 1,58

La formule de la cellule B10 est :


= RACINE(SOMME.XMY2($B$2:$E$2;B2: E2))
La formule de la cellule C10 est : =RACINE(SOMME.XMY2($B$3:$E$3;B2:E2)) et ainsi de
suite dans les cellules D10, E10 et F10
Le bloc B10:F10 est ensuite recopié vers le bas jusqu’à la ligne 14.
Pour obtenir la valeur, non nulle, la plus petite du tableau on peut utiliser la fonction EXCEL :
PETITE.VALEUR(mat;k) qui renvoie la plus petite valeur de rang k du tableau mat ; attention
cette fonction tient compte des ex aequo donc ici nous utiliserons la formule, dans la cellule
H14 ( à cause des 5 zéros du tableau), =PETITE.VALEUR(B10:F14;6) qui renvoie la valeur
1,58.

Nous trouvons donc que les individus D et E sont "les plus proches".

* Nous allons maintenant chercher les distances entre les objets A, B, C, (D,E)
A B C D E F G
17 A B C (D,E)
18 A 0 3,81 1,73 3,61
19 B 3,81 0 3,54 5,70
20 C 1,73 3,54 0 2,65
21 (D,E) 3,61 5,70 2,65 0 1,73
La plage B18:D20 est une recopie (des valeurs) de la plage correspondante du tableau
précédent, la ligne (et la colonne) (D,E) se détermine, à partir du tableau précédent en regardant
la plus petite distance de chacun des individus A,B et C à D et à E (il se trouve qu’ici c’est
systématiquement D qui est le plus proche).

La valeur non nulle la plus petite du tableau est donnée dans la cellule G21 par la formule :
=PETITE.VALEUR(B18:E21;5)

Les deux objets les plus proches sont donc A et C.

* Nous allons maintenant chercher les distances entre les objets B, (A,C) et
(D,E)

A B C D E F
24 B (A,C) (D,E)
25 B 0 3,54 5,70
26 (A,C) 3,54 0 2,65
27 (D,E) 5,70 2,65 0 2,65

ENFA - Bulletin du GRES n°6 – mars 1998 page 11


Contact : Conf [email protected]
Ce tableau est réalisé en recopiant du tableau précédent les valeurs convenables.

On constate que les objets les plus proches sont (A,C) et (D,E).

* La dernière étape, symbolique, consiste à constater que la distance de B à


((A,C),(D,E)) est 3,54.

A B C D E
30 B ((A,C),(D,E))
31 B 0 3,54
32 ((A,C),(D,E)) 3,54 0 3,54

2) Pour conclure quant à nos jurés :

Nous pouvons distinguer trois groupes ou agrégats, le premier formé des jurés D et E distant de
celui de A et C de 2,65 unités et enfin au loin le juré B distant de 3,54 de ses voisins les plus
proches. Il semble que ce dernier devra être exclu du jury , au moins durant sa période de
rhume.

ENFA - Bulletin du GRES n°6 – mars 1998 page 12


Contact : Conf [email protected]
Nous pouvons illustrer la situation à l’aide du dendrogramme suivant :

3,54

2,65

1,58 1,73

D E A C B

Il existe de nombreuses autres méthodes de classification ; les logiciels informatiques dédiés à


la statistique permettent la mise en œuvre de ces méthodes.

ENFA - Bulletin du GRES n°6 – mars 1998 page 13


Contact : Conf [email protected]
Annexes :

1 Petit exercice livré à votre sagacité.

Voici les résultats, ce trimestre, de 7 élèves de 6éme « Europe » du collège Robert Lapointe de
Pézenas, qui en plus de leurs cours pratiquent activement l’art choral.
Vous devez mettre en place une classification hiérarchique portant sur ces élèves.

Noms Français Math Anglais Histoir SVDT Techno Ed Art Educ P


e Mus Plas
Bouis F 7 10 11 5 5 11 6 10 14
Cartouche I 13 12 16 12 14 13 13 13 15
Desbois S 11 5 16 6 4 12 2 11 9
Goupil H 14 13 16 11 18 15 8 13 14
Lepape E 7 6 7 9 3 11 2 6 14
Mammou R 11 18 12 11 15 13 13 12 14

Vous constaterez que deux groupes principaux seront différenciés.


Celui formé par I,H et R qui est à une distance de 16 unités environ de celui formé par
F, E et S .
Plus précisément, vous allez mettre en évidence 4 agglomérats : IH-R-FE-S

16

7 ,7 1 0 ,5

7 9 ,2

H I R E F S

2 Quelques ouvrages à consulter sur le sujet :

« Classification automatique des données » chez Dunod par Celeux, Diday (1989)
« Classification automatique pour l ’analyse des donnée » chez Dunod par Jambu, Lebeaux
(1978)
« L’analyse des données » dans la collection Que Sais - Je par Saporta et Bourroche.
On peut consulter les sites spécialisés en « Statistics » sur INTERNET...ils sont nombreux et
variés.

ENFA - Bulletin du GRES n°6 – mars 1998 page 14


Contact : Conf [email protected]

Vous aimerez peut-être aussi