0% ont trouvé ce document utile (0 vote)

40 vues6 pages

Classico

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

40 vues6 pages

Classico

Transféré par

hery frederic Rakotomalala

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

EXEMPLE D’ANALYSE D’UN TABLEAU :

LA CLASSIFICATION HIERARCHIQUE

Cette étude a pour but d’exploiter les données numériques d’un tableau pour "classer" les
individus représentés dans ce tableau. Ce classement pourra, par exemple, être représenté
sous la forme d’un dendrogramme*.
L’étude est basée sur le calcul de distances entre les individus qui sont représentés dans le
tableau de données.
Diverses méthodes de classification sont à notre disposition. Les plus importantes sont celles
basées sur les partitions et celles qui sont hiérarchiques.
Parmi les "hiérarchiques" nous avons choisi celle des "agglomérats avec chaînage simple".
Cette méthode pourra être appliquée à tous les tableaux rassemblant des observations
numériques, par exemple les résultats scolaires d’une classe dans diverses disciplines (exemple
en Annexe).

Prenons un exemple : il s’agit de classer les membres d’un jury de 5 personnes par affinité en
fonction des notes qu’ils ont attribuées à un produit alimentaire.
Quatre descripteurs** ont été mis en place afin de caractériser un nouveau "Petit Suisse".
Ce sont le goût, désigné par go ; l’odeur od ; la texture te ; la couleur co.
Afin de faire apparaître d’éventuelles disparités (ou affinités !) entre ces personnes, on pratique
une expérience qui consiste à faire noter, de 1 à 14 le nouveau "Petit Suisse", suivant chacun
des descripteurs.
Voici les résultats de cette expérience collectés sur une feuille EXCEL :

A B C D E
1 go od te co
Juré
2 A 11.5 9 12 11.5
3 B 8 9.5 11 12.5
4 C 11 10.5 11.5 11
5 D 12 11.5 9 8.5
6 E 12.5 11 10 9.5
En calculant les distances euclidiennes et en agrégeant les individus les plus proches, nous
allons faire apparaître des groupes grâce à un algorithme de "classification hiérarchique et
agglomérative".
Nous conclurons en disant que les éléments composant un agrégat ont des appréciations assez
similaires.

*
Dendrogrammes :il s’agit d’une structure arborescente accompagnée d’une échelle

**
Descripteurs : ce sont des variables qualitatives , des polytomies (voir annexe) ,ordonnées ou non .En analyse sensorielle ,
les plus connues sont les saveurs (sucrées ,amère, acide etc..) ou la texture , l’astringence etc..
Ces variables sont , en général , mises en place après discussion d’un jury d’expert suivie d’un « essai » et enfin d’une analyse
de classification ou d’une ACP .Tout ceci a pour objectif la simplification , la réduction du nombre de variables du système, et
surtout l’élimination de celles qui seraient redondantes. Par exemple il arrive que certains jury amalgament les descripteurs du
type « râpeux » ou « granuleux » en les notant de façon semblable.

ENFA - Bulletin du GRES n°6 – mars 1998 page 9

Contact : Conf [email protected]
Rappel de quelques définitions sur les distances.

Soit E un ensemble d’objets, on appelle distance sur E, toute application d de ExE sur IR+
qui vérifie : pour tout X, pour tout Y, pour tout Z de E,
- d(X,Y) = 0 <==> X = Y
- d (X,Y) = d (Y,X)
- d (X,Z) ≤ d (X,Y) + d (Y,Z)

Nous allons par la suite utiliser la définition suivante sur la distance entre un couple d’objets et
un objet :
d((X,Y) , Z)= min [d(X,Z) ;d(Y,Z)]

Une des familles de distance la plus utilisée est celle de Minkovski définie ci dessous :
Soit X et Y deux vecteurs à n composantes :
n
∑ xi − yi
p
d(X,Y) = p avec p ≥ 1
i =1

La distance la plus fréquemment utilisée est la « distance euclidienne », celle où p=2.

n
∑ (xi − y i )
2
d(X,Y) = 2
i =1
Nous allons utiliser cette distance dans l’exemple de classification hiérarchique automatique de
notre jury de « testeurs » de « Petit Suisse »

Remarques diverses :
Un deuxième type de distance est utilisé dans les tableaux de contingence , il s’agit de la
distance de χ² .
Nous traiterons un exemple dans un prochain numéro.
Nous complèterons également notre étude en pratiquant une ACP (Analyse en Composantes
Principales).

Description de l’algorithme de classification à partir de notre exemple.

1 Calcul des distances euclidiennes.
Comme nous l’avons dit, ces calculs sont le prélude à des analyses plus complexes , dont nous
parlerons dans d’autres numéros, ACP , AFC et autres techniques « d’analyse de données ».
Nous allons tout d’abord calculer les distances euclidiennes afin d’établir une classification
portant sur le jury d ’analyse sensorielle présentée plus haut. La paire constituée des éléments
les plus proches constituera le premier « agrégat ».On procédera ainsi de façon séquentielle
jusqu'à « épuisement » du tableau des distances.
n
∑ (x i − y i )
2
Ces distances sont donc obtenues grâce à l’expression : d(X,Y) = 2 .
i =1
Avec le tableur EXCEL, le calcul peut se faire en utilisant la fonction SOMME.XMY2(X;Y)
dont on prendra la racine carrée.

ENFA - Bulletin du GRES n°6 – mars 1998 page 10

Contact : Conf [email protected]
A B C D E F G H
9 A B C D E
10 A 0 3,81 1,73 4,95 3,61
11 B 3,81 0 3,54 6,32 5,70
12 C 1,73 3,54 0 3,81 2,65
13 D 4,95 6,32 3,81 0 1,58
14 E 3,61 5,70 2,65 1,58 0 1,58

La formule de la cellule B10 est :

= RACINE(SOMME.XMY2($B$2:$E$2;B2: E2))
La formule de la cellule C10 est : =RACINE(SOMME.XMY2($B$3:$E$3;B2:E2)) et ainsi de
suite dans les cellules D10, E10 et F10
Le bloc B10:F10 est ensuite recopié vers le bas jusqu’à la ligne 14.
Pour obtenir la valeur, non nulle, la plus petite du tableau on peut utiliser la fonction EXCEL :
PETITE.VALEUR(mat;k) qui renvoie la plus petite valeur de rang k du tableau mat ; attention
cette fonction tient compte des ex aequo donc ici nous utiliserons la formule, dans la cellule
H14 ( à cause des 5 zéros du tableau), =PETITE.VALEUR(B10:F14;6) qui renvoie la valeur
1,58.

Nous trouvons donc que les individus D et E sont "les plus proches".

* Nous allons maintenant chercher les distances entre les objets A, B, C, (D,E)
A B C D E F G
17 A B C (D,E)
18 A 0 3,81 1,73 3,61
19 B 3,81 0 3,54 5,70
20 C 1,73 3,54 0 2,65
21 (D,E) 3,61 5,70 2,65 0 1,73
La plage B18:D20 est une recopie (des valeurs) de la plage correspondante du tableau
précédent, la ligne (et la colonne) (D,E) se détermine, à partir du tableau précédent en regardant
la plus petite distance de chacun des individus A,B et C à D et à E (il se trouve qu’ici c’est
systématiquement D qui est le plus proche).

La valeur non nulle la plus petite du tableau est donnée dans la cellule G21 par la formule :
=PETITE.VALEUR(B18:E21;5)

Les deux objets les plus proches sont donc A et C.

* Nous allons maintenant chercher les distances entre les objets B, (A,C) et
(D,E)

A B C D E F
24 B (A,C) (D,E)
25 B 0 3,54 5,70
26 (A,C) 3,54 0 2,65
27 (D,E) 5,70 2,65 0 2,65

ENFA - Bulletin du GRES n°6 – mars 1998 page 11

Contact : Conf [email protected]
Ce tableau est réalisé en recopiant du tableau précédent les valeurs convenables.

On constate que les objets les plus proches sont (A,C) et (D,E).

* La dernière étape, symbolique, consiste à constater que la distance de B à

((A,C),(D,E)) est 3,54.

A B C D E
30 B ((A,C),(D,E))
31 B 0 3,54
32 ((A,C),(D,E)) 3,54 0 3,54

2) Pour conclure quant à nos jurés :

Nous pouvons distinguer trois groupes ou agrégats, le premier formé des jurés D et E distant de
celui de A et C de 2,65 unités et enfin au loin le juré B distant de 3,54 de ses voisins les plus
proches. Il semble que ce dernier devra être exclu du jury , au moins durant sa période de
rhume.

ENFA - Bulletin du GRES n°6 – mars 1998 page 12

Contact : Conf [email protected]
Nous pouvons illustrer la situation à l’aide du dendrogramme suivant :

3,54

2,65

1,58 1,73

D E A C B

Il existe de nombreuses autres méthodes de classification ; les logiciels informatiques dédiés à

la statistique permettent la mise en œuvre de ces méthodes.

ENFA - Bulletin du GRES n°6 – mars 1998 page 13

Contact : Conf [email protected]
Annexes :

1 Petit exercice livré à votre sagacité.

Voici les résultats, ce trimestre, de 7 élèves de 6éme « Europe » du collège Robert Lapointe de
Pézenas, qui en plus de leurs cours pratiquent activement l’art choral.
Vous devez mettre en place une classification hiérarchique portant sur ces élèves.

Noms Français Math Anglais Histoir SVDT Techno Ed Art Educ P

e Mus Plas
Bouis F 7 10 11 5 5 11 6 10 14
Cartouche I 13 12 16 12 14 13 13 13 15
Desbois S 11 5 16 6 4 12 2 11 9
Goupil H 14 13 16 11 18 15 8 13 14
Lepape E 7 6 7 9 3 11 2 6 14
Mammou R 11 18 12 11 15 13 13 12 14

Vous constaterez que deux groupes principaux seront différenciés.

Celui formé par I,H et R qui est à une distance de 16 unités environ de celui formé par
F, E et S .
Plus précisément, vous allez mettre en évidence 4 agglomérats : IH-R-FE-S

7 ,7 1 0 ,5

7 9 ,2

H I R E F S

2 Quelques ouvrages à consulter sur le sujet :

« Classification automatique des données » chez Dunod par Celeux, Diday (1989)
« Classification automatique pour l ’analyse des donnée » chez Dunod par Jambu, Lebeaux
(1978)
« L’analyse des données » dans la collection Que Sais - Je par Saporta et Bourroche.
On peut consulter les sites spécialisés en « Statistics » sur INTERNET...ils sont nombreux et
variés.

ENFA - Bulletin du GRES n°6 – mars 1998 page 14

Contact : Conf [email protected]

Vous aimerez peut-être aussi

Clas Hiero
Pas encore d'évaluation
Clas Hiero
6 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
10 pages
Cours 601
Pas encore d'évaluation
Cours 601
22 pages
CHAPITRE4
Pas encore d'évaluation
CHAPITRE4
21 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
43 pages
Classification Hiérarchique en Statistiques
Pas encore d'évaluation
Classification Hiérarchique en Statistiques
16 pages
SPSS : Classification Hiérarchique
Pas encore d'évaluation
SPSS : Classification Hiérarchique
25 pages
Méthodes de Clustering et Distances
Pas encore d'évaluation
Méthodes de Clustering et Distances
64 pages
Cours 601
Pas encore d'évaluation
Cours 601
18 pages
Corrige TD2
Pas encore d'évaluation
Corrige TD2
13 pages
7 Tdhierarchiquecor 18
Pas encore d'évaluation
7 Tdhierarchiquecor 18
4 pages
Chapitre 3 - App Et Classification Non Supervisé (Complet)
Pas encore d'évaluation
Chapitre 3 - App Et Classification Non Supervisé (Complet)
43 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
16 pages
Tpe Cabrelle
Pas encore d'évaluation
Tpe Cabrelle
11 pages
Classification Automatique des Données
Pas encore d'évaluation
Classification Automatique des Données
11 pages
Introduction au Clustering
Pas encore d'évaluation
Introduction au Clustering
6 pages
Analyse Des Donnees
Pas encore d'évaluation
Analyse Des Donnees
10 pages
Méthodes Dapprentissage Non Supervisées
Pas encore d'évaluation
Méthodes Dapprentissage Non Supervisées
65 pages
Coursacp 20210429
Pas encore d'évaluation
Coursacp 20210429
20 pages
Méthodes d'analyse de données
Pas encore d'évaluation
Méthodes d'analyse de données
39 pages
Chapitre 5 - Les Méthodes de Classification PDF
100% (1)
Chapitre 5 - Les Méthodes de Classification PDF
11 pages
Analyse Donnees Multivariees
Pas encore d'évaluation
Analyse Donnees Multivariees
66 pages
Chapitre 5 - CHA - SMI - S6 - 2022 - 2023
Pas encore d'évaluation
Chapitre 5 - CHA - SMI - S6 - 2022 - 2023
39 pages
IIT - 3eme Genie INDUS - DM - Chap 2 (Complet)
Pas encore d'évaluation
IIT - 3eme Genie INDUS - DM - Chap 2 (Complet)
43 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
16 pages
Cours Add MMBDS
Pas encore d'évaluation
Cours Add MMBDS
25 pages
Chapitre 1: 1.1 Qu'est Ce Que L'analyse Des Données ?
Pas encore d'évaluation
Chapitre 1: 1.1 Qu'est Ce Que L'analyse Des Données ?
24 pages
Techniques de Clustering et Algorithmes
Pas encore d'évaluation
Techniques de Clustering et Algorithmes
47 pages
Analyse des Correspondances et Classification
Pas encore d'évaluation
Analyse des Correspondances et Classification
111 pages
Clustering : Guide Essentiel et Applications
Pas encore d'évaluation
Clustering : Guide Essentiel et Applications
10 pages
Ana Mult 4 2014
Pas encore d'évaluation
Ana Mult 4 2014
22 pages
Formulaire AD
Pas encore d'évaluation
Formulaire AD
3 pages
Analyse Typologique des Données
Pas encore d'évaluation
Analyse Typologique des Données
29 pages
Typologie Bah
Pas encore d'évaluation
Typologie Bah
45 pages
Mesures et Méthodes de Classification
Pas encore d'évaluation
Mesures et Méthodes de Classification
2 pages
Correction TD 1 KNN
Pas encore d'évaluation
Correction TD 1 KNN
2 pages
BAMSIREPRINT04
Pas encore d'évaluation
BAMSIREPRINT04
80 pages
Chapter 3 Clustering
Pas encore d'évaluation
Chapter 3 Clustering
7 pages
Techniques de Clustering en Apprentissage Non Supervisé
Pas encore d'évaluation
Techniques de Clustering en Apprentissage Non Supervisé
38 pages
Notes Analyses Statistiques Multivariees
Pas encore d'évaluation
Notes Analyses Statistiques Multivariees
86 pages
Travaux Dirige-et-corriges-Apprentissage Non Supervisee-Analyse Factorielle-Arbre de Decision-27 Mai 2022 12h15
100% (2)
Travaux Dirige-et-corriges-Apprentissage Non Supervisee-Analyse Factorielle-Arbre de Decision-27 Mai 2022 12h15
37 pages
Statistiques Multivariées pour Biologistes
Pas encore d'évaluation
Statistiques Multivariées pour Biologistes
76 pages
Cours MM Chap4 2020
Pas encore d'évaluation
Cours MM Chap4 2020
16 pages
Guide de l'analyse typologique
Pas encore d'évaluation
Guide de l'analyse typologique
19 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
35 pages
Analyse Factoreil
Pas encore d'évaluation
Analyse Factoreil
23 pages
Classification Ascendante Hiérarchique
Pas encore d'évaluation
Classification Ascendante Hiérarchique
6 pages
Cours ANAD 2022-2023
Pas encore d'évaluation
Cours ANAD 2022-2023
21 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
40 pages
Clu String
Pas encore d'évaluation
Clu String
32 pages
Chap 1 2 3 Généralités AF ACP
Pas encore d'évaluation
Chap 1 2 3 Généralités AF ACP
7 pages
Analyse Des Données CHIC
Pas encore d'évaluation
Analyse Des Données CHIC
29 pages
Introduction à l'analyse de données
Pas encore d'évaluation
Introduction à l'analyse de données
15 pages
Analyse et Traitement de Données Environnementales
Pas encore d'évaluation
Analyse et Traitement de Données Environnementales
4 pages
Chap3 Clustering
Pas encore d'évaluation
Chap3 Clustering
48 pages
Analyse de Donnée
Pas encore d'évaluation
Analyse de Donnée
59 pages
Cours DM 2 PDF
Pas encore d'évaluation
Cours DM 2 PDF
10 pages
PSR M2 Ana Multidim Des Donnees
Pas encore d'évaluation
PSR M2 Ana Multidim Des Donnees
177 pages
Classes de mots en français
Pas encore d'évaluation
Classes de mots en français
2 pages
Arrivage HIGER-shacman 2025
Pas encore d'évaluation
Arrivage HIGER-shacman 2025
3 pages
RAPORT DE STAGE Setarya
Pas encore d'évaluation
RAPORT DE STAGE Setarya
21 pages
Ellipsoide Geodesique
0% (1)
Ellipsoide Geodesique
2 pages
Questionnaire À Remplir FANEPIA
Pas encore d'évaluation
Questionnaire À Remplir FANEPIA
25 pages
Mercia Kouni
Pas encore d'évaluation
Mercia Kouni
1 page
Exercices RC 22
Pas encore d'évaluation
Exercices RC 22
4 pages
Contacts étudiants PFE en automatisme
Pas encore d'évaluation
Contacts étudiants PFE en automatisme
9 pages
Cours j3
Pas encore d'évaluation
Cours j3
29 pages
73-Notice 1
Pas encore d'évaluation
73-Notice 1
48 pages
2223 Chap 4 VE
Pas encore d'évaluation
2223 Chap 4 VE
54 pages
Plan de Coffrage Fondation
Pas encore d'évaluation
Plan de Coffrage Fondation
1 page
Rapport Mensuel N°3 BAT PART MARS.2024
Pas encore d'évaluation
Rapport Mensuel N°3 BAT PART MARS.2024
14 pages
Exam 2010 Elts de Reponse PDF
Pas encore d'évaluation
Exam 2010 Elts de Reponse PDF
4 pages
3e Thales ExercicesDeBase Corriges
Pas encore d'évaluation
3e Thales ExercicesDeBase Corriges
7 pages
M203 Chapitre 2
Pas encore d'évaluation
M203 Chapitre 2
28 pages
Bibliothèques Du Langage C++
Pas encore d'évaluation
Bibliothèques Du Langage C++
3 pages
Cours de Physique Chimie 8ème
Pas encore d'évaluation
Cours de Physique Chimie 8ème
35 pages
Soutenance Du Projet de Fin D'année
Pas encore d'évaluation
Soutenance Du Projet de Fin D'année
18 pages
Programme D'assainissement Pluvial de Cotonou-Papco - Par QC - Final
Pas encore d'évaluation
Programme D'assainissement Pluvial de Cotonou-Papco - Par QC - Final
121 pages
AGR - Agent D'entretien Des Parcs Et Jardins
Pas encore d'évaluation
AGR - Agent D'entretien Des Parcs Et Jardins
25 pages
Docteur Alfred Tomatis Un Passeur de La Voix Divine JW
Pas encore d'évaluation
Docteur Alfred Tomatis Un Passeur de La Voix Divine JW
2 pages
Université Hassan II Mohammedia Casablanca: Faculté Des Sciences Et Techniques Département de Physique
Pas encore d'évaluation
Université Hassan II Mohammedia Casablanca: Faculté Des Sciences Et Techniques Département de Physique
3 pages
Gestion de Parc PERFORM
100% (1)
Gestion de Parc PERFORM
89 pages
Devoir2 3AC OUKKA Sem1
Pas encore d'évaluation
Devoir2 3AC OUKKA Sem1
4 pages
Feuille Tage
Pas encore d'évaluation
Feuille Tage
19 pages
Stage en Génie Électrique et Informatique
Pas encore d'évaluation
Stage en Génie Électrique et Informatique
2 pages
Créer Une Mare Chez Soi - Livret Eau & Rivieres de Bretagne
100% (4)
Créer Une Mare Chez Soi - Livret Eau & Rivieres de Bretagne
12 pages
Montage et Entretien Courroies Veco
Pas encore d'évaluation
Montage et Entretien Courroies Veco
1 page
74 Questions Entretien Recrutement
Pas encore d'évaluation
74 Questions Entretien Recrutement
9 pages