Méthodologie de comparaison de partitions
Méthodologie de comparaison de partitions
Spécialité
MATHEMATIQUES (STATISTIQUE)
Présentée par
Genane YOUNESS
Sujet de la thèse :
Monsieur Jean Paul RASSON, professeur aux Facultés universitaires Notre Dame
de la Paix à Namur, pour sa participation à mon jury de thèse en qualité de rapporteur de
mon travail et pour toutes remarques intéressantes qu’il m’a faites.
Je remercie Monsieur Hassan AWADA, pour son intérêt permanent à mon égard
et pour son soutien sur le plan humain.
Finalement je remercie mes parents pour leurs soutiens qui m’a été bien utile
durant ma thèse.
Résumé
La comparaison de classification est l’une des questions ouvertes en analyse de données.
Le besoin de comparer deux partitions survient lors de l’étude de deux enquêtes portant
soit sur les mêmes individus, soit sur un même questionnaire. L’objectif de notre travail
est d’étudier ces différentes approches et de trouver des procédures formalisées qui
reposent sur des modèles probabilistes d’écart à une typologie qui soient réalistes pour le
cas de comparaison de deux partitions dans les différents contextes.
Dans notre thèse, nous proposons une procédure pour comparer deux partitions proches.
Notre approche consister à étudier la distribution de divers indices d’associations en
engendrant par simulation des partitions qui devraient être proches car issues d’un même
modèle sous-jacent qui est le modèles des classes latentes. Nous présentons les écritures
contingentielles et relationnelles de ces indices de comparaison et nous cherchons leurs
distributions d’échantillonnage sous l’hypothèse de liaison forte.
Pour comparer des partitions, basées sur les mêmes variables, nous proposons une
méthode par projection de partitions utilisant l’analyse discriminante linéaire sur l’une
des partitions et le reclassement des individus de l’autre partition sur les classes de la
première. Nous présentons une autre approche basée sur l’utilisation de la classification
des variables qui consiste en particulier à comparer les arbres hiérarchiques à partir
d’indices de consensus.
Mots- clés: classes latentes, partition, indices d’associations, analyse discriminante
linéaire, classification des variables, indices de consensus.
Abstract
Comparing partitions is one of the open-ended questions in data analysis. The need to
compare two partitions occurs during the study of two surveys having the same data set
or the same questionnaires. The goal of our work is to study these different approaches
and to find formal procedures based on probabilistic models that are realistic in the case
of comparing close partitions.
In our theses, we propose a methodology to compare two “near-identical partitions”. Our
approach consists in studying the empirical distribution of some association measures by
simulating similar partitions coming from a common latent class model. We present the
contingential and the paired comparisons forms for the association measures. We study
the empirical distribution for these indexes under the hypothesis of close partitions.
For comparing partitions of different units based on the same questionnaires, we propose
a method of projection of partitions using linear discriminant analysis on one of the
partitions and allocating the units of the other partition in the classes of the first one. We
present another approach based on the use of the classification of variables for which the
procedure consists in comparing these classification according to consensus indices.
Introduction Générale
L’une des questions ouvertes en classification est la comparaison des structures de
données. Le besoin de comparer des partitions obtenues par plusieurs méthodes de
classification ou sur différentes données survient lors de l’étude de deux enquêtes portant
soit sur les mêmes individus, soit sur différents échantillons pour un même questionnaire.
Rand, W.M. [RAN 71] a proposé l’indice d’accord considéré comme le mieux adapté à
cette problématique. Cet indice a été ensuite modifié par Fowlkes, E.B. et Mallows, C.L.
[FOW 83]. Basé sur la comparaison des triples objets, Hubert L., et Arabie, P. [HUB 85]
ont proposé l’utilisation de cet indice pour mesurer la correspondance entre les partitions.
En utilisant l’aspect mathématique et statistique des coefficients de comparaison,
Lerman, I.C. [LER 88] a tenu compte des contraintes relationnelles qui résulte de la
structure d’une partition. Une présentation de l’indice de Rand en utilisant le concept de
comparaison par paires, a été réalisée par Marcotorchino, J.P. [MAR 91]. En 1997,
Saporta, G. [SAP 97] a présenté diverses approches destinées à répondre aux questions
suivantes lors de la comparaison de deux enquêtes: « peut-on affirmer que la
classification n’a pas changé, que le nombre de classes est le même, que les proportions
respectives des classes ont ou n’ont pas varié, que les classes s’interprètent de la même
façon ? ». Une méthode de recherche d’une classification consensus à partir de plusieurs
partitions, utilisant l’indice de Rand a été proposée par Krieger, A. et Green, P. [KRI 99].
Une fois définie un indice de similarité entre partitions, une manière d’aborder le
problème de la comparaison consiste à calculer une valeur critique au-dessus ou en deçà
de laquelle on conclura que les deux partitions sont ou non concordantes.
Il faut alors connaître la distribution de probabilité de cet indice, mais sous quelle
hypothèse ? Cette question ne semble curieusement pas avoir été traitée dans la
TABLE DES MATIERES 6
littérature, en tous cas pas sous des hypothèses réalistes [SAP 97, 01, 02]. En effet, les
rares travaux connus et récents [IDR 00], concernent la distribution de l’indice de Rand et
de l’indice de Janson et Vegelius sous l’hypothèse d’indépendance. Or cette hypothèse
n’est évidemment pas pertinente pour la question posée, car la non-indépendance ne
signifie pas une forte concordance. La difficulté est de conceptualiser une hypothèse
nulle d’identité de deux partitions. Nous nous trouvons dans une situation voisine de celle
où nous voudrons tester que deux variables numériques sont identiques : or si ρ=1, nous
savons que r=1 et nous n’avons pas de test utile de l’hypothèse nulle qui se trouve rejetée
dès que r>1.
L’objectif de notre travail est d’étudier ces différentes approches et de trouver des
procédures formalisées qui reposent sur des modèles probabilistes d’écart à une typologie
qui soient réalistes pour le cas de comparaison de deux partitions sur le même ensemble
d’individus ou sur un même groupe de variables. Ces procédures tiennent comptes du
fait que l’appartenance à une classe comporte toujours une part d’incertitude.
Objectifs et Originalité de la thèse
Pour définir ce que nous entendons par « partitions proches », notre approche consiste à
dire que les individus proviennent d’une même partition commune, dont les deux
partitions observées en sont des réalisations bruitées. Nous construisons à partir d’une
partition initiale basée sur des caractéristiques probabilistes (le modèle des classes
latentes), deux partitions par la méthode des k-means. Ces deux partitions qui ne diffèrent
que d’une façon aléatoire sont comparées à partir des indices de ressemblance. Une étude
distributionnelle de ces différents indices est effectuée.
Nous proposons une nouvelle méthode de comparaison de partitions, basée sur les mêmes
variables, par projection de partitions. Notre procédure consiste à appliquer l’analyse
discriminante sur une des deux partitions et à reclasser les individus de l’autre partition
TABLE DES MATIERES 7
sur la première partition. Toujours dans le même contexte de comparaison, nous donnons
une autre approche basée sur l’utilisation de la classification des variables dont la
démarche est de trouver les arbres hiérarchiques et de les comparer à partir des indices de
consensus.
Plan de la thèse
Le troisième chapitre étudie en détail les différents indices qui serviront par la suite pour
notre étude : Rand, Rand asymétrique, kappa de Cohen etc. Des formulations
contingentielles et relationnelles pour la plupart de ces indices sont présentées.
Au quatrième chapitre, nous cherchons à comparer deux partitions provenant d’un même
ensemble d’individus décrits par deux ensembles de variables pour tester si elles sont
proches ou non. Nous nous intéressons à tester la stabilité des classes et de leurs
interprétations pour les deux partitions. Nous présentons ici une méthodologie de
constructions de partitions proches utilisant un modèle de classes latentes.
Dans le but de valider l’étude présentée dans les deux derniers chapitres, le dernier
chapitre est consacré à l’application des différents algorithmes sur des données réelles.
Une partie des résultats des chapitres trois et quatre a fait l’objet de publications :
TABLE DES MATIERES 8
Gilbert Saporta, Genane Youness: Comparing Two Partitions: Some Proposals and
Experiments - In Proceedings in Computational Statistics 2002, 15th Symposium held in
Berlin, Germany, 2002 Haerdle, Wolfgang; Roenz, Bernd (Eds.), Physica Verlag, 243-
248, 2002.
Chapitre 1
1.1 Introduction
Dès les premières tentatives de classification s’est posé le problème du nombre de
classes, de la validation, et de l’existence de ces classes. Les questions sont aussi simples
que les réponses sont complexes : Existe t- il des classes ? Si oui, combien ? Une fois
trouvées des réponses, on peut donc traiter la comparaison de deux partitions provenant
d’un même ensemble de données ou d’un même questionnaire.
Nous évoquerons brièvement dans ce chapitre quelques travaux réalisés à propos des
problèmes de l’existence, de la détermination du « vrai » nombre des classes d’une
partition ainsi que les algorithmes de classification.
Nous présenterons en premier lieu les modèles probabilistes qui évaluent et étudient
l’existence d’une partition, parmi lesquels les modèles de partitions fixes, et les modèles
de classes latentes que nous utiliseront par la suite dans notre travail pour générer des
partitions proches. La deuxième partie présente les algorithmes de classification les plus
utilisés comme la méthode de classification autour de centres mobiles, les k-means et les
algorithmes ascendants. La troisième partie est consacrée aux approches de validation qui
se trouvent dans la littérature dans un cadre non probabiliste. Les tests statistiques de F
maximum, de Wilks maximum et de gap peuvent être utilisés pour tester l’homogénéité
des classes des partitions. En dernier lieu, les critères AIC, BIC, MLD, ICOMP, les
critères d’entropie EC et NEC seront présentés comme des méthodes visant à déterminer
le nombre des classes d’une partition.
TABLE DES MATIERES 10
chacune des k classes est associée une densité fh(x). Si les fh(x) sont des lois normales
k 2 k
2
cr ( k ) = ∑ ∑ xi − xh = ∑ ∑ d ( xi, g h )
h =1 i∈Ph h =1 i∈Ph
On retrouve dans ce cas particulier le critère d'inertie utilisé dans la méthode de Forgy ou
des nuées dynamiques, ce qui permet de comprendre pourquoi ces méthodes ont tendance
à créer des classes sphériques.
k k
f(x)= ∑ p h f h ( x ) avec 0<ph<1 et ∑ p h = 1
h =1 h =1
TABLE DES MATIERES 11
fh(x) est la densité de la classe h dont la forme doit être spécifiée. Le nombre de classe k
doit être connu. Dans ces conditions, l’hypothèse d’absence de structure peut être celle de
l’identité de diverses composantes fh(x) de la densité f(x).
Connaître les variables latentes permettrait donc de diminuer les corrélations entre
variables observées, d’où le principe fondamental d’indépendance conditionnelle : les
variables observées sont indépendantes conditionnellement aux variables latentes.
L’analyse en facteurs communs et spécifiques en est le cas particulier le plus connu, où
variables observables et facteurs sont tout quantitatifs. Le tableau suivant présente les
différentes situations selon la terminologie de Bartholomew et Knott [BAR 99] :
Variables latentes
k p x 1− x j
f ( x ) = ∑ π h ∏ p jhj (1 − p jh )
h =1 j =1
p x 1− x j
H ( h / x ) = π h ∏ p jhj (1 − p jh ) / f (x)
j =1
Le modèle de classes latentes peut s’étendre sans difficultés à des variables observées à
plus de deux catégories, mais ne sera pas développé ici.
n k p x 1− x ji
l = ∑ ln ∑ π h ∏ p jhji (1 − p jh )
i =1 h =1 j =1
TABLE DES MATIERES 13
k
lagrangien φ = l + λ ∑ π h en simplifiant avec la formule de Bayes et en introduisant les
h =1
n
πˆ h = ∑ H ( h / x i ) / n
i =1
La deuxième :
n
∑ ( x ji − p jh ) H ( x i / h ) / p jh (1 − p jh ) = 0
i =1
soit
n
p̂ jh = ∑ x ji H ( h / x i ) / nπˆ h
i =1
Une fois les paramètres estimés, on peut alors comparer les fréquences observées n(x) des
différents vecteurs x possibles (2p au maximum) de variables observées, avec leurs
espérances données par nf̂ ( x ) .
n( x )
On compare alors G 2 = 2∑ n( x ) ln( ) à un khi-deux à ν=2p – k(p+1) + 1 degré de
x nf̂ ( x )
liberté si toutes les combinaisons de réponses ont été observées avec un effectif suffisant.
Il y a en effet k – 1 probabilités πh , et kp probabilités conditionnelles pjh à estimer, soit
k(p+1) – 1 paramètres. Le modèle d’indépendance conditionnelle à k classes latentes est
acceptable si G2 est inférieur à un seuil.
TABLE DES MATIERES 14
Le problème du choix de modèle est l’un des recherches essentielles dans les thèmes de
classification à l’aide des classes latentes. Actuellement, deux problèmes se posent, le
premier concerne le choix du nombre de classes, le second concerne la forme de modèle
qui donne le nombre de classes.
L’hypothèse, sous condition du nombre de classes, peut être testée en utilisant le test du
rapport du maximum de vraisemblance standard entre un modèle de matrice de
covariances limité et un autre dont la matrice de covariances est non limitée. Les tests de
Wald et du multiplicateur de Lagrange peuvent être utilisés pour estimer la signification
de certains termes inclus ou exclus respectivement. C’est bien connu, que le test de Khi-
deux ne peut pas être utilisé pour déterminer le nombre de classes. On va voir dans la
suite les plus importants critères de choix de modèle.
Les modèles de classes latentes peuvent servir dans une optique exploratoire ou
confirmatoire, mais souffrent des critiques adressées classiquement à l’analyse factorielle
vis à vis des méthodes de type ACP : Problèmes d’identification, d’existence des
variables latentes qui ne sont jamais que des constructions, ainsi que de la non-
convergence des algorithmes dans certains cas, ou de la convergence vers des extremum
locaux.
Comme en analyse des classes latentes, les profils latents supposent que la population est
formée de k classes ou groupes non observés qui peuvent s’appliquer aux profils latents.
Les variables observées sont supposées normalement distribuées. Généralement on a des
distributions normales multivariées. La densité de mélange des densités des classes
latentes est donnée par la formule suivante :
f ( x ) = ∑ p( h ) f ( x / µ h , Σ h )
Le modèle est proche de l’analyse discriminante quadratique avec la différence que les
classes ne sont pas connues. Les restrictions sur l’égalité des matrices de covariances et
de leur diagonalisation sont similaires aux cas de l’analyse discriminante linéaire. Le
modèle peut être écrit de la façon suivante:
k p
f ( x ) = ∑ p( h) ∏ f ( x j / µ jh , σ 2jh )
h =1 j=1
Plusieurs méthodes ont été proposées pour la structure des matrices de covariances des
classes. L’utilisation des matrices diagonales par blocs est un compromis entre une
matrice de covariances complète et une autre diagonale.
Divers logiciels d’estimations des profils latents ont été proposés tels que EMMIX,
Mclus, Mplus et latentGOLD.
Le modèle de classes latentes est bien adapté pour engendrer des partitions. Notons que
ce modèle a été récemment utilisé pour la recherche de partitions consensus par Green et
Krieger [GRE 99]. Plus précisément, comme nous allons utiliser des variables observées
quantitatives, selon la terminologie de Bartholomew et Knott [BAR 99], on utilise le
modèle de profits latents. L’hypothèse de base est l’indépendance des variables observées
conditionnellement aux classes latentes. On sait que ce modèle souffre de problèmes
sérieux d’identifiabilité, mais ici il n’est utilisé que pour engendrer des données et non
pour estimer des paramètres. Il suffit alors de générer des distributions indépendantes
dans chaque classe, après avoir tiré le numéro de classe de chaque observation selon une
multinomiale de probabilités πh.
I=IB+IW
avec IB= ∑ n Ph d 2 ( g h , g ) est l’inertie interclasse des k centres de gravités étant donnée
Un critère usuel consiste à chercher la partition telle que IW soit minimale pour avoir des
classes homogènes pour k fixé. Ce qui revient à chercher le maximum de IB. .
La méthode de centres mobiles peut être imputée principalement à Forgy [FOR 65], c’est
un cas particulier de la méthode des nuées dynamiques. Elle consiste à déterminer k
centres provisoires de classes. Ces k centres définissent une partition en k classes. Ainsi
l’individu i appartient à la classe Ph s’il est plus proche de gh que de tous les autres
centres. On remplace alors les k centres provisoires par les k centres de gravités de ces
classes et on recommence. L’algorithme converge vers un optimum, souvent local, qui
minimise l’inertie intraclasse. Ce minimum dépend du système initial de centres en un
nombre fini d’itérations.
Dans la technique des nuées dynamiques, les classes peuvent ne pas être caractérisées par
un centre de gravité, mais par un noyau ayant un meilleur pouvoir descriptif que des
centres ponctuels.
La méthode dite des k-means (k-moyennes) introduite par MacQueen [MAC 67]
commence par un tirage pseudo-aléatoire de centres ponctuels. Chaque réaffectation
d’individus entraîne une modification de la position du centre correspondant, on peut en
une seule itération trouver une partition de bonne qualité mais dépendant de l’ordre des
individus.
Une famille H des parties de l’ensemble des objets Ω est une hiérarchie si :
• ∀A, B ∈ H A ∩ B ∈ {A, B, φ}
TABLE DES MATIERES 18
Une hiérarchie indicée est un couple (H, f) où H est une hiérarchie et f une application de
H dans IR+ telle que :
d H ( x , y) = min{f ( A ) / x , y ∈ A, A ∈ H} ∀x, y ∈ H
dH est appelé dissimilarité induite par (H, f) ou ultramétrique induite par l’hiérarchie. Plus
les individus se regroupent du bas de l’arbre plus ils se ressemblent au sens de cet indice.
La CAH génère cet arbre de classification de manière ascendante : on regroupe les deux
individus les plus proches qui forment un sommet, il ne reste plus que n-1 individus et on
itère le processus jusqu’au regroupement complet de tous les individus. Un des
problèmes consiste à définir une mesure de dissimilarité entre parties.
Parmi les tests les plus répandus pour la validation des classes, évoquons le test du critère
de F maximal qui n’est autre que le quotient de la variance inter-classes par la variance
intra-classes, le test de Maximum de Wilks qui est le quotient des déterminants des deux
matrices de covariances, le « gap » test et le test de la similarité moyenne. Nous
présentons ensuite les critères de choix de modèles les plus importants pour déterminer le
meilleur nombre de classes d’une partition. Ces critères sont les AIC, CAIC, MDL, BIC,
TABLE DES MATIERES 19
ICOMP de Bozdogan [BOZ 00], de Bock [BOC 88, 97] et les critères d’entropie EC,
NEC [CEL 96], [BIE 00].
Critères de validation
• Le critère externe mesure le degré avec lequel les données confirment des
informations connues a priori sur les données [JAI 88]. Il permet aussi de
comparer les résultats d’une classification automatique à une information sur la
structure des données connue a priori.
Trois approches de validation ont été proposées, dans un cadre non probabiliste. La
première approche consiste à mesurer l’adéquation des résultats avec la dissimilarité
initiale, on mesure le lien entre la structure et les données initiales. La deuxième approche
TABLE DES MATIERES 20
mesure la stabilité des résultats obtenus. La troisième approche mesure l’écart entre les
classifications obtenues sur un échantillon d’apprentissage et sur un échantillon test.
les résultats sont de même natures sur d’autres échantillons issus de la même famille de
loi de probabilité [BOC 85]. La plupart des tests statistiques sur le bien-fondé d’une
partition s’appuient sur la loi limite (lorsque le nombre de l’échantillon tend vers l’infini)
de statistiques sous certaines hypothèses de classifiabilité et de non classifiabilité.
1 k 2
Wn ( P) = ∑ ∑ d( x i , g h )
n h =1 x i ∈Ph
où gh désigne le centre de gravité de la classe Ph pour h=1,…,k pour toutes les partitions
de {x1,x2,….,xk} en k classes.
n−k
Fn ( P) = R n ( P)
k −1
TABLE DES MATIERES 22
B n ( P) 1 k 2
avec R n ( P) = où B n ( P) = ∑ n h d(g h − g)
Wn ( P) n h =1
Bock [BOC 85] a fourni une approximation de la distribution sous l’hypothèse nul de
Poisson de Rn(P) qui permet de déterminer la valeur critique rn(α) associée au seuil α.
Pour tester l’hypothèse d’homogénéité contre une hypothèse alternative HM qui suppose
l’existence de k classes distinctes ou si la partition optimale trouvée à partir des données
est plus distincte qu’une classification obtenue par des observations X1,…,Xk d’un
échantillon d’une distribution uniforme ou unimodale. La statistique de ce test répond à
ce problème, en maximisant le quotient du déterminant des matrices de covariances.
k
det ∑ n h ( g h − g )( g h − g )'
Wn = h =1
det ∑ ∑ ( x i − g h )( x i − g h )'
h x i∈Ph
Le « gap » test
Ce test proposé par Rasson et Kubushishi [RAS 94], est fondé sur des processus de
Poisson qui utilise les éventuelles zones vides entre classes. Il est efficace pour
reconnaître les classes isolées.
Pour tester l’hypothèse uniforme HG dans le cas où les x1, x2,…, xn ont une distribution
uniforme, on considère la distance euclidienne minimale pour chaque j=1,….,n,
représentant la distance de voisinage le plus proche Unj définie par :
Dn=Max{Un1,Un2,….,Unn}
Rejeter HG si et seulement si Dn>c tel que P(Dn>c)=α. c est estimé par cn(α) [HEN 82].
TABLE DES MATIERES 23
Ce test utilise la similarité moyenne pour les modèles de mélanges. Notons s(x, y)
l’indice de similarité qui décrit la distance minimale entre x et y, pour x, y є IRp, La
moyenne de la similarité Sjv=s(xj, xv) est définie par :
1
Tn= ∑ ∑ S jv
C 2n 1≤ j< v v ≤ n
Le test de la similarité moyenne rejette H0 si Tn<c. s est généré par le noyau suivant :
q ( y ) = ∫ k ( x ) K ( x − y )dx
S=Sjv= q( x j − x v ) = ∫ k( x − x j ) K ( x − x v )dx
ν = c h ( ∏ c xp − 1) − m k
p
Avec ch le nombre total des différents modèles covariées dans l’ensemble de données, cxp
le nombre des modalités de x et mk le nombre de paramètres dans le modèle. La valeur de
khi-deux au degré de liberté ν peut être utilisée pour déterminer si le modèle ajuste bien
l’échantillon.
TABLE DES MATIERES 24
Dans le cas des profils latents aux variables continues, les critères AIC, BIC et CAIC se
calculent à partir de la statistique du log-vraisemblance ln l.
AIC
Le critère d’information d’Akaïké AIC [AKA 73] est une mesure d’ajustement basée sur
la théorie de l’information. Pour les classes latentes, AIC est défini par :
AIC= G2-ln(n).ν
Pour les profils latents, Sclove [SCL 87] a proposé, l’écriture suivante du critère:
Le modèle à valeur minimale de AIC est choisi comme étant le meilleur modèle qui
ajuste les données. Basé sur le critère d’information d’Akaïké [BOZ 87], le critère
consistent CAIC dans le cas des classes latentes est égal à:
CAIC= G2-[ln(n)+1].ν
MDL
Le critère de la longueur de description minimale MDL a été proposée par Rissanen [RIS
89]. Il est basé sur la théorie codée utilisant l’information statistique dans les données et
les paramètres. Ce critère est défini par :
BIC
BIC=G2-ln(n).ν
TABLE DES MATIERES 25
Pour comparer entre eux les modèles, afin d’obtenir un compromis entre modèle bien
ajusté et modèle parcimonieux (avec peu de paramètres), le meilleur modèle est celui qui
minimise AIC ou BIC.
• Pour le cas de covariances générales, c’est à dire pour les matrices de covariances
différentes entre les classes. mk est égal à :
mk= kp+(k-1)+kp(p+1)/2
• Pour le cas des matrices de covariances égales entre les classes de composantes
de mélanges Σk=Σ, mk est égal à :
mk= kp+(k-1)+p(p+1)/2
mk= kp+(k-1)+p
• Pour le cas où les variables auraient la même matrice de covariances et elles sont
indépendantes entre les classes de composantes de mélanges (modèle sphérique),
mk est égal à :
mk= kp+(k-1)+1
ICOMP
Le critère d’information complexe de Bozdogan ICOMP [BOZ 88, 2002] est développé
d’une part sur le concept d’AIC et d’autre sur les concepts et les indices de la complexité
d’information. La procédure est basée sur la complexité structurelle d’un élément ou d’un
ensemble de vecteurs aléatoires à travers la généralisation de l’indice complexe de
TABLE DES MATIERES 26
covariance introduit par Van Emden [VAN 71]. Il est utilisé pour faire un bon choix de
modèle pour les modèles de structures multivariées linéaires ou non linéaires. C’est une
mesure performante pour choisir le nombre de classes.
Dans ICOMP, la complexité n’est pas considérée comme le nombre des paramètres à
estimer comme le fait AIC mais comme le degré de l’interdépendance à travers des
composantes du modèle. ICOMP est défini par :
ICOMP=-2ln(l)+2.C(ΣModèle)
Plusieurs formes de ICOMP ont été proposées dont la forme la plus générale est celle qui
utilise la base d’information complexe de la matrice inverse d’information de Fisher
ICOMP(IFIM) définie par :
ICOMP(IFIM)=-2ln(l)+2C1( F̂ −1 )
EC
Le critère d’entropie EC est proposé par [CEL 92, 96] pour évaluer le nombre de classes
d’une partition fondée sur un modèle de mélange de lois de probabilités. Il se déduit
d’une relation liant la vraisemblance l(K) et la vraisemblance classifiante CL(K) d’un
mélange.
pk f (x i , a k )
Notons que tik= , est la probabilité conditionnelle que xi résulte des kieme
k
∑ ph f (x i , a h )
h =1
composantes de mélange (1≤i≤n et 1≤k≤K).
On a : CL(K)=l(K)-EC(K)
K n
On trouve ainsi le critère d’entropie EC : EC( K ) = − ∑ ∑ t ik ln( t ik )
k =1 i =1
TABLE DES MATIERES 27
EC ( K )
NEC ( K ) =
l ( K ) − l (1)
Une valeur minimale de NEC(K) estime le nombre de classes d’une partition résultante
du modèle de mélange. Notons que EC(1)=0 et l( 1)=C(1) est le maximum de
vraisemblance pour une seule distribution Gaussienne.
[BIE 00] a proposé le critère ICL(K) de la vraisemblance complète intégrée pour évaluer
un modèle de mélange dans une classification. ICL est approximé par l’utilisation du
critère d’information bayésien BIC. Il peut trouver le nombre de classes d’une partition
sensible et se montre plus robuste que le BIC dans le cas d’une violation du modèle de
mélange.
Finalement, il faut mentionner que Banfield et Raftery [BAN 93], inspirés par BIC, ont
suggéré une solution bayésienne, pour choisir le nombre de classes, basée sur des
approximations des intégrations de vraisemblance classifiante. Cette approximation
donne le critère suivant:
3
AWE(K)=-2C(K)+2 mk ( + ln n )
2
L’un des critères est basé sur le principe de trouver le nombre de classes qui minimise les
critères de classifications évoqués auparavant. Pour avoir le bon nombre de classe, on
teste séquentiellement l’hypothèse d’homogénéité contre l’existence de 2, 3, 4, …classes.
Milligan et Cooper [MIL 85] ont étudié 30 critères pour déterminer le bon choix et ils ont
TABLE DES MATIERES 28
trouvé que le test du F Maximum s’avère le meilleur. Parmi ces critères, on trouve
l’indice de Davis- Bouldin donné par la quantité suivante :
1
Dk = ∑Rh
kh
Sh + S j 1 nh h
avec R h = max et S 2h = t h
∑ (x i , g h ) (x i − g h )
j≠ h T jh n h i =1
nh représente le nombre des éléments dans la classe Ph, et Tjh la distance euclidienne entre
gh et gj. Le minimum de la courbe donnant l’indice D-B en fonction du nombre de classes
correspond au bon nombre de classes.
Une autre méthode pour la détermination du nombre de classes d’une partition consiste à
minimiser les critères du choix de modèles présentés précédemment [BOZ 94], [BRY
94].
Toujours dans la même approche, on peut utiliser la plus petite valeur propre des matrices
de taux d’information du type FM, estimé par l’information de Fisher, pour les
classifications fixes et le modèle de mélanges respectivement [WIN 94].
Jain et Moreau [JAI 87] proposent un algorithme d’estimation du bon nombre de classes
en se basant sur le technique du boostrap [EFR 79]. L’algorithme consiste à générer n
échantillons par la technique du bootstrap, un programme de k-means est utilisé pour
obtenir les partitions de chaque ensemble de données avec plusieurs nombres de classes.
On calcule, pour chaque nombre de classes, le critère de la stabilité. La combinaison de
ce critère avec le critère de compacité des k-classes des partitions forme la statistique qui
caractérise la vraie valeur de k : la valeur de k, qui minimise cette statistique, est le
nombre de classes estimé.
Halkidi [HAL 01] a proposé un indice de validation d’une classification, S-Dbw, basée
sur des critères de classification, permettant de sélectionner les paramètres optimaux pour
une meilleure partition. Elle utilise le critère relatif qui travaille sur la grande séparation
des classes et sur la compacité maximale d’une classe de la partition. Pour une partition à
c classes, vi est le centre de la classe i, et uij est le milieu du segment [vivj], S-Dbw est
défini par :
TABLE DES MATIERES 29
Où la variance intra-classe qui indique les classes compactes, Scatt(c) est définie par :
1 c
∑ σ( v i )
c i =1
Scatt (c)=
σ(S)
Avec σ(S) est la variance de l’ensemble de données et sa pieme dimension est définie par :
1 n p 1 n
σ px = p 2 p
∑ ( x k − x ) et x est la p
ieme
dimension de X = ∑ x k , ∀k ∈ S
n k =1 n k =1
ni
p p 2
∑ (x k − v i )
σ pv = k =1
i ni
et la densité inter-classe qui indique la séparation des classes, est définie par :
1 c c densite( u ij )
Dens-bw (c)= ∑ ∑
c(c − 1) i =1 j=1 max{densite( v i ), densite( v j )}
n ij
0 si d(x, u) > stdev
Densité(u)= ∑ f ( x l , u ) sachant que la fonction f(x, u)=
l =1 1 ailleurs
1 c
Avec stdev= ∑ σ( v i )
c i =1
C’est évident qu’un point appartient au voisinage de u si sa distance de u est plus petite
que la moyenne écart type des classes stdev.
La valeur c qui minimise l’indice de validité S-Dbw(c) peut être considérée comme étant
la valeur optimale pour le nombre de classes d’une partition présentes dans l’ensemble de
données en se basant sur les deux critères de compacité de la séparation des classes.
TABLE DES MATIERES 30
Ben- Hur et al. [BEN 02] proposent une méthode pour trouver la présence d’une structure
dans une classification. La méthode exploite une mesure de stabilité d’une classification
basée sur la perturbation de l’ensemble des données. Ils utilisent la distribution des paires
de similarités entre classifications des sous–ensembles de données comme mesure de
stabilité d’une partition. Une grande valeur de paires de similarités indique une
classification stable. Le nombre des classes est optimal lorsqu’un passage des solutions
de classifications stables à des classifications non stables a eu lieu.
1.6 Conclusion
Nous venons de présenter dans ce chapitre les modèles probabilistes qui évaluent et
étudient l’existence d’une partition, tels que les modèles de partitions fixes et les modèles
de mélanges dont en particulier les modèles des classes latentes. Par la suite, c’est ce
dernier qui sera utilisé pour générer nos partitions proches. Afin de réaliser les partitions,
nous avons exploré quelques algorithmes de classifications tels que les k-means et les
algorithmes ascendants. Les travaux traitant les problématiques de la validation et de la
détermination du vrai nombre des classes d’une partition ont été évoqués. (Cette
présentation n’est qu’un panorama servant à la compréhension de ce qui sera évoqué par
la suite lors de la comparaison de deux partitions proches).
TABLE DES MATIERES 31
Chapitre 2
2.1 Introduction
De nombreuses méthodes pour l’interprétation des classes d’une partition d’un ensemble
de données ont été proposées : nous en faisons ici une présentation synthétique.
D’une part, l’utilisation des critères symboliques donne des résultats directement
interprétables, et d’autre la méthode CABRO, proposé par H.T.Bao [BAO 88], produit
un ensemble de règles aux classes qui fournissent les conditions d’appartenance d’un
individu aux classes.
La dernière partie est consacrée à l’une des méthodes de classification divisives proposée
par Marie Chavent [CHA 97]. Cette dernière est définie pour tous types de variables et
une extension du critère d’inertie intra-classe. Elle est monothétique ce qui permet de
TABLE DES MATIERES 32
munir chaque classe de la hiérarchie d’une description simple facilement interprétable par
l’utilisateur.
Les variables illustratives sont des variables qui ne contribuent pas à la construction des
classes mais qu’on utilise a posteriori pour identifier et caractériser les regroupements
établis à partir des variables actives. Pour déterminer les variables les plus
caractéristiques de chaque classe, on compare la moyenne (ou la fréquence d’une
modalité) d’une variable dans la classe à la moyenne (ou la fréquence ) de cette variable
dans l’échantillon total, en faisant l’hypothèse nulle H0 que les individus qui constituent
la classe sont tirés au hasard et sans remise dans l’échantillon global.
nj
Eh(M)= nh.
n
n − nh n j n j
et de variance s2h(M)= n h 1 −
n − 1 n n
Cette distribution peut être approximée par une distribution normale si les effectifs des
M − E( M )
classes sont assez élevés. Dans ce cas, t h ( M ) = suit une loi normale centrée
sh (M)
réduite.
[
p h ( j) = P X > t h ( n hj ) ]
Où X est la variable normale centrée réduite et nhj est le nombre observé d’individus
présentant la modalité j dans la classe Ch . Plus cette probabilité est faible, plus la
modalité j est caractéristique de la classe Ch.
t h ( n hj ) est la valeur-test fournie par le logiciel SPAD. Elle représente l’écart entre la
Sous la même hypothèse nulle H0, les moyennes de la variable continue X dans la classe
Ch( X h ) et dans l’échantillon global X sont égales aux fluctuations aléatoires près. La
valeur- test est alors :
Xh − X n − n h s2 (X)
t h (X) = avec s 2h ( X ) =
s h (X) n −1 nh
On peut calculer la valeur-test pour les variables actives mais dans ce cas, on considère
ces valeurs-test comme des écarts entre les valeurs relatives à une classe et les valeurs de
l’échantillon global. Elles permettent d’opérer un tri sur les variables continues et
nominales et de désigner ainsi les variables les plus caractéristiques [LEB 97]. En effet
TABLE DES MATIERES 34
pour des variables actives, les propriétés distributionnelles ne sont plus exactes, car elles
déterminent les classes.
Projetées en éléments supplémentaires sur un plan factoriel, elles fournissent les positions
des points moyens des individus qui constituent une classe. On peut ainsi apprécier les
distances entre classes. Par ailleurs, la position de chaque individu, repérée par le numéro
de sa classe, permet de représenter la densité et la dispersion des classes dans le plan.
D’autre part, en ne gardant que les éléments (variables actives et illustratives) pertinents
mis en évidence dans l’étape de caractérisation des classes, on simplifie la représentation
graphique qui devient plus lisible.
TABLE DES MATIERES 35
Ces méthodes de caractérisation des classes peuvent être utilisées à l’aide des logiciels
comme SPAD et SAS dont on pourra trouver des exemples illustratifs dans [NAK 00].
Une description d’un individu peut être formée par plusieurs modalités ou par un
intervalle de valeurs. Lors du traitement, ces valeurs sont gardées pour ne pas perdre
l’information. L’analyse de données symbolique a également plusieurs autres objectifs :
Notons Ω l’ensemble des individus en entrée d’une analyse des données symboliques.
Yj : Ω ∆j
w Yj(w) = δj
1
On donne le même nom à la variable et à l’application.
TABLE DES MATIERES 37
Ensemble de valeurs avec de poids associés : c’est dans le cas où la variable serait sous
forme d’un histogramme, des fonctions d’appartenance ou bien des distributions de
probabilités.
De plus, une variable peut avoir des relations logiques dont on peut trouver des
connaissances supplémentaires. Ceci se traduit à deux niveaux :
Niveau
Employé Cadre
Relations entre variables : lorsqu’on exprime les liens connus entre les valeurs du
domaine d’observation de certaines variables. On parle de relations entre variables. On
distingue plusieurs types de relations ou de dépendances :
• Dépendances logiques [DEC 94] : Deux variables Y1 et Y2 sont liées par une
dépendance logique si les valeurs du second variable dépendent logiquement ou
fonctionnellement de la première variable. Cette dépendance est décrite par une
règle illustrée dans l’exemple suivant : si Y1=poids et Y2=taille, il est possible
qu’il y ait une règle de dépendance « r : si Y1 ≤ 55 alors Y2 ≤ 180 ».
TABLE DES MATIERES 38
• Dépendances hiérarchiques [LEB 91] (ou variable mère- fille) : Une variable Y1
dépend hiérarchiquement d’une autre variable Y2, si Y1 est conditionné par les
valeurs observées sur Y2, dans ce cas Y2 est la variable mère et Y1 est la variable
fille. Les deux variables sont liées par une règle de non-applicabilité. A titre
d’exemple, la règle « Voiture= non donc consommation d’essence=NA », indique
que la consommation d’essence est non applicable pour les individus qui n’ont
pas de voitures. La valeur NA distingue la valeur qui n’est pas renseignée de la
valeur qui ne peut pas être renseignée.
Notons que cette formule est équivalente à celle écrite par un produit de densité et
de fonctions de probabilités.
Yj(wi) est dite donnée univaluée si et seulement si : ∆j = Oj. C’est le cas des variables
des valeurs uniques classiques.
- Définition de l’union
Si Yj est qualitative : ∪ ({δ j δ ∈ E }) est l’union ensembliste des δ j , c’est à dire dans le
- Définition de l’intersection
On définit cet opérateur d’intersection dans le cas où les données seraient multivaluées
car il a peu de sens lorsque les données sont univaluées.
L’union de deux intervalles n’est pas toujours un intervalle, par exemple : [1,3] U [5,8].
Le terme de jonction a été proposé par M. Ichino [ICH 94] dans le but d’avoir toujours un
intervalle lorsqu’on cherche l’union de deux intervalles.
Il définit l’union jointe dans le cas où le domaine d’observation serait muni de données
multivaluées et d’une structure arborescente.
L’opérateur de jonction est identique à l’union dans le cas de données portant sur des
variables qualitatives. Dans le cas de données intervalles, il permet d’obtenir une
description plus générale.
et structuré dans une hiérarchie. Si N( δ A ) est la classe la plus fine dans la hiérarchie, qui
contienne tous les éléments de δ A , alors δ A ⊕ δ B est défini par :
δ A ∪ δ B si N( δ A ) = N ( δ B )
δA ⊕ δB =
N( δ A ∪ δ B ) sinon
Branche
Littéraire Sciences
Droit Langue
• Un niveau concernant les objets traités en entrée d’une analyse (les individus
ayant une description symbolique), d’où la description individuelle. On cherche
une description d d’une classe C d’individus.
• Un niveau concernant les objets obtenus en sortie d’une analyse (les classes ayant
une description symbolique), d’où la description intentionnelle. Si on commence
TABLE DES MATIERES 42
par une description d, c’est important de savoir tous les individus qui sont
constitués par d.
Plusieurs auteurs ont donné une définition à l’objet symbolique comme étant un vecteur
de descriptions symboliques, en lui associant une représentation logique, dont
l’interprétation permet d’obtenir son ‘extension’[PER 96], [BRI 91], [DEC 92].
Les assertions : C’est le type le plus utilisé en ADS. Les assertions sont de descriptions
adaptées au tableau de données. A titre d’exemple, une classe C de descriptions connues
peut être représentée par l’assertion suivante :
Les hordes : ils sont des expressions logiques qui prennent en compte la structuration des
parties décrivant un même objet. Par exemple, si P est une partition de deux classes C1 et
C2, on peut décrire P par la horde suivante :
Alors par l’utilisation des objets symboliques, les sorties d’une analyse s’interprète
facilement. On obtient une description conceptuelle. Un concept est défini en ‘intension’
ou en ‘extension’. L’intension d’un concept définit un ensemble de propriétés qui décrit
le concept. Un individu appartient à un concept s’il satisfait aux conditions formées à
partir de ces propriétés. Cet individu est alors une instance du concept. La liste de ses
instances s’appelle extension du concept.
a:Ω → ∆
ω → a ( ω) = [ Y ( ω) Rd ]
Parmi les objets symboliques on s’intéresse aux assertions. Une assertion s est un couple
(d, a), où d est la généralisation d’un élément C. Une assertion est exprimée sous la
forme d’une conjonction de termes :
a= ∧ j [Y j ∈ d j ]
Une assertion booléenne s, est un couple s=(d,a), où a est une application définie à valeur
dans {0,1}.
L’extension d’une assertion booléenne s=(d,a) est l’ensemble des individus de Ω ayant
a( ω )= vraie. Elle est identique à l’extension de a, on a :
ext Ω (s)=ext(a)={ ω ∈ Ω a ( ω) = vraie }.
a( ω) = [age( ω) ∈ [20,50]]
On peut définir as( ω) comme étant la probabilité pour que son age appartient à
l’intervalle [20,50].
L’extension d’un objet modal peut être définie de deux manières différentes [DID 92] :
On considère tout d’abord que tout individu ω ∈ Ω peut appartenir « plus ou moins » à
l’extension de s, en fonction de son degré d’appartenance a( ω ) :
ext Ω (s)={ (ω , a (ω )) / ω ∈ Ω }
ext Ω (s)={ ω ∈ Ω a (ω ) ≥ α }
TABLE DES MATIERES 45
Exemple:
Cette règle offre une caractérisation de la classe C. Elle indique les modalités les plus
significatives et les plus spécifiques observées sur les éléments de C et qui la distingue
des autres classes. Chaque classe de la partition peut être caractérisée par une ou
plusieurs règles. L’ensemble des règles, associées à une même classe, fournit les
conditions nécessaires et suffisantes pour l’appartenance d’un individu à celle-ci. Mais, il
faut noter que la qualité des résultats dépend de l’ensemble de données initiales.
Une adaptation de la méthode CABRO, a été proposée par M. Gettler- Summa [GET 94],
pour trouver des caractérisations des classes d’une partition d’un ensemble d’objets
symboliques modales. Les assertions des classes ne sont pas des critères de
généralisations optimaux, mais elles sont basées sur le choix de variables demandés.
L’avantage de l’utilisation de critères fondés sur des propriétés logiques est d’obtenir des
résultats directement interprétables. Le premier travail introduisant un critère symbolique
est celui de la classification conceptuelle proposée par E. Diday, [MIC 81], concernant
une adaptation des nuées dynamiques. Leur technique classificatoire repose sur la
recherche combinée de classes disjointes d’individus et de leur caractérisation. On
associe à chaque classe une description sous la forme d’une conjonction de termes ou
chaque terme modélise la variation des observations au sein de la classe pour une même
TABLE DES MATIERES 46
Pour décider si un attribut (ou une modalité d’une variable) est une caractéristique du
groupe, on teste l’égalité des proportions de l’attribut dans le groupe et dans son
complémentaire. L’attribut est caractéristique si l’hypothèse d’égalité peut être rejetée. Le
test se ramène au calcul d’une probabilité hypergéométrique. La probabilité critique du
test [MOR 84] est utilisée pour classer les attributs par ordre d’intérêt décroissant dans la
caractérisation du groupe.
Toutes les combinaisons de tous les attributs, utilisant les opérateurs ET et OU, sont
candidates à la caractérisation du groupe. La procédure de marquage sémantique a pour
objet de rechercher, parmi toutes les propositions construites par réunions et intersections
d’un nombre quelconque d’attributs, celles qui sont le plus caractéristique du groupe.
Exemple
L’exemple est pris de la base de données SPAD qui s’appelle ‘enquête’. On dispose de
315 individus, et de 52 variables dont 40 d’entre elles sont nominales. On s’intéresse au
paramètre ‘sexe’ formé de 2 modalités : 177 femmes et 138 hommes.
dans le groupe et hors du groupe correspond à une distance de 7.87 écarts- types sur
l’échelle normale.
25 femmes qui recouvrent ce marquage dont 17 ne sont pas observées par le premier
marquage et une qui est hors du groupe. Les deux marquages recouvrent 39 % du groupe.
Les autres marquages se lisent de la même façon.
M.Chavent [CHA 99] a développé une méthode divisive pour les données classiques et
symboliques. On présente la méthode dans le cas de données classiques, multivaluées,
sous forme d’intervalle ou modales. On cherche à chaque étape à diviser la classe qui
fournit une nouvelle partition optimisant sous contrainte un critère mathématique choisi.
Les contraintes sont induites par l’aspect monothétique de la méthode et le critère à
optimiser peut être une extension du critère d’inertie aux cas de données de descriptions
symboliques.
Yj : Ω ∆j
k Yj(k)
variables :
d j ( ξ kj , ξ lj ) = max{ α kj − α l j , β kj − β l j }
TABLE DES MATIERES 50
d : Ω × Ω → IR +
1/ 2
p
(k, l) → d(k, l) = ∑ d j ( ξ kj , ξlj ) 2
j=1
Dans le cas des données qualitatives, pour comparer deux objets k et l de Ω , on utilise la
distance Φ 2 :
p
p.. pkj plj 2
d (k , l ) = ∑
2
( − )
j =1 p. j p k . pl .
n t n p
avec p.. = ∑∑ p kj = 1 ; pk . = ∑ pkj ; p. j = ∑ pkj ;
k =1 j =1 k =1 j =1
Le critère utilisé pour évaluer la qualité d’une partition est une extension du critère de
somme de carrée intra-classe pour une classe Ci
2
I (C i ) = ∑x
k∈Ci
k − x Ci
En effet, dans le cas des données symboliques, un objet k de C répondant oui ou non à la
question divise la classe en deux :C1={ k ∈ C qc ( k ) = vrai } et C2={ k ∈ C qc ( k ) = faux}
α+β
où c= pour Yj= [α , β ]
2
TABLE DES MATIERES 51
vrai si ∑π k ( x ) ≥ 1 / 2
qc ( k ) = x ≤c
faux sinon
Exemple
• Le résultat de la deuxième année des personnes demandées qui est aussi divisé en
deux modalités : recalé et admis.
! !
! !
Fig.2.3. L’arbre hiérarchique selon les deux variables ‘sexe’ et résultat de la 2ieme année.
TABLE DES MATIERES 52
L’arbre hiérarchique nous indique les 4 classes présentées selon les modalités de deux
variables, la classe 1 est formée de 19 étudiants recalés en 2ième année, la classe 2 est
formée par 31 étudiantes recalées en 2ième année, la classe 3 est formée par les étudiantes
admises en 2ième année, et la classe 4 est formée par 19 étudiants admis en 2ième année.
2.6 Conclusion
On a pu définir les principales méthodes de classification qui sont capables de traiter des
données de tous les types de variables et de fournir une interprétation des classes
obtenues. On a présenté les méthodes classiques utilisées en analyse de données qui se
basent sur les caractéristiques des individus appartenant à une même classe. Les travaux
qui offrent une aide à l’interprétation des résultats, au moyen de règles logiques, ont été
présentés: la méthode CABRO, la méthode de marquage sémantique, et la méthode de
classification divisives [CHA 97]. L’application sur des données réelles des deux
dernières méthodes d’interprétation des classes a été effectuée.
TABLE DES MATIERES 53
Chapitre 3
3.1 Introduction
Quand on dispose de deux partitions effectuées sur les mêmes individus, par exemple
avec deux jeux de variables ou bien avec deux algorithmes, il faut savoir si ces deux
partitions sont en accord ou bien si elles diffèrent significativement, en un sens à préciser.
Une manière d’aborder ce problème consiste à calculer un indice de concordance entre
partitions et à définir une valeur critique à partir de laquelle on conclura que les deux
partitions sont ou non concordantes.
Ce chapitre est consacré à la présentation et à la définition des différents indices qui nous
paraissent important dans notre propos. La plupart de ces indices sont présentés en
formulations contingentielles et relationnelles en utilisant les formules de passages
proposées par Kendall [KEN 61] et Marcotorchino [MAR 84].
A l’indice bien connu de Rand et celui corrigé par Hubert [HUB 85], on propose une
version asymétrique de Rand [CHAV 01] utilisée pour la comparaison de partitions
emboîtées, avec des nombres différents de classes. On ajoute deux autres indices inspirés
de test de Mac Nemar et de l’indice de Jaccard. On présente l’indice de corrélation
vectorielle introduit par P. Robert et Y. Escoufier [ROB 76] qui se révèle identique au
coefficient de S. Janson et J. Vegelius [JAN 82], le coefficient kappa de Cohen [COH
60], l’indice de redondance proposé Stewart et Love [STE 68], ainsi que l’indice de
Popping [POP 83].
l’indépendance, le khi-deux n’est pas adapté au problème qui consiste à tester l’écart à
une structure diagonale ; L’hypothèse d’indépendance est inintéressante dans notre étude.
C’est pourquoi l’indice de khi-deux ne sera pas considéré dans ce chapitre.
Ces travaux ont fait l'objet de communications dans des congrès et de publications [SAP
01, 02] et [YOU 03, 04, 04’].
P1 et P2 sont deux partitions des mêmes individus (ou deux variables qualitatives). N
désigne le tableau de contingence associé, K1, K2 les tableaux disjonctifs associés à P1 et
P2; On a : N = K 1' K 2 .
Chaque partition Pk est représentée par un tableau relationnel Ck dans l’espace des
individus, de dimension nxn, dont le terme général c iik ' est défini par :
L’écriture matricielle du tableau de comparaison par paire est C1=K1K1’. Au tableau C est
associé son tableau complémentaire, notée C dont le terme général est défini par :
Pour notre étude, nous utilisons les formules de passages contingences-paires qui ont été
proposées et démontrées par Kendall [KEN 61] et Marcotorchino [MAR 84] :
∑ ∑ c ii ' = ∑ n u.
1 2
i i' u
2 2
∑ ∑ c ii ' = ∑ n . v
i i' v
1 2 2
∑ ∑ c ii' c ii' = ∑ ∑ n uv
i i' u v
TABLE DES MATIERES 56
Ces formules nous ont permis d’établir les relations d’équivalences suivantes :
b ' = 2 b = ∑ ∑ c ii1 ' c ii2 ' = ∑ ∑ (1 −c 1ii ' )( 1 − c ii2 ' ) = n 2 + ∑ ∑ n 2 uv − ∑ n 2u. − ∑ n .2v
i i' i i' u v u v
A
R=
n
2
On montre que :
n 1
A = + ∑ ∑ n 2uv − ∑ n 2u. + ∑ n .2v
2 u v 2u v
En utilisant les notations du tableau Tab.3.1, l’indice de Rand peut être sous la forme
suivante :
R=(a+d)/(a+b+c+d)
L’indice de Rand écrit sous sa forme contingentielle selon Marcotorchino [MAR 91] où
on considère toutes les paires, y compris celles identiques est :
Il prend ses valeurs entre 0 et 1 ; Il est égal à 1 lorsque les deux partitions sont identiques.
En utilisant les formules de linéarisation, N. EL Ayoubi [MAR 91] a montré que cette
dernière version de R peut être écrite sous la forme relationnelle suivante :
1 1 2 1 2
R' = ∑ ∑ c ii' c ii' + ∑ ∑ c ii' c ii'
2
n i i' i i'
C’est avec cette formulation relationnelle qu’Idrissi [IDR 00] a étudié la normalité
asymptotique de R’ sous l’hypothèse d’indépendance. A titre d’exemple, si les k classes
(dans le cas où les deux partitions ont même nombre de classes p=q=k) sont
1 2
équiprobables on trouve que c1ii' c ii2 ' + c ii' c ii' suit une loi de Bernoulli de paramètre :
2 2
1− + , on en déduit :
k k2
2 2
E(R’ )= 1− +
k k2
A. Idrissi affirme que le coefficient de Rand empirique entre deux variables qualitatives à
k modalités équiprobables calculées sur n observations suit asymptotiquement une loi
normale de variance :
1 1 2 2 2 2
V(R’)= 2
(1 − )(1 − + 2 )( − 2 )
n n k k k k
Cette expression de la variance suppose l’indépendance des cii’, ce qui est inexact en
raison des contraintes de transitivité (cik=cii’.ci’k) et n’est vraie qu’approximativement
pour k grand (il n’y a même pas normalité asymptotique pour des partitions en deux
classes).
Cet indice qui peut être au plus égal à 1, prend donc la valeur 0 quand l’indice est égal à
l’indice espéré. Avec une hypothèse de distribution hypergéométrique, on montre que
l’indice de Rand corrigé RC égal à :
L’indice maximum Rmax étant égal à 1, tandis que l’indice espéré Resp s’obtient en
n .n
remplaçant nuv dans l’expression de R par u. .v . On peut noter qu’on aurait obtenu le
n
même coefficient RC, si on avait fait le calcul à partir de R’.
L’indice de Rand brut est souvent plus élevé que celui corrigé. Hubert et Arabie affirment
que la correction augmente la sensibilité de cet indice. L’espérance de l’indice corrigé est
nul lorsque les accords entre les deux partitions sont dus au hasard ; Cependant cet indice
corrigé peut prendre des valeurs négatives lorsque les partitions sont peu liées.
Dans le cas où on a deux partitions d’un même ensemble d’individus mais avec des
nombres de classes inégaux, on utilise l’indice de Rand asymétrique proposé par [CHAV
01]. Cet indice asymétrique évalue dans quelle mesure une partition P1(souvent experte)
est « plus fine » qu’une partition P2. Lorsque la partition experte est engendrée par une
variable qualitative, on peut simplement vouloir qu’une classe de la partition obtenue
contienne tous les objets d’une ou de plusieurs classes de la partition experte P1. P1 aura
alors en général plus de classes que P2 et il semble plus naturel d’utiliser des critères de
comparaison non symétrique.
Nous présentons une écriture simple où nous considérons toutes les paires y compris
celles identiques. Ce critère de Rand asymétrique, noté RA, est défini par :
n uv n
∑ − ∑ u.
u, v 2 u 2
R A ( P1 , P2 ) = 1 +
n
2
RA prend ses valeurs dans l’intervalle [0,1]. Si ∀u,∃v tel que P 1u ⊆ P 2v , alors RA=1.
En considérant toutes les paires d’individus, y compris celles identiques on peut écrire
cette version de RA de la façon suivante :
n 2 + ∑ n 2uv − ∑ n 2u.
u, v u a'+b'+c'
R A' (P1, P2 ) = =
n2 a'+b + c'+d'
Notons que dans le cas où les deux partitions auraient même nombre de classes, l’indice
de Rand asymétrique n’est pas égal à l’indice de Rand brut.
N u v = nu.- nuv = nombre d’individus qui sont dans la classe u de P1 et ne sont pas dans la
classe v de P2
TABLE DES MATIERES 60
N uv = n.v- nuv = nombre d’individus qui sont dans la classe v de P2 et ne sont pas dans la
classe u de P1
1 2 1
R A' ( P1 , P2 ) = ∑ ∑ N uv + 2 ∑ ∑ N u. N uv
2
n u v n u v
qui peut être réécrite par les formules de comparaison par paires :
1 1 2
R A' ( P1 , P2 ) = 1 − ∑ ∑ c ii' c ii'
n 2 i i'
1 1
E(RA’)= 1 − +
p pq
d−c
Mc =
d+c
2 2
∑ n u. − ∑ n . v ∑n 2
u. − ∑ n.2v
Mc = u v = u v
1
2 ( ∑ n 2u. + ∑ n .2v ) − ∑ ∑ n 2uv
2 ∑n
u
2
u. + ∑ n − 2 ∑ ∑ nuv2
v
2
.v
u v
2 u v u v
1 2
∑ ∑ c ii' − ∑ ∑ c ii'
Mc = i i' i i'
2 1
2( ∑ ∑ c1ii' c ii' + ∑ ∑ c ii'c ii2 ' )
i i' i i'
Tab. 3.3 Tableau croisant les deux individus selon les m critères
11(i, i' )
J(i,i’) =
11(i, i' ) + 10(i, i' ) + 01(i, i' )
TABLE DES MATIERES 62
Cet indice varie entre 0 à 1 et ne tient compte que des associations positives (présences
simultanées). Par analogie, on définit l’indice de Jaccard d’accord entre deux partitions
par :
a
J=
a+c+d
2
∑ ∑ n uv − n
J= u v
2 2 2
∑ n u . + ∑ n . v − ∑ ∑ n uv − n
u v u v
1 2
∑ ∑ c ii' c ii' − n
J= i i'
1 2 1
∑ ∑ c ii' c ii' + ∑ ∑ c ii' − n
i i' i i'
Il est la somme des carrées inter- covariance entre les deux tableaux X1 et X2 divisé par la
matrice normée intra-variance.
Les travaux de A. Lazraq et R.Cléroux [LAZ 01,02] donnent la possibilité de tester des
hypothèses concernant RV mais pour des données numériques.
1 1 2 1
∑ (c ii' − )(c ii' − ) pq ∑ ∑ n 2uv − p ∑ n 2u. − q ∑ n .2v + n 2
i, i ' p q u v u v
JV(P1,P2)= =
1 1 2 2 1 2 [ p( p − 2) ∑ n 2u. + n ][q (q − 2) ∑ n .2v + n 2 ]
2
∑ (c ii' − ) ∑ (c ii' − )
i, i ' p i, i ' q u v
Idrissi [IDR 00] a utilisé cette formule pour étudier la distribution probabiliste de JV
sous l’hypothèse d’indépendance. Dans le cas où les k modalités de deux variables
qualitatives seraient équiprobables, on trouve que ∑ c iik ' c lii' suit une loi Binomiale de
i ≠ i'
1
paramètres ( n.(n-1), ) L’espérance et la variance de JV sous les même conditions
k2
sont égal à :
k −1
E (JV)=
n
TABLE DES MATIERES 64
C’est une moyenne pondérée des carrées des coefficients de corrélation multiple entre les
composantes de X1 et X2. Il sert à mesurer la qualité de prédiction de X1 par X2. Il est la
proportion de variance expliquée dans la régression de X1 par X2. Il est utilisé, en autres,
pour la sélection de variables en régression linéaire multivariée.
Dans le cas où X1 et X2 seraient les tableaux de variables indicatrices, [SAP 90] a montré
que l’indice RI n’est autre que l’indice de dépendance non symétrique τ b de Goodman et
2
n 2uv n
∑∑ − ∑ .v
u v n.n u. v n
τ bP2 / P1 =
2
n
1 − ∑ .v
v n
liaison fonctionnelle.
c1 c 2
n.∑ ∑ ii' ii' − ∑ ∑ c ii2 '
1
i i ' c i. i i'
τb =
n 2 − ∑ ∑ c ii2 '
i i'
Le test est de rejeter H 0 au niveau α si n .RI> c α où c α est la valeur critique qui peut
être obtenue en utilisant l’algorithme exact de Imhof (1961) dont un programme Fortran
est donnée dans Koerts et Abrahamse (1989).
Lorsqu’on utilise cet indice non symétrique pour comparer deux partitions de différents
nombres de classes, tant que RI est assez grand, on peut constater que les deux partitions
sont proches.
Notons que cet indice asymétrique est intéressent pour savoir si des classes sont apparues
ou non dans deux instants différents d’enquêtes.
Définition
Dans le cas d’étude d’accord entre deux variables indépendantes ayant k modalités, le
coefficient kappa s’écrits :
Po − Pe
κ=
1 − Pe
La concordance observée Po est la proportion des individus classés dans les cases
diagonales de concordance du tableau de contingence, soit la somme des effectifs
diagonaux divisés par la taille de l’échantillon n.
1 k
Po= ∑ n ii
n i=1
La concordance aléatoire Pe est égale à la somme des produits des effectifs marginaux
divisés par le carrée de la taille de l’échantillon.
1 k
Pe= ∑ n i. n .i
n 2 i =1
Le coefficient kappa est un nombre réel, sans dimension, compris entre –1 et 1. L’accord
sera d’autant plus élevé que la valeur de kappa est proche de 1 et l’accord maximal est
atteint lorsque Po=1 et Pe=0.5.
Lorsqu’il y a indépendance entre les variables, le coefficient kappa est nul et dans le cas
d’un désaccord total, kappa prend la valeur –1 avec Po=0 et Pe=0.5. Ceci n’est vrai que
dans le cas où les marginales seraient égales (ni. = n.i) puisqu’il suffit de prendre les
effectifs diagonaux (ceux qui expriment l’accord dans le tableau de contingence) égaux
aux marginales et les effectifs non diagonaux égaux à 0.
Pour des marginales données, [COH 60] propose de déterminer la valeur maximale de
Kappa (κm) :
P − Pe
κm = m
1 − Pe
TABLE DES MATIERES 67
1 k
Pm = ∑ inf( n i. , n.i )
n i =1
k k
n. ∑ n ii − ∑ n i. n .i
κ= i =1 i =1
k
n 2 − ∑ n i. n .i
i =1
Pour chercher les numéros de classes, on permute le tableau de contingence trouvé par
une méthode de partition, ici les k-means, et à chaque permutation on calcule la valeur du
coefficient kappa de Cohen, la permutation qui donne la valeur maximale de kappa
indique la numérotation des classes recherchée.
L’indice D2 proposé par R. Popping [PO 83, PO 00], est l’un des indices de similarités
qu’on peut utiliser. Il est basé sur le même principe que le coefficient kappa.
L’indice D2, basé sur la comparaison des paires d’individus, étudie l’agrément entre deux
juges qui caractérisent indépendamment le même ensemble de données dans le cas où les
catégories ne seraient pas connues à l’avance. IL mesure l’accord positif entre deux
variables nominales. Cet indice contient une correction d’agrément qui peut être espérée
par chance donnant les marginaux de la classification originale.
TABLE DES MATIERES 68
p q
2 ∑ ∑ c ij
i =1 j=1
De=
n( n − 1)
n i . .n . j
c ij = g ij ( h ij − 0,5g ij − 0,5) avec h ij = et g ij = Entier(h ij )
n
p
∑ n i. ( n i. − 1) ∑ n. j (n. j − 1)
Dp = i =1 , Dq=
n( n − 1) n( n − 1)
Dm=Max(Dp,Dq)
Dans D2, on considère De comme étant un minimum raisonnable [POP 83], donc
l’utilisation de gij est favorisée car on n’a pas une démonstration empirique pour avoir
une moyenne plus petite que le minimum, pourtant elle donne une valeur biaisée de De.
Notant que Popping [POP 94] a proposé l’indice S2 qui mesure l’accord global positif et
négatif entre deux variables nominales.
L’indice D2 a été comparé au coefficient kappa et à l’indice de JV, dans le cas particulier
suivant :
TABLE DES MATIERES 69
Catégorie + - Total
+ e h-e h
- h-e e h
Total h h 2h
Tab. 3.4 Cas particulier du tableau d’accord utilisé par Popping
2e − h
Popping a obtenu les résultats suivants : κ=
h
2
2e − h
D2= =JV
h
Généralement, dans notre étude par simulation, nous trouvons une forte corrélation entre
les indices D2 et JV.
Pour notre part, si on considère que la partie Entière(hij) = hij , nous obtenons la relation
suivante entre D2 et l’indice de Jaccard J :
(C 2n − b)J
D2 =
max(a + c, a + d) − C 2n
a n( n − 1) n
avec J= et C 2n = =
a+c+d 2 2
3.12 Conclusion
Ce chapitre a été consacré à la présentation des indices utiles pour notre procédure de
comparaison de deux partitions. Nous avons présenté l’indice de Rand sous sa forme
brute et corrigée ainsi que sa version asymétrique, les indices dérivés du test de Mc
Nemar et de l’indice de Jaccard, l’indice de corrélation vectorielle, l’indice JV de Janson
et Vegelius, l’indice asymétrique de redondance, le coefficient Kappa de Cohen, et
l’indice D2 de Popping. Nous avons proposé pour la plupart de ces indices des écritures
relationnelles et contingentielles. Nous avons montré que RV s’identifie à JV et proposé
une relation entre D2 et J.
TABLE DES MATIERES 70
Notons que, l’indice de Khi-deux n’a pas été retenu pour cette étude car il étudie l’écart à
l’indépendance et non pas à la concordance. Ceci sera justifié dans le chapitre suivant qui
traitera la comparaison de deux partitions provenant d’une même ensemble d’individus.
TABLE DES MATIERES 71
Chapitre 4
4.1 Introduction
Il est fréquent d’avoir à comparer des partitions provenant d’un même ensemble
d’individus, obtenues dans diverses circonstances (opinion, consommation, méthodes,
enquêtes, algorithme …), plusieurs cas se posent, selon que l’on travaille sur le même
questionnaire ou sur des questionnaires différents. La littérature spécialisée est souvent
muette sur ce point.
Dans ce chapitre, on propose des méthodes et des approches destinées à répondre aux
différentes questions : Lors de deux enquêtes portant sur les mêmes individus, comment
mesurer l’accord entre deux classifications ? Est- ce que ces deux classifications se
ressemblent ? Peut-on affirmer que la classification n’a pas changé, que les proportions
respectives des classes ont ou non pas varié, que les classes s’interprètent de la même
façon ?
Les résultats de cette démarche seront confrontés avec ceux obtenus par d’autres
méthodes tel que : la méthode au moyen de l’analyse factorielle de correspondances qui
cherche à maximiser le poids de la diagonale du tableau de contingence croisant les deux
partitions [SAP 90], [LEB 97], la méthode graphique de Bertin [BER 77] introduite dans
le logiciel AMADO (Analyse graphique d’une Matrice de Données) [RIS 94], et la
méthode d'analyse de données symboliques qui cherche à minimiser la distance entre les
descriptions symboliques des classes en utilisant les variables supplémentaires.
Pour découvrir et identifier la structure d’un phénomène quantifié sous forme d’un
tableau croisé en analyse de données, nous disposons de deux approches :
Ce tableau donne une valeur du coefficient Kappa égale à 0.33506. Afin d’identifier les
classes de P2 à celles de P1, on réordonne les colonnes pour obtenir la valeur de kappa
maximale (il y a 4 ! permutations). Le tableau réordonné est alors le suivant:
P2 1 2 4 3
P1
1 248 0 2 0
2 1 198 9 27
3 2 6 202 43
4 0 58 12 192
En utilisant la formulation de κm proposée par [COH 60] qui tient compte des effectifs
marginaux, on obtient une valeur égale à 0.96267. Le rapport de cette dernière avec la
valeur obtenue par notre méthode est :
0 . 786698
× 100 ≈ 81%
0 . 96267
Ce rapport montre que l’accord obtenu par notre méthode correspond à 81% de l’accord
maximal qu’il pourrait atteindre.
En AFC, qui est une analyse canonique entre deux groupes d'indicatrices, le premier axe
a la propriété suivante: les coordonnées des catégories des variables sont les valeurs
numériques telles que leur coefficient de corrélation linéaire soit maximal. Il est donc
logique de permuter les modalités selon leur classement sur cet axe.
On réordonne lignes et colonnes du tableau de contingence selon l’ordre des points sur le
premier axe principal pour trouver un tableau dont les termes « diagonaux » aient des
effectifs maximaux.
P2 2 3 4 1
P1
2 198 27 9 1
4 58 192 12 0
3 6 43 202 2
1 0 0 2 248
Le reclassement visuel des lignes et des colonnes avec la graphique permet de compléter
et d’affiner les classements automatiques (AFC, ACP, pourcentage, tri) et le plus souvent
de les déplacer en classant « à part » lignes et colonnes appartenant à des systèmes
différents. Ce reclassement aboutit à une image qui dégage clairement une structure
évolutive et des exceptions facilement analysables.
Le logiciel AMADO [RIS 94] permet de réaliser ces graphiques et donne la possibilité de
réaliser facilement des améliorations du graphique par déplacement de ligne ou/et
colonnes. On peut corriger l’ordre, en partie aléatoire, des éléments de l’arbre de
classifications (dendrogramme) et améliorer la lecture des résultats en utilisant les
informations non inscrites dans le tableau croisé.
v22
v23
v24
v21
192
58 12 0 Individu n
198
27 9 1 Individu n
202
6 43 2 Individu n
248
0 0 2 Individu n
Indices de Ressemblance
u= [Y1є U1]^ [Y2 є U2]^……^[Yp єUp] et v= [Y1є V1]^ [Y2 є V2]^……^[Yp єVp]
Plusieurs mesures de dissimilarités sont proposées pour des objets symboliques booléens.
On présente celles de Gowda et Diday [GOW 94], l’approche par Ichino et Yaguchi [ICH
94], et celui de Decarvalho [DEC 94, 98].
TABLE DES MATIERES 77
D(u,v)= ∑ D( U j , V j )
j
D(Uj,Vj)=Dp(Uj,Vj)+Ds(Uj,Vj)+Dc(Uj,Vj)
D(Uj,Vj)= Ds(Uj,Vj)+Dc(Uj,Vj)
Pour une paire (Uj, Vj) liant à la j’ieme variable Yj, la distance est :
φ( U j , Vj ) = U j ⊕ Vj − U j ∩ Vj + γ ( 2 U j ∩ Vj − U j − Vj )
p
d q (a , b) = ( ∑ φ( A j , B j ) q )1 / q
j=1
De Carvalho (1994) :
Les différentes fonctions pour une paire (Uj, Vj) de la jeme variable Yj ,en utilisant la
terminologie du Tab 3.1:
a
d1([YjєUj],[YjєVj])=1-
a+c+d
2a
d2([YjєUj],[YjєVj])=1-
2a + c + d
a
d3([YjєUj],[YjєVj])=1-
a + 2( c + d )
1 a a
d4([YjєUj],[YjєVj])=1- +
2 a + c a + d
TABLE DES MATIERES 78
a
d5([YjєUj],[YjєVj])=1-
(a + c)(a + d )
ces fonctions se transforment par les fonctions de distance entre les objets assertion u et
v par les écritures suivantes:
1/ q
p
p
d iq ( u, v ) = ∑ [ w jd i ( U j , Vj )]
j=1
Pour tout i є{1,2….,5} quand wj est le poids de la variable Yj. Pour une paire (Uk,Vk) de
valeur de la k ième variable, la distance est définie par :
1/ q
p 1
p
d 'q ( u, v ) = '
∑ Ψ ( U j , V j )
p
=1
j
De Carvalho (1996,1998)
Pour deux objets d’assertion u et v, les fonctions de distance proposées sont :
p
d1' ( u, v ) = π( u ⊕ v ) − π( u ⊗ v ) + γ ( 2.π( u ⊗ v ) − π( u ) − π( v )) avec π( u ) = ∏ υ( U j ) et
j =1
⊗ représente l’intersection.
π( u ⊕ v ) − π( u ⊗ v ) + γ ( 2.π( u ⊗ v ) − π( u ) − π( v ))
d '2 ( u, v ) =
π( u E )
pour uE =[x1=Y1]^…[xp=Yp]
π( u ⊕ v ) − π( u ⊗ v ) + γ ( 2.π( u ⊗ v ) − π( u ) − π( v ))
d '3 ( u, v ) =
π( u ⊕ v )
TABLE DES MATIERES 79
1/ q
p
∑ [d i ( U j , V j )]q
j=1
d "q ( u, v ) =
p
∑ δ( j)
=
j 1
avec NA est la valeur prie dans le cas où la dépendance hiearchique serait active
{NA} si Y j est une conclusion des regles exprimant une dependance logique
et δ( j) =
φ ailleurs
Pour une liste complète des extensions des coefficients d’associations, voir [ESP 00]. La
comparaison entre ces mesures de dissimilarités pour des objets symboliques booléennes
a été étudié par [MAL 01].
Il faut maintenant définir ce que l’on entend par « deux partitions sont proches » : notre
approche consiste à dire que les individus proviennent d’une même partition commune,
dont les deux partitions observées en sont des réalisations bruitées. Le modèle de classes
latentes est bien adapté à cette problématique pour engendrer des partitions. Notons qu’il
a été utilisé récemment pour la recherche de partitions consensus par Green et Krieger
[GRE 99].
Pour obtenir des partitions « proches », qui ne diffèrent l’une de l’autre que de façon
aléatoire, on va construire des échantillons artificiels issus d’un modèle à k classes
latentes et décrits par v variables numériques, que l’on supposera par commodité,
TABLE DES MATIERES 80
normales, mais d’autres distributions sont bien sûr possibles. On partage ensuite
arbitrairement les v variables en deux groupes et on effectue deux partitions en k classes
des n individus selon ces deux groupes de variables à l’aide d’une méthode classique (les
k-means ou nuées dynamiques.) Normalement, ces deux partitions doivent être peu
différentes, on calcule les indices présentés dans le chapitre 3, on obtient un échantillon
de valeurs de ces indices, sous l’hypothèse de « partitions proches » en itérant m fois, ce
qui permet d’étudier leur distribution.
- Tirage des effectifs des classes latentes selon une loi multinomiale M(n; π1 , ..,πk)
- Calcul d’une partition P1 sur v1 variables et d’une partition P2 sur les autres v-v1
variables.
Les paramètres des distributions normales ont été choisis de telle sorte que pour chaque
variable xj, la valeur absolue de la différence entre les moyennes de la distribution
normale de deux classes différentes soit plus grande d’une fois et demie de son écart-
type :
mkj et mk’j étant les moyennes respectives de la variable xj dans les classes k et k’, et σj
l’écart-type de xj .
TABLE DES MATIERES 81
Nous présentons dans la suite les résultats de nos simulations au nombre d’itérations m
égal à 1000 et selon plusieurs choix de paramètres effectués avec le logiciel S-Plus [SPL
00]. Les indices choisis, pour comparer les deux partitions, sont l’indice de Rand dans
toutes ses versions, l’indice dérivé de Mc Nemar, l’indice de Jaccard, le coefficient de
Janson et Vegelius, le coefficient D2 de Popping et le coefficient kappa.
Premier choix
Component 2
Component 2
0
0
-10
-5
-20
-10
Fig. 4.2 Les deux premières composantes principales de l’une des 1000
échantillons de P1 et P2 en premier choix
TABLE DES MATIERES 82
500
600
400
500
400
300
300
200
200
100
100
0
0
0.70 0.75 0.80 0.85 0.90 0.3 0.4 0.5 0.6 0.7 0.8
R' RC
Ici, toutes les valeurs observées du coefficient de Rand sont supérieures à 0.7, alors que
l’espérance de R’ sous l’hypothèse d’indépendance est de 0.625, ce qui montre bien le
caractère inadapté de celle-ci. Avec 1000 observations, on rejetterait l’indépendance si
R’>0.65 au risque de 5% mais cela ne suffit pas pour montrer que les deux partitions sont
« proches ».
Nous représentons dans la figure suivante la densité de la différence (R’- RC) de ces deux
indices.
TABLE DES MATIERES 83
20
15
density(diff)$y
10
5
0
density(diff)$x
Comme l’indice de Rand donne la même importance aux couples d’individus qui sont
dans la même classes de deux partitions, qu’à ceux qui ne sont pas dans la même classe
pour les deux partitions (accord négatif), on utilise la même démarche pour trouver la
distribution des indices de Mc Nemar et celui de Jaccard pour 1000 simulations.
600
250
500
200
400
150
300
100
200
50
100
0
0
Mc J
L’indice de Mc Nemar est à majorité distribué autour de zéro montrant ainsi que pour un
risque de 5% l’hypothèse nulle est vérifiée. La distribution de l’indice de Jaccard présente
des valeurs supérieures à 0.4 dont la valeur la plus fréquente est de 0.63.
500
400
400
300
300
200
200
100
100
0
0.4 0.5 0.6 0.7 0.8 0.3 0.4 0.5 0.6 0.7 0.8
JV D2
Pour trouver la distribution de Rand asymétrique, la même procédure est utilisée pour
trouver les variables normales indépendantes, mais en effectuant deux autres
classifications : la première partition P1 de X1, X2 et X3 formée de 6 classes, et la
deuxième partition P2 de X4 formée de 3 classes par K-means.
Dans ce cas, on cherche à évaluer dans quelle mesure les classes de P1 sont incluses dans
celles de P2. On calcule alors 1000 fois l’indice de Rand asymétrique RA’ et celui
TABLE DES MATIERES 85
corrigé. On remarque que les valeurs de l’indice de Rand asymétrique RA’ sont supérieur
à 0.92. Par contre celui de Rand asymétrique corrigé prend ses valeurs à partir de 0.36.
150
250
200
100
150
100
50
50
0
0
0.92 0.93 0.94 0.95 0.96 0.35 0.40 0.45 0.50 0.55 0.60 0.65
RA' RAC
4
2
0
density(diff)$x
150
100
50
0
0 .7 0 0 .7 2 0 .7 4 0 .7 6
R'
Contrairement à ce qu’on a trouvé dans les résultats des partitions symétriques, on a une
distribution modale dans tous les cas de l’indice de Rand. Cela revient à conclure que ces
distributions dépendent du nombre de classes dans chaque partition.
On ne peut cependant proposer de seuil de signification pour chacun des coefficients, car
les distributions dépendent de leur séparabilité qui est liée aux paramètres des
distributions normales. On choisit un autre choix de paramètres des variables normales
afin de tester leurs influences aux différents indices.
Pour le deuxième choix, on choisit le modèle de mélange présenté dans le tableau suivant :
La figure suivante montre la répartition spatiale de l’une des 1000 itérations des deux
partitions P1 et P2.
TABLE DES MATIERES 87
15
4
10
2
5
Component 2
Component 2
0
0
-2
-5
-4
-10
-6
-15
-10 0 10 -20 0 20 40
Component 1 Component 1
Fig. 4.10 Les deux premières composantes principales de l’une des 1000
échantillons de P1 et P2 en deuxième choix
Les distributions de l’indice R’ de Rand brut, de l’indice dérivé de Jaccard et celui de
Mac Nemar, sont représentées dans la figure suivante :
600
300
300
500
400
200
200
300
100
200
100
100
0
0.74 0.76 0.78 0.80 0.82 0.84 0.86 0.40 0.45 0.50 0.55 -100 -50 0 50 100
R' J Mc
On trouve une distribution de Rand R’ toujours supérieure à 0.74. Cette distribution non
normale varie entre 0.75 et 0.87 avec une moyenne égale à 0.8324716. La valeur la plus
fréquente est de 0.835. L’indice de Jaccard prend ses valeurs entre 0.35 et 0.58. On
observe une chute de ses valeurs par rapport à sa distribution précédente (Fig.4.5). La
moyenne a baissé de 10% et prend la valeur de 0.5039546. L’indice Mc a toujours ses
valeurs autour de zéro, sa distribution n’a pas donc changé d’allure.
Pour visualiser l’allure de ces corrélations, on présente les nuages des points de ces
indices deux à deux :
TABLE DES MATIERES 89
0.84
R
0.80
0.76
0.50
J
0.40
50
0
Mc
-50
-100
0.76 0.80 0.84 -100 -50 0 50
Fig. 4.12 Nuage des points des indices R’, J, et Mc l’un contre l’autre dans les 1000
itérations.
On remarque la forte corrélation entre les deux indices R’ et J, (Fig. 4.12) et les non-
corrélation de l’indice Mc avec R’ et J. La partie séparée de nuage des points des indices
l’un contre l’autre provient de l’utilisation de la méthode des k-means qui donne un
optimum local.
Pour ce deuxième choix, les résultats illustrés par la Fig. 4.13 montre que l’indice de JV
prend ses valeurs entre 0.4 et 0.7. La valeur la plus fréquente est de 0.63 et la moyenne
des valeurs est égale à 0.617.
TABLE DES MATIERES 90
L’indice D2 prend ses valeurs entre 0.3 et 0.7 avec un mode égal à 0.625. La distribution
admet une moyenne de 0.6100 (Fig. 4.13).
Sous l’hypothèse nulle de partitions proches, toutes les partitions ont des valeurs autour
de la moyenne dont la valeur est de 0.6, d’où on peut conclure que les deux partitions
sont proches.
300
600
250
500
200
400
150
300
100
200
50
100
0
0
JV D2
0.7
1
11111
111111
1
1
11
1
1 11111
111
1
11
111
11111
11111111
1
11
11111111
1
1 400
11
1
1111111
11
111111111
0.6
11
1111
11
111111
1 1
1
11111
111
1
11
D2 11
300
0.5
200
0.4
1 11 111
1 100
111 11
111111
1 1111111
11 11
11 1 1
1 1111 1 1
0.3
1 1 1
0
0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90
JV KAPPA
Fig. 4.14 Distribution de kappa pour 1000 individus en 1000 itérations pour partitions à
4 classes. Nuage des points de JV contre D2 dans les 1000 itérations.
En comparant les résultats des deux choix de paramètres, on remarque que la bimodalité
est présente dans les deux cas causée par l’utilisation des k-means qui donne l’optimum
locale [YOU 03]. L’’indice de Mc n’a pas changé, l’indice de Jaccard a baissé de valeurs,
les indices R’, JV et D2 ont à peu près les même moyennes dans les deux choix.
Il est clair que ces distributions dépendent de la plus ou moins grande séparation des
classes, du nombre d’individus, et du nombre de classes des partitions. Ceci impose des
simulations supplémentaires en faisant varier ces paramètres pour pouvoir conclure sur
le bon choix d’indices.
En faisant varier le nombre d’individus des deux partitions, on obtient les résultats
suivants :
TABLE DES MATIERES 92
On remarque que la variation de ces indices n’est pas la même en fonction du nombre
d’individus n. L’indice Mc décroît considérablement avec la variation de n, alors que
l’indice J reste presque inchangé avec n.
Pour 1000 itérations, et pour un type de choix de paramètres, on cherche la moyenne des
différents indices en faisant varier le nombre de classes k de 3 à 8. Le résultat de cette
procédure donne le tableau suivant :
de R’ de J de Mc JV de D2
Tabl.4.7 Moyennes des indices par variation du nombre de classes k en 1000 itérations
TABLE DES MATIERES 93
250
200
300
150
200
100
100
50
0
0
500
600
400
300
400
300
200
200
200
100
100
0
0
-100 -50 0 50 100 0.4 0.5 0.6 0.7 0.8 0.4 0.5 0.6 0.7 0.8
Mc JV D2
supérieures à 0.45. Les valeurs les plus fréquentes de l’indice de Mc Nemar sont à zéro.
Les valeurs de JV et de D2 sont en majorités supérieures à 0.6.
Nous avons vu précédemment que pour deux choix distincts des paramètres de variables
normales indépendantes, comment les indices proposés pour la comparaison de deux
partitions proches varient selon la plus ou moins grande séparation des classes.
Afin d’avoir une idée sur la robustesse et la stabilité de ces indices selon la séparation des
classes des partitions, on présente dans le tableau suivant les variations de ces indices
pour différents types de choix des paramètres.
-20 0 20 40
Component 1
0
-10
-20
-2 0 -1 0 0 10 20 30
C o m pon en t 1
0
-5
-10
-2 0 -1 0 0 10 20
C o m pon en t 1
0
-5
-10
-8 0 -6 0 -4 0 -2 0 0 20 40 60
C om ponent 1
-100 -50 0 50
Component 1
Tabl.4.8 Moyennes des indices par variation de la séparation des classes en 1000
itérations
TABLE DES MATIERES 95
Parmi ces indices, seul l’indice de Rand et de Janson et Vegelius possède, sous
l’hypothèse d’indépendance, d’équiprobabilité, et du même nombre de classes, admettent
une loi de distribution de probabilités théoriques [IDR 00]. Il serait donc intéressant de
comparer leurs espérances théoriques de probabilités et celles simulées par notre
méthode.
• Indice Rand R’
La moyenne de Rand théorique croit avec le nombre de classes, mais ce n’est pas
toujours le cas pour la moyenne expérimentale trouvée par simulation. La différence
entre les valeurs théoriques et expérimentales décroît lorsque le nombre de classes des
partitions augmente.
Indice de JV
50
40
30 4
20
10
0 0
0.75 0.76 0.77 0.78 0.79 0.80 0.60 0.65 0.70 0.75 0.80 0.85 0.90
R' RR'
Fig. 4.16 Distribution de l’indice de Rand R’ en appliquant une et deux fois les k-means
Sur la figure 4.17, on constate que l’indice de Rand R’ reste presque inchangé et
indépendant d’une part du nombre de classes k et d’autre part de la variation de
TABLE DES MATIERES 98
L’indice D2 forme une parabole de valeur maximale atteinte pour un nombre de classes k
égal à 5 et il est stable pour un nombre d’individus inférieur à 1000.
L’indice Mc dépendant et trop variant avec tous les paramètres évoqués précédemment,
ne présente aucun intérêt pour l’utilisation dans la comparaison de deux partitions
proches et donc à déconseiller.
L’indice kappa de Cohen est utilisé seulement pour deux partitions de mêmes nombres de
classes à condition d’identifier les classes par permutation. Son utilisation est donc plus
complexe.
TABLE DES MATIERES 99
1.0
0
R'
J
R' JV
J 0.8 D2
-2 Mc
JV
D2
0.6
-4
0.4
-6
-8 0.2
0.9
R'
6 J
MC
JV R'
0.8
D2 J
JV
D2
2 0.7
0.6
-2
0.5
-6 0.4
3 4 5 6 7 8 3 4 5 6 7 8
K K
25
1.0
20 R
J
Mc 0.9 R
JV J
15
D JV
D
0.8
10
0.7
5
0 0.6
-5
0.5
1 2 3 4 5
1 2 3 4 5
Separation
Separation
On remarque de ces graphiques que lorsque la séparation des classes de deux partitions
est grande les indices se stabilisent à des valeurs très proches de 1.
Un point important pour comparer des partitions c’est de savoir si les classes à comparer
sont stables et homogènes. On présente dans la suite les méthodes pour étudier la stabilité
des classes des partitions.
Nous présentons dans la suite quelques outils des tests classiques pour étudier la stabilité
d’une classe de deux partitions d’une même base de données.
Les k classes des deux partitions d’un même nombre n d’individus sont réparties de la
façon suivante :
c1 c2 …. ck Total
Si nlh est le nombre des individus de la partition Pl qui se trouve dans la classe h.
On a :
TABLE DES MATIERES 101
K K
n= ∑ n 1 h = ∑ n 2 h = la taille de la population pour les deux partitions.
h =1 h =1
n.h = n1h + n 2 h = nombre total des individus qui se trouve dans la classe r pour les deux
partitions.
Pour l’hypothèse H0, les p1, p2, ….,pk représentent les probabilités d’être dans les classes
c1, c2,….., ck. Il s’agit donc de comparer les effectifs constatés n1h ou n2h aux effectifs
espérés nph qui ne doivent pas en différer beaucoup.
On a :
( n 1h − nph ) 2 ( n − nph ) 2
d2= ∑ + ∑ 2h
h nph h np h
d2 est une réalisation de D2 suivant un χ 2 dont le degré de liberté est : 2k-2=2(k-1) (avec
^ n n + n 2h
k est le nombre de classes dans une partition). On estime les p h = .h = 1h , ce
2n 2n
qui fait (k-1) estimations indépendantes.
D’où
n × n .h n × n n n
n 1h − n 2h − .h
n 1h − .h n 2 h − .h
d2 = ∑ 2n + ∑ 2n = ∑ 2 + ∑ 2
n × n .h n × n h n .h h n .h
h h .h
2n 2n 2 2
d−c
Mc =
d+c
Mc suit approximativement une loi normale N(0,1) sous H0 (voir chapitre 3).
On utilise le test généralisé de Mc Nemar [GIL 89] qui étudie la variation des
pourcentages sur un ensemble d’individus pour des classes des deux partitions. Il est
utilisé pour tester si la probabilité d’individus classées dans (i, j) est la même que la
probabilité d’individus classées dans (j, i). Pour deux partitions P1 et P2 formées de k
classes chacune, le tableau de contingence est représenté comme suit :
P2 Classe 1 Classe 2 Classe v totaux
P1
Classe 1 n11 n12 .. n1.
Classe 2 n21 n22 .. n2.
Classe u .. … nuv nu.
totaux n.1 n.2 n.v n
Tab. 4.12 Tableau de contingence de P1 et P2
Avec nuv= nombre d’individus qui sont dans la classe u de P1 et dans la classe v de P2
H0 : n u.=n.u ∀u ∈ k contre
La statistique du test de Mc Nemar dans le cas de notre tableau est écrit alors :
( n uv − n vu ) 2
T= ∑
u ≠ v n uv + n vu
( n uv − n vu − 1) 2
T’= ∑
u≠v n uv + n vu
TABLE DES MATIERES 103
E( C)=Min{card F / ∪ f i = ∪ c i }
Pour étudier la stabilité des interprétations des classes, on utilise l’analyse symbolique
traitée sur les données classiques soit dès le départ soit après avoir utilisé une méthode de
l’analyse de données classiques pour automatiser l’interprétation. On cherche des objets
symboliques complets et d’effritement minimum caractéristiques de chacune des classes,
les objets de meilleure stabilité qui minimisent le recouvrement de la partition associée à
ces classes.
En SODAS (Symbolic Official Data Analysis System) la méthode se trouve sous le nom
de DSD (Discriminant Symbolic Description). Dans le modèle symbolique, la description
d’une classe correspond à une disjonction des objets symboliques.
Une autre façon d’étudier l’homogénéité ou la stabilité de ces interprétations des classes
est de comparer leurs descriptions symboliques à l’aide des variables supplémentaires
communes aux deux partitions. Si les descriptions sont similaires on peut affirmer leurs
stabilités. Pour mesurer la similarité des paires d’objets ou des descriptions symboliques,
plusieurs indices ont été développé [GOW 92], [ICH 94], [DEC 98, 00].
SODAS offre la possibilité de choisir entre ces différents indices pour comparer deux
objets symboliques de type booléens en utilisant la méthode DI (Distances matrix :
Dissimilarities and Matching).
peuvent être transformées pour ce but de travail. On présente les tests classiques les plus
utilisées qui sont les tests d’homogénéité et de Hotelling ou de Mahalanobis.
On procède à une étude basée sur la différence entre les deux tableaux de données X1 et
X2 appariées D=X1-X2 en analysant la structure typologique provenant de cette matrice.
D 2p = ( n − 1)( g − µ) ' V −1 ( g − µ)
n−p
Lorsque µ =0, on a : ( g − µ) ' V −1 ( g − µ) = F( p; n − p)
p
On présente dans la suite une méthode basant sur la structure de la différence entre les
deux tableaux des données appariées.
structure de classification sur D n’apparaît, nous pouvons admettre que D est un « bruit »
et que les classifications issues de X1 et X2 sont semblables.
Le test sera :
H0 : D=X1-X2=0 contre
H1 : D ≠ 0
Exemple d’application
Prenons deux tableaux provenant des données appariées. On utilise les deux premières
procédures de l’algorithme présenté dans le paragraphe (4.3.2) pour créer des données de
1000 individus. Le premier tableau X1 est formé de 4 variables normales indépendantes,
le deuxième X2 est formé par les mêmes variables de même paramètres, donc on trouve
deux tableaux de variables multinormales et de même matrice de variance. On calcul la
matrice de différence de ces deux tableaux D= X1-X2 puis on cherche la structure de
classification de D. On utilise la classification hiérarchique par la méthode du critère de
Ward.
2
99% 1%
1935
1937
1879
1881
1931
1933
1915
1903
1943
1910
1909
1938
1945
1906
1946
1905
1899
1917
1942
1944
1892
1912
1873
1934
1930
1948
Indi
1924
1927
1940
1904
1921
1950
1926
Indi
1947
1900
1918
1855
1949
1928
1923
1854
1929
1913
1887
1865
Indi
1919
1939
Par suite, on peut conclure que les classifications issues des deux tableaux sont
semblables.
4.7 Conclusion
Nous venons de présenter une étude sur la comparaison des partitions proches ayant des
variables différentes pour un même ensemble d’individus. Cette étude sera plus complète
si on s’intéresse au cas où on aurait à comparer deux partitions provenant d’un ensemble
de données ayant même variables. Ceci fera l’objet du chapitre suivant.
Chapitre 5
5.1 Introduction
Le cas d’avoir à comparer des partitions issues de deux échantillons différents se présente
fréquemment lors d’enquêtes périodiques d’opinion ou de marché où le même
questionnaire est posé à des différents échantillons mais de structure semblable. Il est
certes théoriquement possible de tester si les échantillons sont ou ne sont pas
significativement différents, mais outre que cela n’est pas facile pour des questionnaires
qualitatifs, cela ne répond pas vraiment à la question.
Dans un premier temps, ce chapitre est consacré à la présentation des tests classiques
[SAP 90], [LEB 97] de comparaison de deux échantillons. On distingue parmi eux, le test
du khi-deux, et le test de Mahalanobis.
La deuxième partie propose une nouvelle méthode de comparaisons par projection des
partitions. On applique l’analyse discriminante sur une des deux partitions et on reclasse
les individus de l’autre partition. La comparaison sera faite à partir des indices de
comparaison des partitions définis au chapitre 2.
Une autre approche pour la comparaison de partitions dans notre cas est définie en
utilisant la classification des variables. Il s’agit de trouver les arbres hiérarchiques par les
méthodes de classification de variables, et de les comparer à partir des indices de
TABLE DES MATIERES 110
consensus. Cette méthode a été développée par [ANA 00] et que nous présentons dans la
troisième partie de ce chapitre.
La dernière partie traite la stabilité des interprétations des classes des partitions étudiées.
On recourra à la comparaison des descriptions symboliques trouvées par application de
l’analyse symbolique sur des données classiques ou par utilisation des sorties de la
méthode de descriptions des classes (PARTI-DECLA) du logiciel SPAD.
H0 : proportions identiques
Pour l’hypothèse H0, les p1, p2, ….,pk représentent les probabilités d’être dans les classes
c1, c2,….., ck. Il s’agit donc de comparer les effectifs constatés n1h ou n2h aux effectifs
espérés n1ph et n2ph.
On a :
( n 1h − n 1p h ) 2 (n − n 2ph )2
d2= ∑ + ∑ 2h
h n 1p h h n 2ph
^ n .h n + n 2h
On estime les p h = = 1h , ce qui fait (k-1) estimations indépendantes.
n1 + n 2 n1 + n 2
TABLE DES MATIERES 111
n 1 × n .h n × n .h
n 1h − n 2h − 2
n1 + n 2 n1 + n 2
d2 = ∑ +∑
h n1 × n .h h n 2 × n .h
n1 + n 2 n1 + n 2
Pour deux partitions P1 et P2 de k classes à n1h et n2h observations pour une classe h on a à
tester si ∆k , le carré de la distance de Mahalanobis entre les moyennes des classes des
2
D 2k = ( g1 − g 2 ) ' W −1 ( g1 − g 2 )
n1h V1 + n 2 h V2 ˆ
W= =Σ
n 1h + n 2 h − 2
n 1h + n 2 h − 2 k ( n 1h + n 2 h )
E( D 2k ) = [ ∆2k + ]
n 1h + n 2 h − k − 1 n 1 h .n 2 h
n1r n 2 r ( n1r + n 2 r − k − 1)
Lorsque ∆2k =0, donc on a : D 2k = F( k; n1r + n 2 r − k − 1)
( n1r + n 2 r ).k.( n 1r + n 2 r − 2)
TABLE DES MATIERES 112
Pour notre cas, nous s’intéressons à l’analyse factorielle discriminante [CEL 94], [LEB
97] qui consiste à rechercher les combinaisons linéaires de p variables qui permettent de
TABLE DES MATIERES 113
séparer aux mieux les k classes. La première combinaison linéaire sera celle dont la
variance interclasse est maximale, afin d’exalter les différences entre les classes, et dont
la variance intraclasse est minimale pour que l’étendue dans les classes soit délimitée
celle qui discrimine le mieux les classes.
Mais cette approche purement géométrique ne prend pas en compte les probabilités a
priori. Le modèle bayésien d’affectation permet d’enrichir ce point.
La classe d’affectation de x, l’un des nouveaux individus décrits par les même variables
(x1,…,xp), sera celle pour laquelle le produit P(x/Ik).P(Ik) est maximal. P(Ik) est la
probabilité a priori du groupe k, et P(x/Ik) est la probabilité de x sachant que Ik est
réalisé. C’est le modèle bayésien d’affectation [LEB 97], lorsque les variables sont
normales avec matrice de covariances identique, les fonctions de classement sont
linéaires. Notons fk(x) la densité de probabilité de x connaissant Ik dans le cas
multinormal, µk et Σk désignent respectivement la moyenne et la matrice des covariances
théoriques à l’intérieur de groupe Ik. Dans le cas où les distributions de chaque classe ont
même matrice de covariances, la densité s’écrit :
−1 / 2 1
fk(x)= ( 2π) − p / 2 Σ exp{− ( x − µ k ) ' Σ −1 ( x − µ k )}
2
Si de plus les probabilités a priori sont égales, la règle de classement coïncide avec la
minimisation de la distance de Mahalanobis:
sck(x)= ( x − µ k ) ' Σ −1 ( x − µ k )
La règle d’affectation bayésienne devient la recherche du centre le plus proche selon cette
distance.
1
Max [ln pk - ( x − µ k ) ' Σ −k 1 ( x − µ k ) − ln Σ k
2
1
Max[ln pk - µ 'k Σ −1µ k + x ' Σ −1µ k ]
2
Notre méthodologie pour comparer les deux échantillons de mêmes variables est basée
sur l’utilisation de la projection des partitions. Pour cela, on réalise la projection de l’un
des échantillons sur la partition de l’autre de la façon suivante :
On définit les fonctions de classement dans le groupe de la première typologie qui sert
d’ensemble d’apprentissage.
TABLE DES MATIERES 115
x1 x2 … xp y (k-means)
y’(k-means)
n2 observations affectation ? 1
K
1
Echantillon 2
Tableau de contingence
D’autre part, on cherche une partition pour ce deuxième échantillon par la méthode des k-
means. On trouve la répartition en k classes de cet échantillon.
On croise le tableau de contingence formé par les classes nouvelles obtenues par la
méthode des k-means, et les classes anciennes reconstituées par l’analyse discriminante.
Ce tableau de contingence est alors décrit et analysé par les méthodes de comparaison de
deux partitions provenant d’un même ensemble d’individus.
Pour mieux cerner la démarche proposée, on présente dans la suite les détails de cette
méthode de projection et son application sur des données simulées.
5.3.3 Algorithme
L’algorithme pour trouver les deux partitions d’un même ensemble de variables se
déroule de la manière suivante :
• En utilisant les k-means, on obtient la partition P1 sur les p variables de la base de
données I1, d’où on en tire les k classes de P1.
• On joint les deux bases de données de mêmes variables en une seule base de
données en ajoutant la numérotation des classes de I1. On obtient ainsi la base
globale I.
• En appliquant l’analyse discriminante linéaire à I, on retrouve les numérotations
des classes de la partition P’2 de I2 par les fonctions de classement.
• On utilise les k-means pour trouver la partition P2 de la base de données I2
TABLE DES MATIERES 116
5.3.4 Simulation
Pour vérifier la pertinence de notre approche nous simulons tout d’abord des partitions
proches selon la méthode des classes latentes exposée dans le chapitre 4 (en paragraphe
4.3) de la façon suivante :
• On tire les effectifs des classes latentes selon une loi multinomiale. Pour chaque
classe, on tire p variables normales indépendantes. On obtient la première base de
données I1 de N1 individus.
• De même, on tire les effectifs des classes latentes et pour chaque classe on tire les
mêmes p variables normales indépendantes. On trouve la deuxième base de
données I2 de N2 individus.
On applique cet algorithme en utilisant les logiciels Splus et SAS. On obtient les deux
partitions de 500 individus P1 et P2 ayant 4 classes chacune à des groupes de 4 variables
normales indépendantes. On extrait le tableau de contingence croisant la nouvelle
partition P2 trouvée par la méthode des k-means et la partition P’2 reconstituée par
projection sur la partition P1. La comparaison de ces échantillons est effectuée selon les
deux choix de paramètres présentés au chapitre précédent (Tab. 4.4) et (Tab. 4.5).
Les tableaux de contingence obtenus dans les deux cas de paramètres, représentent les
deux partitions provenant d’un même ensemble d’individus : une partition P’2 qui
représente la classification des individus de l’échantillon I2 après leurs projections sur les
classes du premier échantillon I1 considéré comme référentiel, et une autre partition P2
qui représente une autre classification des individus de l’échantillon I2.
• Premier choix
Pour le premier choix de paramètres des variables normales indépendantes, le tableau de
contingence sera :
TABLE DES MATIERES 117
P'2 1 2 3 4 P’2 2 3 4 1
P2 P2
1 10 1 0 102 1 1 0 102 10
2 121 0 0 0 2 0 0 0 121
3 0 123 3 0 3 123 3 0 0
4 0 7 132 1 4 7 132 1 0
Tab. 5.1 Tableau croisant P2 de I2 par k-means et P’2 des fonctions discriminantes pour
L’indice kappa, après la permutation pour trouver la numérotation des classes, prend une
valeur de 0.941209, et l’indice de Rand a une valeur de 0.957896. Ce qui permet de dire
qu’à partir de ces deux valeurs élevées et proches de 1 que les deux partitions sont
proches et par suite les deux échantillons présentent des typologies semblables.
• Deuxième choix
Tab. 5.2 Tableau croisant P2 de I2 par k-means et P’2 des fonctions discriminantes pour
Dans ce cas, l’indice kappa après permutation prend la valeur de 0.95184, l’indice de
Rand est égal à 0.941113. On remarque que ces deux valeurs sont très proches de 1, d’où
la similarité entre les deux partitions. Dans ce cas aussi, on peut dire que les deux
échantillons des différents individus et de même variables sont stables.
TABLE DES MATIERES 118
On peut étudier la liaison entre les deux échantillons en utilisant l’indice asymétrique de
redondance RI ou τ b (présenté au chapitre 3). Cet indice mesure la qualité de prédiction
de la partition P’2 sur P2. Si RI est proche de 1 on a une liaison forte.
La valeur de l’indice RI de la partition P’2 sur P2, dans le premier cas, vaut 0.8900734, et
dans le deuxième cas, il prend la valeur de 0.8894005. On peut donc conclure, à partir de
ces valeurs, que la qualité de prédiction de P’2 par P2 est élevée. D’où la forte liaison
entre les deux échantillons I1 et I2 dans les deux cas de simulations.
Dans le cas où l’échantillon I2 serait considéré comme référentiel, on projette cette fois ci
les individus de I1 sur les classes de l’échantillon I2, on trouve le tableau de contingence
entre P1 ( trouvée par les k-means) et P’1 (après projection ) dans les deux cas de
paramètres.
P’1 1 2 3 4
P1
1 2 127 0 0
2 116 1 0 0
3 1 0 127 0
4 0 0 0 126
Pour ce cas, l’indice de redondance RI est égal à 0.9789137. d’où la forte liaison entre
les deux partitions. On peut donc conclure que les deux échantillons sont proches.
TABLE DES MATIERES 119
L’indice de redondance RI prend une valeur de 0.9263896 très proche de 1 ce qui montre
encore une fois la ressemblance des deux partitions.
Il est à noter que les résultats de la projection de l’échantillon I2 sur les classes de
l’échantillon référentiel I1 et de I1 sur les classes de I2 ne sont pas identiques dans les
deux types de choix de paramètres. Ceci impose la nécessité de l’utilisation d’un indice
asymétrique tel que l’indice de redondance RI pour la comparaison de deux partitions
provenant d’un ensemble de même variables et de différents individus. D’autant plus que
cet indice ne nécessite pas de permuter les classes avant son utilisation comme le cas de
l’indice kappa de Cohen.
existent, basés sur des mesures de consensus, mais semblent encore difficiles à appliquer
[SOK 88].
Dans cette partie, on présente une méthode pour comparer deux classifications
hiérarchiques des variables.
Deux types de techniques sont utilisés pour la classification de variables [NAK 00], les
techniques basées sur l’algorithme agglomératif et les techniques basées sur l’algorithme
divisif.
Les techniques basées sur un algorithme divisif (présenté au chapitre 2 ) sont fondées sur
l’utilisation d’un critère de division d’un sous-ensemble de variables [CHA 97]. La
procédure VARCLUS du logiciel SAS [SAS 94] fournit une telle méthode de
classification. Cette procédure fournit une classification basée sur la matrice des
corrélations (cas des variables de même poids) ou sur la matrice des variances-
covariances (cas où les variables doivent avoir plus d’importance quand leurs variances
sont grandes). La partition obtenue est telle que les variables d’une même classe sont
aussi corrélées entre elles que possible et deux variables quelconques de deux classes
différentes sont les moins corrélées possible. Les classes de variables sont ainsi
construites de manière à rendre maximum la variance expliquée par la première
composante principale de chaque classe de la partition.
TABLE DES MATIERES 121
Récemment, une autre méthode de classification de variables basée sur les composantes
latentes a été proposée par Vigneau E. [VIG 03]. La classification de variables autour des
composantes latentes est considérée comme étant un moyen d’organiser des données
multivariées dans des structures significatives. Cette méthode distingue deux cas selon
que le signe de la corrélation est important ou non (soit on utilise r soit r2). La stratégie
consiste à faire une classification hiérarchique puis à effectuer une méthode de
partitionnement. Les deux algorithmes cherchent à maximiser le même critère qui offre la
possibilité de savoir quelles variables dans chaque classe sont reliées à une variable
latente associée à la classe. On verra dans la suite un exemple d’application de cette
méthode sur des données simulées.
∑ ( x ij − x j )( x ij' − x j' )
r jj' = i
1/ 2
2 2
∑ ( x ij − x j ) ∑ ( x ij' − x j' )
i i
• Données de fréquences
A partir du tableau de fréquences de terme général fij, on définit la distance entre deux
colonnes j et j’ comme la distance de khi-2 associé à fi. L’expression de cette distance
associé à fi est obtenue à partir de la distance du khi-deux entre deux individus en
changeant i en j, soit :
1 f ij f ij' 2
d 2jj' = ∑ ( − )
i f i f j f j'
TABLE DES MATIERES 122
• Données ordinales
Pour étudier la liaison entre deux variables ordinales, Spearman a proposé de calculer le
coefficient de corrélation sur les rangs afin de comparer les classements issus de ces deux
variables. Pour deux structures hiérarchiques, on peut utiliser ce coefficient pour
comparer l’ordre d’agrégation trouvé après la CAH des variables des deux données. Le
coefficient de Spearman est défini par :
6∑ d j2
j
rs = 1 −
p( p 2 − 1)
dj=la différence des rangs d’une même variable selon les deux classements
• Données binaires
L’indice de similarité entre deux variables binaires est calculé à partir du tableau de
contingence (2x2) obtenue en croisant les deux variables. L’indice de similarité le plus
courant est le Φ 2 de Pearson qui prend des valeurs comprises entre 0 et 1 et qui est
obtenu á partir du khi-deux de contingence.
• Données nominales
Pour deux variables nominales, l’indice de similarité est calculé à partir du tableau de
contingence croisant les deux variables dont le nombres de modalités sont respectivement
TABLE DES MATIERES 123
p et q. L’indice de similarité est le coefficient Cjj’ de Cramer [KEN 61], obtenu à partir du
Φ 2jj' .
Φ 2jj'
C jj' =
min(p − 1, q − 1)
• Données mixtes
Dans ce cas de variables mixtes, on peut transformer le tableau de départ en tableau
disjonctif complet, en discrétisant les variables numériques, à partir duquel on calcul les
distances du khi-deux entre deux colonnes.
• Coefficient d’affinité
Le coefficient d’affinité a été introduit en statistique inférentielle par Matusita K. [MAT
55] et développé par Bacelar- Nicolau H. [BAC 85, 02], et utilisé comme coefficient de
ressemblance. Il mesure la tendance monotone entre les racines carrées des vecteurs
profils ou probabilités.
Le coefficient d’affinité simple entre les paires des variables xj et xj’ pour j et j’
={1,…,p}, peut être définie, dans le cas d’équiprobabilité, de la façon suivante :
x ij .x ij'
Cα = ∑
i x . jx . j'
n n
où x . j = ∑ x ij et x . j' = ∑ x ij'
i =1 i =1
le coefficient d’affinité généralisé [BAC 03] pour les variables réelles qui peuvent être
négatives est défini par :
x ij .x ij'
Cα = ∑
i x . jx . j'
n n
avec x . j = ∑ x ij et x . j' = ∑ x ij' ( désigne la valeur absolue )
i =1 i =1
TABLE DES MATIERES 124
Il est symétrique et prend ses valeurs dans l’intervalle [0,1] ; il est égal à 1 si les deux
vecteurs sont identiques ou proportionnels et nul s’ils sont orthogonaux. On remarque
que ce coefficient est indépendant de la taille des données et des variables.
Le coefficient d’affinité peut être appliqué sur tout type de données : il génère le
coefficient d’Occhiai pour les données binaires, et peut être adapté sur les données de
fréquences, des données réelles quantitatives, dans ce cas on utilise le coefficient
d’affinité généralisé [BAC 03], de distributions normale et uniforme. [BAR 00] a définit
le coefficient d’affinité pour mesurer la similarité ente histogrammes, entre variables
symboliques modales et de type intervalle.
Plusieurs travaux basés sur ce coefficient et ses extensions appliquent des techniques et
méthodes d’analyse multivariée comme l’approche probabiliste dans l’analyse de
classification non hiérarchique symbolique [BAC 02], l’effet des données manquantes
dans la classification des variables hiérarchiques [SIL 02], ou le problème de validation
[SOU 02]. Il est introduit dans plusieurs logiciels tel que SODAS [SOU 02].
Il existe une version probabiliste de ce coefficient pour valider les résultats d’une
classification dans un modèle probabiliste, le coefficient VAL (validity linkage) qui peut
être trouvé dans [LER81], [BAR88], [NIC 88].
Critère d’agrégation pour la classification des variables
Une fois la mesure de similarité d est choisie, il reste à choisir un critère d’agrégation
pour ériger l’arbre de la CAH (Classification Ascendante Hiérarchique). Ce critère est
une règle de calcul des écarts entre deux sous–ensembles h et h’ disjoints de l’ensembles
des éléments à classer. Parmi les nombreux critères d’agrégation, les critères usuels, sont
les suivants :
1
D moy ( h, h ' ) = ∑ {m i m i' d (i, i' )}
m h m h ' i∈h, i'∈h '
Il peut être utilisé pour classer des individus d’un ensemble dont les masses sont
différentes au départ.
significativement différentes.
[SIL 02] a montré, par simulation, que les meilleurs résultats sont obtenus avec la
méthode associée au coefficient d’affinité avec les critères d’agrégations Dmoy et Dmin et
que le coefficient d’affinité Cα est plus robuste que le coefficient de corrélation linéaire r.
Simulation
Pour appliquer l’algorithme par simulation, on cherche des données de même ensembles
de variables basées sur des structures probabilistes. On crée deux tableaux de données
simulées de 500 individus issus de 4 distributions multinormales selon les deux choix de
paramètres présentés dans le chapitre précédent (Tab. 4.4 et Tab. 4.5).
On utilise le coefficient d’affinité Cα pour trouver les matrices de similarités des deux
tableaux. Les structures hiérarchiques des deux tableaux I1 et I2 sont réalisées à partir du
critère d’agrégation de la moyenne Dmoy.
TABLE DES MATIERES 127
• Premier choix
1 . . . 1 . . .
0.8464 1 . . 0.857 1 . .
0.8808 et
0.8727 1 . 0.865 0.899 1 .
0.7909 0.8003 0.8633 1 0.777 0.846 0.856 1
1.25 1.25
1.00 1.00
0.75 0.75
0.50 0.50
0.25 0.25
0.00 0.00
v1 v4 v2 v3 x1 x4 x2 x3
v x
On obtient les matrices suivantes des distances ultramétriques des deux dendrogrammes:
v1 v2 v3 v4 x1 x2 x3 x4
v1 0 x1 0
v2 0.9812 0 x2 1.000856 0
Pour comparer les résultats des deux classifications de variables, on utilise le coefficient
de Spearman rs entre les deux ultramétriques. On trouve une valeur de coefficient de
Spearman égal à 1 d’où la structure identique des deux classifications, comme le montre
la figure (Fig. 5.1)
Deuxième choix
En utilisant la même procédure mais pour ce deuxième choix de paramètres des variables
multinormales, on trouve les matrices de similarités des données I1 et I2 suivantes :
1 . . . 1 . . .
0.84627 1 . . 0.851 1 . .
0.82425 0.87981 et
1 . 0.849 0.888 1 .
0.85809 0.89005 0.89105 1 0.874 0.899 0.905 1
1.25 1.25
1.00 1.00
0.75 0.75
0.50 0.50
0.25 0.25
0.00 0.00
v1 v3 v4 v2 x1 x2 x4 x3
v x
Fig.5.2 Dendrogramme des deux matrices de similarités S1 et S2 du deuxième choix
Les matrices des distances ultramétriques dans ce cas sont les suivantes :
TABLE DES MATIERES 129
v1 v2 v3 v4 x1 x2 x3 x4
v1 0 x1 0
v2 1.0028 0 x2 0.9763 0
Exemple d’application
On crée deux tableaux de données simulées de 500 individus issus de 4 distributions
multinormales selon le premier choix de paramètres présentés dans le chapitre précédent
(Tab. 4.4). On applique le macro VARHCA sur les deux données pour trouver les deux
structures hiérarchiques correspondant aux deux tableaux de données. Pour comparer ces
structures, on calcul le coefficient de corrélation des deux ultramétriques trouvées. Les
dendrogrammes des deux tableaux sont représentées dans la figure suivante :
TABLE DES MATIERES 130
Variables
X1
X4
X2
X3
102.7 97.70 92.70 87.70 82.70 77.70 72.70 67.70 62.70 57.70
v1 0 x1 0
v2 71.98 0 x2 81.08 0
On peut caractériser soit chaque classe d'une partition, soit globalement la partition elle-
même. Tous les éléments disponibles (actifs et illustratifs) peuvent intervenir dans la
caractérisation: les modalités des variables nominales, les variables nominales elles-
mêmes, les variables continues, les fréquences et les axes factoriels.
Les éléments caractéristiques sont classés par ordre d'importance à l'aide d'un critère
statistique ("valeur-test"), auquel est associée une probabilité [MOR 84] permettant
d’opérer un tri sur les variables et de designer les variables les plus caractéristiques: plus
la valeur-test est grande, plus la probabilité est faible, plus l'élément est caractéristique.
La valeur-test mesure l’écart entre les valeurs relatives à la classe et les valeurs globales,
elle constitue de simples mesures de similarité entre les variables et les classes.
Xh − X
th(X)=
s h (X)
n − n h s2 (X)
avec s 2h (X)=
n −1 nh
th(X) suit approximativement une loi normale centrée réduite. L’interprétation se fait sur
variables communes supplémentaires aux deux données. Les variables sont d’autant plus
intéressantes que les valeurs-test associées sont fortes en valeur absolue. On peut alors
classer selon leur niveau de significatif. On peut tester alors si, pour les deux données de
mêmes variables, les variables significatives d’une classe ont les mêmes répartitions1.
1
Le logiciel SPAD contient la procédure DECLA qui permet de décrire les partitions obtenues par la
procédure PARTI
TABLE DES MATIERES 132
On cherche les deux partitions des deux données de même variables par la méthode
divisive de classification [CHA 98]. Cette méthode permet de définir les descriptions des
classes trouvées et dont le résultat est un dendrogramme ou arbre de décision. [MEH 03]
a proposé une méthode pour trouver des descriptions des classes des partitions en
optimisant simultanément le critère de discrimination et le critère d’homogénéité. Chaque
classe est décrite par une conjonction des propriétés caractéristiques.
Pour comparer les descriptions symboliques des classes de deux partitions, on utilise les
fonctions de comparaisons proposées par De Carvalho [DEC 98] de la façon suivante :
Pour un sous-ensemble Vj on a :
v j − v si Y j est conitnue et V j = [ v j , v j ]
j
M(Vj)=
V j si Y j est entier, nominale ou ordinal
TABLE DES MATIERES 133
De Carvalho [ESP 00] a proposé les fonctions de comparaisons comme extension des
mesures de similarité définies pour les variables binaires classiques comme celle de
Jaccard,..etc.
5.6 Conclusion
Dans ce chapitre, nous venons de présenter les méthodes et les tests classiques de
comparaison des partitions provenant des données de mêmes variables mais de différents
individus. Une nouvelle méthode de comparaisons est proposée basée sur la projection
des partitions. Une autre approche pour aborder la comparaison est proposée par
utilisation de la classification des variables. Enfin, la stabilité des interprétations des
classes des partitions a été présentée.
Le chapitre suivant sera consacré à l’application sur des données réelles de ces différentes
approches évoquées jusqu'à présent.
TABLE DES MATIERES 134
TABLE DES MATIERES 135
Chapitre 6
Applications
6.1 Introduction
Dans le but de valider l’étude présentée dans les deux derniers chapitres, ce chapitre est
consacré à l’application des différents algorithmes sur des données réelles.
Notre démarche consiste donc à traiter les mêmes données provenant d’une enquête selon
les deux procédures suivantes :
• Le logiciel Splus est utilisé pour appliquer la méthode des k-means, permuter les
données de base, et réaliser les algorithmes qui ont été proposés.
Pour la première procédure, on a deux groupes de variables : l’un traitant l’opinion des
français sur le mariage, les familles et les enfants, et l’autre traitant l’opinion sur la
qualité de vie. Du fait que ces variables ont des modalités nombreuses et ordonnées, on
les considère comme étant continues.
Pour la deuxième procédure, on divise les données en deux parties égales par tirage au
sort équiprobable sans remise. On obtient ainsi deux échantillons d’individus ayant même
variables. Il est à noter que pour trouver une distribution de l’indice de Rand à partir de
l’application de la projection de partitions, on répète 50 fois cette démarche.
8
1%6% 18% 9% 14% 18% 25% 9% 8
24% 4% 14% 4% 7% 8% 17% 22%
1194
1189
1153
1198
1181
1134
1187
1178
1169
1154
1118
1158
1173
1170
1156
1157
1159
1106
1192
1111
1186
1167
1185
1197
1148
1184
1168
1141
1136
1137
1180
1188
1165
1183
1128
1103
1191
1179
1163
1166
1177
1162
1135
1193
1195
1152
1196
1171
1182
1190 1164
1128
1178
1120
1108
1114
1127
1173
1187
1184
1151
1091
1186
1185
1165
1197
1194
1143
1166
1133
1147
1193
1176
1190
Indi
1195
1182
1169
1175
1129
1069
1167
1161
1149
1188
1101
1191
1180
1192
1189
1138
1150
1174
1177
1160
1196
1159
1140
1097
1198
On choisit la coupure qui fournit une partition à 8 classes représentant pour le premier
groupe de variables respectivement 1%, 6%, 18%, 9%, 14%, 18%, 25%, et 9% des sujets
de l’échantillon, pour le deuxième groupe de variables respectivement 24%, 4%, 14%,
7%, 8%, 17% et 22%.
Les centres de ces 8 classes ont été reportés (Fig. 6.2) sur le meilleur plan factoriel issu
de l’A.C.P., on a ainsi la position des classes les unes par rapport aux autres; La
représentation des sujets sur ce plan permettrait de visualiser la dispersion de chacune des
classes.
TABLE DES MATIERES 139
Fig.6.2 Représentation des points- classes au barycentre des individus pour les deux
groupes.
On croise les deux partitions à 8 classes d’un même ensemble de données pour les deux
groupes de variables, trouvées par la méthode de k-means, donnant les proportions
TABLE DES MATIERES 140
suivantes des 8 classes respectivement 24%, 7.5%, 16%, 15%, 13.5%, 3.5%, 14%, et
6.5% des sujets de l’échantillon.
On calcule les indices de ressemblance pour pouvoir les comparer. L’indice de Rand R’
vaut 0.729, cette valeur proche de 1 ne suffit pas pour dire que les deux partitions sont
proches, en effet cet indice donne la même importance aux couples d’individus qui sont
ou non dans la même classe (accord global). On cherche l’indice dérivé de Jaccard, il
prend la valeur 0.0979, celui de Janson et Vegelius vaut 0.035. On remarque que ces
deux dernières valeurs sont faibles par rapport à l’indice de Rand R’, cela revient à
l’accord positif entre les deux partitions (Tab. 6.1).
Afin de savoir si les partitions sont proches, nous appliquons notre méthodologie de
profils latents pour étudier la distribution des indices de ressemblances. On utilise le
logiciel LatentGOLD pour estimer un modèle de profils latents en 8 classes à partir de la
totalité des données formées de 624 individus et 14 variables. Il nous donne les
proportions des classes latentes, les moyennes et les variances, conditionnellement à
chaque classe des variables qui doivent être indépendantes et de mêmes matrices de
variances. On utilise ces paramètres pour simuler des échantillons de 624 individus à
variables obéissant à ce modèle. On les coupe en deux ensembles de 7 variables, on
cherche les partitions à 8 classes par la méthode des k-means puis on calcule les indices
de Rand, de Jaccard, et de Janson Vegelius. On itère 100 fois. On obtient les distributions
des ces indices dans la figure suivante (Fig. 6.3):
TABLE DES MATIERES 141
30
density(R)$y
20
10
R’=0.729
0
0 .7 2 0 .7 4 0 .7 6
d e n s ity(R ')$ x
80
60
density(J)$y
40
J=0.0979
20
0
En reportant les valeurs observées des indices sur leurs distributions, on remarque que la
valeur de R’ observée est plus petit de la moyenne de la distribution de R’ trouvée par
simulation qui est égale à 0.74203, mais la valeur observée de l’indice dérivé de Jaccard
est suffisamment grand par rapport la moyenne de la distribution de cet indice qui vaut
0.08473678. Ce cas satisfaisant de l’indice d’accord positif nous permet de conclure que
les partitions sont proches.
Le tableau de contingence croisant P1 et P2 est le suivant :
TABLE DES MATIERES 142
P1 |P2
|1 |2 |3 |4 |5 |6 |7 |8 |ColTotl
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
1 | 2 | 9 | 7 | 6 | 9 | 5 |15 | 4 |57
-------|-------+-------+-------+-------+-------+-------+-------+-------+-------
2 |42 |13 |21 |20 |22 | 4 |18 | 6 |146
-------|-------+-------+-------+-------+-------+-------+-------+-------+-------
3 | 2 | 0 | 1 | 2 | 3 | 1 | 3 | 1 |13
-------|-------+-------+-------+-------+-------+-------+-------+-------+-------
4 |39 | 5 |24 |12 | 9 | 5 |10 |11 |115
-------|-------+-------+-------+-------+-------+-------+-------+-------+-------
5 |16 | 3 | 6 |14 | 3 | 0 |11 | 5 |58
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
6 | 5 | 2 | 2 | 7 | 6 | 0 | 9 | 5 |36
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
7 |35 | 7 |32 |26 |26 | 6 |21 | 7 |160
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
8 | 7 | 8 | 8 | 6 | 6 | 1 | 1 | 2 |39
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
ColTotl|148 |47 |101 |93 |84 |22 |88 |41 |624
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
Pour tester la stabilité des classes, on utilise le test de Mc Nemar généralisé qui étudie la
variation de proportions des classes pour les deux partitions. On obtient une valeur de T
égale à 93.5394. Pour un risque de 5 %, cette valeur dépasse de loin le quantile de la loi
de khi-deux de degré de liberté 28 qui est de 41.337. Ceci permet de rejeter l’hypothèse
nulle H0 et de conclure que les proportions des classes ont changé dans les deux
partitions.
Pour trouver l’ordre des classes on peut aussi utiliser l’Analyse Factorielle des
Correspondances, on permute les modalités selon leur classement sur le premier axe. En
appliquant cette méthode aux partitions P1 et P2 du tableau (Tab. 6.2) et par utilisation du
logiciel SPAD, le tableau réordonné est:
P1 |P2
|2 |7 |6 |5 |8 |4 |3 |1 |ColTotl
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
1 | 9 |15 | 5 | 9 | 4 | 6 | 7 | 2 |57
-------|-------+-------+-------+-------+-------+-------+-------+-------+-------
3 | 0 | 3 | 1 | 3 | 1 | 2 | 1 | 2 |13
-------|-------+-------+-------+-------+-------+-------+-------+-------+-------
6 | 2 | 9 | 0 | 6 | 5 | 7 | 2 | 5 |36
-------|-------+-------+-------+-------+-------+-------+-------+-------+-------
8 | 8 | 1 | 1 | 6 | 2 | 6 | 8 | 7 |39
-------|-------+-------+-------+-------+-------+-------+-------+-------+-------
7 | 7 |21 | 6 |26 | 7 | 26 |32 |35 |160
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
5 | 3 |11 | 0 | 3 | 5 |14 | 6 |16 |58
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
2 |13 |18 | 4 |22 | 6 |20 |21 |42 |146
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
4 | 5 |10 | 5 | 9 |11 |12 |24 |39 |115
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
ColTotl|47 |88 |22 |84 |41 |93 |101 |148 |624
-------+-------+-------+-------+-------+-------+-------+-------+-------+-------
Tab. 6.5 Caractérisation des classes par les modalités des variables illustratives de
partition du premier groupe
CARACTERISATION PAR LES MODALITES DES CLASSES OU MODALITES
DE Coupure 'a' de l'arbre en 8 classes
CLASSE 1 / 8
----------------------------------------------------------------------------------------------------------------------------------
V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS
CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES
----------------------------------------------------------------------------------------------------------------------------------
22.44 CLASSE 1 / 8 aa1a 140
2.73 0.003 38.89 15.00 8.65 autre emp. non qual. profession cs06 54
2.23 0.013 36.73 12.86 7.85 ouvrier spécialisé profession cs02 49
1.90 0.029 27.84 35.00 28.21 assez importante la preservation de l'environnement est une chose env2 176
1.31 0.095 24.76 55.71 50.48 Masculin sexe m 315
1.26 0.103 34.62 6.43 4.17 employé de commerce profession cs04 26
0.72 0.237 31.58 4.29 3.04 peu importante la preservation de l'environnement est une chose env3 19
0.62 0.268 27.50 7.86 6.41 personnel de service profession cs07 40
0.43 0.333 24.51 17.86 16.35 ouvrier qualifié profession cs03 102
0.26 0.396 23.03 52.14 50.80 oui la famille est l'endroit ou on sent bien fbi1 317
0.11 0.456 22.73 7.14 7.05 autre employé qual. profession cs05 44
0.01 0.496 24.00 4.29 4.01 petit commercant profession cs10 25
-0.33 0.372 21.71 47.14 48.72 non la famille est l'endroit ou on sent bien fbi2 304
-1.11 0.134 15.38 5.71 8.33 cadre supérieur profession cs14 52
-1.14 0.128 17.53 12.14 15.54 cadre moyen profession cs11 97
-1.31 0.095 20.06 44.29 49.52 feminin sexe f 309
-2.37 0.009 19.58 59.29 67.95 très importante la preservation de l'environnement est une chose env1 424
-3.25 0.001 8.11 4.29 11.86 non-réponse profession cs** 74
----------------------------------------------------------------------------------------------------------------------------------
CLASSE 2 / 8
----------------------------------------------------------------------------------------------------------------------------------
V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS
CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES
----------------------------------------------------------------------------------------------------------------------------------
8.17 CLASSE 2 / 8 aa2a 51
4.70 0.000 13.49 80.39 48.72 non la famille est l'endroit ou on sent bien fbi2 304
1.77 0.038 13.40 25.49 15.54 cadre moyen profession cs11 97
1.21 0.112 9.20 76.47 67.95 très importante la preservation de l'environnement est une chose env1 424
1.08 0.139 13.64 11.76 7.05 autre employé qual. profession cs05 44
0.66 0.256 9.06 54.90 49.52 feminin sexe f 309
-0.08 0.470 5.26 1.96 3.04 peu importante la preservation de l'environnement est une chose env3 19
-0.19 0.423 7.69 7.84 8.33 cadre supérieur profession cs14 52
-0.25 0.401 8.11 11.76 11.86 non-réponse profession cs** 74
-0.37 0.355 3.85 1.96 4.17 employé de commerce profession cs04 26
-0.40 0.346 5.00 3.92 6.41 personnel de service profession cs07 40
-0.43 0.335 8.00 3.92 4.01 petit commercant profession cs10 25
-0.66 0.256 7.30 45.10 50.48 Masculin sexe m 315
-0.71 0.240 5.88 11.76 16.35 ouvrier qualifié profession cs03 102
-0.80 0.213 4.08 3.92 7.85 ouvrier spécialisé profession cs02 49
-0.93 0.175 6.25 21.57 28.21 assez importante la preservation de l'environnement est une chose env2 176
-1.00 0.159 3.70 3.92 8.65 autre emp. non qual. profession cs06 54
-4.63 0.000 3.15 19.61 50.80 oui la famille est l'endroit ou on sent bien fbi1 317
----------------------------------------------------------------------------------------------------------------------------------
CLASSE 3 / 8
----------------------------------------------------------------------------------------------------------------------------------
V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS
CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES
----------------------------------------------------------------------------------------------------------------------------------
13.30 CLASSE 3 / 8 aa3a 83
2.44 0.007 26.53 15.66 7.85 ouvrier spécialisé profession cs02 49
2.13 0.017 20.59 25.30 16.35 ouvrier qualifié profession cs03 102
1.04 0.150 14.39 73.49 67.95 très importante la preservation de l'environnement est une chose env1 424
0.57 0.286 14.24 53.01 49.52 feminin sexe f 309
0.49 0.313 14.14 51.81 48.72 non la famille est l'endroit ou on sent bien fbi2 304
0.34 0.366 15.91 8.43 7.05 autre employé qual. profession cs05 44
-0.09 0.463 11.54 3.61 4.17 employé de commerce profession cs04 26
-0.17 0.431 12.00 3.61 4.01 petit commercant profession cs10 25
-0.25 0.403 11.11 7.23 8.65 autre emp. non qual. profession cs06 54
-0.35 0.364 10.00 4.82 6.41 personnel de service profession cs07 40
-0.39 0.347 12.62 48.19 50.80 oui la famille est l'endroit ou on sent bien fbi1 317
-0.49 0.312 11.93 25.30 28.21 assez importante la preservation de l'environnement est une chose env2 176
-0.57 0.286 12.38 46.99 50.48 Masculin sexe m 315
-0.66 0.255 5.26 1.20 3.04 peu importante la preservation de l'environnement est une chose env3 19
-0.77 0.220 10.31 12.05 15.54 cadre moyen profession cs11 97
-0.85 0.199 9.46 8.43 11.86 non-réponse profession cs** 74
-2.06 0.020 3.85 2.41 8.33 cadre supérieur profession cs14 52
----------------------------------------------------------------------------------------------------------------------------------
CLASSE 4 / 8
----------------------------------------------------------------------------------------------------------------------------------
V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS
CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES
----------------------------------------------------------------------------------------------------------------------------------
5.13 CLASSE 4 / 8 aa4a 32
2.33 0.010 7.30 71.88 50.48 Masculin sexe m 315
1.38 0.083 7.39 40.63 28.21 assez importante la preservation de l'environnement est une chose env2 176
1.11 0.134 7.84 25.00 16.35 ouvrier qualifié profession cs03 102
0.97 0.167 8.11 18.75 11.86 non-réponse profession cs** 74
0.35 0.362 5.26 3.13 3.04 peu importante la preservation de l'environnement est une chose env3 19
0.33 0.370 5.59 53.13 48.72 non la famille est l'endroit ou on sent bien fbi2 304
0.28 0.390 7.69 6.25 4.17 employé de commerce profession cs04 26
-0.02 0.491 3.85 6.25 8.33 cadre supérieur profession cs14 52
-0.09 0.464 3.70 6.25 8.65 autre emp. non qual. profession cs06 54
-0.26 0.396 4.55 6.25 7.05 autre employé qual. profession cs05 44
-0.27 0.392 4.73 46.88 50.80 oui la famille est l'endroit ou on sent bien fbi1 317
-0.42 0.337 5.00 6.25 6.41 personnel de service profession cs07 40
-0.64 0.261 0.00 0.00 4.01 petit commercant profession cs10 25
-0.71 0.238 3.09 9.38 15.54 cadre moyen profession cs11 97
-1.25 0.105 4.25 56.25 67.95 très importante la preservation de l'environnement est une chose env1 424
-1.49 0.068 0.00 0.00 7.85 ouvrier spécialisé profession cs02 49
-2.33 0.010 2.91 28.13 49.52 feminin sexe f 309
----------------------------------------------------------------------------------------------------------------------------------
CLASSE 5 / 8
----------------------------------------------------------------------------------------------------------------------------------
V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS
CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES
----------------------------------------------------------------------------------------------------------------------------------
7.05 CLASSE 5 / 8 aa5a 44
2.76 0.003 16.22 27.27 11.86 non-réponse profession cs** 74
2.11 0.017 9.39 65.91 49.52 feminin sexe f 309
1.92 0.028 12.37 27.27 15.54 cadre moyen profession cs11 97
TABLE DES MATIERES 147
1.90 0.029 9.21 63.64 48.72 non la famille est l'endroit ou on sent bien fbi2 304
1.57 0.058 8.25 79.55 67.95 très importante la preservation de l'environnement est une chose env1 424
1.53 0.063 13.46 15.91 8.33 cadre supérieur profession cs14 52
0.50 0.309 10.00 9.09 6.41 personnel de service profession cs07 40
-0.10 0.461 4.00 2.27 4.01 petit commercant profession cs10 25
-0.10 0.459 5.56 6.82 8.65 autre emp. non qual. profession cs06 54
-0.15 0.439 3.85 2.27 4.17 employé de commerce profession cs04 26
-0.27 0.393 5.26 2.27 3.04 peu importante la preservation de l'environnement est une chose env3 19
-1.38 0.083 4.55 18.18 28.21 assez importante la preservation de l'environnement est une chose env2 176
-1.81 0.035 0.00 0.00 7.05 autre employé qual. profession cs05 44
-1.84 0.033 5.05 36.36 50.80 oui la famille est l'endroit ou on sent bien fbi1 317
-1.98 0.024 0.00 0.00 7.85 ouvrier spécialisé profession cs02 49
-2.11 0.017 4.76 34.09 50.48 Masculin sexe m 315
-2.17 0.015 1.96 4.55 16.35 ouvrier qualifié profession cs03 102
----------------------------------------------------------------------------------------------------------------------------------
CLASSE 6 / 8
----------------------------------------------------------------------------------------------------------------------------------
V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS
CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES
----------------------------------------------------------------------------------------------------------------------------------
6.89 CLASSE 6 / 8 aa6a 43
2.22 0.013 8.49 83.72 67.95 très importante la preservation de l'environnement est une chose env1 424
0.71 0.238 9.46 16.28 11.86 non-réponse profession cs** 74
0.65 0.257 8.82 20.93 16.35 ouvrier qualifié profession cs03 102
0.57 0.283 9.62 11.63 8.33 cadre supérieur profession cs14 52
0.57 0.286 7.62 55.81 50.48 Masculin sexe m 315
0.30 0.382 10.53 4.65 3.04 peu importante la preservation de l'environnement est une chose env3 19
0.21 0.418 7.26 53.49 50.80 oui la famille est l'endroit ou on sent bien fbi1 317
0.08 0.468 7.50 6.98 6.41 personnel de service profession cs07 40
0.07 0.474 8.00 4.65 4.01 petit commercant profession cs10 25
-0.04 0.486 6.19 13.95 15.54 cadre moyen profession cs11 97
-0.14 0.444 6.58 46.51 48.72 non la famille est l'endroit ou on sent bien fbi2 304
-0.46 0.324 4.08 4.65 7.85 ouvrier spécialisé profession cs02 49
-0.57 0.286 6.15 44.19 49.52 feminin sexe f 309
-0.65 0.259 3.70 4.65 8.65 autre emp. non qual. profession cs06 54
-0.94 0.173 2.27 2.33 7.05 autre employé qual. profession cs05 44
-1.04 0.150 0.00 0.00 4.17 employé de commerce profession cs04 26
-2.90 0.002 2.27 9.30 28.21 assez importante la preservation de l'environnement est une chose env2 176
----------------------------------------------------------------------------------------------------------------------------------
CLASSE 7 / 8
----------------------------------------------------------------------------------------------------------------------------------
V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS
CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES
----------------------------------------------------------------------------------------------------------------------------------
12.66 CLASSE 7 / 8 aa7a 79
2.40 0.008 25.00 16.46 8.33 cadre supérieur profession cs14 52
0.81 0.210 16.22 15.19 11.86 non-réponse profession cs** 74
0.60 0.273 14.20 31.65 28.21 assez importante la preservation de l'environnement est une chose env2 176
0.43 0.334 14.43 17.72 15.54 cadre moyen profession cs11 97
0.33 0.370 13.27 51.90 49.52 feminin sexe f 309
0.33 0.371 13.25 53.16 50.80 oui la famille est l'endroit ou on sent bien fbi1 317
0.11 0.457 12.75 16.46 16.35 ouvrier qualifié profession cs03 102
0.02 0.493 13.64 7.59 7.05 autre employé qual. profession cs05 44
-0.15 0.440 10.53 2.53 3.04 peu importante la preservation de l'environnement est une chose env3 19
-0.19 0.423 11.54 3.80 4.17 employé de commerce profession cs04 26
-0.23 0.411 10.00 5.06 6.41 personnel de service profession cs07 40
-0.31 0.377 12.26 65.82 67.95 très importante la preservation de l'environnement est une chose env1 424
-0.33 0.370 12.06 48.10 50.48 Masculin sexe m 315
-0.34 0.366 8.00 2.53 4.01 petit commercant profession cs10 25
-0.48 0.316 11.84 45.57 48.72 non la famille est l'endroit ou on sent bien fbi2 304
-0.54 0.294 9.26 6.33 8.65 autre emp. non qual. profession cs06 54
-1.24 0.107 6.12 3.80 7.85 ouvrier spécialisé profession cs02 49
----------------------------------------------------------------------------------------------------------------------------------
CLASSE 8 / 8
----------------------------------------------------------------------------------------------------------------------------------
V.TEST PROBA ---- POURCENTAGES ---- MODALITES IDEN POIDS
CLA/MOD MOD/CLA GLOBAL CARACTERISTIQUES DES VARIABLES
----------------------------------------------------------------------------------------------------------------------------------
24.36 CLASSE 8 / 8 aa8a 152
3.80 0.000 30.91 64.47 50.80 oui la famille est l'endroit ou on sent bien fbi1 317
1.14 0.127 36.00 5.92 4.01 petit commercant profession cs10 25
0.34 0.365 25.57 29.61 28.21 assez importante la preservation de l'environnement est une chose env2 176
0.31 0.379 27.27 7.89 7.05 autre employé qual. profession cs05 44
0.23 0.409 24.92 50.66 49.52 feminin sexe f 309
0.11 0.454 26.92 4.61 4.17 employé de commerce profession cs04 26
0.06 0.475 25.00 6.58 6.41 personnel de service profession cs07 40
0.02 0.490 26.32 3.29 3.04 peu importante la preservation de l'environnement est une chose env3 19
-0.13 0.450 22.45 7.24 7.85 ouvrier spécialisé profession cs02 49
-0.14 0.445 24.07 8.55 8.65 autre emp. non qual. profession cs06 54
-0.16 0.438 24.32 11.84 11.86 non-réponse profession cs** 74
-0.23 0.409 23.81 49.34 50.48 Masculin sexe m 315
-0.28 0.391 22.68 14.47 15.54 cadre moyen profession cs11 97
-0.37 0.355 21.15 7.24 8.33 cadre supérieur profession cs14 52
-0.56 0.288 23.58 65.79 67.95 très importante la preservation de l'environnement est une chose env1 424
-1.63 0.052 17.65 11.84 16.35 ouvrier qualifié profession cs03 102
-3.86 0.000 17.43 34.87 48.72 non la famille est l'endroit ou on sent bien fbi2 304
----------------------------------------------------------------------------------------------------------------------------------
Tab. 6.6 Caractérisation des classes par les modalités des variables illustratives de
partition du deuxième groupe.
Description de la classe 1
55% qui sont des ouvriers qualifiés. La modalité rare de la classe est la modalité femme
qui a 11% (49.5% dans l’échantillon global).
Dans le deuxième groupe, cette classe représente 24.36% de l’échantillon global.
Formées surtout des personnes répondant par oui la famille est l’endroit où on sent bien
avec 74.34%. Les autres qui ont la réponse non à cette variable ne caractérisent pas
beaucoup la classe à 25%.
Description de la classe 2
Pour le groupe 1, dans cette classe qui représente 7.05% de l’échantillon global, 22.7%
des personnes sont des cadres supérieurs, 27.27% n’ont pas de réponse à la variable
profession et 68.18% des individus de cette classe pensent que la famille n’est pas
l’endroit où on sent bien alors qu’on compte 48.7% dans l’échantillon global. Les
modalités qui caractérisent moins la classe sont « les ouvriers qualifiés » à 4.55% (16%
dans l’échantillon global), et « la famille est l’endroit où on sent bien » avec 31.8%
(58.8% dans l’échantillon global).
Cette classe dans la partition P2 représente 10.9 % de l’échantillon global, et elle est
caractérisée par 75% des personnes qui affirment que la famille est l’endroit où on sent
bien contre 50.8% dans l’échantillon global. Elle est moins caractérisée par les autres
personnes qui disent le contraire avec 25%.
Description de la classe 3
Dans le groupe 2, la classe est caractérisée par les employées non qualifies avec 15.5%
contre 8.65% dans l’échantillon global. Elle n’est pas caractérisée par des employées de
commerces.
Description de la classe 4
A 7.85% de l’échantillon global, dans le groupe 1, cette classe a 24.49% des cadres
moyennes contre 15.54% de l’échantillon global et des ouvriers qualifiés à 24.49% contre
TABLE DES MATIERES 149
16.35% dans l’échantillon global. Elle est rarement caractérisée par la modalité oui de la
variable famille est l’endroit où on sent bien avec 40.82% contre 50.8% de l’échantillon
global.
Pour le deuxième groupe, cette classe représente 22.44% de l’échantillon global, est
caractérisée à 15% des personnes qui ont un emploi non qualifié (8.65% dans
l’échantillon global), et 12.86% des ouvriers spécialisés. Les modalités rares sont les non-
réponses de la variable profession avec 4.29% (11.86% dans l’échantillon global) et la
préservation de l’environnement est une chose très importante avec 59.29% (67.95%
dans l’échantillon global).
Description de la classe 5
A 5% de l’échantillon global, elle est formée, dans la deuxième partition, par 71.88% des
hommes contre 50.48% de l’échantillon global et rarement caractérisée par les femmes
(28.1% contre 49.52% de l’échantillon global).
Description de la classe 6
A 6.89 % de l’échantillon global, pou le groupe 1, et formées à 83,7% des personnes qui
pensent que la préservation de l’environnement est très important contre 67.95% dans
l’échantillon global. Ceux qui ont répondu par peu important caractérisent rarement la
classe avec 9.3%.
Description de la classe 7
La classe représente 12.66% de l’échantillon global dans la première partition, et elle est
caractérisée à 16.46% par les personnes ayant une profession de cadres supérieurs contre
TABLE DES MATIERES 150
8.33% dans l’échantillon global. Les ouvriers spécialisés sont rares dans la classe à 3%
contre 7.85% de l’échantillon global.
Description de la classe 8
A 7.85% de l’échantillon global, la classe est caractérisée par 77.55% contre 48.72%
dans l’échantillon global de la modalité non pour la variable « la famille est l’endroit où
on sent bien », la modalité oui est une modalité rare avec 22.45%.
A partir des descriptions des 8 classes, on peut confirmer que les variables significatives
d’une classe à l’exception de la classe 8 n’ont pas les mêmes répartitions pour les deux
groupements de variables ayant les mêmes individus. Cela peut être logique comme ayant
deux partitions qui ne sont pas très proches.
L’idée consiste à obtenir une distribution des valeurs de l’indice de Rand trouvées après
50 itérations en utilisant les étapes suivantes:
• Croisement des numéros de classes des partitions trouvées par k-means et par
projection.
On obtient la distribution de l’indice de Rand illustrée dans la figure ( Fig. 6.4). Les
valeurs de Rand pour cette distribution ont une moyenne de 0.665 et d’écart type égal à
0.03. la valeur la plus fréquente est autour de 0.67.
D’autre part, on partage le fichier de données selon la variable sexe et on traite par la
même procédure pour obtenir les deux valeurs de Rand correspondantes aux deux
modalités homme et femme. : pour les Hommes (315 individus) RH= 0.6311 et pour les
Femmes (309 individus) RF=0.623. Ces deux valeurs sont reportées sur la distribution
afin de les comparer à celles obtenues par découpage aléatoire des données.
On peut remarquer que (Fig. 6.4) les indices en projection 1 sur 2 ou 2 sur 1 sont proches,
ce qui est satisfaisant puisque le problème est symétrique. La valeur est cependant trop
faible pour pouvoir dire que la partition effectuée sur les hommes est proche de celle
effectuée sur les femmes.
TABLE DES MATIERES 152
12
10
6
RF
(Femme)
4
RH
(Homme)
2
0
0.47 0.52 0.57 0.62 0.67 0.72 0.77 0.82
Rand
Fig. 6.5 Représentation graphique des modalités des variables illustratives après un ACP
et la trajectoire de la variable sexe.
TABLE DES MATIERES 153
0.4
0.4
S
S e
e m
m i 0.3
i 0.3 -
- P
P a
a r
r t
t i
i a
a l 0.2
l 0.2
R
R -
- S
S q
q u
u a 0.1
a 0.1 r
r e
e d
d
0.0
V1 V3 V8 V12 V2 V9 V11 V4 V6 V14 V7 V13 V10
0.0
X1 X2 X5 X7 X14 X3 X6 X9 X12 X4 X10 X8 X11 X13
Name of Observation or Cluster
Nameof Observationor Cluster
Remarque : Dépasser le seuil à 5% (ce qui n’est pas le cas ici) n'est pas suffisant pour
dire que les hiérarchies sont proches. Il faudrait pouvoir étudier la distribution du
coefficient de Spearman entre ultramétriques quand les données sont issues du même
modèle, selon la méthodologie développée au chapitre 5. Cette étude reste à faire.
TABLE DES MATIERES 154
TABLE DES MATIERES 155
Conclusion
Le travail que nous venons de présenter dans ce mémoire traite de la comparaison de
structures de classifications données à travers l’étude des différents indices de
ressemblances entre partitions. Il s’est articulé autour de deux axes principaux qui sont :
Le déroulement des étapes de notre travail et les résultats obtenus sont les suivants :
Le deuxième chapitre a été consacré aux méthodes d’interprétation des classes d’une
partition d’un ensemble de données. Ce chapitre aborde dans un premier temps les
méthodes classiques utilisées en analyse de données basées sur les caractéristiques des
individus appartenant à une même classe à partir des modalités des variables d’une
partition. En deuxième lieu, nous avons évoqué les travaux s’appuyant sur l’analyse des
données symboliques et offrant une aide à l’interprétation des résultats, au moyen de
règles logiques tels que, la méthode CABRO proposé par H.T.Bao [BAO 88], la méthode
proposée par M.Gettler- Summa [GET 93] appelée marquage sémantique, et les
méthodes de classification divisives proposée par M.Chavent [CHA 97].
TABLE DES MATIERES 156
Le troisième chapitre étudie en détail les indices de comparaison de deux partitions. Nous
avons examiné différents indices de comparaison: en plus de l’indice bien connu de
Rand et celui corrigé par Hubert, L.[HUB 85], nous avons étudié sa version asymétrique
[CHAV 01] utilisée pour la comparaison de partitions emboîtées, avec des nombres
différents de classes. Nous avons ajouté deux autres indices inspirés de test de Mc Nemar
et de l’indice de Jaccard. L’indice de corrélation vectorielle introduit par Robert, P. et
Escoufier, Y. [ROB 76] qui s’est révélé identique au coefficient de Janson, S. et
Vegelius, J.[JAN 82], le coefficient kappa de Cohen [COH 60], l’indice de redondance
proposé par Stewart et Love [STE 68], ainsi que l’indice de Popping [POP 83], ont été
présentés.
Le chapitre quatre développe notre méthodologie basée sur un modèle de profils latents
pour comparer des partitions proches ayant des variables différentes pour un même
ensemble d’individus. Une étude distributionnelle des différents indices de ressemblances
a été effectuée. A base des simulations, l’effet des paramètres tels que la séparation des
classes, le nombre d’individus, et le nombre de classes des partitions sur ces différents
indices a été discuté. Les tests de stabilité d’une classification ou d’homogénéité ont été
présentés.
Dans le chapitre cinq, nous évoquons les méthodes et les tests classiques de comparaison
des partitions provenant des données de mêmes variables mais de différents individus. En
se basant sur la projection des partitions, une nouvelle méthode de comparaisons a été
proposée. Une autre approche pour la comparaison par utilisation de la classification des
variables a été développée. Enfin, la stabilité des interprétations des classes des partitions
a été présentée.
Perspectives
Dans la perspective de ces travaux, l’un des axes à développer est d’envisager
l’utilisation des modèles probabilistes plus généraux autre que celui du modèle de profils
TABLE DES MATIERES 157
latents). Ces modèles plus généraux peuvent éventuellement incorporer des données
mixtes qualitatives et quantitatives.
Un autre axe sera à considérer, celui qui concerne l’extension de ces travaux à la
comparaison de plus de deux partitions ou hiérarchies. C’est le cas pratique lors du
traitement d’enquêtes ou de panels avec T dates d’observation.
Enfin, il nous semble intéressant de continuer ces travaux dans le but de trouver une
généralisation pour comparer des partitions « proches » ou de classifications
hiérarchiques.
TABLE DES MATIERES 158
TABLE DES MATIERES 159
Bibliographie
[AKA 73] AKAIKE, H., Factor Analysis and AIC, Psychometrika, vol. 52, 317-332, 1973.
[BAC 85] BACELAR- NICOLAU, H., The Affinity coefficient in Cluster Analysis, in Methods of Operation
Research, Martin J. Bekman et al. Ed., Verlag Anton Hain, Münich, vol. 53, 507-512, 1985.
[BAC 88] BACELAR- NICOLAU, H., Two Probabilistic Models for Classification of Variables in Frequency
Tables. Classification and Related Methods; H.H. Bock (Ed.), North Holland, 181-189, 1988.
[BAC 02] BACELAR- NICOLAU, H., On the Generalised Affinity Coefficient for Complex Data,
Byocybernetics and Biomedical Engineering, vol. 22 (1), 31-42, 2002.
[BAI 82] BAILEY, T.A., DUBES R., Cluster Validity Profiles, Pattern Recognition, vol. 15 (2), 61-83, 1982.
[BAO 88] BAO, H.T, DIDAY, E., GETTLER- SUMMA, M., Generating Rules for Expert System from
Observation, en Pattern Recognition Letters, 265-271, 1988.
[BAO 91] BAO, H.T, HUYEN, T., A Method for Generating Rules from Examples and its Application.
Symbolic and Numeric Data Analysis and Learning, ed Diday, Nova Science, 493-504, 1991.
[BAR 63] BARNARD, G.A., Discussion of a Paper by M.S. Barlett, Journal of the Royal Statistical Society,
Series B, vol. 25, 294, 1963.
[BAR 99] BARTHOLOMEW, D.J., KNOTT, M., Latent Variable Models and Factor Analysis , Arnold,
London,1999.
[BEL 98] BEL MUFTI G., Validation d’une Classe par Estimation de sa Stabilité, thèse de PhD, Université
Paris IX Dauphine, octobre 1998.
[BEN 02] BEN –HUR, A., ELISSEFF, A., GUYON, I., A Stability Based Method for Discovering Structure in
Clustered Data, Pacific Symposium on Biocomputing, Altman, R., Dunker, A., Hunter, L., et al. Eds.,
World Scientific, 6-17, 2002.
[BIE 00] BIERNACKI, C., CELEUX, G., GOVAERT, G., Assessing a Mixture Model for Clustering with the
Integrated Completed Likelihood. IEEE Trans., on PAMI, vol. 22, 719-725, 2000.
[BOC 77] BOCK, H.H, On Tests Conserning the Existence of a Classification. First International
Symposium on Data Analysis and Informatics. INRIA, Rocquencourt, 449-464, 1977.
[BOC 85] BOCK, H.H, On Some Significant Tests in Cluster Analysis, Journal of Classification, vol. 2,
77- 108, 1985.
[BOC 99] BOCK, H.H.The Classical Data Situation, Analysis of Symbolic, in series : Studies in
Classification, Data Analysis, and Knowledge Organisation, Springer, 24- 39, 1999.
[BOC 00] BOCK, H.H., DIDAY, E. (eds.). Analysis of Symbolic Data. Exploratory Methods for Extracting
Statistical Information from Complex Data, Series: Studies in Classification, Data Analysis, and
Knowledge Organisation, , Springer, Berlin, vol. 15, 2000.
TABLE DES MATIERES 160
[BOZ 88] BOZDOGAN, H., ICOMP: A New Model Selection Criterion, H H. Bock Ed., Classification and
Related Methods of Data Analysis, North- Holland, Amsterdam, 599-608, 1988.
[BOZ 94] BOZDOGAN, H., Mixture-model cluster Analysis using Model Selection Criteria and a New
informational measure of complexity, H. Bozdogan Eds., Multivariate statistical modeling, vol. 2, 69-
113, Proceedings of the first US/Japan conference on the frontiers of statistical modeling: An
informational approach. Dordrecht: Kluwer Academic, 1994.
[BOZ 00] BOZDOGAN, H., Akaïke’s Information Criterion and Recent Developments in Information
Complexity, Journal of Mathematical Psychology, vol. 44,62-91, 2000.
[BOZ 03] BOZDOGAN, H.,, Intelligent Statistical Data Mining with Information Complexity and Genetic
Algorithms, Proceeding of JISS 2003, Lisbonne, vol. 2, 15-56, 2003.
[BRE 89] BRECKENRIDGE J.N., Replicating Cluster Analysis: Method, Consistency, and Validity,
Multivariate Behavior Research, vol. 24 (2), 147-161, 1989.
[BRE 74] BRENNAN, R.L, LIGHT, R.J., Measuring Agreement when Two Observers Classify People into
Categories not Defined in Advance, British Journal of Mathematical and Statistical Psychology, vol 27,
154-163, 1974.
[BRI 84] BREIMAN, L., FRIEDMAN, J.H., OLSHEN, R.A. et STONE, C.J., Classification and Regression
Trees. Wadsworth & Brooks/ code advanced book & software, 1984.
[BRI 91] BRITO, P., Analyse de Données Symboliques Pyramides d’Héritage, Thèse de PhD, Université
Paris IX Dauphine, 1991.
[CEL 92] CELEUX, G., Résultats Asymptotiques et Validation en Classification. In Modèles pour l’Analyse
de Données Multidimensionnelles. Droesbeke, J.J., Fichet, B., Tassi, P., Eds., Economica, Paris, 1992.
[CEL 94] CELEUX, G., NAKACHE, J.P., Analyse Discriminante sur Variables Qualitatives. Polytechnica
Editions, 1994.
[CEL 96] CELEUX, G., An Entropy Criterion for Assessing the Number of Clusters in a Mixture Model,
Journal of Classification, vol. 13, 195-212, 1996.
[CHA 97] CHAVENT, M., Analyse de Données Symboliques. Une méthode divisive de classification- Thèse,
Université Paris IX -Dauphine, 1997.
[CHA 99] CHAVENT, M., Criterion- Based Divisive Clustering for Symbolic Data, Ed. Bock, H.H., et
Diday, E., Analysis of Symbolic Data, 299-311, 1999.
[CHA 01] CHAVENT, M., ET AL., Critère de Rand Asymétrique, in Proceedings SFC 2001, 8èmes
rencontres de la Société Francophone de Classification, Pointe à Pitre, 2001.
[CHE 95] CHEESEMAN, P., STUTZ, J., Bayesian Classification (Autoclass) : Theory and Result, U.M.
Fayyad, G.Piatetsky- Shapiro, P.Smyth and R. Uthurusamy (eds.), Advances in Knowledge Discovery
and Data Mining, Menlo Park : the AAAI Press, 1995.
[COH 60] COHEN J., A Coefficient of Agreement for Nominal Scales., Educ. Psychol. Meas., vol. 20, 27-
46, 1960.
[CON 80] CONOVER, W. J., Practical Nonparametric Statistics, 2e édition New York: John Wiley & Sons,
1980.
[DAY 83] DAY, W.H.E, the Role of Complexity in Comparing Classifications, Mathematical Biosciences,
vol. 66, 97- 114, 1983.
[DAY 98] Dayton, C.M, Latent Class Scaling Analysis, Series : Quantitative Applications in the Social
Sciences, 126, SAGE publications, 1998.
[DEC 92] DECARVALHO, F.A.T, Méthode Descriptive en Analyse de Données Symboliques, thèse de PhD,
Université Paris IX Dauphine, 1992.
TABLE DES MATIERES 161
[DEC 94] DE CARVALHO, F.A.T, Proximity Coefficients Between Boolean Symbolic Objects, Diday, E. et
al.(eds.): New Approaches in Classification and Data Analysis, Series: Studies in Classification, Data
Analysis, and Knowledge Organisation, vol. 5, Springer-Verlag, Berlin, 387-394, 1994.
[DEC 98] DE CARVALHO, F.A.T, Extension Based Proximity Coefficients Between Constrained Boolean
Symbolic Objects. Hayashi, C. et al. (eds.): Proc. of IFCS’96, Springer, Berlin, 370-378, 1998.
[DEG 90] DEGLAS, M., Vers une Représentation Logique du Sens, Rapport technique No 24-90, Université
Pierre et Marie Curie Paris 6, 1990.
[DID 71] DIDAY, E., La Méthode de Nuées Dynamiques, Revue de la Statistique Appliquée, vol. 19(2), 19-
34, 1971.
[DID 80] DIDAY, E., et al., Clustering in Pattern Recognition. Ed. J.C. Simon, Proc. NATO Advanced
Study Institute on Digital Processing and Analysis. Bonas, France 1980.
[DID 91] DIDAY, E., Des Objets de l’Analyse de Données A Ceux de l’Analyse des Connaissances.
Inductions symboliques et numériques à partir des données- ed par Kodratoff, Y et Diday, E.,
Cépaduès, 1991.
[DID 92] DIDAY, E., Eléments d’Analyse des Données Symboliques. PRC IA Apprentissage Symbolique et
Numérique. Marseille, décembre 1992.
[DID 94] DIDAY, E., LECHEVALLIER, Y., SCHADER, M., BERTRAND, P., et BURTSCHY, B. Ed., New
Approaches in Classification and Data Analysis. Proc. Conf. De IFCS (IFCS-93), Springer-Verlag,
Heidelberg, 1994.
[ELA 90] ELAYOUBI, N., Liaison entre Analyse Factorielle et analyse Relationnelle, Thèse de doctorat de
l’Université de Paris 6, 1990.
[ESP 00a] ESPOSITO, F., MALERBA, D., TAMMA, V., et BOCK, H.H. Classical Resemblance Measures.
Bock, H.H, Diday, E. (eds.): Analysis of Symbolic Data. Exploratory Methods for extracting Statistical
Information from Complex Data, Series: Studies in Classification, Data Analysis, and Knowledge
Organisation, Springer-Verlag, Berlin, vol. 15, 139-152, 2000.
[ESP 00b] ESPOSITO, F., MALERBA, D., TAMMA, V., Dissimilarity Measures for Symbolic Objects. Bock,
H.H., Diday, E. (eds.): Analysis of Symbolic Data. Exploratory Methods for extracting Statistical
Information from Complex Data, Series: Studies in Classification, Data Analysis, and Knowledge
Organisation, Springer-Verlag, Berlin, vol. 15, 165-185, 2000.
[EVE 81] EVERITT, B., HAND, D.J., Finite Mixture Distributions, Chapman and Hall, London, 1981.
[EVE 93] EVERITT, B.S., Cluster Analysis, Edward Arnold, London, 1993.
[FOW 83] FOWLKES, E.B. AND MALLOWS, C.L., A Method for Comparing Two Hiearchical Clusterings,
Journal of American Statistical Association, vol. 78, 553- 569, 1983.
[FOR 65] FORGY, E.W., Cluster Analysis of Multivariate Data: Efficiency Versus Interpretability of
Classifications. Biometric Society Meetings, Riverside, California (Abstract in: Biometrics Vol. 21, No
3, 768,), 1965.
[GET 94] GETTLER-SUMMA, M., PERINEL, E., et FERRARIS, J. Automatic Aid to Symbolic Cluster
Interpretation. In New Approaches in Classification and Data Analysis, Diday, E. et al..Eds. IFCS-93,
405-413, 1994.
[GET 98] GETTLER- SUMMA, M., Approches MGS Marquage et Généralisation Symboliques pour de
Nouvelles Aides a l’Interprétation en Analyse de Données. Cahier du Cérémade n0 9830 Université
Paris IX Dauphine, France, 1998.
[GET 00] GETTLER- SUMMA, M., Marking and Generalization by Symbolic Objects in the Symbolic
Official Data Analysis. Ed. Kiers, H.A.L., Rasson J.P., Groenen, et al. : Proc. of IFCS’00, Namur,
Belgium, 2000.
TABLE DES MATIERES 162
[GIL 89] GILLICK, L., COX, S., Some Statistical Issues in the Comparison of Speech Recognition
Algorithms, ICASSP 89, vol.1, 532-535,1989.
[GNA 77] GNANADESIKAN R., KETTENRING J.R., LANDWEHR J.M., Interpreting and Assessing the Results
of Cluster Analysis. Bulletin of International Statistical Institute, vol. 47 (2), 451-463, 1977.
[GOO 79] GOODMAN, L., KRUSKAL, W., Measures of Association for Cross- Classifications, Springer-
Verlag, New York, 1979.
[GOR 87] GORDON, A.D., A Review of Hierarchical Classification, J.R Statistics Soc., A, vol. 150, Part2,
119-137, 1987.
[GOR 88] GORDON, A.D., CATA, A.De., Stability and Influence in Sum of Squares Clustering, Metron, vol.
46, 347-360, 1988.
[GOR 98] GORDON, A.D., Cluster Validation, Studies in Classification, Data Analysis, and Knowledge
Organization : Data Science, Classification, and Related Methods, Ed. Hayashi C., Ohsumi N., Yajimi
K., Tanaka Y., Bock H.H., Baba Y., 493-504, Springer-Verlag, 1998.
[GOW 94] GOWDA, K. C., DIDAY, E. Symbolic Clustering Using a New Dissimilarity Measure. In Pattern
Recognition, vol. 24 (6), 567-578, 1994.
[HAL 01] HALKIDI, M., VAZIRGIANNIS, M., Clustering Validity Assessment : Finding the Optimal
Partitioning of a Data Set, Proceedings of ICDM Conference, California, USA, 2001.
[HAN 81] HAND, D.J., Discrimination and Classification, Wiley, London, 1981.
[HEI 96] Heinen, T., Latent Class and Discrete Latent Trait Models, Similarities and Differences,
Advanced Quantitative Technics in the Social Sciences, SAGE publications, 1996.
[HIL 98] HILLALI, Y., Analyse et Modélisation des Données Probabilistes : Capacités et Lois
Multidimensionnelles, Thèse de PhD, université Paris IX Dauphine, 1998.
[HOP 68] HOPE A.C.A., A Simplified Monte Carlo Significance Test Procedure, Journal of The Royal
Statistical Society, Series B, vol. 30, 582-598, 1968.
[HUB 85] HUBERT L., ARABIE P., Comparing Partitions, Journal of Classification, vol. 2, 193-198, 1985.
[ICH 94] ICHINO, M., YAGUCHI, H. Generalized Minkowski Metrics for Mixed Feature-Type Data
Analysis. IEEE Transactions on Systems, Man, and Cybernetics, vol. 24, No. 4, 698-707, 1994.
[IDR 00] IDRISSI A., Contribution à l’Unification de Critère d’Association pour Variables Qualitatives,
Thèse de doctorat de l’Université de Paris 6, 2000.
[IMH 61] IMHOF P. Computing The Distribution of Quadratic Forms in Normal Variables, Biometrika, vol.
48, 419- 426.
[JAI 87] JAIN, A.K., MOREAU, J.V., Bootstrap Technique in Cluster Analysis, Pattern Recognition, Vol. 20,
547-568, 1987.
[JAI 88] JAIN, A.K., DUBES, R., Algorithms for Clustering Data. Englewood Cliffs. NJ. Prentice-
Hall,1988.
[JAN 82] JANSON S., VEGELIUS J. The J-index as a Measure of Association for Nominal Scale Response
Agreement. Applied psychological measurement, vol. 16, 243-250, 1982.
[JAR 71] JARDINE, N. et SIBSON, R., Mathematical Taxonomy. Londres, Willey Ed., 1971.
[KEN 61] KENDALL M.G, STUART A. The Advanced Theory of Statistics, Griffin, Londre, vol. 2, 1961.
[KOE 69] KOERTS J., ABRAHAMSE A.P.J., On The Theory and Application of The General Linear Model,
Rotterdam University Press, Rotterdam, 1969.
[KOD 91] KODRATOFF, Y., DIDAY, E. Ed., Introduction Symbolique et Numérique à Partir de Données.
CEPADUES, Toulouse, 1991.
TABLE DES MATIERES 163
[KRI 99] KRIEGER A., GREEN P., A Generalized Rand-Index Method for Consensus Clustering of Separate
Partitions of the Same Data Base, Journal of Classification, vol. 16, 63-89,1999.
[LAN 67] LANCE, G.N., WILLIAMS, W.T., A General Theory of Classification Sorting Strategies, Computer
Journal, vol.9, 373-380, 1967.
[LAZ 50] LAZARSFELD, P.F , The Logical and Mathematical Foundation of Latent Structure Analysis, In S.
Stouffer (Ed.), Measurement and Prediction, 362-412, Princeton, N.J :Princeton University Press,1950.
[LAZ 68] LAZARSFELD, P.F., HENRI, N.W., Latent Structure Analysis, Houghton Mifflin, Boston, 1968.
[LAZ 01] LAZRAQ, A., CLEROUX R.. Statistical Inference Concerning Several Redundancy, Journal of
Multivariate Analysis, vol. 79, 71-88, 2001.
[LAZ 02] LAZRAQ, A., CLEROUX R.. Inférence Robuste sur un Indice de Redondance, Revue de Statistique
Appliquée, vol. 4, 39-54, 2002.
[LEB 87] LEBART L., Conditions de Vie et Aspirations des Français, Evolution et Structure des Opinions
de 1978 à 1984, Futuribles, vol.1, 25-26, 1987.
[LEB 97] LEBART, L., MORINEAU, A., PIRON, M., Statistique Exploratoire Multidimentionnelle 2e edition,
DUNOD, 1997.
[LEB 91] LEBBE, J., Représentations des Concepts en Biologie et en Médecine, Thèse de PhD, Université
Paris 6, avril 1991.
[LER 73] LERMAN, I.C, Etude Distributionnelle de Statistiques de Proximité entre Structures Finies de
Mêmes Types; Application à la Classification Automatique, Cahier no.19 du Bureau Universitaire de
Recherche Opérationelle, Institut de Statistique des Universités de Paris, 1973.
[LER 81] LERMAN, I.C., Classification et Analyse Ordinale des Données, Dunod, Paris, 1981.
[LER 88] LERMAN, I.C, Comparing Partitions (Mathematical and Statistical Aspects), Classification and
Related Methods of Data Analysis, H.H Bock Editor, 121-131, 1988.
[MAH 30] MAHALANOBIS, P.C., On Tests and Measures of Groups Divergence I. Journal of the Asiatic
Society of Bengal, vol. 26, 541, 1930.
[MAL 01] MALERBA, D., ESPOSITO, F., GIOVIALE, V., TAMMA, V. Comparing Dissimilarity Meausures for
Symbolic data analysis. http://www.di.uniba.it/~malerba/publications/ntts-asso.pdf, 2001.
[MAR 84] MARCOTORCHINO F., Utilisation des Comparaisons par Paires en Statistique des Contingences
(Partie II), Etude du Centre Scientifique IBM France, No F069, 1984.
[MAR 91] MARCOTORCHINO J.F., EL AYOUBI, N., Paradigme Logique Des Ecritures Relationnelles De
Quelques Critères Fondamentaux D’Association, Revue de Statistique Appliquée, vol. 2, 25-46, 1991.
[MAT 55] MATUSIKA, K. On the Theory of Statistical Decision Functions. Ann. Math. Stat. vol. 26, 631-
640, 1955.
[McC 87] MCCUTCHEON, A.L, Latent Class Analysis, Sage University Paper Series on Quantitative
Applications in the Social Sciences, 64 , SAGE publications, 1987.
[McI 80] MCINTYRE, R.M., BLASHFIELD R.K., A Nearest-Centroid Technique for Evaluating the
Minimum-Variance Clustering Procedure, Multivariate Behavior Research, vol. 15, 225-238, 1980.
[McL 97] MCLACHLAN, G.J., et KRISHNAN, J., The EM algorithm and Extensions, Wiley, New York,
1997.
[McL 00] MCLACHLAN, G.J., PEEL, D., Finite Mixture Models, Wiley, New York, 2000.
TABLE DES MATIERES 164
[MEH 03] MEDHI, L., DIDAY, E., WINSBERG, S., Symbolic Class Description with Interval Data, the
Electronic journal of Symbolic Data Analysis, vol.1, No 1, 2003.
[MIC 81] MICHALSKI, R.S, DIDAY, E., Stepp, R.E.,- A Recent advance in data analysis: Clustering objects
into classes characterized by conjunction concepts-Progress in Pattern Recognition, vol 1,North
Holland, Amsterdam, pp 33-56, 1981.
[MIC 83] MICHALSKI, R.S., et STEPP, R.E, Learning from Observations: Conceptual Clustering, chap.4,
vol. 1, 1983.
[MIL 85] MILLIGAN G.W., COOPER M.C., An Examination of Procedures for Determining the Number of
Clusters in a Data set. Psychometrika, vol. 50, 159-179, 1985.
[MIL 86] MILLIGAN G.W., COOPER M.C., A Study of the Comparability of External Criteria for
Hierarchical Cluster Analysis, Multivariate Behavior research, vol. 21, 441-458, 1986.
[MIL 96] MILLIGAN G.W., CHENG, R., Measuring the Influence of Individual Data Points in a Cluster
Analysis, Journal of Classification, vol. 46, 187-189, 1996.
[MOR 84a] MOREY, L.C., AGRESTI, A., The Measurement of Classification Agreement: An Adjustment of
the Rand Statistic for Chance Agreement, Educational and Psychological Measurement, 44, 33-37,
1984.
[MOR 95] MORINEAU, A., SUMMA, M., TONG, H., Marquage Sémantique des Classes et des Axes- 28 èmes
journées de l’ASU, Paris, 468-472, 1995.
[MOR 84] MORINEAU, A., Note sur la Caractérisation Statistique d’une Classe par les Valeurs Tests,
Bulletin Technique de CESIA, vol. 2 (1), 20-27,1984.
[NAK 00] NAKACHE, J.P., CONFAIS, J., Méthodes de Classification avec illustration SPAD et SAS. CISIA
CERESTA, Montreuil, 2000.
[NAP 92] NAPOLI, A., Représentations à Objets et Raisonnement par Classification en Intelligence
Artificielle, Nancy, Thèse de PhD, Université de Nancy 1, 1992.
[PER 96] PERINEL, E., Segmentation en Analyse des Données Symboliques, Thèse de PhD, Université
Paris IX Dauphine, septembre 1996.
[POP 83] POPPING, R. Traces of agreement. On the Dot- Product As a Coefficient of Agreement. Quality
and Quantity, vol. 17, No1, 1-18, 1983 .
[POP 84] POPPING, R. Traces of Agreement: On Some Agreement Measures for Open- Ended Questions,
Quality and Quantity, vol. 18, No 2, 147-58, 1984.
[POP 88] POPPING, R. On Agreement Indices for Nominal Data. in Sociometric research,, Edited by W.E
Saris and I.N. Gallhofer, McMillan, London vol. 1, 90-105, 1988.
[POP 92] POPPING, R. Taxonomy on Nominal Scale Agreement, Groningen ; iec ProGAMMA, 1945-1990,
1992.
[POP 00] POPPING, R. The Computer Program AGREE 7 for nominal Scale Agreement.
http://www.ppsw.rug.nl/~popping/RP_131.html, 2000.
[RAN 71] RAND, W.M., Objective Criteria for the Evaluation of Clustering Methods, Journal of the
American Statistical Association, vol. 66 (336), 846-850, 1971.
[RAS 94] RASSON, J.P., KUBUSHISHI, T., The Gap test: An Optimal Method for Determining the Number
of Natural Classes in Cluster Analysis, New Approaches in Classification and Data Analysis, Diday, E.,
et al., Eds., Springer Verlag, Berlin, 186-193, 1994.
[RIS 89] RISSANEN, J., Stochastic Complexity in Statistical Inquiry, World Scientific Publishing Company,
Teaneck, New Jersey, 1989.
TABLE DES MATIERES 165
[RIS 94] RISSON, A., ROLLAND, P., CHAUCHAT J.H, Analyse Graphique d’une Matrice De Données. Guide
Pratique, CISIA, 1994.
[ROB 76] ROBERT P., ESCOUFIER, Y. A Unifying Tool for Linear Multivariate Statistical Methods: the RV-
coefficient. Appl. Statist., vol. 25, 257-265, 1976.
[SAP 90] SAPORTA, G., Probabilités Analyse des Données et Statistique, Editions TECHNIP, 1990.
[SAP 97] SAPORTA, G. Problèmes Posés par la Comparaison de Classifications Dans des Enquêtes
Différentes, 53 ème session de l’Institut International de Statistique, Istanbul, août 1997.
[SAP 01] SAPORTA G., YOUNESS G. Concordance entre Deux Partitions: Quelques Propositions et
Expériences, in Proceedings SFC 2001, 8èmes rencontres de la Société Francophone de
Classification, Pointe à Pitre, 2001.
[SAP 02] SAPORTA G., YOUNESS G. Comparing Two Partitions: Some Proposals and Experiments,
Proceedings in Computational Statistics edited by Wolfgang Härdle, Physica- Verlag, Berlin, Germany,
2002.
[SAS 94] SAS/ STAT, User’s guide, version 6, fourth edition. SAS Institute Inc., Cary, NC (USA), 1994.
[SIL 02] SILVA, A.L, BACELAR- NICOLAU, H., SAPORTA, G., Missing Data in Hierarchical Classification of
Variables- A Simulation Study, Classification Clustering and Data analysis, Springer, 121-128, 2002.
[SMI 80] SMITH, S.P., JAIN A.K., Testing for Uniformity in Multidimensional Data, IEEE Transactions on
Pattern Analysis and Machine Intelligence, vol. PAMI 6, 73-91, 1980.
[SOK 58] SOKAL, R.R., MICHENER, C.D., A Statistical Method for Evaluating Systematic Relationships,
Univ Kansas Sci. Bull., vol. 38, 1409- 1438, 1958.
[SOK 63] SOKAL, R.R., SNEATH P.H.A. Principles of Numerical Taxonomy, Freeman and co., San
Francisco, 1963.
[SOK 88] SOKAL, R.R., Unsolved Problems in Numerical Taxonomy in Classification and Related
Methods of Data Analysis, H.H Bock ed., North Holland, 45-56, 1988.
[SOR 48] SORENSEN, T., A Method of Establishing Groups of Equal Amplitude in Plant Sociology Based
on Similarities of Species Content and its Application to Analyses of the Vegetation on Danish
Commons. Biologiske Skrifter, vol.5, 1-34, 1948.
[SOU 02] SOUSA, A., SILVA, O., BACELAR-NICOLAU, H., NICOLAU, F., Validação em Classificação
Hierárquica. JOCLAD, 2002.
[SPL 00] S-PLUS 2000 User’s Guide. Data Analysis Products Division, MathSoft, Seattle, Washington.
Ed. Springer, 2000.
[STE 98] STEPHAN, V., Construction d’Objets Symboliques par Synthèse des Résultats de Requêtes SQL,
Thèse de PhD, Université Paris IX -Dauphine, 1998.
[STE 68] STEWART D., LOVE W., A General Canonical Correlation index, Psychological Bulletin, vol. 70,
160- 163, 1968.
[TOM 88] TOMASSONE, R., DANZART, M., DAUDIN, J.J., MASSON, J.P., Discrimination et Classement,
Masson, Paris, 1988.
[VAN 71] VAN EMDEN, M.H., An Analysis of Complexity, Mathematical Center Tracts, vol. 35,
Amsterdam, 1971.
[VEN 99] VENABLES W.N., RIPLEY B.D., S Programming, Statistics and Computing, Ed. Springer, 1999.
[VER 99] VERMUNT, J.K., MAGIDSON, J., Exploratory Latent Class Cluster, Factor and Regression
Analysis :The latent Gold Approach . Article présenté à la conférence de EMPS’99,Lueneburg,
Germany, 1999.
TABLE DES MATIERES 166
[VER 00] VERMUNT, J.K., MAGIDSON, J., Latent GOLD 2.0 User’s Guide, Belmont, MA: Statistical
Innovations Inc.
[VER 02] VERMUNT, J.K., MAGIDSON, J., Latent Class Cluster Analysis. In J.A. Hagenaars et A.L.
McCutcheon Eds., Applied Latent Class analysis, 89- 106, Cambridge University Press., 2002.
[VIG 03] VIGNEAU, E., QUANNARI, E.M., Clustering of Variables Around Latent Components,
Communications in Statistics Simulation and Computation, vol. 32 (4), 1131-1150, 2003.
[WON 85] WONG, M.A., A Bootstrap Testing Procedure for Investigating the Number of Subpopulations,
Journal Statistics Comput. And Simulations, vol. 22, 99-112, 1985.
[YOU 03] YOUNESS G., SAPORTA G., Sur les Indices de Comparaison de Deux Classifications, in
Proceedings SFC 2003, 10èmes rencontres de la Société Francophone de Classification, Neuchâtel,
2003.
[YOU 04] YOUNESS G., SAPORTA G., Une Méthodologie pour la Comparaison de Partitions, Revue de
Statistique Appliquée, vol. LII (1), 97-120, 2004.
[YOU 04’] YOUNESS G., SAPORTA G., Some Measures of Agreement Between Close Partitions, Student, à
paraître.