0% ont trouvé ce document utile (0 vote)
68 vues99 pages

Analyse Des Données

Ce document traite de l'analyse des données, en abordant les différents types de variables et les espaces de représentation associés. Il couvre des concepts tels que les variables numériques, ordinales et nominales, ainsi que des méthodes d'analyse comme l'analyse en composantes principales et la classification. L'objectif est de fournir une compréhension des techniques statistiques pour caractériser et comparer des objets à partir de données.

Transféré par

Mounia Tahri
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
68 vues99 pages

Analyse Des Données

Ce document traite de l'analyse des données, en abordant les différents types de variables et les espaces de représentation associés. Il couvre des concepts tels que les variables numériques, ordinales et nominales, ainsi que des méthodes d'analyse comme l'analyse en composantes principales et la classification. L'objectif est de fournir une compréhension des techniques statistiques pour caractériser et comparer des objets à partir de données.

Transféré par

Mounia Tahri
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse des données

Frédéric Cadier

Master IADBA – Année 2008/2009


2
Table des matières

1 Les données 7
1.1 Espaces de représentation . . . . . . . . . . . . . . . . . . . . 7
1.2 Espaces engendrés par des variables . . . . . . . . . . . . . . . 8
1.2.1 Variables numériques . . . . . . . . . . . . . . . . . . . 8
1.2.2 Variables ordinale et nominales . . . . . . . . . . . . . 9
1.3 Espace des modèles . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Distances et similitude dans les espaces de représentation . . . 11
1.4.1 Dissimilarités et similarités . . . . . . . . . . . . . . . 12
1.4.2 Variables continues . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Variables booléennes (présence/absence) . . . . . . . . 14

2 Description d’une ou deux variables 17


2.1 Description d’une variable . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Distribution . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Valeurs centrales . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Paramètres de dispersion . . . . . . . . . . . . . . . . . 23
2.1.4 Boı̂te à moustaches . . . . . . . . . . . . . . . . . . . . 26
2.2 Description de deux variables . . . . . . . . . . . . . . . . . . 27
2.2.1 Nuage de points et régression linéaire . . . . . . . . . 27
2.2.2 Corrélation linéaire et axe principal . . . . . . . . . . 29
2.2.3 Test d’indépendance du χ2 . . . . . . . . . . . . . . . . 33

3 Analyse en composantes principales 37


3.1 Exemple avec les mains . . . . . . . . . . . . . . . . . . . . . 37
3.2 Principe de la méthode (sans les mains) . . . . . . . . . . . . . 38
3.3 Reformulation des données . . . . . . . . . . . . . . . . . . . . 40
3.3.1 Matrice de données . . . . . . . . . . . . . . . . . . . . 40
3.3.2 Poids des données . . . . . . . . . . . . . . . . . . . . . 40
3.3.3 Matrices de description . . . . . . . . . . . . . . . . . 40
3.3.4 Réduction des données . . . . . . . . . . . . . . . . . . 41
3.4 Recherche des sous-espaces principaux . . . . . . . . . . . . . 42

3
4 TABLE DES MATIÈRES

3.4.1 Un sous-espace à 1 dimension . . . . . . . . . . . . . . 44


3.4.2 Sous-espaces principaux à plus d’1 dimension . . . . . 46
3.4.3 Axes principaux . . . . . . . . . . . . . . . . . . . . . . 47
3.5 Inertie et sous-espace principal . . . . . . . . . . . . . . . . . 48
3.6 Description du nuage des individus . . . . . . . . . . . . . . . 49
3.6.1 Description du nuage des caractères . . . . . . . . . . . 51
3.6.2 Reconstructions et transitions . . . . . . . . . . . . . . 52
3.7 Interprétation des résultats . . . . . . . . . . . . . . . . . . . . 53
3.7.1 Valeurs propres, facteurs et composantes principales . . 53
3.7.2 Composantes principales et représentation graphique . 54
3.7.3 Interprétation des axes et des projections . . . . . . . . 56
3.8 Cas général et utilisation des métriques . . . . . . . . . . . . . 58
3.8.1 Métrique . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.8.2 Espace des individus . . . . . . . . . . . . . . . . . . . 59
3.8.3 Espace des caractères . . . . . . . . . . . . . . . . . . 59
3.8.4 A.C.P avec une métrique quelconque . . . . . . . . . . 60
3.9 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . 60
3.9.1 L’analyse en facteurs communs et spécifiques . . . . . . 61
3.9.2 L’analyse en composante principale . . . . . . . . . . . 61

4 Classification 63
4.1 Modèles de classification . . . . . . . . . . . . . . . . . . . . . 64
4.1.1 Partitions et hiérarchies . . . . . . . . . . . . . . . . . 65
4.2 Méthodes de partitionnement . . . . . . . . . . . . . . . . . . 68
4.2.1 Choix d’une partition . . . . . . . . . . . . . . . . . . . 68
4.2.2 k-means . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.2.3 Algorithme des transferts . . . . . . . . . . . . . . . . 77
4.3 L’algorithme de Classification Ascendante Hiérarchique (C.A.H.)
78
4.3.1 Pseudo-code . . . . . . . . . . . . . . . . . . . . . . . . 79
4.3.2 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . 79
4.3.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 80

5 L’analyse discriminante 83
5.1 Principe de la méthode . . . . . . . . . . . . . . . . . . . . . . 83
5.1.1 Matrices de variances intraclasse et interclasses . . . . 84
5.1.2 Variance d’un caractère . . . . . . . . . . . . . . . . . . 84
5.1.3 Facteurs et caractères discriminants . . . . . . . . . . . 85
5.1.4 Recherche des facteurs . . . . . . . . . . . . . . . . . . 86
5.2 L’analyse discriminante décisionnelle . . . . . . . . . . . . . . 86
5.3 L’analyse discriminante comme cas particulier d’A.C.P. . . . . 87
TABLE DES MATIÈRES 5

6 L’analyse factorielle des correspondances 89


6.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.2 Les nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.3 La distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.4 Analyses des nuages . . . . . . . . . . . . . . . . . . . . . . . 93
6.4.1 Matrices V . . . . . . . . . . . . . . . . . . . . . . . . 93
6.4.2 A.C.P en ligne et colonne . . . . . . . . . . . . . . . . 93
6.4.3 Valeurs propres . . . . . . . . . . . . . . . . . . . . . . 94
6.4.4 Vecteurs Propres et composantes principales . . . . . . 95
6.5 Représentation simultanée des lignes et des colonnes . . . . . . 96
6.6 Interprétations . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.6.1 Contribution absolue d’une modalité à un axe . . . . . 96
6.6.2 Contribution relative d’un axe à une modalité . . . . . 97
6.7 Éléments supplémentaires . . . . . . . . . . . . . . . . . . . . 97
6.8 Exemple simple . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6 TABLE DES MATIÈRES
Chapitre 1

Les données

1.1 Espaces de représentation


Pour analyser un ensemble fini d’objets X (dans la suite de ce syllabus,
on supposera toujours que le nombre d’éléments de X est n et on les notera
indifféremment x1 , x2 , . . ., xn , x, y, z, t, . . .), il faut disposer d’informations
permettant soit de caractériser les objets soit de les comparer. Ces informa-
tions se laissent représenter de diverses manières qui correspondent à autant
d’espaces de représentation dans lesquels les objets peuvent être plongés.
Une description des objets mobilise le plus souvent des paramètres (que l’on
supposera en nombre fini) et l’on parlera alors d’espace de représentation
engendré par des variables. Ces variables peuvent être de plusieurs types :
variables numériques, variables ordinales et variables nominales.
On appellera le plus souvent individus les objets de X et caractères les
variables associées.
Une variable numérique peut-être discrète ou continue. On dit qu’une
variable est continue lorsque entre deux valeurs observées toute valeur est
observable (une taille, un poids). Votre compte en banque, compté en cen-
times d’euros, est quant à lui un exemple de variable discrète.
Une variable ordinale ne retient que des comparaisons entre des valeurs
(je préfère x à y, x est plus intéressant que y, . . .). Chaque variable ordinale
induit une relation d’ordre soit sur l’ensemble X, soit sur un ensemble de
“références” a priori indépendant de X (un peu, beaucoup, à la folie, pas du
tout, . . .).
Une variable nominale est décrite par un ensemble de valeurs non com-
parables (une catégorie socioprofessionnelle, une couleur, une appartenance
politique, . . .).
Un cas particulier de variables sont les variables binaires qui ne prennent

7
8 CHAPITRE 1. LES DONNÉES

que deux valeurs notées 0 et 1. Celles-ci peuvent être dichotomiques : les


deux modalités sont mutuellement exclusives et toutes deux significatives (le
1 et le 2 qui, plutôt que 0 et 1 désignent le sexe pour la sécurité sociale), ou
de présence/absence : seule une modalité à un sens (posséder – ou pas – un
caractère donné).

1.2 Espaces engendrés par des variables


Supposons que nos n objets soient décrits par un ensemble de p variables.
L’espace de représentation E qui leur sera associé sera le produit cartésien
des ensembles engendrés par icelles. On a ainsi E = Rp , lorsque les variables
sont continues ; tandis dans dans les autres cas on peut poser E = Np . Les
variables booléennes correspondant au cas particulier {0, 1}p .

1.2.1 Variables numériques


L’espace euclidien Rp est l’espace de représentation de l’analyse (géomé-
trique) des données, c’est pourquoi le présent syllabus lui sera presque ex-
clusivement consacré. Chaque objet xi ∈ X est ici codé par un p-uplet
xi = (x1i , x2i , . . . , xpi ) dans lequel xji est la valeur que prend la j-ième variable
sur l’objet xi
Le tableau ci-après (tableau 1.1) montre un exemple d’objets (les lignes)
décrites par des données numériques (les colonnes).

Table 1.1 – Patrimoine selon la catégorie socioprofessionnelle


Livrets Épargne Placements Actions Pierre Terres
logement obligatoires
bons,. . . (assurances)
(LIV) (ELB) (POA) (ACT) (PIE) (TER)
Anciens indépendants
non agricoles (AI) 8,00 6,00 10,00 23,00 44,00 9,00
Professions libérales
(PL) 6,00 8,00 17,00 25,00 35,00 9,00
Industriels, artisans
commerçants (IAC) 5,00 6,00 13,00 36,00 34,00 6,00
Cadres supérieurs (CS) 9,00 9,00 14,00 40,00 23,00 5,00
Agriculteurs (AG) 11,00 13,00 16,00 7,00 19,00 34,00
Anciens agriculteurs
(AA) 14,00 13,00 13,00 6,00 27,00 27,00
Anciens salariés (AS) 16,00 14,00 13,00 25,00 26,00 6,00
Professions
intermédiaires (PI) 17,00 15,00 17,00 20,00 26,00 5,00
Employés (EM) 22,00 14,00 18,00 11,00 27,00 8,00
Ouvriers (OU) 24,00 18,00 25,00 8,00 20,00 5,00

En analyse des données, la démarche diffère de celle adoptée en statistique


inférentielle où l’ensemble des objets est souvent vu comme un échantillon
d’une population plus vaste et l’on cherche à trouver des informations sur
1.2. ESPACES ENGENDRÉS PAR DES VARIABLES 9

cette population à partir de l’échantillon considéré. Ici, X est la population


et les valeurs prises par chaque variable constituent une distribution observée
à partir de laquelle on peut calculer des paramètres (la moyenne, la variance,
. . .), expliquer les valeurs prises par certaines variables à partir de valeurs
prises par d’autre (régressions), ou encore structurer les données (analyses
factorielles).

1.2.2 Variables ordinale et nominales


Une variable ordinale induit un ordre total sur l’ensemble X des objets,
l’espace de représentation associé est donc un produit direct d’ordre totaux.
Nous ne parlerons que très peu de ce genre de données par la suite, et nous
nous restreindrons aux variables booléennes, dont le tableau 1.2 donne un
exemple.
A : l’animal pond-t-il des œufs ?
B : présence de plumes ?
C : présence d’écailles ?
D : présence de dents ?
E : l’animal vole-t-il ?
F : l’animal nage-t-il ?
G : l’animal respire-t-il dans l’air (1) ou dans l’eau (0) ?

Table 1.2 – tableau booléen

A B C D E F G
Autruche 1 1 0 0 0 0 1
Canari 1 1 0 0 1 0 1
Canard 1 1 0 0 1 1 1
Requin 1 0 0 1 0 1 0
Saumon 1 0 1 0 0 1 0
Grenouille 1 0 0 0 0 1 1
Crocodile 1 0 0 1 0 1 1
Barracuda 1 0 1 1 0 1 0

Ce genre de données peut être représenté en utilisant une terminologie


booléenne. Soit X l’ensemble des n objets décrits par un ensemble A =
{A, B, C, . . .} de m attributs ou variables binaires. Chacun, par exemple A,
peut prendre les valeurs a (dite forme directe, codée 1) et ā (dite forme
indirecte, codée 0). Ceci peut être ramené à un tableau de valeurs 0 ou 1
avec n lignes correspondant aux éléments de X et m colonnes correspondant
10 CHAPITRE 1. LES DONNÉES

aux attributs. Par abus de notation, la variable A sera parfois confondue avec
sa forme directe a.
Le tableau 1.2 est alors équivalent à la formule Φ ci-après qui est vérifiée
par les assignations induites par les lignes :
¯ f¯g ∨ abc̄de
Φ = abc̄dē ¯ f¯g∨
¯ g ∨ ab̄c̄dēf ḡ∨
abc̄def
¯ ḡ ∨ ab̄c̄dēf
ab̄cdēf ¯ g∨
ab̄c̄dēf g ∨ ab̄cdēf ḡ

La formule Φ est alors vraie si et seulement si les variables binaires cor-


respondent à une ligne du tableau. En effet, chaque ligne du tableau 1.2 est
une suite de variables binaire liée par des ’ET’ (la première ligne du tableau
¯ f¯g qui correspond à l’autruche), chaque ligne étant liée aux
est ainsi abc̄dē
autres par des ’OU’ (le symbole ∨).
En utilisant le calcul dans les algèbres de Boole, on peut simplifier Φ.
Par exemple, à chaque fois qu’on a deux monôme du type xµ ∨ x̄µ, on peut
¯ f¯g ∨ abc̄de
utiliser la règle (xµ) ∨ (x̄µ) = µ (par exemple abc̄dē ¯ f¯g = abc̄d¯f¯g).
Après simplification, la formule Φ précédente donne :
¯ f¯ ∨ e) ∨ b̄c̄ēf (d ∨ g) ∨ b̄ēf ḡ(d ∨ c)]a
Φ = [bc̄dg(

La simplification de Φ montre que la variable ’a’ n’est pas pertinente


pour décrire les différences entre nos animaux puisqu’ils pondent tous des
œufs (la variable ’a’ est vraie pour toute les lignes). Cette formule réduite
peut se représenter comme dans la figure 1.1, qui permet de caractériser les
différences entre les individus.
a

bcdg bcef befg

f e d g d c
Autruche Canari Requin Grenouille Requin Saumon
Canari Canard Crocodile Barracuda Barracuda

Figure 1.1 – relation entre les animaux du tableau 1.2

La figure 1.1 montre par exemple que les différences entre un canard et
une autruche est alors e et f , une autruche ne volant pas et un canard ne
nageant pas.
1.3. ESPACE DES MODÈLES 11

Attention, les animaux peuvent se retrouver dans plusieurs branches, ainsi


la différence entre une autruche et un canari étant uniquement la variable ’e’
(l’autruche se différenciant du canari par le fait qu’elle ne vole pas).

1.3 Espace des modèles


Analyser des données revient à les réorganiser selon la méthode choisie.
Chaque méthode opère un recodage des données, les plongeant dans un autre
espace appelé espace des modèles.
Si l’espace de représentation correspond à un espace “naturel” de re-
présentation des données, l’espace des modèles correspond quant à lui à un
espace de travail où les données sont itérativement traitées (recodées) jusque
à la fin de l’analyse. On obtiendra ainsi par exemple des classes d’objets, ou
encore un ensemble de vecteurs sur lesquels on projette les objets. C’est de
cet espace que l’on pourra déduire des connaissances propres aux données,
c’est à dire reconnaı̂tre des configurations, des structures, des formes, induites
par les caractéristiques propres des objets.
Analyser des données est ainsi un processus où l’on commence par choisir
les caractéristiques des objets que nous voulons analyser (les placer dans
l’espace de représentation), puis une méthode d’analyse (une classification
non-hiérarchique, ou une analyse en composantes principales par exemple).
Les résultats (dans l’espace des modèles) pouvant alors être interprétés et
nous renseigner sur les objets eux-mêmes (ceux du vrai monde). Ce processus
est schématisé dans la figure 1.2.

1.4 Distances et similitude dans les espaces


de représentation
Comme vu dans la partie précédente, le choix de caractères permettant
de décrire les objets à analyser permet de les situer dans un espace de
représentation E. Reconnaı̂tre des structures induites par cette représentation
implique une étape préliminaire qui est de se doter d’outils métriques permet-
tant de mesurer des distances (ou des ressemblances, des dissemblances. . .)
entre lesdits objets. Pour cela, il nous faut associer à chaque paire d’objets un
nombre positif ou nul, d’autant plus petit que les objets sont “semblables”
(ou, si cela à un sens dans E, que les objets sont “proches” l’un de l’autre).
Après avoir rappelé les différentes définitions de dissimilarité et de dis-
tances, nous donnerons quelques types particuliers de distances parmi les
plus usités, pour des variables continues et des variables booléennes.
12 CHAPITRE 1. LES DONNÉES

connaissances re-codage

codage re-codage
Le vrai Espace de Espace des
monde représentation modèles
info

ma rithm
rm

alg
?

ths
atio

o
on

+
n

ti
s

es
qu

es
Réponses

Figure 1.2 – chaı̂ne de l’analyse

1.4.1 Dissimilarités et similarités


Définition 1 On appelle dissimilarité sur un ensemble d’objets X, une fonc-
tion d de X × X dans l’ensemble des réels telle que les propriétés ci-dessous
soient satisfaites :
(D1 ) : d(x, y) ≥ 0 pour tous x, y ∈ X (positivité)
(D2 ) : d(x, x) = 0 pour tout x ∈ X
(D3 ) : d(x, y) = d(y, x) pour tous x, y ∈ X (symétrie)

On dira qu’une dissimilarité d sur X est propre lorsque :


(D4 ) : d(x, y) = 0 ⇒ x = y pour tous x, y ∈ X
Une dissimilarité propre d sur X est appelée une distance si elle satisfait
l’inégalité triangulaire :
(D5 ) : d(x, y) ≤ d(x, z) + d(z, y) pour tous x, y, z ∈ X
Un espace métrique est un couple (X, d) formé d’un ensemble d’objets X
et d’une distance d sur X.
On peut, par opposition aux dissimilarités qui soulignent les dissem-
blances entre objets, définir une similarité sur X qui en soulignera les res-
semblances. Une similarité s sur X vérifiera donc, outre (D1 ) et (D3 ), une
propriété duale de (D2 ) :
(D20 ) : d(x, x) = max{d(x, y)|∀y ∈ X} pour tout x ∈ X
1.4. DISTANCES ET SIMILITUDE DANS LES ESPACES DE REPRÉSENTATION13

On peut facilement associer une dissimilarité d à toute similarité s :

d(x, y) = max{s(x, x), s(y, y)} − s(x, y)

et réciproquement, associer une similarité s à toute dissimilarité d :

s(x, y) = max{d(z, t)|z, t ∈ X} − d(x, y)

Remarque 1 On peut noter que la première transformation n’est pas une


bijection et qu’il est impossible, dans le cas général, de retrouver la similarité
initiale à partir de la dissimilarité. Ceci vient du fait que pour deux objets
x et y on peut avoir s(x, x) 6= s(y, y) alors que d(x, x) est toujours égal à
d(y, y) (puisque ça vaut 0).

1.4.2 Variables continues


Nous nous restreignons ici aux distances issues des normes Lq . Les dis-
tances de corrélation et la distance du χ2 seront étudiées plus tard, dans le
cadre de l’analyse en composantes principales et de l’analyse factorielle des
correspondances.
On rappelle que pour un espace de représentation E = Rp , chaque objet
xi de X est un vecteur à p dimension xi = (x1i , . . . xji , . . . xpi ). On peut ainsi
définir les distances :
– L1 (encore appelée distance de Manhattan, ou “city block distance”) :
X 1
d(xi , xj ) = |xki − xkj |
1≤k≤p
p

– L2 (encore appelée distance euclidienne) :


s
X 1
d(xi , xj ) = (xki − xkj )2
1≤k≤p
p

– et plus généralement Lq :
X 1 1
d(xi , xj ) = ( |xki − xkj |q ) q
1≤k≤p
p

– et, finalement L∞ (encore appelée distance du sup ou norme uniforme) :

d(xi , xj ) = sup |xki − xkj |


1≤k≤p
14 CHAPITRE 1. LES DONNÉES

Le résultat suivant (du à Gauss (1931) dans le cas de 3 dimensions et


généralisé en 1850 par Hermite) permet de caractériser une distance eucli-
dienne :
Théorème 1 Une condition nécessaire et suffisante pour qu’une distance d
soit euclidienne est qu’il existe x tel que la matrice carrée de terme général
1
wij = (d(x, xi )2 + d(x, xj )2 − d(xi , xj )2 )
2
soit semi-définie positive (c’est à dire que ses valeurs propres sont toutes
positives ou nulles). La dimension minimale de l’espace euclidien où (X, d)
peut-être isométriquement plongé est égal au rang de la matrice (wij )i,j . De
plus, cette propriété est indépendante du choix de x.

1.4.3 Variables booléennes (présence/absence)


Ici, l’espace de représentation est E = {0, 1}p et une variable positionnée
à 1 (respectivement 0) signifie la présence (respectivement l’absence) de l’at-
tribut. Seule la valeur 1 est ainsi significative.
Si l’on considère les variables comme des attributs (présents ou absents),
chaque objet xi possède un ensemble Ei de caractères (Ei est donc constitué
des variables qui prennent sur xi la valeur 1). En notant E\F l’ensemble des
éléments de E qui ne sont pas dans F , la différence symétrique entre Ei et
Ej peut s’écrire :
Ei 4Ej = (Ei \Ej ) ∪ (Ej \Ei )
De là, on peut déduire un grand nombre de distances dont :
– la distance de la différence symétrique :
d(xi , xj ) = |Ei 4Ej |
– la distance de la différence symétrique normalisée (encore appelée dis-
tance de Hamming) :
|Ei 4Ej |
d(xi , xj ) =
p
– la distance de Jaccard :
|Ei ∩ Ej |
d(xi , xj ) = 1 −
|Ei ∪ Ej |
– distance de Czekanovski-Dice :
2|Ei ∩ Ej |
d(xi , xj ) = 1 −
|Ei | + |Ej |
1.4. DISTANCES ET SIMILITUDE DANS LES ESPACES DE REPRÉSENTATION15

– distance de Ochiaı̈ :
|Ei ∩ Ej |
1− p
|Ei |.|Ej |
– distance de Braun-Blanquet :

|Ei ∩ Ej |
1−
max{|Ei |, |Ej |}

– distance de Simpson :

|Ei ∩ Ej |
1−
min{|Ei |, |Ej |}
– ...

Toutes ces distances permettent de mesurer des différences entres objets.


Il convient de bien choisir sa distance selon les différences que l’on veut
mesurer. De façon classique, lorsque le choix d’une distance à utiliser n’est
pas évidente, on a coutume d’utiliser la distance de Jaccard qui est un bon
compromis.
16 CHAPITRE 1. LES DONNÉES
Chapitre 2

Description d’une ou deux


variables

On s’intéresse dans ce chapitre aux espaces de représentation tels que


E = R (partie 2.1) et E = R2 (partie 2.2). La statistique descriptive permet un
pré-traitement efficace des données, en brossant l’allure générale des données
(moyenne, écart type, . . .) et fournit des représentations graphiques (histo-
grammes, boı̂te à moustaches, . . .) permettant de synthétiser les résultats.

L’exemple fil-rouge que nous utiliserons ici est constitué d’une population
de 26 étudiants passant un contrôle. Pour chaque candidat, on note :

– le temps mis à effectuer l’épreuve (variable x),


– le nombre d’erreurs commises (variable y).

Les résultats sont donnés dans la table 2.1.

Table 2.1 – Résultats d’examen pour 26 candidats

Candidat n˚ 1 2 3 4 5 6 7 8 9 10 11 12 13
x 15 15 20 10 15 30 10 10 5 5 5 10 10
y 4 5 10 0 4 10 2 5 0 1 0 3 3
Candidat n˚ 14 15 16 17 18 19 20 21 22 23 24 25 26
x 20 15 10 5 20 30 30 30 40 10 5 10 10
y 6 3 2 0 6 8 5 10 12 3 0 2 3

17
18 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

2.1 Description d’une variable


L’espace de représentation associé à nos objets est ici l’ensemble des
nombres réels.

2.1.1 Distribution
Définition 2 On appellera distribution statistique (ou encore fonction de
répartition) de X la donnée des couples {(c1 , n1 ), . . . , (ci , ni ), . . . , (ck , nk )}
tel que les ci forment une partition en k intervalles (appelés aussi classes)
de l’ensemble des valeurs prises par la variable ( c1 = [a0 , a1 ], ci =]ai−1 , ai ],
ck =]ak−1 , ak ]) et les ni le nombre de valeurs observées dans l’intervalle ci .
Par convention le centre des intervalles est également noté ci .

Remarque 2 Pour une variable discrète, la distribution statistique associée


est également notée {(c1 , n1 ), . . . , (ci , ni ), . . . , (ck , nk )}, mais ici, les ci repré-
sentent toutes les valeurs prises par la variable et les ni le nombre de fois que
la valeur ci a été prise.

Le nombre d’intervalles dans une distribution statistique est choisi en


fonction de n, de manière
P à représenter le mieux possible la distribution des
valeurs et on a n = 1≤i≤k ni . Il n’existe pas de choix pertinent du nombre
et de l’amplitude des classes, mais il est plus aisé de prendre des classes
de même amplitude et, empiriquement, on a coutume d’utiliser la règle de
Sturges comme choix de k :

10 ln (n)
k =1+
3 ln (10)

Parfois, cependant, la découpe en intervalles ira de soi, par exemple lorsque


x ne prend que des valeurs entières puisque l’on se ramènera au cas d’une
variable discrète.

Définition 3 Pour une distribution statistique donnée, on appellera fréquence


ni
de i le rapport
P fi = n , et sa fréquence cumulée la somme Fi = f1 + f2 +
. . . + fi = 1≤j≤i fj .

Définition 4 On appelle histogramme des fréquences pour une distribution


statistique donnée ((]aj−i , aj ], nj ) pour 1 ≤ j ≤ k), le graphique tel que les
classes sont reportées en abscisse et au-dessus de chacune d’elle un rectangle
d’aire égale ou proportionnelle à la fréquence de la classe est tracé.
2.1. DESCRIPTION D’UNE VARIABLE 19

Attention, ce sont les aires des rectangles qui sont importantes. Lorsque
les “bases” des rectangles sont identiques, “la hauteur” est alors proportion-
nelle à l’aire. Mais, dans quelques (rares) cas, les bases seront de longueurs
différentes et il faudra faire attention.
Remarque 3 Pour le cas d’une distribution statistique associée à une va-
riable discrète ((cj , nj ) pour 1 ≤ j ≤ k), l’histogramme des fréquences est le
graphique tel que les modalités cj sont reportées en abscisse et au-dessus de
chacun des cj un segment de hauteur égale ou proportionnelle à la fréquence
de la modalité est tracé.
La figure 2.1 montre l’histogramme des fréquences de la variable x de la
table 2.1. Nous n’avons pas utilisé la règle de Sturges puisqu’un découpage
en intervalles centrés autour des notes possibles est plus naturel.
Histogram of temps
8
6
Frequency

4
2
0

10 20 30 40

temps

Figure 2.1 – Histogramme des fréquences de la variable x de la table 2.1

Remarque 4 On rencontre parfois un type particulier d’histogramme ap-


pelée tige et feuille (“stem and leaf ”) dont un exemple (représentation de la
variable x de la table 2.1) est présenté ci-après.
0 55555
1 000000000
1 5555
2 000
2
3 0000
3
4 0
20 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

Cette représentation consiste en un histogramme dont la représentation


sépare dizaine (à gauche) et unité (à droite), chaque unité étant répété autant
de fois qu’il y a d’éléments (dans l’exemple ci-dessus, il y a 5 élément qui
valent 5, 9 qui valent 10, . . ., 0 qui valent 25, . . .).

Indiquons aussi qu’une distribution statistique peut être représentée par


un camembert. La figure 2.2 représente le camembert de la variable x de la
table 2.1.

Définition 5 Un camembert est un disque dont les parts sont égales ou pro-
portionnelles à la fréquence de la classe associée.

10

40

15 30

20

Figure 2.2 – Camembert des fréquences de la variable x de la table 2.1

Définition 6 On appelle graphique des fréquences cumulées pour une dis-


tribution statistique donnée ((]aj−i , aj ], nj ) pour 1 ≤ j ≤ k), le graphique tel
que les classes sont reportées en abscisse et au-dessus de chacune d’elle un
rectangle de hauteur égal à Fi est tracé.

La figure 2.3 est un exemple de graphique des fréquences cumulées.


2.1. DESCRIPTION D’UNE VARIABLE 21

ecdf(temps)

1.0
0.8
0.6
Fn(x)

0.4
0.2
0.0

10 20 30 40

Figure 2.3 – histogramme des fréquences cumulées de la variable x de la


table 2.1

2.1.2 Valeurs centrales


Aussi appelées paramètres de positions, les valeurs centrales sont des
nombres autour desquels se répartissent les valeurs observées de la variable
considérée. C’est autour d’elles que sont calculés les paramètres de dispersion.
Il y a essentiellement deux paramètres de positions pour une variable : la
moyenne et la médiane.

Définition 7 La moyenne x̄ d’une variable x est définie par l’expression :


1 X
x̄ = xi
n 1≤i≤n

La moyenne de la variable x de la table 2.1 est par exemple égale à 15.19.


Pour définir la médiane, il faut tout d’abord ranger les éléments de X par
ordre croissant. Si l’on note x1 , x2 , . . ., xn les n valeurs prises par la variable
x, on notera x(1) , x(2) , . . .x(n) ces mêmes éléments rangés par ordre croissant
(si, par exemple, x1 = 12, x2 = 1 et x3 = 1 on aura x(1) = 1, x(2) = 1 et
x(3) = 12).

n+1
Définition 8 Si on note m et d la partie entière et décimale de 2
, la
médiane me(x) de la variable x est définie par :

me(x) = x(m) + d(x(m+1) − x(m) )


22 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

Par exemple, la médiane de la variable x de la table 2.1 est 10.0. Cette


définition implique des résultats différents selon la taille de n. Si n est impair,
d = 0 et la médiane est une des valeurs de la variable et si n est pair, la
médiane vaut la moyenne des deux valeurs centrales.

Remarque 5 On trouve dans la littérature d’autres définitions de la médiane


pour n pair, par exemple prendre pour médiane n’importe quelle valeur entre
les deux valeurs centrales (ce qui implique que la médiane peut être l’une
ou l’autre des deux valeurs centrales) ou tout simplement rendre l’intervalle
entre les deux valeurs.

Enfin, on définit la classe modale, qui est un paramètre de position associé


à une distribution statistique.

Définition 9 On appelle classe modale mo(x) d’une distribution statistique


(]aj−i , aj ], nj ) (pour 1 ≤ j ≤ k) d’une variable x est l’intervalle ]ai−1 ai ] tel
que ni = max1≤j≤n {nj }

Pour la distribution statistique de la figure 2.1, la classe modale est


]7.5, 12.5]
Les quantités qui viennent d’être “parachutées” peuvent être introduites
de manière géométrique. Pour ce faire, ordonnons totalement et arbitrai-
rement les éléments de X (on parlera alors du iième individu). À chaque
variable quantitative x est associé le vecteur ~v (x) de Rn dont la coordonnée
sur le iième individu est xi . Pour résumer x en une seule valeur on cher-
chera à déterminer un nombre réel a tel que a~i “approche au mieux” ~v (x) (~i
désignant le vecteur dont toutes les coordonnées valent 1). Techniquement,
on munira Rn d’une norme || • || et on cherchera l’élément a ∈ R solution du
problème :
min ||~v (x) − a~i||
a∈R

1. Pour la norme || • ||1 (||~v (x)||1 = i n1 |xi |) la médiane de x est solution


P
du problème,
2. Pour la norme euclidienne || • ||2 (||~x(x)||22 = i n1 |xi |2 ), la moyenne x̄
P
est l’unique solution du problème,
3. Pour la norme uniforme || • ||∞ (||~v (x)||∞ = maxi xi ), la solution du
problème est la moyenne des valeurs extrêmes 21 (mini xi − maxi xi ).
4. Plus généralement, on appellera valeur centrale d’ordre q de la va-
riable x toute solution du problème pour la norme || • ||q (||~v (x)||q =
1
( i n1 |xi |q ) q ).
P
2.1. DESCRIPTION D’UNE VARIABLE 23

2.1.3 Paramètres de dispersion


Les paramètres de dispersion sont des nombres permettant de mesurer
l’amplitude des variations autour d’une valeur centrale.
Les paramètres de dispersion que nous définirons dans cette partie sont
essentiellement de deux types : ceux liés (de près ou de loin) à la variance,
et ceux liés à la répartition des valeurs (les quartiles).

Définition 10 La variance d’une variable est le nombre s2 (x) défini par


l’expression :
1 X
s2 (x) = (xi − x̄)2
n 1≤i≤n

La racine carrée de s2 (x), notée s(x) est appelé écart-type de la variable.

On peut P(facilement) démontrer que la variance est également égal à


1
2
s (x) = ( n 1≤i≤n xi ) − (x̄)2 , formule plus pratique lorsque l’on doit calculer
2

une variance à la main.

Remarque 6 Attention : il ne faut pas confondre variance et variance


corrigée. La variance corrigée s2c (x) définie par l’expression :
1 X n 2
s2c (x) = (xi − x̄)2 = s (x)
n − 1 1≤i≤n n−1

est un estimateur et non un paramètre de dispersion.

Estimateurs et variance corrigée

Pour comprendre la remarque ci-dessus, il faut parler un peu de statistique


et d’estimateurs. En statistique, on considère le plus souvent une variable
définie sur une population bien plus importante que l’échantillon dont on
dispose (par exemple le solde en banque de toute la population française
par rapport à un échantillon d’une centaine de personnes). L’ensemble de
la population est alors une variable aléatoire X qui possède une moyenne
µ(X) (appelée espérance mathématique) et une variance σ 2 (X) définie telle
que σ 2 (X) = µ((X − µ(X))2 ). Par linéarité de l’opérateur µ() on montre
facilement que σ 2 (X) = µ(X 2 ) − (µ(X))2 .
Le problème est alors d’estimer µ(X) et σ 2 (X) alors que nous ne possédons
que n valeurs xi prises par la variable aléatoire X. Chaque valeur xi étant
également une variable aléatoire de mêmes paramètres que X.
On appelle alors estimateur de la moyenne µ(X) (resp. de la variance
2
σ (X)) une suite (Tn ) fonction de (x1 , . . . , xn ) telle que pour tout  > 0 la
24 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

probabilité que |Tn − µ(X)| >  (resp. |Tn − σ 2 (X)| > ) tend vers 0 lorsque
n tend vers l’infini.
Dans le cadre de ce cours, on admettra que x̄ et s2 (x) sont des estimateurs
de µ(X) et σ 2 (X) respectivement.
Il existe cependant une foultitude d’estimateurs de moyenne et de va-
riance, parmi ceux existant, on peut essayer de dégager des estimateurs
meilleurs que d’autres. On peut pour cela se baser sur le biais.
Le biais d’un estimateur Tn de la quantité θ est :

µ(Tn − θ)

Un estimateur est dit sans biais si µ(Tn −θ) = 0 (c’est à dire si sa moyenne
est égale à ce qu’il estime) et asymptotiquement sans biais si lim µ(Tn −θ) = 0.
Calculons le biais de nos estimateurs. Commençons par l’estimateur de
la moyenne :
1
P
µ(x̄ − µ(X)) = µ(P n 1≤i≤n xi − µ(X))
1
= n P1≤i≤n µ(xi ) − µ(X)
= n1 1≤i≤n µ(X) − µ(X)
= 0

L’estimateur x̄ est donc un estimateur sans biais de la moyenne µ(X).


En ce qui concerne la variance :
µ(s2 (x) − σ 2 (X)) = µ( n1 P1≤i≤n (xi − x̄)2 − σ 2 (X))
P
1 2 2 2
= µ(P n 1≤i≤n (xi ) − (x̄) − σ (X))
= n1 1≤i≤n µ(x2i ) − µ(x̄2 ) − σ 2 (X)

En utilisant le fait que σ 2 (Y ) = µ(Y 2 ) − (µ(Y ))2 pour toute variable


aléatoire Y , on en déduit que σ 2 (xi ) = µ(x2i ) − µ(xi )2 et que σ 2 (x̄) = µ(x̄2 ) −
(µ(x̄))2 . Comme x̄ est un estimateur sans biais de µ(X) que σ 2 (xi ) = σ 2 (X)
et que µ(xi ) = µ(X), on a :

µ(s2 (x) − σ 2 (X)) = −σ 2 (x̄)

Les variables xi étant indépendantes :


σ 2 (x̄) = σ 2 ( n1 P1≤i≤n xi )
P
= n12 σ 2 ( 1≤i≤n xi )
= n12 (nσ 2 (xi ))
= n1 σ 2 (X)
Finalement :
1
µ(s2 (x) − σ 2 (X)) = − σ 2 (X)
n
2.1. DESCRIPTION D’UNE VARIABLE 25

L’estimateur s2 (x) est donc seulement asymptotiquement sans biais, sa


moyenne étant égale à n−1
n
σ 2 (X) et donc sous-estime constamment la véritable
variance de X.
En refaisant les calculs avec s2c (x) on se rend compte que µ(s2c (X)) =
σ 2 (X) et donc qu’il est sans biais.
Lorsque les (xi ) sont un échantillon d’une population plus grande on a
coutume d’utiliser la variance corrigée s2c (x) puisqu’elle est sans biais. Cepen-
dant dans le cas qui nous occupe, les (xi ) représentent la population en son
entier, sa variance est donc égale à s2 (x) et nous n’avons pas à nous soucier
de la variance corrigée.

Comparaisons de variances

Une variance ne peut être comparée (et interprétée) que par rapport à une
autre variance puisque c’est la moyenne des carrés des écarts à la moyenne.
En pratique, c’est l’écart-type qui est le plus utilisé car il s’exprime avec la
même unité que la variable, et donc que sa moyenne. On peut ainsi combiner
écart-type et moyenne pour obtenir un paramètre de dispersion appelé coef-
ficient de variation qui représente une variabilité relative de la variable (au
contraire de l’écart-type qui représente une variabilité absolue). De la même
manière que l’on peut définir les valeurs centrales par rapport à des normes
Lq (cf. 2.1.2), si l’on considère la quantité

∆q (x) = ||~v (x) − c~i||q

où c est une valeur centrale d’ordre q de x, l’écart type de x est exactement
∆2 . Cette quantité représente en quelque sorte “l’erreur” entre les variables
et sa représentation par une valeur centrale.

Autres paramètres de dispersion

Définition 11 Le coefficient de variation cv(x)est défini par l’expression :

s(x)
cv(x) = 100

Si la population est plus grande que l’échantillon considéré, le coefficient


de variation utilise sc (x) et non plus s(x), il est alors défini par l’expression :
cv(x) = 100 scx̄(x) .
26 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

L’étendue d’une variable qui est le paramètre de dispersion e(x) défini par
la différence entre la plus grande et la plus petite valeur de la variable étant
très sensible aux valeurs extrêmes, on préférera utiliser les quartiles pour
calculer la répartition des valeurs.

Définition 12 On défini les quartiles comme suit. Soient m et d les parties


entières et décimales de n+1 4
et m0 et d0 les parties entières et décimales de
3(n+1)
4
. On notera, comme en 2.1.2, x(1) , x(2) , . . ., x(n) les valeurs de x rangées
par ordre croissant.
– le premier quartile noté q0,25 (x) est défini par l’expression : q0,25 (x) =
x( m) + d(x(m+1) − x(m) ),
– le deuxième quartile noté q0,5 (x) est égal à la médiane de x,
– le troisième quartile noté q0,75 (x) est défini par l’expression : q0,75 (x) =
x(m0 ) + d0 (x(m0 +1) − x(m0 ) ).
L’étendue inter-quartile IQR(x) étant défini par IQR(x) = q0,75 − q0,25 .

Ces paramètres de dispersion permettent de définir des intervalles où se


trouvent un pourcentage donné de valeurs. Par exemple, il y a 25% des valeurs
en dessous de q0,25 , entre q0,25 et q0,5 , entre q0,5 et q0,75 , et au-dessus de q0,75 .
De même, il y a 50% des valeurs de la variable au-dessous de q0,5 , au-dessus
de q0,5 et dans IRQ(x).
Si l’on veut raffiner (d’aucun diraient chipoter), on peut de la même
manière définir des déciles (on découpe en dixième et non plus en quart) ou
des centiles (on découpe en centième).

2.1.4 Boı̂te à moustaches


La boı̂te à moustache (encore appelée boxplot) est un graphique permet-
tant d’observer globalement les paramètres de position et de dispersion.

Définition 13 Une boı̂te à moustache est un graphique constitué de deux


axes : l’axe vertical, muni d’une échelle numérique qui correspond aux valeurs
de la variable observée et l’axe horizontal, sans échelle. Un segment horizon-
tal (de longueur arbitraire) est tracé en regard de la médiane, puis une boı̂te
est reportée avec les côtés supérieur et inférieur en regard de q0,75 et q0,25 res-
pectivement. Enfin, deux segments verticaux sont tracé vers l’extérieur de la
boı̂te (les moustaches) joignant le milieu du côté supérieur (resp. inférieur) à
la plus grande (resp. la plus petite) valeur inférieure ou égale (resp. supérieure
ou égale) à q0,75 + 23 IQR(x) (resp. q0,25 − 32 IQR(x)).

On peut également rajouter deux points marquant les valeurs les plus
extrêmes si elles ne sont pas dans les moustaches, et un autre point en regard
2.2. DESCRIPTION DE DEUX VARIABLES 27

40
30
20
10
0

temps erreurs

Figure 2.4 – boı̂te à moustaches des variables x et y de la table 2.1

de la moyenne. La figure 2.4 montre ce type de graphique pour les variables


x et y de la table 2.1, ou pourra remarquer que la médiane de x est égale à
q0,25 et est très différente de la moyenne.
Les extrémités de la boı̂te à moustache sont appelées valeurs adjacentes,
et lorsque qu’une valeur se trouve au-delà des valeurs adjacentes, elle peut
être considéré comme extrême et peut éventuellement être omise.

2.2 Description de deux variables


L’espace de représentation associé à nos objets est ici l’ensemble R2 , tout
xi ∈ X est donc un couple de réels xi = (x1i , x2i ). La table 2.1 est un exemple
de ce type d’espace de représentation. Ceci revient à considérer un ensemble
X d’objets par deux variables réelles, x et y par exemple.

2.2.1 Nuage de points et régression linéaire


Supposons que l’on cherche à décrire l’ensemble X d’objets décrit par
deux variables réelles x et y. On appellera champ du couple (x, y) l’ensemble
K = {(xi , yi )|1 ≤ i ≤ n} que l’on peut représenter dans le plan par n points
Mi d’abscisse xi et d’ordonnée yi , le centre de gravité du nuage étant bien
évidemment le point G = (x̄, ȳ). La figure 2.5 montre le graphique associé à
la table 2.1 du nombre d’erreurs commises par rapport au temps mis pour
effectuer l’examen, le centre gravité du nuage étant représenté par un ’+’.
Un simple regard sur le nuage peut informer sur l’existence et la forme
d’une éventuelle liaison entre les deux variables. On peut par exemple cher-
28 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Figure 2.5 – nuage de points de la table 2.1

cher à déterminer une éventuelle liaison linéaire entre les deux variables (le
nuage a tendance à s’étirer le long d’une droite), on peut alors tenter d’ex-
pliquer la variable y (appelée variable expliquée) par la variable x (appelée
variable explicative). On cherche ainsi à déterminer s’il existe deux réels a et
b tels que pour tout 1 ≤ i ≤ n : yi ' a + bxi .
La manière la plus courante pour arriver à nos fins est d’utiliser la méthode
des moindres carrés, c’est à dire trouver deux réels a et b qui réalisent le mi-
nimum de :
n
X 1
h(a, b) = (yi − a − bxi )2 = ||~v (y) − ~v (ax + b)||22
i=1
n

Le nombre h(a, b) est appelé résidu quadratique. Il quantifie l’écart de nos


données par rapport à la droite sensée les représenter. Trouver le minimum
de h(a, b) se fait simplement en utilisant la méthode dite “gros bourrin” : on
dérive par rapport à a et b.
On a alors :
∂h(a, b) 1X
= −2 (yi − a − bxi ) = −2y + 2a + 2bx
∂a n i
∂h(a,b)
De là, ∂a
= 0 implique que :
a = y − bx

∂h(a,b)
= −2 n1P i xi (yi − a − bxP
P
∂b i)
1
= −2[ i xi yi − ax − b n i x2i ]
2.2. DESCRIPTION DE DEUX VARIABLES 29

En remplaçant a par y − bx, on obtient alors :


∂h(a,b) P 1
P 2
∂b
= −2[Pi 1 x i yi − (y − bx)x − b n i xi ]
2 1 2
P
= −2[ P i n (x y
i i − xy) + b(x − n i xi )]
= −2[ n1 i (xi − x)(yi − y) + bs2 (x)]

On pose alors cov(x, y) = n1 1≤i≤n (xi − x̄)(yi − ȳ) (appelée covariance


P

de x et de y), et l’équation ∂h(a,b)


∂b
= 0 conduit à :

cov(x, y)
b=
s2 (x)

Remarque 7 La covariance est une généralisation de la variance pour deux


variables. Elle permet de voir comment varie une variable par rapport à
l’autre. Une valeur positive de covariance entre x et y montre que lorsque x
augmente (resp. diminue) y à tendance à augmenter (resp. diminue) également
et une valeur négative de la covariance montre qu’en général si x augmente
(resp. diminue) y va diminuer (resp. augmenter). On a de plus que cov(x, x) =
s2 (x) ≥ 0.

La droite obtenue est appelée droite de régression linéaire de y par x


et possède la propriété de passer par le centre de gravité du nuage (i.e.
ȳ = ax̄ + b). Le résidu quadratique vaut alors :
 2 !
cov(x, y)
h(a, b) = s(y)2 1 −
s(x)s(y)

La qualité de la régression sera d’autant meilleure que ce résidu est faible.


Pour cela, deux facteurs seront prédominants :
– un faible écart-type de la variable y,
– une forte valeur de cov (x,y)
s(x)s(y)
La figure 2.6 reprend le nuage de la figure 2.5 en y ajoutant la droite de
régression linéaire. On a a = −0.85 et b = 0.33.

2.2.2 Corrélation linéaire et axe principal


Dans la partie précédente, on a choisi d’expliquer une variable (la va-
riable y de la table 2.1) par une autre (la variable x de la table 2.1). Ce
choix peut paraı̂tre arbitraire puisque l’on aurait pût tout aussi bien tenter
d’expliquer la variable x par la variable y et obtenir une droite de régression
différente, comme le montre la figure 2.7 où les deux droite de régression sont
superposées.
30 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Figure 2.6 – droite de régression linéaire de la table 2.1


12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Figure 2.7 – les deux droites de régression linéaires de la table 2.1


2.2. DESCRIPTION DE DEUX VARIABLES 31

Comme vue dans la partie 2.2.1, les deux droites de régressions linéaires
passent par le centre de gravité du nuage, les deux droites sont alors égales
si et seulement si leurs pentes le sont. Comme x = a0 + b0 y est équivalent à
0
y = − ab0 + b10 x, les pentes des droites de régression y = a + by et x = a0 + b0 y
sont égales si et seulement si b = b10 , c’est à dire si et seulement si :
 2
cov(x, y)
=1
s(x)s(y)

On note r(x, y) la quantité cov (x,y)


s(x)s(y)
= r(x, y) et on l’appelle (fort juste-
ment) coefficient de corrélation linéaire. On peut prouver que |r(x, y)| ≤ 1
quelques soient x et y et que |r(x, y)| = 1 si et seulement si les points (xi , yi )
(1 ≤ i ≤ n) sont alignés.

Remarque 8 Une valeur de r(x, y) proche de 1 signifie donc que si x aug-


mente, y augmente également de façon linéaire (et que si y augmente, x
augmente également) et une valeur de r(x, y) proche de -1 signifie que si x
augmente, y décroı̂t (et réciproquement).

En fait, plus r2 (x, y) est proche de 1, plus le nuage de points se concentre


autour d’une droite passant par le centre de gravité du nuage et ayant une
pente intermédiaire entre la droite de régression de y par x et la droite de
régression de x par y. Cette droite est appelée axe principal.
L’axe principal peut s’obtenir directement en changeant la droite à op-
timiser. Soit D une droite d’équation y = aD + bD x. Chercher la droite de
régression de y par x revient à chercher la droite Dy qui minimise la somme
des carrés des écarts |yi − aD − bD xi | (le segment vertical en pointillé sur la
figure 2.8). De la même manière chercher la droite de régression de x par y
revient à chercher la droite Dx qui minimise la somme des carrés des écarts
|xi + abDD − b1D yi | (le segment horizontal en pointillé sur la figure 2.8).
On voit bien par là que la régression de y par x et la régression de x
par y ne permet d’obtenir la même droite que si les points sont déjà alignés.
L’axe principal est le résultat d’une autre forme d’optimisation : on cherche
la droite D∗ qui minimise la somme des carrés des distances des points (xi , yi )
à la droite (le segment en gras sur la figure 2.8).
La figure 2.9 montre le nuage de points de la table 2.1, les deux droites
de régressions (en traits pleins) et l’axe principal (en pointillés).

Les quantités que nous venons d’introduire s’interprètent dans Rn muni de


la norme euclidienne. cov(x, y) est le produit scalaire de ~v (x)− x̄~i et ~v (y)− ȳ~i.
r(x, y) est le cosinus de l’angle de ~v (x) − x̄~i et ~v (y) − ȳ~i. L’alignement dans
32 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

(xi,yi)

droite D

Figure 2.8 – Les différentes optimisations par rapport à D


12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Figure 2.9 – droites de régression linéaires et axe principal de la table 2.1


2.2. DESCRIPTION DE DEUX VARIABLES 33

Table 2.2 – Tableau de contingence de la table 2.1


x\ y 0 1 2 3 4 5 6 8 10 12 total ligne
5 4 1 0 0 0 0 0 0 0 0 5
10 1 0 3 4 0 1 0 0 0 0 9
15 0 0 0 1 2 1 0 0 0 0 4
20 0 0 0 0 0 0 2 0 1 0 3
30 0 0 0 0 0 1 0 1 2 0 4
40 0 0 0 0 0 0 0 0 0 1 1
total colonne 5 1 3 5 2 3 2 1 3 1 26

R2 du nuage correspond à la colinéarité dans Rn des vecteurs définis par les


variables, la corrélation nulle correspond à l’orthogonalité, dans ce dernier
cas on dit que les variables sont indépendantes.

2.2.3 Test d’indépendance du χ2


Avant de commencer l’analyse proprement dite d’un jeu de données (i.e.
trouver une structure, des relations entre les données), la première question
à se poser est : suis-je en droit de le faire ?
Il se peut en effet qu’il n’y ait strictement rien à trouver, que la distribu-
tion des valeurs soit totalement aléatoire.
Pour vérifier cela, on commence par construire un tableau de contingence.
Un tableau de contingence de deux variables x et y possède autant de lignes
que x a de valeurs différentes (notées vx1 , . . . vxp ) et autant de colonnes que
y a de valeurs différentes (notées vy1 , . . . , vyq ). Une case Cij correspond alors
au nombre d’éléments (xm , ym ) de X tels que xm = vxi et ym = vyj , chaque
élément de X se retrouve dans une et une seule case du tableau.
La table 2.2 donne le tableau de contingence de la table 2.1. En divisant
chaque case par le cardinal de X (ici 26), on obtient les différentes fréquences
d’apparitions des modalités.
Si les deux variables mises en jeu étaient indépendantes, la fréquence
d’apparition de la modalité vxi et vyj serait égale à la fréquence d’apparition
de la modalité vxi multipliée par la fréquence d’apparition de vyj .
P P C
Ainsi en posant Ci• = j Cij et C•j = i Cij , plus les nij sont éloignés de
Ci• C
n
× n•j , plus les deux variables sont dépendantes, et ainsi, plus la recherche
de structures entre ces variables est légitime.
34 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

On calcul la quantité :
 2
Ci• C•j
X Cij −
" #
n X Cij2
D2 = Ci• C•j
=n −1
i,j i,j
C i• C •j
n

Si les deux variables sont indépendantes D2 sera proche de 0 et au contraire


si les variables sont liées, D2 sera grand. On peut quantifier cette liaison entre
variable en utilisant les statistiques.
Les valeurs Cij du tableau sont alors considérées comme des valeurs d’une
variable aléatoire C dont on ne connaı̂t pas la loi. Si D2 est petite, il y a toute
les chances que la loi régissant C soit le produit de deux lois indépendantes,
l’une régissant les lignes l’autre les colonnes. Si c’est le cas, D2 est une variable
aléatoire dont on connaı̂t la loi : elle suit une loi du χ2 à (p − 1)(q − 1) degrés
de liberté. Par abus de notation au appellera par la suite χ2 d’un tableau de
contingence la quantité D2 .
La densité de probabilité f (x) d’une loi du χ2 à n degré de liberté est
égale à :
1 −x/2 n/2−1

2n/2 Γ(n/2) e x si x > 0
f (x) =
0 sinon
R +∞ z−1 −t
avec Γ(z) = 0 t e dt qui est appelée fonction gamma.
L’espérance et la variance d’une variable aléatoire X suivant une loi du
χ à n degrés de liberté est µ(X) = n et σ 2 (X) = 2n. La figure 2.10 montre
2

la densité de probabilité d’une loi du χ2 à 4 degrés de libertés.

densité de probabilité
0.15
densité

0.10
0.05

0 20 40 60 80 100 120

valeur

Figure 2.10 – Densité de probabilité du χ2 à 4 degrés de liberté.


2.2. DESCRIPTION DE DEUX VARIABLES 35

Dans notre exemple, p = 10 et q = 6 et donc si les deux variables sont


indépendantes, D2 suit une loi du χ2 à 45 degrés de liberté. Dans ce cas là,
D2 à 99% de chances d’être compris entre 0 et 70 (l’intégrale de la fonction
de densité entre 0 et 70 vaut 0.99). Il y a donc moins d’1% de chance que la
valeur de D2 soit plus grand que 70. On trouve que D2 = 95.3, qui est une
valeur très hypothétique si D2 suivait une loi du χ2 . On a donc moins d’1% de
chance de se tromper en rejetant l’hypothèse d’indépendance, risque que l’on
peut prendre : on considère alors que nos données ne sont pas indépendantes,
ce qui légitime une analyse.
36 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES
Chapitre 3

Analyse en composantes
principales

On s’intéressera dans ce chapitre aux objets de X décrits par p variables


réelles. L’espace de représentation associé est ainsi Rp .

3.1 Exemple avec les mains


Lorsque la population à étudier est décrite par deux variables, la simple
lecture de leurs valeurs (du nuage produit) peut éventuellement fournir une
idée de l’intensité de la liaison entre les deux variables, comme le montre la
figure 3.1.

y y y

x x x
Absence de liaison Forte liaison Trois groupes homogènes

Figure 3.1 – Formes particulières de nuages

L’étude visuelle du nuage ne donne cependant que rarement toute l’in-


formation désirée. L’exemple fil rouge du chapitre 2 (table 2.1) est à cet
égard significatif. Le coefficient de corrélation linéaire élevé (r(x, y) = 0.9)
conduisant à une explication linéaire des données. Si l’on cherche mainte-
nant à étudier le “comportement” de notre population d’étudiants, on peut

37
38 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

imaginer deux formes de nuages présentant une forte corrélation (figure 3.2).
erreurs erreurs

temps temps
Nuage 1 Nuage 2

Figure 3.2 – Formes particulières de nuages

Le premier nuage de la figure 3.2 ordonne, grosso modo, les individus


selon leur “aptitude” à l’épreuve (peu de temps et peu d’erreurs s’opposant
à beaucoup de temps et beaucoup d’erreurs).
L’ordre traduit par le deuxième nuage de la figure 3.2 peut sembler moins
clair aux profanes que nous sommes, mais un psychologue l’interpréterait en
terme d’“attitude” (on prend son temps et on fait bien s’opposant à on bâcle
et on fait mal).
Partant de nos données, on est parvenu à dégager deux variables per-
tinentes pour décrire le comportement de notre population : l’attitude et
l’aptitude. Remarquons que celles-ci décrivent des phénomènes que l’on sup-
pose (au moins intuitivement) indépendants : les deux axes déterminés sont
orthogonaux.
Appelons facteurs nos deux nouvelles variables (elles remplacent les va-
riables “temps” et “erreurs”), ils seront d’autant plus pertinents avec nos
données que nos variables d’origines ont une forte corrélation avec au moins
un de nos nouveaux axes (l’autre axe étant obtenu par orthogonalité).
Reste à extraire les facteurs. On peut pour cela faire une analogie avec la
mécanique. Si l’on assimile nos objets à des points matériels, la droite la plus
proche du nuage de points est celle qui correspond à l’axe principal d’inertie
du nuage. Cet axe est exactement l’axe principal définie en 2.2.2.
Cet exemple à deux variables montre le but de l’analyse en composantes
principale : déterminer des axes pertinents pour l’explication des corrélations
entre variables.

3.2 Principe de la méthode (sans les mains)


Si l’analyse visuelle du nuage peut nous permettre, soit de dégager direc-
tement la structure, soit de déterminer des axes pertinents, lorsque les objets
3.2. PRINCIPE DE LA MÉTHODE (SANS LES MAINS) 39

sont décrits par plus de trois variables (sinon, on peut toujours représenter le
nuage dans l’espace), la représentation graphique devient impossible. Ainsi,
les dix catégories socioprofessionnelles de la table 1.1 sont représentables dans
un espace à six dimensions (ce qui graphiquement commence à faire mal aux
yeux). Si l’on veut cependant obtenir une représentation graphique plane de
la table 1.1, on peut projeter les points de l’espace à p dimensions sur un
plan (à deux dimensions). Il faut cependant choisir judicieusement le plan
de projection pour que les distortions par rapport à l’espace originel soient
minimales.

Soient xi et xj deux éléments de X et d(xi , xj ) la distance de l’un à


l’autre dans Rp . En projetant ces éléments sur un plan, la distance entre les
deux projections d(p(xi ), p(xj )) est plus petite que d(xi , xj ), on se fixera donc
comme critère de choix de plan, celui qui maximise la moyenne des carrés
des distances entre les projections.

On peut déterminer un plan par deux droites D1 et D2 orthogonales


entre elles. De part la relation de Pythagore, la distance au carré entre
deux points projetés sur ce plan est égal à la somme des deux distances
au carré des projections des points sur les deux droites : d2 (p(xi ), p(xj )) =
d2 (αi , αj ) + d2 (βi , βj ) (avec αk et βk les projetés de xk (1 ≤ k ≤ n) sur D1 et
D2 respectivement).

Le plan maximisant la moyenne des carrés des distances entre les pro-
jections, appelé plan principal peut donc être déterminé itérativement. On
commence par chercher la droite D1 maximisant la moyennes des d2 (αi , αj ),
puis une droite D2 , orthogonale à D1 maximisant la moyenne des d2 (βi , βj ).
On peut alors continuer le processus et trouver p droites orthogonales entre
elles formant une nouvelle base de Rp , appelés axe principaux du nuage.

La meilleure représentation des données en q < p dimension est alors la


projection de l’ensemble X sur les q premiers axes principaux. Ceci est la
méthode de l’analyse en composantes principale : remplacer la base cano-
nique de Rp par une base formé des axes principaux, représentant mieux les
données (pensez aux axes “aptitudes” et “attitude” du début du chapitre),
et permettre ainsi de réduire l’espace de représentation aux q axes les plus
représentatifs.

L’analyse en composantes principales est une méthode factorielle, car elle


réduit le nombre de caractères, non pas en éliminant tel ou tel variable jugée
non pertinente, mais en construisant de nouveaux axes, plus pertinents.
40 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.3 Reformulation des données


3.3.1 Matrice de données
Les n individus xi étant décrits par p variables (xi = (x1i , . . . , xpi )), on
peut, par abus de notation, noter X la matrice à n lignes et p colonnes
telle l’élément à la ligne i et colonne j soit xji . Si X représente l’espace des
individus, t X (la matrice transposée de X) représente l’espace des caractères,
chaque caractère étant représenté par les n individus qu’il décrit. On note
alors xj (1 ≤ j ≤ p) la ligne j de t X qui décrit le caractère j.
Le centre de gravité du nuage g = (x¯1 , . . . , x¯p ) est un individu, la plupart
du temps fictif, décrit par les moyennes respectives des différents caractères.
Dans l’exemple de la table 1.1, le centre de gravité du nuage vaut par
exemple g = (13.2, 11.6, 15.6, 20.1, 28.1, 11.4)
On dit qu’une variable est centrée si sa moyenne est nulle. Centrer des
variables revient à déplacer le centre du repère vers g et donc à retirer sa
moyenne à chaque caractère xi − x̄i .
On considérera par la suite que toute les variables sont centrées, ce qui
simplifie grandement les notations matricielles.

3.3.2 Poids des données


Dans les chapitres précédents, nous avons toujours considéré que le poids
de chaque donnée était le même. Ce n’est cependant pas toujours le cas. De
façon
P générale, à chaque objet xi (1 ≤ i ≤ n) est associé un poids pi tel que
i pi = 1.
Ces poids sont rassemblés dans une matrice diagonale D telle que D =
diag(p1 , p2 , . . . , pn ). On a donc, si D = (dij )1≤i,j≤n , dii = pi pour tout 1 ≤
i ≤ n et dij = 0 si i 6= j.
Dans le cas où tous les poids sont identiques, cette matrice est une matrice
diagonale d’ordre n égale à n1 In (In étant la matrice identité d’ordre n).

3.3.3 Matrices de description


On appelle matrice de variance la matrice carrée V contenant à la ligne
i et la ligne j la covariance entre la variable i et la variable j. Cette matrice
est symétrique et sa diagonale contient les variances des différentes variables.
Cette matrice peut être calculée par la formule :
3.3. REFORMULATION DES DONNÉES 41

s21 . . . s1j . . . s1p


 
.. .. 

 . . 
V = t XDX =  s2i sij sip 
 
.. . 
. .. 


s2p
où D est la matrice des poids des individus.
Pour obtenir la matrice de corrélation R, matrice carrée telle que r(xi , xj )
soit sur la ligne i et la colonne j, on note D 1 la matrice diagonale définie
s
telle que :
1
 
s1
 .. 
 . 0 
1
 
D1 =  si

s  
..
.
 
 0 
1
sp

On a alors :
 
1
...
r(xi , xj )
 
 
R = D1 V D1 =  1
 
s s

 .. 
 . 
1
La matrice de corrélation possède une diagonale de 1 puisqu’il n’y a pas
plus corrélé qu’une variable avec elle-même. La matrice de corrélation de
la table 1.1 est présenté dans la table 3.1. On peut déjà remarquer que la
variable représentant les livrets (LIV) est très fortement corrélée avec la va-
riable représentant l’épargne obligatoire, alors que la pierre (PIE) ne l’est
que très peu avec les placements (POA).

3.3.4 Réduction des données


Le choix de la distance à utiliser est primordiale dans toute analyse
de données, car elle détermine les résultats obtenus. Un mauvais choix de
métrique conduit le plus souvent à de mauvais résultats.
Lorsque le repère utilisé est orthonormé, on est tenté d’utiliser une dis-
tance euclidienne classique et dans ce cas la distance (ici entre deux individus)
est : X
d2 (xi , xj ) = (xki − xkj )2
1≤k≤p
42 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Table 3.1 – Matrice de corrélation de la table 2.1


LIV 1
ELB 0.9127151 1
POA 0.6798236 0.7027894 1
ACT -0.6262121 -0.6785415 -0.4475890 1
PIE -0.5604978 -0.7667056 -0.5806489 0.3698211 1
TER -0.1230438 0.1016693 -0.1580415 -0.5950052 -0.2779655 1
LIV ELB POA ACT PIE TER

.
Si ce choix est adapté lorsque toutes les variables ont même unité, il
peut être préjudiciable dans notre cas, puisque chaque variable se définit par
rapport à sont unité propre (un homme pouvant être défini par son âge, son
salaire et bien sur la grosseur de sa voiture). Utiliser une métrique euclidienne
revient alors à mélanger les torchons et les serviettes.
Il est donc indispensable de trouver une métrique qui permette de com-
parer des individus décrits par des variables hétérogènes.
Pour éviter cet écueil, nos données (supposées centrées) sont réduites.
C’est à dire que chaque variable (les xj ) est divisée par son écart type. Ceci
a pour but qu’une fois réduites, l’écart type de chaque variable est égal à 1.
De manière matricielle, ceci revient à remplacer la matrice X par XD 1 .
s
Le principal avantage de cette métrique est que la distance entre individus ne
j
dépend plus des unités choisies puisque les nombres xsj sont sans unités. De
plus, elle accorde la même importance à chaque caractère quelque soit sa dis-
persion. Ne pas l’utiliser revient à accorder plus d’importance aux caractères
de forte dispersion qu’à ceux de faible dispersion.
Les écarts types des différentes variables de la table 1.1 sont représentés
dans le tableau ci-après :
LIV ELB POA ACT PIE TER
6.545567 4.087923 4.115013 12.041133 7.607745 10.319345
Remarque 9 Lorsque des données sont centrées et réduites, les matrices V
et R sont identiques, et D 1 = In .
s

Dans tout ce qui suivra, on supposera nos données centrées et réduites.

3.4 Recherche des sous-espaces principaux


On considère ici une matrice de données X à n lignes et p colonnes centrée
et réduite. On utilisera dans ce qui suit la distance, et donc la norme, eucli-
3.4. RECHERCHE DES SOUS-ESPACES PRINCIPAUX 43

dienne usuelle. C’est à dire que ||xi ||2 = 1≤j≤p (xji )2 et que la distance entre
P

xi et xj est égale à ||xi −xj ||. De plus, en notant < xi , xk >= j xji xjk = xi t xj
P
(t xj est le transposé du vecteur ligne xj ) le produit scalaire entre xi et xk on
a que ||xi ||2 =< xi , xi >.
Le but recherché est de comprendre comment se comportent les données
les unes par rapport aux autres. Chaque donnée étant composée de p va-
riables, il est illusoire de rechercher une structure en “regardant” la matrice
X dans son ensemble. On cherche alors à réduire le nombre de paramètres
en espérant que l’erreur commise en considérant un nombre de variables
inférieure à p soit négligeable devant le gain en interprétabilité.
Nos données étant des points (au nombre de n) de l’espace Rp , réduire le
nombre de variable peut s’effectuer en projetant nos points sur un sous-espace
de Rp . Pour que ce sous-espace ait un sens, il faut que les points projetés et
les points initiaux ne soient pas trop éloignés.
Pour écrire ça de façon formelle, notons p(xi ) la projection de l’individu
xi sur un sous-espace H de Rp . Le sous-espace H est d’autant meilleur pour
notre analyse que la quantité
X
pi ||xi − p(xi )||2
i

soit petite (pi est toujours le poids de l’individu i). En effet, si ||xi − p(xi )||
est petite, ceci signifie que le point et son projeté sont proches.
On appelle
P alors sous-espace principal un sous-espace de Rp minimisant
2
la quantité i pi ||xi − p(xi )|| .
La question étant maintenant, comment trouver cet espace ?
Pcaractériser complètement H, nous allons triturer un petit peut
Avant de
l’équation i pi ||xi − p(xi )||2 . Pour cela notons g le centre de gravité de nos
individus. Les données étant centrées, g est égal à l’origine du repère.
On peut alors écrire en utilisant Pythagore (figure 3.3) que :
X X X
pi ||xi − p(xi )||2 = pi ||xi − p(g)||2 − pi ||p(xi ) − p(g)||2
i i i
Or :
pi ||xi − p(g)||2 = Pi pi (||xi ||2 + ||p(g)||2 − 2P
P P
i < xi , p(g) >)
= Pi pi ||xi ||2 + ||p(g)||2 − 2 iPpi < xi , p(g) >
2 2
= Pi pi ||xi || + ||p(g)|| − 2 < i pi xi , p(g) >
2 2
= i pi ||xi || + ||p(g)|| − 2 < g, p(g) >

Comme g est égale à l’origine du repère on a < g, p(g) >=< 0, p(g) >= 0 et
donc finalement que :
X X
pi ||xi − p(g)||2 = pi ||xi ||2 + ||p(g)||2
i i
44 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

xi

p(xi) p(g)
H

Figure 3.3 – projection sur H

Cette relation est connue sous le nom de relation de Huygens.


De là :
X X X
pi ||xi − p(xi )||2 = pi ||xi ||2 + ||p(g)||2 − pi ||p(xi ) − p(g)||2
i i i

OnPse rend ainsi compte que puisque :


– Pi pi ||xi ||2 est une constante quelque soit H,
2
– i ||p(xi ) − p(g)|| est une constante pour tout sous-espace parallèle à
H,
– ||p(g)||2 = 0 si g = p(g).
Le sous-espace H que nous recherchons passe forcément par l’origine du
repère (c’est à dire lorsque p(g) = g = 0).
Notre problème devient ainsi : trouver un sous-espace H passant par
l’origine du repère maximisant la quantité :
X
pi ||p(xi )||2
i
P
On est donc passé de la recherche d’un sous espace H minimisant i pi ||xi −
p(xi )||2 à la recherche d’un sous-espace passant par l’origine maximisant
2
P
i pi ||p(xi )|| .

3.4.1 Un sous-espace à 1 dimension


Commençons par essayer de trouver un sous-espace principal
P à une di-
mension (une droite) D, passant par l’origine et maximisant i pi ||p(xi )||2 .
Si l’on connaı̂t un vecteur directeur u ∈ Rp de D on a, car nos données
sont centrées, que :
3.4. RECHERCHE DES SOUS-ESPACES PRINCIPAUX 45

 
p(x1 )
 .. 
 . 
Xu =  p(xi ) 
 
 . 
 .. 
p(xn )
Ainsi, matriciellement parlant :
2 t
P
i pi ||p(xi )|| = (Xu)D(Xu)
t t
= u XDXu
t
= uV u

Trouver D est donc équivalent à trouver un vecteur unitaire u de Rp


maximisant t uV u.
Trouver u peut se faire de plusieurs manières. La plus simple, mais la
moins intéressante, est d’annuler les dérivés partielles de t uV u. Mais comme
je suis un (énorme) fainéant, on va résoudre cette équation sans calcul.
Pour cela, on peut remarquer que la matrice V est symétrique et semi-
définie positive (i.e. ses valeurs propres sont positives). En effet, pour tout
vecteur de R , uV u est positif (puisque égal à i pi ||p(xi )||2 ). Si u est un
p t
P
vecteur propre de V de valeur propre λ, t uV u =t u(λu) = λt uu = λ||u||2 . On
en déduit que λ ≥ 0.
Or on sait (ou plus vraisemblablement , on savait) que les vecteurs propres
d’une matrice symétrique semi-définie positive forment une base orthonormée.
Soit alors u1 , u2 , . . ., up les vecteurs propres de V rangés par ordre décroissant
de leurs valeurs propres respectives (λ1 ≥ λ2 ≥ . . . ≥ λp ).
Tout vecteur unitaire u se décompose ainsi en u = α1 u1 + . . . + αp up .
De là :
t
uV u = t ( i αi ui )V ( j αj uj )
P P

= t ( i αi ui )( j αj V uj )
P P

= t ( i αi ui )( j αj λj uj )
P P
P P
= < i αi ui , j αj λj uj >
P P
= i (αi < ui , j αj λj uj >)
P P
= i( j (αi αj λj < ui , uj >))

Les ui formant une base orthonormée, on a alors :


t
P P
uV u = ( (α α λ < ui , uj >))
Pi 2 j i j j
= Pi (αi λi < ui , ui >)
= Pi (αi2 λi ||ui ||2 )
2
= i (αi λi )
46 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Comme λ1 ≥ λi pour tout i ≥ 1, on a du coup :


t
uV u = Pi (αi2 λi )
P
1
≤ Pi λ12)
i (α
≤ λ1 ( i α i )
≤ λ1 ||u||2
≤ λ1

Or pour u1 , t u1 V u1 =t u1 (λ1 u1 ) = λ1 t u1 u1 = λ1 ||u1 ||2 = λ1 .


On a donc finalement que :
– pour tout vecteur unitaire u, t uV u ≤ λ1 ,
– t u1 V u1 = λ1 .
La droite D maximisant i pi ||p(xi )||2 est donc de vecteur directeur u1 ,
P
vecteur propre de V associé à λ1 , la plus grande de ses valeurs propres.

3.4.2 Sous-espaces principaux à plus d’1 dimension


La partie précédente montre que Psi l’on veut2 trouver un sous-espace à 1
dimension maximisant la quantité i pi ||p(xi )|| pour des données centrées
et réduites, il faut prendre comme espace la droite de vecteur directeur u1 ,
vecteur propre associé à la valeur propre la plus grande de la matrice V =
t
XDX.
Mais qu’en est-il lorsque l’on cherche à maximiser la quantité i pi ||p(xi )||2
P
pour un espace de dimension quelconque ?
Une propriété des espaces orthogonaux va nous aider grandement. Soit
R = H ⊕ H ⊥ une décomposition de l’espace en somme directe de deux sous-
p

espaces orthogonaux. En notant pH (xi ) la projection de xi sur H et pH ⊥ (xi )


la projection de xi sur H ⊥ , on a clairement que :
X X X
pi ||xi ||2 = pi ||pH (xi )||2 + pi ||pH ⊥ (xi )||2
i i i

De plus :
Proposition 1 Si on désigne par mk l’ensemble des sous-espaces principaux
de dimension k, les deux assertions suivantes sont équivalentes :
(i) Hk+l ∈ mk+l
(ii) Hk+l = Hk ⊕ Hl , avec Hk ∈ mk , Hk sous espace de Hk+l , Hl ∈ ml et
Hk orthogonal à Hl .

Preuve. Pour plus de clarté, notons I(H) = i pi ||pH (xi )||2 .


P
(i) ⇒ (ii). Soit L ∈ ml et L orthogonal à Hk . On pose de plus Hk+l = Hk ⊕
Hl . On a alors I((Hk ⊕ L)⊥ ) = I(Hk⊥ ⊕ L⊥ ) = I(Hk⊥ ) + I(L⊥ ) et I(Hk+l ⊥
)=
3.4. RECHERCHE DES SOUS-ESPACES PRINCIPAUX 47

I(Hk⊥ )+I(Hl⊥ ). Comme I(Hk+l ) ≥ I(Hk ⊕L), il vient I((Hk+l )⊥ ) ≤ I((Hk ⊕


L)⊥ ). D’où I(Hl⊥ ) ≤ I(L) ce qui prouve que Hl ∈ ml .
(ii) ⇒ (i). Soit U ∈ mk+l , la dimension de U plus la dimension de Hk⊥
est égal à n + l, la dimension de U ∩ Hk⊥ est ainsi supérieure ou égal à l,
U contient un sous-espace V de dimension l et orthogonal à Hk . Il existe
de plus W tel que U = V ⊕ W et ainsi : I(U ⊥ ) = I(V ⊥ ) + I(W ⊥ ) et

I(Hk+l ) = I(Hk⊥ ) + I(Hl⊥ ) on en déduit ainsi I(U ) = I(Hk+l )

Cette proposition nous montre que trouver un sous-espace principal à k


dimensions peut se faire à partir de sous-espace à k − 1 dimensions. Connais-
sant un sous-espace principal H à k − 1 dimension, il suffit en effet de trouver
un sous-espace principal H 0 à 1 dimension dans l’orthogonal de H, et le sous-
espace H ⊕ H 0 est un sous-espace principal à k dimensions.
Trouver un sous-espace à 2 dimensions revient donc à trouver un sous-
espace à 1 dimension dans l’orthogonal de la droite engendrée par u1 .
On peut alors procéder comme dans la partie précédente. Un vecteur
unitaire u dans l’orthogonal de u1 va s’écrire α2 u2 +. . . αp up où les u1 , u2 , . . .,
up sont les vecteurs propres de V rangés par ordre décroissant de leurs valeurs
propres respectives (λ1 ≥ λ2 ≥ . . . ≥ λp ). Ceci puisque les ui (1 ≤ i ≤ p)
forment une base orthonormée de Rp .
En reproduisant le même raisonnement que précédemment, on conclut
que le vecteur recherché n’est rien d’autre que u2 .
On en conclut alors qu’un sous espace principal de dimension k est exac-
tement u1 ⊕ u2 ⊕ . . . ⊕ uk .

3.4.3 Axes principaux


On a vu que si l’on note u1 , u2 , . . . , up les vecteurs propres de V rangés par
ordre décroissant de leurs valeurs propres respectives (λ1 ≥ λ2 ≥ . . . ≥ λp ),
les sous espaces principaux de dimension k sont égaux à u1 ⊕ u2 ⊕ . . . ⊕ uk
pour des données centrées et réduites.
On appelle alors iième axe principal le sous-espace engendré par ui .
Les ui quant à eux sont appelé facteurs principaux.
Pour l’axe principal k (1 ≤ k ≤ p), on a alors :
– la projection p(xi ) de xi sur cet axe est égal à la iième ligne du vecteur
colonne Xuk ,
2
P
– i pi ||p(xi )|| =P
λk
De plus, on a que i pi ||xi ||2 = k λk puisque Rp = u1 ⊕ u2 ⊕ . . . ⊕ up .
P
48 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.5 Inertie et sous-espace principal


On appelle inertie du nuage la moyenne des carrées des distances des
points du nuage à son centre de gravité g. Les données étant centrée, l’inertie
I du nuage est alors : X
I= pi ||xi ||2
1≤i≤n

L’inertie est un paramètre de dispersion du nuage, puisqu’elle mesure


l’éloignement relatif des points par rapport à son centre de gravité. C’est une
variance non normée (on ne divise pas par le nombre de points). On peut de
plus montrer que
1 XX
I= pi pj ||xi − xj ||2
2 i j
en effet :
2
p p (||xi ||2 + ||xj ||2 − 2 < xi , xj >)
P P P P
i j pi pj ||xi − xj || =
Pi Pj i j
pi pj ||xi ||2 + i j pi pj ||xj ||2
P P
= i PjP
−2 i j pi pj < xi , xj >
= 2 i pi ||xi ||2 − 2 j < i pi xi , xj >
P P P

P
On conclut en remarquant que i pi xi est égal au centre de gravité du nuage
qui est égal à 0 puisque les données sont centrées.
On peut également définir l’inertie par rapport P à un autre point. L’inertie
par rapport à un point h est alors égale à Ih = 1≤i≤n pi ||xi − h||2 . Grâce à
la formule de Huygens, on peut montrer que :
Ih = I + ||g − h||2M = I + ||h||2
L’inertie par rapport à un point différent du centre de gravité est donc tou-
jours supérieure à l’inertie du nuage.
Les notions d’inertie et de sous-espace principal sont liés puisque les sous-
espaces principaux sont ceux qui maximisent l’inertie des projetés des indi-
vidus. De plus, on a que l’inertie totale du nuage est égale à la somme des
inerties des axes principaux (cf. partie précédente).
L’inertie tient donc le rôle de “l’information” du nuage, information répar-
tie dans tous les axes principaux. P
On a en effet que l’inertie du nuage est égale à : I = 1≤j≤p λj et que
l’inertie associée à l’axe principal j est égal à λj . De plus, comme la somme
des valeurs propres d’une matrice est égale à sa trace (i.e. la somme de
ses éléments diagonaux), on a également que I = trace(V ). Nos données
étant réduites, les éléments diagonaux de V sont tous égaux à 1 et donc
trace(V ) = p.
3.6. DESCRIPTION DU NUAGE DES INDIVIDUS 49

Chaque axe principal explique donc une part d’inertie étant égale à son
inertie divisée par l’inertie totale, cette quantité valant ici λpi .
La part d’inertie expliquée par le plan formé par les facteurs ui et uj est
égale à l’inertie des projetés sur ce plan divisé par l’inertie totale. Les ui
λ +λ
formant une base orthogonale de Rp , cette inertie expliquée vaut : i p j .

3.6 Description du nuage des individus


On rappelle que les facteurs principaux u1 , u2 , . . ., up sont les vecteurs
propres de la matrice V associés aux valeurs propres λ1 ≥ λ2 ≥ . . . ≥ λp .
Comme les ui forment une base orthonormée de Rp , ils tiennent lieu de nou-
veaux axes.
Pour cette nouvelle base, les coordonnées des individus sont alors égales
aux projections d’iceux sur les axes principaux. La projection des points sur
l’axe principal j étant égal au vecteur colonne Xuj (la projection du ième
points sur l’axe principal j est égal à la ième coordonnée de Xuj ).
On appelle alors composantes principales les vecteurs colonnes cj = Xuj
pour tout 1 ≤ j ≤ p (cf. figure 3.4).

1
x i x i

1 2
c i c i

1 2
u u
2
x i

Figure 3.4 – facteurs principaux, composantes principales

Remarque 10 Dans la nouvelle base, l’individu xi a donc pour coordonnées


(c1i , c2i , . . . , cpi ).
Les composantes principales sont ainsi les nouvelles variables, combinai-
sons linéaires des variables initiales.
En particulier :
1. chaque composante principale est une variable centrée : 1≤i≤n pi cji = 0
P
car cj est une combinaison linéaire des xj qui sont centrés,
50 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

2. la variance de cj vaut λj : pi (cji )2 = t cj Dcj = t uj t XDXuj =


P
1≤i≤n
t j
u V uj = λj .
On peut alors visualiser le nuage X sur le plan principal d’inertie qui
est le sous-espace principal de dimension 2, c’est à dire en ne prenant en
compte que les deux premières composantes principales, ou sur tout autre
sous-espace formé à partir des facteurs principaux.
La qualité de la représentation de X sur ces axes pourra alors être étudié
du point de vue global ou local.

Le point de vue global : on évalue la qualité de l’approximation du nuage


par un plan ou un axe. Cette qualité sera d’autant meilleure que l’inertie de
ce sous-espace est forte (ce qui signifie que les points seront globalement
proche de leurs projetés). L’inertie totale du nuage valant trace(V ) = p, on
introduit les parts d’inertie expliquée :
λ
– par l’axe uj qui vaut pj ,
λi +λj
– par le plan formé par les facteurs ui et uj et qui vaut p
,

Le point de vue local : plus le point xi est proche du sous-espace H (le


plus souvent un axe ou un plan) sur lequel on le projette, plus pertinente
est sa représentation. On a donc coutume de mesurer cette proximité par le
||projection de xi sur H||2
cosinus carré de l’angle de xi et de H : cos2 α = ||xi ||2
(cette formule peut être aisément expliquée par la figure 3.5 et le fait que
le cosinus d’un angle dans un triangle rectangle est égal au côté adjacent de
l’angle divisé par l’hypoténuse).
Le cosinus carré de l’angle entre xi et le facteur uj est donc égal à cos2 α =
j 2
|ci |
||xi ||2
et le cosinus carré de angle entre xi et le plan uj ⊕ uk est égal à cos2 α =
|cji |2 +|cki |2
||xi ||2
.

x
i

g q
cj
cj
i

Figure 3.5 – angle de projection


3.6. DESCRIPTION DU NUAGE DES INDIVIDUS 51

3.6.1 Description du nuage des caractères


Les caractères initiaux x1 , x2 , . . . , xp forment un sous-espace F 0 de Rn de
dimension au plus p. Les p composantes principales c1 , c2 , . . ., cp , que l’on
supposera librement indépendants pour simplifier l’écriture, sont obtenus par
combinaisons linéaires des caractères initiaux.
On peut alors décrire les composantes principales (les nouvelles variables)
par les corrélations qu’elles entretiennent avec les anciennes variables.
La corrélation entre une composante principale cj et une variable initiale
k
x est égale (cf. partie 2.2.2) à

cov(xk , cj )
r(xk , cj ) =
s(cj )s(xk )

Nos données étant réduites, s(xk ) = 1. Calculons s(cj ). Nos données étant
centrées, on a :
s2 (cj ) = t cj Dcj
= t (Xuj )DXuj
= t uj t XDXuj
= t uj V uj
= λj
p
On a donc s(cj ) = λj .
Passons au calcul de cov(xk , cj ). Les xk et les cj étant centrées, on a :

cov(xk , cj ) = t k
x Duj
t k
= x DXuj

xk étant la kème colonne de X, en notant ek le vecteur colonne de Rn


valant 0 sur toutes ses lignes sauf à la ligne k où il vaut 1, on a xk = Xek .
Donc :

cov(xk , cj ) = t (Xek )DXuj


= t ek t XDXuj
= t ek V uj
= λj t e k u j

La covariance entre xk et cj est donc égale à λj multiplié par la kème


composante du vecteur uj , que l’on note (uj )k
Finalement :
λ (u )
r(cj , xk ) = j√ j k
p λj
= λj (uj )k
52 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

0
Comme on a toujours r2 (xj , ck ) + r2 (xj , ck ) ≤ 1 (pour s’en convaincre,
0
remarquez que ck et ck sont orthogonaux, et donc une corrélation linéaire
de 1 avec un axe entraı̂ne une corrélation linéaire de 0 avec l’autre. De façon
plus formelle, le résultat vient du fait que r(xj , ck ) est le cosinus entre les axes
définis par xj et ck , cf. partie 3.8.3) en projetant les xj sur le plan principal
0
(c1 , c2 ) (ou plus généralement sur le plan (ck , ck )), on obtient des points à
l’intérieur d’un cercle de rayon 1 (cf. figure 3.6).

c2

j 2 xj
r(x ,c )

j 1
r(x ,c ) c1

Figure 3.6 – Cercle des corrélations

Ce cercle permet de voir d’un seul coup d’oeil les corrélations linéaires de
toutes les variables initiales avec deux composantes principales particulières.

3.6.2 Reconstructions et transitions


La dualité individus – caractères se traduit par des formules de transitions
entres facteurs principaux et composantes principales. On a :

cj = Xuj

On en déduit que cj t uj = Xuj t uj , soit 1≤j≤p cj t uj = X 1≤j≤p uj t uj .


P P
Les (uj )1≤j≤p étant une base orthonormée de Rp , 1≤j≤p uj t uj est la matrice
P
unité p × p, on en déduit :
X
X= cj t u j
1≤j≤p
3.7. INTERPRÉTATION DES RÉSULTATS 53

3.7 Interprétation des résultats


On étudie dans cette partie l’analyse en composante principale du ta-
bleau 1.1.
Même si les différents calculs peuvent être (et sont) effectués par ordi-
nateur, la lecture des résultats est extrêmement importante, puisqu’ils per-
mettent de caractériser les axes principaux, souligner les corrélations, et sur-
tout, éviter les interprétations erronées.
On commence par centrer et réduire les données, on obtient alors le ta-
bleau de donné représenté en figure 3.2.

Table 3.2 – Tableau centré réduit de la table 1.1

LIV ELB POA ACT PIE TER


AI -0.79 -1.37 -1.36 0.24 2.09 -0.23
PL -1.1 -0.88 0.34 0.41 0.91 -0.23
IAC -1.25 -1.37 -0.63 1.32 0.78 -0.52
CS -0.64 -0.64 -0.39 1.65 -0.67 -0.62
AG -0.34 0.34 0.1 -1.09 -1.2 2.19
AA 0.12 0.34 -0.63 -1.17 -0.14 1.51
AS 0.43 0.59 -0.63 0.41 -0.28 -0.52
PI 0.58 0.83 0.34 -0.01 -0.28 -0.62
EM 1.34 0.59 0.58 -0.76 -0.14 -0.33
OU 1.65 1.57 2.28 -1 -1.06 -0.62

3.7.1 Valeurs propres, facteurs et composantes princi-


pales
Les valeurs propres de la matrice de corrélation de nos données (cf.
table 3.1) est donné dans la table 3.3. L’inertie cumulée représente l’iner-
tie des projectionsP des individus sur le sous-espace principal à k dimension,
et est donc égal à 1≤i≤k λi .
On trouve que la dernière valeur propre est nulle, ce qui est normal
puisque la somme des colonnes fait toujours 100 dans la table 1.1, les ca-
ractères sont liés par une relation linéaire (chaque ligne correspond en effet
à des pourcentages par catégorie socioprofessionnelles).
On voit que les deux premiers axes principaux expliquent à eux seul plus
de 80% de l’inertie du nuage, nous résumerons donc nos données sur le plan
formé de ces deux axes.
54 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Table 3.3 – Valeurs propres de la matrice de corrélation de la table 1.1

i λi % d’inertie inertie cumulée


1 3.6 60 60
2 1.40 23 83
3 0.61 10 94
4 0.35 5 99
5 0.04 1 100
6 0 0 100

Il n’y a pas de méthode générale pour savoir combien d’axes principaux


considérer, rien ne remplaçant l’expérience. Un critère pouvant être utilisé
est cependant de repérer une chute d’inertie entre deux axes consécutifs. La
méthode la plus sûr consistant à ne choisir qu’après avoir étudié la significa-
tion possible des axes.
Les deux premiers vecteurs propres sont donnés dans la table 3.4 ci-après.

Table 3.4 – les deux premiers vecteurs propres de la matrice de corrélation


de la table 1.1

attributs u1 u2
LIV -0.470 0.230
ELB -0.510 0.072
POA -0.417 0.311
ACT 0.403 0.418
PIE 0.414 0.041
TER -0.109 -0.818

3.7.2 Composantes principales et représentation gra-


phique
Les composantes principales donnent les projections des individus sur
les facteurs principaux (les vecteurs propres). Les composantes principales
associés aux deux premiers facteurs principaux (cf. table 3.4) est représenté
dans la table 3.5.
Les composantes principales nous donnent les coordonnées des individus
dans le plan formé par les deux premiers facteurs principaux, c’est à dire
3.7. INTERPRÉTATION DES RÉSULTATS 55

Table 3.5 – les deux premières composantes principales associées aux vec-
teurs propres de la figure 3.4

catégorie c1 c2
socioprofessionnelle
AI 2.77 -0.35
PL 1.46 0.20
IAC 2.59 0.45
CS 1.31 0.90
AG -1.30 -2.44
AA -0.70 -1.98
AS -0.14 0.56
PI -0.94 0.83
EM -1.58 0.50
OU -3.48 1.31

dans le plan principal. La figure 3.7 représente les projections des individus
sur le plan principal (il suffit de prendre les composantes principales puisque
la base des vecteurs propres est orthonormée).
Les représentations des catégories socioprofessionnelles de la figure 3.7
sont des projections, il ne faut donc pas confondre proximité dans le plan
principal et proximité dans le nuage de points. Il faut donc regarder la “qua-
lité” de la projection. Par exemple, une catégorie socioprofessionnelle presque
orthogonale à une des composantes principale sera très déformée dans le
plan principal, et on ne pourra pas tenir compte de sa projection pour l’in-
terprétation.
Une des méthode les plus courantes pour juger de la qualité de la pro-
jection est d’examiner l’angle que fait l’individu avec le plan de projection
(c’est l’étude local de la partie 3.6). La table 3.6 donne les différents cosinus
carrés des individus par rapport au plan principal.

Table 3.6 – Cosinus carrés entre les catégories socioprofessionnelles et le


plan principal

AI PL IAC CS AG AA AS PI EM OU
2
cos (θ) 0.79 0.62 0.96 0.50 0.90 0.94 0.20 0.88 0.78 0.96

On remarque que tous les individus sont bien représentés dans le plan
56 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

2 OU
+
CS
1

PI +
+
EM AS
+ + IAC
+
PL
+
deuxieme facteur

AI
+
−1

AA
+
−2

AG
+
−3

−3 −2 −1 0 1 2 3

premier facteur

Figure 3.7 – Plan principal

principal, à part l’individu correspondant à la catégorie socioprofessionnelle



AS (Anciens Salariés) qui forme un angle de 63 degrés (arccos( 0.20) ' 63◦ )
avec le plan principal.

Remarque 11 Lorsque de nombreux points sont mal représentés dans le


plan principal, il est nécessaire d’étudier les plan principaux définis par d’autres
axes principaux (1 et 3, 2 et 3, . . .).

3.7.3 Interprétation des axes et des projections


L’interprétation des axes, combinaisons linéaires des caractères princi-
paux, est certainement la partie la plus délicate de l’analyse. Habituellement,
deux points de vues sont étudiés :
– les corrélations avec les caractères de départ,
– l’étude des individus typiques (ceux dont les projections sont les meilleurs).
Les corrélations avec les caractères de départs sont effectués via le cercle
des corrélations (cf. 3.6.1). Celui associé à notre exemple est reproduit en
figure 3.8.
– la variable TER (“terre”) est très négativement corrélée avec l’axe c2 ,
3.7. INTERPRÉTATION DES RÉSULTATS 57

1.0
ACT

0.5
+
POA
+
LIV
+

ELB
+ PIE
+

0.0
c2

−0.5

TER
−1.0

−1.0 −0.5 0.0 0.5 1.0

c1

Figure 3.8 – Cercle des corrélations

– les variables ELB (“épargne obligatoire”), LIV (“livrets, logements,


bons,. . .”) et POA (“placements”) sont très négativement corrélés avec
l’axe c1 ,
– les variables PIE (“pierres”) et ACT (“actions”) sont très positivement
corrélés avec l’axe c1 (En étudiant les projections sur les axes d’ordres
supérieurs, on remarque que le troisième axe principal permettrait de
séparer ces deux variables).
Ces constatations nous permettent de caractériser les différents axes.
Le premier axe sépare les produits fiduciaires (à gauche) des actes de
propriétés (à droite), et le deuxième axe sépare les propriétaires terriens (en
bas) des autres.
En regardant les individus, à part AS qui ne se projette que très mal sur
le plan principal (on le voit bien puisque sa projection est presque au centre
du graphique, ce qui est un cas général de mauvaise projection), on peut les
regrouper en trois ensembles distincts ;
– les agriculteurs (retraités ou non) qui se caractérisent par un fort pa-
trimoine terrien,
– les classes supérieures et moyennes aisées (CS, AI, IAC et PL) se ca-
ractérisant par un fort patrimoine de propriété et peu (en proportion)
de produits bancaires,
– les classes moyennes et pauvres (OU, EM et PI) se caractérisant par
un fort patrimoine fiduciaire (en proportion, pas en quantité. . .)
On peut également voir un “glissement” vers la droite des retraités par
rapport aux mêmes catégories socioprofessionnelles encore en activités.
58 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.8 Cas général et utilisation des métriques


On supposera toujours que nos données sont centrées. Lorsque l’on ne
réduit pas les données, on ne peut plus utiliser la métrique euclidienne,
comme on l’a vu. On se doit donc d’utiliser une métrique adaptée à notre
analyse. Procédons ici de façon générale et étudions le problème pour une
métrique donnée.

3.8.1 Métrique
D’une façon générale, si M est une matrice symétrique définie positive
(c’est à dire dont toutes ses valeurs propres sont strictement positives), on
définit un produit scalaire comme étant :

< ei , ej >= t (ei − ej )M (ei − ej )

ei et ej étant des vecteurs colonnes. Une distance d peut alors être définie
via la norme associée au produit scalaire :

d2 (ei , ej ) = ||ei − ej ||2M = t (ei − ej )M (ei − ej )

||ei ||M est la norme associée à d et est appelée M -norme ; M est alors
appelée métrique de l’espace. La distance euclidienne est un cas particulier
de la définition ci-dessus, en prenant M égal à la matrice identité. De plus,
toute norme est issue d’un produit scalaire de ce type.
On peut montrer que si M est une matrice symétrique définie positive, il
existe une matrice T (inversible puisque M est inversible) telle que M = t T T .
On a ainsi

||ei − ej ||2M = t
(ei − ej )M (ei − ej )
t
= (ei − ej )t T T (ei − ej )
t
= (T ei − T ej )(T ei − T ej )

Les xi étant quant à eux des vecteurs lignes, remplacer le tableau de


données X par X t T nous permettra ensuite d’utiliser la métrique euclidienne.
Tout se passe alors comme suit : on commence par trouver une métrique M ,
puis on transforme notre tableau de données par X t T (tableau que nous
continuerons à appeler X par abus de notations) et on utilise la métrique
euclidienne.
C’est exactement ce que nous avons fait précédemment en réduisant nos
données, comme le montre la partie suivante.
3.8. CAS GÉNÉRAL ET UTILISATION DES MÉTRIQUES 59

3.8.2 Espace des individus


La métrique la plus utilisée pour l’analyse en composantes principales est
la matrice diagonale :
 1 
s21
 ... 
 0 
 1 
D 12 = tD 1 D 1 =  s2i

s s s  
 .. 
 0 . 
1
s2p

Ceci revient à remplacer X par X t D 1 = XD 1 (cf. partie précédente), et


s s
donc à diviser chaque xj par son écart type. Les écarts types des nouvelles
variables sont alors toutes égales à 1 : on réduit les données.

3.8.3 Espace des caractères


Pour étudier les distances entre caractères, le choix de la métrique ne se
pose pas, on utilise la matrice D . En effet, ||xi ||2D = s2i puisque les données
sont centrées. La “longueur” d’un caractère est égal à sa variance et si les
données sont réduites, les caractères sont normés.
De plus, utiliser cette métrique rend les composantes principales ortho-
gonales entres elles. En effet :
0 0
< cj , cj > = t j
c Dcj
t
= (Xuj )D(Xuj 0 )
t t
= uj XDXuj 0
t
= uj V uj 0
= λj 0 t uj uj 0

Les uj formant une base orthogonale pour la distance euclidienne on a


0
bien que < cj , cj >= 0 si j 6= j 0 .
Mais la raison fondamentale du choix de D comme métrique tient au fait
que dans un espace euclidien on définit l’angle θ entre deux vecteurs ei et ej
par son cosinus qui est égal à :
< ei , ej >
cos θij =
||ei ||||ej ||
en utilisant la D-norme on a alors que cos θij = r(ei , ej ).
On s’intéresse donc, dans l’espace des caractères, plus particulièrement
aux angles entre caractères qu’aux distances entre points.
60 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.8.4 A.C.P avec une métrique quelconque


Nous n’allons pas ici redévelopper tous les calculs. Nous donnons juste
les résultats.
Soit X nos données que l’on supposera centrées. X est une matrice à n
lignes (nos n individus) et p colonnes (nos p variables).
On se donne une métrique entre individus en choisissant une matrice M
symétrique définie positive (M = D 12 pour l’A.C.P classique). Il n’est pas
s
nécessaire de choisir une métrique particulière pour les variable, c’est toujours
la D-norme qui est utilisée (où D est la matrice des poids).
La seule différence entre une A.C.P. utilisant la métrique euclidienne et
une A.C.P. utilisant une métrique quelconque et dans le calcul des compo-
santes principales. Les facteurs propres sont ici les vecteurs propres u1 , . . .up
de la matrice M V (et non plus juste V ) associés aux valeurs propres de M V
rangés par ordre décroissants λ1 ≥ . . . ≥ λp .
P On a alors que l’inertie totale du nuage est égale à I = trace(M V ) =
i λi (attention car l’inertie dépend de la distance utilisée).
Les composantes principales cj sont toujours égales à Xuj .
En résumé, si M est la matrice choisie pour tenir lieu de norme et X la
matrice des données centrée :
– V = t XDX,
– les facteurs propres sont les vecteurs propres u1 , . . .up de la matrice
M V , associés aux valeurs propres de M V rangés par ordre décroissants
λ1 ≥ . . . ≥ λp ,P
– trace(M V ) = i λi ,
– les composantes principales cj sont égales à cj = Xu pj ,
j
– en notant D la matrice des poids, on a : ||c ||D = λj .

3.9 Quelques remarques


L’analyse en composante principale est une des deux principales méthodes
d’analyse factorielle (l’autre étant l’analyse en facteurs communs et spécifiques).
Issue essentiellement des travaux de Spearman sur la description de l’intelli-
gence d’un individu (1904). L’analyse factorielle se propose d’expliquer des
liaisons entre des variables à l’aidePde facteurs indépendants. Elle postule un
modèle linéaire de la forme xji = k cjk uki où les uk représentent les facteurs
indépendants.
3.9. QUELQUES REMARQUES 61

3.9.1 L’analyse en facteurs communs et spécifiques


L’analyse en facteurs communs et spécifiques cherche à expliquer les
corrélations des variables à l’aide :
– d’un seul facteur commun, le facteur général G des facteurs de groupe,
intervenant seulement dans une part des variables ;
– un facteur spécifique à chaque variables.
Traditionnellement, le modèle linéaire correspondant s’écrit

xji =
P j k
aj Gi + k bk Bi + cj Sij
↓ ↓ ↓
facteur général facteur de groupe facteur spécifique

Ce type de modèle a donné lieu à de nombreuses généralisations.

3.9.2 L’analyse en composante principale


L’analyse en composante principale s’appuie essentiellement sur les tra-
vaux de Hotelling (1933). Elle présuppose la normalité des variables xj (sous
cette hypothèse le nuage X définira expérimentalement des hyperellispesoı̈des
concentriques d’égale densité), ce sont les axes principaux de ces ellipsoı̈des
qui définiront les facteurs.
Il convient donc de réserver cette analyse aux observations dont on peut
tester qu’on pouvait les les considérer extraites de variables normales.
62 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
Chapitre 4

Classification

Le seul moyen de faire une méthode instructive et naturelle,


est de mettre ensemble les choses qui se ressemblent
et de séparer celles qui diffèrent les unes des autres.
Georges Buffon, Histoire naturelle, 1749.
Cette phrase du célèbre naturaliste et écrivain Georges Buffon peut servir
de définition générale à un modèle de classification. Les modèles les plus
classiquement utilisés en classification sont, sans conteste, les partitions et
les hiérarchies de parties. Dans les deux cas, les objets qui se ressemblent
sont regroupés en classes. Pour les partitions, les classes sont deux à deux
disjointes ; pour les hiérarchies, elles peuvent être emboı̂tées. Dans les deux
cas, elles ne sont pas empiétantes au sens où l’intersection de deux d’entres
elles n’en produira jamais de troisième. Nous ne parlerons pas dans ce cours de
modèles en classes empiétantes, sujet par trop vaste pour cette introduction
à l’analyse des données.
Le modèle hiérarchique est hérité des sciences naturelles (classification
des espèces animales et végétales), le modèle non hiérarchique correspond à
des pratiques statistiques usuelles dans des domaines tels que la reconnais-
sance des formes, l’apprentissage, la recherche opérationnelle (affectation de
ressources), . . .où il s’agit de discriminer sans ambiguı̈té.
Une des vertus de la non-empiétance est de doter la classification de
solides assises mathématiques. Les partitions d’un ensemble fini sont en effet
au cœur de la théorie combinatoire (dénombrements, rangements, géométries
finies, . . .). On connaı̂t aussi leur importance en probabilité et statistiques
(via la théorie de l’information et divers tests d’hypothèses). Les hiérarchies
de parties et leurs avatars : les ultramétriques, possèdent également de belles
et fortes propriétés (Leclerc, 1979, 1981, 1985a, et 1985b). Il est d’ailleurs
remarquable que le premier traité, en langue française (à notre connaissance)
sur la classification commence par une étude détaillée du treillis des partitions

63
64 CHAPITRE 4. CLASSIFICATION

d’un ensemble fini (Lerman, 1970).


Les hiérarchies de parties, dès lors qu’elles sont indicées (c’est à dire
lorsque l’on assigne à chaque classe un nombre réel évaluant son ”niveau”)
sont en bijection avec un type particulier de distances : les ultramétriques. Un
intérêt majeur de ce théorème de bijection est de réduire la recherche d’une
classification sur un ensemble X d’objets à la recherche d’une dissimilarité
d’un type donné sur X (une ultramétrique). Lorsque les objets à classifier sont
eux-mêmes décrits par une dissimilarité, le problème devient complètement
homogène : transformer une dissimilarité quelconque en une dissimilarité d’un
type donné. La classification s’inscrit alors dans le champ de l’approximation
mathématique.
Dans cet esprit, nous nous restreindrons dans ce chapitre au cas où des ob-
jets à classifier sont décrits par des dissimilarités, que ces dissimilarités soient
directement observées ou qu’elles soient calculées à partir de caractères (cf.
Kuntz (1992) pour une discussion détaillée du calcul de dissimilarités à par-
tir de données de présence-absence). De plus, par soucis de concision, nous
nous restreignons aux modèles non-empiétant que sont les partitions et les
hiérarchies de parties. Il s’agit là d’une approche particulière. D’autres uti-
lisent par exemple une description des objets par des caractères et cherchent
à obtenir des classifications sans le truchement de dissimilarités.

4.1 Modèles de classification


On supposera que X est décrit par une dissimilarité propre (cf. 1.4.1) d.
On cherche alors à construire sur X une classification en classes homogènes
au sens de d.
Définition 14 Un sous ensemble K de 2X sera appelé système de classes
sur X si et seulement si il vérifie les trois propriétés ci-dessous :
C1 : X ∈ K et ∅ 6∈ K,
C2 : ∀x ∈ X, {x} ∈ K,
C3 : ∀A, B ∈ K, A ∩ B 6= ∅ entraı̂ne A ∩ B ∈ K.
L’axiome C3 assure qu’un système de classes est clos par intersection
finie non vide de ses éléments. Un exemple de système de classe est donné en
figure 4.1.
Si K est un système de classes sur X, on appellera X l’ensemble de base
de K et classes de K tous ses éléments. Les singletons {x} et {X} seront
appelées classes triviales de K.
Définition 15 Un sous ensemble R = {P1 , P2 , . . . , Pk } de 2X sera appelé
recouvrement de X si et seulement si il vérifie les trois propriétés ci-dessous :
4.1. MODÈLES DE CLASSIFICATION 65

Figure 4.1 – Un système de classes très classe

R1 : pour tout 1 ≤ i ≤ k, Pk 6= ∅,
R2 : pour tous 1 ≤ i 6= j ≤ k, Pi 6⊂ Pj et Pj 6⊂ Pi ,
R3 : P1 ∪ P2 ∪ . . . ∪ Pk = X.

Un exemple de recouvrement est donné en figure 4.2.

Figure 4.2 – Un recouvrement

4.1.1 Partitions et hiérarchies


On appellera modèle de classes tout sous ensemble de 2X qui est soit
un système de classe, soit un recouvrement. Nous nous restreignons à deux
modèles de classes particuliers, les partitions (qui sont un ensemble particulier
de recouvrement) et les hiérarchies (cas particulier de système de classes).

Modèle de classe
Définition 16 Une partition P est un recouvrement tel que pour toutes
classes A et B de P : A ∩ B = ∅ si A =
6 B.
66 CHAPITRE 4. CLASSIFICATION

Définition 17 Une hiérarchie est un système de classes H tel que pour


toutes classes A et B de P : A ∩ B ∈ {A, B, ∅}

Pour une hiérarchie, de part la définition, deux classes sont donc toujours
soit incluses l’une dans l’autre, soit d’intersection vide. On peut donc, en ra-
joutant les classes triviales, considérer une partition comme un cas particulier
d’une hiérarchie.
Les classes d’une hiérarchie étant soient incluses l’une dans l’autre soit
d’intersection vide. On a coutume de représenter cet arbre sous la forme de
la figure 4.3 où chaque classe est représenté par un segment. On appelle cette
représentation un dendrogramme.

Figure 4.3 – Un dendrogramme

Indiçage
On peut munir une hiérarchie, ou plus généralement tout système de
classe K, d’un indice.

Définition 18 Un indice sur une système de classe K est une fonction f de


l’ensemble des classes de K dans l’ensemble des réels positifs, et telle que :
– f ({x}) = 0 pour tout x ∈ X,
– quelques soient A, B ∈ K, A ( B implique f (A) < f (B).

La paire (K, f ) est alors appelée système de classe indicé. Le réel f (A)
où A ∈ K est alors appelé hauteur de A. La représentation d’une hiérarchie
indicée est aisée en utilisant les dendrogrammes. La hauteur de chaque classe
étant proportionnelle à la hauteur du segment la représentant. Un exemple
de hiérarchie indicée est présenté en figure 4.4.
Il est clair que toute hiérarchie peut être indicée. On peut par exemple
utiliser comme indice d’une classe A la valeur f (A) = |A| − 1.
Indicer une hiérarchie va nous permettre de les mettre en relation avec
un type particulier de dissimilarité, les ultramétriques.
4.1. MODÈLES DE CLASSIFICATION 67

Figure 4.4 – Représentation d’une hiérarchie indicée

Ultramétriques
Définition 19 Une dissimilarité d sur X est une ultramétrique si et seule-
ment si l’inégalité suivante (appelée inégalité ultramétrique) est vérifiée quelques
soient x, y, z ∈ X :

d(x, y) ≤ max {d(x, z), d(y, z)}

On peut vérifier qu’une ultramétrique vérifie l’inégalité triangulaire et est


donc une distance. De plus l’inégalité ultramétrique est équivalente au fait
que pour trois objets x, y, z ∈ X, les deux plus grandes des trois distances
d(x, y), d(x, z) et d(y, z) sont égales.
On a ainsi coutume de dire que pour une ultramétrique, tout triangle
est isocèle et la base est le plus petit des côtés. La figure 4.5 montre un tel
triangle.

x y z

Figure 4.5 – Un triangle ultramétrique

Définition 20 On appelle boule de centre x et de rayon α d’une dissimilarité


d sur X l’ensemble B(x, α) = {y|d(x, y) ≤ α}.

On appelle classe d’une ultramétrique sur X une boule de centre x et de


rayon α ∈ R+ . Pour trouver toutes les classes d’une ultramétrique, on peut
bien évidemment se restreindre aux boules dont le rayon est une des valeurs
prises par la dissimilarité.
Le théorème suivant montre la relation forte entre les ultramétriques et
les hiérarchies.
68 CHAPITRE 4. CLASSIFICATION

Théorème 2 (Benzécri (1973), Johnson(1967)) Les dissimilarités dont


l’ensemble de leurs boules forment une hiérarchie sont exactement les ul-
tramétriques.
De plus, l’ensemble des boules d’une ultramétrique valué par leur rayon
forme une hiérarchie indicée.

Ce théorème est fondamental car il permet, à partir d’une dissimilarité


d’origine de construire une hiérarchie en approximant cette dissimilarité par
une ultramétrique. L’algorithme de classification ascendante hiérarchique en
est un exemple (cf. partie 4.3).
La hiérarchie associée à la dissimilarité d ci-après est présentée en fi-
gure 4.6

x 0
y 1 0
d: z 3 3 0
t 3 3 2 0
u 4 4 4 4 0
x y z t u

x y z t u

Figure 4.6 – hiérarchie indicée associée à d

4.2 Méthodes de partitionnement


4.2.1 Choix d’une partition
Mesures de ressemblances entre classes
On suppose que nos données sont munies d’une dissimilarité d et que
l’on possède une partition P = {C1 , . . . , Cp } sur X. On peut alors définir
une dissimilarité sur P en utilisant la dissimilarité d, afin de se donner une
mesure sur les classes.
4.2. MÉTHODES DE PARTITIONNEMENT 69

Lorsque la dissimilarité d n’est pas une distance euclidienne, on a coutume


de définir la dissimilarité ∆ entre deux classes Ci et Cj (i 6= j) d’une des trois
façons ci-dessous :
– ∆(Ci , Cj ) = min{d(x, y)|x ∈ Ci , y ∈ Cj }, appelée distance du saut
minimum,
– ∆(Ci , Cj ) = max{d(x, y)|x ∈ Ci , y ∈ Cj }, appelée distance du saut
maximum,
1
P
– ∆(Ci , Cj ) = |Ci ||Cj | x∈Ci ,y∈Cj d(x, y), appelée distance moyenne.

Lorsque la dissimilarité est une distance euclidienne, on peut mettre à


profit l’existence du barycentre (i.e. le centre de gravité) de chaque classe. On
peut alors définir la dissimilarité entre deux classes comme étant la distance
entre leurs deux barycentres.
Un autre moyen est d’utiliser, comme en Analyse en Composantes Prin-
cipales, un critère d’inertie. Le critère le plus utilisé est le critère de Ward qui
mesure entre deux classes la perte d’inertie que l’on encourt à les regrouper.
On rappelle que l’inertie d’un nuage de points est égale à la moyenne des
carrés des distances des points au centre de gravité du nuage que l’on note g
(cf. partie 3.5). On suppose donc que les éléments xi de X sont tous munis
d’un poids pi (on pourra, par exemple, considérer que les poids sont tous
égaux à n1 ). Chaque classe est alors affectée d’un poids Pi égal à la somme
des points des éléments d’icelle.
En notantP gi le centre de gravité de la classe Ci , l’inertie de Ci est alors
égale à Ii = xj ∈Ci pj d2 (xj , gi ). La somme de toutes les inertie des classes
est appelée inertie intraclasse et on la note IW :
X
IW = Ii
1≤i≤p

Remarque 12 De façon intuitive, une partition sur X sera d’autant meilleure


que l’inertie intraclasse sera petite. Cependant, la partition à n élément
possède une inertie intraclasse nulle. On pourra donc chercher à trouver une
partition à p < n classes qui minimise l’inertie intraclasse. Cette idée sera
développée dans les parties suivantes, patience.
On appelle inertie interclasse la quantité IB = I − IW et on peut montrer
que cette quantité est égale à :
X
IB = Pi d2 (gi , g)
1≤i≤p

Suite à la remarque précédente, cette égalité montre donc que minimiser


l’inertie intraclasse revient à maximiser l’inertie interclasse puisque l’inertie
du nuage est constante quelque-soit la partition choisie.
70 CHAPITRE 4. CLASSIFICATION

Le critère de Ward prend alors comme dissimilarité entre deux classes Ci


et Cj la perte d’inertie intraclasse entre la partition initiale et la partition où
Ci et Cj ont été fusionnées. Si on note gi,j le centre de gravité de la classe
Ci ∪ Cj , cette perte est égale à la quantité :

∆(Ci , Cj ) = Pi d2 (gi , g) + Pj d2 (gj , g) − (Pi + Pj )d2 (gi,j , g)

En utilisant le fait que :


Pi Pj Pi P j
d2 (gi,j , g) = d2 (gi , g) + d2 (gj , g) + 2
d2 (gi , gj )
P i + Pj Pi + Pj (Pi + Pj )

on trouve que la perte d’inertie est positive et vaut :


Pi Pj 2
∆(Ci , Cj ) = d (gi , gj )
Pi + Pj

Remarque 13 Attention, les deux dissimilarités entre classes présentées


lorsque les données sont euclidienne ne sont pas des distances. En effet, deux
classes disjointes peuvent avoir un même barycentre.

La figure 4.7 montre quelques exemples de mesure de ressemblance entre


classes.

max

g1 g2
min

Figure 4.7 – Exemple de mesures de ressemblance entre classe pour une


distance euclidienne.

Mesures de stabilités d’une partition


De même que l’on a défini une mesure de ressemblance à une classe d’une
partition sur X, on peut, si l’on dispose d’une dissimilarité sur X définir une
mesure de stabilité (aussi appelé indice de qualité) d’une partition.
Une mesure de stabilité est ainsi une fonction f de l’ensemble des parti-
tions sur X dans l’ensemble des réels positifs. On peut par exemple prendre
comme mesure de stabilité pour une partition P = {C1 , . . . , Cp } une des
fonction suivante lorsque la dissimilarité sur X n’est pas euclidienne :
4.2. MÉTHODES DE PARTITIONNEMENT 71

P C∈P max{d(x, y)|x, y ∈ C}


– f (P) = max
– f (P) = PC∈P P max{d(x, y)|x, y ∈ C}
– f (P) = C∈P x,y∈C d(x, y)
1
P P
– f (P) = C∈P |C| d(x, y)
P x,y∈C
– f (P) = maxC∈P x,y∈C d(x, y)
Si les données sont décrites par une distance euclidienne, on peut utiliser
comme mesure de stabilité l’inertie intraclasse définie ci-avant.

Remarque 14 Toutes les mesures de stabilités décrites ici sont telles que,
intuitivement, les partitions décrivant le mieux les données seront celles qui
réalisent un minimum de ces fonctions à nombre de classes fixé. Si on ne
fixe pas les classes, la partition à n éléments est en effet toujours celle qui
réalise le minimum.

Nombre de partition sur X et conséquences


Les parties précédentes montrent que l’on peut, une fois une mesure de
stabilité choisie, comparer deux partitions sur X au regard de la dissimilarité
décrivant les données. De plus, les différentes remarques montrent que, choisir
la meilleure partition, ne peut se faire que si l’on détermine à l’avance le
nombre de classes qu’elle doit contenir.
On est donc en face d’un problème d’optimisation : il faut choisir une
partition minimisant une mesure de stabilité choisie. Une solution possible
est d’essayer toutes les partitions possibles (leur nombre est fini) et choisir la
meilleure. Cependant, cette solution est irréalisable en pratique car le nombre
de partitions possible explose exponentiellement avec |X|.
On peut montrer que le nombre de partitions sur un ensemble X (avec
|X| = n) est égal au nombre de Bell Bn . Ce nombre se calcul avec la
récurrence suivante :

B0 = 1P
i−1
Bn = 1≤i≤n Cn−1 Bn−i

On montre de même que le nombre de partitions sur X à k classes est


égal au nombre de Stirling de deuxième espèce Sn,k que l’on calcul par la
formule de récurrence suivante :

 Sn,n−1 = n(n−1)
2
Sn,2 = 2n−1 − 1
Sn,k = Sn−1,k−1 + kSn−1,k

La table 4.1 donne les premiers nombres de Bell et de stirling. Ces nombres
grossissent exponentiellement.
72 CHAPITRE 4. CLASSIFICATION

Table 4.1 – Bn et Sn,k pour n ≤ 7.

Sn,k n\ k 1 2 3 4 5 6 7 Bn
1 1 1
2 1 1 2
3 1 3 1 5
4 1 7 6 1 15
5 1 15 25 10 52
6 1 31 90 65 15 1 203
7 1 63 301 350 140 21 1 877

La triste nouvelle est que pour les mesures de stabilités données dans la
partie précédente, trouver une partition à k classes minimisant une de ces
mesures se trouve être un problème NP-difficile. C’est à dire qu’à priori il n’y
a pas d’autre manière que de regarder toutes les partitions possibles avant
d’en déterminer une qui réalise le minimum. C’est pourquoi, les algorithmes
de partitionnement utilisées sont tous des heuristiques (c’est à dire qu’ils
trouvent la plupart du temps une partition acceptable, mais sans garanti
d’optimalité). Nous en présentons trois, parmi les plus couramment utilisés.

4.2.2 k-means
Les algorithmes de regroupement autour de centres mobiles (Forgy, 1965,
McQUeen 1967 ou encore All et Ball, 1967) admettent beaucoup de variantes.
Ils peuvent être itératifs (et proche des pratiques d’apprentissage) ou non.
Les centres ainsi que le critère de regroupement peuvent aussi être calculés
de diverses manières. Nous nous contenterons ici de présenter l’algorithme
classique des k-means ainsi que sa variante “online”. Nous mentionnerons ici
et là quelques variantes sans pour autant les expliciter.
L’algorithme des k-means, appelé aussi algorithme des centres mobiles est
certainement du à LLoyd (1957), Forgy (1965) et vraisemblablement d’autres.
Les k-means (algorithme 4.2.2) sont fait pour partitionner des données
euclidiennes. On considérera donc dans la suite de cette partie que chaque
objet x est un point de Rp tel que xi soit sa ième coordonnée et que la
distance utilisée d est la distance euclidienne, c’est à dire :
X
d2 (x, y) = (xi − y i )2
1≤i≤p

1
P
Pour tout sous-ensemble C de X, on notera g(C) = |C| x∈C x son centre
4.2. MÉTHODES DE PARTITIONNEMENT 73

de gravité.
k-means : Partitionnement en k classes a partir d’un ensemble X de points
de Rp .

d
ent x1 , . . ., xk , kel ements de X
gi ← xi pour tout 1 ≤ i ≤ k
Ci ← ∅ pour tout 1 ≤ i ≤ k
on s arrête ← FAUX
tant que on s arrête est FAUX
Ci0 ← ∅ pour tout 1 ≤ i ≤ k
pour chaque x ∈ X
soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 ≤ j ≤ k}
Ci00 ← Ci00 ∪ {x}
fin (pour chaque)
6 {C10 , . . . , Ck0 }
si {C1 , . . . , Ck } =
alors
Ci ← Ci0 pour tout 1 ≤ i ≤ k
gi ← g(Ci ) pour tout 1 ≤ i ≤ k
fin (alors)
sinon on s arrête ← VRAI
fin (tant que)
fin

Voici un exemple du déroulement des k-means. On considère les huit


points de R2 de la figure 4.8.
5
4
3
2
1

1 2 3 4 5

Figure 4.8 – Huit points de R2

En appliquant l’algorithme précédent pour k = 2 et en prenant comme


points de départ g1 = (1, 1) et g2 = (1, 2).
La distance au carré des points au centre est alors :

d2 (1, 1) (1, 2) (2, 1) (2, 2) (4, 4) (4, 5) (5, 4) (5, 5)


g1 0 1 1 2 18 25 25 32
g2 1 0 2 1 13 18 20 25
74 CHAPITRE 4. CLASSIFICATION

Les nouvelles classes sont alors C1 = {(1, 1), (2, 1)} de centre de gravité
g1 = ( 32 , 1) et C2 = {(1, 2), (2, 2), (4, 4), (4, 5), (5, 4), (5, 5)} de centre de gra-
vité g2 = ( 72 , 22
6
). La distance au carré des points au centre est alors :

d2 (1, 1) (1, 2) (2, 1) (2, 2) (4, 4) (4, 5) (5, 4) (5, 5)


1 5 1 5 61 89 85 113
g1 4 4 4 4 4 4 4 4
481 325 337 181 13 73 85 145
g2 36 36 36 36 36 36 36 36

Après cette étape, les nouvelles classes sont alors les classes “naturelles” :
– C1 = {(1, 1), (1, 2), (2, 1), (2, 2)},
– C1 = {(4, 4), (4, 5), (5, 4), (5, 5)}.

Une nouvelle itération ne changeant pas les classes, l’algorithme s’arrête.


Pour que l’algorithme fonctionne, il faut lui spécifier le nombre de classes
k que l’on veut produire. Le critère d’arrêt est ici la stabilisation des classes.
Ce critère peut néanmoins se révéler inadéquat pour quelques cas critiques
(comme nous le verrons dans un exemple). On a donc coutume de rajouter
comme critère d’arrêt un nombre maximum d’itération.
Pour prouver la convergence de l’algorithme, nous allons montrer que les
k-means optimisent localement l’inertie intraclasse IW .
Notons C1 , . . .Ck les k classes formées avant une itération de l’algorithme,
g1 , . . ., gk leurs centres de gravité associés, C10 , . . .Ck0 les k classes modifiées
après itération et g10 , . . ., gk0 leurs centres de gravité.
Avant l’itération, IW vaut :
X X
IW ({C1 , . . . , Ck }) = d2 (x, gi )
1≤i≤k x∈Ci

Puisque l’on affecte chaque individu à la classe dont le barycentre est le


plus proche on a alors que :
X X X X
d2 (x, gi ) ≤ d2 (x, gi )
1≤i≤k x∈Ci 1≤i≤k x∈Ci0

La formule de Huygens nous donne ensuite que :


X X
d2 (x, gi ) = d2 (x, gi0 ) + d2 (gi , gi0 )
x∈Ci0 x∈Ci0

et donc :
d2 (x, gi0 )
P P
IW ({C1 , . . . , Ck }) ≤ 1≤i≤k x∈Ci0
≤ IW ({C10 , . . . , Ck0 })
4.2. MÉTHODES DE PARTITIONNEMENT 75

À chaque itération, l’inertie intraclasse IW diminue, on est donc en présence


d’une suite positive et décroissante, donc convergente.
Attention cependant, la convergence de la valeur de la fonction objectif
ne signifie pas la convergence des classes trouvées. Le seul moyen de faire
converger les classes est de ne pas changer un point de classe si l’on a le
choix entre changer celui-ci ou pas (ce cas est possible en cas d’égalité de
distance entres centres de gravité).
L’expérience prouve cependant que les k-means convergent très rapide-
ment, une dizaine d’itérations étant seulement nécessaire. On a donc coutume
de remplacer le critère de stabilisation des classes par un un nombre maxi-
mum d’itération (10 en général). Comme chaque itération peut être effectuée
en O(nkp) opérations, cet algorithme est linéaire lorsque le nombre de classes,
la dimension et le nombre d’itérations sont fixés (ce qui est le cas habituel).
L’algorithme des k-means, tout comme l’algorithme des transferts (voir
partie 4.2.3) est très sensible aux éléments initiaux. En changer peut produire
une autre partition, les partitions résultantes étant toutes deux des minima
locaux de IW . Une façon classique de contourner le problème est de relancer
l’algorithme plusieurs fois en changeant les points initiaux, et de prendre la
meilleure partition.
Certaines variantes des k-means comme le global k-means (Likas, Vlas-
sis et Verbeek, 2003) ou les k-harmonic means permettent également d’être
moins sensible aux paramètres de départ.
Nous allons maintenant présenter une variante des k-means (McQueen
1967) où le centre de gravité est recalculé à chaque fois qu’un point est
examiné.
Online k-means : Partitionnement en k classes a partir d’un ensemble X
de points de Rp et un nombre d’itération m.

d
ent x1 , . . ., xk , kel ements de X
gi ← xi pour tout 1 ≤ i ≤ k
j←1
tant que j < m
ni ← 1 pour tout 1 ≤ i ≤ k
pour chaque x ∈ X
soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 ≤ j ≤ k}
gi0 ← ni 1+1 (ni0 gi0 + x)
0
ni0 ← ni0 + 1
fin (pour chaque)
Ci ← ∅ pour tout 1 ≤ i ≤ k
pour chaque x ∈ X
76 CHAPITRE 4. CLASSIFICATION

soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 ≤ j ≤ k}


Ci0 ← Ci0 ∪ {x}
fin (pour chaque)
gi ← g(Ci ) pour tout 1 ≤ i ≤ k
j ←j+1
fin (tant que)
fin

Cette variante dépend donc de l’ordre du choix des éléments. Bottou et


Bengio (1995) on prouvé que cet variante converge. On pourra consulter pour
plus de détails Bottou 1991 qui explicite des condition suffisantes pour que
des algorithmes de ce type convergent.
Effectuons l’algorithme online k-means sur les six points de R de la fi-
gure 4.9.

2 19

1 18 20 35

Figure 4.9 – Six points R

On lance l’algorithme des k-means en choisissant 35, 20 et 19 comme


points de départ. Les 3 classes de départ sont donc C1 = {35} (de centre de
gravité g1 = 35), C2 = {20} (de centre de gravité g2 = 20)et C3 = {19} (de
centre de gravité g3 = 19).
On considère ensuite 18. Le centre de gravité le plus proche étant g3 , les
classes et centres de gravité deviennent :
– C1 = {35}, g1 = 35,
– C2 = {20}, g2 = 20,
– C3 = {18, 19}, g3 = 18.5.
On considère maintenant le point 2. Le centre de gravité le plus proche
étant g3 , on a :
– C1 = {35}, g1 = 35,
– C2 = {20}, g2 = 20,
– C3 = {2, 18, 19}, g3 = 13.
Enfin, après avoir considéré le point 1 :
– C1 = {35}, g1 = 35,
– C2 = {20}, g2 = 20,
– C3 = {1, 2, 18, 19}, g3 = 10.
4.2. MÉTHODES DE PARTITIONNEMENT 77

On peut maintenant créer les classes finales en affectant les points aux
centres de gravité le plus proche (qui sont ici g1 = 35, g2 = 20 et g3 = 10),
ce qui nous donne :
– C1 = {35},
– C2 = {18, 19, 20},
– C3 = {1, 2}.
On retrouve bien les classes “naturelles”. Pour vous rendre compte que
cela n’est pas toujours le cas, prenez comme points de départ 1, 2 et 18 et
considérez dans l’ordre les points 19, 20 et 35.

4.2.3 Algorithme des transferts


L’algorithme de transfert est une méthode générale de partitionnement
qui dépend d’une mesure de stabilité f (appelée aussi critère d’évaluation
dans ce contexte). Tout comme l’algorithme des centres mobiles ou des k-
means, le nombre de classes k est fixé au départ. Cependant, ce nombre de
classes peut diminuer au court de l’algorithme.
En fonction de la mesure de qualité choisie, cet algorithme peut être
appliqué à des données simplement décrites par une dissimilarité. On peut
par exemple choisir pour f la fonction associant à une partition P :
X 1 X
f (P) = ( d2 (x, y))
C∈P
|C| x6=y∈C

Ou tout autre mesure de stabilité décrite dans la partie 4.2.1.

Remarque 15 Cet algorithme ne peut bien évidemment pas servir à résoudre


des problèmes NP-difficile (je vous laisse en exercice le soin de voir pourquoi),
la partition obtenue est ainsi souvent un minimum local.

Pseudo-code
Initialisation
choix de k classes arbitraires C1 , . . .Ck
xt ← ∅
it ← ∅
jt ← ∅
ft ← 0
STOP ← FAUX
Tant Que STOP est FAUX
ft ← f ({C1 , . . . Ck })
Pour Tout 1 ≤ i ≤ k
78 CHAPITRE 4. CLASSIFICATION

Pour Tout x ∈ Ci
Pour Tout 1 ≤ j ≤ k tel que i 6= j
Si f ({C1 , . . . , Ci \{x}, . . . Cj ∪ {x} . . . Ck }) < ft
Alors
ft ← f ({C1 , . . . , Ci \{x}, . . . Cj ∪ {x} . . . Ck })
xt ← x
it ← i
jt ← j
Fin Alors
Fin Si
Fin Pour Tout
Fin Pour Tout
Fin Pour Tout
Si ft < f ({C1 , . . . Ck })
Alors
Cit ← Cit \{xt }
Cjt ← Cjt ∪ {xt }
Fin Alors
Sinon
STOP ← VRAI
Fin Sinon
Fin Si
Fin Tant Que

Convergence de l’algorithme
La convergence de l’algorithme est assurée par le fait que la suite des
mesures de stabilité à chaque itération est décroissante et positive, donc
convergente.

4.3 L’algorithme de Classification Ascendante


Hiérarchique (C.A.H.)
L’algorithme de C.A.H. est une méthode générale de construction d’une
hiérarchie à partir de données décrites par une dissimilarité. Il dépend d’une
mesure de ressemblance entre classes, tout comme l’algorithme des transfert
dépend d’une mesure de stabilité.
Nous donnerons ici une version “métrique” de l’algorithme de C.A.H. On
transformera donc une dissimilarité d sur X en une ultramétrique u. On
4.3. L’ALGORITHME DE CLASSIFICATION ASCENDANTE HIÉRARCHIQUE (C.A.H.) 79

pourra ensuite déduire la hiérarchie associée en calculant les classes de u.


De façon plus “classe”, on peut décrire l’algorithme de classification hiérar-
chique comme suit : on construit une suite de partition de plus en plus fine,
la première contenant n classes, la seconde n − 1, la troisième n − 2 et ainsi
de suite jusqu’à n’obtenir plus qu’une seule classe contenant tous les objets.
Passer d’une partition à la suivante se faisant en fusionnant deux classes de
la première partition.

4.3.1 Pseudo-code
Soit f une mesure de ressemblance sur X.

Initialisation
k=n
C1 , C2 , . . . , Cn est une partition de X en n classes
Pour Tous x, y ∈ X
u(x, y) ← f ({x}, {y})
Fin Pour Tout
Tant Que k > 1
Soient x0 et y0 tels que pour tous z et t : u(x0 , y0 ) ≤ u(z, t)
Soient i0 et j0 tels que x0 ∈ Ci0 et y0 ∈ Cj0
Pour Tous x ∈ Ci0 ∪ Cj0 , y ∈ Ck tel que k 6= i0 et k 6= j0
u(x, y) ← f (Ci0 ∪ Cj0 , Ck )
Fin Pour Tous
C i0 = C i 0 ∪ C j0
De j = j0 + 1 à j = k
Cj−1 ← Cj
Fin De
k ←k−1
Fin Tant Que

4.3.2 Cas particuliers


Lorsque les données sont euclidiennes, on a coutume d’utiliser comme
mesure de ressemblance sur X le critère de Ward (cf. 4.2.1). Lorsque les
données ne sont pas euclidiennes, on utilise le plus souvent l’une des trois
mesures également décrites en 4.2.1. L’algorithme de C.A.H. est alors appelé :
– lien simple lorsque la mesure de ressemblance est la distance du saut
minimum,
– lien moyen lorsque la mesure de ressemblance est la distance moyenne,
80 CHAPITRE 4. CLASSIFICATION

– lien complet lorsque la mesure de ressemblance est la distance du saut


maximum.

4.3.3 Exemples
On utilisera dans cette partie la matrice d ci-après.

Table 4.2 – La dissimilarité exemple d.

x 0
y 1 0
d: z 1 2 0
t 3 5 3 0
u 5 5 5 4 0
x y z t u

Que l’on utilise le lien simple, le lien moyen ou le lien complet, un choix
s’offre à nous dès la première itération. On peut, soit choisir la paire xy, soit
la paire xz. Dans le premier cas, on obtient les 3 hiérarchies indicées de la
figure 4.10, dans l’autre, les trois hiérarchies indicées de la figure 4.11.

5 5 5
4 4 4
3 3 3
2 2 2
1 1 1

x y z t u x y z t u x y z t u
lien simple lien complet lien moyen

Figure 4.10 – lien simple, moyen et complet en agrégeant x et y

On peut tirer deux remarques essentielles de ces exemples :


– la hiérarchie solution dépend de la mesure de ressemblance choisie (la
classe {x, y} n’existant pas pour le lien simple et la classe {t, u} n’exis-
tant que pour le lien moyen),
– l’ordre d’agrégation des paires de classes modifie la hiérarchie résultante.
4.3. L’ALGORITHME DE CLASSIFICATION ASCENDANTE HIÉRARCHIQUE (C.A.H.) 81

5 5 5
4 4 4
3 3 3
2 2 2
1 1 1

x y z t u x z y t u x z y t u
lien simple lien complet lien moyen

Figure 4.11 – lien simple, moyen et complet en agrégeant x et z

On pourra cependant remarquer que seules les deux hiérarchies issues du


lien simple en changeant l’ordre d’agrégation sont identiques. Cette remarque
est un cas général, quelque-soit l’ordre d’agrégation des données, la hiérarchie
issue du lien simple est unique.
82 CHAPITRE 4. CLASSIFICATION
Chapitre 5

L’analyse discriminante

L’analyse discriminante porte sur les classements que l’on peut effectuer
au sein d’une population. On a coutume de distinguer :
– la discrimination à but descriptif : une population en q classes de X
étant donnée (on les note X1 , . . ., Xq ) et X étant par ailleurs décrit
par des variables quantitatives x1 , . . ., xp . On cherche de nouvelles
variables, combinaisons linéaires des xj , indépendantes et séparant au
mieux ces classes.
– La discrimination à but décisionnel : on dispose toujours d’une partition
de X et de p variables xj . X est considéré comme un échantillon d’un
ensemble X (X ⊆ X ) sur lequel sont définis les xj . Le problème est de
déterminer, à partir des valeurs xj , à quelle classe if faudrait affecter
i ∈ X − X.
On supposera dans la suite de ce chapitre que les données, et donc la
matrice X, sont centrées.

5.1 Principe de la méthode


Chacun des n individus est un vecteur de Rp . Les q classes d’individus
forment chacune un nuage et le but de l’analyse discriminante est de trou-
ver des vecteurs, combinaisons linéaires des caractères initiaux, séparant au
mieux lesdits nuages.
Ainsi, de même qu’en A.C.P., on cherche une nouvelle base de Rp mais
ces nouveaux caractères ne sont plus de variance maximum (i.e. des axes
“portant” le plus d’inertie) mais ceux pour qui :
– les individus d’une même classe se projettent sur des valeurs voisines,
– deux individus de classes différentes se projettent sur des valeurs différentes.
Ceci signifie que sur chaque axe, la variance des projections des individus

83
84 CHAPITRE 5. L’ANALYSE DISCRIMINANTE

d’une même classe doit être la plus faible possible et la variance d’individus
de classes différentes la plus grande possible.

5.1.1 Matrices de variances intraclasse et interclasses


Nos données étant centrées, la matrice de variance du nuage (cf. par-
tie 3.3.3) est égale à V = t XDX, où D est la matrice des poids des individus.
Pour chaque classe 1 ≤ k ≤ q d’individus on peut calculer la matrice de
variance Wk des caractères restreints aux éléments de la classe k :en notant
Xk la matrice des individus de la classe k, Wk = t Xk DXk . En associant à
chaque classe k unPpoids Pk égal à la somme des poids de chaque individu
de la classe (Pk = xi ∈Xk pk ), on appelle matrice intraclasse la matrice W :
q
X
W = Pk W K
i=1

En notant g k = (g1k , . . . , gpk ) le centre de gravité de chaque classe (avec


pi xij
P
x ∈X
gik = j
Pk
k
), on appelle matrice interclasse la matrice B de terme
générique :
q
X
bij = Pk (gki )(gkj )
k=1

On obtient facilement l’égalité :


q
X
V = Pk W K + B = W + B
i=1

5.1.2 Variance d’un caractère


Soit u ∈ Rp . Le caractère qui lui est associé est alors c = Xu. De la même
manière qu’en A.C.P. (cf. 3.6.1), la métrique utilisée est celle induite par la
matrice des poids D.
La norme du caractère c est alors égale à :

||c||2D = t cDc = t u t XDXu = t uV u = t uW u + t uBu

La norme d’un caractère peut ainsi se décomposer en somme de deux


variances :
– t uW u, variance intraclasse, rendant compte de la variation des valeurs
de projections sur u des individus à l’intérieur d’une même classe,
5.1. PRINCIPE DE LA MÉTHODE 85

– t uBu, variance interclasse, rendant compte de la dispersion des projec-


tions des centres de gravité des différentes classes sur u.
Les vecteurs de la base de Rp recherchés sont donc ceux tels que t uBu
soit le minimum possible et tels que t uW u soit le maximum possible.

5.1.3 Facteurs et caractères discriminants


Soit u ∈ Rp et c = Xu son caractère associé. Le caractère est dit parfai-
tement discriminant si t uW u = 0. On a alors t uBu qui est maximum et vaut
t
uV u (bref, c’est le meilleur caractère que l’on puisse trouver).
Dans la pratique, ce cas idéal n’apparaı̂t malheureusement pas et il faut
donc trouver le meilleur caractère qui, d’une part maximise la variance in-
terclasse et, d’autre part minimise la variance intraclasse.
De part l’égalité V = W + B, on en déduit
t
uBu t uW u
t uV u
+ t =1
uV u
et donc, le meilleur caractère possible est celui qui maximise
t
uBu
t uV u
ce caractère minimisant également
t
uW u
t uV u
Soit c = Xu un tel caractère. Le vecteur u annule donc les dérivées par-
t uBu
tielles de t uV u
(t uBu et t uV u sont des fonctions de Rp dans R continues
et dérivables car polynômiales. Elles se dérivent donc de façon usuelle, en
dérivant coordonnée par coordonnée). On peut représenter de façon matri-
cielle le système à annuler :
2(t uV u)Bu − 2(t uBu)V u
(t uV u)2
Ainsi :
2(t uV u)Bu − 2(t uBu)V u = 0
t uBu
Bu = t uV u
Vu
t uBu
−1
V Bu = t uV u u
t uBu
t uV étant un scalaire, on en déduit que u est un vecteur propre de la
u
t uBu
matrice V −1 B associé à la plus grande valeur propre puisque t uV u
est maxi-
mum.
86 CHAPITRE 5. L’ANALYSE DISCRIMINANTE

5.1.4 Recherche des facteurs


Les facteurs discriminants sont, on l’a vu, les vecteurs propres de la ma-
trice V −1 B. De même qu’en A.C.P. on montre qu’en ordonnant les valeurs
propres par ordre décroissant λ1 ≥ λ2 ≥ . . . λp , les vecteurs propres ui as-
sociés forment une base orthonormée de Rp maximisant la discrimination.
t
On peut montrer qu’en essayant de minimiser la quantité tuW u
uV u
, on est
−1
ramené à chercher les vecteurs propres de la matrice W B, vecteurs propres
λi
identiques à ceux de V −1 B. On montre de plus que W −1 Bui = (1−λ i)
ui .
Les valeurs propres de V −1 B étant positives, on en déduit qu’elles sont
toutes plus petite que 1 et qu’une valeur propre égale à 1 correspond à un
caractère parfaitement discriminant (i.e. t uW u = 0). On peut également
remarquer qu’il y a au plus q − 1 valeurs propres non nulle puisque la matrice
B est formée à partir des q centres de gravité des classes dont la somme
pondérée par le poids des classes est égale au centre de gravité du nuage et
vaut donc 0 puisque nos données sont centrées.

5.2 L’analyse discriminante décisionnelle


Lorsqu’il y a uniquement deux classes d’objets, il n’existe qu’un seul fac-
teur discriminant u, donné par l’équation :

u = V −1 (g2 − g1 ) = W −1 (g2 − g1 )

Le problème est maintenant de pouvoir affecter tout nouvel individu x0 à


une des deux classes possible. De part l’équation ci-dessus, on peut décider
de choisir d’affecter x0 à la classe dont le centre de gravité est le plus proche
au sens de la métrique induite par V −1 . Cette métrique est appelé distance
de Mahalanobis.
On affecte donc x0 à la classe 1 si et seulement si t (x0 − g1 )V −1 (x0 − g1 ) <
t 0
(x −g2 )V −1 (x0 −g2 ). Ceci revient à se placer de part et d’autre de l’hyperplan
orthogonal à u (pour la métrique V −1 ), hyperplan appelé hyperplan de Fisher
(cf. figure 5.1).
Ce critère de décision se généralise aisément à plus de deux classes, et
donc pour chaque nouvel individu x0 on l’affecte à la classe l telle que :

dV −1 (x0 , gl ) = min dV −1 (x0 , gi )


1≤i≤q
5.3. L’ANALYSE DISCRIMINANTE COMME CAS PARTICULIER D’A.C.P.87

Décision d1 Décision d2

Classe 1

Classe 2

g1

g2

Figure 5.1 – Hyperplan de Fisher

5.3 L’analyse discriminante comme cas par-


ticulier d’A.C.P.
En considérant la matrice G à q lignes et p colonnes tels que la ligne i
soit le centre de gravité de la classe i et en utilisant la matrice diagonale des
poids Dq de chaque classe (le poids d’une classe étant égal à la somme des
poids des individus de la classe), on a :

V = t GDq G = B

Ainsi, puisque les facteurs principaux sont les vecteurs propres de la ma-
trice M V (où M est la métrique utilisée, cf. 3.6), en utilisant la métrique
M = V −1 (on utilise la distance de Mahalanobis) on retrouve les vecteurs et
valeurs propres de l’analyse discriminante.
88 CHAPITRE 5. L’ANALYSE DISCRIMINANTE
Chapitre 6

L’analyse factorielle des


correspondances

Cette méthode, introduite pour l’analyse de questionnaires et de tableaux


de contingences par J.-P. Benzécri, l’analyse factorielle des correspondances
est de part la richesse de ses interprétations, fort étudiée et intensivement
utilisée en analyse des données car la validité de la méthode s’étant à tout
tableau de données vérifiant les deux propriétés suivantes :
– les données sont toutes positives,
– les données sont homogènes (i.e. les grandeurs représentées dans le
tableau sont toutes de même grandeur).
L’analyse des correspondances est en fait un sous-produit de l’analyse
canonique (que nous ne verront pas). Or cette dernière s’appuie essentielle-
ment sur des considérations géométriques (calcul de l’angle que forment deux
sous-espaces vectoriels), et permettrait d’introduire l’analyse des correspon-
dances de façon rigoureuse et élégante. Cependant, une telle présentation ne
fait que peu appel à l’“intuition statistique”. Celle-ci nous paraissant tout à
fait essentielle, ce chapitre sera consacrée à une introduction heuristique à
l’analyse des correspondance.
Nous utiliserons comme exemple dans ce chapitre les données de la table 6.1
qui recense le niveau hiérarchique et l’origine sociale des 390 salariés d’une
entreprise.
Le nombre d’éléments d’un tableau de contingence est la somme des lignes
et des colonnes, et sera donc noté n. Ici, n = 390 qui est le nombre de salariés
considérés.

89
90CHAPITRE 6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES

Table 6.1 – tableau de contingence entre niveau hiérarchique et origine


sociale
P
cadres agriculteurs ouvriers/employés autre
ouvriers/employés 11 14 107 75 207
agents de maı̂trise 1 10 60 30 102
cadre 23 2 166 40 81
P
35 26 183 146 390

6.1 Les données


L’analyse factorielle des correspondances (A.F.C.) porte sur la description
de variables nominales.
On considère deux variables nominales x et y sur la population X, repré-
sentées par leur tableau de contingence N = (nij )1≤i≤L,1≤j≤K à L lignes et K
colonnes (cf. tableau 6.1). C’est dire que notre attention ne porte que sur les
modalités des deux variables, les “noms” des individus prenant ces modalités
étant oubliées.
x devient la variable ligne, y la variable colonne. On utilisera les notation
suivantes :
– nij sera l’élément du tableau de contingence situé à la ligne i et la
colonnePj,
– ni• = P1≤j≤K nij ,
– n•j =P 1≤i≤L nij , P
– n = 1≤j≤K n•j = 1≤i≤L ni•
Les nombres ni• (1 ≤ i ≤ L) et n•j (1 ≤ j ≤ K) sont appelées distribu-
tions marginales. Non pas qu’ils soient moins important que d’autres mais
parce que habituellement, ils sont écrits dans les marges.
Les matrices DL et DK traduisent ces distributions marginales de façon
matricielle. Ces matrices sont alors des matrices diagonales à L et K lignes
respectivement :
   
n1• n•1
.. ..

 . 0



 . 0


DL =  ni•  DK =  n•j
   

 . .
  . .

 0 .   0 . 
nL• n•K
De même, si l’on s’intéresse aux fréquences, on pourra noter :
n
– fij = nij ,
6.2. LES NUAGES 91

– fi• = nni• ,
n
– f•j = n•j ,
Le χ2 du tableau (cf. partie 2.2.3) s’écrit alors :

X (nij − ni• n•j 2 X (fij − fi• f•j )2


)
χ2 = ni• n•j
n
=n
ij n ij
fi• f•j

6.2 Les nuages


Au tableau N correspond a priori deux nuages de points :
– en ligne, L points dans RK , les nij formant les coordonnées du point i,
– en colonne, K points de RL (de coordonnées nij ).
Ces deux nuages sont tout aussi important l’un que l’autre. On devra donc
dans toute A.F.C. effectuer deux analyses, l’une en ligne et l’autre en colonne.
Les vecteurs ainsi obtenus risquent d’être extrêmement sensibles aux effec-
tifs marginaux. Ainsi, dans l’exemple du tableau 6.1, la dernière ligne (23, 2,
166,40) est globalement plus petite par rapport à la première (11,14,107,75).
De plus les populations ne sont pas homogènes puisqu’elle se compose de 207
ouvriers et seulement 81 cadres. Pour pallier cet inconvénient, on divise selon
l’option (ligne ou colonne) l’effectif nij par les valeurs marginales (ni• ou n•j )
correspondante. On obtient ainsi deux nuages :
XL : L points dans RK , défini tel que

XL = DL−1 N

XK : K points dans RL , défini tel que


−1 t
XK = DK N

Ces deux matrices XL et XK sont appelés respectivement tableau des


profils lignes et tableau des profils colonnes (cf. tableau 6.2).

Table 6.2 – Profils lignes et colonnes du tableau 6.1


 11 1 23

 11 14 107 75 
35 35 35
207
1
207
10
207
60
207
31 
 14 10 2 
XL =  102 X = 26 26 26 
K
 107 60 16
102 102 102
23 2 16 40
 
183 183 183
81 81 81 81 75 31 40
146 146 146
92CHAPITRE 6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES

6.3 La distance
Selon l’espace considéré, RL ou RK , on pourrait prendre la distance eu-
clidienne :
– entre deux lignes i et i0 :
X nij ni0 j 2 X fij f i0 j 2
δL2 (i, i0 ) = ( − ) = ( − )
j
ni• ni0 • j
fi• fi0 •

– entre deux colonnes j et j 0 :


X nij nij 0 2 X fij fij 0 2
2
δK (j, j 0 ) = ( − ) = ( − )
i
n •j n•j 0
i
f •j f •j 0

Une telle distance apporte cependant un tracas. Reprenons l’exemple du


tableau 6.1. L’effectif de la colonne j0 “ouvrier/employé” est assez considérable,
en tout cas beaucoup plus important que celui de la colonne “cadre”. Dans
n n0
un tel cas, la différence ( niji•0 − ni 0j0 )2 joue un rôle excessif dans le calcul de
i •
δL2 (i, i0 ).
Ainsi, pour i = “ouvriers – employés”et i’ = “agents de maı̂trise”, on
trouve comme contribution des coordonnées à δL2 (i, i0 )
cadres : 8,3 %
agriculteurs : 12%
ouvriers – employés : 33%
autres : 46,2%
Les deux dernières modalités écrasent les deux premières. Afin d’éviter
cet inconvénient, on pondère, lors du calcul de la distance :
– pour le nuage XL de RK , la jième coordonnée par nn•j = f1•j
– pour le nuage XK de RL , la iième coordonnée par nni• = f1i•
Les distances deviennent alors
– entre les lignes
X n nij ni0 j 2 X 1 fij fi 0 j 2
δL2 (i, i0 ) = ( − ) = ( − )
j
n•j n i• ni 0•
j
f •j f i• f i 0•

– entre les colonnes


X n nij nij 0 2 X 1 fij fij 0 2
2
δK (j, j 0 ) = ( − ) = ( − )
i
ni• f•j n•j 0 i
fi• f•j f•j 0

Ce type de métrique est appelé métrique du χ2 . Les M -normes associés


sont alors :
6.4. ANALYSES DES NUAGES 93

– la matrice ML = nDk−1 pour l’analyse en lignes,


– la matrice MK = nDL−1 pour l’analyse en colonnes.
Un autre intérêt de la métrique du χ2 est qu’elle vérifie le principe d’équiva-
lence distributionnelle. Énonçons le pour les profils lignes. Si les deux moda-
lités i et i0 ont des profils identiques, on peut les regrouper en une seule et
sommer leurs effectifs. Il n’y a plus alors que L − 1 modalités en lignes et
les distances d2K (j, j 0 ) construites dans RL−1 à partir de ce nouveau tableau
coı̈ncide avec celles que l’on avait précédemment définies dans RL (on pourra
le démontrer en exercice).

6.4 Analyses des nuages


Nous allons reprendre ici les résultats de la partie 3.8. La seule différence
notable est que nos données ne sont pas centrées. Cependant, nos données
étant issues d’un tableau de contingence, le centre de gravité du nuage n’a
pas de sens “physique” ici. Nous ne centrerons donc pas les données, et nous
appliquerons tout de même les résultats de la partie 3.8, ses effets étant
négligeables (cf. partie 6.4.2).

6.4.1 Matrices V
La matrice V = t XDX de l’ACP était égale à la matrice de variance-
covariance car les données étaient centrées. Ici, les données étant non centrée,
les matrices correspondantes ne correspondent plus à la variance. La matrice
D est la matrice des poids. Pour l’analyse en ligne, cette matrice correspond
alors à n1 DL , et à n1 DK pour l’analyse ne colonne. On a donc :
– VL = t XL ( n1 DL )XL pour l’analyse en ligne,
– VK = t XK ( n1 DK )XK pour l’analyse en colonne.

6.4.2 A.C.P en ligne et colonne


Les facteurs propres sont les vecteurs propres de la matrice M V .

Analyse en ligne
Ici la matrice M V = ML VL . On a alors :
−1 t
ML VL = (nDK )( XL ( n1 DL )XL )
= nDK (DL−1 N ) n1 DL DL−1 N
−1 t
−1 t t −1 1
= nDK N DL n DL DL−1 N
= DK N DL−1 N
−1 t
94CHAPITRE 6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse en colonne

Ici la matrice M V = MK VK . On a alors :

MK VK = (nDL−1 )(t XK ( n1 DK )XK )


= nDL−1 t (DK−1 t −1 t
N ) n1 DK DK N
−1 tt t −1 1 −1 t
= nDL N DK n DK DK N
= DL−1 N DK −1 t
N

6.4.3 Valeurs propres


−1 t
On peut montrer que les valeurs propres de DK N DL−1 N et DL−1 N DK
−1 t
N
sont les mêmes et toutes plus petites que 1.
Il ressort de cela qu’il n’y a au plus que min{K, L} vecteurs propres
associés à des valeurs propres non nulles.
Les données étant non centrées, on peut de plus montrer que le “centre
de gravité” (que l’on peut définir même s’il n’a pas de réalité “physique”)
gL des lignes est vecteur propre de ML VL pour la valeur propre 1 et que le
centre de gravité gK des colonnes est vecteur propre de MK VK pour la valeur
propre 1 également.
Ces vecteurs propres nous sont inutiles, on ne considérera donc pas les
“centres de gravité” comme des vecteurs propres. On note alors λ1 ≥ λ2 ≥
. . . ≥ λmin{K,L}−1 les valeurs propres associés aux vecteurs propres différents
de gL et gK .

Remarque 16 Si l’on avait centré les données, les centres de gravités (des
données non centrées) auraient été vecteurs propres de la valeur propre 0.
Ceci participe du fait qu’on les ignore dans notre analyse non centrée.

Comme la trace de la matrice M V est égale à la somme des valeurs


propres, on a :

trace(ML VL ) = trace(MK VK )
= 1 + λ1 + . . . + λmin{K,L}−1
P P n2ij
= i j ni• n•j
χ2
= 1+ n

Le χ2 remplace ici l’inertie de l’ACP. En AFC, c’est ainsi le χ2 qui tient


lieu “d’information”.
6.4. ANALYSES DES NUAGES 95

6.4.4 Vecteurs Propres et composantes principales


Soient u1 , . . ., umin{K,L}−1 les vecteurs propres de l’analys en ligne associés
aux valeurs propres λ1 ≥ λ2 ≥ . . . ≥ λmin{K,L}−1 et v1 , . . ., vmin{K,L}−1 les
vecteurs propres de l’analyse en colonne associé aux mêmes valeurs propres.
Les composantes principales sont alors :
– pour l’analyse en ligne :

ci = XL ui = DL−1 N ui

– pour l’analyse en colonne :


−1 t
dj = Xk vj = DK N vj

Ces composantes principales entretiennent une propriété plus qu’intéressante.


En effet, les composante principales en lignes sont des vecteurs propres de
l’analyse en colonne et réciproquement.
Pour montrer cela, considérons ci , ième composante principale de l’ana-
lyse en ligne. On a alors :

(MK VK )ci = (MK VK )(XL ui )


= (DL−1 N DK
−1 t
N )(DL−1 N ui )
= DL−1 N (DK
−1 t
N )(DL−1 N )ui
−1
= DL N (ML VL )ui

Comme ui est un vecteur propre de ML VL de valeur propre λi on a :

(MK VK )ci = DL−1 N (ML VL )ui


= DL−1 N λi ui
= λi (DL−1 N )ui
= λi XL ui
= λi ci

On a exactement le même résultat pour les colonnes, à savoir :

(ML VL )dj = λj dj

Les normes des composantes principales ci et di étant égales à λi (cf.
partie 3.8, les normes sont associés aux matrices des poids), on a les égalités
suivantes
√ :
– √λi vi = ci
– λi ui = di
96CHAPITRE 6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES

6.5 Représentation simultanée des lignes et


des colonnes
L’ACP des profils ligne et des profils colonnes sont a priori effectué sur
des espaces de dimensions différentes (de dimension K pour les profils lignes
et L pour les profils colonnes). Cependant, nous avons vu précédemment qu’il
existe, de part les formules de transitions, de grandes liaisons entre les deux
analyses. On pourra donc représenter simultanément les résultats des deux
analyses sur le même graphique.
j
p On a vu que les composantes principales jc des profils lignes sont égales à
λ v et que les composantes principales d des profils colonnes sont égales
pj j
à λj uj . Plusieurs conventions sont possibles pour représenter ces résultats,
nous ne présentons que la plus usitée.
On supperpose les graphiques issus des ACP en lignes et en colonnes, c’est
àpdire que l’on représente sur lepmême graphique les points de coordonnées
λj vj et ceux de coordonnées λj uj .
Dans ce genre de représentation, il faut faire attention dans l’interprétation
d’une proximité entre un point i issu des profils lignes et un point j issu des
profils colonnes. La seule chose que l’on puisse dire est que les individus du
tableau de contingence possédant la modalité i ont un barycentre proche des
individus possédant la modalité j. Ceci signifie la plupart du temps, mais pas
toujours (attention, gros piège possible : cette possibilité ne peut être vérifiée
que sur le tableau initial), que ces deux modalités sont liées.

6.6 Interprétations
Pour une AFC, on a vue que ce qui tenait lieu “d’information” était le
χ2 .
Les parts de χ2 fournissent une estimation globale de la qualité des
représentations factorielles. Localement, on dispose de deux “indices” : les
contributions absolues et relatives.

6.6.1 Contribution absolue d’une modalité à un axe


Chaque axe est représenté par sa composante principale. Or :
||ci ||2 = ||di ||2 = λi
De plus, les normes étant celles des poids des individus, on a :
||cj ||2 = P1≤i≤L nni• ((cj )i )2
P
ni• 2
= 1≤i≤L n (λj (vj )i )
6.7. ÉLÉMENTS SUPPLÉMENTAIRES 97

De même : n•j
||di ||2 = ((di )j )2
P
P1≤j≤K n
n•j
= 1≤j≤K n
(λi (ui )j )2
On a alors pour tout axe h (1 ≤ h ≤ min{K, L}) :

λh = P1≤i≤L nni• (λh (vh )i )2


P
n•j 2
= 1≤j≤K n (λh (uh )j )

La ligne i de l’analyse en ligne contribue donc à l’axe h de :

fi• (chi )2
CAh (i) = (λh fi• (vh )i )2 =
λh
et la ligne j de l’analyse en colonne contribue à l’axe h de :

f•j (dhj )2
CAh (j) = (λh f•j (uh )j )2 =
λh

La part de chi2 du hième axe (dont l’inertie est égale à λh ) due à la


modalité ligne i est donc égale à fi• ((vh )i )2 et celle due à la modalité colonne
j est égale à f•j ((uh )j )2
Ces contributions permettent de déceler les modalités ayant joué un grand
rôle dans la formation d’un axe et, par suite, d’interpréter icelui.

6.6.2 Contribution relative d’un axe à une modalité


De même qu’en ACP on regarde le cosinus carré de l’angle entre les profils
lignes ou colonnes et les axes principaux. La somme des cosinus carrées des
angles entre un même individu et tout les axes est bien évidemment égal à
1.
Du point de vue de l’interprétation, un individu presque perpendiculaire
à un axe principal signifie que que ledit individu est totalement étranger à la
tendance exprimée par l’axe en question.

6.7 Éléments supplémentaires


Il s’agit de la technique qui, les axes étant calculés, permet de projeter
dans les plans factoriels une modalité supplémentaire. Cette pratique, per-
mise par les programmes, s’avère souvent fort utile (par exemple lorsqu’à
l’issue d’une analyse des points s’avèrent très éloignés des autres, on aura
intérêt à refaire l’analyse en les traitant en éléments supplémentaires).
98CHAPITRE 6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES

Table 6.3 – Habitudes de lecture

l’Équipe Elle Spirou ni•


père 1 0 0 1
mère 0 1 0 1
aı̂né 1 1 1 3
cadet 1 0 1 2
fille 0 1 1 2
n•j 3 3 3 9

6.8 Exemple simple


Le tableau 6.3 indique les habitudes de lecture d’une famille (1 = “lit”,
0 = “ne lit pas”).
Les tableaux des profils lignes et colonnes correspondant valent :
– XL = DL−1 N : 5 points dans R3
 
1 0 0
 0 1 0 
 1 1 1 
 
 31 3 31 

2
0 2 
0 21 12

– XK = DK t N : 3 points dans R5
1 1
 
1 0 3 3
0
 0 1 1
0 1 
3 3 3
1 1 1
0 0 3 3 3

Le nuage XL est représenté sur la figure 6.1. Il est situé dans le plan
d’équation x + y + z = 1.
La symétrie évidente de la figure fait que le centre de gravité est situé
en “aı̂né”. Les axes 1 et 2 sont également représenté sur la figure 6.1. Ils ont
pour part d’inertie respective 75% et 25% (comme le montrerait le calcul).
L’interprétation des axes va de soi. L’axe 1 représente le sexe des membres
de la famille et l’axe 2 leur l’âge.
On obtient les coordonnées sur ces axes des trois journaux en calculant
les composantes des vecteurs de la base initiale. La représentation simultanée
usuelle est indiquée sur la figure 6.2.
6.8. EXEMPLE SIMPLE 99

(Spirou)

Axe 1

Axe 2

Fille

Ainé
Cadet
(Elle)
Mère

Père

(l'Équipe)

Figure 6.1 – Le nuage NL

AXE 2 (25%)

Père Mère

l'Équipe Elle

Ainé

AXE 1 (75%)

Cadet Fille

Spirou

Figure 6.2 – Représentation factorielle

Vous aimerez peut-être aussi