0% ont trouvé ce document utile (0 vote)

68 vues99 pages

Analyse Des Données

Ce document traite de l'analyse des données, en abordant les différents types de variables et les espaces de représentation associés. Il couvre des concepts tels que les variables numériques, ordinales et nominales, ainsi que des méthodes d'analyse comme l'analyse en composantes principales et la classification. L'objectif est de fournir une compréhension des techniques statistiques pour caractériser et comparer des objets à partir de données.

Transféré par

Mounia Tahri

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

68 vues99 pages

Analyse Des Données

Transféré par

Mounia Tahri

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse des données

Frédéric Cadier

Master IADBA – Année 2008/2009

2
Table des matières

1 Les données 7
1.1 Espaces de représentation . . . . . . . . . . . . . . . . . . . . 7
1.2 Espaces engendrés par des variables . . . . . . . . . . . . . . . 8
1.2.1 Variables numériques . . . . . . . . . . . . . . . . . . . 8
1.2.2 Variables ordinale et nominales . . . . . . . . . . . . . 9
1.3 Espace des modèles . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Distances et similitude dans les espaces de représentation . . . 11
1.4.1 Dissimilarités et similarités . . . . . . . . . . . . . . . 12
1.4.2 Variables continues . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Variables booléennes (présence/absence) . . . . . . . . 14

2 Description d’une ou deux variables 17

2.1 Description d’une variable . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Distribution . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 Valeurs centrales . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Paramètres de dispersion . . . . . . . . . . . . . . . . . 23
2.1.4 Boı̂te à moustaches . . . . . . . . . . . . . . . . . . . . 26
2.2 Description de deux variables . . . . . . . . . . . . . . . . . . 27
2.2.1 Nuage de points et régression linéaire . . . . . . . . . 27
2.2.2 Corrélation linéaire et axe principal . . . . . . . . . . 29
2.2.3 Test d’indépendance du χ2 . . . . . . . . . . . . . . . . 33

3 Analyse en composantes principales 37

3.1 Exemple avec les mains . . . . . . . . . . . . . . . . . . . . . 37
3.2 Principe de la méthode (sans les mains) . . . . . . . . . . . . . 38
3.3 Reformulation des données . . . . . . . . . . . . . . . . . . . . 40
3.3.1 Matrice de données . . . . . . . . . . . . . . . . . . . . 40
3.3.2 Poids des données . . . . . . . . . . . . . . . . . . . . . 40
3.3.3 Matrices de description . . . . . . . . . . . . . . . . . 40
3.3.4 Réduction des données . . . . . . . . . . . . . . . . . . 41
3.4 Recherche des sous-espaces principaux . . . . . . . . . . . . . 42

3
4 TABLE DES MATIÈRES

3.4.1 Un sous-espace à 1 dimension . . . . . . . . . . . . . . 44

3.4.2 Sous-espaces principaux à plus d’1 dimension . . . . . 46
3.4.3 Axes principaux . . . . . . . . . . . . . . . . . . . . . . 47
3.5 Inertie et sous-espace principal . . . . . . . . . . . . . . . . . 48
3.6 Description du nuage des individus . . . . . . . . . . . . . . . 49
3.6.1 Description du nuage des caractères . . . . . . . . . . . 51
3.6.2 Reconstructions et transitions . . . . . . . . . . . . . . 52
3.7 Interprétation des résultats . . . . . . . . . . . . . . . . . . . . 53
3.7.1 Valeurs propres, facteurs et composantes principales . . 53
3.7.2 Composantes principales et représentation graphique . 54
3.7.3 Interprétation des axes et des projections . . . . . . . . 56
3.8 Cas général et utilisation des métriques . . . . . . . . . . . . . 58
3.8.1 Métrique . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.8.2 Espace des individus . . . . . . . . . . . . . . . . . . . 59
3.8.3 Espace des caractères . . . . . . . . . . . . . . . . . . 59
3.8.4 A.C.P avec une métrique quelconque . . . . . . . . . . 60
3.9 Quelques remarques . . . . . . . . . . . . . . . . . . . . . . . . 60
3.9.1 L’analyse en facteurs communs et spécifiques . . . . . . 61
3.9.2 L’analyse en composante principale . . . . . . . . . . . 61

4 Classification 63
4.1 Modèles de classification . . . . . . . . . . . . . . . . . . . . . 64
4.1.1 Partitions et hiérarchies . . . . . . . . . . . . . . . . . 65
4.2 Méthodes de partitionnement . . . . . . . . . . . . . . . . . . 68
4.2.1 Choix d’une partition . . . . . . . . . . . . . . . . . . . 68
4.2.2 k-means . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.2.3 Algorithme des transferts . . . . . . . . . . . . . . . . 77
4.3 L’algorithme de Classification Ascendante Hiérarchique (C.A.H.)
78
4.3.1 Pseudo-code . . . . . . . . . . . . . . . . . . . . . . . . 79
4.3.2 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . 79
4.3.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 80

5 L’analyse discriminante 83
5.1 Principe de la méthode . . . . . . . . . . . . . . . . . . . . . . 83
5.1.1 Matrices de variances intraclasse et interclasses . . . . 84
5.1.2 Variance d’un caractère . . . . . . . . . . . . . . . . . . 84
5.1.3 Facteurs et caractères discriminants . . . . . . . . . . . 85
5.1.4 Recherche des facteurs . . . . . . . . . . . . . . . . . . 86
5.2 L’analyse discriminante décisionnelle . . . . . . . . . . . . . . 86
5.3 L’analyse discriminante comme cas particulier d’A.C.P. . . . . 87
TABLE DES MATIÈRES 5

6 L’analyse factorielle des correspondances 89

6.1 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.2 Les nuages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.3 La distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.4 Analyses des nuages . . . . . . . . . . . . . . . . . . . . . . . 93
6.4.1 Matrices V . . . . . . . . . . . . . . . . . . . . . . . . 93
6.4.2 A.C.P en ligne et colonne . . . . . . . . . . . . . . . . 93
6.4.3 Valeurs propres . . . . . . . . . . . . . . . . . . . . . . 94
6.4.4 Vecteurs Propres et composantes principales . . . . . . 95
6.5 Représentation simultanée des lignes et des colonnes . . . . . . 96
6.6 Interprétations . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.6.1 Contribution absolue d’une modalité à un axe . . . . . 96
6.6.2 Contribution relative d’un axe à une modalité . . . . . 97
6.7 Éléments supplémentaires . . . . . . . . . . . . . . . . . . . . 97
6.8 Exemple simple . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6 TABLE DES MATIÈRES
Chapitre 1

Les données

1.1 Espaces de représentation

Pour analyser un ensemble fini d’objets X (dans la suite de ce syllabus,
on supposera toujours que le nombre d’éléments de X est n et on les notera
indifféremment x1 , x2 , . . ., xn , x, y, z, t, . . .), il faut disposer d’informations
permettant soit de caractériser les objets soit de les comparer. Ces informa-
tions se laissent représenter de diverses manières qui correspondent à autant
d’espaces de représentation dans lesquels les objets peuvent être plongés.
Une description des objets mobilise le plus souvent des paramètres (que l’on
supposera en nombre fini) et l’on parlera alors d’espace de représentation
engendré par des variables. Ces variables peuvent être de plusieurs types :
variables numériques, variables ordinales et variables nominales.
On appellera le plus souvent individus les objets de X et caractères les
variables associées.
Une variable numérique peut-être discrète ou continue. On dit qu’une
variable est continue lorsque entre deux valeurs observées toute valeur est
observable (une taille, un poids). Votre compte en banque, compté en cen-
times d’euros, est quant à lui un exemple de variable discrète.
Une variable ordinale ne retient que des comparaisons entre des valeurs
(je préfère x à y, x est plus intéressant que y, . . .). Chaque variable ordinale
induit une relation d’ordre soit sur l’ensemble X, soit sur un ensemble de
“références” a priori indépendant de X (un peu, beaucoup, à la folie, pas du
tout, . . .).
Une variable nominale est décrite par un ensemble de valeurs non com-
parables (une catégorie socioprofessionnelle, une couleur, une appartenance
politique, . . .).
Un cas particulier de variables sont les variables binaires qui ne prennent

7
8 CHAPITRE 1. LES DONNÉES

que deux valeurs notées 0 et 1. Celles-ci peuvent être dichotomiques : les

deux modalités sont mutuellement exclusives et toutes deux significatives (le
1 et le 2 qui, plutôt que 0 et 1 désignent le sexe pour la sécurité sociale), ou
de présence/absence : seule une modalité à un sens (posséder – ou pas – un
caractère donné).

1.2 Espaces engendrés par des variables

Supposons que nos n objets soient décrits par un ensemble de p variables.
L’espace de représentation E qui leur sera associé sera le produit cartésien
des ensembles engendrés par icelles. On a ainsi E = Rp , lorsque les variables
sont continues ; tandis dans dans les autres cas on peut poser E = Np . Les
variables booléennes correspondant au cas particulier {0, 1}p .

1.2.1 Variables numériques

L’espace euclidien Rp est l’espace de représentation de l’analyse (géomé-
trique) des données, c’est pourquoi le présent syllabus lui sera presque ex-
clusivement consacré. Chaque objet xi ∈ X est ici codé par un p-uplet
xi = (x1i , x2i , . . . , xpi ) dans lequel xji est la valeur que prend la j-ième variable
sur l’objet xi
Le tableau ci-après (tableau 1.1) montre un exemple d’objets (les lignes)
décrites par des données numériques (les colonnes).

Table 1.1 – Patrimoine selon la catégorie socioprofessionnelle

Livrets Épargne Placements Actions Pierre Terres
logement obligatoires
bons,. . . (assurances)
(LIV) (ELB) (POA) (ACT) (PIE) (TER)
Anciens indépendants
non agricoles (AI) 8,00 6,00 10,00 23,00 44,00 9,00
Professions libérales
(PL) 6,00 8,00 17,00 25,00 35,00 9,00
Industriels, artisans
commerçants (IAC) 5,00 6,00 13,00 36,00 34,00 6,00
Cadres supérieurs (CS) 9,00 9,00 14,00 40,00 23,00 5,00
Agriculteurs (AG) 11,00 13,00 16,00 7,00 19,00 34,00
Anciens agriculteurs
(AA) 14,00 13,00 13,00 6,00 27,00 27,00
Anciens salariés (AS) 16,00 14,00 13,00 25,00 26,00 6,00
Professions
intermédiaires (PI) 17,00 15,00 17,00 20,00 26,00 5,00
Employés (EM) 22,00 14,00 18,00 11,00 27,00 8,00
Ouvriers (OU) 24,00 18,00 25,00 8,00 20,00 5,00

En analyse des données, la démarche diffère de celle adoptée en statistique

inférentielle où l’ensemble des objets est souvent vu comme un échantillon
d’une population plus vaste et l’on cherche à trouver des informations sur
1.2. ESPACES ENGENDRÉS PAR DES VARIABLES 9

cette population à partir de l’échantillon considéré. Ici, X est la population

et les valeurs prises par chaque variable constituent une distribution observée
à partir de laquelle on peut calculer des paramètres (la moyenne, la variance,
. . .), expliquer les valeurs prises par certaines variables à partir de valeurs
prises par d’autre (régressions), ou encore structurer les données (analyses
factorielles).

1.2.2 Variables ordinale et nominales

Une variable ordinale induit un ordre total sur l’ensemble X des objets,
l’espace de représentation associé est donc un produit direct d’ordre totaux.
Nous ne parlerons que très peu de ce genre de données par la suite, et nous
nous restreindrons aux variables booléennes, dont le tableau 1.2 donne un
exemple.
A : l’animal pond-t-il des œufs ?
B : présence de plumes ?
C : présence d’écailles ?
D : présence de dents ?
E : l’animal vole-t-il ?
F : l’animal nage-t-il ?
G : l’animal respire-t-il dans l’air (1) ou dans l’eau (0) ?

Table 1.2 – tableau booléen

A B C D E F G
Autruche 1 1 0 0 0 0 1
Canari 1 1 0 0 1 0 1
Canard 1 1 0 0 1 1 1
Requin 1 0 0 1 0 1 0
Saumon 1 0 1 0 0 1 0
Grenouille 1 0 0 0 0 1 1
Crocodile 1 0 0 1 0 1 1
Barracuda 1 0 1 1 0 1 0

Ce genre de données peut être représenté en utilisant une terminologie

booléenne. Soit X l’ensemble des n objets décrits par un ensemble A =
{A, B, C, . . .} de m attributs ou variables binaires. Chacun, par exemple A,
peut prendre les valeurs a (dite forme directe, codée 1) et ā (dite forme
indirecte, codée 0). Ceci peut être ramené à un tableau de valeurs 0 ou 1
avec n lignes correspondant aux éléments de X et m colonnes correspondant
10 CHAPITRE 1. LES DONNÉES

aux attributs. Par abus de notation, la variable A sera parfois confondue avec
sa forme directe a.
Le tableau 1.2 est alors équivalent à la formule Φ ci-après qui est vérifiée
par les assignations induites par les lignes :
¯ f¯g ∨ abc̄de
Φ = abc̄dē ¯ f¯g∨
¯ g ∨ ab̄c̄dēf ḡ∨
abc̄def
¯ ḡ ∨ ab̄c̄dēf
ab̄cdēf ¯ g∨
ab̄c̄dēf g ∨ ab̄cdēf ḡ

La formule Φ est alors vraie si et seulement si les variables binaires cor-

respondent à une ligne du tableau. En effet, chaque ligne du tableau 1.2 est
une suite de variables binaire liée par des ’ET’ (la première ligne du tableau
¯ f¯g qui correspond à l’autruche), chaque ligne étant liée aux
est ainsi abc̄dē
autres par des ’OU’ (le symbole ∨).
En utilisant le calcul dans les algèbres de Boole, on peut simplifier Φ.
Par exemple, à chaque fois qu’on a deux monôme du type xµ ∨ x̄µ, on peut
¯ f¯g ∨ abc̄de
utiliser la règle (xµ) ∨ (x̄µ) = µ (par exemple abc̄dē ¯ f¯g = abc̄d¯f¯g).
Après simplification, la formule Φ précédente donne :
¯ f¯ ∨ e) ∨ b̄c̄ēf (d ∨ g) ∨ b̄ēf ḡ(d ∨ c)]a
Φ = [bc̄dg(

La simplification de Φ montre que la variable ’a’ n’est pas pertinente

pour décrire les différences entre nos animaux puisqu’ils pondent tous des
œufs (la variable ’a’ est vraie pour toute les lignes). Cette formule réduite
peut se représenter comme dans la figure 1.1, qui permet de caractériser les
différences entre les individus.
a

bcdg bcef befg

f e d g d c
Autruche Canari Requin Grenouille Requin Saumon
Canari Canard Crocodile Barracuda Barracuda

Figure 1.1 – relation entre les animaux du tableau 1.2

La figure 1.1 montre par exemple que les différences entre un canard et
une autruche est alors e et f , une autruche ne volant pas et un canard ne
nageant pas.
1.3. ESPACE DES MODÈLES 11

Attention, les animaux peuvent se retrouver dans plusieurs branches, ainsi

la différence entre une autruche et un canari étant uniquement la variable ’e’
(l’autruche se différenciant du canari par le fait qu’elle ne vole pas).

1.3 Espace des modèles

Analyser des données revient à les réorganiser selon la méthode choisie.
Chaque méthode opère un recodage des données, les plongeant dans un autre
espace appelé espace des modèles.
Si l’espace de représentation correspond à un espace “naturel” de re-
présentation des données, l’espace des modèles correspond quant à lui à un
espace de travail où les données sont itérativement traitées (recodées) jusque
à la fin de l’analyse. On obtiendra ainsi par exemple des classes d’objets, ou
encore un ensemble de vecteurs sur lesquels on projette les objets. C’est de
cet espace que l’on pourra déduire des connaissances propres aux données,
c’est à dire reconnaı̂tre des configurations, des structures, des formes, induites
par les caractéristiques propres des objets.
Analyser des données est ainsi un processus où l’on commence par choisir
les caractéristiques des objets que nous voulons analyser (les placer dans
l’espace de représentation), puis une méthode d’analyse (une classification
non-hiérarchique, ou une analyse en composantes principales par exemple).
Les résultats (dans l’espace des modèles) pouvant alors être interprétés et
nous renseigner sur les objets eux-mêmes (ceux du vrai monde). Ce processus
est schématisé dans la figure 1.2.

1.4 Distances et similitude dans les espaces

de représentation
Comme vu dans la partie précédente, le choix de caractères permettant
de décrire les objets à analyser permet de les situer dans un espace de
représentation E. Reconnaı̂tre des structures induites par cette représentation
implique une étape préliminaire qui est de se doter d’outils métriques permet-
tant de mesurer des distances (ou des ressemblances, des dissemblances. . .)
entre lesdits objets. Pour cela, il nous faut associer à chaque paire d’objets un
nombre positif ou nul, d’autant plus petit que les objets sont “semblables”
(ou, si cela à un sens dans E, que les objets sont “proches” l’un de l’autre).
Après avoir rappelé les différentes définitions de dissimilarité et de dis-
tances, nous donnerons quelques types particuliers de distances parmi les
plus usités, pour des variables continues et des variables booléennes.
12 CHAPITRE 1. LES DONNÉES

connaissances re-codage

codage re-codage
Le vrai Espace de Espace des
monde représentation modèles
info

ma rithm
rm

alg
?

ths
atio

o
on

+
n

ti
s

es
qu

es
Réponses

Figure 1.2 – chaı̂ne de l’analyse

1.4.1 Dissimilarités et similarités

Définition 1 On appelle dissimilarité sur un ensemble d’objets X, une fonc-
tion d de X × X dans l’ensemble des réels telle que les propriétés ci-dessous
soient satisfaites :
(D1 ) : d(x, y) ≥ 0 pour tous x, y ∈ X (positivité)
(D2 ) : d(x, x) = 0 pour tout x ∈ X
(D3 ) : d(x, y) = d(y, x) pour tous x, y ∈ X (symétrie)

On dira qu’une dissimilarité d sur X est propre lorsque :

(D4 ) : d(x, y) = 0 ⇒ x = y pour tous x, y ∈ X
Une dissimilarité propre d sur X est appelée une distance si elle satisfait
l’inégalité triangulaire :
(D5 ) : d(x, y) ≤ d(x, z) + d(z, y) pour tous x, y, z ∈ X
Un espace métrique est un couple (X, d) formé d’un ensemble d’objets X
et d’une distance d sur X.
On peut, par opposition aux dissimilarités qui soulignent les dissem-
blances entre objets, définir une similarité sur X qui en soulignera les res-
semblances. Une similarité s sur X vérifiera donc, outre (D1 ) et (D3 ), une
propriété duale de (D2 ) :
(D20 ) : d(x, x) = max{d(x, y)|∀y ∈ X} pour tout x ∈ X
1.4. DISTANCES ET SIMILITUDE DANS LES ESPACES DE REPRÉSENTATION13

On peut facilement associer une dissimilarité d à toute similarité s :

d(x, y) = max{s(x, x), s(y, y)} − s(x, y)

et réciproquement, associer une similarité s à toute dissimilarité d :

s(x, y) = max{d(z, t)|z, t ∈ X} − d(x, y)

Remarque 1 On peut noter que la première transformation n’est pas une

bijection et qu’il est impossible, dans le cas général, de retrouver la similarité
initiale à partir de la dissimilarité. Ceci vient du fait que pour deux objets
x et y on peut avoir s(x, x) 6= s(y, y) alors que d(x, x) est toujours égal à
d(y, y) (puisque ça vaut 0).

1.4.2 Variables continues

Nous nous restreignons ici aux distances issues des normes Lq . Les dis-
tances de corrélation et la distance du χ2 seront étudiées plus tard, dans le
cadre de l’analyse en composantes principales et de l’analyse factorielle des
correspondances.
On rappelle que pour un espace de représentation E = Rp , chaque objet
xi de X est un vecteur à p dimension xi = (x1i , . . . xji , . . . xpi ). On peut ainsi
définir les distances :
– L1 (encore appelée distance de Manhattan, ou “city block distance”) :
X 1
d(xi , xj ) = |xki − xkj |
1≤k≤p
p

– L2 (encore appelée distance euclidienne) :

s
X 1
d(xi , xj ) = (xki − xkj )2
1≤k≤p
p

– et plus généralement Lq :
X 1 1
d(xi , xj ) = ( |xki − xkj |q ) q
1≤k≤p
p

– et, finalement L∞ (encore appelée distance du sup ou norme uniforme) :

d(xi , xj ) = sup |xki − xkj |

1≤k≤p
14 CHAPITRE 1. LES DONNÉES

Le résultat suivant (du à Gauss (1931) dans le cas de 3 dimensions et

généralisé en 1850 par Hermite) permet de caractériser une distance eucli-
dienne :
Théorème 1 Une condition nécessaire et suffisante pour qu’une distance d
soit euclidienne est qu’il existe x tel que la matrice carrée de terme général
1
wij = (d(x, xi )2 + d(x, xj )2 − d(xi , xj )2 )
2
soit semi-définie positive (c’est à dire que ses valeurs propres sont toutes
positives ou nulles). La dimension minimale de l’espace euclidien où (X, d)
peut-être isométriquement plongé est égal au rang de la matrice (wij )i,j . De
plus, cette propriété est indépendante du choix de x.

1.4.3 Variables booléennes (présence/absence)

Ici, l’espace de représentation est E = {0, 1}p et une variable positionnée
à 1 (respectivement 0) signifie la présence (respectivement l’absence) de l’at-
tribut. Seule la valeur 1 est ainsi significative.
Si l’on considère les variables comme des attributs (présents ou absents),
chaque objet xi possède un ensemble Ei de caractères (Ei est donc constitué
des variables qui prennent sur xi la valeur 1). En notant E\F l’ensemble des
éléments de E qui ne sont pas dans F , la différence symétrique entre Ei et
Ej peut s’écrire :
Ei 4Ej = (Ei \Ej ) ∪ (Ej \Ei )
De là, on peut déduire un grand nombre de distances dont :
– la distance de la différence symétrique :
d(xi , xj ) = |Ei 4Ej |
– la distance de la différence symétrique normalisée (encore appelée dis-
tance de Hamming) :
|Ei 4Ej |
d(xi , xj ) =
p
– la distance de Jaccard :
|Ei ∩ Ej |
d(xi , xj ) = 1 −
|Ei ∪ Ej |
– distance de Czekanovski-Dice :
2|Ei ∩ Ej |
d(xi , xj ) = 1 −
|Ei | + |Ej |
1.4. DISTANCES ET SIMILITUDE DANS LES ESPACES DE REPRÉSENTATION15

– distance de Ochiaı̈ :
|Ei ∩ Ej |
1− p
|Ei |.|Ej |
– distance de Braun-Blanquet :

|Ei ∩ Ej |
1−
max{|Ei |, |Ej |}

– distance de Simpson :

|Ei ∩ Ej |
1−
min{|Ei |, |Ej |}
– ...

Toutes ces distances permettent de mesurer des différences entres objets.

Il convient de bien choisir sa distance selon les différences que l’on veut
mesurer. De façon classique, lorsque le choix d’une distance à utiliser n’est
pas évidente, on a coutume d’utiliser la distance de Jaccard qui est un bon
compromis.
16 CHAPITRE 1. LES DONNÉES
Chapitre 2

Description d’une ou deux

variables

On s’intéresse dans ce chapitre aux espaces de représentation tels que

E = R (partie 2.1) et E = R2 (partie 2.2). La statistique descriptive permet un
pré-traitement efficace des données, en brossant l’allure générale des données
(moyenne, écart type, . . .) et fournit des représentations graphiques (histo-
grammes, boı̂te à moustaches, . . .) permettant de synthétiser les résultats.

L’exemple fil-rouge que nous utiliserons ici est constitué d’une population
de 26 étudiants passant un contrôle. Pour chaque candidat, on note :

– le temps mis à effectuer l’épreuve (variable x),

– le nombre d’erreurs commises (variable y).

Les résultats sont donnés dans la table 2.1.

Table 2.1 – Résultats d’examen pour 26 candidats

Candidat n˚ 1 2 3 4 5 6 7 8 9 10 11 12 13
x 15 15 20 10 15 30 10 10 5 5 5 10 10
y 4 5 10 0 4 10 2 5 0 1 0 3 3
Candidat n˚ 14 15 16 17 18 19 20 21 22 23 24 25 26
x 20 15 10 5 20 30 30 30 40 10 5 10 10
y 6 3 2 0 6 8 5 10 12 3 0 2 3

17
18 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

2.1 Description d’une variable

L’espace de représentation associé à nos objets est ici l’ensemble des
nombres réels.

2.1.1 Distribution
Définition 2 On appellera distribution statistique (ou encore fonction de
répartition) de X la donnée des couples {(c1 , n1 ), . . . , (ci , ni ), . . . , (ck , nk )}
tel que les ci forment une partition en k intervalles (appelés aussi classes)
de l’ensemble des valeurs prises par la variable ( c1 = [a0 , a1 ], ci =]ai−1 , ai ],
ck =]ak−1 , ak ]) et les ni le nombre de valeurs observées dans l’intervalle ci .
Par convention le centre des intervalles est également noté ci .

Remarque 2 Pour une variable discrète, la distribution statistique associée

est également notée {(c1 , n1 ), . . . , (ci , ni ), . . . , (ck , nk )}, mais ici, les ci repré-
sentent toutes les valeurs prises par la variable et les ni le nombre de fois que
la valeur ci a été prise.

Le nombre d’intervalles dans une distribution statistique est choisi en

fonction de n, de manière
P à représenter le mieux possible la distribution des
valeurs et on a n = 1≤i≤k ni . Il n’existe pas de choix pertinent du nombre
et de l’amplitude des classes, mais il est plus aisé de prendre des classes
de même amplitude et, empiriquement, on a coutume d’utiliser la règle de
Sturges comme choix de k :

10 ln (n)
k =1+
3 ln (10)

Parfois, cependant, la découpe en intervalles ira de soi, par exemple lorsque

x ne prend que des valeurs entières puisque l’on se ramènera au cas d’une
variable discrète.

Définition 3 Pour une distribution statistique donnée, on appellera fréquence

ni
de i le rapport
P fi = n , et sa fréquence cumulée la somme Fi = f1 + f2 +
. . . + fi = 1≤j≤i fj .

Définition 4 On appelle histogramme des fréquences pour une distribution

statistique donnée ((]aj−i , aj ], nj ) pour 1 ≤ j ≤ k), le graphique tel que les
classes sont reportées en abscisse et au-dessus de chacune d’elle un rectangle
d’aire égale ou proportionnelle à la fréquence de la classe est tracé.
2.1. DESCRIPTION D’UNE VARIABLE 19

Attention, ce sont les aires des rectangles qui sont importantes. Lorsque
les “bases” des rectangles sont identiques, “la hauteur” est alors proportion-
nelle à l’aire. Mais, dans quelques (rares) cas, les bases seront de longueurs
différentes et il faudra faire attention.
Remarque 3 Pour le cas d’une distribution statistique associée à une va-
riable discrète ((cj , nj ) pour 1 ≤ j ≤ k), l’histogramme des fréquences est le
graphique tel que les modalités cj sont reportées en abscisse et au-dessus de
chacun des cj un segment de hauteur égale ou proportionnelle à la fréquence
de la modalité est tracé.
La figure 2.1 montre l’histogramme des fréquences de la variable x de la
table 2.1. Nous n’avons pas utilisé la règle de Sturges puisqu’un découpage
en intervalles centrés autour des notes possibles est plus naturel.
Histogram of temps
8
6
Frequency

4
2
0

10 20 30 40

temps

Figure 2.1 – Histogramme des fréquences de la variable x de la table 2.1

Remarque 4 On rencontre parfois un type particulier d’histogramme ap-

pelée tige et feuille (“stem and leaf ”) dont un exemple (représentation de la
variable x de la table 2.1) est présenté ci-après.
0 55555
1 000000000
1 5555
2 000
2
3 0000
3
4 0
20 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

Cette représentation consiste en un histogramme dont la représentation

sépare dizaine (à gauche) et unité (à droite), chaque unité étant répété autant
de fois qu’il y a d’éléments (dans l’exemple ci-dessus, il y a 5 élément qui
valent 5, 9 qui valent 10, . . ., 0 qui valent 25, . . .).

Indiquons aussi qu’une distribution statistique peut être représentée par

un camembert. La figure 2.2 représente le camembert de la variable x de la
table 2.1.

Définition 5 Un camembert est un disque dont les parts sont égales ou pro-
portionnelles à la fréquence de la classe associée.

15 30

Figure 2.2 – Camembert des fréquences de la variable x de la table 2.1

Définition 6 On appelle graphique des fréquences cumulées pour une dis-

tribution statistique donnée ((]aj−i , aj ], nj ) pour 1 ≤ j ≤ k), le graphique tel
que les classes sont reportées en abscisse et au-dessus de chacune d’elle un
rectangle de hauteur égal à Fi est tracé.

La figure 2.3 est un exemple de graphique des fréquences cumulées.

2.1. DESCRIPTION D’UNE VARIABLE 21

ecdf(temps)

1.0
0.8
0.6
Fn(x)

0.4
0.2
0.0

10 20 30 40

Figure 2.3 – histogramme des fréquences cumulées de la variable x de la

table 2.1

2.1.2 Valeurs centrales

Aussi appelées paramètres de positions, les valeurs centrales sont des
nombres autour desquels se répartissent les valeurs observées de la variable
considérée. C’est autour d’elles que sont calculés les paramètres de dispersion.
Il y a essentiellement deux paramètres de positions pour une variable : la
moyenne et la médiane.

Définition 7 La moyenne x̄ d’une variable x est définie par l’expression :

1 X
x̄ = xi
n 1≤i≤n

La moyenne de la variable x de la table 2.1 est par exemple égale à 15.19.

Pour définir la médiane, il faut tout d’abord ranger les éléments de X par
ordre croissant. Si l’on note x1 , x2 , . . ., xn les n valeurs prises par la variable
x, on notera x(1) , x(2) , . . .x(n) ces mêmes éléments rangés par ordre croissant
(si, par exemple, x1 = 12, x2 = 1 et x3 = 1 on aura x(1) = 1, x(2) = 1 et
x(3) = 12).

n+1
Définition 8 Si on note m et d la partie entière et décimale de 2
, la
médiane me(x) de la variable x est définie par :

me(x) = x(m) + d(x(m+1) − x(m) )

22 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

Par exemple, la médiane de la variable x de la table 2.1 est 10.0. Cette

définition implique des résultats différents selon la taille de n. Si n est impair,
d = 0 et la médiane est une des valeurs de la variable et si n est pair, la
médiane vaut la moyenne des deux valeurs centrales.

Remarque 5 On trouve dans la littérature d’autres définitions de la médiane

pour n pair, par exemple prendre pour médiane n’importe quelle valeur entre
les deux valeurs centrales (ce qui implique que la médiane peut être l’une
ou l’autre des deux valeurs centrales) ou tout simplement rendre l’intervalle
entre les deux valeurs.

Enfin, on définit la classe modale, qui est un paramètre de position associé

à une distribution statistique.

Définition 9 On appelle classe modale mo(x) d’une distribution statistique

(]aj−i , aj ], nj ) (pour 1 ≤ j ≤ k) d’une variable x est l’intervalle ]ai−1 ai ] tel
que ni = max1≤j≤n {nj }

Pour la distribution statistique de la figure 2.1, la classe modale est

]7.5, 12.5]
Les quantités qui viennent d’être “parachutées” peuvent être introduites
de manière géométrique. Pour ce faire, ordonnons totalement et arbitrai-
rement les éléments de X (on parlera alors du iième individu). À chaque
variable quantitative x est associé le vecteur ~v (x) de Rn dont la coordonnée
sur le iième individu est xi . Pour résumer x en une seule valeur on cher-
chera à déterminer un nombre réel a tel que a~i “approche au mieux” ~v (x) (~i
désignant le vecteur dont toutes les coordonnées valent 1). Techniquement,
on munira Rn d’une norme || • || et on cherchera l’élément a ∈ R solution du
problème :
min ||~v (x) − a~i||
a∈R

1. Pour la norme || • ||1 (||~v (x)||1 = i n1 |xi |) la médiane de x est solution

P
du problème,
2. Pour la norme euclidienne || • ||2 (||~x(x)||22 = i n1 |xi |2 ), la moyenne x̄
P
est l’unique solution du problème,
3. Pour la norme uniforme || • ||∞ (||~v (x)||∞ = maxi xi ), la solution du
problème est la moyenne des valeurs extrêmes 21 (mini xi − maxi xi ).
4. Plus généralement, on appellera valeur centrale d’ordre q de la va-
riable x toute solution du problème pour la norme || • ||q (||~v (x)||q =
1
( i n1 |xi |q ) q ).
P
2.1. DESCRIPTION D’UNE VARIABLE 23

2.1.3 Paramètres de dispersion

Les paramètres de dispersion sont des nombres permettant de mesurer
l’amplitude des variations autour d’une valeur centrale.
Les paramètres de dispersion que nous définirons dans cette partie sont
essentiellement de deux types : ceux liés (de près ou de loin) à la variance,
et ceux liés à la répartition des valeurs (les quartiles).

Définition 10 La variance d’une variable est le nombre s2 (x) défini par

l’expression :
1 X
s2 (x) = (xi − x̄)2
n 1≤i≤n

La racine carrée de s2 (x), notée s(x) est appelé écart-type de la variable.

On peut P(facilement) démontrer que la variance est également égal à

1
2
s (x) = ( n 1≤i≤n xi ) − (x̄)2 , formule plus pratique lorsque l’on doit calculer
2

une variance à la main.

Remarque 6 Attention : il ne faut pas confondre variance et variance

corrigée. La variance corrigée s2c (x) définie par l’expression :
1 X n 2
s2c (x) = (xi − x̄)2 = s (x)
n − 1 1≤i≤n n−1

est un estimateur et non un paramètre de dispersion.

Estimateurs et variance corrigée

Pour comprendre la remarque ci-dessus, il faut parler un peu de statistique

et d’estimateurs. En statistique, on considère le plus souvent une variable
définie sur une population bien plus importante que l’échantillon dont on
dispose (par exemple le solde en banque de toute la population française
par rapport à un échantillon d’une centaine de personnes). L’ensemble de
la population est alors une variable aléatoire X qui possède une moyenne
µ(X) (appelée espérance mathématique) et une variance σ 2 (X) définie telle
que σ 2 (X) = µ((X − µ(X))2 ). Par linéarité de l’opérateur µ() on montre
facilement que σ 2 (X) = µ(X 2 ) − (µ(X))2 .
Le problème est alors d’estimer µ(X) et σ 2 (X) alors que nous ne possédons
que n valeurs xi prises par la variable aléatoire X. Chaque valeur xi étant
également une variable aléatoire de mêmes paramètres que X.
On appelle alors estimateur de la moyenne µ(X) (resp. de la variance
2
σ (X)) une suite (Tn ) fonction de (x1 , . . . , xn ) telle que pour tout > 0 la
24 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

probabilité que |Tn − µ(X)| > (resp. |Tn − σ 2 (X)| > ) tend vers 0 lorsque
n tend vers l’infini.
Dans le cadre de ce cours, on admettra que x̄ et s2 (x) sont des estimateurs
de µ(X) et σ 2 (X) respectivement.
Il existe cependant une foultitude d’estimateurs de moyenne et de va-
riance, parmi ceux existant, on peut essayer de dégager des estimateurs
meilleurs que d’autres. On peut pour cela se baser sur le biais.
Le biais d’un estimateur Tn de la quantité θ est :

µ(Tn − θ)

Un estimateur est dit sans biais si µ(Tn −θ) = 0 (c’est à dire si sa moyenne
est égale à ce qu’il estime) et asymptotiquement sans biais si lim µ(Tn −θ) = 0.
Calculons le biais de nos estimateurs. Commençons par l’estimateur de
la moyenne :
1
P
µ(x̄ − µ(X)) = µ(P n 1≤i≤n xi − µ(X))
1
= n P1≤i≤n µ(xi ) − µ(X)
= n1 1≤i≤n µ(X) − µ(X)
= 0

L’estimateur x̄ est donc un estimateur sans biais de la moyenne µ(X).

En ce qui concerne la variance :
µ(s2 (x) − σ 2 (X)) = µ( n1 P1≤i≤n (xi − x̄)2 − σ 2 (X))
P
1 2 2 2
= µ(P n 1≤i≤n (xi ) − (x̄) − σ (X))
= n1 1≤i≤n µ(x2i ) − µ(x̄2 ) − σ 2 (X)

En utilisant le fait que σ 2 (Y ) = µ(Y 2 ) − (µ(Y ))2 pour toute variable

aléatoire Y , on en déduit que σ 2 (xi ) = µ(x2i ) − µ(xi )2 et que σ 2 (x̄) = µ(x̄2 ) −
(µ(x̄))2 . Comme x̄ est un estimateur sans biais de µ(X) que σ 2 (xi ) = σ 2 (X)
et que µ(xi ) = µ(X), on a :

µ(s2 (x) − σ 2 (X)) = −σ 2 (x̄)

Les variables xi étant indépendantes :

σ 2 (x̄) = σ 2 ( n1 P1≤i≤n xi )
P
= n12 σ 2 ( 1≤i≤n xi )
= n12 (nσ 2 (xi ))
= n1 σ 2 (X)
Finalement :
1
µ(s2 (x) − σ 2 (X)) = − σ 2 (X)
n
2.1. DESCRIPTION D’UNE VARIABLE 25

L’estimateur s2 (x) est donc seulement asymptotiquement sans biais, sa

moyenne étant égale à n−1
n
σ 2 (X) et donc sous-estime constamment la véritable
variance de X.
En refaisant les calculs avec s2c (x) on se rend compte que µ(s2c (X)) =
σ 2 (X) et donc qu’il est sans biais.
Lorsque les (xi ) sont un échantillon d’une population plus grande on a
coutume d’utiliser la variance corrigée s2c (x) puisqu’elle est sans biais. Cepen-
dant dans le cas qui nous occupe, les (xi ) représentent la population en son
entier, sa variance est donc égale à s2 (x) et nous n’avons pas à nous soucier
de la variance corrigée.

Comparaisons de variances

Une variance ne peut être comparée (et interprétée) que par rapport à une
autre variance puisque c’est la moyenne des carrés des écarts à la moyenne.
En pratique, c’est l’écart-type qui est le plus utilisé car il s’exprime avec la
même unité que la variable, et donc que sa moyenne. On peut ainsi combiner
écart-type et moyenne pour obtenir un paramètre de dispersion appelé coef-
ficient de variation qui représente une variabilité relative de la variable (au
contraire de l’écart-type qui représente une variabilité absolue). De la même
manière que l’on peut définir les valeurs centrales par rapport à des normes
Lq (cf. 2.1.2), si l’on considère la quantité

∆q (x) = ||~v (x) − c~i||q

où c est une valeur centrale d’ordre q de x, l’écart type de x est exactement
∆2 . Cette quantité représente en quelque sorte “l’erreur” entre les variables
et sa représentation par une valeur centrale.

Autres paramètres de dispersion

Définition 11 Le coefficient de variation cv(x)est défini par l’expression :

s(x)
cv(x) = 100
x̄

Si la population est plus grande que l’échantillon considéré, le coefficient

de variation utilise sc (x) et non plus s(x), il est alors défini par l’expression :
cv(x) = 100 scx̄(x) .
26 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

L’étendue d’une variable qui est le paramètre de dispersion e(x) défini par
la différence entre la plus grande et la plus petite valeur de la variable étant
très sensible aux valeurs extrêmes, on préférera utiliser les quartiles pour
calculer la répartition des valeurs.

Définition 12 On défini les quartiles comme suit. Soient m et d les parties

entières et décimales de n+1 4
et m0 et d0 les parties entières et décimales de
3(n+1)
4
. On notera, comme en 2.1.2, x(1) , x(2) , . . ., x(n) les valeurs de x rangées
par ordre croissant.
– le premier quartile noté q0,25 (x) est défini par l’expression : q0,25 (x) =
x( m) + d(x(m+1) − x(m) ),
– le deuxième quartile noté q0,5 (x) est égal à la médiane de x,
– le troisième quartile noté q0,75 (x) est défini par l’expression : q0,75 (x) =
x(m0 ) + d0 (x(m0 +1) − x(m0 ) ).
L’étendue inter-quartile IQR(x) étant défini par IQR(x) = q0,75 − q0,25 .

Ces paramètres de dispersion permettent de définir des intervalles où se

trouvent un pourcentage donné de valeurs. Par exemple, il y a 25% des valeurs
en dessous de q0,25 , entre q0,25 et q0,5 , entre q0,5 et q0,75 , et au-dessus de q0,75 .
De même, il y a 50% des valeurs de la variable au-dessous de q0,5 , au-dessus
de q0,5 et dans IRQ(x).
Si l’on veut raffiner (d’aucun diraient chipoter), on peut de la même
manière définir des déciles (on découpe en dixième et non plus en quart) ou
des centiles (on découpe en centième).

2.1.4 Boı̂te à moustaches

La boı̂te à moustache (encore appelée boxplot) est un graphique permet-
tant d’observer globalement les paramètres de position et de dispersion.

Définition 13 Une boı̂te à moustache est un graphique constitué de deux

axes : l’axe vertical, muni d’une échelle numérique qui correspond aux valeurs
de la variable observée et l’axe horizontal, sans échelle. Un segment horizon-
tal (de longueur arbitraire) est tracé en regard de la médiane, puis une boı̂te
est reportée avec les côtés supérieur et inférieur en regard de q0,75 et q0,25 res-
pectivement. Enfin, deux segments verticaux sont tracé vers l’extérieur de la
boı̂te (les moustaches) joignant le milieu du côté supérieur (resp. inférieur) à
la plus grande (resp. la plus petite) valeur inférieure ou égale (resp. supérieure
ou égale) à q0,75 + 23 IQR(x) (resp. q0,25 − 32 IQR(x)).

On peut également rajouter deux points marquant les valeurs les plus
extrêmes si elles ne sont pas dans les moustaches, et un autre point en regard
2.2. DESCRIPTION DE DEUX VARIABLES 27

40
30
20
10
0

temps erreurs

Figure 2.4 – boı̂te à moustaches des variables x et y de la table 2.1

de la moyenne. La figure 2.4 montre ce type de graphique pour les variables

x et y de la table 2.1, ou pourra remarquer que la médiane de x est égale à
q0,25 et est très différente de la moyenne.
Les extrémités de la boı̂te à moustache sont appelées valeurs adjacentes,
et lorsque qu’une valeur se trouve au-delà des valeurs adjacentes, elle peut
être considéré comme extrême et peut éventuellement être omise.

2.2 Description de deux variables

L’espace de représentation associé à nos objets est ici l’ensemble R2 , tout
xi ∈ X est donc un couple de réels xi = (x1i , x2i ). La table 2.1 est un exemple
de ce type d’espace de représentation. Ceci revient à considérer un ensemble
X d’objets par deux variables réelles, x et y par exemple.

2.2.1 Nuage de points et régression linéaire

Supposons que l’on cherche à décrire l’ensemble X d’objets décrit par
deux variables réelles x et y. On appellera champ du couple (x, y) l’ensemble
K = {(xi , yi )|1 ≤ i ≤ n} que l’on peut représenter dans le plan par n points
Mi d’abscisse xi et d’ordonnée yi , le centre de gravité du nuage étant bien
évidemment le point G = (x̄, ȳ). La figure 2.5 montre le graphique associé à
la table 2.1 du nombre d’erreurs commises par rapport au temps mis pour
effectuer l’examen, le centre gravité du nuage étant représenté par un ’+’.
Un simple regard sur le nuage peut informer sur l’existence et la forme
d’une éventuelle liaison entre les deux variables. On peut par exemple cher-
28 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Figure 2.5 – nuage de points de la table 2.1

cher à déterminer une éventuelle liaison linéaire entre les deux variables (le
nuage a tendance à s’étirer le long d’une droite), on peut alors tenter d’ex-
pliquer la variable y (appelée variable expliquée) par la variable x (appelée
variable explicative). On cherche ainsi à déterminer s’il existe deux réels a et
b tels que pour tout 1 ≤ i ≤ n : yi ' a + bxi .
La manière la plus courante pour arriver à nos fins est d’utiliser la méthode
des moindres carrés, c’est à dire trouver deux réels a et b qui réalisent le mi-
nimum de :
n
X 1
h(a, b) = (yi − a − bxi )2 = ||~v (y) − ~v (ax + b)||22
i=1
n

Le nombre h(a, b) est appelé résidu quadratique. Il quantifie l’écart de nos

données par rapport à la droite sensée les représenter. Trouver le minimum
de h(a, b) se fait simplement en utilisant la méthode dite “gros bourrin” : on
dérive par rapport à a et b.
On a alors :
∂h(a, b) 1X
= −2 (yi − a − bxi ) = −2y + 2a + 2bx
∂a n i
∂h(a,b)
De là, ∂a
= 0 implique que :
a = y − bx

∂h(a,b)
= −2 n1P i xi (yi − a − bxP
P
∂b i)
1
= −2[ i xi yi − ax − b n i x2i ]
2.2. DESCRIPTION DE DEUX VARIABLES 29

En remplaçant a par y − bx, on obtient alors :

∂h(a,b) P 1
P 2
∂b
= −2[Pi 1 x i yi − (y − bx)x − b n i xi ]
2 1 2
P
= −2[ P i n (x y
i i − xy) + b(x − n i xi )]
= −2[ n1 i (xi − x)(yi − y) + bs2 (x)]

On pose alors cov(x, y) = n1 1≤i≤n (xi − x̄)(yi − ȳ) (appelée covariance

de x et de y), et l’équation ∂h(a,b)

∂b
= 0 conduit à :

cov(x, y)
b=
s2 (x)

Remarque 7 La covariance est une généralisation de la variance pour deux

variables. Elle permet de voir comment varie une variable par rapport à
l’autre. Une valeur positive de covariance entre x et y montre que lorsque x
augmente (resp. diminue) y à tendance à augmenter (resp. diminue) également
et une valeur négative de la covariance montre qu’en général si x augmente
(resp. diminue) y va diminuer (resp. augmenter). On a de plus que cov(x, x) =
s2 (x) ≥ 0.

La droite obtenue est appelée droite de régression linéaire de y par x

et possède la propriété de passer par le centre de gravité du nuage (i.e.
ȳ = ax̄ + b). Le résidu quadratique vaut alors :
2 !
cov(x, y)
h(a, b) = s(y)2 1 −
s(x)s(y)

La qualité de la régression sera d’autant meilleure que ce résidu est faible.

Pour cela, deux facteurs seront prédominants :
– un faible écart-type de la variable y,
– une forte valeur de cov (x,y)
s(x)s(y)
La figure 2.6 reprend le nuage de la figure 2.5 en y ajoutant la droite de
régression linéaire. On a a = −0.85 et b = 0.33.

2.2.2 Corrélation linéaire et axe principal

Dans la partie précédente, on a choisi d’expliquer une variable (la va-
riable y de la table 2.1) par une autre (la variable x de la table 2.1). Ce
choix peut paraı̂tre arbitraire puisque l’on aurait pût tout aussi bien tenter
d’expliquer la variable x par la variable y et obtenir une droite de régression
différente, comme le montre la figure 2.7 où les deux droite de régression sont
superposées.
30 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Figure 2.6 – droite de régression linéaire de la table 2.1

12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Figure 2.7 – les deux droites de régression linéaires de la table 2.1

2.2. DESCRIPTION DE DEUX VARIABLES 31

Comme vue dans la partie 2.2.1, les deux droites de régressions linéaires
passent par le centre de gravité du nuage, les deux droites sont alors égales
si et seulement si leurs pentes le sont. Comme x = a0 + b0 y est équivalent à
0
y = − ab0 + b10 x, les pentes des droites de régression y = a + by et x = a0 + b0 y
sont égales si et seulement si b = b10 , c’est à dire si et seulement si :
2
cov(x, y)
=1
s(x)s(y)

On note r(x, y) la quantité cov (x,y)

s(x)s(y)
= r(x, y) et on l’appelle (fort juste-
ment) coefficient de corrélation linéaire. On peut prouver que |r(x, y)| ≤ 1
quelques soient x et y et que |r(x, y)| = 1 si et seulement si les points (xi , yi )
(1 ≤ i ≤ n) sont alignés.

Remarque 8 Une valeur de r(x, y) proche de 1 signifie donc que si x aug-

mente, y augmente également de façon linéaire (et que si y augmente, x
augmente également) et une valeur de r(x, y) proche de -1 signifie que si x
augmente, y décroı̂t (et réciproquement).

En fait, plus r2 (x, y) est proche de 1, plus le nuage de points se concentre

autour d’une droite passant par le centre de gravité du nuage et ayant une
pente intermédiaire entre la droite de régression de y par x et la droite de
régression de x par y. Cette droite est appelée axe principal.
L’axe principal peut s’obtenir directement en changeant la droite à op-
timiser. Soit D une droite d’équation y = aD + bD x. Chercher la droite de
régression de y par x revient à chercher la droite Dy qui minimise la somme
des carrés des écarts |yi − aD − bD xi | (le segment vertical en pointillé sur la
figure 2.8). De la même manière chercher la droite de régression de x par y
revient à chercher la droite Dx qui minimise la somme des carrés des écarts
|xi + abDD − b1D yi | (le segment horizontal en pointillé sur la figure 2.8).
On voit bien par là que la régression de y par x et la régression de x
par y ne permet d’obtenir la même droite que si les points sont déjà alignés.
L’axe principal est le résultat d’une autre forme d’optimisation : on cherche
la droite D∗ qui minimise la somme des carrés des distances des points (xi , yi )
à la droite (le segment en gras sur la figure 2.8).
La figure 2.9 montre le nuage de points de la table 2.1, les deux droites
de régressions (en traits pleins) et l’axe principal (en pointillés).

Les quantités que nous venons d’introduire s’interprètent dans Rn muni de

la norme euclidienne. cov(x, y) est le produit scalaire de ~v (x)− x̄~i et ~v (y)− ȳ~i.
r(x, y) est le cosinus de l’angle de ~v (x) − x̄~i et ~v (y) − ȳ~i. L’alignement dans
32 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

(xi,yi)

droite D

Figure 2.8 – Les différentes optimisations par rapport à D

12
10
8
erreurs

+
4
2
0

5 10 15 20 25 30 35 40

temps

Figure 2.9 – droites de régression linéaires et axe principal de la table 2.1

2.2. DESCRIPTION DE DEUX VARIABLES 33

Table 2.2 – Tableau de contingence de la table 2.1

x\ y 0 1 2 3 4 5 6 8 10 12 total ligne
5 4 1 0 0 0 0 0 0 0 0 5
10 1 0 3 4 0 1 0 0 0 0 9
15 0 0 0 1 2 1 0 0 0 0 4
20 0 0 0 0 0 0 2 0 1 0 3
30 0 0 0 0 0 1 0 1 2 0 4
40 0 0 0 0 0 0 0 0 0 1 1
total colonne 5 1 3 5 2 3 2 1 3 1 26

R2 du nuage correspond à la colinéarité dans Rn des vecteurs définis par les

variables, la corrélation nulle correspond à l’orthogonalité, dans ce dernier
cas on dit que les variables sont indépendantes.

2.2.3 Test d’indépendance du χ2

Avant de commencer l’analyse proprement dite d’un jeu de données (i.e.
trouver une structure, des relations entre les données), la première question
à se poser est : suis-je en droit de le faire ?
Il se peut en effet qu’il n’y ait strictement rien à trouver, que la distribu-
tion des valeurs soit totalement aléatoire.
Pour vérifier cela, on commence par construire un tableau de contingence.
Un tableau de contingence de deux variables x et y possède autant de lignes
que x a de valeurs différentes (notées vx1 , . . . vxp ) et autant de colonnes que
y a de valeurs différentes (notées vy1 , . . . , vyq ). Une case Cij correspond alors
au nombre d’éléments (xm , ym ) de X tels que xm = vxi et ym = vyj , chaque
élément de X se retrouve dans une et une seule case du tableau.
La table 2.2 donne le tableau de contingence de la table 2.1. En divisant
chaque case par le cardinal de X (ici 26), on obtient les différentes fréquences
d’apparitions des modalités.
Si les deux variables mises en jeu étaient indépendantes, la fréquence
d’apparition de la modalité vxi et vyj serait égale à la fréquence d’apparition
de la modalité vxi multipliée par la fréquence d’apparition de vyj .
P P C
Ainsi en posant Ci• = j Cij et C•j = i Cij , plus les nij sont éloignés de
Ci• C
n
× n•j , plus les deux variables sont dépendantes, et ainsi, plus la recherche
de structures entre ces variables est légitime.
34 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES

On calcul la quantité :
2
Ci• C•j
X Cij −
" #
n X Cij2
D2 = Ci• C•j
=n −1
i,j i,j
C i• C •j
n

Si les deux variables sont indépendantes D2 sera proche de 0 et au contraire

si les variables sont liées, D2 sera grand. On peut quantifier cette liaison entre
variable en utilisant les statistiques.
Les valeurs Cij du tableau sont alors considérées comme des valeurs d’une
variable aléatoire C dont on ne connaı̂t pas la loi. Si D2 est petite, il y a toute
les chances que la loi régissant C soit le produit de deux lois indépendantes,
l’une régissant les lignes l’autre les colonnes. Si c’est le cas, D2 est une variable
aléatoire dont on connaı̂t la loi : elle suit une loi du χ2 à (p − 1)(q − 1) degrés
de liberté. Par abus de notation au appellera par la suite χ2 d’un tableau de
contingence la quantité D2 .
La densité de probabilité f (x) d’une loi du χ2 à n degré de liberté est
égale à :
1 −x/2 n/2−1

2n/2 Γ(n/2) e x si x > 0
f (x) =
0 sinon
R +∞ z−1 −t
avec Γ(z) = 0 t e dt qui est appelée fonction gamma.
L’espérance et la variance d’une variable aléatoire X suivant une loi du
χ à n degrés de liberté est µ(X) = n et σ 2 (X) = 2n. La figure 2.10 montre
2

la densité de probabilité d’une loi du χ2 à 4 degrés de libertés.

densité de probabilité
0.15
densité

0.10
0.05

0 20 40 60 80 100 120

valeur

Figure 2.10 – Densité de probabilité du χ2 à 4 degrés de liberté.

2.2. DESCRIPTION DE DEUX VARIABLES 35

Dans notre exemple, p = 10 et q = 6 et donc si les deux variables sont

indépendantes, D2 suit une loi du χ2 à 45 degrés de liberté. Dans ce cas là,
D2 à 99% de chances d’être compris entre 0 et 70 (l’intégrale de la fonction
de densité entre 0 et 70 vaut 0.99). Il y a donc moins d’1% de chance que la
valeur de D2 soit plus grand que 70. On trouve que D2 = 95.3, qui est une
valeur très hypothétique si D2 suivait une loi du χ2 . On a donc moins d’1% de
chance de se tromper en rejetant l’hypothèse d’indépendance, risque que l’on
peut prendre : on considère alors que nos données ne sont pas indépendantes,
ce qui légitime une analyse.
36 CHAPITRE 2. DESCRIPTION D’UNE OU DEUX VARIABLES
Chapitre 3

Analyse en composantes
principales

On s’intéressera dans ce chapitre aux objets de X décrits par p variables

réelles. L’espace de représentation associé est ainsi Rp .

3.1 Exemple avec les mains

Lorsque la population à étudier est décrite par deux variables, la simple
lecture de leurs valeurs (du nuage produit) peut éventuellement fournir une
idée de l’intensité de la liaison entre les deux variables, comme le montre la
figure 3.1.

y y y

x x x
Absence de liaison Forte liaison Trois groupes homogènes

Figure 3.1 – Formes particulières de nuages

L’étude visuelle du nuage ne donne cependant que rarement toute l’in-

formation désirée. L’exemple fil rouge du chapitre 2 (table 2.1) est à cet
égard significatif. Le coefficient de corrélation linéaire élevé (r(x, y) = 0.9)
conduisant à une explication linéaire des données. Si l’on cherche mainte-
nant à étudier le “comportement” de notre population d’étudiants, on peut

37
38 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

imaginer deux formes de nuages présentant une forte corrélation (figure 3.2).
erreurs erreurs

temps temps
Nuage 1 Nuage 2

Figure 3.2 – Formes particulières de nuages

Le premier nuage de la figure 3.2 ordonne, grosso modo, les individus

selon leur “aptitude” à l’épreuve (peu de temps et peu d’erreurs s’opposant
à beaucoup de temps et beaucoup d’erreurs).
L’ordre traduit par le deuxième nuage de la figure 3.2 peut sembler moins
clair aux profanes que nous sommes, mais un psychologue l’interpréterait en
terme d’“attitude” (on prend son temps et on fait bien s’opposant à on bâcle
et on fait mal).
Partant de nos données, on est parvenu à dégager deux variables per-
tinentes pour décrire le comportement de notre population : l’attitude et
l’aptitude. Remarquons que celles-ci décrivent des phénomènes que l’on sup-
pose (au moins intuitivement) indépendants : les deux axes déterminés sont
orthogonaux.
Appelons facteurs nos deux nouvelles variables (elles remplacent les va-
riables “temps” et “erreurs”), ils seront d’autant plus pertinents avec nos
données que nos variables d’origines ont une forte corrélation avec au moins
un de nos nouveaux axes (l’autre axe étant obtenu par orthogonalité).
Reste à extraire les facteurs. On peut pour cela faire une analogie avec la
mécanique. Si l’on assimile nos objets à des points matériels, la droite la plus
proche du nuage de points est celle qui correspond à l’axe principal d’inertie
du nuage. Cet axe est exactement l’axe principal définie en 2.2.2.
Cet exemple à deux variables montre le but de l’analyse en composantes
principale : déterminer des axes pertinents pour l’explication des corrélations
entre variables.

3.2 Principe de la méthode (sans les mains)

Si l’analyse visuelle du nuage peut nous permettre, soit de dégager direc-
tement la structure, soit de déterminer des axes pertinents, lorsque les objets
3.2. PRINCIPE DE LA MÉTHODE (SANS LES MAINS) 39

sont décrits par plus de trois variables (sinon, on peut toujours représenter le
nuage dans l’espace), la représentation graphique devient impossible. Ainsi,
les dix catégories socioprofessionnelles de la table 1.1 sont représentables dans
un espace à six dimensions (ce qui graphiquement commence à faire mal aux
yeux). Si l’on veut cependant obtenir une représentation graphique plane de
la table 1.1, on peut projeter les points de l’espace à p dimensions sur un
plan (à deux dimensions). Il faut cependant choisir judicieusement le plan
de projection pour que les distortions par rapport à l’espace originel soient
minimales.

Soient xi et xj deux éléments de X et d(xi , xj ) la distance de l’un à

l’autre dans Rp . En projetant ces éléments sur un plan, la distance entre les
deux projections d(p(xi ), p(xj )) est plus petite que d(xi , xj ), on se fixera donc
comme critère de choix de plan, celui qui maximise la moyenne des carrés
des distances entre les projections.

On peut déterminer un plan par deux droites D1 et D2 orthogonales

entre elles. De part la relation de Pythagore, la distance au carré entre
deux points projetés sur ce plan est égal à la somme des deux distances
au carré des projections des points sur les deux droites : d2 (p(xi ), p(xj )) =
d2 (αi , αj ) + d2 (βi , βj ) (avec αk et βk les projetés de xk (1 ≤ k ≤ n) sur D1 et
D2 respectivement).

Le plan maximisant la moyenne des carrés des distances entre les pro-
jections, appelé plan principal peut donc être déterminé itérativement. On
commence par chercher la droite D1 maximisant la moyennes des d2 (αi , αj ),
puis une droite D2 , orthogonale à D1 maximisant la moyenne des d2 (βi , βj ).
On peut alors continuer le processus et trouver p droites orthogonales entre
elles formant une nouvelle base de Rp , appelés axe principaux du nuage.

La meilleure représentation des données en q < p dimension est alors la

projection de l’ensemble X sur les q premiers axes principaux. Ceci est la
méthode de l’analyse en composantes principale : remplacer la base cano-
nique de Rp par une base formé des axes principaux, représentant mieux les
données (pensez aux axes “aptitudes” et “attitude” du début du chapitre),
et permettre ainsi de réduire l’espace de représentation aux q axes les plus
représentatifs.

L’analyse en composantes principales est une méthode factorielle, car elle

réduit le nombre de caractères, non pas en éliminant tel ou tel variable jugée
non pertinente, mais en construisant de nouveaux axes, plus pertinents.
40 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.3 Reformulation des données

3.3.1 Matrice de données
Les n individus xi étant décrits par p variables (xi = (x1i , . . . , xpi )), on
peut, par abus de notation, noter X la matrice à n lignes et p colonnes
telle l’élément à la ligne i et colonne j soit xji . Si X représente l’espace des
individus, t X (la matrice transposée de X) représente l’espace des caractères,
chaque caractère étant représenté par les n individus qu’il décrit. On note
alors xj (1 ≤ j ≤ p) la ligne j de t X qui décrit le caractère j.
Le centre de gravité du nuage g = (x¯1 , . . . , x¯p ) est un individu, la plupart
du temps fictif, décrit par les moyennes respectives des différents caractères.
Dans l’exemple de la table 1.1, le centre de gravité du nuage vaut par
exemple g = (13.2, 11.6, 15.6, 20.1, 28.1, 11.4)
On dit qu’une variable est centrée si sa moyenne est nulle. Centrer des
variables revient à déplacer le centre du repère vers g et donc à retirer sa
moyenne à chaque caractère xi − x̄i .
On considérera par la suite que toute les variables sont centrées, ce qui
simplifie grandement les notations matricielles.

3.3.2 Poids des données

Dans les chapitres précédents, nous avons toujours considéré que le poids
de chaque donnée était le même. Ce n’est cependant pas toujours le cas. De
façon
P générale, à chaque objet xi (1 ≤ i ≤ n) est associé un poids pi tel que
i pi = 1.
Ces poids sont rassemblés dans une matrice diagonale D telle que D =
diag(p1 , p2 , . . . , pn ). On a donc, si D = (dij )1≤i,j≤n , dii = pi pour tout 1 ≤
i ≤ n et dij = 0 si i 6= j.
Dans le cas où tous les poids sont identiques, cette matrice est une matrice
diagonale d’ordre n égale à n1 In (In étant la matrice identité d’ordre n).

3.3.3 Matrices de description

On appelle matrice de variance la matrice carrée V contenant à la ligne
i et la ligne j la covariance entre la variable i et la variable j. Cette matrice
est symétrique et sa diagonale contient les variances des différentes variables.
Cette matrice peut être calculée par la formule :
3.3. REFORMULATION DES DONNÉES 41

s21 . . . s1j . . . s1p

 
.. .. 

 . . 
V = t XDX =  s2i sij sip 
 
.. . 
. .. 


s2p
où D est la matrice des poids des individus.
Pour obtenir la matrice de corrélation R, matrice carrée telle que r(xi , xj )
soit sur la ligne i et la colonne j, on note D 1 la matrice diagonale définie
s
telle que :
1
 
s1
 .. 
 . 0 
1
 
D1 =  si

s  
..
.
 
 0 
1
sp

On a alors :
 
1
...
r(xi , xj )
 
 
R = D1 V D1 =  1
 
s s

 .. 
 . 
1
La matrice de corrélation possède une diagonale de 1 puisqu’il n’y a pas
plus corrélé qu’une variable avec elle-même. La matrice de corrélation de
la table 1.1 est présenté dans la table 3.1. On peut déjà remarquer que la
variable représentant les livrets (LIV) est très fortement corrélée avec la va-
riable représentant l’épargne obligatoire, alors que la pierre (PIE) ne l’est
que très peu avec les placements (POA).

3.3.4 Réduction des données

Le choix de la distance à utiliser est primordiale dans toute analyse
de données, car elle détermine les résultats obtenus. Un mauvais choix de
métrique conduit le plus souvent à de mauvais résultats.
Lorsque le repère utilisé est orthonormé, on est tenté d’utiliser une dis-
tance euclidienne classique et dans ce cas la distance (ici entre deux individus)
est : X
d2 (xi , xj ) = (xki − xkj )2
1≤k≤p
42 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Table 3.1 – Matrice de corrélation de la table 2.1

LIV 1
ELB 0.9127151 1
POA 0.6798236 0.7027894 1
ACT -0.6262121 -0.6785415 -0.4475890 1
PIE -0.5604978 -0.7667056 -0.5806489 0.3698211 1
TER -0.1230438 0.1016693 -0.1580415 -0.5950052 -0.2779655 1
LIV ELB POA ACT PIE TER

.
Si ce choix est adapté lorsque toutes les variables ont même unité, il
peut être préjudiciable dans notre cas, puisque chaque variable se définit par
rapport à sont unité propre (un homme pouvant être défini par son âge, son
salaire et bien sur la grosseur de sa voiture). Utiliser une métrique euclidienne
revient alors à mélanger les torchons et les serviettes.
Il est donc indispensable de trouver une métrique qui permette de com-
parer des individus décrits par des variables hétérogènes.
Pour éviter cet écueil, nos données (supposées centrées) sont réduites.
C’est à dire que chaque variable (les xj ) est divisée par son écart type. Ceci
a pour but qu’une fois réduites, l’écart type de chaque variable est égal à 1.
De manière matricielle, ceci revient à remplacer la matrice X par XD 1 .
s
Le principal avantage de cette métrique est que la distance entre individus ne
j
dépend plus des unités choisies puisque les nombres xsj sont sans unités. De
plus, elle accorde la même importance à chaque caractère quelque soit sa dis-
persion. Ne pas l’utiliser revient à accorder plus d’importance aux caractères
de forte dispersion qu’à ceux de faible dispersion.
Les écarts types des différentes variables de la table 1.1 sont représentés
dans le tableau ci-après :
LIV ELB POA ACT PIE TER
6.545567 4.087923 4.115013 12.041133 7.607745 10.319345
Remarque 9 Lorsque des données sont centrées et réduites, les matrices V
et R sont identiques, et D 1 = In .
s

Dans tout ce qui suivra, on supposera nos données centrées et réduites.

3.4 Recherche des sous-espaces principaux

On considère ici une matrice de données X à n lignes et p colonnes centrée
et réduite. On utilisera dans ce qui suit la distance, et donc la norme, eucli-
3.4. RECHERCHE DES SOUS-ESPACES PRINCIPAUX 43

dienne usuelle. C’est à dire que ||xi ||2 = 1≤j≤p (xji )2 et que la distance entre
P

xi et xj est égale à ||xi −xj ||. De plus, en notant < xi , xk >= j xji xjk = xi t xj
P
(t xj est le transposé du vecteur ligne xj ) le produit scalaire entre xi et xk on
a que ||xi ||2 =< xi , xi >.
Le but recherché est de comprendre comment se comportent les données
les unes par rapport aux autres. Chaque donnée étant composée de p va-
riables, il est illusoire de rechercher une structure en “regardant” la matrice
X dans son ensemble. On cherche alors à réduire le nombre de paramètres
en espérant que l’erreur commise en considérant un nombre de variables
inférieure à p soit négligeable devant le gain en interprétabilité.
Nos données étant des points (au nombre de n) de l’espace Rp , réduire le
nombre de variable peut s’effectuer en projetant nos points sur un sous-espace
de Rp . Pour que ce sous-espace ait un sens, il faut que les points projetés et
les points initiaux ne soient pas trop éloignés.
Pour écrire ça de façon formelle, notons p(xi ) la projection de l’individu
xi sur un sous-espace H de Rp . Le sous-espace H est d’autant meilleur pour
notre analyse que la quantité
X
pi ||xi − p(xi )||2
i

soit petite (pi est toujours le poids de l’individu i). En effet, si ||xi − p(xi )||
est petite, ceci signifie que le point et son projeté sont proches.
On appelle
P alors sous-espace principal un sous-espace de Rp minimisant
2
la quantité i pi ||xi − p(xi )|| .
La question étant maintenant, comment trouver cet espace ?
Pcaractériser complètement H, nous allons triturer un petit peut
Avant de
l’équation i pi ||xi − p(xi )||2 . Pour cela notons g le centre de gravité de nos
individus. Les données étant centrées, g est égal à l’origine du repère.
On peut alors écrire en utilisant Pythagore (figure 3.3) que :
X X X
pi ||xi − p(xi )||2 = pi ||xi − p(g)||2 − pi ||p(xi ) − p(g)||2
i i i
Or :
pi ||xi − p(g)||2 = Pi pi (||xi ||2 + ||p(g)||2 − 2P
P P
i < xi , p(g) >)
= Pi pi ||xi ||2 + ||p(g)||2 − 2 iPpi < xi , p(g) >
2 2
= Pi pi ||xi || + ||p(g)|| − 2 < i pi xi , p(g) >
2 2
= i pi ||xi || + ||p(g)|| − 2 < g, p(g) >

Comme g est égale à l’origine du repère on a < g, p(g) >=< 0, p(g) >= 0 et
donc finalement que :
X X
pi ||xi − p(g)||2 = pi ||xi ||2 + ||p(g)||2
i i
44 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

p(xi) p(g)
H

Figure 3.3 – projection sur H

Cette relation est connue sous le nom de relation de Huygens.

De là :
X X X
pi ||xi − p(xi )||2 = pi ||xi ||2 + ||p(g)||2 − pi ||p(xi ) − p(g)||2
i i i

OnPse rend ainsi compte que puisque :

– Pi pi ||xi ||2 est une constante quelque soit H,
2
– i ||p(xi ) − p(g)|| est une constante pour tout sous-espace parallèle à
H,
– ||p(g)||2 = 0 si g = p(g).
Le sous-espace H que nous recherchons passe forcément par l’origine du
repère (c’est à dire lorsque p(g) = g = 0).
Notre problème devient ainsi : trouver un sous-espace H passant par
l’origine du repère maximisant la quantité :
X
pi ||p(xi )||2
i
P
On est donc passé de la recherche d’un sous espace H minimisant i pi ||xi −
p(xi )||2 à la recherche d’un sous-espace passant par l’origine maximisant
2
P
i pi ||p(xi )|| .

3.4.1 Un sous-espace à 1 dimension

Commençons par essayer de trouver un sous-espace principal
P à une di-
mension (une droite) D, passant par l’origine et maximisant i pi ||p(xi )||2 .
Si l’on connaı̂t un vecteur directeur u ∈ Rp de D on a, car nos données
sont centrées, que :
3.4. RECHERCHE DES SOUS-ESPACES PRINCIPAUX 45

 
p(x1 )
 .. 
 . 
Xu =  p(xi ) 
 
 . 
 .. 
p(xn )
Ainsi, matriciellement parlant :
2 t
P
i pi ||p(xi )|| = (Xu)D(Xu)
t t
= u XDXu
t
= uV u

Trouver D est donc équivalent à trouver un vecteur unitaire u de Rp

maximisant t uV u.
Trouver u peut se faire de plusieurs manières. La plus simple, mais la
moins intéressante, est d’annuler les dérivés partielles de t uV u. Mais comme
je suis un (énorme) fainéant, on va résoudre cette équation sans calcul.
Pour cela, on peut remarquer que la matrice V est symétrique et semi-
définie positive (i.e. ses valeurs propres sont positives). En effet, pour tout
vecteur de R , uV u est positif (puisque égal à i pi ||p(xi )||2 ). Si u est un
p t
P
vecteur propre de V de valeur propre λ, t uV u =t u(λu) = λt uu = λ||u||2 . On
en déduit que λ ≥ 0.
Or on sait (ou plus vraisemblablement , on savait) que les vecteurs propres
d’une matrice symétrique semi-définie positive forment une base orthonormée.
Soit alors u1 , u2 , . . ., up les vecteurs propres de V rangés par ordre décroissant
de leurs valeurs propres respectives (λ1 ≥ λ2 ≥ . . . ≥ λp ).
Tout vecteur unitaire u se décompose ainsi en u = α1 u1 + . . . + αp up .
De là :
t
uV u = t ( i αi ui )V ( j αj uj )
P P

= t ( i αi ui )( j αj V uj )
P P

= t ( i αi ui )( j αj λj uj )
P P
P P
= < i αi ui , j αj λj uj >
P P
= i (αi < ui , j αj λj uj >)
P P
= i( j (αi αj λj < ui , uj >))

Les ui formant une base orthonormée, on a alors :

t
P P
uV u = ( (α α λ < ui , uj >))
Pi 2 j i j j
= Pi (αi λi < ui , ui >)
= Pi (αi2 λi ||ui ||2 )
2
= i (αi λi )
46 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Comme λ1 ≥ λi pour tout i ≥ 1, on a du coup :

t
uV u = Pi (αi2 λi )
P
1
≤ Pi λ12)
i (α
≤ λ1 ( i α i )
≤ λ1 ||u||2
≤ λ1

Or pour u1 , t u1 V u1 =t u1 (λ1 u1 ) = λ1 t u1 u1 = λ1 ||u1 ||2 = λ1 .

On a donc finalement que :
– pour tout vecteur unitaire u, t uV u ≤ λ1 ,
– t u1 V u1 = λ1 .
La droite D maximisant i pi ||p(xi )||2 est donc de vecteur directeur u1 ,
P
vecteur propre de V associé à λ1 , la plus grande de ses valeurs propres.

3.4.2 Sous-espaces principaux à plus d’1 dimension

La partie précédente montre que Psi l’on veut2 trouver un sous-espace à 1
dimension maximisant la quantité i pi ||p(xi )|| pour des données centrées
et réduites, il faut prendre comme espace la droite de vecteur directeur u1 ,
vecteur propre associé à la valeur propre la plus grande de la matrice V =
t
XDX.
Mais qu’en est-il lorsque l’on cherche à maximiser la quantité i pi ||p(xi )||2
P
pour un espace de dimension quelconque ?
Une propriété des espaces orthogonaux va nous aider grandement. Soit
R = H ⊕ H ⊥ une décomposition de l’espace en somme directe de deux sous-
p

espaces orthogonaux. En notant pH (xi ) la projection de xi sur H et pH ⊥ (xi )

la projection de xi sur H ⊥ , on a clairement que :
X X X
pi ||xi ||2 = pi ||pH (xi )||2 + pi ||pH ⊥ (xi )||2
i i i

De plus :
Proposition 1 Si on désigne par mk l’ensemble des sous-espaces principaux
de dimension k, les deux assertions suivantes sont équivalentes :
(i) Hk+l ∈ mk+l
(ii) Hk+l = Hk ⊕ Hl , avec Hk ∈ mk , Hk sous espace de Hk+l , Hl ∈ ml et
Hk orthogonal à Hl .

Preuve. Pour plus de clarté, notons I(H) = i pi ||pH (xi )||2 .

P
(i) ⇒ (ii). Soit L ∈ ml et L orthogonal à Hk . On pose de plus Hk+l = Hk ⊕
Hl . On a alors I((Hk ⊕ L)⊥ ) = I(Hk⊥ ⊕ L⊥ ) = I(Hk⊥ ) + I(L⊥ ) et I(Hk+l ⊥
)=
3.4. RECHERCHE DES SOUS-ESPACES PRINCIPAUX 47

I(Hk⊥ )+I(Hl⊥ ). Comme I(Hk+l ) ≥ I(Hk ⊕L), il vient I((Hk+l )⊥ ) ≤ I((Hk ⊕

L)⊥ ). D’où I(Hl⊥ ) ≤ I(L) ce qui prouve que Hl ∈ ml .
(ii) ⇒ (i). Soit U ∈ mk+l , la dimension de U plus la dimension de Hk⊥
est égal à n + l, la dimension de U ∩ Hk⊥ est ainsi supérieure ou égal à l,
U contient un sous-espace V de dimension l et orthogonal à Hk . Il existe
de plus W tel que U = V ⊕ W et ainsi : I(U ⊥ ) = I(V ⊥ ) + I(W ⊥ ) et
⊥
I(Hk+l ) = I(Hk⊥ ) + I(Hl⊥ ) on en déduit ainsi I(U ) = I(Hk+l )

Cette proposition nous montre que trouver un sous-espace principal à k

dimensions peut se faire à partir de sous-espace à k − 1 dimensions. Connais-
sant un sous-espace principal H à k − 1 dimension, il suffit en effet de trouver
un sous-espace principal H 0 à 1 dimension dans l’orthogonal de H, et le sous-
espace H ⊕ H 0 est un sous-espace principal à k dimensions.
Trouver un sous-espace à 2 dimensions revient donc à trouver un sous-
espace à 1 dimension dans l’orthogonal de la droite engendrée par u1 .
On peut alors procéder comme dans la partie précédente. Un vecteur
unitaire u dans l’orthogonal de u1 va s’écrire α2 u2 +. . . αp up où les u1 , u2 , . . .,
up sont les vecteurs propres de V rangés par ordre décroissant de leurs valeurs
propres respectives (λ1 ≥ λ2 ≥ . . . ≥ λp ). Ceci puisque les ui (1 ≤ i ≤ p)
forment une base orthonormée de Rp .
En reproduisant le même raisonnement que précédemment, on conclut
que le vecteur recherché n’est rien d’autre que u2 .
On en conclut alors qu’un sous espace principal de dimension k est exac-
tement u1 ⊕ u2 ⊕ . . . ⊕ uk .

3.4.3 Axes principaux

On a vu que si l’on note u1 , u2 , . . . , up les vecteurs propres de V rangés par
ordre décroissant de leurs valeurs propres respectives (λ1 ≥ λ2 ≥ . . . ≥ λp ),
les sous espaces principaux de dimension k sont égaux à u1 ⊕ u2 ⊕ . . . ⊕ uk
pour des données centrées et réduites.
On appelle alors iième axe principal le sous-espace engendré par ui .
Les ui quant à eux sont appelé facteurs principaux.
Pour l’axe principal k (1 ≤ k ≤ p), on a alors :
– la projection p(xi ) de xi sur cet axe est égal à la iième ligne du vecteur
colonne Xuk ,
2
P
– i pi ||p(xi )|| =P
λk
De plus, on a que i pi ||xi ||2 = k λk puisque Rp = u1 ⊕ u2 ⊕ . . . ⊕ up .
P
48 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.5 Inertie et sous-espace principal

On appelle inertie du nuage la moyenne des carrées des distances des
points du nuage à son centre de gravité g. Les données étant centrée, l’inertie
I du nuage est alors : X
I= pi ||xi ||2
1≤i≤n

L’inertie est un paramètre de dispersion du nuage, puisqu’elle mesure

l’éloignement relatif des points par rapport à son centre de gravité. C’est une
variance non normée (on ne divise pas par le nombre de points). On peut de
plus montrer que
1 XX
I= pi pj ||xi − xj ||2
2 i j
en effet :
2
p p (||xi ||2 + ||xj ||2 − 2 < xi , xj >)
P P P P
i j pi pj ||xi − xj || =
Pi Pj i j
pi pj ||xi ||2 + i j pi pj ||xj ||2
P P
= i PjP
−2 i j pi pj < xi , xj >
= 2 i pi ||xi ||2 − 2 j < i pi xi , xj >
P P P

P
On conclut en remarquant que i pi xi est égal au centre de gravité du nuage
qui est égal à 0 puisque les données sont centrées.
On peut également définir l’inertie par rapport P à un autre point. L’inertie
par rapport à un point h est alors égale à Ih = 1≤i≤n pi ||xi − h||2 . Grâce à
la formule de Huygens, on peut montrer que :
Ih = I + ||g − h||2M = I + ||h||2
L’inertie par rapport à un point différent du centre de gravité est donc tou-
jours supérieure à l’inertie du nuage.
Les notions d’inertie et de sous-espace principal sont liés puisque les sous-
espaces principaux sont ceux qui maximisent l’inertie des projetés des indi-
vidus. De plus, on a que l’inertie totale du nuage est égale à la somme des
inerties des axes principaux (cf. partie précédente).
L’inertie tient donc le rôle de “l’information” du nuage, information répar-
tie dans tous les axes principaux. P
On a en effet que l’inertie du nuage est égale à : I = 1≤j≤p λj et que
l’inertie associée à l’axe principal j est égal à λj . De plus, comme la somme
des valeurs propres d’une matrice est égale à sa trace (i.e. la somme de
ses éléments diagonaux), on a également que I = trace(V ). Nos données
étant réduites, les éléments diagonaux de V sont tous égaux à 1 et donc
trace(V ) = p.
3.6. DESCRIPTION DU NUAGE DES INDIVIDUS 49

Chaque axe principal explique donc une part d’inertie étant égale à son
inertie divisée par l’inertie totale, cette quantité valant ici λpi .
La part d’inertie expliquée par le plan formé par les facteurs ui et uj est
égale à l’inertie des projetés sur ce plan divisé par l’inertie totale. Les ui
λ +λ
formant une base orthogonale de Rp , cette inertie expliquée vaut : i p j .

3.6 Description du nuage des individus

On rappelle que les facteurs principaux u1 , u2 , . . ., up sont les vecteurs
propres de la matrice V associés aux valeurs propres λ1 ≥ λ2 ≥ . . . ≥ λp .
Comme les ui forment une base orthonormée de Rp , ils tiennent lieu de nou-
veaux axes.
Pour cette nouvelle base, les coordonnées des individus sont alors égales
aux projections d’iceux sur les axes principaux. La projection des points sur
l’axe principal j étant égal au vecteur colonne Xuj (la projection du ième
points sur l’axe principal j est égal à la ième coordonnée de Xuj ).
On appelle alors composantes principales les vecteurs colonnes cj = Xuj
pour tout 1 ≤ j ≤ p (cf. figure 3.4).

1
x i x i

1 2
c i c i

1 2
u u
2
x i

Figure 3.4 – facteurs principaux, composantes principales

Remarque 10 Dans la nouvelle base, l’individu xi a donc pour coordonnées

(c1i , c2i , . . . , cpi ).
Les composantes principales sont ainsi les nouvelles variables, combinai-
sons linéaires des variables initiales.
En particulier :
1. chaque composante principale est une variable centrée : 1≤i≤n pi cji = 0
P
car cj est une combinaison linéaire des xj qui sont centrés,
50 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

2. la variance de cj vaut λj : pi (cji )2 = t cj Dcj = t uj t XDXuj =

P
1≤i≤n
t j
u V uj = λj .
On peut alors visualiser le nuage X sur le plan principal d’inertie qui
est le sous-espace principal de dimension 2, c’est à dire en ne prenant en
compte que les deux premières composantes principales, ou sur tout autre
sous-espace formé à partir des facteurs principaux.
La qualité de la représentation de X sur ces axes pourra alors être étudié
du point de vue global ou local.

Le point de vue global : on évalue la qualité de l’approximation du nuage

par un plan ou un axe. Cette qualité sera d’autant meilleure que l’inertie de
ce sous-espace est forte (ce qui signifie que les points seront globalement
proche de leurs projetés). L’inertie totale du nuage valant trace(V ) = p, on
introduit les parts d’inertie expliquée :
λ
– par l’axe uj qui vaut pj ,
λi +λj
– par le plan formé par les facteurs ui et uj et qui vaut p
,

Le point de vue local : plus le point xi est proche du sous-espace H (le

plus souvent un axe ou un plan) sur lequel on le projette, plus pertinente
est sa représentation. On a donc coutume de mesurer cette proximité par le
||projection de xi sur H||2
cosinus carré de l’angle de xi et de H : cos2 α = ||xi ||2
(cette formule peut être aisément expliquée par la figure 3.5 et le fait que
le cosinus d’un angle dans un triangle rectangle est égal au côté adjacent de
l’angle divisé par l’hypoténuse).
Le cosinus carré de l’angle entre xi et le facteur uj est donc égal à cos2 α =
j 2
|ci |
||xi ||2
et le cosinus carré de angle entre xi et le plan uj ⊕ uk est égal à cos2 α =
|cji |2 +|cki |2
||xi ||2
.

x
i

g q
cj
cj
i

Figure 3.5 – angle de projection

3.6. DESCRIPTION DU NUAGE DES INDIVIDUS 51

3.6.1 Description du nuage des caractères

Les caractères initiaux x1 , x2 , . . . , xp forment un sous-espace F 0 de Rn de
dimension au plus p. Les p composantes principales c1 , c2 , . . ., cp , que l’on
supposera librement indépendants pour simplifier l’écriture, sont obtenus par
combinaisons linéaires des caractères initiaux.
On peut alors décrire les composantes principales (les nouvelles variables)
par les corrélations qu’elles entretiennent avec les anciennes variables.
La corrélation entre une composante principale cj et une variable initiale
k
x est égale (cf. partie 2.2.2) à

cov(xk , cj )
r(xk , cj ) =
s(cj )s(xk )

Nos données étant réduites, s(xk ) = 1. Calculons s(cj ). Nos données étant
centrées, on a :
s2 (cj ) = t cj Dcj
= t (Xuj )DXuj
= t uj t XDXuj
= t uj V uj
= λj
p
On a donc s(cj ) = λj .
Passons au calcul de cov(xk , cj ). Les xk et les cj étant centrées, on a :

cov(xk , cj ) = t k
x Duj
t k
= x DXuj

xk étant la kème colonne de X, en notant ek le vecteur colonne de Rn

valant 0 sur toutes ses lignes sauf à la ligne k où il vaut 1, on a xk = Xek .
Donc :

cov(xk , cj ) = t (Xek )DXuj

= t ek t XDXuj
= t ek V uj
= λj t e k u j

La covariance entre xk et cj est donc égale à λj multiplié par la kème

composante du vecteur uj , que l’on note (uj )k
Finalement :
λ (u )
r(cj , xk ) = j√ j k
p λj
= λj (uj )k
52 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

0
Comme on a toujours r2 (xj , ck ) + r2 (xj , ck ) ≤ 1 (pour s’en convaincre,
0
remarquez que ck et ck sont orthogonaux, et donc une corrélation linéaire
de 1 avec un axe entraı̂ne une corrélation linéaire de 0 avec l’autre. De façon
plus formelle, le résultat vient du fait que r(xj , ck ) est le cosinus entre les axes
définis par xj et ck , cf. partie 3.8.3) en projetant les xj sur le plan principal
0
(c1 , c2 ) (ou plus généralement sur le plan (ck , ck )), on obtient des points à
l’intérieur d’un cercle de rayon 1 (cf. figure 3.6).

j 2 xj
r(x ,c )

j 1
r(x ,c ) c1

Figure 3.6 – Cercle des corrélations

Ce cercle permet de voir d’un seul coup d’oeil les corrélations linéaires de
toutes les variables initiales avec deux composantes principales particulières.

3.6.2 Reconstructions et transitions

La dualité individus – caractères se traduit par des formules de transitions
entres facteurs principaux et composantes principales. On a :

cj = Xuj

On en déduit que cj t uj = Xuj t uj , soit 1≤j≤p cj t uj = X 1≤j≤p uj t uj .

P P
Les (uj )1≤j≤p étant une base orthonormée de Rp , 1≤j≤p uj t uj est la matrice
P
unité p × p, on en déduit :
X
X= cj t u j
1≤j≤p
3.7. INTERPRÉTATION DES RÉSULTATS 53

3.7 Interprétation des résultats

On étudie dans cette partie l’analyse en composante principale du ta-
bleau 1.1.
Même si les différents calculs peuvent être (et sont) effectués par ordi-
nateur, la lecture des résultats est extrêmement importante, puisqu’ils per-
mettent de caractériser les axes principaux, souligner les corrélations, et sur-
tout, éviter les interprétations erronées.
On commence par centrer et réduire les données, on obtient alors le ta-
bleau de donné représenté en figure 3.2.

Table 3.2 – Tableau centré réduit de la table 1.1

LIV ELB POA ACT PIE TER

AI -0.79 -1.37 -1.36 0.24 2.09 -0.23
PL -1.1 -0.88 0.34 0.41 0.91 -0.23
IAC -1.25 -1.37 -0.63 1.32 0.78 -0.52
CS -0.64 -0.64 -0.39 1.65 -0.67 -0.62
AG -0.34 0.34 0.1 -1.09 -1.2 2.19
AA 0.12 0.34 -0.63 -1.17 -0.14 1.51
AS 0.43 0.59 -0.63 0.41 -0.28 -0.52
PI 0.58 0.83 0.34 -0.01 -0.28 -0.62
EM 1.34 0.59 0.58 -0.76 -0.14 -0.33
OU 1.65 1.57 2.28 -1 -1.06 -0.62

3.7.1 Valeurs propres, facteurs et composantes princi-

pales
Les valeurs propres de la matrice de corrélation de nos données (cf.
table 3.1) est donné dans la table 3.3. L’inertie cumulée représente l’iner-
tie des projectionsP des individus sur le sous-espace principal à k dimension,
et est donc égal à 1≤i≤k λi .
On trouve que la dernière valeur propre est nulle, ce qui est normal
puisque la somme des colonnes fait toujours 100 dans la table 1.1, les ca-
ractères sont liés par une relation linéaire (chaque ligne correspond en effet
à des pourcentages par catégorie socioprofessionnelles).
On voit que les deux premiers axes principaux expliquent à eux seul plus
de 80% de l’inertie du nuage, nous résumerons donc nos données sur le plan
formé de ces deux axes.
54 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

Table 3.3 – Valeurs propres de la matrice de corrélation de la table 1.1

i λi % d’inertie inertie cumulée

1 3.6 60 60
2 1.40 23 83
3 0.61 10 94
4 0.35 5 99
5 0.04 1 100
6 0 0 100

Il n’y a pas de méthode générale pour savoir combien d’axes principaux

considérer, rien ne remplaçant l’expérience. Un critère pouvant être utilisé
est cependant de repérer une chute d’inertie entre deux axes consécutifs. La
méthode la plus sûr consistant à ne choisir qu’après avoir étudié la significa-
tion possible des axes.
Les deux premiers vecteurs propres sont donnés dans la table 3.4 ci-après.

Table 3.4 – les deux premiers vecteurs propres de la matrice de corrélation

de la table 1.1

attributs u1 u2
LIV -0.470 0.230
ELB -0.510 0.072
POA -0.417 0.311
ACT 0.403 0.418
PIE 0.414 0.041
TER -0.109 -0.818

3.7.2 Composantes principales et représentation gra-

phique
Les composantes principales donnent les projections des individus sur
les facteurs principaux (les vecteurs propres). Les composantes principales
associés aux deux premiers facteurs principaux (cf. table 3.4) est représenté
dans la table 3.5.
Les composantes principales nous donnent les coordonnées des individus
dans le plan formé par les deux premiers facteurs principaux, c’est à dire
3.7. INTERPRÉTATION DES RÉSULTATS 55

Table 3.5 – les deux premières composantes principales associées aux vec-
teurs propres de la figure 3.4

catégorie c1 c2
socioprofessionnelle
AI 2.77 -0.35
PL 1.46 0.20
IAC 2.59 0.45
CS 1.31 0.90
AG -1.30 -2.44
AA -0.70 -1.98
AS -0.14 0.56
PI -0.94 0.83
EM -1.58 0.50
OU -3.48 1.31

dans le plan principal. La figure 3.7 représente les projections des individus
sur le plan principal (il suffit de prendre les composantes principales puisque
la base des vecteurs propres est orthonormée).
Les représentations des catégories socioprofessionnelles de la figure 3.7
sont des projections, il ne faut donc pas confondre proximité dans le plan
principal et proximité dans le nuage de points. Il faut donc regarder la “qua-
lité” de la projection. Par exemple, une catégorie socioprofessionnelle presque
orthogonale à une des composantes principale sera très déformée dans le
plan principal, et on ne pourra pas tenir compte de sa projection pour l’in-
terprétation.
Une des méthode les plus courantes pour juger de la qualité de la pro-
jection est d’examiner l’angle que fait l’individu avec le plan de projection
(c’est l’étude local de la partie 3.6). La table 3.6 donne les différents cosinus
carrés des individus par rapport au plan principal.

Table 3.6 – Cosinus carrés entre les catégories socioprofessionnelles et le

plan principal

AI PL IAC CS AG AA AS PI EM OU
2
cos (θ) 0.79 0.62 0.96 0.50 0.90 0.94 0.20 0.88 0.78 0.96

On remarque que tous les individus sont bien représentés dans le plan
56 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

2 OU
+
CS
1

PI +
+
EM AS
+ + IAC
+
PL
+
deuxieme facteur

AI
+
−1

AA
+
−2

AG
+
−3

−3 −2 −1 0 1 2 3

premier facteur

Figure 3.7 – Plan principal

principal, à part l’individu correspondant à la catégorie socioprofessionnelle

√
AS (Anciens Salariés) qui forme un angle de 63 degrés (arccos( 0.20) ' 63◦ )
avec le plan principal.

Remarque 11 Lorsque de nombreux points sont mal représentés dans le

plan principal, il est nécessaire d’étudier les plan principaux définis par d’autres
axes principaux (1 et 3, 2 et 3, . . .).

3.7.3 Interprétation des axes et des projections

L’interprétation des axes, combinaisons linéaires des caractères princi-
paux, est certainement la partie la plus délicate de l’analyse. Habituellement,
deux points de vues sont étudiés :
– les corrélations avec les caractères de départ,
– l’étude des individus typiques (ceux dont les projections sont les meilleurs).
Les corrélations avec les caractères de départs sont effectués via le cercle
des corrélations (cf. 3.6.1). Celui associé à notre exemple est reproduit en
figure 3.8.
– la variable TER (“terre”) est très négativement corrélée avec l’axe c2 ,
3.7. INTERPRÉTATION DES RÉSULTATS 57

1.0
ACT

0.5
+
POA
+
LIV
+

ELB
+ PIE
+

0.0
c2

−0.5

TER
−1.0

−1.0 −0.5 0.0 0.5 1.0

Figure 3.8 – Cercle des corrélations

– les variables ELB (“épargne obligatoire”), LIV (“livrets, logements,

bons,. . .”) et POA (“placements”) sont très négativement corrélés avec
l’axe c1 ,
– les variables PIE (“pierres”) et ACT (“actions”) sont très positivement
corrélés avec l’axe c1 (En étudiant les projections sur les axes d’ordres
supérieurs, on remarque que le troisième axe principal permettrait de
séparer ces deux variables).
Ces constatations nous permettent de caractériser les différents axes.
Le premier axe sépare les produits fiduciaires (à gauche) des actes de
propriétés (à droite), et le deuxième axe sépare les propriétaires terriens (en
bas) des autres.
En regardant les individus, à part AS qui ne se projette que très mal sur
le plan principal (on le voit bien puisque sa projection est presque au centre
du graphique, ce qui est un cas général de mauvaise projection), on peut les
regrouper en trois ensembles distincts ;
– les agriculteurs (retraités ou non) qui se caractérisent par un fort pa-
trimoine terrien,
– les classes supérieures et moyennes aisées (CS, AI, IAC et PL) se ca-
ractérisant par un fort patrimoine de propriété et peu (en proportion)
de produits bancaires,
– les classes moyennes et pauvres (OU, EM et PI) se caractérisant par
un fort patrimoine fiduciaire (en proportion, pas en quantité. . .)
On peut également voir un “glissement” vers la droite des retraités par
rapport aux mêmes catégories socioprofessionnelles encore en activités.
58 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.8 Cas général et utilisation des métriques

On supposera toujours que nos données sont centrées. Lorsque l’on ne
réduit pas les données, on ne peut plus utiliser la métrique euclidienne,
comme on l’a vu. On se doit donc d’utiliser une métrique adaptée à notre
analyse. Procédons ici de façon générale et étudions le problème pour une
métrique donnée.

3.8.1 Métrique
D’une façon générale, si M est une matrice symétrique définie positive
(c’est à dire dont toutes ses valeurs propres sont strictement positives), on
définit un produit scalaire comme étant :

< ei , ej >= t (ei − ej )M (ei − ej )

ei et ej étant des vecteurs colonnes. Une distance d peut alors être définie
via la norme associée au produit scalaire :

d2 (ei , ej ) = ||ei − ej ||2M = t (ei − ej )M (ei − ej )

||ei ||M est la norme associée à d et est appelée M -norme ; M est alors
appelée métrique de l’espace. La distance euclidienne est un cas particulier
de la définition ci-dessus, en prenant M égal à la matrice identité. De plus,
toute norme est issue d’un produit scalaire de ce type.
On peut montrer que si M est une matrice symétrique définie positive, il
existe une matrice T (inversible puisque M est inversible) telle que M = t T T .
On a ainsi

||ei − ej ||2M = t
(ei − ej )M (ei − ej )
t
= (ei − ej )t T T (ei − ej )
t
= (T ei − T ej )(T ei − T ej )

Les xi étant quant à eux des vecteurs lignes, remplacer le tableau de

données X par X t T nous permettra ensuite d’utiliser la métrique euclidienne.
Tout se passe alors comme suit : on commence par trouver une métrique M ,
puis on transforme notre tableau de données par X t T (tableau que nous
continuerons à appeler X par abus de notations) et on utilise la métrique
euclidienne.
C’est exactement ce que nous avons fait précédemment en réduisant nos
données, comme le montre la partie suivante.
3.8. CAS GÉNÉRAL ET UTILISATION DES MÉTRIQUES 59

3.8.2 Espace des individus

La métrique la plus utilisée pour l’analyse en composantes principales est
la matrice diagonale :
 1 
s21
 ... 
 0 
 1 
D 12 = tD 1 D 1 =  s2i

s s s  
 .. 
 0 . 
1
s2p

Ceci revient à remplacer X par X t D 1 = XD 1 (cf. partie précédente), et

s s
donc à diviser chaque xj par son écart type. Les écarts types des nouvelles
variables sont alors toutes égales à 1 : on réduit les données.

3.8.3 Espace des caractères

Pour étudier les distances entre caractères, le choix de la métrique ne se
pose pas, on utilise la matrice D . En effet, ||xi ||2D = s2i puisque les données
sont centrées. La “longueur” d’un caractère est égal à sa variance et si les
données sont réduites, les caractères sont normés.
De plus, utiliser cette métrique rend les composantes principales ortho-
gonales entres elles. En effet :
0 0
< cj , cj > = t j
c Dcj
t
= (Xuj )D(Xuj 0 )
t t
= uj XDXuj 0
t
= uj V uj 0
= λj 0 t uj uj 0

Les uj formant une base orthogonale pour la distance euclidienne on a

0
bien que < cj , cj >= 0 si j 6= j 0 .
Mais la raison fondamentale du choix de D comme métrique tient au fait
que dans un espace euclidien on définit l’angle θ entre deux vecteurs ei et ej
par son cosinus qui est égal à :
< ei , ej >
cos θij =
||ei ||||ej ||
en utilisant la D-norme on a alors que cos θij = r(ei , ej ).
On s’intéresse donc, dans l’espace des caractères, plus particulièrement
aux angles entre caractères qu’aux distances entre points.
60 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES

3.8.4 A.C.P avec une métrique quelconque

Nous n’allons pas ici redévelopper tous les calculs. Nous donnons juste
les résultats.
Soit X nos données que l’on supposera centrées. X est une matrice à n
lignes (nos n individus) et p colonnes (nos p variables).
On se donne une métrique entre individus en choisissant une matrice M
symétrique définie positive (M = D 12 pour l’A.C.P classique). Il n’est pas
s
nécessaire de choisir une métrique particulière pour les variable, c’est toujours
la D-norme qui est utilisée (où D est la matrice des poids).
La seule différence entre une A.C.P. utilisant la métrique euclidienne et
une A.C.P. utilisant une métrique quelconque et dans le calcul des compo-
santes principales. Les facteurs propres sont ici les vecteurs propres u1 , . . .up
de la matrice M V (et non plus juste V ) associés aux valeurs propres de M V
rangés par ordre décroissants λ1 ≥ . . . ≥ λp .
P On a alors que l’inertie totale du nuage est égale à I = trace(M V ) =
i λi (attention car l’inertie dépend de la distance utilisée).
Les composantes principales cj sont toujours égales à Xuj .
En résumé, si M est la matrice choisie pour tenir lieu de norme et X la
matrice des données centrée :
– V = t XDX,
– les facteurs propres sont les vecteurs propres u1 , . . .up de la matrice
M V , associés aux valeurs propres de M V rangés par ordre décroissants
λ1 ≥ . . . ≥ λp ,P
– trace(M V ) = i λi ,
– les composantes principales cj sont égales à cj = Xu pj ,
j
– en notant D la matrice des poids, on a : ||c ||D = λj .

3.9 Quelques remarques

L’analyse en composante principale est une des deux principales méthodes
d’analyse factorielle (l’autre étant l’analyse en facteurs communs et spécifiques).
Issue essentiellement des travaux de Spearman sur la description de l’intelli-
gence d’un individu (1904). L’analyse factorielle se propose d’expliquer des
liaisons entre des variables à l’aidePde facteurs indépendants. Elle postule un
modèle linéaire de la forme xji = k cjk uki où les uk représentent les facteurs
indépendants.
3.9. QUELQUES REMARQUES 61

3.9.1 L’analyse en facteurs communs et spécifiques

L’analyse en facteurs communs et spécifiques cherche à expliquer les
corrélations des variables à l’aide :
– d’un seul facteur commun, le facteur général G des facteurs de groupe,
intervenant seulement dans une part des variables ;
– un facteur spécifique à chaque variables.
Traditionnellement, le modèle linéaire correspondant s’écrit

xji =
P j k
aj Gi + k bk Bi + cj Sij
↓ ↓ ↓
facteur général facteur de groupe facteur spécifique

Ce type de modèle a donné lieu à de nombreuses généralisations.

3.9.2 L’analyse en composante principale

L’analyse en composante principale s’appuie essentiellement sur les tra-
vaux de Hotelling (1933). Elle présuppose la normalité des variables xj (sous
cette hypothèse le nuage X définira expérimentalement des hyperellispesoı̈des
concentriques d’égale densité), ce sont les axes principaux de ces ellipsoı̈des
qui définiront les facteurs.
Il convient donc de réserver cette analyse aux observations dont on peut
tester qu’on pouvait les les considérer extraites de variables normales.
62 CHAPITRE 3. ANALYSE EN COMPOSANTES PRINCIPALES
Chapitre 4

Classification

Le seul moyen de faire une méthode instructive et naturelle,

est de mettre ensemble les choses qui se ressemblent
et de séparer celles qui diffèrent les unes des autres.
Georges Buffon, Histoire naturelle, 1749.
Cette phrase du célèbre naturaliste et écrivain Georges Buffon peut servir
de définition générale à un modèle de classification. Les modèles les plus
classiquement utilisés en classification sont, sans conteste, les partitions et
les hiérarchies de parties. Dans les deux cas, les objets qui se ressemblent
sont regroupés en classes. Pour les partitions, les classes sont deux à deux
disjointes ; pour les hiérarchies, elles peuvent être emboı̂tées. Dans les deux
cas, elles ne sont pas empiétantes au sens où l’intersection de deux d’entres
elles n’en produira jamais de troisième. Nous ne parlerons pas dans ce cours de
modèles en classes empiétantes, sujet par trop vaste pour cette introduction
à l’analyse des données.
Le modèle hiérarchique est hérité des sciences naturelles (classification
des espèces animales et végétales), le modèle non hiérarchique correspond à
des pratiques statistiques usuelles dans des domaines tels que la reconnais-
sance des formes, l’apprentissage, la recherche opérationnelle (affectation de
ressources), . . .où il s’agit de discriminer sans ambiguı̈té.
Une des vertus de la non-empiétance est de doter la classification de
solides assises mathématiques. Les partitions d’un ensemble fini sont en effet
au cœur de la théorie combinatoire (dénombrements, rangements, géométries
finies, . . .). On connaı̂t aussi leur importance en probabilité et statistiques
(via la théorie de l’information et divers tests d’hypothèses). Les hiérarchies
de parties et leurs avatars : les ultramétriques, possèdent également de belles
et fortes propriétés (Leclerc, 1979, 1981, 1985a, et 1985b). Il est d’ailleurs
remarquable que le premier traité, en langue française (à notre connaissance)
sur la classification commence par une étude détaillée du treillis des partitions

63
64 CHAPITRE 4. CLASSIFICATION

d’un ensemble fini (Lerman, 1970).

Les hiérarchies de parties, dès lors qu’elles sont indicées (c’est à dire
lorsque l’on assigne à chaque classe un nombre réel évaluant son ”niveau”)
sont en bijection avec un type particulier de distances : les ultramétriques. Un
intérêt majeur de ce théorème de bijection est de réduire la recherche d’une
classification sur un ensemble X d’objets à la recherche d’une dissimilarité
d’un type donné sur X (une ultramétrique). Lorsque les objets à classifier sont
eux-mêmes décrits par une dissimilarité, le problème devient complètement
homogène : transformer une dissimilarité quelconque en une dissimilarité d’un
type donné. La classification s’inscrit alors dans le champ de l’approximation
mathématique.
Dans cet esprit, nous nous restreindrons dans ce chapitre au cas où des ob-
jets à classifier sont décrits par des dissimilarités, que ces dissimilarités soient
directement observées ou qu’elles soient calculées à partir de caractères (cf.
Kuntz (1992) pour une discussion détaillée du calcul de dissimilarités à par-
tir de données de présence-absence). De plus, par soucis de concision, nous
nous restreignons aux modèles non-empiétant que sont les partitions et les
hiérarchies de parties. Il s’agit là d’une approche particulière. D’autres uti-
lisent par exemple une description des objets par des caractères et cherchent
à obtenir des classifications sans le truchement de dissimilarités.

4.1 Modèles de classification

On supposera que X est décrit par une dissimilarité propre (cf. 1.4.1) d.
On cherche alors à construire sur X une classification en classes homogènes
au sens de d.
Définition 14 Un sous ensemble K de 2X sera appelé système de classes
sur X si et seulement si il vérifie les trois propriétés ci-dessous :
C1 : X ∈ K et ∅ 6∈ K,
C2 : ∀x ∈ X, {x} ∈ K,
C3 : ∀A, B ∈ K, A ∩ B 6= ∅ entraı̂ne A ∩ B ∈ K.
L’axiome C3 assure qu’un système de classes est clos par intersection
finie non vide de ses éléments. Un exemple de système de classe est donné en
figure 4.1.
Si K est un système de classes sur X, on appellera X l’ensemble de base
de K et classes de K tous ses éléments. Les singletons {x} et {X} seront
appelées classes triviales de K.
Définition 15 Un sous ensemble R = {P1 , P2 , . . . , Pk } de 2X sera appelé
recouvrement de X si et seulement si il vérifie les trois propriétés ci-dessous :
4.1. MODÈLES DE CLASSIFICATION 65

Figure 4.1 – Un système de classes très classe

R1 : pour tout 1 ≤ i ≤ k, Pk 6= ∅,
R2 : pour tous 1 ≤ i 6= j ≤ k, Pi 6⊂ Pj et Pj 6⊂ Pi ,
R3 : P1 ∪ P2 ∪ . . . ∪ Pk = X.

Un exemple de recouvrement est donné en figure 4.2.

Figure 4.2 – Un recouvrement

4.1.1 Partitions et hiérarchies

On appellera modèle de classes tout sous ensemble de 2X qui est soit
un système de classe, soit un recouvrement. Nous nous restreignons à deux
modèles de classes particuliers, les partitions (qui sont un ensemble particulier
de recouvrement) et les hiérarchies (cas particulier de système de classes).

Modèle de classe
Définition 16 Une partition P est un recouvrement tel que pour toutes
classes A et B de P : A ∩ B = ∅ si A =
6 B.
66 CHAPITRE 4. CLASSIFICATION

Définition 17 Une hiérarchie est un système de classes H tel que pour

toutes classes A et B de P : A ∩ B ∈ {A, B, ∅}

Pour une hiérarchie, de part la définition, deux classes sont donc toujours
soit incluses l’une dans l’autre, soit d’intersection vide. On peut donc, en ra-
joutant les classes triviales, considérer une partition comme un cas particulier
d’une hiérarchie.
Les classes d’une hiérarchie étant soient incluses l’une dans l’autre soit
d’intersection vide. On a coutume de représenter cet arbre sous la forme de
la figure 4.3 où chaque classe est représenté par un segment. On appelle cette
représentation un dendrogramme.

Figure 4.3 – Un dendrogramme

Indiçage
On peut munir une hiérarchie, ou plus généralement tout système de
classe K, d’un indice.

Définition 18 Un indice sur une système de classe K est une fonction f de

l’ensemble des classes de K dans l’ensemble des réels positifs, et telle que :
– f ({x}) = 0 pour tout x ∈ X,
– quelques soient A, B ∈ K, A ( B implique f (A) < f (B).

La paire (K, f ) est alors appelée système de classe indicé. Le réel f (A)
où A ∈ K est alors appelé hauteur de A. La représentation d’une hiérarchie
indicée est aisée en utilisant les dendrogrammes. La hauteur de chaque classe
étant proportionnelle à la hauteur du segment la représentant. Un exemple
de hiérarchie indicée est présenté en figure 4.4.
Il est clair que toute hiérarchie peut être indicée. On peut par exemple
utiliser comme indice d’une classe A la valeur f (A) = |A| − 1.
Indicer une hiérarchie va nous permettre de les mettre en relation avec
un type particulier de dissimilarité, les ultramétriques.
4.1. MODÈLES DE CLASSIFICATION 67

Figure 4.4 – Représentation d’une hiérarchie indicée

Ultramétriques
Définition 19 Une dissimilarité d sur X est une ultramétrique si et seule-
ment si l’inégalité suivante (appelée inégalité ultramétrique) est vérifiée quelques
soient x, y, z ∈ X :

d(x, y) ≤ max {d(x, z), d(y, z)}

On peut vérifier qu’une ultramétrique vérifie l’inégalité triangulaire et est

donc une distance. De plus l’inégalité ultramétrique est équivalente au fait
que pour trois objets x, y, z ∈ X, les deux plus grandes des trois distances
d(x, y), d(x, z) et d(y, z) sont égales.
On a ainsi coutume de dire que pour une ultramétrique, tout triangle
est isocèle et la base est le plus petit des côtés. La figure 4.5 montre un tel
triangle.

x y z

Figure 4.5 – Un triangle ultramétrique

Définition 20 On appelle boule de centre x et de rayon α d’une dissimilarité

d sur X l’ensemble B(x, α) = {y|d(x, y) ≤ α}.

On appelle classe d’une ultramétrique sur X une boule de centre x et de

rayon α ∈ R+ . Pour trouver toutes les classes d’une ultramétrique, on peut
bien évidemment se restreindre aux boules dont le rayon est une des valeurs
prises par la dissimilarité.
Le théorème suivant montre la relation forte entre les ultramétriques et
les hiérarchies.
68 CHAPITRE 4. CLASSIFICATION

Théorème 2 (Benzécri (1973), Johnson(1967)) Les dissimilarités dont

l’ensemble de leurs boules forment une hiérarchie sont exactement les ul-
tramétriques.
De plus, l’ensemble des boules d’une ultramétrique valué par leur rayon
forme une hiérarchie indicée.

Ce théorème est fondamental car il permet, à partir d’une dissimilarité

d’origine de construire une hiérarchie en approximant cette dissimilarité par
une ultramétrique. L’algorithme de classification ascendante hiérarchique en
est un exemple (cf. partie 4.3).
La hiérarchie associée à la dissimilarité d ci-après est présentée en fi-
gure 4.6

x 0
y 1 0
d: z 3 3 0
t 3 3 2 0
u 4 4 4 4 0
x y z t u

x y z t u

Figure 4.6 – hiérarchie indicée associée à d

4.2 Méthodes de partitionnement

4.2.1 Choix d’une partition
Mesures de ressemblances entre classes
On suppose que nos données sont munies d’une dissimilarité d et que
l’on possède une partition P = {C1 , . . . , Cp } sur X. On peut alors définir
une dissimilarité sur P en utilisant la dissimilarité d, afin de se donner une
mesure sur les classes.
4.2. MÉTHODES DE PARTITIONNEMENT 69

Lorsque la dissimilarité d n’est pas une distance euclidienne, on a coutume

de définir la dissimilarité ∆ entre deux classes Ci et Cj (i 6= j) d’une des trois
façons ci-dessous :
– ∆(Ci , Cj ) = min{d(x, y)|x ∈ Ci , y ∈ Cj }, appelée distance du saut
minimum,
– ∆(Ci , Cj ) = max{d(x, y)|x ∈ Ci , y ∈ Cj }, appelée distance du saut
maximum,
1
P
– ∆(Ci , Cj ) = |Ci ||Cj | x∈Ci ,y∈Cj d(x, y), appelée distance moyenne.

Lorsque la dissimilarité est une distance euclidienne, on peut mettre à

profit l’existence du barycentre (i.e. le centre de gravité) de chaque classe. On
peut alors définir la dissimilarité entre deux classes comme étant la distance
entre leurs deux barycentres.
Un autre moyen est d’utiliser, comme en Analyse en Composantes Prin-
cipales, un critère d’inertie. Le critère le plus utilisé est le critère de Ward qui
mesure entre deux classes la perte d’inertie que l’on encourt à les regrouper.
On rappelle que l’inertie d’un nuage de points est égale à la moyenne des
carrés des distances des points au centre de gravité du nuage que l’on note g
(cf. partie 3.5). On suppose donc que les éléments xi de X sont tous munis
d’un poids pi (on pourra, par exemple, considérer que les poids sont tous
égaux à n1 ). Chaque classe est alors affectée d’un poids Pi égal à la somme
des points des éléments d’icelle.
En notantP gi le centre de gravité de la classe Ci , l’inertie de Ci est alors
égale à Ii = xj ∈Ci pj d2 (xj , gi ). La somme de toutes les inertie des classes
est appelée inertie intraclasse et on la note IW :
X
IW = Ii
1≤i≤p

Remarque 12 De façon intuitive, une partition sur X sera d’autant meilleure

que l’inertie intraclasse sera petite. Cependant, la partition à n élément
possède une inertie intraclasse nulle. On pourra donc chercher à trouver une
partition à p < n classes qui minimise l’inertie intraclasse. Cette idée sera
développée dans les parties suivantes, patience.
On appelle inertie interclasse la quantité IB = I − IW et on peut montrer
que cette quantité est égale à :
X
IB = Pi d2 (gi , g)
1≤i≤p

Suite à la remarque précédente, cette égalité montre donc que minimiser

l’inertie intraclasse revient à maximiser l’inertie interclasse puisque l’inertie
du nuage est constante quelque-soit la partition choisie.
70 CHAPITRE 4. CLASSIFICATION

Le critère de Ward prend alors comme dissimilarité entre deux classes Ci

et Cj la perte d’inertie intraclasse entre la partition initiale et la partition où
Ci et Cj ont été fusionnées. Si on note gi,j le centre de gravité de la classe
Ci ∪ Cj , cette perte est égale à la quantité :

∆(Ci , Cj ) = Pi d2 (gi , g) + Pj d2 (gj , g) − (Pi + Pj )d2 (gi,j , g)

En utilisant le fait que :

Pi Pj Pi P j
d2 (gi,j , g) = d2 (gi , g) + d2 (gj , g) + 2
d2 (gi , gj )
P i + Pj Pi + Pj (Pi + Pj )

on trouve que la perte d’inertie est positive et vaut :

Pi Pj 2
∆(Ci , Cj ) = d (gi , gj )
Pi + Pj

Remarque 13 Attention, les deux dissimilarités entre classes présentées

lorsque les données sont euclidienne ne sont pas des distances. En effet, deux
classes disjointes peuvent avoir un même barycentre.

La figure 4.7 montre quelques exemples de mesure de ressemblance entre

classes.

max

g1 g2
min

Figure 4.7 – Exemple de mesures de ressemblance entre classe pour une

distance euclidienne.

Mesures de stabilités d’une partition

De même que l’on a défini une mesure de ressemblance à une classe d’une
partition sur X, on peut, si l’on dispose d’une dissimilarité sur X définir une
mesure de stabilité (aussi appelé indice de qualité) d’une partition.
Une mesure de stabilité est ainsi une fonction f de l’ensemble des parti-
tions sur X dans l’ensemble des réels positifs. On peut par exemple prendre
comme mesure de stabilité pour une partition P = {C1 , . . . , Cp } une des
fonction suivante lorsque la dissimilarité sur X n’est pas euclidienne :
4.2. MÉTHODES DE PARTITIONNEMENT 71

P C∈P max{d(x, y)|x, y ∈ C}

– f (P) = max
– f (P) = PC∈P P max{d(x, y)|x, y ∈ C}
– f (P) = C∈P x,y∈C d(x, y)
1
P P
– f (P) = C∈P |C| d(x, y)
P x,y∈C
– f (P) = maxC∈P x,y∈C d(x, y)
Si les données sont décrites par une distance euclidienne, on peut utiliser
comme mesure de stabilité l’inertie intraclasse définie ci-avant.

Remarque 14 Toutes les mesures de stabilités décrites ici sont telles que,
intuitivement, les partitions décrivant le mieux les données seront celles qui
réalisent un minimum de ces fonctions à nombre de classes fixé. Si on ne
fixe pas les classes, la partition à n éléments est en effet toujours celle qui
réalise le minimum.

Nombre de partition sur X et conséquences

Les parties précédentes montrent que l’on peut, une fois une mesure de
stabilité choisie, comparer deux partitions sur X au regard de la dissimilarité
décrivant les données. De plus, les différentes remarques montrent que, choisir
la meilleure partition, ne peut se faire que si l’on détermine à l’avance le
nombre de classes qu’elle doit contenir.
On est donc en face d’un problème d’optimisation : il faut choisir une
partition minimisant une mesure de stabilité choisie. Une solution possible
est d’essayer toutes les partitions possibles (leur nombre est fini) et choisir la
meilleure. Cependant, cette solution est irréalisable en pratique car le nombre
de partitions possible explose exponentiellement avec |X|.
On peut montrer que le nombre de partitions sur un ensemble X (avec
|X| = n) est égal au nombre de Bell Bn . Ce nombre se calcul avec la
récurrence suivante :

B0 = 1P
i−1
Bn = 1≤i≤n Cn−1 Bn−i

On montre de même que le nombre de partitions sur X à k classes est

égal au nombre de Stirling de deuxième espèce Sn,k que l’on calcul par la
formule de récurrence suivante :

 Sn,n−1 = n(n−1)
2
Sn,2 = 2n−1 − 1
Sn,k = Sn−1,k−1 + kSn−1,k


La table 4.1 donne les premiers nombres de Bell et de stirling. Ces nombres
grossissent exponentiellement.
72 CHAPITRE 4. CLASSIFICATION

Table 4.1 – Bn et Sn,k pour n ≤ 7.

Sn,k n\ k 1 2 3 4 5 6 7 Bn
1 1 1
2 1 1 2
3 1 3 1 5
4 1 7 6 1 15
5 1 15 25 10 52
6 1 31 90 65 15 1 203
7 1 63 301 350 140 21 1 877

La triste nouvelle est que pour les mesures de stabilités données dans la
partie précédente, trouver une partition à k classes minimisant une de ces
mesures se trouve être un problème NP-difficile. C’est à dire qu’à priori il n’y
a pas d’autre manière que de regarder toutes les partitions possibles avant
d’en déterminer une qui réalise le minimum. C’est pourquoi, les algorithmes
de partitionnement utilisées sont tous des heuristiques (c’est à dire qu’ils
trouvent la plupart du temps une partition acceptable, mais sans garanti
d’optimalité). Nous en présentons trois, parmi les plus couramment utilisés.

4.2.2 k-means
Les algorithmes de regroupement autour de centres mobiles (Forgy, 1965,
McQUeen 1967 ou encore All et Ball, 1967) admettent beaucoup de variantes.
Ils peuvent être itératifs (et proche des pratiques d’apprentissage) ou non.
Les centres ainsi que le critère de regroupement peuvent aussi être calculés
de diverses manières. Nous nous contenterons ici de présenter l’algorithme
classique des k-means ainsi que sa variante “online”. Nous mentionnerons ici
et là quelques variantes sans pour autant les expliciter.
L’algorithme des k-means, appelé aussi algorithme des centres mobiles est
certainement du à LLoyd (1957), Forgy (1965) et vraisemblablement d’autres.
Les k-means (algorithme 4.2.2) sont fait pour partitionner des données
euclidiennes. On considérera donc dans la suite de cette partie que chaque
objet x est un point de Rp tel que xi soit sa ième coordonnée et que la
distance utilisée d est la distance euclidienne, c’est à dire :
X
d2 (x, y) = (xi − y i )2
1≤i≤p

1
P
Pour tout sous-ensemble C de X, on notera g(C) = |C| x∈C x son centre
4.2. MÉTHODES DE PARTITIONNEMENT 73

de gravité.
k-means : Partitionnement en k classes a partir d’un ensemble X de points
de Rp .

d
ent x1 , . . ., xk , kel ements de X
gi ← xi pour tout 1 ≤ i ≤ k
Ci ← ∅ pour tout 1 ≤ i ≤ k
on s arrête ← FAUX
tant que on s arrête est FAUX
Ci0 ← ∅ pour tout 1 ≤ i ≤ k
pour chaque x ∈ X
soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 ≤ j ≤ k}
Ci00 ← Ci00 ∪ {x}
fin (pour chaque)
6 {C10 , . . . , Ck0 }
si {C1 , . . . , Ck } =
alors
Ci ← Ci0 pour tout 1 ≤ i ≤ k
gi ← g(Ci ) pour tout 1 ≤ i ≤ k
fin (alors)
sinon on s arrête ← VRAI
fin (tant que)
fin

Voici un exemple du déroulement des k-means. On considère les huit

points de R2 de la figure 4.8.
5
4
3
2
1

1 2 3 4 5

Figure 4.8 – Huit points de R2

En appliquant l’algorithme précédent pour k = 2 et en prenant comme

points de départ g1 = (1, 1) et g2 = (1, 2).
La distance au carré des points au centre est alors :

d2 (1, 1) (1, 2) (2, 1) (2, 2) (4, 4) (4, 5) (5, 4) (5, 5)

g1 0 1 1 2 18 25 25 32
g2 1 0 2 1 13 18 20 25
74 CHAPITRE 4. CLASSIFICATION

Les nouvelles classes sont alors C1 = {(1, 1), (2, 1)} de centre de gravité
g1 = ( 32 , 1) et C2 = {(1, 2), (2, 2), (4, 4), (4, 5), (5, 4), (5, 5)} de centre de gra-
vité g2 = ( 72 , 22
6
). La distance au carré des points au centre est alors :

d2 (1, 1) (1, 2) (2, 1) (2, 2) (4, 4) (4, 5) (5, 4) (5, 5)

1 5 1 5 61 89 85 113
g1 4 4 4 4 4 4 4 4
481 325 337 181 13 73 85 145
g2 36 36 36 36 36 36 36 36

Après cette étape, les nouvelles classes sont alors les classes “naturelles” :
– C1 = {(1, 1), (1, 2), (2, 1), (2, 2)},
– C1 = {(4, 4), (4, 5), (5, 4), (5, 5)}.

Une nouvelle itération ne changeant pas les classes, l’algorithme s’arrête.

Pour que l’algorithme fonctionne, il faut lui spécifier le nombre de classes
k que l’on veut produire. Le critère d’arrêt est ici la stabilisation des classes.
Ce critère peut néanmoins se révéler inadéquat pour quelques cas critiques
(comme nous le verrons dans un exemple). On a donc coutume de rajouter
comme critère d’arrêt un nombre maximum d’itération.
Pour prouver la convergence de l’algorithme, nous allons montrer que les
k-means optimisent localement l’inertie intraclasse IW .
Notons C1 , . . .Ck les k classes formées avant une itération de l’algorithme,
g1 , . . ., gk leurs centres de gravité associés, C10 , . . .Ck0 les k classes modifiées
après itération et g10 , . . ., gk0 leurs centres de gravité.
Avant l’itération, IW vaut :
X X
IW ({C1 , . . . , Ck }) = d2 (x, gi )
1≤i≤k x∈Ci

Puisque l’on affecte chaque individu à la classe dont le barycentre est le

plus proche on a alors que :
X X X X
d2 (x, gi ) ≤ d2 (x, gi )
1≤i≤k x∈Ci 1≤i≤k x∈Ci0

La formule de Huygens nous donne ensuite que :

X X
d2 (x, gi ) = d2 (x, gi0 ) + d2 (gi , gi0 )
x∈Ci0 x∈Ci0

et donc :
d2 (x, gi0 )
P P
IW ({C1 , . . . , Ck }) ≤ 1≤i≤k x∈Ci0
≤ IW ({C10 , . . . , Ck0 })
4.2. MÉTHODES DE PARTITIONNEMENT 75

À chaque itération, l’inertie intraclasse IW diminue, on est donc en présence

d’une suite positive et décroissante, donc convergente.
Attention cependant, la convergence de la valeur de la fonction objectif
ne signifie pas la convergence des classes trouvées. Le seul moyen de faire
converger les classes est de ne pas changer un point de classe si l’on a le
choix entre changer celui-ci ou pas (ce cas est possible en cas d’égalité de
distance entres centres de gravité).
L’expérience prouve cependant que les k-means convergent très rapide-
ment, une dizaine d’itérations étant seulement nécessaire. On a donc coutume
de remplacer le critère de stabilisation des classes par un un nombre maxi-
mum d’itération (10 en général). Comme chaque itération peut être effectuée
en O(nkp) opérations, cet algorithme est linéaire lorsque le nombre de classes,
la dimension et le nombre d’itérations sont fixés (ce qui est le cas habituel).
L’algorithme des k-means, tout comme l’algorithme des transferts (voir
partie 4.2.3) est très sensible aux éléments initiaux. En changer peut produire
une autre partition, les partitions résultantes étant toutes deux des minima
locaux de IW . Une façon classique de contourner le problème est de relancer
l’algorithme plusieurs fois en changeant les points initiaux, et de prendre la
meilleure partition.
Certaines variantes des k-means comme le global k-means (Likas, Vlas-
sis et Verbeek, 2003) ou les k-harmonic means permettent également d’être
moins sensible aux paramètres de départ.
Nous allons maintenant présenter une variante des k-means (McQueen
1967) où le centre de gravité est recalculé à chaque fois qu’un point est
examiné.
Online k-means : Partitionnement en k classes a partir d’un ensemble X
de points de Rp et un nombre d’itération m.

d
ent x1 , . . ., xk , kel ements de X
gi ← xi pour tout 1 ≤ i ≤ k
j←1
tant que j < m
ni ← 1 pour tout 1 ≤ i ≤ k
pour chaque x ∈ X
soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 ≤ j ≤ k}
gi0 ← ni 1+1 (ni0 gi0 + x)
0
ni0 ← ni0 + 1
fin (pour chaque)
Ci ← ∅ pour tout 1 ≤ i ≤ k
pour chaque x ∈ X
76 CHAPITRE 4. CLASSIFICATION

soit i0 tel que d(x, gi0 ) = min{d(x, gj )|1 ≤ j ≤ k}

Ci0 ← Ci0 ∪ {x}
fin (pour chaque)
gi ← g(Ci ) pour tout 1 ≤ i ≤ k
j ←j+1
fin (tant que)
fin

Cette variante dépend donc de l’ordre du choix des éléments. Bottou et

Bengio (1995) on prouvé que cet variante converge. On pourra consulter pour
plus de détails Bottou 1991 qui explicite des condition suffisantes pour que
des algorithmes de ce type convergent.
Effectuons l’algorithme online k-means sur les six points de R de la fi-
gure 4.9.

2 19

1 18 20 35

Figure 4.9 – Six points R

On lance l’algorithme des k-means en choisissant 35, 20 et 19 comme

points de départ. Les 3 classes de départ sont donc C1 = {35} (de centre de
gravité g1 = 35), C2 = {20} (de centre de gravité g2 = 20)et C3 = {19} (de
centre de gravité g3 = 19).
On considère ensuite 18. Le centre de gravité le plus proche étant g3 , les
classes et centres de gravité deviennent :
– C1 = {35}, g1 = 35,
– C2 = {20}, g2 = 20,
– C3 = {18, 19}, g3 = 18.5.
On considère maintenant le point 2. Le centre de gravité le plus proche
étant g3 , on a :
– C1 = {35}, g1 = 35,
– C2 = {20}, g2 = 20,
– C3 = {2, 18, 19}, g3 = 13.
Enfin, après avoir considéré le point 1 :
– C1 = {35}, g1 = 35,
– C2 = {20}, g2 = 20,
– C3 = {1, 2, 18, 19}, g3 = 10.
4.2. MÉTHODES DE PARTITIONNEMENT 77

On peut maintenant créer les classes finales en affectant les points aux
centres de gravité le plus proche (qui sont ici g1 = 35, g2 = 20 et g3 = 10),
ce qui nous donne :
– C1 = {35},
– C2 = {18, 19, 20},
– C3 = {1, 2}.
On retrouve bien les classes “naturelles”. Pour vous rendre compte que
cela n’est pas toujours le cas, prenez comme points de départ 1, 2 et 18 et
considérez dans l’ordre les points 19, 20 et 35.

4.2.3 Algorithme des transferts

L’algorithme de transfert est une méthode générale de partitionnement
qui dépend d’une mesure de stabilité f (appelée aussi critère d’évaluation
dans ce contexte). Tout comme l’algorithme des centres mobiles ou des k-
means, le nombre de classes k est fixé au départ. Cependant, ce nombre de
classes peut diminuer au court de l’algorithme.
En fonction de la mesure de qualité choisie, cet algorithme peut être
appliqué à des données simplement décrites par une dissimilarité. On peut
par exemple choisir pour f la fonction associant à une partition P :
X 1 X
f (P) = ( d2 (x, y))
C∈P
|C| x6=y∈C

Ou tout autre mesure de stabilité décrite dans la partie 4.2.1.

Remarque 15 Cet algorithme ne peut bien évidemment pas servir à résoudre

des problèmes NP-difficile (je vous laisse en exercice le soin de voir pourquoi),
la partition obtenue est ainsi souvent un minimum local.

Pseudo-code
Initialisation
choix de k classes arbitraires C1 , . . .Ck
xt ← ∅
it ← ∅
jt ← ∅
ft ← 0
STOP ← FAUX
Tant Que STOP est FAUX
ft ← f ({C1 , . . . Ck })
Pour Tout 1 ≤ i ≤ k
78 CHAPITRE 4. CLASSIFICATION

Pour Tout x ∈ Ci
Pour Tout 1 ≤ j ≤ k tel que i 6= j
Si f ({C1 , . . . , Ci \{x}, . . . Cj ∪ {x} . . . Ck }) < ft
Alors
ft ← f ({C1 , . . . , Ci \{x}, . . . Cj ∪ {x} . . . Ck })
xt ← x
it ← i
jt ← j
Fin Alors
Fin Si
Fin Pour Tout
Fin Pour Tout
Fin Pour Tout
Si ft < f ({C1 , . . . Ck })
Alors
Cit ← Cit \{xt }
Cjt ← Cjt ∪ {xt }
Fin Alors
Sinon
STOP ← VRAI
Fin Sinon
Fin Si
Fin Tant Que

Convergence de l’algorithme
La convergence de l’algorithme est assurée par le fait que la suite des
mesures de stabilité à chaque itération est décroissante et positive, donc
convergente.

4.3 L’algorithme de Classification Ascendante

Hiérarchique (C.A.H.)
L’algorithme de C.A.H. est une méthode générale de construction d’une
hiérarchie à partir de données décrites par une dissimilarité. Il dépend d’une
mesure de ressemblance entre classes, tout comme l’algorithme des transfert
dépend d’une mesure de stabilité.
Nous donnerons ici une version “métrique” de l’algorithme de C.A.H. On
transformera donc une dissimilarité d sur X en une ultramétrique u. On
4.3. L’ALGORITHME DE CLASSIFICATION ASCENDANTE HIÉRARCHIQUE (C.A.H.) 79

pourra ensuite déduire la hiérarchie associée en calculant les classes de u.

De façon plus “classe”, on peut décrire l’algorithme de classification hiérar-
chique comme suit : on construit une suite de partition de plus en plus fine,
la première contenant n classes, la seconde n − 1, la troisième n − 2 et ainsi
de suite jusqu’à n’obtenir plus qu’une seule classe contenant tous les objets.
Passer d’une partition à la suivante se faisant en fusionnant deux classes de
la première partition.

4.3.1 Pseudo-code
Soit f une mesure de ressemblance sur X.

Initialisation
k=n
C1 , C2 , . . . , Cn est une partition de X en n classes
Pour Tous x, y ∈ X
u(x, y) ← f ({x}, {y})
Fin Pour Tout
Tant Que k > 1
Soient x0 et y0 tels que pour tous z et t : u(x0 , y0 ) ≤ u(z, t)
Soient i0 et j0 tels que x0 ∈ Ci0 et y0 ∈ Cj0
Pour Tous x ∈ Ci0 ∪ Cj0 , y ∈ Ck tel que k 6= i0 et k 6= j0
u(x, y) ← f (Ci0 ∪ Cj0 , Ck )
Fin Pour Tous
C i0 = C i 0 ∪ C j0
De j = j0 + 1 à j = k
Cj−1 ← Cj
Fin De
k ←k−1
Fin Tant Que

4.3.2 Cas particuliers

Lorsque les données sont euclidiennes, on a coutume d’utiliser comme
mesure de ressemblance sur X le critère de Ward (cf. 4.2.1). Lorsque les
données ne sont pas euclidiennes, on utilise le plus souvent l’une des trois
mesures également décrites en 4.2.1. L’algorithme de C.A.H. est alors appelé :
– lien simple lorsque la mesure de ressemblance est la distance du saut
minimum,
– lien moyen lorsque la mesure de ressemblance est la distance moyenne,
80 CHAPITRE 4. CLASSIFICATION

– lien complet lorsque la mesure de ressemblance est la distance du saut

maximum.

4.3.3 Exemples
On utilisera dans cette partie la matrice d ci-après.

Table 4.2 – La dissimilarité exemple d.

x 0
y 1 0
d: z 1 2 0
t 3 5 3 0
u 5 5 5 4 0
x y z t u

Que l’on utilise le lien simple, le lien moyen ou le lien complet, un choix
s’offre à nous dès la première itération. On peut, soit choisir la paire xy, soit
la paire xz. Dans le premier cas, on obtient les 3 hiérarchies indicées de la
figure 4.10, dans l’autre, les trois hiérarchies indicées de la figure 4.11.

5 5 5
4 4 4
3 3 3
2 2 2
1 1 1

x y z t u x y z t u x y z t u
lien simple lien complet lien moyen

Figure 4.10 – lien simple, moyen et complet en agrégeant x et y

On peut tirer deux remarques essentielles de ces exemples :

– la hiérarchie solution dépend de la mesure de ressemblance choisie (la
classe {x, y} n’existant pas pour le lien simple et la classe {t, u} n’exis-
tant que pour le lien moyen),
– l’ordre d’agrégation des paires de classes modifie la hiérarchie résultante.
4.3. L’ALGORITHME DE CLASSIFICATION ASCENDANTE HIÉRARCHIQUE (C.A.H.) 81

5 5 5
4 4 4
3 3 3
2 2 2
1 1 1

x y z t u x z y t u x z y t u
lien simple lien complet lien moyen

Figure 4.11 – lien simple, moyen et complet en agrégeant x et z

On pourra cependant remarquer que seules les deux hiérarchies issues du

lien simple en changeant l’ordre d’agrégation sont identiques. Cette remarque
est un cas général, quelque-soit l’ordre d’agrégation des données, la hiérarchie
issue du lien simple est unique.
82 CHAPITRE 4. CLASSIFICATION
Chapitre 5

L’analyse discriminante

L’analyse discriminante porte sur les classements que l’on peut effectuer
au sein d’une population. On a coutume de distinguer :
– la discrimination à but descriptif : une population en q classes de X
étant donnée (on les note X1 , . . ., Xq ) et X étant par ailleurs décrit
par des variables quantitatives x1 , . . ., xp . On cherche de nouvelles
variables, combinaisons linéaires des xj , indépendantes et séparant au
mieux ces classes.
– La discrimination à but décisionnel : on dispose toujours d’une partition
de X et de p variables xj . X est considéré comme un échantillon d’un
ensemble X (X ⊆ X ) sur lequel sont définis les xj . Le problème est de
déterminer, à partir des valeurs xj , à quelle classe if faudrait affecter
i ∈ X − X.
On supposera dans la suite de ce chapitre que les données, et donc la
matrice X, sont centrées.

5.1 Principe de la méthode

Chacun des n individus est un vecteur de Rp . Les q classes d’individus
forment chacune un nuage et le but de l’analyse discriminante est de trou-
ver des vecteurs, combinaisons linéaires des caractères initiaux, séparant au
mieux lesdits nuages.
Ainsi, de même qu’en A.C.P., on cherche une nouvelle base de Rp mais
ces nouveaux caractères ne sont plus de variance maximum (i.e. des axes
“portant” le plus d’inertie) mais ceux pour qui :
– les individus d’une même classe se projettent sur des valeurs voisines,
– deux individus de classes différentes se projettent sur des valeurs différentes.
Ceci signifie que sur chaque axe, la variance des projections des individus

83
84 CHAPITRE 5. L’ANALYSE DISCRIMINANTE

d’une même classe doit être la plus faible possible et la variance d’individus
de classes différentes la plus grande possible.

5.1.1 Matrices de variances intraclasse et interclasses

Nos données étant centrées, la matrice de variance du nuage (cf. par-
tie 3.3.3) est égale à V = t XDX, où D est la matrice des poids des individus.
Pour chaque classe 1 ≤ k ≤ q d’individus on peut calculer la matrice de
variance Wk des caractères restreints aux éléments de la classe k :en notant
Xk la matrice des individus de la classe k, Wk = t Xk DXk . En associant à
chaque classe k unPpoids Pk égal à la somme des poids de chaque individu
de la classe (Pk = xi ∈Xk pk ), on appelle matrice intraclasse la matrice W :
q
X
W = Pk W K
i=1

En notant g k = (g1k , . . . , gpk ) le centre de gravité de chaque classe (avec

pi xij
P
x ∈X
gik = j
Pk
k
), on appelle matrice interclasse la matrice B de terme
générique :
q
X
bij = Pk (gki )(gkj )
k=1

On obtient facilement l’égalité :

q
X
V = Pk W K + B = W + B
i=1

5.1.2 Variance d’un caractère

Soit u ∈ Rp . Le caractère qui lui est associé est alors c = Xu. De la même
manière qu’en A.C.P. (cf. 3.6.1), la métrique utilisée est celle induite par la
matrice des poids D.
La norme du caractère c est alors égale à :

||c||2D = t cDc = t u t XDXu = t uV u = t uW u + t uBu

La norme d’un caractère peut ainsi se décomposer en somme de deux

variances :
– t uW u, variance intraclasse, rendant compte de la variation des valeurs
de projections sur u des individus à l’intérieur d’une même classe,
5.1. PRINCIPE DE LA MÉTHODE 85

– t uBu, variance interclasse, rendant compte de la dispersion des projec-

tions des centres de gravité des différentes classes sur u.
Les vecteurs de la base de Rp recherchés sont donc ceux tels que t uBu
soit le minimum possible et tels que t uW u soit le maximum possible.

5.1.3 Facteurs et caractères discriminants

Soit u ∈ Rp et c = Xu son caractère associé. Le caractère est dit parfai-
tement discriminant si t uW u = 0. On a alors t uBu qui est maximum et vaut
t
uV u (bref, c’est le meilleur caractère que l’on puisse trouver).
Dans la pratique, ce cas idéal n’apparaı̂t malheureusement pas et il faut
donc trouver le meilleur caractère qui, d’une part maximise la variance in-
terclasse et, d’autre part minimise la variance intraclasse.
De part l’égalité V = W + B, on en déduit
t
uBu t uW u
t uV u
+ t =1
uV u
et donc, le meilleur caractère possible est celui qui maximise
t
uBu
t uV u
ce caractère minimisant également
t
uW u
t uV u
Soit c = Xu un tel caractère. Le vecteur u annule donc les dérivées par-
t uBu
tielles de t uV u
(t uBu et t uV u sont des fonctions de Rp dans R continues
et dérivables car polynômiales. Elles se dérivent donc de façon usuelle, en
dérivant coordonnée par coordonnée). On peut représenter de façon matri-
cielle le système à annuler :
2(t uV u)Bu − 2(t uBu)V u
(t uV u)2
Ainsi :
2(t uV u)Bu − 2(t uBu)V u = 0
t uBu
Bu = t uV u
Vu
t uBu
−1
V Bu = t uV u u
t uBu
t uV étant un scalaire, on en déduit que u est un vecteur propre de la
u
t uBu
matrice V −1 B associé à la plus grande valeur propre puisque t uV u
est maxi-
mum.
86 CHAPITRE 5. L’ANALYSE DISCRIMINANTE

5.1.4 Recherche des facteurs

Les facteurs discriminants sont, on l’a vu, les vecteurs propres de la ma-
trice V −1 B. De même qu’en A.C.P. on montre qu’en ordonnant les valeurs
propres par ordre décroissant λ1 ≥ λ2 ≥ . . . λp , les vecteurs propres ui as-
sociés forment une base orthonormée de Rp maximisant la discrimination.
t
On peut montrer qu’en essayant de minimiser la quantité tuW u
uV u
, on est
−1
ramené à chercher les vecteurs propres de la matrice W B, vecteurs propres
λi
identiques à ceux de V −1 B. On montre de plus que W −1 Bui = (1−λ i)
ui .
Les valeurs propres de V −1 B étant positives, on en déduit qu’elles sont
toutes plus petite que 1 et qu’une valeur propre égale à 1 correspond à un
caractère parfaitement discriminant (i.e. t uW u = 0). On peut également
remarquer qu’il y a au plus q − 1 valeurs propres non nulle puisque la matrice
B est formée à partir des q centres de gravité des classes dont la somme
pondérée par le poids des classes est égale au centre de gravité du nuage et
vaut donc 0 puisque nos données sont centrées.

5.2 L’analyse discriminante décisionnelle

Lorsqu’il y a uniquement deux classes d’objets, il n’existe qu’un seul fac-
teur discriminant u, donné par l’équation :

u = V −1 (g2 − g1 ) = W −1 (g2 − g1 )

Le problème est maintenant de pouvoir affecter tout nouvel individu x0 à

une des deux classes possible. De part l’équation ci-dessus, on peut décider
de choisir d’affecter x0 à la classe dont le centre de gravité est le plus proche
au sens de la métrique induite par V −1 . Cette métrique est appelé distance
de Mahalanobis.
On affecte donc x0 à la classe 1 si et seulement si t (x0 − g1 )V −1 (x0 − g1 ) <
t 0
(x −g2 )V −1 (x0 −g2 ). Ceci revient à se placer de part et d’autre de l’hyperplan
orthogonal à u (pour la métrique V −1 ), hyperplan appelé hyperplan de Fisher
(cf. figure 5.1).
Ce critère de décision se généralise aisément à plus de deux classes, et
donc pour chaque nouvel individu x0 on l’affecte à la classe l telle que :

dV −1 (x0 , gl ) = min dV −1 (x0 , gi )

1≤i≤q
5.3. L’ANALYSE DISCRIMINANTE COMME CAS PARTICULIER D’A.C.P.87

Décision d1 Décision d2

Classe 1

Classe 2

Figure 5.1 – Hyperplan de Fisher

5.3 L’analyse discriminante comme cas par-

ticulier d’A.C.P.
En considérant la matrice G à q lignes et p colonnes tels que la ligne i
soit le centre de gravité de la classe i et en utilisant la matrice diagonale des
poids Dq de chaque classe (le poids d’une classe étant égal à la somme des
poids des individus de la classe), on a :

V = t GDq G = B

Ainsi, puisque les facteurs principaux sont les vecteurs propres de la ma-
trice M V (où M est la métrique utilisée, cf. 3.6), en utilisant la métrique
M = V −1 (on utilise la distance de Mahalanobis) on retrouve les vecteurs et
valeurs propres de l’analyse discriminante.
88 CHAPITRE 5. L’ANALYSE DISCRIMINANTE
Chapitre 6

L’analyse factorielle des

correspondances

Cette méthode, introduite pour l’analyse de questionnaires et de tableaux

de contingences par J.-P. Benzécri, l’analyse factorielle des correspondances
est de part la richesse de ses interprétations, fort étudiée et intensivement
utilisée en analyse des données car la validité de la méthode s’étant à tout
tableau de données vérifiant les deux propriétés suivantes :
– les données sont toutes positives,
– les données sont homogènes (i.e. les grandeurs représentées dans le
tableau sont toutes de même grandeur).
L’analyse des correspondances est en fait un sous-produit de l’analyse
canonique (que nous ne verront pas). Or cette dernière s’appuie essentielle-
ment sur des considérations géométriques (calcul de l’angle que forment deux
sous-espaces vectoriels), et permettrait d’introduire l’analyse des correspon-
dances de façon rigoureuse et élégante. Cependant, une telle présentation ne
fait que peu appel à l’“intuition statistique”. Celle-ci nous paraissant tout à
fait essentielle, ce chapitre sera consacrée à une introduction heuristique à
l’analyse des correspondance.
Nous utiliserons comme exemple dans ce chapitre les données de la table 6.1
qui recense le niveau hiérarchique et l’origine sociale des 390 salariés d’une
entreprise.
Le nombre d’éléments d’un tableau de contingence est la somme des lignes
et des colonnes, et sera donc noté n. Ici, n = 390 qui est le nombre de salariés
considérés.

89
90CHAPITRE 6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES

Table 6.1 – tableau de contingence entre niveau hiérarchique et origine

sociale
P
cadres agriculteurs ouvriers/employés autre
ouvriers/employés 11 14 107 75 207
agents de maı̂trise 1 10 60 30 102
cadre 23 2 166 40 81
P
35 26 183 146 390

6.1 Les données

L’analyse factorielle des correspondances (A.F.C.) porte sur la description
de variables nominales.
On considère deux variables nominales x et y sur la population X, repré-
sentées par leur tableau de contingence N = (nij )1≤i≤L,1≤j≤K à L lignes et K
colonnes (cf. tableau 6.1). C’est dire que notre attention ne porte que sur les
modalités des deux variables, les “noms” des individus prenant ces modalités
étant oubliées.
x devient la variable ligne, y la variable colonne. On utilisera les notation
suivantes :
– nij sera l’élément du tableau de contingence situé à la ligne i et la
colonnePj,
– ni• = P1≤j≤K nij ,
– n•j =P 1≤i≤L nij , P
– n = 1≤j≤K n•j = 1≤i≤L ni•
Les nombres ni• (1 ≤ i ≤ L) et n•j (1 ≤ j ≤ K) sont appelées distribu-
tions marginales. Non pas qu’ils soient moins important que d’autres mais
parce que habituellement, ils sont écrits dans les marges.
Les matrices DL et DK traduisent ces distributions marginales de façon
matricielle. Ces matrices sont alors des matrices diagonales à L et K lignes
respectivement :
   
n1• n•1
.. ..

 . 0



 . 0


DL =  ni•  DK =  n•j
   

 . .
  . .

 0 .   0 . 
nL• n•K
De même, si l’on s’intéresse aux fréquences, on pourra noter :
n
– fij = nij ,
6.2. LES NUAGES 91

– fi• = nni• ,
n
– f•j = n•j ,
Le χ2 du tableau (cf. partie 2.2.3) s’écrit alors :

X (nij − ni• n•j 2 X (fij − fi• f•j )2

)
χ2 = ni• n•j
n
=n
ij n ij
fi• f•j

6.2 Les nuages

Au tableau N correspond a priori deux nuages de points :
– en ligne, L points dans RK , les nij formant les coordonnées du point i,
– en colonne, K points de RL (de coordonnées nij ).
Ces deux nuages sont tout aussi important l’un que l’autre. On devra donc
dans toute A.F.C. effectuer deux analyses, l’une en ligne et l’autre en colonne.
Les vecteurs ainsi obtenus risquent d’être extrêmement sensibles aux effec-
tifs marginaux. Ainsi, dans l’exemple du tableau 6.1, la dernière ligne (23, 2,
166,40) est globalement plus petite par rapport à la première (11,14,107,75).
De plus les populations ne sont pas homogènes puisqu’elle se compose de 207
ouvriers et seulement 81 cadres. Pour pallier cet inconvénient, on divise selon
l’option (ligne ou colonne) l’effectif nij par les valeurs marginales (ni• ou n•j )
correspondante. On obtient ainsi deux nuages :
XL : L points dans RK , défini tel que

XL = DL−1 N

XK : K points dans RL , défini tel que

−1 t
XK = DK N

Ces deux matrices XL et XK sont appelés respectivement tableau des

profils lignes et tableau des profils colonnes (cf. tableau 6.2).

Table 6.2 – Profils lignes et colonnes du tableau 6.1

 11 1 23

 11 14 107 75 
35 35 35
207
1
207
10
207
60
207
31 
 14 10 2 
XL =  102 X = 26 26 26 
K
 107 60 16
102 102 102
23 2 16 40
 
183 183 183
81 81 81 81 75 31 40
146 146 146
92CHAPITRE 6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES

6.3 La distance
Selon l’espace considéré, RL ou RK , on pourrait prendre la distance eu-
clidienne :
– entre deux lignes i et i0 :
X nij ni0 j 2 X fij f i0 j 2
δL2 (i, i0 ) = ( − ) = ( − )
j
ni• ni0 • j
fi• fi0 •

– entre deux colonnes j et j 0 :

X nij nij 0 2 X fij fij 0 2
2
δK (j, j 0 ) = ( − ) = ( − )
i
n •j n•j 0
i
f •j f •j 0

Une telle distance apporte cependant un tracas. Reprenons l’exemple du

tableau 6.1. L’effectif de la colonne j0 “ouvrier/employé” est assez considérable,
en tout cas beaucoup plus important que celui de la colonne “cadre”. Dans
n n0
un tel cas, la différence ( niji•0 − ni 0j0 )2 joue un rôle excessif dans le calcul de
i •
δL2 (i, i0 ).
Ainsi, pour i = “ouvriers – employés”et i’ = “agents de maı̂trise”, on
trouve comme contribution des coordonnées à δL2 (i, i0 )
cadres : 8,3 %
agriculteurs : 12%
ouvriers – employés : 33%
autres : 46,2%
Les deux dernières modalités écrasent les deux premières. Afin d’éviter
cet inconvénient, on pondère, lors du calcul de la distance :
– pour le nuage XL de RK , la jième coordonnée par nn•j = f1•j
– pour le nuage XK de RL , la iième coordonnée par nni• = f1i•
Les distances deviennent alors
– entre les lignes
X n nij ni0 j 2 X 1 fij fi 0 j 2
δL2 (i, i0 ) = ( − ) = ( − )
j
n•j n i• ni 0•
j
f •j f i• f i 0•

– entre les colonnes

X n nij nij 0 2 X 1 fij fij 0 2
2
δK (j, j 0 ) = ( − ) = ( − )
i
ni• f•j n•j 0 i
fi• f•j f•j 0

Ce type de métrique est appelé métrique du χ2 . Les M -normes associés

sont alors :
6.4. ANALYSES DES NUAGES 93

– la matrice ML = nDk−1 pour l’analyse en lignes,

– la matrice MK = nDL−1 pour l’analyse en colonnes.
Un autre intérêt de la métrique du χ2 est qu’elle vérifie le principe d’équiva-
lence distributionnelle. Énonçons le pour les profils lignes. Si les deux moda-
lités i et i0 ont des profils identiques, on peut les regrouper en une seule et
sommer leurs effectifs. Il n’y a plus alors que L − 1 modalités en lignes et
les distances d2K (j, j 0 ) construites dans RL−1 à partir de ce nouveau tableau
coı̈ncide avec celles que l’on avait précédemment définies dans RL (on pourra
le démontrer en exercice).

6.4 Analyses des nuages

Nous allons reprendre ici les résultats de la partie 3.8. La seule différence
notable est que nos données ne sont pas centrées. Cependant, nos données
étant issues d’un tableau de contingence, le centre de gravité du nuage n’a
pas de sens “physique” ici. Nous ne centrerons donc pas les données, et nous
appliquerons tout de même les résultats de la partie 3.8, ses effets étant
négligeables (cf. partie 6.4.2).

6.4.1 Matrices V
La matrice V = t XDX de l’ACP était égale à la matrice de variance-
covariance car les données étaient centrées. Ici, les données étant non centrée,
les matrices correspondantes ne correspondent plus à la variance. La matrice
D est la matrice des poids. Pour l’analyse en ligne, cette matrice correspond
alors à n1 DL , et à n1 DK pour l’analyse ne colonne. On a donc :
– VL = t XL ( n1 DL )XL pour l’analyse en ligne,
– VK = t XK ( n1 DK )XK pour l’analyse en colonne.

6.4.2 A.C.P en ligne et colonne

Les facteurs propres sont les vecteurs propres de la matrice M V .

Analyse en ligne
Ici la matrice M V = ML VL . On a alors :
−1 t
ML VL = (nDK )( XL ( n1 DL )XL )
= nDK (DL−1 N ) n1 DL DL−1 N
−1 t
−1 t t −1 1
= nDK N DL n DL DL−1 N
= DK N DL−1 N
−1 t
94CHAPITRE 6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse en colonne

Ici la matrice M V = MK VK . On a alors :

MK VK = (nDL−1 )(t XK ( n1 DK )XK )

= nDL−1 t (DK−1 t −1 t
N ) n1 DK DK N
−1 tt t −1 1 −1 t
= nDL N DK n DK DK N
= DL−1 N DK −1 t
N

6.4.3 Valeurs propres

−1 t
On peut montrer que les valeurs propres de DK N DL−1 N et DL−1 N DK
−1 t
N
sont les mêmes et toutes plus petites que 1.
Il ressort de cela qu’il n’y a au plus que min{K, L} vecteurs propres
associés à des valeurs propres non nulles.
Les données étant non centrées, on peut de plus montrer que le “centre
de gravité” (que l’on peut définir même s’il n’a pas de réalité “physique”)
gL des lignes est vecteur propre de ML VL pour la valeur propre 1 et que le
centre de gravité gK des colonnes est vecteur propre de MK VK pour la valeur
propre 1 également.
Ces vecteurs propres nous sont inutiles, on ne considérera donc pas les
“centres de gravité” comme des vecteurs propres. On note alors λ1 ≥ λ2 ≥
. . . ≥ λmin{K,L}−1 les valeurs propres associés aux vecteurs propres différents
de gL et gK .

Remarque 16 Si l’on avait centré les données, les centres de gravités (des
données non centrées) auraient été vecteurs propres de la valeur propre 0.
Ceci participe du fait qu’on les ignore dans notre analyse non centrée.

Comme la trace de la matrice M V est égale à la somme des valeurs

propres, on a :

trace(ML VL ) = trace(MK VK )
= 1 + λ1 + . . . + λmin{K,L}−1
P P n2ij
= i j ni• n•j
χ2
= 1+ n

Le χ2 remplace ici l’inertie de l’ACP. En AFC, c’est ainsi le χ2 qui tient

lieu “d’information”.
6.4. ANALYSES DES NUAGES 95

6.4.4 Vecteurs Propres et composantes principales

Soient u1 , . . ., umin{K,L}−1 les vecteurs propres de l’analys en ligne associés
aux valeurs propres λ1 ≥ λ2 ≥ . . . ≥ λmin{K,L}−1 et v1 , . . ., vmin{K,L}−1 les
vecteurs propres de l’analyse en colonne associé aux mêmes valeurs propres.
Les composantes principales sont alors :
– pour l’analyse en ligne :

ci = XL ui = DL−1 N ui

– pour l’analyse en colonne :

−1 t
dj = Xk vj = DK N vj

Ces composantes principales entretiennent une propriété plus qu’intéressante.

En effet, les composante principales en lignes sont des vecteurs propres de
l’analyse en colonne et réciproquement.
Pour montrer cela, considérons ci , ième composante principale de l’ana-
lyse en ligne. On a alors :

(MK VK )ci = (MK VK )(XL ui )

= (DL−1 N DK
−1 t
N )(DL−1 N ui )
= DL−1 N (DK
−1 t
N )(DL−1 N )ui
−1
= DL N (ML VL )ui

Comme ui est un vecteur propre de ML VL de valeur propre λi on a :

(MK VK )ci = DL−1 N (ML VL )ui

= DL−1 N λi ui
= λi (DL−1 N )ui
= λi XL ui
= λi ci

On a exactement le même résultat pour les colonnes, à savoir :

(ML VL )dj = λj dj
√
Les normes des composantes principales ci et di étant égales à λi (cf.
partie 3.8, les normes sont associés aux matrices des poids), on a les égalités
suivantes
√ :
– √λi vi = ci
– λi ui = di
96CHAPITRE 6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES

6.5 Représentation simultanée des lignes et

des colonnes
L’ACP des profils ligne et des profils colonnes sont a priori effectué sur
des espaces de dimensions différentes (de dimension K pour les profils lignes
et L pour les profils colonnes). Cependant, nous avons vu précédemment qu’il
existe, de part les formules de transitions, de grandes liaisons entre les deux
analyses. On pourra donc représenter simultanément les résultats des deux
analyses sur le même graphique.
j
p On a vu que les composantes principales jc des profils lignes sont égales à
λ v et que les composantes principales d des profils colonnes sont égales
pj j
à λj uj . Plusieurs conventions sont possibles pour représenter ces résultats,
nous ne présentons que la plus usitée.
On supperpose les graphiques issus des ACP en lignes et en colonnes, c’est
àpdire que l’on représente sur lepmême graphique les points de coordonnées
λj vj et ceux de coordonnées λj uj .
Dans ce genre de représentation, il faut faire attention dans l’interprétation
d’une proximité entre un point i issu des profils lignes et un point j issu des
profils colonnes. La seule chose que l’on puisse dire est que les individus du
tableau de contingence possédant la modalité i ont un barycentre proche des
individus possédant la modalité j. Ceci signifie la plupart du temps, mais pas
toujours (attention, gros piège possible : cette possibilité ne peut être vérifiée
que sur le tableau initial), que ces deux modalités sont liées.

6.6 Interprétations
Pour une AFC, on a vue que ce qui tenait lieu “d’information” était le
χ2 .
Les parts de χ2 fournissent une estimation globale de la qualité des
représentations factorielles. Localement, on dispose de deux “indices” : les
contributions absolues et relatives.

6.6.1 Contribution absolue d’une modalité à un axe

Chaque axe est représenté par sa composante principale. Or :
||ci ||2 = ||di ||2 = λi
De plus, les normes étant celles des poids des individus, on a :
||cj ||2 = P1≤i≤L nni• ((cj )i )2
P
ni• 2
= 1≤i≤L n (λj (vj )i )
6.7. ÉLÉMENTS SUPPLÉMENTAIRES 97

De même : n•j
||di ||2 = ((di )j )2
P
P1≤j≤K n
n•j
= 1≤j≤K n
(λi (ui )j )2
On a alors pour tout axe h (1 ≤ h ≤ min{K, L}) :

λh = P1≤i≤L nni• (λh (vh )i )2

P
n•j 2
= 1≤j≤K n (λh (uh )j )

La ligne i de l’analyse en ligne contribue donc à l’axe h de :

fi• (chi )2
CAh (i) = (λh fi• (vh )i )2 =
λh
et la ligne j de l’analyse en colonne contribue à l’axe h de :

f•j (dhj )2
CAh (j) = (λh f•j (uh )j )2 =
λh

La part de chi2 du hième axe (dont l’inertie est égale à λh ) due à la

modalité ligne i est donc égale à fi• ((vh )i )2 et celle due à la modalité colonne
j est égale à f•j ((uh )j )2
Ces contributions permettent de déceler les modalités ayant joué un grand
rôle dans la formation d’un axe et, par suite, d’interpréter icelui.

6.6.2 Contribution relative d’un axe à une modalité

De même qu’en ACP on regarde le cosinus carré de l’angle entre les profils
lignes ou colonnes et les axes principaux. La somme des cosinus carrées des
angles entre un même individu et tout les axes est bien évidemment égal à
1.
Du point de vue de l’interprétation, un individu presque perpendiculaire
à un axe principal signifie que que ledit individu est totalement étranger à la
tendance exprimée par l’axe en question.

6.7 Éléments supplémentaires

Il s’agit de la technique qui, les axes étant calculés, permet de projeter
dans les plans factoriels une modalité supplémentaire. Cette pratique, per-
mise par les programmes, s’avère souvent fort utile (par exemple lorsqu’à
l’issue d’une analyse des points s’avèrent très éloignés des autres, on aura
intérêt à refaire l’analyse en les traitant en éléments supplémentaires).
98CHAPITRE 6. L’ANALYSE FACTORIELLE DES CORRESPONDANCES

Table 6.3 – Habitudes de lecture

l’Équipe Elle Spirou ni•

père 1 0 0 1
mère 0 1 0 1
aı̂né 1 1 1 3
cadet 1 0 1 2
fille 0 1 1 2
n•j 3 3 3 9

6.8 Exemple simple

Le tableau 6.3 indique les habitudes de lecture d’une famille (1 = “lit”,
0 = “ne lit pas”).
Les tableaux des profils lignes et colonnes correspondant valent :
– XL = DL−1 N : 5 points dans R3
 
1 0 0
 0 1 0 
 1 1 1 
 
 31 3 31 

2
0 2 
0 21 12

– XK = DK t N : 3 points dans R5
1 1
 
1 0 3 3
0
 0 1 1
0 1 
3 3 3
1 1 1
0 0 3 3 3

Le nuage XL est représenté sur la figure 6.1. Il est situé dans le plan
d’équation x + y + z = 1.
La symétrie évidente de la figure fait que le centre de gravité est situé
en “aı̂né”. Les axes 1 et 2 sont également représenté sur la figure 6.1. Ils ont
pour part d’inertie respective 75% et 25% (comme le montrerait le calcul).
L’interprétation des axes va de soi. L’axe 1 représente le sexe des membres
de la famille et l’axe 2 leur l’âge.
On obtient les coordonnées sur ces axes des trois journaux en calculant
les composantes des vecteurs de la base initiale. La représentation simultanée
usuelle est indiquée sur la figure 6.2.
6.8. EXEMPLE SIMPLE 99

(Spirou)

Axe 1

Axe 2

Fille

Ainé
Cadet
(Elle)
Mère

Père

(l'Équipe)

Figure 6.1 – Le nuage NL

AXE 2 (25%)

Père Mère

l'Équipe Elle

Ainé

AXE 1 (75%)

Cadet Fille

Spirou

Figure 6.2 – Représentation factorielle

Vous aimerez peut-être aussi

Analyse des données et méthodes statistiques
Pas encore d'évaluation
Analyse des données et méthodes statistiques
104 pages
Analyse de Données Et Classification
Pas encore d'évaluation
Analyse de Données Et Classification
212 pages
AnalyseDonnees PDF
Pas encore d'évaluation
AnalyseDonnees PDF
105 pages
Analyse de données avec R : Cours complet
Pas encore d'évaluation
Analyse de données avec R : Cours complet
88 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
74 pages
Analyse des données et techniques avancées
Pas encore d'évaluation
Analyse des données et techniques avancées
61 pages
Cours 2017 Analysed Ed On Nees
Pas encore d'évaluation
Cours 2017 Analysed Ed On Nees
82 pages
Introduction à l'analyse des données
Pas encore d'évaluation
Introduction à l'analyse des données
56 pages
Notes Analyses Statistiques Multivariees
Pas encore d'évaluation
Notes Analyses Statistiques Multivariees
86 pages
Introduction à l'analyse des données
Pas encore d'évaluation
Introduction à l'analyse des données
59 pages
Analyse Statistique Multivariée en Biologie
Pas encore d'évaluation
Analyse Statistique Multivariée en Biologie
76 pages
Analyse et Fouille de Données ESIPE
Pas encore d'évaluation
Analyse et Fouille de Données ESIPE
106 pages
Algèbre linéaire et ACP : Cours complet
Pas encore d'évaluation
Algèbre linéaire et ACP : Cours complet
66 pages
Analyse Multivariée en Mathématiques
Pas encore d'évaluation
Analyse Multivariée en Mathématiques
64 pages
Cours ANAD 2022-2023
Pas encore d'évaluation
Cours ANAD 2022-2023
21 pages
Stat Mercier
Pas encore d'évaluation
Stat Mercier
413 pages
Méthodes d'Analyse Multidimensionnelle
Pas encore d'évaluation
Méthodes d'Analyse Multidimensionnelle
25 pages
Analyse de Données pour M1 Info
Pas encore d'évaluation
Analyse de Données pour M1 Info
94 pages
AD ch1
Pas encore d'évaluation
AD ch1
21 pages
Cours Analyse Des Donnees
Pas encore d'évaluation
Cours Analyse Des Donnees
41 pages
Méthodes d'analyse statistique avancées
Pas encore d'évaluation
Méthodes d'analyse statistique avancées
119 pages
Projet
Pas encore d'évaluation
Projet
42 pages
Chapitre 5
Pas encore d'évaluation
Chapitre 5
20 pages
Analyse Des Donnees M1
Pas encore d'évaluation
Analyse Des Donnees M1
56 pages
Cours Danalyse Des Donnees Complet
Pas encore d'évaluation
Cours Danalyse Des Donnees Complet
77 pages
Analyse Des Données - Cours
Pas encore d'évaluation
Analyse Des Données - Cours
35 pages
Introduction à l'Analyse des Données
Pas encore d'évaluation
Introduction à l'Analyse des Données
7 pages
Analyse des Données et Méthodes Statistiques
67% (3)
Analyse des Données et Méthodes Statistiques
144 pages
Cours Analyse de Données
Pas encore d'évaluation
Cours Analyse de Données
39 pages
Analyse Des Données - Support de Cour
Pas encore d'évaluation
Analyse Des Données - Support de Cour
33 pages
Guide pratique pour utiliser R en sociologie
Pas encore d'évaluation
Guide pratique pour utiliser R en sociologie
139 pages
2011-12 Cours Add
Pas encore d'évaluation
2011-12 Cours Add
12 pages
Cours d'Analyse des Données en Informatique
Pas encore d'évaluation
Cours d'Analyse des Données en Informatique
5 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
7 pages
Analyse Statistique
Pas encore d'évaluation
Analyse Statistique
135 pages
Analyse en Composantes Principales (A.C.P.)
Pas encore d'évaluation
Analyse en Composantes Principales (A.C.P.)
37 pages
R Pour Les Sociologues (2008)
Pas encore d'évaluation
R Pour Les Sociologues (2008)
138 pages
Statistiques Multivariées et ACP
Pas encore d'évaluation
Statistiques Multivariées et ACP
57 pages
Poly FML
Pas encore d'évaluation
Poly FML
34 pages
Stat Chapitre1 Et 2 Statistique Completes
Pas encore d'évaluation
Stat Chapitre1 Et 2 Statistique Completes
39 pages
Méthodes d'Analyse des Données Multivariées
Pas encore d'évaluation
Méthodes d'Analyse des Données Multivariées
37 pages
Analyse de données démographiques IPSA
Pas encore d'évaluation
Analyse de données démographiques IPSA
29 pages
Analyse de Données: Méthodes et Applications
Pas encore d'évaluation
Analyse de Données: Méthodes et Applications
22 pages
Feuilletage 3448
Pas encore d'évaluation
Feuilletage 3448
34 pages
Méthodes d'analyse de données
Pas encore d'évaluation
Méthodes d'analyse de données
39 pages
Cours ACP
100% (1)
Cours ACP
26 pages
Cours de Statistique Descriptive STID Grenoble
Pas encore d'évaluation
Cours de Statistique Descriptive STID Grenoble
146 pages
Analyse Et Sécurité de Données Multimédia
Pas encore d'évaluation
Analyse Et Sécurité de Données Multimédia
35 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
50 pages
Chapitre 2 Problèmes Spécifiques À La Régression
Pas encore d'évaluation
Chapitre 2 Problèmes Spécifiques À La Régression
94 pages
TP5 Methodes Inductives - RL
Pas encore d'évaluation
TP5 Methodes Inductives - RL
4 pages
Formules Examen Final
Pas encore d'évaluation
Formules Examen Final
3 pages
Statistiques et Probabilités BCG 2ème Année
Pas encore d'évaluation
Statistiques et Probabilités BCG 2ème Année
1 page
Maîtrise Statistique des Procédés
Pas encore d'évaluation
Maîtrise Statistique des Procédés
27 pages
CRM - Corrigé-Type - 1ère D MATHS - 2e Semestre
Pas encore d'évaluation
CRM - Corrigé-Type - 1ère D MATHS - 2e Semestre
6 pages
Analyse du modèle AR(4) et tests statistiques
Pas encore d'évaluation
Analyse du modèle AR(4) et tests statistiques
12 pages
Inequation Et Systeme
Pas encore d'évaluation
Inequation Et Systeme
8 pages
Estimation et Intervalles de Confiance
Pas encore d'évaluation
Estimation et Intervalles de Confiance
7 pages
Série 7
Pas encore d'évaluation
Série 7
3 pages
TD 1 Et 2 Statistiques L1-1
Pas encore d'évaluation
TD 1 Et 2 Statistiques L1-1
3 pages
Estimation Paramétrique en Statistique
Pas encore d'évaluation
Estimation Paramétrique en Statistique
24 pages
Test du χ2 et analyse des résidus
Pas encore d'évaluation
Test du χ2 et analyse des résidus
3 pages
Benoit Clément - Analyse de Données en Sciences Expérimentales (0, Dunod) PDF
Pas encore d'évaluation
Benoit Clément - Analyse de Données en Sciences Expérimentales (0, Dunod) PDF
188 pages
Corriges - Exo - Revisions - 1137669199970 - Copie PDF
Pas encore d'évaluation
Corriges - Exo - Revisions - 1137669199970 - Copie PDF
9 pages
Statistiques avec Casio Graph 25+
Pas encore d'évaluation
Statistiques avec Casio Graph 25+
2 pages
AP A1 Bloc Industrie Statistiques A 2 Variables Exercices
Pas encore d'évaluation
AP A1 Bloc Industrie Statistiques A 2 Variables Exercices
2 pages
CM M1 BRA Biostatistique
Pas encore d'évaluation
CM M1 BRA Biostatistique
72 pages
Chapitre - 3 Statistique Descriptive Bivariée
Pas encore d'évaluation
Chapitre - 3 Statistique Descriptive Bivariée
16 pages
Echantillonnage MKG
Pas encore d'évaluation
Echantillonnage MKG
39 pages
Introduction à la régression linéaire multiple
Pas encore d'évaluation
Introduction à la régression linéaire multiple
145 pages
Cours S3 Chapitre2 2020-2021
Pas encore d'évaluation
Cours S3 Chapitre2 2020-2021
33 pages
My Classroom SURPAC 2
Pas encore d'évaluation
My Classroom SURPAC 2
26 pages
TD Cartes de Contrôle JPG-2011
Pas encore d'évaluation
TD Cartes de Contrôle JPG-2011
24 pages
Analyse de régression logistique multinomiale
100% (1)
Analyse de régression logistique multinomiale
13 pages
L1S2 DU1 Stats Partiel1 2024 - 25
Pas encore d'évaluation
L1S2 DU1 Stats Partiel1 2024 - 25
12 pages
Régression Linéaire Multiple sous Excel
Pas encore d'évaluation
Régression Linéaire Multiple sous Excel
27 pages
Protocole de Recherche DR Maroua Trigui
Pas encore d'évaluation
Protocole de Recherche DR Maroua Trigui
102 pages
Analyse de Variance pour Plantes A
Pas encore d'évaluation
Analyse de Variance pour Plantes A
7 pages
Effets des Engrais et Densités sur le Rendement
100% (1)
Effets des Engrais et Densités sur le Rendement
8 pages