COURS :
ANALYSE DE DONNÉES
PLAN DUCOURS
CHAPITRE I : INTRODUCTION À L’ANALYSEDE DONNÉES ETÀ LADATASCIENCE
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES
CHAPITRE III : ANALYSE FACTORIELLE DES CORRESPONDANCES
CHAPITRE VI : ANALYSE DES CORRESPONDANCES MULTIPLES
CHAPITRE V : CLASSIFICATIONAUTOMATIQUEHIÉRARCHIQUE
CHAPITRE II : ANALYSE EN COMPOSANTES
PRINCIPALES -ACP
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Exemple introductif:
On dispose de deux variables :
revenu et consommation sur 100 ménages.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
35
30
25
20
15
10
0
0 5 10 15 20 25 30 35
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Si on a trois variables:
-Revenu,
-Consommation et
-nombre personnes dans le ménage.
On peut effectuer représentation
une graphique àtrois
dimensions.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Si on a plusieurs variables (par exemple plus
de 15 ) sur plusieurs individus alors on ne
peut plus faire desgraphique à15 dimensions.
=>D’où l’utilisation des méthodes de
projection.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Méthodes de projection : méthodes
factorielles ou méthodes de réduction de
dimension.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Projeter : c’est faire de bonne photo.
La question qui sepose : sur quelle direction
projeter.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Les différents types de tableaux :
Tableau de variables quantitatives sur
des individus.
Tableau croisant deux variables qualitatives.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Les différents types de tableaux :
Tableau de variables qualitatives sur
les individus.
Autre type de tableaux (tableau de paquets
de variables).
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Les méthodes d’analyse des données suivant le
type de tableau:
Tableau de variables quantitatives sur
des individus : ACP.
Tableau croisant deux variables qualitatives :
AFC.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Tableau de variables qualitatives sur
les individus : ACM.
Autre type de tableaux (tableau de paquets
de variables): les méthodesAFM.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
De l’image à la réalité: outils
les d’interprétation.
Ce que est observé sur les peut
photos conduire àdes conclusions
trompeuses.
Il faut des outils d’aide àinterprétation.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Principe générale des méthodes factorielles
Les outils d’aide àl’interprétation :
-Les Cosinus carré: (COS2) : qualité de la
représentation.
-La contribution (CTR): permet de mesurer la part
des variables ou individus dans la formation des
axes.
-Les distance: distance d’un individu à l’individu
moyen (les proximités).
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Objectif de l’ACP
Type de tableau : Individus*Variables.
Variables quantitatives.
Sur ce tableau on veut savoir :
- quelles sont les variables qui sont liée entre
elles,
- quels sont les individus qui seressemblent.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Objectif de l’ACP
En pratique :
-Approximation du tableau X( n*p) par un tableau C
(n*q, q <p) (dans l’idéal, q=2 ou 3), restituant la
majeure partie del’information contenue dans X.
-Les variables de C sont obtenues comme
combinaisons linéaires des variables d’origine . Elles
sont appeléeslescomposantes principales.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Objectif de l’ACP
-Visualisation des nuages de points associés au tableau
X dans le nouveau repère constitué par les directions
descomposantesprincipales.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Nuage des individus, nuage des variables
L’ACP étudie deux nuages :
- Nuage des variables
- Nuage des individus.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Nuage des individus, nuage des variables
Ces deux nuages permettent de visualiser :
-les liens entre les variables
-les ressemblances/dissemblances entre individus
contenus dans le tableau de donnéesX.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Nuage des individus, nuage des variables
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Types d’ACP
-ACP : décomposition factorielle des nuages
de points associés àun tableau
individus*variables.
-Plusieurs types d’ACP selon la métrique
choisie pour mesurer la distance entre
deux individus:
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Types d’ACP
--ACP centrée :
Décomposition factorielle du tableau centré
(variables homogènes, même unité demesure).
--ACP normée:
Décomposition factorielle du tableau réduit (donne
aux variables la même influence sur le calcul de la
distance entre individus).
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Tableau individus*variables
-p variables X1,...X p observés sur n individus I1 ,...I n
-On note X la valeur de la variable
i
j Xj observée
sur l’individu I i
Individu/Variable X1 X2 … (j) Xp
I1 X 11 X 21 X 1j X 1p
I2 X 12 X 22 X 2j X p2
… (i) … … X ij …
In X 1n X 2n X nj X pn
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Représentation matricielle
x11 x12 ... x1j ... x1p
2 2
x1 x2 ... x j ... x p
2 2
X i
............ x j ........
xn n n
1 x2 ... x j ... x p
n
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Vecteur individu
Chaque individu est décrit par p variables, formant
un vecteur de dimension p.
x1i
i
x2
...
I i i IR p
x j
...
xi
p
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Vecteur variable
Chaque variable peut être représentée par un
vecteur de dimension n.
Ce vecteur correspond aux valeurs prises par cette
variable sur les n individus.
x j
1
x nj
X j i IRn
...
x
j
...
n
xj
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12
Réécrire ce tableau sous forme matricielle. Et donner des exemples de
vecteur individu et vecteur variable.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Solution :
4 variables quantitatives : notes de 4 matières.
X1 : Note Mathématiques
X2 : Note Physique
X3 : Note Français
X4 : Note Anglais
9 individus = élèves
Ii : ième individu.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
6 6 5 5,5
8
8 8 8
6 7 11 9,5
14,5 14,5 15,5 15
X 14 14 12 12,5
11 10 5,5 7
5,5 7 14 11,5
13 12,5 8,5 9,5
9
9,5 12,5 12
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
6
8
6
14,5
X1 14
11
5,5
13
9
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
6
6
I1
5
5,5
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Matrice des poids associés aux individus
Le poids attribué à chaque individu exprime
l’importance que l’on désire lui accorder dans l’étude
(représentativité de l’échantillon étudié dans la
population) :
p1 0 .............. 0
0 p ............. 0 n
P 2 0 p 1; i 1,..., n; p 1; n IN
0............ pi ...0 i
i1
i
0 ...................pn
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Les données : Matrice des poids associés aux individus
Généralement :
1
P In
n
I n : Matrice Identité
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Nuages de points associés aux données
Nuage des points-individus = coordonnées des n
points-individus dans le repère de dont les axessont
lesp variables dutableau.
I i x x ... x ... x
i
1
i
2
i
j p
i t
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Nuages de points associés aux données
Nuage des points-variables = coordonnées des p
points-variables dans le repère de dont les axes sont
déterminés par lesn individus.
X j x x ... x ... x
1
j
n
j
i
j j
n t
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Le centre de gravité d’un nuage
Le centre de gravité du nuage de points G
caractérise la position globale d’un nuage (individu)
danslerepère.
C’est le point autour duquel «gravitent »lespoints
du nuage. x 1
x
2
... n
G x j pi x ij
xj i1
...
xp
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12
Déterminer le centre de gravité G du nuage de points-individus
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Inertie du nuage
Eloignement d’un point du nuage par rapport au
centre de gravité (distance euclidienne).
p
d (I i ,G) G I i (x ij x j ) 2
2 2
j1
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Inertie du nuage
Inertie du nuage de points par rapport àson centre
de gravité = somme pondérée des éloignements :
n
Inertie It pi d 2 (I i , G)
i1
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Inertie du nuage
L’inertie caractérise la dispersion ou la forme du
nuage par rapport àson centre.
Au plus It est élevée, au plus le nuage est dispersé
autour de son centre de gravité.
Une inertie nulle signifie que tous les individus
sont presque identiques.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Centre de gravité du nuage de points-individus
G = vecteur de dimension p dont les coordonnées
sont les moyennes arithmétiques pondérées desp
variables (G =individu moyen ) :
x1
x
2
... n
G x j pi x ij
xj i1
...
xp
G X t PE
E = vecteur de dimension n dont toutes les
composantes sont égales à1.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice centrée associée à X
Centrage : permet de ramener toutes les colonnes
de X àla même origine, zéro : xi
xi
x
j j j
Matrice centrée:
x x1 x
1
1 x ... x 1
x ... x 1
x
1 2 2 j j p p
x1 x1 x2 x2 ... x j x j ... x p x p
2 2 2 2
X C X EGt
............ .............. x j x j ..............
i
n
x1 x1 x2 x2 ... x j x j ... x p x p
n n n
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12
Déterminer la matrice centrée
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice de variance-covariance associée à X
n
Cov(X j , Xk ) pi (x xj )(xki xk)
i
j
i1
n
Var(X j ) Cov(X j , X j ) i
p (x i
jxj ) 2
i1
(X j ) Var(X j )
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice de variance-covariance associée à X
Var( X 1 ) Cov( X 1 , X 2 ) ... Cov( X 1 , X j ) ... Cov( X 1 , X p )
Cov(X 2 , X 1 ) Var( X 2 ) ... Cov( X 2 , X j ) ... Cov( X 2 , X p
)
V ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
Cov(X j , X 1 ) Cov( X j , X 2 ) ... Var( X j ) ... ... Cov( X j , X p )
Cov(X p , X 1 ) Cov( X p , X 2 ) ... Cov( X p , X j ) ... Var( X p )
V X t PX ou V X t PX GtG
C C
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12
Déterminer la matrice de variance-covariance
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice centrée réduite associée à X
Réduction = ramener toutes les variables à
une même origine 0 et un même écart-
type 1.
j xj
i
x
Centrage + réduction = x j
i
(X j )
La matrice centrée réduite : X r XC Ds1
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice centrée réduite associée à X
x11 x1 x12 x2 x1p x p
...
( X 1 ) (X 2 ) (X p)
2 x 2p x p
1x x 1
x 2 x2
2
...
( X1 ) ( X 2 ) (X p)
... ... ... ... ... ... ... ...
Xr
x i
x 2 x2
i x ip x p
1 1 x
...
(X 1 ) ( X 2 ) (X p)
... ... ... ... ... ... ... ...
n x np x p
1x x 1
x 2 x2
n
...
( X 1 ) ( X 2 ) ( X p )
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12
Déterminer la matrice centrée réduite
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice de corrélation associée à X
Le coefficient de corrélation linéaire entre deux
variables quantitatives permet de mesurer le lien
linéaire entre cesdeux variables :
Cov(X , X )
r(X , X ) j k
j k (X ) (X )
1 r(X j , Xk ) 1
j k
-D’autant plus grand en valeur absolue que le lien
linéaire est grand.
-Nul si absence de lien linéaire.
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Matrice de corrélation associée à X
1 r( X 1 , X 2 ) ... r( X 1 , X j ) ... r( X 1 , X p )
r( X 2 , X1 ) 1 ... ... ... r( X 2 , X j ) ... r( X 2 , X p )
... ... ... ... ... ... ... ... ... ... ... ... ... ...
R
r( X j , X 1 ) r( X j , X 2 ) ... 1 ... ... ... r( X j , X p )
... ... ... ... ... ... ... ... ... ... ... ... ... ...
r(X p , X 1 ) r( X p , X 2 ) ... r( X p , X j ) ... ... ... 1
CHAPITRE II : ANALYSE EN COMPOSANTES PRINCIPALES -ACP
Exemple :
Considérons les notes de n=9 étudiants, dans p=4
matières suivant le tableau suivant :
Math Phys Fran Angl
Elève 1 6 6 5 5,5
Elève 2 8 8 8 8
Elève 3 6 7 11 9,5
Elève 4 14,5 14,5 15,5 15
Elève 5 14 14 12 12,5
Elève 6 11 10 5,5 7
Elève 7 5,5 7 14 11,5
Elève 8 13 12,5 8,5 9,5
Elève 9 9 9,5 12,5 12
Déterminer la matrice descorrélations