Isma BENRAIS Cours d’Analyse Des Données
Introduction
De par le monde, les dirigeants des entreprises se reposent sur les données des concurrents, de
marché et des clients pour prendre des décisions fondées et judicieuses. Dans ce cours, nous
allons faire la lumière sur les principales méthodes d’analyse des données et d’outils utiles
pour l’amélioration de la performance de la gestion de l’entreprise.
On s’intéressera dans ce cours à la méthode la plus employées. Il s’agit de l’analyse en
composantes principales avec des exercices d’application sous logiciels Xl- STAT et SPSS.
La classification sera introduite comme aide à l’interprétation d’une analyse factorielle. On
présentera la classification ascendante hiérarchique, qui est la plus employée des méthodes de
classification.
I. L’Analyse en Composantes Principales
1. Définition et domaine d’application
L’Analyse en Composantes Principales (ACP) appartient au groupe des méthodes statistiques
descriptives multidimensionnelles appelées méthodes factorielles.
Le but de l’ACP est de présenter par un graphe simple le maximum d’information, comprise
dans un tableau de données, constitué en lignes par des individus sur lesquels sont mesurées
des variables de nature quantitative placées en colonnes.
L’ACP s’intéresse à :
- la description des variables : les relations qui existent entre elles, leurs associations ou
leurs oppositions ;
- la description des individus : les répartitions des individus les uns par rapport aux
autres en relation avec les variables étudiées ; les individus qui présentent des
caractéristiques communes ou contradictoires.
En résumé, l’ACP consiste à transformer les p variables quantitatives, initiales en q nouvelles
variables non corrélées, appelées composantes principales (ou facteurs).
Par ailleurs, l’ACP est appliquée dans différents domaines, par exemples en :
- Economie : valeur de l’indicateur j pour l’année ou pour un pays i, ou encore, l'étude
des dépenses des exploitations par l'ACP peut permettre des économies de gestion ;
- Marketing : Valeur d’indice de satisfaction j pour la marque i ;
- Expérience sensorielle : note du descripteur j pour le produit i.
1
Isma BENRAIS Cours d’Analyse Des Données
2. La mise en œuvre de l’ACP
2.1. Les données
Le tableau des données initiales est comme suit :
Figure N° 1 : Notations de l’ACP
𝑟11 ⋯ 𝑟1𝑝
𝑅(𝑛,𝑝) =[ ⋮ ⋱ ⋮ ]
𝑟𝑛1 ⋯ 𝑟𝑛𝑝
En ACP, les variables sont quantitatives, continues, homogènes ou non et à priori corrélées
entre elles deux à deux. Tandis que les individus sont homogènes.
On définit la moyenne de la variable rj par:
1
𝑟̅ j = ∑𝑛𝑖=1 𝑟𝑖𝑗
𝑛
L’écart type de la variable rj :
1
𝜎 j = √ ∑𝑛𝑖=1(𝑟𝑖𝑗 − 𝑟̅)
𝑗
2
𝑛
2.2. Etude des individus
Un individu représente une ligne du tableau donc un point dans un espace à p dimensions. Si
p est grand comment peut-on visualiser un nuage d’individus.
2.2.1. Notion de la distance
Deux individus se ressemblent, s'ils possèdent des valeurs proches pour l'ensemble des
variables. Il s’agit alors de la Distance euclidienne (au carrée) entre deux individus i et k.
𝑝
d2(i,k)=∑𝑗=1(𝑟𝑖𝑗 -𝑟𝑘𝑗 )2
2.2.2. Centrage et réduction
Il est à noter que le centrage des données soumises à une ACP ne modifie pas la forme du
nuage et les résultats de l'ACP. Alors, il faut toujours centrer les donner. On utilise l'ACP
centrée lorsque les variables sont homogènes, autrement dit, même signification, même unité
de mesure,... . Par contre, on suggère l'ACP réduite (normée) lorsque les variables sont
hétérogènes (variables comparables car elles sont sans unité).
2
Isma BENRAIS Cours d’Analyse Des Données
rij −r̅j
xij =
σj
Remarque :
Après transformation (normalisation) :
𝑥̅ = 0 et
V(𝑥𝑗 )= 1 / j={1,2,…,p} ;
la distance entre deux individus i, k devient :
𝑝 𝑟𝑖𝑗 −𝑟𝑘𝑗 2
d2(i,k)= ∑𝑗=1( )
√𝑛 𝜎𝑗
2.2.3. Notion de l’inertie
a. Définition du centre de gravité :
On appelle centre de gravité du nuage, l’individu fictif G de coordonnées :
G= (𝑟̅1, 𝑟̅2,…,𝑟̅𝑝 )t.
Si les données sont centrées alors: G= (0,0,…,0)t.
b. Définition de l’inertie totale :
L’inertie est une notion fondamentale en ACP, puisqu’elle est une mesure de dispersion du
nuage de points autour de son centre de gravité.
L’inertie du nuage de points Nn est donc la moyenne des carrées des distances entre les points
i et leur centre de gravité G. On note la distance entre le point i et G comme ceci : d(i,G).
L’inertie totale de Nn par rapport à G est donc égale à :
1
IG(N)= ∑𝑛𝑖=1 𝑑 2 (𝑖, 𝐺)
𝑛
1 𝑝
=𝑛 ∑𝑛𝑖=1 ∑𝑗=1(𝑟𝑖𝑗 -𝑟̅ j)2
𝑝 1 𝑝
=∑𝑗=1 𝑛 ∑𝑛𝑖=1(𝑟𝑖𝑗 − 𝑟̅ j)2 = ∑𝑗=1 𝑉(rj)
Remarque:
Si le nuage est centré et réduit :
rij −r̅j
V( ) = V(𝑥𝑗 )= 1 / j={1,2,…,p} ;
σj
𝑝
IG=0 (N*) = ∑𝑗=1 1 = P (nombre de variables).
3
Isma BENRAIS Cours d’Analyse Des Données
Exemple :
Variables X1 X2 X3
Individus
i1 3 1 4
i2 1 2 5
i3 2 6 3
𝑋̅ 2 3 4
• On a:
1
• IG(N)= [𝑑 2 (𝑖1 , 𝐺)+ 𝑑 2 (𝑖2 , 𝐺)+ 𝑑 2 (𝑖3 , 𝐺)]
𝑛
• 𝑑 2 (𝑖1 , 𝐺) = (3-2)2 + (1-3)2 + (4-4)2= 5
• 𝑑 2 (𝑖2 , 𝐺) = (1 − 2)2 + (2-3)2 + (5-4)2=3
• 𝑑 2 (𝑖3 , 𝐺) = (2 − 2)2 + (6-3)2 + (3-4)2=10
• Remplaçant 𝑙𝑒𝑠 𝑑 2 (𝑖, 𝐺) par leurs valeurs, on obtient:
1
• IG(N)= (5+3+10)=6
𝑛
2.2.4. Ajustement du nuage des individus
Pour trouver la meilleure image approchée du nuage, on suit les étapes suivantes :
1. trouver l’axe qui déforme le moins possible le nuage de points.
Min
O Max Hi 𝑢1
On note : Hi la projection orthogonale d’un individu sur un axe ;
O : le centre de gravité du nuage ;
(iHi)2 : est l’écart entre l’individu i dans l’espace initial et sa projection sur un axe.
On veut que (iHi)2 soit le plus petit possible.
Comme on a : Oi est fixe ; iHi est petite si OHi est grande grâce à Pythagore.
On sait que :
(OHi)2 +(iHi)2 = (Oi)2 (le théorème de Pythagore)
Alors, on veut: Min ∑𝑛 2 𝑛
𝑖=1(𝑖𝐻𝑖) ⇔ Max ∑𝑖=1(𝑂𝐻𝑖)
2
La ∑𝑛 2
𝑖=1(𝑂𝐻𝑖) : est bien la dispersion des individus la plus grande possible. On trouve
4
Isma BENRAIS Cours d’Analyse Des Données
ainsi le premier facteur.
2. trouver le deuxième axe orthogonale à ce premier axe qui maximise l’inertie ;
3. chercher un troisième axe, etc d’inertie maximum.
2.2.5. Matrice à diagonaliser
L’analyse du nuage des points individus dans Rp nous conduit à établir une transformation de
l’origine au centre de gravité de ce nuage et à changer, dans le cas de l’analyse normé, les
échelles sur les différents axes.
L’analyse du tableau transformé X nous conduit à diagonaliser la matrice suivante :
1
C= XˊX
𝑛
𝑛
1
= ∑ 𝑥𝑖𝑗 𝑥𝑖𝑗ˊ
𝑛
𝑖=1
1 (𝑟𝑖𝑗 −𝑟̅𝑗 )(𝑟𝑖𝑗ˊ −𝑟𝑗ˊ )
= ∑𝑛𝑖=1
𝑛 𝜎𝑗 𝜎𝑗ˊ
𝑐𝑜𝑣(𝑗,𝑗ˊ)
=
𝜎𝑗 𝜎𝑗ˊ
= cor (j,jˊ)
On déduit que la matrice à diagonaliser est rien que la matrice des corrélations.
2.2.6. Axes factoriels
La première composante principale est formée par les projections orthogonales des individus
sur le premier axe principal.
Les coordonnées des n individus sur l’axe factoriel 𝑢𝛼 sont les n composantes du vecteur :
𝐹𝛼 = x𝑢𝛼
𝑢𝛼 (1)
= (𝑥1, , 𝑥2 , … , 𝑥𝑝 ) ( ⋮ )
𝑢𝛼 (𝑝)
𝑝
= ∑𝑗=1 𝑢𝛼 (𝑗)𝑥𝑖𝑗
Sachant que :
- 𝑢𝛼 : 𝛼 𝑖è𝑚𝑒 vecteur propre de la matrice C associé à la valeur propre 𝜆𝛼 ;
5
Isma BENRAIS Cours d’Analyse Des Données
- Le facteur 𝐹𝛼 est une combinaison linéaire des variables initiales.
D’où, la composante principale 𝛼 de l’individu i s’écrit :
𝑝 𝑝
𝐹𝛼 (𝑖) = ∑𝑗=1 𝑢𝛼 (𝑗) 𝑥𝑗 (𝑖) = ∑𝑗=1 𝑢𝛼 (𝑗)𝑥𝑖𝑗
Propriétés des composantes principales
Puisque le nuage des individus est centré sur le centre de gravité :
𝐹𝛼 = ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅
• ̅̅̅ ∑𝑝𝑗=1 𝑢𝛼 (𝑗)𝑥𝑗 = ∑𝑝𝑗=1 𝑢𝛼 (𝑗)𝑥̅𝑗 = 0 ;
1 1
• V(𝐹𝛼 ) = 𝐹𝛼 2 (𝑖) = 𝐹𝛼 ˊ 𝐹𝛼 = 𝜆𝛼 ;
𝑛 𝑛
𝜆𝛼
• Pour chaque composante principale 𝐹𝛼 la quantité est l’inertie expliquée par 𝐹𝛼 .
𝑝
𝜆1 𝜆2 𝜆𝑝
+ + +⋯+ =1
𝑝 𝑝 𝑝
6
Isma BENRAIS Cours d’Analyse Des Données
2.3. Etude des variables
On se place désormais dans une ACP normée. Une variable est un point dans un espace à n
dimensions.
2.3.1. Distance d’une variable par rapport à l’origine.
d2(j,0) =∑𝑛𝑖=1(𝑥𝑖𝑗 - 0)2
= ∑𝑛𝑖=1 𝑥𝑖𝑗 2
𝑟𝑖𝑗− 𝑟̅𝑗
= ∑𝑛𝑖=1( )
𝜎𝑗√𝑛
1 𝑛
∑ (𝑟 ̅ ) 2
𝑛 𝑖=1 𝑖𝑗− 𝑟 𝑗
=
𝜎𝑗 2
𝜎𝑗 2
=
𝜎𝑗 2
=1
Conclusion :
Toutes les variables centrées réduites sont sur une hypersphère centrée à l’origine et de rayon
1.
2.3.2. Distance entre deux points variables j et jˊ
d2 (j,jˊ) = ∑𝑛𝑖=1(𝑥𝑖𝑗 − 𝑥𝑖𝑗ˊ)2
= ∑𝑛𝑖=1(𝑥𝑖𝑗 2 + 𝑥𝑖𝑗ˊ2 − 2𝑥𝑖𝑗 𝑥𝑖𝑗ˊ )
= ∑𝑛𝑖=1 𝑥𝑖𝑗 2 + ∑𝑛𝑖=1 𝑥𝑖𝑗ˊ2 − 2 ∑𝑛𝑖=1 𝑥𝑖𝑗 𝑥𝑖𝑗ˊ
=1 + 1 - 2 cor (j,jˊ)
d2 (j,jˊ) = 2 (1- cor (j,jˊ))
Cela revient à dire que:
Cor (j,jˊ)≃ 1 ⇔ d(j,𝑗́ )≃ 0 ; (les variables j, 𝑗́ sont fortement positivement
corrélées) ;
Cor (j,jˊ)≃ −1 ⇔ d(j,𝑗́ ) ≃ 2 ; (les variables j, 𝑗́ sont fortement négativement
corrélées) ;
Cor (j,jˊ)≃ 0 ⇔ d(j,𝑗́ )≃ √2 ; (les variables j, 𝑗́ sont faiblement corrélées).
7
Isma BENRAIS Cours d’Analyse Des Données
Alors, la distance entre deux variables s’interprète en termes de corrélation.
2.3.3. Axe factoriels ou composantes principales
Notons 𝐺𝛼 la coordonnée de la variable j sur l’axe 𝛼 . Elle s’écrit comme suit :
𝑮𝜶 (j) = √𝝀𝜶 𝒖𝜶 (𝒋) = cor (j,𝑭𝜶 )
La coordonnée d’un point variable sur un axe n’est autre que le coefficient de corrélation de
cette variable avec le facteur 𝐹𝛼 (combinaison linéaire des variables initiales).
Les axes factoriels étant orthogonaux deux à deux, on obtient ainsi une série de variables
synthétiques non corrélées entre elles, appelées composantes principales, qui synthétisent les
corrélations de l’ensemble des variables initiales.
Remarque :
La coordonnée d’un point variable sur l’axe 𝛼 est inférieure à 1 en valeur absolue :
|𝐺𝛼 | ≤ 1
Et : ∑𝑝𝛼=1 𝑐𝑜𝑟 2 (𝑗, 𝐹𝛼 ) = ∑𝑝𝛼=1 𝐺𝛼2(𝑗) = 1
Exercice d’application sur l’ACP normée
Le tableau suivant représente la répartition de Six élèves selon les notes obtenues en trois
matières.
Tableaux R
Matières Français Mathématiques Sciences
Elèves
1 9 12 10
2 15 9 10
3 5 10 8
4 11 13 14
5 11 13 8
6 3 15 10
Prétraitements : centrage et réduction des données
Calcul des moyennes et des écarts types de chaque matière.
8
Isma BENRAIS Cours d’Analyse Des Données
Variables Moyenne Ecart Type
Français 9 4,382
Mathématiques 12 2,191
Sciences 10 2,191
On remarque que les écarts types sont différents, donc on applique l’ACP normée sur ce
tableau. Premièrement, on centre et on réduit les données comme suit :
Tableau X
Français Mathématiques Sciences
0 0 0
1,5 -1.5 0
-1 -1 -1
0,5 0,5 2
0,5 0,5 -1
-1,5 1,5 0
La moyenne et les écarts types de chaque colonne est respectivement 0 et 1.
Analyse des individus dans R3
Calcul de la matrice à diagonaliser
1 −0.5 0.25
1
C= 𝑋tX= (−0.5 1 0.25)
𝑛
0.25 0.25 1
On remarque que les corrélations linéaires sont du signe positif et négatif, certaines étant
moyennes (0.50) et d'autres sont faibles (0.25).
A cette étape, on calcule les valeurs propres et les vecteurs propres de la matrice des
corrélations C.
Valeurs propres 𝜆𝛼 1.5 1.183 0.317
Vecteurs propres 𝑢𝛼 −0.707 0.325 0.628
normés ( 0.707 ) (0.325) ( 0.628 )
0.000 0.888 −0.460
9
Isma BENRAIS Cours d’Analyse Des Données
Calcul de l’inertie expliquée par chaque axe principal
𝛌
Iα = ∑𝟑 𝛂
𝐣=𝟏 𝛌𝐣
Valeurs propres Inertie (%) % cumulée
1.5 50 50
1.183 39.434 89.434
0.317 10.566 100
Le premier axe contient 50% de l’information totale ;
Le deuxième axe contient 39.434% de l’information.
Représentation des individus (Coordonnées des individus)
Fα = 𝑋𝑢𝛼
0 0 0 0 0
1.5 −1.5 0 −2.121 0
0.707 0.325
−1 −1 −1 0 −1.538
(−0.707 0.325)=
0.5 0.5 2 0 +2.101
0 0.888
0.5 0.5 −1 0 −0.563
(−1.5 1.5 0) (+2.121 0 )
Observations (axes F1 et F2 : 89,43 %)
3
Obs4
2
1
F2 (39,43 %)
Obs2 Obs1
0
Obs6
Obs5
-1
Obs3
-2
-3
-4 -3 -2 -1 0 1 2 3 4
F1 (50,00 %)
10
Isma BENRAIS Cours d’Analyse Des Données
Analyse des variables dans R6
𝐺𝛼 = √𝜆𝛼 𝑢𝛼
Projections 𝑮𝟏 G2
Français -0.866 0.354
Mathématiques 0.866 0.354
Sciences 0 0.966
Variables (axes F1 et F2 : 89,43 %)
Sciences
1
0.75
0.5
Francais Mathématiques
0.25
F2 (39,43 %)
-0.25
-0.5
-0.75
-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (50,00 %)
Ainsi, on voit que le premier facteur est d’une part, corrélé positivement et assez fortement,
avec mathématiques, et d’autre part, négativement et fortement aves français. Cet axe oppose
les élèves qui sont bons en mathématiques et mauvais en français aux étudiants qui sont bons
en français et mauvais en mathématiques. Il s’agit donc d’un axe d’opposition entre
disciplines littéraires et disciplines mathématiques.
En ce qui concerne l'axe 2, il représente le niveau général des élèves dans les trois matières.
(elles sont toutes du côté positif de l’axe). Il représente également la matière science. On
remarque que les élèves sont moyens dans les trois matières, en particulier l’élève 4 est bon en
science et l’élève 3 est le plus faible par rapport aux autres élèves.
11
Isma BENRAIS Cours d’Analyse Des Données
4. Eléments supplémentaires
Pour analyser des données supplémentaires, il est nécessaire d’effectuer d’abord une analyse
des données actives (brutes), puis appliquer une démarche analogue pour le traitement des
données d’individus ou variables supplémentaires.
4.1. Individus supplémentaires (ou illustratifs)
Nous disposons d’informations que l’on souhaite rapporter à l’analyse et l’enrichir. Par
Exemple, on a soumis à l’ensemble des enseignants de l’ENSSEA un questionnaire et après
analyse, on collecte les réponses de deux enseignants absents donc certainement, on cherchera
à les placer sur les axes principaux sans refaire l’analyse.
Pour ce faire, on doit effectuer les mêmes transformations pour les individus supplémentaires
que les données des individus actifs. Alors, on passe des données brutes supplémentaires R+
au tableau de données transformées X+ : R + → X+
(𝑟+𝑖𝑗 −𝑟̅𝑗 )
x+ =
√𝑛 𝜎𝑗
Remarque : 𝒓̅𝒋 et 𝜎𝑗 sont calculés à partir du tableau des données actives (R).
Les coordonnées des nouveaux points individus sont calculées ainsi :
𝐹+𝛼 = 𝑥+ 𝑢𝛼
Exemple : représentez l’individu supplémentaire 𝑖+ (10 13 10)ˊ pour l’exemple précédant.
0.707 0.325
𝐹𝛼 (𝑖+ ) = 𝑥+ 𝑢𝛼 = (0.228 0.456 0) (−0.707 0.325)= (-0.1611 0.2223)
0 0.888
Par ailleurs, la contribution absolue CTA pour les individus supplémentaire n’a pas de sens.
Alors, pour déterminer la qualité de représentation des individus supplémentaires, il suffit
juste de calculer la contribution relative de ces nouveaux individus.
𝐹𝛼2 (𝑖+ )
𝐶𝑇𝑅𝛼 (𝑖+).= 2
𝑑 (𝑖+ ,0)
Avec :
𝑝
𝑑 2(𝑖+ , 0)=∑𝑗=1 𝑥+𝑖𝑗 2
16
Isma BENRAIS Cours d’Analyse Des Données
4.2. Variables supplémentaires
Pour prendre en compte les variables supplémentaire, il est indispensable de transformer les
données brutes du tableau R+, afin de tirer le tableau des données transformées X+. On aura
la formule suivante :
(𝑟𝑖𝑗 + −𝑟̅𝑗 +)
X+ =
√𝑛 𝜎𝑗+
Remarque :
𝑟̅𝑗 + et 𝜎𝑗 + sont calculés à partir du tableau des données R+ (données supplémentaires en
colonnes) →X+.
Pour calculer les coordonnées factorielles des variables supplémentaires, on doit tout d’abord
déterminer le tableau des vecteurs propres 𝑉𝛼 en introduisant les nouvelles variables. Nous
avons d'ailleurs la relation suivante:
1
𝑉𝛼 = x𝑢𝛼
𝜆𝛼
Avec : x𝑢𝛼 = 𝐹𝛼 des individus actifs.
Après avoir déterminé les vecteurs propres 𝑉𝛼 , on peut calculer les coordonnées des variables
supplémentaires sur l’axe 𝛼 ainsi :
𝑥 + ˊ 𝑉𝛼
17