0% ont trouvé ce document utile (0 vote)
22 vues9 pages

ACP Budget Temps Correction

Acp solution ehtp

Transféré par

testamine9o
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues9 pages

ACP Budget Temps Correction

Acp solution ehtp

Transféré par

testamine9o
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse en Composantes Principales

Solution Sommaire du TD

EHTP : Analyse de données 2ème année

Enquete-Budget-temps

1. Problématique à étudier et Données utilisées

Le CESP (Centre d’Étude des Supports de Publicité) a relevé, dans son Enquête Budget-temps Multimédia de
1991/1992 auprès de 17 665 personnes, des descripteurs de fréquentation de divers médias (radio, télévision, presse) et
des temps d’activités quotidiennes (cf. Boeswillwald, 1992). Ont été également relevées de nombreuses caractéristiques
socio-économiques, parmi lesquelles l’âge, le sexe, l’activité, le niveau d’éducation, et le lieu de résidence de ces
personnes, ce qui a conduit à créer 96 catégories en croisant ces divers critères. Nous nous intéressons seulement ici à
la sous-population des hommes actifs, soit 27 groupe qui seront, pour cet exemple, les individus. On cherche à
connaître les associations entre les temps consacrés à différentes activités par les individus observés.
Les 27 individus (qui sont en réalité dans le cadre de cet exemple des groupes d’individus) sont repérés par un
identificateur en 4 caractères:
+ le 1er caractère est l'âge du groupe (1=jeune, 2=moyen, 3=âgé)
+ le 2ème caractère est l'activité et est ici toujours égal à 1
(car il s'agit ici d'une sélection d' hommes actifs) .
+ le 3ème est le niveau d'éducation (1=primaire, 2=secondaire,3=supérieur)
+ le 4ème est le type d'agglomération (1=communes rurales; 2=villes moyennes;
3=villes importantes; 4=agglomération parisienne; 5,6,7 = groupes mixtes).
On lit par exemple sur la première ligne du tableau de données que le groupe ‘3124’ (âgé, actifs, niveau secondaire,
résidant à Paris) consacre en moyenne par jour 210.9 minutes aux activités à domicile, 107.3 minutes à des
activités regroupées sous la rubrique déplacement, 55.8 minutes pour les activités à l’extérieur, etc.

IDENT domicile deplacement exterieur repos loisirs travail FreqMedia


3124 210,9 107,3 55,8 487,6 11,2 300 135,8
1115 177,5 95,6 40,4 574,1 7,3 208,8 225,8
1111 158,7 101,4 54,9 497,5 26,9 298,3 135,8
... ... ... ... ... ... ... ...

La signification des variables est comme suit :


domicile = Activité à domicile qui regroupe : jardinage, bricolage, repas chez soi et ménage
deplacement = Déplacement à pied et en voiture, promenades et courses démarches
exterieur = Repas restaurant et viste à amis
repos = Sommeil et repos
loisirs = Loisirs extérieurs, lecture des livres, écoute des disques et des cassettes
travail = Travail rémunéré
FreqMedia = Fréquentation Média (Télévision, Presse, etc.)
Le tableau des données ressemble à :
## domicile deplacement exterieur repos loisirs travail FreqMedia
## 1111 210.9 107.3 55.8 487.6 11.2 300.0 135.8
## 1115 177.5 95.6 40.4 574.1 7.3 208.8 225.8
## 1121 158.7 101.4 54.9 497.5 26.9 298.3 135.8
## 1122 159.9 145.2 73.1 499.5 26.6 239.0 142.3
## 1123 142.7 151.3 57.2 522.2 27.1 212.3 167.7
## 1124 138.5 136.8 66.2 506.7 28.8 226.0 145.1

1
Résumé des variables

## domicile deplacement exterieur repos loisirs travail FreqMedia


## minimum 110.800 93.500 17.600 469.100 5.200 208.800 82.400
## moyenne 175.567 121.015 41.511 503.544 21.656 286.270 140.578
## maximum 222.400 157.600 73.100 574.100 40.200 380.600 225.800
## variance 971.565 356.531 267.519 428.173 102.768 2269.291 1101.228
## ecarttype 31.170 18.882 16.356 20.692 10.137 47.637 33.185

2. Les sorties de l’ACP

2.1 La matrice de corrélation

correlmatrix=round(cor(data),3)
correlmatrix

## domicile deplacement exterieur repos loisirs travail FreqMedia


## domicile 1.000 -0.264 -0.289 0.133 -0.638 -0.077 0.287
## deplacement -0.264 1.000 0.315 -0.071 0.308 -0.570 0.081
## exterieur -0.289 0.315 1.000 0.055 0.298 -0.392 -0.202
## repos 0.133 -0.071 0.055 1.000 -0.490 -0.545 0.511
## loisirs -0.638 0.308 0.298 -0.490 1.000 0.106 -0.501
## travail -0.077 -0.570 -0.392 -0.545 0.106 1.000 -0.621
## FreqMedia 0.287 0.081 -0.202 0.511 -0.501 -0.621 1.000

2.2 Indice de KMO

library(REdaS)

## Loading required package: grid


KMOS(data)

##
## Kaiser-Meyer-Olkin Statistics
##
## Call: KMOS(x = data)
##
## Measures of Sampling Adequacy (MSA):
## domicile deplacement exterieur repos loisirs travail
## 0.2977432 0.2700216 0.2559004 0.3229359 0.4248890 0.3028052
## FreqMedia
## 0.3601995
##
## KMO-Criterion: 0.3225787

2.3 Test de Sphéricité de Bartlett

bart_spher(correlmatrix)

## Bartlett's Test of Sphericity


##
## Call: bart_spher(x = correlmatrix)
##
## X2 = 124.148
## df = 21
## p-value < 2.22e-16

2
2.4 Les valeurs propres

library(FactoMineR)
res.pca = PCA(data, scale.unit=TRUE, ncp=7, graph=F)
res.pca$eig

## eigenvalue percentage of variance cumulative percentage of variance


## comp 1 2.62324284 37.4748977 37.47490
## comp 2 2.13316432 30.4737760 67.94867
## comp 3 0.82930309 11.8471870 79.79586
## comp 4 0.72683159 10.3833084 90.17917
## comp 5 0.36080574 5.1543677 95.33354
## comp 6 0.27821008 3.9744297 99.30797
## comp 7 0.04844234 0.6920335 100.00000

2.5 Le diagramme de Cattel - critère de Coude - Scree plot

library(factoextra)

## Loading required package: ggplot2


## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
fviz_eig(res.pca, addlabels = TRUE)

Scree plot
37.5%

30.5%
Percentage of explained variances

30

20

11.8%
10.4%
10

5.2%
4%
0.7%
0

1 2 3 4 5 6 7
Dimensions

2.6 Projection des variables

plot.PCA(res.pca, axes=c(1, 2), choix="var", new.plot=TRUE,


title="Cercle de corrélation")

3
Cercle de corrélation

Dim 2 (30.47%)
1.0

deplacement

exterieur
0.5
loisirs
repos

FreqMedia
0.0

domicile
−0.5

travail
−1.0

−1.0 −0.5 0.0 0.5 1.0


Dim 1 (37.47%)

2.7 Projection des individus

plot.PCA(res.pca, axes=c(1, 2), choix="ind",


new.plot=TRUE, title="Graphe des individus")

Graphe des individus


Dim 2 (30.47%)

1123
1124
1122
2 1133

1134 3137 2133


3122
2112 1115

1136 2122 3123


0
1121 2117
2134 2123 1111 3117
2131 3136
2121
2124
−2 2132 3121 2111
3116

−2 0 2 4
Dim 1 (37.47%)

4
2.8 Les individus et variables : cos2, contribution, et coordonnées

summary(res.pca, ncp=2, nb.dec=2, nbelements=Inf)

##
## Call:
## PCA(X = data, scale.unit = TRUE, ncp = 7, graph = F)
##
##
## Eigenvalues
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6 Dim.7
## Variance 2.62 2.13 0.83 0.73 0.36 0.28 0.05
## % of var. 37.47 30.47 11.85 10.38 5.15 3.97 0.69
## Cumulative % of var. 37.47 67.95 79.80 90.18 95.33 99.31 100.00
##
## Individuals
## Dist Dim.1 ctr cos2 Dim.2 ctr cos2
## 1111 | 2.12 | 0.34 0.16 0.03 | -0.91 1.43 0.18 |
## 1115 | 5.06 | 4.33 26.45 0.73 | 0.65 0.73 0.02 |
## 1121 | 1.60 | -0.82 0.96 0.26 | -0.09 0.01 0.00 |
## 1122 | 2.67 | -0.48 0.33 0.03 | 2.42 10.19 0.82 |
## 1123 | 3.02 | 0.51 0.36 0.03 | 2.92 14.76 0.93 |
## 1124 | 2.60 | -0.47 0.31 0.03 | 2.46 10.54 0.89 |
## 1136 | 2.17 | -1.61 3.67 0.55 | -0.04 0.00 0.00 |
## 1133 | 2.98 | -1.98 5.52 0.44 | 1.84 5.89 0.38 |
## 1134 | 3.30 | -2.47 8.64 0.56 | 1.54 4.10 0.22 |
## 2111 | 2.08 | 0.59 0.49 0.08 | -1.72 5.14 0.69 |
## 2112 | 2.69 | 1.61 3.64 0.36 | 0.61 0.65 0.05 |
## 2117 | 2.52 | 1.86 4.87 0.54 | 0.04 0.00 0.00 |
## 2121 | 1.76 | -0.19 0.05 0.01 | -1.63 4.60 0.86 |
## 2122 | 1.79 | 0.30 0.13 0.03 | 0.32 0.18 0.03 |
## 2123 | 1.64 | -0.14 0.03 0.01 | -0.48 0.41 0.09 |
## 2124 | 2.95 | -1.48 3.08 0.25 | -1.77 5.46 0.36 |
## 2131 | 1.40 | -0.62 0.55 0.20 | -0.98 1.68 0.50 |
## 2132 | 3.01 | -1.76 4.36 0.34 | -1.78 5.49 0.35 |
## 2133 | 1.19 | -0.31 0.13 0.07 | 1.11 2.13 0.87 |
## 2134 | 3.03 | -2.68 10.14 0.78 | -0.91 1.44 0.09 |
## 3116 | 2.90 | 0.48 0.32 0.03 | -2.27 8.93 0.61 |
## 3117 | 2.88 | 2.69 10.24 0.87 | -0.39 0.26 0.02 |
## 3121 | 2.68 | -0.04 0.00 0.00 | -2.12 7.83 0.63 |
## 3122 | 3.17 | 2.55 9.20 0.65 | 0.79 1.08 0.06 |
## 3123 | 1.57 | 0.87 1.07 0.30 | 0.33 0.19 0.04 |
## 3136 | 2.20 | 0.73 0.76 0.11 | -1.37 3.28 0.39 |
## 3137 | 3.21 | -1.79 4.55 0.31 | 1.44 3.60 0.20 |
##
## Variables
## Dim.1 ctr cos2 Dim.2 ctr cos2
## domicile | 0.60 13.91 0.36 | -0.44 8.98 0.19 |
## deplacement | -0.09 0.28 0.01 | 0.79 29.15 0.62 |
## exterieur | -0.21 1.76 0.05 | 0.68 21.63 0.46 |
## repos | 0.74 20.88 0.55 | 0.24 2.64 0.06 |
## loisirs | -0.81 24.95 0.65 | 0.38 6.64 0.14 |
## travail | -0.56 12.12 0.32 | -0.79 29.15 0.62 |
## FreqMedia | 0.83 26.09 0.68 | 0.20 1.81 0.04 |

3. Analysez les résultats ci-hauts et répondez aux questions suivantes :

3.1 Les données sont elles homogènes ? Fallait il diagonaliser la matrice de variance
P
covariance ou la matrice de corrélation Ω ? Quels risques aurions nous couru si nous
avons opté pour l’autre choix ?

Les données sont homogènes en termes d'unités (minutes). Par contre, les variables initiales sont

5
différentes en termes d'ordre de grandeur des variances qui sont hétérogènes. En effet, la variance
du «Travail» (2269.291 min**2) est plus grande que la variance de «Loisirs» (102.768 min**2). Ainsi, Il
fallait donc diagonaliser la matrice de corrélation (i.e. on est ramené à centrer réduire les
variables initiales).

Si on a opté pour la diagonalisation de la matrice de variance covariance (variable


centrée uniquement), l’axe du «Travail» expliquerait une bonne partie de la variance totale, en
plus la proximité entre individus n’aurait pas de sens à cause de l’hétérogénéité des variances
des variables

3.2 Justifier, a posteriori et d’après le tableau des valeurs propres, le choix de la matrice
de variance covariance ou la matrice de corrélation Ω ?

Par définition, l’inertie totale n’est que la variance totale et qui n’est que la somme des
variances des variables utilisées initialement pour effectuer l’ACP. Ainsi, dans le cas où
les variables sont centrées réduites, la variance est égale à 1 pour chaque variable
et par conséquent, l’inertie totale égale au nombre de variables dans le cas où elles
sont centrées réduites. Par conséquent, dans notre cas, l’inertie totale est
théoriquement égale à 6, qui est le nombre de variables utilisées.

Si nous avions opté pour la matrice de variance covariance, la trace serait égale à la
somme des variances qui vaut 579.946 + 557.721 + 504.948 + .... + 5.224695e+09, ce qui est trop
loin de 7 = trace de la matrice de corrélation (somme des valeurs propres)

3.3 Considérant le nuage de points à traiter, quelle est la coordonnée du groupe 1115
sur l’axe « travail »?

Les variables ont été centrées réduites. Ainsi, la coordonnée du groupe «1115» sur l’axe
« MRI » sera : (208.8 - 286.27) / 47.637 = -1.62

3.4 Quelle est la valeur numérique de l’inertie du nuage des points traité ?

Les variables sont centrées réduites et la matrice de corrélation a été utilisée lors de l’ACP.
Par conséquent, l’inertie totale est égale à la somme des valeurs propres et qui vaut 7.

3.5 Les données sont-elles factorisables ?

Vérifions les trois conditions recommandées lors de l’exécution de l’ACP sous R.

a) Plusieurs variables sont corrélées (ou anti-corrélées) ?


En analysant la matrice des corrélations entres les variables initiales, on
constate qu’on a 5/21 des corrélations dépasse 0.5. Ce qui prouve que
certaines variables initiales sont corrélées entre elles.

b) L'indice de KMO (Kaiser-Meyer-Olkin) qui tend vers 1 ?


0.50 et moins ==> misérable
entre 0.60 et 0.70 ==> médiocre
entre 0.70 et 0.80 ==> moyen
entre 0.80 et 0.90 ==> méritoire
plus que 0.9 ==> merveilleux.

D’après les sorties de l'ACP, on constate que l’indice de KMO est de 0.32. Par
conséquent, cet indice est misérable dans notre cas. Ainsi, cette condition
est rejetée.

c) La signification de Bartlett tend vers 0 ?


(test de sphéricité) Comparer la matrice de corrélation à la matrice
identité à l'aide de Khi2.
Si la signification de Bartlett :
tend vers 0 ==> c'est très significatif,

6
inférieur à 0.05 ==> significatif,
entre 0.05 et 0.10 ==> acceptable
au dessus de 0.10 ==> on rejette.

D’après les sorties de l'ACP, on constate que la signification du test de Bartlett


vaut 0.000. Par conséquent, la signification du test est excellente.

Ainsi, on a deux conditions sont vérifiées parmi les trois recommandées. Par conséquent, les
données sont factorisables.

3.6 Combien de CP retiendrez-vous (critère de valeur propre moyenne, critère de Kaiser,


critère de Cattel) ? justifiez votre réponse

* Critère 1 : Critère de la valeur propre moyenne


-------------------------------------------------
On retient les composantes principales dont les valeurs propres dépassent la valeur
propre moyenne.
=====> on retient DEUX Composantes principales

* Critère 2 : Critère de Kaiser


-------------------------------
Lorsque les données sont centrées réduites, on retient les composantes principales tel que
la valeur propre associée dépasse strictement 1.
=====> on retient DEUX Composantes principales

* Critère 3 : Critère de Cattel ou de coude


-------------------------------------------
On retient les q premières composantes principales tel que l'apport en variance
des dernières CP est remarquablement plus faible par rapport aux premières.
=====> on retient DEUX Composantes principales

* Critère 4 : Critère de la variance expliquée


----------------------------------------------
Si on se fixe un maximum de perte d'information de 20% (variance résiduelle).
On retiendra par les q premières composantes principale tel que Q = 80%.
=====> on retient TROIS (dans le cas Q=80%) ou DEUX (dans le cas Q=70%) Composantes
principales

3.7 Donner un sens au premier axe factoriel ?

D’après le cercle de corrélation (projection des variables sur le plan (O,U1,U2)),


Les variables «FreqMedia» et «Repos» sont corrélées positivement avec l’axe 1. Or,
la variable «Loisirs» est corrélée négativement avec cet axe.
===> Ainsi, cet axe exprime une opposition entre les activités plus intérieurs
(Sommeil et repos, Fréquentation Média, etc.) et les activités plus à l'extérieur
et de divertissement (Loisirs extérieurs, lecture des livres, écoute des disques
et des cassettes).

3.8 Donner un sens au deuxième axe factoriel ?

D’après le cercle de corrélation (projection des variables sur le plan (O,U1,U2)),


Les variables «Deplacement» et «Exterieur» sont corrélées positivement avec l’axe 2. Or,
la variable «Travail» est corrélée négativement avec cet axe.
===> Ainsi, cet axe exprime une opposition entre les activités de temps libre et
disponible (Déplacement à pied et en voiture, promenades et courses démarches, Repas
restaurant et viste à amis) et les activités professionnelles (Travail rémunéré).

7
3.9 Quel est le pourcentage de variance expliqué par la 1ère CP ? par la 2ème CP ? par
le plan dirigé par les deux premiers axes (O,U1,U2)?

D’après les sorties de l'ACP dans le tableau des valeurs propres, on constate
que le pourcentage de variance expliquée par la première composante principale
est de 37.5% et celui expliqué par la deuxième composante principale est de
30.5%. Par conséquent, le plan dirigé par les deux premiers axes (O,U1,U2)
explique 67.5%.

3.10 Sur le plan (O,U1,U2), y a-t-il des variables mal représentées ? des individus mal
représentés ?

Pour les variables :


===================
Une variable est bien représentée si elle est située loin du centre du cercle de
corrélation et s’approche du bord du cercle. Ainsi, toutes les variables sont
bien représentées dans notre cas.

Pour les individus :


===================
Un individu est bien représenté sur le plan (O,U1,U2) si le cosinus carré de
l’angle entre l’individu et le plan n’est pas faible. Par convention, si le cosinus
carré n'est pas faible et tend vers 1. Ainsi, on constate que tous les individus
suivants sont mal représentés :
1111 (cos2 = 0.21), 1121 (cos2 = 0.26), 2122 (cos2 = 0.06) et 2123 (cos2 = 0.10)

3.11 Selon le cercle de corrélation (O,U1,U2), que peut on dire de la corrélation entre :

a. deplacement et repos ? Non corrélées : angle tend vers 90° (r = -0.071)


b. travail et FreqMedia ? Anti-corrélées : angle tend vers 130° (r = -0.621)
c. loisirs et domicile ? Anti-corrélées : angle tend vers 130° (r = -0.638)
d. FreqMedia et loisirs ? Anti-corrélées : angle tend vers 120° (r = -0.501)
e. repos et exterieur ? Non corrélées : angle tend vers 90° (r = +0.055)

Vérifier vos résultats sur la matrice de corrélation

3.12 Analyser la projection des individus et répondre aux questions suivantes :

a. Que peut-on dire des groupes des jeunes à part le groupe 1115 qui est atypique ?
===> à part le groupe 1115 qui est atypique, et du groupe 1111 qui est mal représenté
sur le premier plan factoriel (1-2), les groupes des jeunes (qui commencent par 1)
se situent dans le quadrant en haut à gauche. Par ocnsèquent, les activités des
jeunes sont plus domoinées par les activités plus à l'extérieur et de divertissement
ainsi que les activités de temps libre au dépend des activités à l'intérieur.

b. Citez 1 individu dont les activités sont dominées par les activités professionnelles ?
====> 3116, 3121

c. Citez 1 individu dont les activités sont dominées par les activités plus intérieures ?
====> 1115, 3117

d. Citez 1 individu dont les activités sont dominées par les activités de temps disponibles
ou libres ?
====> 1123 , 1124, 1122

e. Citez 1 individu dont les activités sont dominées par les activités plus à l'extérieur
et divertissement ?
====> 2134

8
9

Vous aimerez peut-être aussi