STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Séquence 01
ANALYSE EN COMPOSANTE PRINCIPALES
(ACP)
PLAN DETAILLE IDEES PRINCIPALES
IDEES DEVELOPPEES ETUDE DE CAS
RETOUR AU PLAN GENERAL
CNAM de Basse-Normandie
1/25
Reproduction et diffusion interdites sans l’accord de l’auteur
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Séquence 01
PLAN DETAILLE
Retour au plan
Plan détaillé
Introduction
Objectif de l’ACP
2) Tableau de données
3) Codage
4) Représentation des données
5) Exemple
Distance
Le nuage des individus
Le nuage des variables
Propriétés
Inertie du nuage des individus
Inertie du nuage des variables
Sous espaces de projection
Nuage des individus
Axes factoriels du nuage des individus
Détermination des axes factoriels du nuage des individus
Détermination des axes factoriels du nuage des variables
Inertie des axes factoriels
Composantes principales
Facteurs du nuage des variables
Relation de transition
Choix du nombre des axes factoriels
Principaux résultats
Analyse en composantes principales normées
Aide à l’interprétation des axes factoriels par les individus
Aide à l’interprétation des axes factoriels par les variables
Eléments illustratifs ou supplémentaires
Aides à l’interprétation des axes factoriels par les éléments illustratifs
Utilisation des éléments supplémentaires
La notion de valeur-test
STA101 - Séquence 0 - Titre 2/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Pratique de l’ACP
Etude préliminaire des données
Choix du type d’ACP : normé ou non normé ?
Recommandations pour la pratique de l’ACP.
Application :
Les données
ACP avec le logiciel SPAD
Résultats de l’ACP
Explication des axes par les variables actives et illustratives
Cercle des corrélations
Explication des axes par les individus
Représentation des individus et de la variable nominale illustrative dans le premier
plan factoriel
Interprétation des axes factoriels
STA101 - Séquence 0 - Titre 3/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Séquence 01
IDEES PRINCIPALES
Retour au plan
1) Introduction
On présentera dans cette partie les objectifs de l’ACP, le type de tableau analysé, les différentes
transformations faites sur le tableau de données initiale et la forme de présentation des tableaux pour
effectuer une ACP.
2) Distance
On présentera dans cette partie les deux types de nuage (le nuage des individus et le nuage des variables)
ainsi que les propriétés des ces deux nuages.
3) Sous espaces de projection
On présentera dans cette partie comment déterminer les axes factoriels et aussi comment choisir les axes à
interpréter.
4) Principaux résultats
On présentera dans cette partie des éléments d’aide à la prise de décision tels que la qualité de
représentation, la contribution relative ainsi que la notion d’élément supplémentaire.
5) Pratique de l’ACP
Dans cette partie, on présente un exemple de tableau et on effectue une ACP sur ce tableau de données en
utilisant SPAD 7.
6) Etude de cas
Deux exemples d’études de cas sont proposes a titre d’exercices dans cette partie.
STA101 - Séquence 0 - Titre 4/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Séquence 01
IDEES DEVELOPPEES
Retour au plan
i. Introduction
1) Objectifs de l’ACP
L’analyse en composante principale est une méthode de statistique descriptive : l’objectif est de
représenter sous forme graphique le maximum d’informations contenu dans un tableau de données;
cette méthode s’applique à des tableaux de données quantitatives. Elle est intéressante dès que la
taille du jeu des données ne permet pas une interprétation directe. Elle est donc adaptée au dépouillement
de grands jeux de données. Elle permet aussi une présentation synthétique de jeux de données petit ou
grand. Le but est de réduire l’espace de représentation des données pour une meilleure compréhension.
Si p est le nombre de variables, chaque individu peut être représenté par un point dans un espace de
dimension p, les coordonnées étant les valeurs observées. Pour réduire l’espace, on construit des variables
synthétiques résumant l’information : Elles sont des combinaisons linéaires des variables initiales et forment
les axes du nouvel espace de représentation, la nouvelle origine étant le centre de gravite du nuage.
Les axes factoriels sont ordonnés, le premier axe étant celui qui véhicule la plus grande partie de
l’information, c’est l’axe associé au pourcentage d’inertie le plus élevé, le dernier axe est l’axe qui présente
la plus faible variabilité, il s’agit de la variabilité des projections des individus sur cet axe. Les premiers axes
factoriels sont retenus, ce sont ceux qui expliquent la plus grande part de l’information, ceux qui déforment le
moins possible le nuage.
Les autres axes factoriels sont négligés ils sont considérés comme du bruit.
STA101 - Séquence 0 - Titre 5/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
2) Le tableau de données
Variables → Mensurations, indicateurs socio-économiques,
questions quantitatives, compositions chimiques,
Individus↓ etc.
1 … j … p
Animaux, pays, enquêtés, 1
produits alimentaires, etc.
i
xij
3) Codage
Dans le souci d’accorder à chaque variable une importance égale à sa variance (cas des variables
hétérogènes), on centre et on réduit celles-ci. Cela consiste à transformer le tableau de données
initial en un tableau de données centré-réduit de la manière suivante :
xij
xij − x j
sj
Où xj =
1 n
∑ xij et s j =
n i =1
1 n
(
∑ xij − x j
n i =1
)
2
.
STA101 - Séquence 0 - Titre 6/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
4) Représentation des données
Le tableau de données réduit au niveau du codage est représenté de deux manières différentes (en
ligne ou en colonnes). Lorsque ce sont les lignes qui sont représentés (les individus), on fait
apparaître le concept de ressemblance tandis que lorsque ce sont les colonnes qui sont représentées
(les variables), on fait apparaître le concept de liaison.
Schématiquement on a la situation suivante :
STA101 - Séquence 0 - Titre 7/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
xij − x j
sj
j j'
i’
n points de IR p (les individus) p points de IR
n
Concept de ressemblance Concept de liaison
STA101 - Séquence 0 - Titre 8/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
ii. Distance
1) Le nuage des individus
On note G le point moyen c'est-à-dire G (
= x1 ,..., x p . )
G est le centre gravite du nuage des points individus.
La distance utilisée dans IRp (espace de représentation des individus) est la distance euclidienne
usuelle :
- La distance entre un point individu et son centre de gravite est
2
p ⎛ x − x ⎞
∑ s (x )
p
d (i; G ) = ∑ ⎜ ⎟ = 1 2
− xj .
2 ij j
⎜
j =1 ⎝ sj ⎟ 2 ij
⎠ j =1 j
- La distance entre deux points individus est
2
⎛ xij − x j xi ' j − x j ⎞
∑ s (x − xi ' j ) .
p p
d (i; i ')
1
= ∑⎜ − ⎟ =
2 2
⎜ sj
j =1 ⎝ sj ⎟ 2 ij
⎠ j =1 j
1
Chaque individu est affecté d’un poids pi . En général : p i = .
n
2) Le nuage des variables
Pour le nuage des variables, on affecte à chaque dimension un coefficient égal au poids de chaque
individu du nuage des individus dans R p . Ainsi avec des poids identiques, la distance utilisée est à un
coefficient près la distance euclidienne usuelle (pour le nuage des variables, le centre de gravite est l’origine
du repère):
2
n
1 ⎛ xij − x j ⎞
d ( j;O ) =∑ ⎜ ⎟ = 1.
2
- La distance entre un point-variable et l’origine est
⎜ sj
i =1 n ⎝
⎟
⎠
- La distance entre deux points-variables s’interprète en terme de coefficient de corrélation linéaire
2
n⎛ xij − x j xij ' − x j ' ⎞
d ( j ; j ') = ∑⎜ − ⎟ = 2(1 − r ( j , j ' )).
2
⎜
i =1 ⎝ s s ⎟
j j' ⎠
3) Propriétés
1 xij − x j
- Lorsque dans le codage des données, on effectue plutôt la transformation , on dit qu’on
n sj
effectue une ACP normée. Cela se fait lorsque les variables sont de natures différentes.
- Les logiciels d’analyse des données effectuent une ACP normée par défaut.
- Dans le cas d’une ACP normée, la distance entre chaque point-variable et l’origine est égal a un.
STA101 - Séquence 0 - Titre 9/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
4) Inertie du nuage des individus
L’inertie du nuage des individus par rapport à son centre de gravite est la quantité
1 p 1
( )
n n
I = ∑ pi .d (i, G ) = ∑ .∑ 2 . xij − x j
2
= p.
2
i= i =1 n j =1 s j
5) Inertie du nuage des variables
L’inertie du nuage des points variables par rapport à l’origine est :
p
I = ∑ d ( j, O ) = p .
2
j =1
Remarque : Les inerties des deux nuages sont tous égaux à p .
iii. Sous espaces de projection.
1) Le nuage des individus
On cherche ici le plan qui maximise la dispersion des points individus projetés c'est-à-dire le plan P tel
∑∑ d (i, i') = Max P ∑∑ d H (i, i ') .
2 2
que Max P
i i' i i'
2) Axes factoriels du nuage des individus
Les axes factoriels du nuage des individus sont déterminés après diagonalisation d’une certaine matrice.
3) Détermination des axes factoriels du nage des individus
Soit Y la matrice des données centrée-réduite et Y ' sa transposée.
On diagonalise la matrice des corrélations suivante :
Y ' Y qui est une matrice carrée d’ordre p ,
puis on classe toutes les valeurs propres obtenues par ordre décroissant :
STA101 - Séquence 0 - Titre 10/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
p
λ1 ≥ λ2 ≥ ... ≥ λ p avec ∑λ
j =1
p = p.
- Le premier axe factoriel est celui engendré par un vecteur propre unitaire u1 associé à λ1 .
- Le deuxième axe factoriel est celui engendré par un vecteur propre unitaire u 2 orthogonal à u1
associé à λ 2 .
- Le premier plan factoriel est celui engendré par les deux premiers axes factoriels.
- Le troisième axe factoriel est celui orthogonal aux deux premiers et engendré par un vecteur propre
unitaire u 3 associe à λ3 .
- Etc.
4) Détermination des axes factoriels des variables
Pour la détermination des axes factoriels des variables, on applique le principe précédent à la matrice carrée
d’ordre n , YY '.
5) Inertie des axes factoriels
L’inertie d’un axe factoriel est la valeur propre correspondant à cet axe.
6) Composantes principales
Si la direction d’inertie maximum dans l’espace du nuage des variables est le vecteur v1 alors v1 définit une
nouvelle variable synthétique qui est en fait combinaison linéaire d’autres variables : v1 est appelée
première composante principale. Ainsi de suite, v 2 ,…, v k définissent une suite de variables synthétiques
non corrélées entre elles et sont de ce faite les composantes principales du nuage.
7) Facteurs du nuage des individus
L’ensemble des projections des individus du nuage sur un axe factoriel donné définit une nouvelle
variable appelée facteur.
8) Relations de transition
9) Choix du nombre d’axes factoriels
STA101 - Séquence 0 - Titre 11/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Il n’existe pas de critère simple et définitif. On a entre autres critères, le critère suivant dit de Kaiser qui
consiste à s’intéresser aux axes ayant une inertie supérieure à la moyenne.
Par contre l’expérience a montré qu’il est bon de prendre en considération tous les axes interprétables.
iv. Principaux résultats
1) ACP normé
- Dans l’espace du nuage des individus, l’origine est confondue avec le centre de gravite du nuage,
les axes factoriels sont les directions d’allongement maximum.
- Dans l’espace du nuage des variables, la projection d’une variable sur une autre s’interprète comme
leur coefficient de corrélation linéaire, les composantes principales sont les combinaisons linéaires
de variables les plus liées à l’ensemble des variables initiales.
2) Aide à l’interprétation des axes factoriels par les individus
a) Qualité de représentation d’un individu i sur l’axe α ou dans un plan
La qualité de représentation d’un individu i sur l’axe α est une valeur réelle positive permettant
d’identifier les individus les mieux représentés sur l’axe α . Elle est donnée par la relation suivante :
qltα (i ) = cos 2 (i, α ) .
La qualité de représentation d’un individu dans un plan formé par les axes α et β est donnée par la
formule :
qlt (α , β ) (i ) = cos 2 (i, α ) + sin 2 (α , β ).
On retient comme critères de bonne représentation les critères suivants :
- qlt ≥ 0.8 alors très bonne représentation.
- 0.65 ≤ qlt ≤ 0.8 alors bonne représentation.
- 0.40 ≤ qlt ≤ 0.65 alors représentation moyenne.
- qlt ≤ 0.40 alors représentation médiocre.
b) Contribution relative d’un individu à la formation d’un axe factoriel
STA101 - Séquence 0 - Titre 12/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
La contribution relative d’un individu i à la formation de l’axe α noté CTRi (α ) est une valeur réelle
positive permettant d’identifier les individus qui ont la paternité de l’axe donnée. On retiendra comme
critère de bonne représentation, le critère de Kaiser.
3) Aide à l’interprétation des axes factoriels par les variables
Le principe est le même que celui des individus.
4) Eléments illustratifs ou supplémentaires
On peut les voir de deux manières différentes :
- Des individus qui s’écartent totalement du nuage des autres individus (éléments supplémentaires)
- Des individus qui n’ont pas participé à la formation des axes factoriels mais qui sont projetés sur
ceux-ci (éléments illustratifs).
5) Aide à l’interprétation des axes factoriels par les éléments illustratifs
Ils sont projetés dans les plans factoriels et sont interprétés
6) Utilisation des éléments supplémentaires
- Empêché qu’une ligne ou une colonne n’intervienne dans le calcul des axes :
• Un élément a une très forte contribution pour un axe. On souhaite analyser les autres éléments sans
celui-ci qui gêne.
• Un élément est une synthèse des données recueillies.
- Ajouter une nouvelle ligne ou une nouvelle colonne sans refaire toute l’analyse.
7) La notion de valeur test
Une modalité illustrative est positionnée comme point moyen des individus qui la composent. v est
utilisé comme valeur test des modalités. En pratique v − test avec la valeur 2, valeur qui a peut de
chance d’être dépassé sous l’hypothèse d’un tirage au hasard.
Si v − test f 2 alors les individus qui la composent occupent une position significative sur l’axe α et
caractérisent de ce fait la zone du graphique ou ils se trouvent.
STA101 - Séquence 0 - Titre 13/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
v. Pratique de l’ACP
1) Etude préliminaire des données
a) Etude des distributions de chacune des variables et individus : si pour un individu ou une variable,
on a des valeurs très isolées des autres, cet individu ou cette variable risque d’avoir une très forte
contribution à la détermination des axes factoriels. Pour s’affranchir d’un élément particulièrement
influent, on peut le supprimer en tant qu’élément actif et le projeter en élément supplémentaire.
b) Etude de la matrice des corrélations pour avoir une première idée des liaisons entre les variables.
c) Etude de la qualité de représentation pour identifier les variables les mieux représentées afin de les
interpréter.
2) Choix du type d’ACP : normée ou non normée
Pas nécessaire de faire un choix car les logiciels d’analyse factorielle proposent une ACP normée par
défaut.
Néanmoins une ACP non normée peut s’envisager si :
- Les variables sont homogènes.
- S’il est justifié dans le cadre de l’analyse, de donner une importance égale à sa variance.
3) Recommandations pratiques pour l’ACP
- Le grand critère de validité d’un axe est plus son interprétabilite que l’inertie qu’il représente.
- S’il existe des variables fortement corrélées (au regard de la matrice des corrélations), ce sont ces
variables qui définiront probablement la première composante principale.
- Les distances entre les individus sur un plan factoriel ne sont pas équivalentes suivant les axes.
- Toujours revenir aux données d’origine pour vérifier les conclusions.
- La procédure de classification fournit un complément d’information et permet de voir au delà des
axes représentés.
STA101 - Séquence 0 - Titre 14/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
4) Application
a) Les données
Le tableau suivant donne pour des pays d’Amérique du Sud, un certain nombre de variables caractéristiques
de l’économie (année 1996) : PNB par habitant (P), taux de chômage (TC), taux d’inflation (TI), rapport entre
la dette et le PNB (D) :
(P) (TC) (TI) (D)
Argentine (A) 8320 18 0,1 0,30
Bolivie (BO) 800 5,8 10,2 0,79
Brésil (BR) 3801 4,7 11 0,22
Chili (CH) 4545 4,9 6,6 0,11
Colombie (CO) 1910 8,6 21 0,30
Equateur (E) 1390 12 23 0,73
Paraguay (PA) 1690 4,8 8 0,30
Pérou (PE) 2310 8,8 11 0,48
Uruguay (UR) 5170 10,7 42,2 0,70
Venezuela (VE) 2548 13 102 0,44
b) ACP avec le logiciel SPAD
Une ACP centrée-réduite est effectuée sur le tableau 10x4. Pour ce faire on saisit ces données dans une
feuille Excel puis on enregistre sous separateur-tabulation afin de la transporter dans SPAD. On utilise ici la
version SPAD 7.
STA101 - Séquence 0 - Titre 15/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
c) Résultats de l’ACP
Les 4 variables étant hétérogènes, l’ACP réalisée est une ACP normée.
HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 1.5720 | 39.30 | 39.30 | ******************************************************************************** |
| 2 | 1.4831 | 37.08 | 76.38 | **************************************************************************** |
| 3 | 0.7521 | 18.80 | 95.18 | *************************************** |
| 4 | 0.1928 | 4.82 | 100.00 | ********** |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
On observe 4 valeurs propres non nulles et deux valeurs propres supérieures à un. Dans le premier plan
principal, on a 76,38 pour cent de l’inertie totale. Ce qui donne une bonne restitution des informations du
tableau initial.
La matrice des corrélations donne ici une première interprétation des corrélations entre variables.
MATRICE DES CORRELATIONS
| C2 C3 C4 C5
-----+----------------------------
C2 | 1.00
C3 | 0.54 1.00
C4 | -0.15 0.31 1.00
C5 | -0.37 0.20 0.22 1.00
-----+----------------------------
| C2 C3 C4 C5
On remarque à travers la matrice des corrélations que les variables ne sont pas significativement corrélées.
STA101 - Séquence 0 - Titre 16/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
d) Explication des axes par les variables
Cosinus carrés des variables :
F1 F2 F3 F4
(P) 0.834 0.081 0.007 0.078
(TC) 0.654 0.245 0.027 0.074
(TI) 0.009 0.569 0.410 0.013
(D) 0.075 0.589 0.308 0.028
(P) est très bien représentée sur l’axe 1 et (TC) bien représentée..
Sur l’axe 2 il n’y a que des variables moyennement représentées.
Contributions des variables (%) :
F1 F2 F3 F4
(P) 53.034 5.445 0.979 40.542
(TC) 41.63316.495 3.603 38.269
(TI) 0.54538.365 54.475 6.615
(D) 4.78839.695 40.944 14.574
On remarque que les variables qui ont le plus contribué à la formation de l’axe 1 sont (P) et (TC). Celles qui
ont le plus contribué à la formation de l’axe 2 sont (TI) et (D).
e) Cercle des corrélations
Les variables bien représentées dans le plan sont celles qui sont proches du cercle, et sur un axe, celles qui
font, de plus, un angle faible avec l’axe.
STA101 - Séquence 0 - Titre 17/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
On remarque ici que les variables (TC) et (P) sont les mieux représentées
STA101 - Séquence 0 - Titre 18/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
f) Explication des axes par les individus
Coordonnées des individus :
F1 F2 F3 F4
Argentine (A) 3.168 -0.580 -0.851 -0.272
Bolivie (BO) -1.728 0.652 -1.099 0.260
Brésil (BR) -0.321 -1.383 0.479 0.337
Chili (CH) 0.059 -1.852 0.638 0.298
Colombie (CO) -0.406 -0.351 0.416 -0.575
Equateur (E) -0.472 1.304 -0.905 -0.477
Paraguay (PA) -1.105 -0.982 0.262 -0.191
Pérou (PE) -0.443 -0.081 -0.391 -0.267
Uruguay (UR) 0.683 1.100 -0.434 0.955
Venezuela (VE) 0.566 2.173 1.884 -0.069
Cosinus carrés des individus :
F1 F2 F3 F4
Argentine (A) 0.898 0.030 0.065 0.007
Bolivie (BO) 0.637 0.091 0.258 0.014
Brésil (BR) 0.044 0.811 0.097 0.048
Chili (CH) 0.001 0.873 0.104 0.023
Colombie (CO) 0.208 0.156 0.218 0.418
Equateur (E) 0.075 0.572 0.276 0.077
Paraguay (PA) 0.533 0.421 0.030 0.016
Pérou (PE) 0.460 0.015 0.357 0.167
Uruguay (UR) 0.168 0.436 0.068 0.329
Venezuela (VE) 0.037 0.549 0.413 0.001
STA101 - Séquence 0 - Titre 19/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Contributions des individus (%) :
F1 F2 F3 F4
Argentine (A) 63.835 2.269 9.633 3.832
Bolivie (BO) 18.999 2.866 16.068 3.516
Brésil (BR) 0.654 12.890 3.046 5.895
Chili (CH) 0.022 23.127 5.420 4.605
Colombie (CO) 1.049 0.830 2.299 17.146
Equateur (E) 1.418 11.457 10.881 11.816
Paraguay (PA) 7.770 6.506 0.915 1.891
Pérou (PE) 1.250 0.044 2.029 3.704
Uruguay (UR) 2.964 8.159 2.500 47.350
Venezuela (VE) 2.039 31.852 47.207 0.245
Les pays qui ont le plus contribué a la formation de l’axe 1 sont l’Argentine et la Bolivie. Ceux qui ont le
plus contribué a la formation de l’axe 2 sont le Brésil, le Chili, l’Equateur et le Venezuela.
g) Représentations des individus dans le premier plan factoriel
STA101 - Séquence 0 - Titre 20/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
h) Interpretation des axes factoriels
- Les interprétations des axes factoriels à l’aide des individus et des variables actives se complètent.
Le premier axe (axe 1) oppose le l’Argentine à la Bolivie.
Le premier axe oppose l’Argentine caractérisé par le PNB/Habitant et le taux de chômage les plus élevés
de cette région d’Amérique du Sud à la Bolivie qui est caractérisée par le PNB/Habitant le plus faible de
cette région d’Amérique du Sud et un taux de chômage parmi les plus faibles.
- Le deuxième axe (axe 2) oppose le Chili au Venezuela.
Le deuxième axe oppose le Chili caractérisé par le taux d’inflation parmi les plus faibles et le rapport entre
la dette et le PNB la plus faible de cette région d’Amérique du Sud au Venezuela qui est caractérisé par le
taux d’inflation le plus élevé de cette région d’Amérique du Sud et un rapport entre la dette et le PNB assez
élevée.
STA101 - Séquence 0 - Titre 21/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Séquence 01
ETUDE DE CAS
Retour au plan
Cas 1 :
On considère les données extraites de « performances macro-économiques et structures sociales
européennes ».
Act emp Sala TP TPc cTP Hres Cho cCHO LD CDD
m
Allemagne 70,4 64,5 89,4 16,5 11,9 27,9 38,7 11,4 50 47,8 11
Autriche 70,9 67,3 85,6 12,6 9,3 90,9 39,7 6,2 26,5 28,7 8
Belgique 62,6 56,3 82 14 26,5 48,9 42,7 12,7 10,4 60,5 5,9
Danemark 79,8 74 90,7 21,5 14,5 -9,3 34 7,6 -1,3 27,2 11,2
Espagne 61,9 47,6 74,8 7,7 22,5 32,8 37,9 20,8 4 55,5 33,6
France 67,1 59,2 86,8 16 39,6 36,7 39,6 12,4 18,1 41,2 12,5
Grèce 60,8 54,9 54,3 5,3 39,6 8,6 41,8 10,4 40,5 55,7 11
Irlande 62,7 54,8 79,1 11,6 29,9 87,1 40,4 10,2 -39,6 55 9,2
Italie 57,7 50,6 71,2 6,6 37,6 32 38,7 12,3 20,6 66,3 7,46
Pays-Bas 71,5 65,4 87,7 36,5 6,2 23,7 32,2 5,6 -30 49,1 12
Portugal 68,2 62,3 71,6 8,7 21,5 45 40,6 6,7 -5,6 55,6 10,4
Royaume-Uni 76,2 69,8 86,6 24,6 12,6 13,9 36,5 6,9 -32,3 38,6 6,9
Suède 76,8 71,6 87,8 23,6 29,5 0,4 34,2 8 2,1 29,6 11,6
STA101 - Séquence 0 - Titre 22/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Sam soir nuit dima 2nd supé Dfor Djeu Dem Dcho
b
22,7 17,7 6,8 11,3 83,7 22,6 3,79 0,07 0,34 2,49
25,1 12,9 8,4 14,3 69,5 7,9 1,73 0,02 0,07 1,22
18,5 12,9 5,1 9,6 53,5 24,6 4,27 0,03 0,84 2,12
25,9 19,6 7 19 62 20,4 5,8 0,1 0,31 2,22
38,2 4,8 15,6 28 16,1 2,37 0,07 0,2 1,87
24,2 7,8 3,6 8,3 68,4 18,6 3,13 0,24 0,48 1,44
43,4 29,7 3,9 14,1 42,5 17,4 0,71 0,03 0,05 0,45
30 12,4 6,7 17,6 47,2 19,9 4,07 0,24 0,88 2,29
41,2 12,9 4,9 8 34,9 8 1,96 0,42 0,61 0,68
27,3 15,8 2,1 14,7 61,2 21 4,86 0,1 0,42 3,33
32,6 0,8 0,8 13,7 20,1 11 1,97 0,34 0,12 0,89
24,3 16,7 6,3 12,5 75,9 21,5 1,47 0,13 0,02 1,05
18,6 20,7 6,7 16,2 74,7 28,3 4,25 0,02 0,7 2,16
On donne ensuite le tableau des libellés des variables
Libellé des variables Libellé court
Taux d’activité en 1997 Act
Taux d’emploi en 1996 Emp
Taux de salariat en 1996 Sala
Taux de temps partiel en 1996 TP
Taux de temps partiel contraint en 1996 (en TP) TPc
Taux de croissance du TP entre 1986 et 1996 cTP
Nombre d’heures hebdomadaires en 1996 Hres
Taux de chômage en 1997 Cho
Croissance du chômage entre 1987 et 1997 cCHO
Part des chômeurs de longue durée en 1997 LD
Pourcentage des salariés ayant un CDD en 1996 CDD
STA101 - Séquence 0 - Titre 23/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Travail le soir en 1996 (en % de l’emploi) Soir
Travail de nuit en 1996 (en % de l’emploi) Nuit
Travail le samedi en 1996 (en % de l’emploi) Sam
Travail le dimanche en 1996 (en % de l’emploi) Dima
% de 25 à 64 ans ayant complété le cycle du 2nd
secondaire
% de 25 à 64 ans ayant complété un enseignement Supé
supérieur
Dépenses publiques pour l’emploi en % du PIB en Dep
1996
Dépenses publiques pour la formation prof (% Dfor
PIB)en 1996
Dépenses publiques (% PIB) en faveur des jeunes Djeu
en 1996
Dépenses publiques (% PIB) pour l’aide à Dem
l’embauche en 1996
Dépenses publiques (% PIB) pour indemnisation du dcho
chômage en 1996
TAF :
Faire une ACP sur ces données en utilisant SPAD7. On fera toutes les interprétations
nécessaires.
STA101 - Séquence 0 - Titre 24/25
STA101 Analyse des données : méthodes
Conservatoire
National
descriptives
Des arts et métiers Stanilas OUARO
Cas 2 : Les données suivantes sont des données réelles qui proviennent de la revue de l’Unicef : la
situation des enfants dans le monde 1999. Les individus ici sont les 10 pays les plus peuplés de l’Afrique de
l’ouest : Burkina Faso, Cameroun, Côte d’Ivoire, Ghana, Guinée, Mali, Niger, Nigéria, Sénégal et Tchad.
Les deux variables considérées sont le produit national brut par habitant exprimé en $EU, de l’année 1996
(PNB) et l’espérance de vie à la naissance en années, en 1997.
I (pays) PNB E.V. 97
Burk. Faso 230 46
Cameroun 610 56
Côte d’Iv 660 51
Ghana 360 58
Guinée 560 46
Mali 240 48
Niger 200 48
Nigéria 240 52
Sénégal 570 51
Tchad 160 48
TAF :
Effectuer une ACP avec SPAD 7. On effectuera les interprétations nécessaires.
Cliquez pour accéder
aux Corrigés
STA101 - Séquence 0 - Titre 25/25