Cours AD-2024-a
Cours AD-2024-a
Brahim Ouhbi
ENSAM-Meknès
[email protected]
AD: quelques indicateurs
◼ Dans son rapport de 2018 sur l’avenir du travail, le Forum Economique
Mondiale prédisait déjà l’obsolescence de 75 millions d’emplois.
2
Data Analysis:
Les entreprises ne peuvent plus se permettre de négliger la DATA ou de
renoncer aux opportunités commerciales offertes par les nouveaux outils
business intelligence .
3
Intelligence des données: de la donnée à l’intelligence
Brahim Ouhbi
ENSAM-Meknès
[email protected]
Plan
➢ Introduction à l’analyse des données
➢ Analyse univariée
➢ Analyse bivariée
➢ Test du χ2
➢ Analyse de la variance
➢ Analyse multivariée
➢ Analyses factorielles
➢ Analyse en composantes principales (ACP)
➢ Analyse factorielle des correspondances (AFC)
5
L’analyse des données(AD)
L’analyse des données peut se définir comme l’ensemble des méthodes
permettant une étude approfondie d’informations quantitatives ou
qualitatives.
➢ Nettoyer les données afin de s’assurer qu’il n’y ait pas d’erreur ou de
duplicata ;
➢ Analyser les données pour en tirer des recommandations
opérationnelles.
6
Description bidimensionnelle
Exemple des Moucherons
➢Données :
7
Graphe de dispersion (scatter plot)
0 1.38 1.64
0 1.40 1.70
0 1.24 1.72
0 1.36 1.74
0 1.38 1.82
0 1.48 1.82
0 1.54 1.82
0 1.38 1.90
0 1.56 2.08
1 1.14 1.78
1 1.20 1.86
1 1.18 1.96
1 1.30 1.96
1 1.26 2.00
1 1.28 2.00
Comment distinguer les 2 groupes ?
8
Exemple des Moucherons
9
Exemple des Moucherons (suite)
❖Variable intéressante :
d=aile-antenne
r = aile/antenne
❖Nécessité de la Statistique :
❖Vecteur aléatoire : (aile, antenne)
❖Loi jointe, lois marginales, lois conditionnelles, ...
10
Exemple : prédire si un emprunteur «bon » ou « mauvais » payeur.
✓acceptation sans condition,
✓prise de garantie,
✓refus.
Historique : Un certain nombre de prêts attribués :
➢la qualité du payeur est une variable qualitative Y : deux modalités (« bon »
ou « mauvais »).
Il s’agit de trouver une fonction f(X1, …, Xp) permettant de prédire Y.
11
La démarche A.D.
Principes de la statistique exploratoire :
12
Objectifs de l’analyse des données
13
Les données
14
I- Analyse univariée : étude de plusieurs variables mais
une à une
math scie fran Arab d-m
Aicha 6 6 5 5.5 18
Ali 18 18 19 17 15
Ayman 14 14 12 12.5 10
Bouchra 14.5 14.5 16 15 8
Fatima 6 12 ? 9.5 11
Kawtar 12 12 6 7 13
Mohamed 5.5 7 14 11.5 10
Omar 13 12.5 8 9.5 12
Youssef 9 11 12 12 16
Echantillon de taille n = 9
15
Statistiques associées à une variable
❖ Tendance centrale
❖ Le mode est la valeur :
16
Diagramme en boîte
Exemple
17
II- Analyse bivariée: Covariance empirique
La série statistique est alors une suite de n couples des valeurs prises par
les deux variables sur chaque individu :
(x1,y1),...,(xi,yi),...,(xn,yn).
18
➢Analyse multivariée : étude de plusieurs variables au
même temps
math scie fran Arab d-m
Aicha 6 6 5 5.5 18
Ali 18 18 19 17 15
Ayman 14 14 12 12.5 10
Bouchra 14.5 14.5 16 15 8
Fatima 6 12 ? 9.5 11
Kawtar 12 12 6 7 13
Mohamed 5.5 7 14 11.5 10
Omar 13 12.5 8 9.5 12
Youssef 9 11 12 12 16
Echantillon de taille n = 9
19
– Les deux variables sont quantitatives.
20
– Les deux variables sont quantitatives.
Covariance empirique:
21
Exemple de Corrélation (suite)
22
Régression linéaire simple
Pour explorer des données quantitatives, on a souvent recours à la représentation
graphique, la corrélation et la régression linéaire .
(X i X )(Yi Y )
R i 1
n n
( X X ) (Y Y )
i 1
i
2
i 1
i
2
23
Méthodologie de résolution du problème de la régression
linéaire
✓Choisir le modèle Yi X i i
Où les εi sont des variables aléatoires indépendantes d’espérance nulle.
n
SYY (Y
i 1
i Y )2
24
✓Vérifier qu’il y a bien une relation entre les deux variables, on peut établir une
décomposition de la dispersion comme pour l’analyse de la variance :
n n n
i 1
ˆ 2
i 1
SYY
Une valeur proche de 1 indiquera que la dispersion due aux résidus est faible et que
la régression est donc correcte
25
Exercice
Considérons un échantillon de 10 fonctionnaires (ayant entre 40 et 50 ans) d’une
entreprise. Soit X le nombre d’années de service et Y le nombre de jours
d’absence pour raison de maladie (au cours de l’année précédente) déterminé
pour chaque personne appartenant à cet échantillon.
26
Deux variables qualitatives
Si les deux variables X et Y sont qualitatives, alors les données observées sont
une suite de couples de variables
(x1,y1),...,(xi,yj),...,(xn,yn),
chacune des deux variables prend comme valeurs des modalités qualitatives.
x1,...,xj,...,xr
et
y1,...,yk,...,ys.
27
Exemple Introductif
Demande de crédit
29
◼ Le test non-paramétrique initiale est transformé en un test
paramétrique :
H 0 : les paramétres sont les p i
H 1 : les paramétres ne sont pas les p i
Considérons la fonction pivotale suivante
K ( N k np k ) 2
D2 ~~ K2 1
k 1 np k
▪ La région critique sera de la forme : D2 > A : α=P(D2 >A/H0)
K ( N k np k ) 2
La région critique est : D2 K2 1,1
k 1 np k
30
Remarques:
✓Il s’agit d’une approximation asymptotique. En pratique, il faut
que les effectifs théoriques npk soit ≥ 5.
✓Ce test est applicable aussi bien pour une variable aléatoire
discrète que continue.
✓Si certains paramètres de la loi de H0 ne sont pas connus, il est
possible de les remplacer par leurs estimateurs, mais alors
K ( N k npk ) 2
D
2
~~ K 1r
2
k 1 npk
31
Application aux tables de contingence
➢On considère deux v.a. X et Y ne pouvant prendre respectivement que r et s valeurs.
➢La donnée d’un échantillon (X1,Y1),….,(Xn,Yn) permet de construire une table de
contingence (nij) i =1,…,r et j =1,…,s où
nij est le nombre de fois où la modalité i a été prise simultanément avec la modalité j.
s r
ni . nij et n. j nij
j 1 i 1
H 0 : X et Y sont indépendantes
H 1 : X et Y ne sont pas indépendantes
32
Application aux tables de contingence
1 j s
33
Si on note
pij P ( X i, Y j),
p i. P ( X i )
p. j P (Y j )
Sous l’hypothèse H0, on a
pij = pi.p.j
On peut utiliser le test χ2
ni . n. j
(nij )2
D 2 n ~~ (2r 1)( s 1)
i j ni . n. j
n
34
Application
Demande de crédit
36
CHIR algorithm:
Paramètres
❖ Nous avons choisi comme mot clé initial « cancer » pour le
domaine du cancer
❖ Le programme est exécuté sur une collection de 52 758
documents indexés, comprenant 26 sites web extraits de ce
domaine.
❖ Pour chaque requête les q=11 premiers termes ont été choisi
❖ Le nombre de mots d’apprentissage utilisé, est 60 milles pour
la deuxième approche.
08/01/2025 39
Ontologie du cancer éditée avec « Protégé 4.1 »
08/01/2025 40
41
ANOVA : ANALYSIS OF VARIANCE
➢ L’analyse de la variance est l’étude de l’effet de variables qualitatives sur une
variable quantitative.
➢ Les variables qualitatives sont appelées facteurs et leurs modalités niveaux. En
pratique :
➢ 1 facteur avec k ( 3 et plus ) modalités
Exemple:
✓ On se demande dans quelle mesure le revenu observé (variable quantitative)
42
Principe du raisonnement ANOVA
On dispose de K échantillons de taille n1 ,…, nK correspondant à chacun des
niveaux d’un facteur A. On notera N= n1+…+nK la taille totale de l’échantillon.
X ki k ki
1
nk k : effet moyen
n k
k k : effet du niveau k
ki : aléa ~ N (0, 2 )
Plus les différences entre les moyennes dans l’échantillon sont importantes, plus
il est difficile d’admettre que ces différences résultent simplement du hasard
(bruit blanc) et plus on est porté à admettre qu’il existe des différences entre les
moyennes de populations (correspondant aux différents niveaux d’instruction).
43
Formule de l’analyse de la variance
Nous avons :
(X
i
i
k X ) ( X X k ) nk ( X X k )
2
i
i
k
2 2
( X
k i
i
k X ) ( X X k ) nk ( X X k )
2
k i
i
k
2
k
2
44
Moyenne des dispersions
L’ordre de grandeur de SSB et SSW est affecté par le nombre de groupes (K) et la
taille de l’échantillon, c’est pour cette raison que nous définissons:
SST
Variance totale : MST
N 1
SSW
Variance intra - modalité : MSW
N K
SSB
Variance inter - modalités : MSB
K 1
MSB
On en déduit que ~ FK 1, N K ,
MSW
n
k k
2
Brahim Ouhbi
ENSAM-Meknès
[email protected]
Rappel d’algèbre linéaire
47
Définition:
Une matrice carrée A d’ordre n est diagonalisable si elle est semblable à une
matrice diagonale Λ = diag(λ1, · · · , λn) i.e. qu’il existe une matrice inversible S
telle que
48
Exemple fondamental
◼ Soient u et v de Rn muni du produit scalaire usuel, tels que
⟨u, v⟩ = vT u = 1
Considérons la matrice nxn, P = uvT .
Cette matrice jouit des propriétés suivantes :
P2 =uvTuvT =uvT =P
si x ∈ Imu , c’est à dire si x = αu, Px = uvT (αu) = αuvT u = αu = x
Mais si x est orthogonal à v, alors Px = uvT x = u(vT x) = 0
49
Cas particulier
◼ Si on choisit v = u et ||u||2 = 1, le projecteur orthogonal
s’écrit P = uuT .
◼ De façon plus générale, soit F un espace vectorielle de base
{u1,··· ,ur} orthonormée de F. Soit U = [u1,··· ,ur] alors UTU = Ir.
◼ La matrice
50
Exercices
Exercice 1
❖ Calculer la matrice de projection Q sur le sous espace de R4
engendré par les vecteurs (1, 1, 0, 2) et (−1, 0, 0, 1).
❖ Donner la projection de x = (0, 2, 5, −1) sur le sous espace.
Exercice 2
Calculer la projection de v = (1, 1, 0) sur le plan x + y − z = 0.
51
Techniques d’analyse des données
On peut classer les techniques d'analyse des données
suivant deux points de vue :
53
Les Nuages de points
54
Les analyses factorielles
55
La question ?
◼ Tenant compte des ressemblances des individus et des
liaisons entre variables, est-il possible de résumer toutes
les données par un nombre restreint de valeurs sans perte
d'information importante ?
◼ Réduire le nombre de variables décrivant les données
implique que la quantité d'information ne peut être que
réduite, au mieux maintenu.
◼ La motivation vient du fait que des valeurs peu
nombreuses sont plus faciles à représenter
géométriquement et graphiquement (un des objectifs de
l'analyse de données)
56
Principe général
57
Exemple
◼ Considérons l'ensemble des notes des élèves de
l’ENSAM durant une année. Le nombre d’élèves est
environ de 2000, et nous pouvons considérer qu'ils
obtiennent environ 30 notes chacun.
◼ Le tableau représentant l'ensemble des notes est
constitué de 60000 valeurs.
◼ La réduction présentée ci-dessus permet de réduire ce
nombre à 2030 valeurs sans perte d'information si
l'hypothèse est valide.
◼ Ceci signifie que les notes sont dépendantes les unes
des autres ou encore très fortement corrélées.
58
Résolution ?
59
Le nuage de points associé aux données
XK
xi *g
X2
0
X1
g
x1 ... xp g X1
1 n 2
Inertie totale = I(N, g) = d ( x i , g )
n i 1
61
Inertie totale du nuage de points
Résultats:
p 2
" a Î Â I a = I g + d (a, g)
Si
^
E=F Å F
alors
I = IF + IF ^
62
Ajustement du nuage des individus dans l’espace
des variables
◼ Droite d’ajustement:
❑ Proposition 1
Maximiser la dispersion le long de la droite d 1 revient à minimiser les distances
des points du nuage NI à la droite d1, c'est-à-dire que la droite d1 passe au
plus près de tous les points du nuage NI.
å =
Oi 2
å i+
OH 2
å i
iH 2
63
Ajustement du nuage des individus dans l’espace
des variables
◼ Droite d’ajustement:
❑ Proposition 2
Maximiser la dispersion le long de la droite d1
revient à maximiser ut1XtXu1, avec u1 le
vecteur unitaire de d1.
En fait: å OH i
2 t t t
= (Xu1 ) (Xu1 ) = u X Xu1
1
iÎI
✓ D’où:
å i
OH 2
= (Xu t
1 (Xu1 )
)
iÎI
65
Ajustement du nuage des individus dans l’espace
des variables
◼ Plan d’ajustement
Le sous espace a deux dimensions est donc
caractérisé par l’axe d1 et l’axe d2 défini
par le vecteur u2 orthogonal à u1 vérifiant:
t t
2u X Xu
2
est maximal
t
u u =1
2 2 (contrainte de normalité)
t
uu =0
2 1 (contrainte d’orthogonalité)
66
Exercice
67
Sous-espace d'ajustement
◼ Proposition3
Une base orthonormée du sous-espace vectoriel de
dimension S, s'ajustant au mieux au sens des moindres
carrés, au nuage NI dans IRK est constituée par les S
vecteurs propres (u1, u2,…,uS) correspondant aux S plus
grandes valeurs propres (λ1,λ2,λ3,…,λs) de la matrice
XtX.
68
En effet : ∂a j
..
ta
∂
Σ a . t aΣ ∂a
∂ a1 ∂a1
Idée de la démonstration:
∂ g(a)
.. ..
. pour une matrice Σ:symétrique
t
. ∂ ap
∂( aΣ a) ∂ ta
On peut mont rer que : = ∂aj
Σ a + aΣ ∂∂aaj t
.
∂a ∂( t ..aΣ a) ..
. = 2Σ .a.
t ∂a t ∂a
∂ a
Σ a aΣ ∂ ap
En effet : ∂ap
∂ ta t ∂a
On peut remarquer que dans cette dernière expression, ∂ a1
Σ
a leséléments
aΣ ∂des a1 deux vecteurs sont
.. ..
égaux ligne à ligne, puisquetchacun est la transposée. de l’autre et .qu’ils sont de dimension
∂( aΣ a) t
1 × 1. Il en résulte que : = ∂ a
∂ aj
Σ a + t
aΣ ∂∂aaj .
∂a ∂( t aΣ a) t
.∂ a ..
= 2.. Σ a, .
∂a ∂ t a Σ∂aa t
aΣ ∂a
∂ ap ∂ ap
et la dérivée de t a par rapport à a est égale à :
On peut
De plusremarquer que dans cet t e dernière expression, les élément s des deux vect eurs
égaux ligne à ligne, puisque chacun
∂ ta est 1la t0ransposée
··· ··· de0 l’aut re et qu’ils sont de dimen
∂a1
1 × 1. Il en résult e que : .. .. .. t ..
t
. ∂( t 0
aΣ a) . .
∂ a .
∂ a = 2 Σ a,
= ∂∂ aja = ∂a... . . . 1 ∂a. . . ... = I p
t
t t
v XX vS
S est maximal
t
v v =1
s s (contrainte de normalité)
t
vv =0
S S (Contrainte d’orthogonalité)
70
Récapitulation: Relation entre les axes d’inertie et les
facteurs des deux nuages
l d = uSt X t XuS
S
L’inertie le long de l’axe ds
GS = X t vS Le facteur d’ordre S de NK
71
Relation entre les axes d’inertie et les facteurs
des deux nuages
Proposition
L’inertie le long de l’axe ds est égal à l’inertie le long de l’axe Ds et nous
avons:
FS
Fs est le vecteur issu de la projection du nuage NI vS =
sur le sème axe dans RK
lS
GS
Gs est le vecteur issu de la projection du nuage uS =
NK sur le sème axe dans RI
lS
72
Idée de la démonstration
73
Formule de transition entre les facteurs
74
Reconstruction des données
Nous avons
D’où
Ainsi
75
Qualité de la représentation
76
Analyse en Composantes
Principales (ACP)
Brahim Ouhbi
ENSAM-
Meknès
ouhbib@yaho
o.co.uk
✓ ACP est une des premières analyses factorielles et l’une des plus
employées aujourd’hui suite au développement de l’informatique
décisionnelle.
78
Objectifs de l’ACP:
➢ Etudier les interrelations entre un assez grand nombre de
variables ;
➢ à partir de cette étude, regrouper ces variables dans des
groupes limités : facteurs ou composantes ;
➢ établir une hiérarchie entre ces groupes basée essentiellement
sur la valeur explicative de chacun d’eux (possibilité d’une
hiérarchie des variables dans chacune des composantes).
➢ Type de relation :
➢ Les relations des variables entre elles (Visualiser les corrélations entre les
variables).
➢ Les relations des variables aux facteurs ;
➢ Les relations entre les variables d’un même facteur ;
➢ Les relations entre les différents facteurs.
79
Principes de l’ACP
Définition1:
Deux individus se ressemblent, ou sont proches, s’ils possèdent des
valeurs proches pour l’ensemble des variables.
2
d (i, j ) =
2
å (x ik - x jk )
kÎK
Définition 2:
Deux variables sont liées si elles ont un fort coefficient de corrélation
linéaires
n
cov(Xk , Xh ) 1 xik - xk xih - xh
r ( k, h) = =
var(Xh )var(Xk ) n
å ( s )( s )
i -1 k h
80
entre géomét rie euclidienne et statistiques empiriques. Les statistiques élémentaires em
Relation entre géométrie et Statistique
riques calculées sur n unités ont chacune leur correspondant géométrique dans un rep
donné. Pour un ensemble quelconque de variables x 1, x 2, . . . , x m :
– Variance et carré de la norme :
n
nVar(x l ) = (x i l − x .l ) 2 = −→l
ox 2
i= 1
81
Visualisation des données
Y2(i) i
*
X1 … Xp Y1 Y2 0 Y1(i)
1
Le premier plan principal
i x1i … xpi y1i y2i …
Cor(Xj,Y2) Xj
n
0 Cor(Xj,Y1)
Le tableau Les composantes
des données principales
Yh pj1 u hjX j Le carte des variables
(non corrélées entre elles)
82
Les principales étapes de l’ACP
83
Le nuage de points associé aux données
Xp
X1 … Xp
1
*g
i x1i … xpi xi
X2
0
n
X1
x1 ... xp g
x1 ... xp g X1
1 n 2
Inertie totale = I(N, g) = d ( x i , g )
n i 1
1 n p p
1 n p
( x ji x j ) 2 ( x ji x j ) 2 2j
n i 1 j 1 j 1 n i 1 j 1
85
Réduction des données
X 1 x1
X
*
1
1
M
X p xp
X *p
p
de moyenne 0 et d’écart-type 1.
86
Le nuage de points associé aux données réduites
X1* … Xp*
1
Xp*
i x1i* … xpi*
Xi* *0
X2*
n
0 … 0 Moyenne X1*
1 … 1 Variance
87
Premier axe principal 1 1
xi* u1
Xp*
*
Hi
*0
X2*
X1*
Objectif 1 : On cherche l’axe 1 passant le mieux possible au milieu du
nuage N*.
On cherche à minimiser l’inertie du nuage N* par rapport à l’axe 1 :
n
1
I(N *, D1 ) =
n i=1
d 2
(x *
i , Hi )
88
Premier axe principal 1
1
xi*
Xp*
Hi
*0
X2*
X1*
Objectif 2 : On cherche l’axe d’allongement 1 du nuage N*.
On cherche à maximiser l’inertie du nuage N* projeté sur l’axe 1 :
n
1
I( { H1,..., H n } , 0) =
n
å (Hi, 0)
d 2
i=1
89
Les objectifs 1 et 2 sont atteints simultanément
Xp* xi*
1
Hi
*
0
X2*
X1*
n
å i , Hi )
d 2
(x *
X1*
p p
u1 j x *ji Y1 = u1 jX*j
j1 j1
92
Propriétés de la première composante principale Y1
◼ Moyenne de Y1 = 0
1 p 1
cor (X j , Y1 )
2
est maximum
p j1 p
93
entre géomét rie euclidienne et statistiques empiriques. Les statistiques élémentaires em
Relation entre géométrie et Statistique
riques calculées sur n unités ont chacune leur correspondant géométrique dans un rep
donné. Pour un ensemble quelconque de variables x 1, x 2, . . . , x m :
– Variance et carré de la norme :
n
nVar(x l ) = (x i l − x .l ) 2 = −→l
ox 2
i= 1
94
Deuxième axe principal 2
2
xi*
Y2(i)
ai
0 Y (i)
1 1
95
Résultats
◼ On recherche le deuxième axe principal 2
orthogonal à 1 et passant le mieux possible au
milieu du nuage.
◼ Il passe par le centre de gravité 0 du nuage de points
et est engendré par le vecteur normé u 2, vecteur
propre de la matrice des corrélations R associé à la
deuxième plus grande valeur propre 2.
◼ La deuxième composante principale Y2 est définie
par projection des points sur le deuxième axe
principal.
◼ La deuxième composante principale Y2 est centrée,
de variance 2, et non corrélée à la première
composante principale Y1.
96
Cercle des corrélations
97
Aide à l’interprétation
98
riables toutes quantitatives Variables « actives » quantitatives
c.-à-d. seront utilisées pour la
Analyse d’un tableau: construction
Les données « autos » des facteurs
(Saporta, 2006 ; page 428)
Questions :
(1) Quelles sont les véhicules qui se ressemblent ? (proximité entre les individus) (2)
Sur quelles variables sont fondées les ressemblances / dissemblances ?
cules(3)qui se ressemblent
Quelles ? (proximité
sont les relations entre les variables ? entre les individus)
sont fondées les ressemblances / dissemblances
99
ions entre les variables
Le cercle des corrélations
100
Qualité globale de l’analyse
Inertie totale = variance totale = p
101
Le biplot
N.B. Les échelles doivent être identiques sur les deux axes.
102
Analyse Factorielle des
Correspondances
Séance 5
Brahim Ouhbi
ENSAM-Meknès
[email protected]
Analyse Factorielle des Correspondances (AFC)
✓ AFC est aussi appelé analyse des correspondances binaires en relation
avec l’analyse des correspondances multiples.
✓ AFC peut être vu comme une analyse ACP avec une métrique chi-deux χ2
104
Les données:
➢ A la différence de l’ACP, les données AFC doivent être
organisées en tableaux de contingence (appelés aussi tableau de
dépendance ou tableau croisé).
Exp. agri. 80 99 65 58
105
Exemple
◼ Quelle est la structure des filières choisies selon la CSP ? On parle alors de
profil ligne.
◼ Même étude mais sous l’angle des profils colonnes: les compositions des
filières sont-elles différentes en termes de CSP ?
106
Si on note
pij P ( X i, Y j),
p i. P ( X i )
p. j P (Y j )
Sous l’hypothèse H0, on a
pij = pi.p.j
On peut utiliser le test χ2
ni . n. j
(nij )2
D 2 n ~~ (2r 1)( s 1)
i j ni . n. j
n
107
Objectifs de l’AFC:
◆ L’AFC vise à analyser ce type de tableaux en apportant des réponses à
des questions telles que :
◆ Y a-t-il des lignes du tableau (modalités de X) qui se "ressemblent",
108
Exemple 1: Ponctuation dans l’oeuvre de Zola (exemple emprunté M. Tenenhaus)
- L’étude de la ponctuation ou de la
présence de certains mots dans des
textes est utilisée pour reconnaitre
l’auteur d’un document (article, roman,
nouvelle, etc. ). Les données se
présentent selon le tableau
- AFC pour faire le graphique sur
lequel on projette simultanément les
modalités des deux variables (Titre du
roman et Ponctuation)
109
Exemple 2: Couleur des cheveux et des yeux (l’exemple
proposé par Cohen en 1980 )
110
Modèle d’indépendance
111
Pourquoi utiliser cette métrique plutôt que la métrique
euclidienne
◼ Plus la distance d2χ2(N,E) est grande, plus le tableau observé est
éloigné du tableau attendu sous l’hypothèse d’indépendance.
112
◼ Sous l’hypothèse d’indépendance des deux variables, la statistique
d2χ2 suit une loi du χ2 à (p − 1)(q − 1) degrés de liberté. Cette loi sert,
par exemple, à définir une règle de décision du type : On conclut
que les variables sont indépendantes avec un risque α de se
tromper si d2χ2(N,E) < F−1 (1−alpha) avec F la fonction de répartition
de la loi du χ2 à (p−1)(q−1) degrés de liberté.
113
◼ L’analyse d’un tableau de contingence se fait en référence à la
situation d’indépendance. C’est ce que fait l’AFC en écrivant le
modèle d’indépendance sous la forme suivante :
De même
114
Vocabulaire
✓ L’ensemble de probabilités {fij/fi• ; j = 1,··· ,q} est appelée profil ligne.
✓ {fi• ; i= 1,··· ,p} (resp. {f•j ; j= 1,··· ,q} est le profil moyen correspondant au
profil ligne (resp. colonne).
Remarque
✓ Si on a indépendance, le profil ligne d’une part et colonne d’autre part est
égal au profil moyen correspondant.
✓ Avec la métrique du χ2, la distance entre deux lignes ne dépend pas des
poids respectifs des colonnes. Ceci a pour conséquence, dans l’exemple,
des étudiants de première année que les catégories socio-professionnelles
sur-représentées ne prennent pas plus de poids que les autres dans le
calcul de la distance.
115
Exemple 2: Couleur des cheveux et des yeux (l’exemple
proposé par Cohen en 1980 )
116
(AFC) - Don
Profils colonnes
117
ond Total
• Tableau croisant deux variables nom
Brun Châtain Roux Blond Profil moyen
Transformations des données brutes
118
Relation inertie et statistique X2
◼ On utilise donc ici la métrique du χ2 dans laquelle les inverses des
fréquences marginales des modalités de Y sont introduites comme
pondérations des écarts entre éléments de deux profils relatifs à X.
119
Relation inertie et statistique X2
120
Interprétation en termes d’inertie
121
Interprétation en termes de val. propres
122
Reconstruction de l’AFC
123
La qualité de la représentation
La qualité de représentation d’une ligne par un axe :
124
Interprétation
125
Interprétation
126
Exercice 1 ACP
127
Exercice 1 (ACP)
Soit la matrice X=(X1, X2, X3) don’t les variables ont pour matrice de
correlation
1. 𝑟. −𝑟
𝜌= 𝑟. 1. 𝑟 , -1 ≤ 𝑟 ≤ 1
−𝑟 𝑟. 1
1
1) Vérifier que −1 est un vecteur propre de 𝜌.
1
2) Expliquer pourquoi doit-on avoir -1 < 𝑟 < 1/2.
3) En déduire les autres vecteurs propres et valeurs propres de 𝜌.
4) Justifier le fait que l’ACP n’a pas d’intérêt que si -1 < 𝑟 < 0
5) Calculer le pourcentage de variance expliquée dans ce cas.
6) Interpréter X1, X2 et X3 par rapport aux composantes retenues
128
Exercice 3(AFC)
129
Test du khi-2 sur un tableau de contingence
Exp. agri. 80 99 65 58
Effectifs observés O
Patron 168 137 208 62
Cadre sup. 470 400 876 79
Employé 145 133 135 54
Ouvrier 166 193 127 129
130
Construction de la statistique de test
131
Contributions au khi-2
82,12
Calcul du khi-2
Obs
2
Ctrij 0,05 ... 72,12 320,2
i, j
132
Loi du khi-2
y=ch i2 (x;1 2 )
0 ,1 0
0 ,0 8
0 ,0 6
0 ,0 4
95% 5%
0 ,0 2
0 ,0 0
0 5 10 15 20 25 30
135
Effectifs théoriques dans le cas d'indépendance
136
Droit Sciences Médecine IUT
Exp. agri. 80 99 65 58
Patron 168 137 208 62 Effectifs observés O
Cadre sup. 470 400 876 79
Employé 145 133 135 54
Ouvrier 166 193 127 129
138
Notations :
139
Distance (du Phi-2) entre deux profils lignes :
2
q
n nij ni ' j
dii '
2
j 1 n j ni ni '
Exemple :
2 2 2 2
3784 80 168 3784 99 137 3784 65 208 3784 58 62
d
2
12
1029 302 575 962 302 575 1411 302 575 382 302 575
140
Distance (du Phi-2) entre deux profils colonnes :
2
p
n nij nij '
d jj '
2
i 1 ni n j n j '
2 2 2 2 2
3784 80 99 3784 168 137 3784 470 400 3784 145 133 3784 166 193
d
2
12
302 1029 962 575 1029 962 1825 1029 962 467 1029 962 615 1029 962
141
Propriété d'équivalence distributionnelle :
142
Principaux résultats d’une AFC
Coordonnées
Modalités factorielles des
(individus) lignes
lignes
p p
q
k
k Valeurs propres
2
2
Valeurs Propres GM i2
N
144
Exercice 2 (ACP) Math Physique Arabe Anglais
Ali 6 6 5 5,5
Aicha 8 8 8 8
Fatima 6 7 11 9,5
Bouchra 14,5 14,5 15,5 15
Mohamed 14 14 12 12,5
Kamal 11 10 5,5 7
Kaoutar 5,5 7 14 11,5
Zaid 13 12,5 8,5 9,5
Adam 9 9,5 12,5 12
145
Exercice 4 ACP
On a rassemblé les résultats de 15
enfants de 10 ans à 6 subtests du WISC
(scores 0 à 5).
Les variables observées sont :
CUB (Cubes de Kohs),
PUZ (Assemblage d'objets),
CAL (Calcul mental),
MEM (Mémoire immédiate des chiffres),
COM (Compréhension de phrases),
VOC (Vocabulaire).
Le protocole observé est le suivant :
146
Travail Demandé
1. Donner la matrice centrée et réduite associée
2. En déduire la matrice de corrélation associée;
3. Donner les valeurs propres associées
4. Déterminer les composantes principales;
5. Déterminer les corrélations entre les variables et les
compoosantes;
6. Représenter les variables sur le cercle de corrélations
7. Interpréter les résulats.
147