0% ont trouvé ce document utile (0 vote)
65 vues147 pages

Cours AD-2024-a

Le document traite de l'importance croissante de l'analyse des données dans les entreprises, soulignant que 72 % d'entre elles ont récemment recruté pour des postes d'analyse de données. Il décrit les étapes de l'analyse des données, y compris la collecte, l'organisation, le nettoyage et l'analyse, ainsi que les méthodes statistiques utilisées pour extraire des informations pertinentes. Enfin, il aborde des techniques spécifiques telles que l'analyse univariée, bivariée et multivariée, ainsi que des exemples pratiques pour illustrer ces concepts.

Transféré par

aymannaaimi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
65 vues147 pages

Cours AD-2024-a

Le document traite de l'importance croissante de l'analyse des données dans les entreprises, soulignant que 72 % d'entre elles ont récemment recruté pour des postes d'analyse de données. Il décrit les étapes de l'analyse des données, y compris la collecte, l'organisation, le nettoyage et l'analyse, ainsi que les méthodes statistiques utilisées pour extraire des informations pertinentes. Enfin, il aborde des techniques spécifiques telles que l'analyse univariée, bivariée et multivariée, ainsi que des exemples pratiques pour illustrer ces concepts.

Transféré par

aymannaaimi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Intelligence des données: de la donnée à l’intelligence

Analyse des Données (AD)


Comment trouver un pur diamant dans un tas de charbon sans se salir les
mains ?

Brahim Ouhbi
ENSAM-Meknès
[email protected]
AD: quelques indicateurs
◼ Dans son rapport de 2018 sur l’avenir du travail, le Forum Economique
Mondiale prédisait déjà l’obsolescence de 75 millions d’emplois.

◼ Environ 72 % des entreprises ont embauché de nouveaux talents à des


postes d’analyse de données au cours des 12 derniers mois. Parmi celles-
ci, 78 % ont déclaré avoir des difficultés à recruter pour ces postes.

2
Data Analysis:
Les entreprises ne peuvent plus se permettre de négliger la DATA ou de
renoncer aux opportunités commerciales offertes par les nouveaux outils
business intelligence .

◼Les Analytics sont devenus les fondements des stratégies commerciales,


mais aussi du management des entreprises.

◼La collecte et l’analyse de données permettent aux organisations de:


❑ mieux comprendre leurs clients,
❑ de créer des produits qui répondent réellement à leurs attentes,
❑ outils ultra efficaces pour réduire ses coûts,
❑ optimiser son recrutement,
❑ piloter ses projets.

3
Intelligence des données: de la donnée à l’intelligence

Analyse des Données (AD)


Introduction
Séance 1

Brahim Ouhbi
ENSAM-Meknès
[email protected]
Plan
➢ Introduction à l’analyse des données
➢ Analyse univariée
➢ Analyse bivariée
➢ Test du χ2
➢ Analyse de la variance
➢ Analyse multivariée
➢ Analyses factorielles
➢ Analyse en composantes principales (ACP)
➢ Analyse factorielle des correspondances (AFC)

5
L’analyse des données(AD)
L’analyse des données peut se définir comme l’ensemble des méthodes
permettant une étude approfondie d’informations quantitatives ou
qualitatives.

Les étapes d’une AD :


➢ Se fixer des exigences en collecte et groupement de données

➢ Collecter la data, via une variété de sources différentes ;

➢ Organiser les données afin de faciliter leur analyse;

➢ Nettoyer les données afin de s’assurer qu’il n’y ait pas d’erreur ou de
duplicata ;
➢ Analyser les données pour en tirer des recommandations
opérationnelles.

Elle regroupe un ensemble de méthodes permettant principalement de


d’écrire un jeu de données multidimensionnelles.

6
Description bidimensionnelle
Exemple des Moucherons

➢Découverte de 2 espèces de moucheron (1981)

➢Difficile de les distinguer

➢On cherche à le faire avec des caractéristiques externes simples

➢Données :

➢9 moucherons Af et 6 moucherons Apf

➢Longueurs de l’aile et de l’antenne en mm

7
Graphe de dispersion (scatter plot)
0 1.38 1.64
0 1.40 1.70
0 1.24 1.72
0 1.36 1.74
0 1.38 1.82
0 1.48 1.82
0 1.54 1.82
0 1.38 1.90
0 1.56 2.08
1 1.14 1.78
1 1.20 1.86
1 1.18 1.96
1 1.30 1.96
1 1.26 2.00
1 1.28 2.00
Comment distinguer les 2 groupes ?

8
Exemple des Moucherons

Aucune des 2 variables ne peut faire le travail seul

9
Exemple des Moucherons (suite)

❖Variable intéressante :
d=aile-antenne
r = aile/antenne

❖Intérêt du graphe de dispersion (scatter plot)

❖Mais que faire si on a plus de 2 variables ?

❖Problème de discrimination et ensemble d’apprentissage

❖Validité des résultats sur la population totale ?

❖Nécessité de la Statistique :
❖Vecteur aléatoire : (aile, antenne)
❖Loi jointe, lois marginales, lois conditionnelles, ...

10
Exemple : prédire si un emprunteur «bon » ou « mauvais » payeur.
✓acceptation sans condition,
✓prise de garantie,
✓refus.
Historique : Un certain nombre de prêts attribués :

Les données du dépôt du dossier de prêt : les variables X = (X1, …, Xp)

➢Pour des particuliers: l’âge, la profession , le statut matrimonial, le fait d'être


ou non propriétaire, majoritairement des variables qualitatives.

➢Pour des entreprises : variables numériques comme des ratios issus de la


comptabilité.

➢la qualité du payeur est une variable qualitative Y : deux modalités (« bon »
ou « mauvais »).
Il s’agit de trouver une fonction f(X1, …, Xp) permettant de prédire Y.

11
La démarche A.D.
Principes de la statistique exploratoire :

◆ Le modèle doit suivre les données et non l’inverse ?

◆ Que faire dans l’analyse des faits complexes (réseaux sociaux,


RCM,…) ?

◆ Comment traiter simultanément des informations concernant le plus


grand nombre possible de dimensions ?

◆ Apport de l’informatique et le contexte de la société de


l’information?

12
Objectifs de l’analyse des données

✓ Vérification de la cohérence de données (recherche


des valeurs manquantes, identification des valeurs
atypiques : valeurs aberrantes,…)
✓ Sélection des variables et choix des unités de
mesure,
✓ Visualisation des données,
✓ Recherches des relations existantes entre les
individus ou entre les variables
✓ Représentation synthétique des données

13
Les données

Variable 1 variable j variable p

Individu 1 x11 x1j x1p

Individu i xi1 xij xip

Individu n xn1 xnj xnp

14
I- Analyse univariée : étude de plusieurs variables mais
une à une
math scie fran Arab d-m
Aicha 6 6 5 5.5 18
Ali 18 18 19 17 15
Ayman 14 14 12 12.5 10
Bouchra 14.5 14.5 16 15 8
Fatima 6 12 ? 9.5 11
Kawtar 12 12 6 7 13
Mohamed 5.5 7 14 11.5 10
Omar 13 12.5 8 9.5 12
Youssef 9 11 12 12 16

Vecteur aléatoire de dimension p = 5 :(math, scie, français, arabe, d-m)

Echantillon de taille n = 9
15
Statistiques associées à une variable

❖ Tendance centrale
❖ Le mode est la valeur :

❖ La médiane est la valeur :

❖ La moyenne empirique de l’échantillon est :

❖ La variance empirique de la population est :

16
Diagramme en boîte

Un diagramme en boîte —appelé aussi boîte


à moustaches— met en évidence cinq des
paramètres d'une série statistique :
le minimum, le premier quartile, la médiane,
le troisième quartile et le maximum.

Exemple

On donne la série des masses, en kg de 10 caisses d’un produit :


25, 28, 29, 29, 30, 34, 35, 35, 37, 38.

17
II- Analyse bivariée: Covariance empirique

On s’intéresse à deux variables X et Y, mesurées sur les n individus


d’observation.

La série statistique est alors une suite de n couples des valeurs prises par
les deux variables sur chaque individu :

(x1,y1),...,(xi,yi),...,(xn,yn).

Chacune des deux variables peut être: quantitative ou qualitative.

18
➢Analyse multivariée : étude de plusieurs variables au
même temps
math scie fran Arab d-m
Aicha 6 6 5 5.5 18
Ali 18 18 19 17 15
Ayman 14 14 12 12.5 10
Bouchra 14.5 14.5 16 15 8
Fatima 6 12 ? 9.5 11
Kawtar 12 12 6 7 13
Mohamed 5.5 7 14 11.5 10
Omar 13 12.5 8 9.5 12
Youssef 9 11 12 12 16

Vecteur aléatoire de dimension p = 5 :(math, scie, français, arabe, d-m)

Echantillon de taille n = 9
19
– Les deux variables sont quantitatives.

20
– Les deux variables sont quantitatives.

Covariance empirique:

Coefficient de corrélation linéaire empirique:


Le coefficient de détermination:

21
Exemple de Corrélation (suite)

22
Régression linéaire simple
Pour explorer des données quantitatives, on a souvent recours à la représentation
graphique, la corrélation et la régression linéaire .

La relation entre la variable « salaire » et la variable « niveau de scolarité », la


relation entre la variable « prime d’assurance » et la variable « âge de la voiture »,
la relation entre le taux d’intérêt et la durée de crédit,… etc.

La corrélation bi-variée simple à pour objectif de donner une réponse à la


linéarité ou non de cette relation:
n

(X i  X )(Yi  Y )
R i 1
n n

 ( X  X )  (Y  Y )
i 1
i
2

i 1
i
2

23
Méthodologie de résolution du problème de la régression
linéaire

✓Choisir le modèle Yi    X i   i
Où les εi sont des variables aléatoires indépendantes d’espérance nulle.

✓Estimer les paramètres du modèle : ˆ  Y  ˆX


ˆ S XY

S XX
n
S XY   (x
i 1
i  x )(Yi  Y )
n
S XX   i
( x
i 1
 x ) 2

n
SYY   (Y
i 1
i  Y )2

24
✓Vérifier qu’il y a bien une relation entre les deux variables, on peut établir une
décomposition de la dispersion comme pour l’analyse de la variance :
n n n

 (Yi  Y )   (Yi  Y )  (Yi  Y )


i 1
ˆ
2 2

i 1
ˆ 2

i 1

SYY : Sreg : Sres :


Dispersion totale Dispersion expliquée Dispersion résiduelle
par la regression
✓Mesure de la qualité de régression:
On mesure la qualité de la régression par le coefficient de détermination:
S reg
R 2

SYY
Une valeur proche de 1 indiquera que la dispersion due aux résidus est faible et que
la régression est donc correcte

25
Exercice
Considérons un échantillon de 10 fonctionnaires (ayant entre 40 et 50 ans) d’une
entreprise. Soit X le nombre d’années de service et Y le nombre de jours
d’absence pour raison de maladie (au cours de l’année précédente) déterminé
pour chaque personne appartenant à cet échantillon.

1. Représentez le nuage de points.


2. Calculez le coefficient de corrélation entre X et Y.
3. Déterminez l’ équation de la droite de régression de Y en fonction de X.
4. Déterminez la qualité de cet ajustement.
5. Etablissez, sur base de ce modèle, le nombre de jours d’absence pour un
fonctionnaire ayant 22 ans de service.

26
Deux variables qualitatives
Si les deux variables X et Y sont qualitatives, alors les données observées sont
une suite de couples de variables

(x1,y1),...,(xi,yj),...,(xn,yn),
chacune des deux variables prend comme valeurs des modalités qualitatives.

Les valeurs distinctes de X et Y sont notées respectivement

x1,...,xj,...,xr
et
y1,...,yk,...,ys.

27
Exemple Introductif
Demande de crédit

Oui Non Total

A vu la Oui 80 120 200


publicité
avant la Non 15 85 100
demande
Total 95 205 300

Tester l’influence de la publicité sur l’emprunt


bancaire
28
Test du χ2

◼ On définit K classes en répartissant les valeurs


possibles de Principe du test :
❑ Définir K classes en répartissant les valeurs possibles de
la v.a. en K sous-ensembles
❑ Associer ensuite à un échantillon de taille n, le vecteur
aléatoire (N1 ,N2 ,…,NK ) où Ni est le nombre de fois où
la valeur i est obtenue.
❑ Calculer pi de chacune des classes à partir de la
définition des classes et de la loi de probabilité L

29
◼ Le test non-paramétrique initiale est transformé en un test
paramétrique :

 H 0 : les paramétres sont les p i

 H 1 : les paramétres ne sont pas les p i

Considérons la fonction pivotale suivante
K ( N k  np k ) 2
D2   ~~  K2 1
k 1 np k
▪ La région critique sera de la forme : D2 > A : α=P(D2 >A/H0)

K ( N k  np k ) 2
La région critique est : D2     K2 1,1
k 1 np k

30
Remarques:
✓Il s’agit d’une approximation asymptotique. En pratique, il faut
que les effectifs théoriques npk soit ≥ 5.
✓Ce test est applicable aussi bien pour une variable aléatoire
discrète que continue.
✓Si certains paramètres de la loi de H0 ne sont pas connus, il est
possible de les remplacer par leurs estimateurs, mais alors

K ( N k  npk ) 2

D 
2
~~  K 1r
2

k 1 npk

Où r est le nombre de paramètres réels estimés

31
Application aux tables de contingence
➢On considère deux v.a. X et Y ne pouvant prendre respectivement que r et s valeurs.
➢La donnée d’un échantillon (X1,Y1),….,(Xn,Yn) permet de construire une table de
contingence (nij) i =1,…,r et j =1,…,s où

nij est le nombre de fois où la modalité i a été prise simultanément avec la modalité j.
s r

ni .   nij et n. j   nij
j 1 i 1

Pr ? On cherche à vérifier si les deux variables X et Y sont indépendantes.


 H 0 : X et Y sont indépendantes

 H 1 : X et Y ne sont pas indépendantes

32
Application aux tables de contingence
1 j s

1 n11 n1j n1s n1.

i ni1 nij nis ni.

r nr1 nrj nrs ns.

n.1 n.j n.s

33
Si on note
pij  P ( X  i, Y  j),
p i.  P ( X  i )
p. j  P (Y  j )
Sous l’hypothèse H0, on a

pij = pi.p.j
On peut utiliser le test χ2
ni . n. j
(nij  )2
D 2   n ~~  (2r 1)( s 1)
i j ni . n. j
n

34
Application
Demande de crédit

Oui Non Total

A vu la Oui 80 120 200


publicité
avant la Non 15 85 100
demande
Total 95 205 300

Tester l’influence de la publicité sur l’emprunt


bancaire
35
CHIR:

36
CHIR algorithm:

The steps of the CHIR algorithm to select


q terms are:
1. For each distinct term in the corpus,
calculate its statistic.
2. Sort the terms in descending order of
their term goodness.
3. Select the top q terms from the list.
CHIRSIM Algorithm
Exécution d’un exemple

Paramètres
❖ Nous avons choisi comme mot clé initial « cancer » pour le
domaine du cancer
❖ Le programme est exécuté sur une collection de 52 758
documents indexés, comprenant 26 sites web extraits de ce
domaine.

❖ Le niveau de profondeur dans la taxonomie a été fixé à 5

❖ Pour chaque requête les q=11 premiers termes ont été choisi
❖ Le nombre de mots d’apprentissage utilisé, est 60 milles pour
la deuxième approche.

❖ La taille de la fenêtre glissante a été fixée à Δ=4.

08/01/2025 39
Ontologie du cancer éditée avec « Protégé 4.1 »

08/01/2025 40
41
ANOVA : ANALYSIS OF VARIANCE
➢ L’analyse de la variance est l’étude de l’effet de variables qualitatives sur une
variable quantitative.
➢ Les variables qualitatives sont appelées facteurs et leurs modalités niveaux. En
pratique :
➢ 1 facteur avec k ( 3 et plus ) modalités

➢ plusieurs facteurs simultanément

Exemple:
✓ On se demande dans quelle mesure le revenu observé (variable quantitative)

est associé aux différents niveaux observés d’instruction (variable qualitative


ordinale).
✓ Peut-on généraliser la conclusion relative à une relation entre le revenu et le
niveau d’instruction ?

42
Principe du raisonnement ANOVA
On dispose de K échantillons de taille n1 ,…, nK correspondant à chacun des
niveaux d’un facteur A. On notera N= n1+…+nK la taille totale de l’échantillon.

X ki     k   ki
1
   nk  k : effet moyen
n k
 k   k   : effet du niveau k
 ki : aléa ~ N (0,  2 )

Plus les différences entre les moyennes dans l’échantillon sont importantes, plus
il est difficile d’admettre que ces différences résultent simplement du hasard
(bruit blanc) et plus on est porté à admettre qu’il existe des différences entre les
moyennes de populations (correspondant aux différents niveaux d’instruction).

43
Formule de l’analyse de la variance
Nous avons :

(X
i
i
k  X )   ( X  X k )  nk ( X  X k )
2

i
i
k
2 2

On peut en déduire que :

 ( X
k i
i
k  X )   ( X  X k )  nk ( X  X k )
2

k i
i
k
2

k
2

SST SSW SSB


Dispersion Dispersion Dispersion
totale intra-classe inter- classe

44
Moyenne des dispersions
L’ordre de grandeur de SSB et SSW est affecté par le nombre de groupes (K) et la
taille de l’échantillon, c’est pour cette raison que nous définissons:
SST
 Variance totale : MST 
N 1
SSW
 Variance intra - modalité : MSW 
N K
SSB
 Variance inter - modalités : MSB 
K 1
MSB
On en déduit que ~ FK 1, N  K ,
MSW
 n 
k k
2

Où   k 2 est le facteur de décentrage



45
Intelligence des données: de la donnée à l’intelligence

Analyse des Données (AD)


Séance 5

Brahim Ouhbi
ENSAM-Meknès
[email protected]
Rappel d’algèbre linéaire

47
Définition:
Une matrice carrée A d’ordre n est diagonalisable si elle est semblable à une
matrice diagonale Λ = diag(λ1, · · · , λn) i.e. qu’il existe une matrice inversible S
telle que

La ième colonne de S est le vecteur propre de A associé à la valeur propre λi.

Condition nécessaire et suffisante : Une condition nécessaire et


suffisante pour que A carrée d’ordre n, soit diagonalisable est que
ses n vecteurs propres soient linéairement indépendants.

Condition suffisante : Les vecteurs propres associés à des valeurs


propres distinctes sont linéairement indépendants. Si toutes les
valeurs propres de A sont distinctes, alors A est diagonalisable.

48
Exemple fondamental
◼ Soient u et v de Rn muni du produit scalaire usuel, tels que
⟨u, v⟩ = vT u = 1
Considérons la matrice nxn, P = uvT .
Cette matrice jouit des propriétés suivantes :
P2 =uvTuvT =uvT =P
si x ∈ Imu , c’est à dire si x = αu, Px = uvT (αu) = αuvT u = αu = x
Mais si x est orthogonal à v, alors Px = uvT x = u(vT x) = 0

L’image de P est donc Imu, le noyau de P est le sous espace


vectoriel de dimension n − 1 orthogonal à v.
P est donc la matrice de l’application linéaire
"projection sur u parallèlement à Imv⊥".

49
Cas particulier
◼ Si on choisit v = u et ||u||2 = 1, le projecteur orthogonal
s’écrit P = uuT .
◼ De façon plus générale, soit F un espace vectorielle de base
{u1,··· ,ur} orthonormée de F. Soit U = [u1,··· ,ur] alors UTU = Ir.
◼ La matrice

est le projecteur orthogonal sur F = ImU.


◼ Le projecteur (P2 = P) est orthogonal car P = PT .

◼ La projection orthogonale est telle que pour tout vecteur


quelconque Y de E, on cherche Y* ∈ F tel que ( Y − Y* ) ⊥ F
D’où. UT Y = UT Y*
La matrice de projection est U(UT U)−1UT .

50
Exercices

Exercice 1
❖ Calculer la matrice de projection Q sur le sous espace de R4
engendré par les vecteurs (1, 1, 0, 2) et (−1, 0, 0, 1).
❖ Donner la projection de x = (0, 2, 5, −1) sur le sous espace.

Exercice 2
Calculer la projection de v = (1, 1, 0) sur le plan x + y − z = 0.

51
Techniques d’analyse des données
On peut classer les techniques d'analyse des données
suivant deux points de vue :

- Technique mathématique utilisée.


- But poursuivi.

➢ Les techniques d'analyse factorielle (linéaire) qui se ramènent


toujours à raisonner dans un espace euclidien et à diagonaliser
une matrice carrée. Ces techniques reposent sur l'algèbre linéaire
et la géométrie euclidienne.

➢ Les techniques de classification qui font apparaître des structures


telles que des arbres ou des partitions à partir de tableaux de
distances. Ces techniques reposent sur la théorie des graphes et la
combinatoire.
52
Techniques d’analyse factorielles
Les méthodes factorielles (ACP, AFC, ACM, AFD…) ont pour objectif de
visualiser et de traiter des données multidimensionnelles : des données
regroupant souvent un grand nombre de variables.

La prise en compte simultanée de ces variables est un problème


difficile.

L’information apportée est souvent redondante;

Toute ces méthodes tentent de remplacer les variables initiales par un


nombre de variable réduit sans perdre trop d’information

53
Les Nuages de points

54
Les analyses factorielles

◼ Le principe repose sur le fait que les deux


nuages de points représentant respectivement
les lignes et les colonnes du tableau étudiés
sont construits et représentés sur des
graphiques.
◼ Ces représentations des lignes et des colonnes
fortement liées entre elles permettent une
analyse plus aisée pour l'opérateur.

55
La question ?
◼ Tenant compte des ressemblances des individus et des
liaisons entre variables, est-il possible de résumer toutes
les données par un nombre restreint de valeurs sans perte
d'information importante ?
◼ Réduire le nombre de variables décrivant les données
implique que la quantité d'information ne peut être que
réduite, au mieux maintenu.
◼ La motivation vient du fait que des valeurs peu
nombreuses sont plus faciles à représenter
géométriquement et graphiquement (un des objectifs de
l'analyse de données)

56
Principe général

◼ Supposons qu'il existe un vecteur colonne u1


à K composantes et un vecteur colonne v1 à I
composantes tel que le tableau X=(xki)1≤i≤I, 1≤k≤K
s’écrive X = v1ut1,
◼ Ainsi des I + K valeurs des vecteurs u1 et v1,
les I*K valeurs de X sont retrouvées.
◼ Cette réduction devient vite intéressante dès
lors que I et K sont assez grands.

57
Exemple
◼ Considérons l'ensemble des notes des élèves de
l’ENSAM durant une année. Le nombre d’élèves est
environ de 2000, et nous pouvons considérer qu'ils
obtiennent environ 30 notes chacun.
◼ Le tableau représentant l'ensemble des notes est
constitué de 60000 valeurs.
◼ La réduction présentée ci-dessus permet de réduire ce
nombre à 2030 valeurs sans perte d'information si
l'hypothèse est valide.
◼ Ceci signifie que les notes sont dépendantes les unes
des autres ou encore très fortement corrélées.

58
Résolution ?

◼ Une approximation de rang S pour X:


on cherche à écrire le tableau X tel que :
X =v1ut1 +v2ut2 +…+vS utS +E ,
E est une matrice ( I, K) négligeable: matrice
résiduelle.
◼ Les I*K valeurs initiales de X sont
reconstituées de façon satisfaisante par les
S*(I+K) valeurs des S vecteurs vq et uq.

59
Le nuage de points associé aux données
XK


 
 
xi *g 



X2
0 

X1
g

N = {x1, …, xi, …, xI} = Nuage de points associé aux données


1 n
Centre de gravité du nuage N : g =  x i
n i 1
60
Inertie totale du nuage de points
X1 … Xp Xp
1 
   
 
i x1i … xpi xi *g 



X2
 0 
n

x1 ... xp g X1

1 n 2
Inertie totale = I(N, g) =  d ( x i , g )
n i 1

𝐼𝑛𝑒𝑟𝑡𝑖𝑒 𝑡𝑜𝑡𝑎𝑙 𝑝𝑎𝑟 𝑟𝑎𝑝𝑝𝑜𝑟𝑡 à 𝑢𝑛 𝑊 𝑒𝑠𝑡 𝐼 𝑁, 𝑊 = ∑ 𝑥 − 𝑃 (𝑥 ) 2

61
Inertie totale du nuage de points

Résultats:
p 2
" a Î Â I a = I g + d (a, g)
Si
^
E=F Å F
alors

I = IF + IF ^
62
Ajustement du nuage des individus dans l’espace
des variables

◼ Droite d’ajustement:
❑ Proposition 1
Maximiser la dispersion le long de la droite d 1 revient à minimiser les distances
des points du nuage NI à la droite d1, c'est-à-dire que la droite d1 passe au
plus près de tous les points du nuage NI.

å =
Oi 2
å i+
OH 2
å i
iH 2

iÎI iÎI iÎI

63
Ajustement du nuage des individus dans l’espace
des variables

◼ Droite d’ajustement:
❑ Proposition 2
Maximiser la dispersion le long de la droite d1
revient à maximiser ut1XtXu1, avec u1 le
vecteur unitaire de d1.

En fait: å OH i
2 t t t
= (Xu1 ) (Xu1 ) = u X Xu1
1
iÎI

qui représente l'inertie le long de l'axe d1.


64
◼ Idée de la démonstration
✓ La projection OHi de OMi sur d1 portée par u1 est:

OHi = Oi,u1 = xit u1 = åxu ik 1k


kÎK

✓ Ainsi les I composantes OHi de Oi sont


les I composantes de la matrice Xu1,

✓ D’où:

å i
OH 2
= (Xu t
1 (Xu1 )
)
iÎI

✓ Pb? Trouver u1 qui maximise : u1t X t Xu1 avec la contrainte


t
u u1 = 1
1

65
Ajustement du nuage des individus dans l’espace
des variables
◼ Plan d’ajustement
Le sous espace a deux dimensions est donc
caractérisé par l’axe d1 et l’axe d2 défini
par le vecteur u2 orthogonal à u1 vérifiant:
t t
2u X Xu
2
est maximal

t
u u =1
2 2 (contrainte de normalité)
t
uu =0
2 1 (contrainte d’orthogonalité)
66
Exercice

Soit la matrice des données


.
X= .
.
1. Soient C1 et C2 les vecteurs colonnes de X centrer et
réduire C1 et C2
2. Determiner la matrice V des variances-covariances et
Γ la matrice de correlations
3. Diagonaliser la matrice V
4. Déterminer ses vecteurs propres

67
Sous-espace d'ajustement
◼ Proposition3
Une base orthonormée du sous-espace vectoriel de
dimension S, s'ajustant au mieux au sens des moindres
carrés, au nuage NI dans IRK est constituée par les S
vecteurs propres (u1, u2,…,uS) correspondant aux S plus
grandes valeurs propres (λ1,λ2,λ3,…,λs) de la matrice
XtX.

Idée démonstration (Méthode de Lagrange)


L(uS ) = uStX t XuS - l (uStuS - 1)
¶L
= 2 X t XuS - 2 l uS
¶uS

68
En effet : ∂a j
..
ta

Σ a . t aΣ ∂a
∂ a1 ∂a1

Idée de la démonstration:
∂ g(a)
.. ..
. pour une matrice Σ:symétrique
t
. ∂ ap
∂( aΣ a) ∂ ta
On peut mont rer que : = ∂aj
Σ a + aΣ ∂∂aaj t
.
∂a ∂( t ..aΣ a) ..
. = 2Σ .a.
t ∂a t ∂a
∂ a
Σ a aΣ ∂ ap
En effet : ∂ap
∂ ta t ∂a
On peut remarquer que dans cette dernière expression, ∂ a1
Σ
a leséléments
aΣ ∂des a1 deux vecteurs sont
.. ..
égaux ligne à ligne, puisquetchacun est la transposée. de l’autre et .qu’ils sont de dimension
∂( aΣ a) t
1 × 1. Il en résulte que : = ∂ a
∂ aj
Σ a + t
aΣ ∂∂aaj .
∂a ∂( t aΣ a) t
.∂ a ..
= 2.. Σ a, .
∂a ∂ t a Σ∂aa t
aΣ ∂a
∂ ap ∂ ap
et la dérivée de t a par rapport à a est égale à :
On peut
De plusremarquer que dans cet t e dernière expression, les élément s des deux vect eurs
égaux ligne à ligne, puisque chacun
∂ ta est 1la t0ransposée
··· ··· de0 l’aut re et qu’ils sont de dimen
∂a1
1 × 1. Il en résult e que : .. .. .. t ..
t
. ∂( t 0
aΣ a) . .
∂ a .
∂ a = 2 Σ a,
= ∂∂ aja = ∂a... . . . 1 ∂a. . . ... = I p
t

∂a .. à a est ..égale à. .: . .


et la dérivée de t a par rapport
. . . . 0
ta
∂ ∂ ta
∂ap∂ a1 0 ···
1 ···
0 0· · · 1 · · · 0
.. .. .. ..
. 0 . . .
matrice identité de dimension
∂ ta p.∂ t a .. .a. .. ..
De la même manière, = = que .∂ ta
.= 2a.1 . . = Ip 69
∂a on peut∂ amontrer
j
∂a
Ajustement du nuage des variables dans l’espace
des individus
◼ Proposition4
Une base orthonormée du sous-espace vectoriel de dimension S, s'ajustant
au mieux au sens des moindres carrés, au nuage NK dans IRI est
constituée par les S vecteurs propres (v1, v2,…,vS) correspondant aux S
plus grandes valeurs propres (μ1,μ2,μ3,…,μs) de la matrice XXt.

t t
v XX vS
S est maximal

t
v v =1
s s (contrainte de normalité)

t
vv =0
S S (Contrainte d’orthogonalité)
70
Récapitulation: Relation entre les axes d’inertie et les
facteurs des deux nuages

l d = uSt X t XuS
S
L’inertie le long de l’axe ds

L’inertie le long de l’axe Ds


l D = vSt XX t vS
S

FS = XuS Le facteur d’ordre S de NI

GS = X t vS Le facteur d’ordre S de NK

71
Relation entre les axes d’inertie et les facteurs
des deux nuages
Proposition
L’inertie le long de l’axe ds est égal à l’inertie le long de l’axe Ds et nous
avons:

FS
Fs est le vecteur issu de la projection du nuage NI vS =
sur le sème axe dans RK
lS
GS
Gs est le vecteur issu de la projection du nuage uS =
NK sur le sème axe dans RI
lS
72
Idée de la démonstration

73
Formule de transition entre les facteurs

74
Reconstruction des données

Nous avons

D’où

Ainsi

75
Qualité de la représentation

76
Analyse en Composantes
Principales (ACP)

Brahim Ouhbi
ENSAM-
Meknès
ouhbib@yaho
o.co.uk
✓ ACP est une des premières analyses factorielles et l’une des plus
employées aujourd’hui suite au développement de l’informatique
décisionnelle.

✓ Les principales variantes de l’ACP viennent des différentes manières de


transformation du tableau des données (nuages centrés ou non, réduit
ou non).

✓ Les données sont constituées d’individus et de variables quantitatives,


continues , homogènes ou non et sont à priori corrélés entre elles.

✓ Elle est utilisée pour:


✓ L’étude d’une population en cherchant la typologie des
individus et des variables;
✓ Réduire les dimensions des données sans perte importante
d’’information.

78
Objectifs de l’ACP:
➢ Etudier les interrelations entre un assez grand nombre de
variables ;
➢ à partir de cette étude, regrouper ces variables dans des
groupes limités : facteurs ou composantes ;
➢ établir une hiérarchie entre ces groupes basée essentiellement
sur la valeur explicative de chacun d’eux (possibilité d’une
hiérarchie des variables dans chacune des composantes).

➢ Type de relation :
➢ Les relations des variables entre elles (Visualiser les corrélations entre les
variables).
➢ Les relations des variables aux facteurs ;
➢ Les relations entre les variables d’un même facteur ;
➢ Les relations entre les différents facteurs.

79
Principes de l’ACP
Définition1:
Deux individus se ressemblent, ou sont proches, s’ils possèdent des
valeurs proches pour l’ensemble des variables.
2
d (i, j ) =
2
å (x ik - x jk )
kÎK

Définition 2:
Deux variables sont liées si elles ont un fort coefficient de corrélation
linéaires
n
cov(Xk , Xh ) 1 xik - xk xih - xh
r ( k, h) = =
var(Xh )var(Xk ) n
å ( s )( s )
i -1 k h

80
entre géomét rie euclidienne et statistiques empiriques. Les statistiques élémentaires em
Relation entre géométrie et Statistique
riques calculées sur n unités ont chacune leur correspondant géométrique dans un rep
donné. Pour un ensemble quelconque de variables x 1, x 2, . . . , x m :
– Variance et carré de la norme :
n
nVar(x l ) = (x i l − x .l ) 2 = −→l
ox 2

i= 1

– Covariance et produit scalaire :


n
nCov(x l , x l ) = (x i l − x • l )(x i l − x • l ) = −→l , −→
ox ox l
i= 1

– Coefficient de corrélation linéaire et cosinus d’angle :


−→, −→
Cor(x l , x l ) =
Cov(x l , x l ) ox
= −→
l ox l
= cos( −→, −
ox

ox
−→ l l)
Var(x l )Var(x l ) ox l ox l

81
Visualisation des données
Y2(i) i
*

X1 … Xp Y1 Y2 0 Y1(i)
1

Le premier plan principal
i x1i … xpi  y1i y2i …

 Cor(Xj,Y2) Xj
n
0 Cor(Xj,Y1)
Le tableau Les composantes
des données principales
Yh  pj1 u hjX j Le carte des variables
(non corrélées entre elles)

82
Les principales étapes de l’ACP

1. La recherche des variables similaires; celles-ci doivent appartenir à


un même ensemble : une note d’examen, mesure de la satisfaction,
de l’intérêt, etc. ;
2. La matrice des corrélations entre les variables choisies ;
3. La diagonalisation de la matrice des corrélations fournit les valeurs
propres λ1 , λ2 ,…λn ;
4. L’obtention des vecteurs propres et les ordonnées dans l’ordre
décroissant des valeurs propres puis normalisation des vecteurs
propres;
5. la définition des composantes principales ;
6. Etude de la qualité de la représentation;
7. L’interprétation des résultats (contribution des axes aux individus et
contributions relatives des individus aux axes).

83
Le nuage de points associé aux données
Xp
X1 … Xp

1 
 
  
*g 
i x1i … xpi xi 


X2
0 

n
X1
x1 ... xp g

N = {x1, …, xi, …, xn} = Nuage de points associé aux données


1 n
Centre de gravité du nuage N : g =  x i
n i 1
84
Inertie totale du nuage de points
X1 … Xp Xp
1 
   
 
i x1i … xpi xi *g 



X2
 0 
n

x1 ... xp g X1

1 n 2
Inertie totale = I(N, g) =  d ( x i , g )
n i 1
1 n p p
1 n p
  ( x ji  x j ) 2    ( x ji  x j ) 2    2j
n i 1 j 1 j 1 n i 1 j 1

85
Réduction des données

Pour neutraliser le problème des unités on remplace les données


d’origine par les données centrées-réduites :

X 1  x1
X 
*
1
1
M
X p  xp
X *p 
p

de moyenne 0 et d’écart-type 1.

86
Le nuage de points associé aux données réduites
X1* … Xp*
1
Xp*
 
  
i x1i* … xpi*  
Xi* *0 




X2*

n

0 … 0 Moyenne X1*

1 … 1 Variance

N* = {x1*, …, xi* , …, xn* }


Centre de gravité : g* = 0, Inertie totale : I(N* , 0) = p

87
Premier axe principal 1 1
xi* u1
Xp*
 *
 
Hi
 *0  


 X2*

X1*
Objectif 1 : On cherche l’axe 1 passant le mieux possible au milieu du
nuage N*.
On cherche à minimiser l’inertie du nuage N* par rapport à l’axe 1 :
n
1
I(N *, D1 ) = 
n i=1
d 2
(x *
i , Hi )

88
Premier axe principal 1

1
xi*
Xp*

  Hi
 *0  



X2*

X1*
Objectif 2 : On cherche l’axe d’allongement 1 du nuage N*.
On cherche à maximiser l’inertie du nuage N* projeté sur l’axe 1 :
n
1
I( { H1,..., H n } , 0) =
n
å (Hi, 0)
d 2

i=1

89
Les objectifs 1 et 2 sont atteints simultanément
Xp* xi*
1
Hi
*
0
X2*

X1*

De : d 2 (xi*, 0) = d 2 (Hi , 0) + d 2 (xi*, Hi )


on déduit : n n n
1 1 1
n
å i , 0)
d 2
(x *
=
n
å (Hi, 0) +
d 2

n
å i , Hi )
d 2
(x *

i=1 i=1 i=1

Inertie totale = p = Inertie expliquée par 1 + Inertie résiduelle


Maximiser Minimiser 90
Résultats
◼ L’axe 1 passe par le centre de gravité 0 du
nuage de points N*.
◼ L’axe 1 est engendré par le vecteur normé
u1, vecteur propre de la matrice des
corrélations R associé à la plus grande
valeur propre 1.
◼ L’inertie expliquée par l’axe 1 est égal à
1.
◼ La part d’inertie expliquée par le premier
axe principal 1 est égal à 1/p.
91
Première composante principale Y1
xi* 1
Xp*
Y1 est une nouvelle variable définie pour 
chaque individu i par : Hi
 *u
1
Y1(i) = longueur algébrique du segment 0Hi
 *0 Y1(i)
= coordonnée de Hi sur l’axe 1
= produit scalaire entre les vecteurs xi* X2*

Y1(1)
et u1 = -4.15

X1*

p p
 u1 j x *ji Y1 =  u1 jX*j
j1 j1

92
Propriétés de la première composante principale Y1

◼ Y1 = u11X1* + u12X2* + … + u1pXp*

◼ Moyenne de Y1 = 0

◼ Variance de Y1 = Inertie expliquée par 1 = 1

1 p 1
 cor (X j , Y1 ) 
2
est maximum
p j1 p

93
entre géomét rie euclidienne et statistiques empiriques. Les statistiques élémentaires em
Relation entre géométrie et Statistique
riques calculées sur n unités ont chacune leur correspondant géométrique dans un rep
donné. Pour un ensemble quelconque de variables x 1, x 2, . . . , x m :
– Variance et carré de la norme :
n
nVar(x l ) = (x i l − x .l ) 2 = −→l
ox 2

i= 1

– Covariance et produit scalaire :


n
nCov(x l , x l ) = (x i l − x • l )(x i l − x • l ) = −→l , −→
ox ox l
i= 1

– Coefficient de corrélation linéaire et cosinus d’angle :


−→, −→
Cor(x l , x l ) =
Cov(x l , x l ) ox
= −→
l ox l
= cos( −→, −
ox

ox
−→ l l)
Var(x l )Var(x l ) ox l ox l

94
Deuxième axe principal 2

 2
xi*
 
Y2(i)
 ai 
 0  Y (i)
 1 1
 
  

95
Résultats
◼ On recherche le deuxième axe principal 2
orthogonal à 1 et passant le mieux possible au
milieu du nuage.
◼ Il passe par le centre de gravité 0 du nuage de points
et est engendré par le vecteur normé u 2, vecteur
propre de la matrice des corrélations R associé à la
deuxième plus grande valeur propre 2.
◼ La deuxième composante principale Y2 est définie
par projection des points sur le deuxième axe
principal.
◼ La deuxième composante principale Y2 est centrée,
de variance 2, et non corrélée à la première
composante principale Y1.
96
Cercle des corrélations

97
Aide à l’interprétation

98
riables toutes quantitatives Variables « actives » quantitatives
c.-à-d. seront utilisées pour la
Analyse d’un tableau: construction
Les données « autos » des facteurs
(Saporta, 2006 ; page 428)

Modele CYL PUISS LONG LARG POIDS V.MAX


Alfasud TI 1350 79 393 161 870 165
Audi 100 1588 85 468 177 1110 160
Simca 1300 1294 68 424 168 1050 152
Citroen GS Club 1222 59 412 161 930 151
Fiat 132 1585 98 439 164 1105 165
Lancia Beta 1297 82 429 169 1080 160
Peugeot 504 1796 79 449 169 1160 154
Renault 16 TL
Renault 30
1565
2664
55
128 xij 424
452
163
173
1010
1320
140
180
Toyota Corolla 1166 55 399 157 815 140
Alfetta 1.66 1570 109 428 162 1060 175
s
Princess 1800 1798 82 445 172 1160 158
Datsun 200L 1998 115 469 169 1370 160
Taunus 2000 1993 98 438 170 1080 167
Rancho 1442 80 431 166 1129 144
Mazda 9295 1769 83 440 165 1095 165
Opel Rekord 1979 100 459 173 1120 173
Lada 1300 1294 68 404 161 955 140

Questions :
(1) Quelles sont les véhicules qui se ressemblent ? (proximité entre les individus) (2)
Sur quelles variables sont fondées les ressemblances / dissemblances ?
cules(3)qui se ressemblent
Quelles ? (proximité
sont les relations entre les variables ? entre les individus)
sont fondées les ressemblances / dissemblances
99
ions entre les variables
Le cercle des corrélations

100
Qualité globale de l’analyse
Inertie totale = variance totale = p

Part de variance expliquée par 1


la première composante principale =
p

Part de variance expliquée par 2


la deuxième composante principale =
p

Part de variance expliquée par 1   2


les deux premières composantes principales =
p
Et ainsi de suite pour les autres dimensions...

101
Le biplot

N.B. Les échelles doivent être identiques sur les deux axes.

102
Analyse Factorielle des
Correspondances
Séance 5

Brahim Ouhbi
ENSAM-Meknès
[email protected]
Analyse Factorielle des Correspondances (AFC)
✓ AFC est aussi appelé analyse des correspondances binaires en relation
avec l’analyse des correspondances multiples.

✓ AFC peut être vu comme une analyse ACP avec une métrique chi-deux χ2

✓ L’AFC est destinée à mettre en évidence et décrire des associations entre


deux variables qualitatives observées simultanément sur n individus.

✓ Elle est utilisée pour:


➢ L’étude des tableaux de contingence (i.e. fréquences) et permet
ainsi l’étude des liaisons (dite aussi correspondances) existantes
entre deux variables nominales.
➢ Peut être appliquée aux tableaux de mesures homogènes, aux
tableaux de notes, de rangs, de préférences, aux tableaux à
valeurs logiques (0 ou 1) ou encore aux tableaux issus de
questionnaires d’enquêtes.

104
Les données:
➢ A la différence de l’ACP, les données AFC doivent être
organisées en tableaux de contingence (appelés aussi tableau de
dépendance ou tableau croisé).

➢ L’AFC peut également être étendue aux variables quantitatives


homogène en définissant simplement quelques modalités pour ces
variables.
Droit Sciences Médecine E. Sup. Tec

Exp. agri. 80 99 65 58

Patron 168 137 208 62

Cadre sup. 470 400 876 79

Employé 145 133 135 54

Ouvrier 166 193 127 129

105
Exemple

◼ Quelle est la structure des filières choisies selon la CSP ? On parle alors de
profil ligne.

◼ Est-ce que la structure est différente d’une CSP à l’autre ? Nous


matérialisons les écarts à l’aide d’une distance adaptée à notre étude.

◼ Même étude mais sous l’angle des profils colonnes: les compositions des
filières sont-elles différentes en termes de CSP ?

◼ Nous pouvons enfin étudier les associations et répulsions entre CSP et


filières : certaines CSP ont-elles une préférence pour certaines filières ?
Des filières spécifiques attirent-elles des catégories particulières de CSP ?

106
Si on note
pij  P ( X  i, Y  j),
p i.  P ( X  i )
p. j  P (Y  j )
Sous l’hypothèse H0, on a

pij = pi.p.j
On peut utiliser le test χ2
ni . n. j
(nij  )2
D 2   n ~~  (2r 1)( s 1)
i j ni . n. j
n

107
Objectifs de l’AFC:
◆ L’AFC vise à analyser ce type de tableaux en apportant des réponses à
des questions telles que :
◆ Y a-t-il des lignes du tableau (modalités de X) qui se "ressemblent",

c’est-à-dire telles que les distributions des modalités de Y soient


analogues ?
◆ Y a-t-il des lignes du tableau (modalités de X) qui s’opposent, c’est-à-

dire telles que les distributions des modalités de Y soient très


différentes ?
◆ Mêmes questions pour les colonnes du tableau.

◆ Y a-t-il des associations modalité de X - modalité de Y qui s’attirent


(effectif conjoint particulièrement élevé) ou qui se repoussent (effectif
conjoint particulièrement faible) ?

◆ La méthode se fixe également comme but de construire des


représentations graphiques mettant en évidence ces propriétés des données.

108
Exemple 1: Ponctuation dans l’oeuvre de Zola (exemple emprunté M. Tenenhaus)

- L’étude de la ponctuation ou de la
présence de certains mots dans des
textes est utilisée pour reconnaitre
l’auteur d’un document (article, roman,
nouvelle, etc. ). Les données se
présentent selon le tableau
- AFC pour faire le graphique sur
lequel on projette simultanément les
modalités des deux variables (Titre du
roman et Ponctuation)

109
Exemple 2: Couleur des cheveux et des yeux (l’exemple
proposé par Cohen en 1980 )

✓ 592 personnes sont


reportées selon les
couleurs des yeux et des
cheveux. Ainsi p=q=4 et n=
592.

✓ Le tableau des fréquences


permet de ne plus tenir
compte du nombre total de
personnes.
✓ On se demande s’il y a
indépendance entre la
couleur des yeux et celle
des cheveux.

110
Modèle d’indépendance

◼ Comme en ACP, on s’intéresse alors aux directions de "plus grande


dispersion" de chacun de ces nuages de points, mais on utilise la
distance du χ2 entre ces deux variables (à la place de la distance
euclidienne).
◼ Cette distance permet de comparer l’effectif de chacune des
cellules du tableau de contingence
E à la valeur qu’elle aurait si les
deux variables étaient indépendantes.

Notons Eij l’effectif attendu sous l’hypothèse d’indépendance

Total ligne i x Total ligne j ni.n;j


Eij = =
Totalgénéral n..

111
Pourquoi utiliser cette métrique plutôt que la métrique
euclidienne
◼ Plus la distance d2χ2(N,E) est grande, plus le tableau observé est
éloigné du tableau attendu sous l’hypothèse d’indépendance.

◼ La métrique du χ2 possède la propriété d’équivalence


distributionnelle : si on regroupe deux modalités lignes, les
distances entre les profils-colonne, ou entre les autres profils-lignes
restent inchangées.

112
◼ Sous l’hypothèse d’indépendance des deux variables, la statistique
d2χ2 suit une loi du χ2 à (p − 1)(q − 1) degrés de liberté. Cette loi sert,
par exemple, à définir une règle de décision du type : On conclut
que les variables sont indépendantes avec un risque α de se
tromper si d2χ2(N,E) < F−1 (1−alpha) avec F la fonction de répartition
de la loi du χ2 à (p−1)(q−1) degrés de liberté.

◼ Dans l’exemple, la distance du χ2 observée est d2χ2,obs(N, E) = 320.2


et on la compare à F−1(.95) = 21.0. La valeur de la statistique
observée d2χ2,obs(N, E) étant supérieure au seuil, on conclut ici que
le tableau observé est significativement éloigné du tableau attendu
sous l’hypothèse d’indépendance et donc que les deux variables
sont liées.

113
◼ L’analyse d’un tableau de contingence se fait en référence à la
situation d’indépendance. C’est ce que fait l’AFC en écrivant le
modèle d’indépendance sous la forme suivante :

La quantité est la probabilité conditionnelle de posséder la


modalité j de la variable X2 sachant que l’on possède la modalité i
de la variable X1.

De même

114
Vocabulaire
✓ L’ensemble de probabilités {fij/fi• ; j = 1,··· ,q} est appelée profil ligne.

✓ L’ensemble de probabilités {fij /f•j ; i = 1, · · · , p} est appelée profil colonne.

✓ {fi• ; i= 1,··· ,p} (resp. {f•j ; j= 1,··· ,q} est le profil moyen correspondant au
profil ligne (resp. colonne).
Remarque
✓ Si on a indépendance, le profil ligne d’une part et colonne d’autre part est
égal au profil moyen correspondant.

✓ Avec la métrique du χ2, la distance entre deux lignes ne dépend pas des
poids respectifs des colonnes. Ceci a pour conséquence, dans l’exemple,
des étudiants de première année que les catégories socio-professionnelles
sur-représentées ne prennent pas plus de poids que les autres dans le
calcul de la distance.

115
Exemple 2: Couleur des cheveux et des yeux (l’exemple
proposé par Cohen en 1980 )

✓ 592 personnes sont


reportées selon les
couleurs des yeux et des
cheveux. Ainsi p=q=4 et
n= 592.

✓ Le tableau des fréquences


permet de ne plus tenir
compte du nombre total de
personnes.
✓ On se demande s’il y a
indépendance entre la
couleur des yeux et celle
des cheveux.

116
(AFC) - Don
Profils colonnes
117

ond Total
• Tableau croisant deux variables nom
Brun Châtain Roux Blond Profil moyen
Transformations des données brutes

• Transformations 0,37 des


0,6 données brutes
Calcul des profils lignes / colonnes

,3 1 Marron 0,63 0,42 0,37


11 1 Noisette 0,14 0,19 0,2 0,8 0,16
– Calcul des fréquences relatives
25 1 Vert 0,5 0,1 0,2 0,13 0,11
44 1 –BleuCalcul
0,19 des
0,29profils
0,24 lignes
0,74 0,36
22 1 –Total________________colonnes
1 1 1 1 1
s Principales Analyse des Correspondances Étude en Cours 15
Profils lignes
Brun Châtain Roux Blond Total
Marron 0,31 0,54 0,12 0,3 1 Marron
Noisette 0,16 0,58 0,15 0,11 1 Noisett
Vert 0,8 0,45 0,22 0,25 1 Vert
Bleu 0,9 0,39 0,8 0,44 1 Bleu
Profil moyen 0,18 0,48 0,12 0,22 1 Total
Principes Communs Analyse en Composantes Principales Analyse d
Analyse factorielle des correspondances

◼ Intéressons-nous aux profils ligne, l’analyse des profils colonne étant


symétrique. On peut définir la notion de nuage d’individus (ou de
modalité) à partir du tableau de contingence en fréquence.
◼ En pratique, on construit un nuage de points dans l’espace Rq en
définissant pour chaque ligne i, un point dont les coordonnées dans la
dimension j est fij/fi•. Ce nuage est complété par le point moyen GI dont
la j-ème coordonnée vaut f•j. Chaque point i est affecté du poids fi•.
◼ La distance entre les points i et i′ (c’est à dire deux modalités de X1) est

118
Relation inertie et statistique X2
◼ On utilise donc ici la métrique du χ2 dans laquelle les inverses des
fréquences marginales des modalités de Y sont introduites comme
pondérations des écarts entre éléments de deux profils relatifs à X.

◼ Cette métrique attribue donc plus de poids aux écarts correspondants à


des modalités de faible effectif (rares) pour Y .

◼ L’inertie du point i par rapport à GI s’écrit:

119
Relation inertie et statistique X2

◼ L’inertie du nuage est :

Cette inertie représente la liaison entre les deux variables.

ce qui justifie encore une fois l’utilisation de la statistique X2.

120
Interprétation en termes d’inertie

◼ Une inertie faible entraine une concentration autour du centre de


gravité;

◼ Une inertie forte entraine un nuage dilaté.

◼ L’indépendance des variables donne une forme sphérique au nuage


(aucune direction privilégiée);

◼ L’existence d’une dépendance entraine un, étirement du nuage


dans une direction donnée.

121
Interprétation en termes de val. propres

◼ Si une valeur propre est proche de 1 cela veut dire qu’il


existe deux groupes de modalités dans les données.

◼ L’existence de deux valeurs propres proches de 1


signifie une partition des observations en trois groupes

◼ Si toutes les valeurs propres sont proches de 1 cela


indique une correspondance entre chaque modalité ligne
et une modalité colonne associée.

122
Reconstruction de l’AFC

123
La qualité de la représentation
La qualité de représentation d’une ligne par un axe :

La qualité de représentation d’une ligne par


un plan défini par les axes s et t :

La qualité de représentation d’un nuage par par un axe s est :

124
Interprétation

125
Interprétation

126
Exercice 1 ACP

On considère le tableau de données X de type (3,2) suivant:

1) Donner le tableau des données centrés et réduites (normées).


2) Déterminer la matrice des corrélations Γ.
3) Diagonaliser la matrice Γ. On note λ1 et λ2 ses valeurs propres avec λ1 > λ2.
4) Déterminer Fi les axes factoriels. Donner le vecteur unitaire ui de chaque
axe Fi . Vérifier que ces axes sont perpendiculaires.
5) Ecrire la matrice diagonale des valeurs propres Λ et calculer sa trace tr(Λ) et
vérifier que tr(Λ) = tr(Γ).

127
Exercice 1 (ACP)
Soit la matrice X=(X1, X2, X3) don’t les variables ont pour matrice de
correlation

1. 𝑟. −𝑟
𝜌= 𝑟. 1. 𝑟 , -1 ≤ 𝑟 ≤ 1
−𝑟 𝑟. 1

1
1) Vérifier que −1 est un vecteur propre de 𝜌.
1
2) Expliquer pourquoi doit-on avoir -1 < 𝑟 < 1/2.
3) En déduire les autres vecteurs propres et valeurs propres de 𝜌.
4) Justifier le fait que l’ACP n’a pas d’intérêt que si -1 < 𝑟 < 0
5) Calculer le pourcentage de variance expliquée dans ce cas.
6) Interpréter X1, X2 et X3 par rapport aux composantes retenues

128
Exercice 3(AFC)

Cité par Saporta (1990)

129
Test du khi-2 sur un tableau de contingence

Modalités lignes : variable X


Modalités colonnes : variable Y
Hypothèses du test :
H0 : Les variables X et Y sont indépendantes
H1 : Les variables X et Y sont dépendantes

Droit Sciences Médecine IUT

Exp. agri. 80 99 65 58
Effectifs observés O
Patron 168 137 208 62
Cadre sup. 470 400 876 79
Employé 145 133 135 54
Ouvrier 166 193 127 129

130
Construction de la statistique de test

Droit Scienc Médecine IUT Total


es

Exp. agri. 80 99 65 58 302 Effectifs observés Oij


Patron 168 137 208 62 575
Cadre sup. 470 400 876 79 1825
Employé 145 133 135 54 467
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784

Droit Sciences Médecine IUT


Effectifs théoriques Tij

Exp. agri. 82,12 76,78 112,61 30,49


Total ligne i  Total colonne j
Patron 156,36 146,18 214,41 58,05 Tij 
Cadre sup. 496,28 463,97 680,52 184,24
Total Général
Employé 126,99 118,72 174,14 47,14
Ouvrier 167,24 156,35 229,32 62,09 302 1029
Exemple : 82,12 
3784

131
Contributions au khi-2

Droit Sciences Médecine IUT Contributions au khi-2 : (O - T)2/T

Exp. agri. 0,05 6,43 20,13 24,83


Patron 0,87 0,58 0,19 0,27 (Oij  Tij ) 2
Ctrij  ;
Cadre sup. 1,39 8,82 56,15 60,11 Tij
Employé 2,55 1,72 8,80 1,00
Ouvrier 0,01 8,59 45,66 72,12 Exemple : 0,05 
80  82,12 
2

82,12

Calcul du khi-2

 Obs
2
  Ctrij  0,05  ...  72,12  320,2
i, j

Nombre de degrés de liberté :


ddl  Nb Modalités lignes - 1Nb Modalités colonnes - 1  12

132
Loi du khi-2

y=ch i2 (x;1 2 )
0 ,1 0

0 ,0 8

0 ,0 6

0 ,0 4

95% 5%
0 ,0 2

0 ,0 0
0 5 10 15 20 25 30

H0 retenue H0 rejetée ; H1 retenue


 Crit
2
 21,03
133
 Obs
2
  Crit
2
: on conclut donc sur H1
Les deux variables étudiées dépendent l’une de l’autre
134
Effectifs et fréquences marginaux

Droit Scienc Médeci IUT Effect Fréquen


es ne ifs ce
margi
naux
lignes
Exp. agri. 80 99 65 58 302 0,0798
Patron 168 137 208 62 575 0,1520
Cadre sup. 470 400 876 79 1825 0,4823
Employé 145 133 135 54 467 0,1234
Ouvrier 166 193 127 129 615 0,1625
Effectifs 1029 962 1411 382 3784
marginaux
colonnes
Fréquence 0,2719 0,2542 0,3729 0,1010

135
Effectifs théoriques dans le cas d'indépendance

0,0217 0,0203 0,0298 0,0081 82,12 76,78 112,61 30,49

0,0413 0,0386 0,0567 0,0153 156,36 146,18 214,41 58,05

0,1312 0,1226 0,1798 0,0487 496,28 463,97 680,52 184,24

0,0336 0,0314 0,0460 0,0125 126,99 118,72 174,14 47,14

0,0442 0,0413 0,0606 0,0164 x 3784 = 167,24 156,35 229,32 62,09

136
Droit Sciences Médecine IUT

Exp. agri. 80 99 65 58
Patron 168 137 208 62 Effectifs observés O
Cadre sup. 470 400 876 79
Employé 145 133 135 54
Ouvrier 166 193 127 129

Droit Sciences Médecine IUT

Exp. agri. 82,12 76,78 112,61 30,49


Patron 156,36 146,18 214,41 58,05 Effectifs théoriques T
Cadre sup. 496,28 463,97 680,52 184,24
Employé 126,99 118,72 174,14 47,14
Ouvrier 167,24 156,35 229,32 62,09

Droit Sciences Médecine IUT

Exp. agri. -2,12 22,22 -47,61 27,51


Ecarts à l'indépendance : E = O - T
Patron 11,64 -9,18 -6,41 3,95
Cadre sup. -26,28 -63,97 195,48 -105,24
Employé 18,01 14,28 -39,14 6,86

137Ouvrier -1,24 36,65 -102,32 66,91


Analyse des correspondances

Les questions auxquelles on cherche à répondre :

- Quelles sont les modalités lignes qui sont « proches » du profil


ligne moyen ? Quelles sont celles qui s’en écartent le plus ?

- Quelles sont les modalités colonnes qui sont « proches » du


profil colonne moyen ? Quelles sont celles qui s’en écartent le
plus ?

- Quelles sont les modalités lignes et les modalités colonnes qui


« s’attirent » ? Quelles sont celles qui « se repoussent » ?

138
Notations :

Soit un tableau de contingence comportant p lignes et q


colonnes.

- L'élément du tableau situé à l'intersection de la ligne i et de


la colonne j est noté nij.

- La somme des éléments d'une ligne est notée ni


- La somme des éléments d'une colonne est notée n j

139
Distance (du Phi-2) entre deux profils lignes :

2
q
n  nij ni ' j 
dii '  
2
  
j 1 n j  ni  ni ' 
Exemple :

Droit Sciences Médecine IUT Effectifs


marginaux lignes

Exp. agri. 80 99 65 58 302


Patron 168 137 208 62 575
Cadre sup. 470 400 876 79 1825
Employé 145 133 135 54 467
Ouvrier 166 193 127 129 615
Effectifs marginaux 1029 962 1411 382 3784
colonnes

2 2 2 2
3784  80 168  3784  99 137  3784  65 208  3784  58 62 
d 
2
12               
1029  302 575  962  302 575  1411  302 575  382  302 575 
140
Distance (du Phi-2) entre deux profils colonnes :

2
p
n  nij nij ' 
d jj '  
2
 

i 1 ni   n j n j ' 

Exemple : distance entre les colonnes 1 et 2

Droit Sciences Médecine IUT Effectifs


marginaux lignes

Exp. agri. 80 99 65 58 302


Patron 168 137 208 62 575
Cadre sup. 470 400 876 79 1825
Employé 145 133 135 54 467
Ouvrier 166 193 127 129 615
Effectifs marginaux 1029 962 1411 382 3784
colonnes

2 2 2 2 2
3784  80 99  3784  168 137  3784  470 400  3784  145 133  3784  166 193 
d 
2
12                   
302  1029 962  575  1029 962  1825  1029 962  467  1029 962  615  1029 962 

141
Propriété d'équivalence distributionnelle :

- Si on regroupe deux modalités lignes, les distances entre


les profils-colonnes, ou entre les autres profils-lignes restent
inchangées.

- Si on regroupe deux modalités colonnes, les distances


entre les profils-lignes, ou entre les autres profils-colonnes
restent inchangées.

142
Principaux résultats d’une AFC

Modalités (individus) colonnes


q k

Coordonnées
Modalités factorielles des
(individus) lignes
lignes

p p

q
k

k Valeurs propres

Coordonnées factorielles des colonnes


143
Valeurs propres

ValProp. %age %age Chi²


inertie cumulé
1 0,082 97,35 97,35 311,78
2 0,002 2,01 99,36 6,45
3 0,001 0,64 100,00 2,04

Inertie totale du nuage de points :

2
 
2
  Valeurs Propres   GM i2
N

144
Exercice 2 (ACP) Math Physique Arabe Anglais

Ali 6 6 5 5,5
Aicha 8 8 8 8
Fatima 6 7 11 9,5
Bouchra 14,5 14,5 15,5 15
Mohamed 14 14 12 12,5
Kamal 11 10 5,5 7
Kaoutar 5,5 7 14 11,5
Zaid 13 12,5 8,5 9,5
Adam 9 9,5 12,5 12

1. Déterminer les caractéristiques univariées


2. Donner la matrice variance-covariance
3. Donner la matrice de corrélation
4. Montrer que 0,03 et 0,01 sont des valeurs propres,
5. Déterminer les autres valeurs propres
6. Déterminer les facteurs associés.
7. Interpréter les résultats en utilisant le cercle unité par rapport aux facteurs retenus.
8. Donner les coordonnées des individus selon les nouveaux facteurs.
9. In terpréter les résultats

145
Exercice 4 ACP
On a rassemblé les résultats de 15
enfants de 10 ans à 6 subtests du WISC
(scores 0 à 5).
Les variables observées sont :
CUB (Cubes de Kohs),
PUZ (Assemblage d'objets),
CAL (Calcul mental),
MEM (Mémoire immédiate des chiffres),
COM (Compréhension de phrases),
VOC (Vocabulaire).
Le protocole observé est le suivant :

146
Travail Demandé
1. Donner la matrice centrée et réduite associée
2. En déduire la matrice de corrélation associée;
3. Donner les valeurs propres associées
4. Déterminer les composantes principales;
5. Déterminer les corrélations entre les variables et les
compoosantes;
6. Représenter les variables sur le cercle de corrélations
7. Interpréter les résulats.

147

Vous aimerez peut-être aussi