Analyse des données
Filière: IAGI
Année universitaire: 2022-2023
AZMI Mohamed
[Link]@[Link]
Introduction:
Qu’est ce que c’est ADD?
• Un ensemble de méthodes statistiques dont les caractéristiques principales doivent être
multidimensionnelles et descriptives
• Le terme multidimensionnel couvre deux aspects majeurs:
• Les observations (ou en d’autre terme les individus) sont décrites par plusieurs variables.
• l’étude de ces variables se fait d’une manière simultanée (approche globale)
• L’intérêt de l’étude globale des variables réside dans le fait que ces variables sont liées.
• L’étude des liens entre les variables deux par deux ne constitue pas une approche
multidimensionnelle dans le vrais sens du terme si ces liens ne sont pas étudiés
simultanément.
• Nous faisons souvent appel à ces méthodes à chaque fois la notion de profil est
pertinente dans l’étude des observations (individus), par exemple, les profils des
consommateurs, les profils biométriques, les profils des entreprises, et ainsi de suite.
Chapitre I ACP
Analyse en Composantes Principales
Introduction:
Données-Notation-Exemples
Ligne : etudiant1
• L’analyse des données s’applique aux tables de données ou: colonne: poids
• Les lignes représentent les individus: Idi=xi1,xi2,xi3,...,xiK. Avec i=1,2,...,I
• Les colonnes représentent des variables quantitatives: Xk=x1k,x2k,x3k,...,xIk. Avec k=1,2,...,K.
• xik est la valeur prise par l’individus i pour la variable Xk
Introduction:
Données-Notation-Exemples
Temperatures moyennes relevées dans 35 grandes villes Européennes.
variable
individu
Jus d’orange – évaluation par experts.
Introduction: etudiants (chaque individu a plusieurs variables)
Données-Etude des individus
si j'ai j je peut savoir k--> corr proche de 1
--> les infos sont communes
cette variable ne décrit pas
la population
deux classes Tendance Distribution
disjointes linéaire uniforme
• L’étude des individus implique l’identification des similarités entre eux (profiles/typologies),
• Peut-on former des groupes d'individus proches les uns des autres et qui seraient éloignés des autres
individus ? Quelles sont les variables qui expliquent le plus la variabilité inter-individus ?
• De plus, ça peut nécessiter un passage par identification des dimensions de variabilité qui met en
lumière les groupement d’individus.
Introduction: p variables --> nombre de projections possibles: (p^2-p)/2
4 variables --> 6 projections possible
Données-Etude des variables
Quelles sont les variables qui
expliquent le plus ou le moins la
variabilité inter-individus ?
Remarques sur les graphes:
• Forte corrélation positive entre j et k (A)
• Forte corrélation négative entre l et m (F)
• absence de signe de relation entre les
autres variable.
les quatre variables peuvent être
regrouper en deux ensembles composés
de deux variables chacun; (j, k) et (l, m)
2 Variables synthétiques
Fastidieux dans le cas de beaucoup de
𝐾 2 −𝑘 P variables ->
variables ( 2
) nombre de projection 2d
possible: (p^2-p)/2
l’Analyse en Composantes
Principales (ACP) On a 6 ensembles, ms seulement 2 qui sont significatifs!
Introduction:
Données-Individus & variables
• L’étude des individus et l’étude des variables sont interdépendantes puisqu’elles sont réalisées
sur une même table de données, les étudier conjointement ne peut que renforcer leurs
ensemble
interprétations respectives.
• Si l’étude des individus a conduit à distinguer des groupes d’individus, il semble plus
pertinent de les caractériser directement par les variables en jeu.
• De même, lorsqu’il y a des groupes de variables, il peut être difficile d’interpréter les relations
entre elles. Dans ce cas on peut utiliser des individus spécifiques, c’est à dire des individus
extrêmes du point de vue de ces relations.
Introduction:
Données -Variables centrées réduites
Pour des raisons mathématiques de simplification, mais aussi parce que les variables dans ces
tableaux peuvent être de natures différentes, on transforme la matrice X en une matrice Z de
variables centrées réduites qui conserve la même structure de l’information :
Centrer: translater le nuage de points au
centre (l'origine) pour que Réduire : enlever les unités
les variables auraient le même ordre de
grandeur
Introduction:
Données -Variables centrées réduites
translation des nuages de points au origine de l'axe x,y
• Le centrage n’a pas d’influence sur la ressemblance entre individus
• La réduction supprime l’arbitrage des unités et toutes les variables ont la même influence dans le
calcul des distances entre individus
• Particularités de ces nouvelles variables :
• les moyennes sont toutes nulles
• les écart types sont égaux à 1
Introduction:
Données -Variables centrées réduites
Les moyennes
Janvier Février Mars Avril Mai
1.3 2.2 5.2 9.3 13.9
Juin Juillet Août Septembre
17.4 19.6 19.0 15.6
Variables centrées réduites
Valeurs positives => supérieures aux moyennes
Valeurs proches de 0 => proches des moyennes
Valeurs négatives=> inférieures aux moyennes
Introduction:
Données-Nuage variables
• Une variable est assimilée à un vecteur par le n-uplet (Xj=x1j,x2j,x3j,...,xNj)
• Le nuage des variables peut donc être considéré comme un ensemble de p vecteurs représentés dans
un espace de dimension N dont on cherche à étudier les corrélations.
mesurer le dépendance entre chaque 2 variables
• Rappels : produit scalaire dans ℝ3:
Deux vecteurs formant un angle aigu donneront un produit scalaire positif alors que pour deux
vecteurs formant un angle obtus, le produit scalaire sera négatif. Pour l’ongle droit il sera nul.
• Autre expression :
• Si les vecteurs sont de norme 1:
Introduction:
Données-Nuage variables
le coefficient de corrélation linéaire :
Soient j et j’ deux variables :
On voit par ailleurs, qu'au coefficient 1/n près, rj,j’ correspond au produit scalaire entre deux
vecteurs colonnes centrées.
Démonstration: (voir cahier de notes)
Déduire que cos(j,j’)= rj,j’
Introduction:
Données-Nuage variables
le coef de corrélation linéaire : Interprétation
• Deux variables fortement corrélées pourront être
représentées par des vecteurs presque colinéaires et de
même sens comme les vecteurs u1 et u2. L'angle entre
les deux vecteurs étant de mesure presque nulle, le
cosinus vaut presque 1. corr=1
• Si deux variables sont corrélées négativement, ça
presque 180°
correspondrait à un angle presque plat : cos(j; j’) ~-1.
C'est le cas pour u1 et u3 ou u2 et u3. corr=1
• Lorsque les vecteurs sont presque orthogonaux, la
connaissance des coordonnées d'un vecteur ne donne pas
d'information particulière sur les coordonnées de l'autre :
c'est le cas entre u1 et u4 par exemple ou :
cos(j, j’) = rj,j’~0. var. indépendantes
Introduction:
Données-Nuage variables
L'inertie : l'information à expliquer ou l'information portée par les données.
Interprétation en lien avec le nuage des individus Interprétation en lien avec le nuage des variables
= Cor(Xj)
l'inertie peut être vue comme la somme (au
coefficient 1/n près) des carrés des distances au
centre de gravite pour tous les individus. L'inertie (pour une ACP normée)
En cela, l'inertie renseigne sur la « forme» du est donc toujours égale au nombre
nuage des individus. la somme de la de variables. information équirépartie sur
projection de chaque toute les variables
point n sur les axes p
Introduction:
Données-Nuage variables
L'inertie : l'information à expliquer ou l'information portée par les données.
L'ACP décortique et analyse l'inertie afin de prendre
le max des infos
Interprétation en lien avec le nuage des individus
L'ACP consiste en fait en une
l'inertie peut être vue comme la somme (au
coefficient 1/n pres) des carres des distances au décomposition de cette inertie
centre de gravite pour tous les individus.
En cela, l'inertie renseigne sur la « forme» du
dans des directions
nuage des individus. privilégiées des espaces
Interprétation en lien avec le nuage des variables propres aux représentations
L'inertie (pour une ACP normée) est donc toujours des individus et des variables.
égale au nombre de variables.
Introduction:
Données-Notation-Exemples
• La distance entre deux points est calculée par la distance
euclidienne (théorème de Pythagores):
var centrée réduite
• Les projections orthogonales (les coordonnées) des N points
sur un axe centré réduit zj sont de moyennes nulles et de
variance égale à un => Le centre de gravité G est donc
l’origine des axes.
• La variance totale du nuage multidimensionnel dans un
espace centré réduit est égale au nombre de variable p =>
Chaque axe porte donc 1/p* 100 de la variance total. L’information contenue dans ces espaces
est illisible du fait du nombre d’axes.
c pas la bonne methode pr avoir des infos sur les donnees!!
Analyse en Composantes Principales :
Principe général
• L’ACP a pour but de substituer à ces espaces, des espaces de même dimension mais de tel sorte qu’une
grande part de l’information soit lisible à partir d’un nombre réduit d’axes (idéalement 2 ou 3).
• Le principe de l’ACP consiste donc à effectuer un changement de base de tel sorte (lorsque cela est
possible) que les variances des projections orthogonales (les coordonnées) sur les nouveaux axes (appelés
axes principaux) rassemblent une part significative de la variance totale à partir des deux ou trois
premiers axes.
Avantage: au lieu d'étudier p axes on étudies 2 ou 3 axes
• On peut schématiser ce principe de la façon suivante.
Var(Z1) = Var(Z1) = … = 1 Var(F1) > Var(F2) > … > Var(Fn)
Variables de même
importance Analysable en grande partie
(70 à 80%)à partir des
Difficilement analysé premiers facteurs (2 ou 3)
I = p (information equi-repartie Le max d'info se situe dans 2
sur toute les axes ou 3 axes
Analyse en Composantes Principales :
Principe général
Les propriétés géométriques des nuages doivent
répondre aux questions posées :
= variance
• variabilité des individus via les distances inter-
individus
• liaisons entre variables via les angles inter-
variables .
Quelle représentation choisir pour le chameau ?
Réduire les dimensions pour obtenir une représentation plus
simple du nuage des points tout en conservant le plus possible
de variabilité est le principe appliqué en ACP.
Analyse en Composantes Principales :
Principe général
le meilleur axe c l'axe ou on a la plus grande
projection de ts les pts
Recherche du
meilleur axe de
projection u
maximiser
Analyse en Composantes Principales :
Meilleur plan de projection
Meilleur axe de projection : H: pt de projection
OH^2 : la langueur
On cherche un espace Ρ tel que σ𝑛𝑖=1 𝑂𝐻𝑖2 soit maximum, les 𝐻𝑖 désignant les projetées orthogonaux
de tous les individus 𝑀𝑖 sur P.
Meilleure representation plane P :
On construit ainsi de manière itérative une suite d'axes de directions 𝑢1 , 𝑢2 , 𝑢3 , … 𝑢𝑝 telle que:
• 𝑢1 donne la direction qui maximise l'inertie projetée.
• 𝑢2 donne la direction du reste de l'espace qui maximise l'inertie projetée.
• ... u1 capte le max d'infos u1 orthogonal avec u2
u2 capte le reste
A l'issue de cette opération, on dispose donc de p vecteurs orthogonaux deux à deux qui permettent
donc de reconstituer l'espace des individus.
Analyse en Composantes Principales :
Formulation mathématique
Formulation mathématique de l’ACP:
1. Considérer le tableau D(N,P) de données à N lignes et P colonnes lecture de donnees
2. Transformer la matrice D(N,P) en une matrice Z(N,P) centrées réduites
3. Calculer la matrice R des coefficients de corrélation linéaire entre les variables. cor()
get_eignvalue
4. Calculer les P valeurs propres (λ1,...,λP) de R et les vecteurs propres correspondant V=(v1,...,vP) .([Link])
5. Calculer les Composantes principales C=Z×V qui sont les projections orthogonales du nuage des points
individus sur les nouveaux axes C=(C1,...,CP). Elles sont donc centrées.(Le pourcentage de variance
λ
expliquée par une composante principale Cs est donné par la quantité 𝑆 ×100) pca()
P
6. Sélectionner le nombre de composantes principales qui assure un pourcentage de variance expliquée
satisfaisant. selectionner à partir de get_eignvalue le premier axe principal est dirigé par le vecteur propre ayant la plus
grande valeur propre
Analyse en Composantes Principales :
Exercices
Exercice 1 : Considérons la matrice suivante
1- Calculer le produit 𝑋 𝑇 𝑋 est s’assurer que c’est une matrice carrée symétrique
2- Calculer les valeurs propres de 𝑋 𝑇 𝑋 ainsi que les vecteurs propres correspondants
4 5
Exercice 2 : Considérons la matrice suivante X= 6 7
8 0
1- Centrer et normer la matrice X
2- Calculer la matrice variances-covariances et la matrice des corrélations relatives à la matrice
centrée réduite
3- Calculer les vecteurs constituant la base du meilleur plan de projection
4- calculer les composantes principales
Analyse en Composantes Principales :
Exercices
Exercice 3 :
réaliser l’ACP de la matrice de données suivante
𝒙𝟏 𝒙𝟐
2 2
X= 6 2
6 4
10 4
Analyse en Composantes Principales :
Qualité des représentations sur les plans principaux
Variables originales centrées réduites Espace construit par l’ACP
• Var(Z1) = Var(Z2) = … = 1 • Var(F1) > Var(F2) > … > Var(Fp)
𝒑 𝒑
• σ𝒋=𝟏 𝒗𝒂𝒓(𝒁𝒋 ) = p • σ𝒋=𝟏 𝒗𝒂𝒓(𝑭𝒋 ) = p
• Variables de même importance difficilement • Grande partie (70 à 80%) de l’information retenue
analysées par les premiers facteurs (2 ou 3)
Analyse en Composantes Principales :
Qualité des représentations sur les plans principaux
cos2
Le pourcentage d’inertie
Le but de l’ACP étant de représenter les individus dans un espace de dimension plus faible que P (le nombre
de variables), la question qui se pose est d’apprécier la perte d’information subi et de savoir combien de
facteurs retenir.
• Le critère habituellement utilisé est le pourcentage d’inertie totale expliquée :
λ1 +λ2 +⋯+λ𝑘 λ1 +λ2 +⋯+λ𝑘
=
I𝑔 λ1 +λ2 +⋯+λ𝑘 +⋯+λ𝑃
• Le choix du nombre d’axe à retenir est un point essentiel qui n’a pas de solution rigoureuse.
• Remarquons aussi que la réduction des dimensions n’est possible que s’il y a redondance/dépendance
entre les variables de base.
Analyse en Composantes Principales :
Qualité des représentations sur les plans principaux
Choix de la dimension: Exemples de critères empiriques
• Retenir les valeurs propres telles que:
fviz_eig()
𝑃−1
λ > 1+2 𝑛−1
le coude
• Diagramme de décroissance des valeurs propres:
Chercher le coude séparant les valeurs propres utiles
de celles qui sont peu différentes entre elles et qui
n’apportent pas d’information
Aucun critère n’est absolu, l’interprétation des résultats d’une analyse relève du métier du statisticien qui
doit tenir compte, entre autre, de la taille du tableau de données et des corrélations entre les variables
Analyse en Composantes Principales :
corrélations «variables - facteurs»
La méthode triviale pour donner sens à une composante principale c’est de la relier aux variables initiales
X1 + X2 + ⋯ + X𝑃 via les coefficients de corrélation linéaire.
pour interpréter une composante principale il faut revenir aux variables initiales : on cherche les variables fortement corrélées avec la
composante
v𝑘1
C𝑘 = Z × V𝑘 C𝑘 = 𝑍 × v…
𝑘2 tel que V𝑘 = 1
v𝑘𝑃 fvz_pca_var
C2
𝑥𝑗
cor(𝑥𝑗 , 𝑐2)
• Le coefficient de corrélation de C𝒌 avec X𝒋 est : cor(C𝒌 ,X𝒋) = λ𝒌 v𝒌𝒋
• Pour un couple de composantes principales, on synthétise usuellement les cor(𝑥𝑗 , 𝑐1)
C1
corrélations sur une figure appelée cercle de corrélation
Analyse en Composantes Principales :
corrélations «variables - facteurs»
Exemple:
C2
Le cercle de corrélation projette les variables sur l’espace défini par le • 𝑥6 • 𝑥7
couple (C1 , C2 ).
• La figure montre que la composante C1 est positivement corrélée avec 𝑥1 •
𝑥2 •
les variables 𝑥1 , 𝑥2 et 𝑥3 , négativement corrélée avec les variables 𝑥4 et • 𝑥4 C1
• 𝑥5 𝑥3 •
𝑥5 et non linéairement corrélée avec les variables 𝑥6 , 𝑥7 et 𝑥8
• La composante C2 oppose la variable 𝑥8 aux variables 𝑥6 , 𝑒𝑡 𝑥7
• 𝑥8
• On se gardera d’interpréter les proximités entre les points variables si
ceux-ci ne sont pas proches de la circonférence.
Analyse en Composantes Principales :
corrélations «variables - facteurs»
contrib
Contribution des variables aux axes
C2
v𝑘1
• 𝑥6 • 𝑥7
C𝑘 = Z × V𝑘 C𝑘 = 𝑍 × v…
𝑘2 tel que V𝑘 = 1
v𝑘𝑃
𝑥1 •
Comme λ𝑘 = σ𝑃𝑗=1 𝑐𝑜𝑟 2 (C𝑘 ,X𝑗 ) 𝑥2 •
• 𝑥4 C1
• 𝑥5 𝑥3 •
On appelle contribution de la variable X𝒋 à l’axe C𝒌 le rapport:
• 𝑥8
𝑐𝑜𝑟 2 (C𝑘 ,X𝑗 )
= (v𝑘𝑗 )2
λ𝑘
Analyse en Composantes Principales :
relations «Individus - facteurs»
Contribution des individus aux axes
fviz_contrib
Considérons la kième composante C𝑘 =(c𝑘1 , c𝑘2 , …, c𝑘𝑁 )
Var(C𝑘 ) = σ𝑁
𝑖=1 p𝑖 × c𝑘𝑖 = λ𝑘 avec p𝑖 est le poid de l individus i
2 ′
p𝑖 × c𝑘𝑖 2
On appelle contribution de l’individus i à l’axe C𝒌 le rapport:
λ𝑘
1
1
𝑁
× c𝑘𝑖 2
Lorsque p𝑖 = , ladite contribution devient :
𝑁 λ𝑘
Analyse en Composantes Principales :
relations «Individus - facteurs»
Pour N assez grand:
c𝑘𝑖 2 × c𝑘𝑖 2 3.84
1
c𝑘𝑖 ~ 𝑁(0, λ𝒌 ) => ~ 𝜒(1) => P( > 𝑁 ) =0.05
𝑁
λ𝑘 λ𝑘
• On peut considérer alors qu’un individus a une contribution significative si elle dépasse 4 fois son poids.
• Quand les individus ne sont pas anonymes, ils aident à l’interprétation des composantes principales. On
cherchera par exemple les individus prépondérant en terme de contribution à l’axe ou les individus opposés
le long de l’axe.
TP ACP sur R