Statistiques et Analyse des Données
Statistiques et Analyse des Données
Dr Malicki ZOROM
1 Généralité
3 Analyse Factorielle
4 Classification
5 Projet
1 Généralité
3 Analyse Factorielle
4 Classification
5 Projet
1 Généralité
3 Analyse Factorielle
4 Classification
5 Projet
1 Généralité
3 Analyse Factorielle
4 Classification
5 Projet
1 Généralité
3 Analyse Factorielle
4 Classification
5 Projet
Logiciels
: [Link]
RStudio : [Link]
Bibliographie
Conseil : Ne jamais acheter un livre sur .
FactoMiner : [Link]
: [Link]
Introduction
L’analyse des données est une technique relativement ancienne 1930
(PEARSON, SPEARMAN, HOTELLING). Elle a connu cependant des
développements récents 1960-1970 du fait de l’expansion de l’informatique.
L’analyse des données est une technique d’analyse statistique d’ensemble de
données. Elle cherche à décrire des tableaux et à en exhiber des relations
pertinentes.
L’objectif de la démarche statistique est de faire apparaı̂tre ces liaisons. Les
deux types de relations fondamentales sont les relations d’équivalence et les
relations d’ordre. Ainsi, une population peut-elle être décomposée en classes
hiérarchisées.
But
Synthétiser, structurer l’information contenue dans des données
multidimensionnelles (n individus, p variables).
Variantes
Les principales méthodes de l’analyse des données se séparent en deux
groupes :
Les méthodes factorielles.
Les méthodes de classification
Méthodes
Algèbre linéaire
les données sont vues de manière abstraites comme un nuage de points
dans un espace vectoriel. On utilise :
Des matrices qui permettent de manipuler un ensemble de variables
comme un objet mathématique unique ;
Des valeurs et vecteurs propres qui permettent de décrire la structure
d’une matrice.
Des métriques : permettent de définir la distance entre deux points de
l’espace vectoriel ; on utilise aussi des produits scalaires.
Rappels de géométrie
Rappels de mécanique
Centre de gravité
Le centre de gravité d’un solide, ou barycentre, correspond à la notion
statistique de moyenne.
Inertie
L’inertie d’un solide correspond à la notion de variance
Inertie
Un corps a d’autant plus d’inertie qu’il faut d’énergie pour le mettre en
rotation autour d’un axe.
Statistique descriptive
La Statistique Descriptive
Ensemble des méthodes et techniques permettant de présenter, de décrire, de résumer, des
données nombreuses et variées.
Population statistique
Ensemble étudié dont les éléments sont des individus ou unités statistiques.
Recensement
Étude de tous les individus d’une population donnée.
Sondage
Étude d’une partie seulement d’une population appelée échantillon.
Échantillon
Ensemble d’individus extraits d’une population initiale de manière aléatoire de façon à ce qu’il
soit représentatif de cette population.
Caractère
Aspect des individus que l’on étudie
Introduction
on dispose d’une série d’indicateurs qui ne donne qu’une vue partielle des données :
effectif, moyenne, médiane, variance, écart type, minimum, maximum, étendue, 1er
quartile, 3ème quartile, ...
Ces indicateurs mesurent principalement la tendance centrale et la dispersion. On utilisera
principalement la moyenne, la variance et l’écart. type.
Paramètres de position(centrale)
La moyenne arithmétique
La moyenne arithmétique d’une série brute numérique x1 , x2 , · · · , xn est le quotient de la somme
1 Pn Pq
des observations par leur nombre x̄ = xi ou pour des données pondérées x̄ = pi xi avec
n i=1 i=1
q ≤ n.
Propriété
La moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les
observations et est sensible aux valeurs extrêmes. Elle est très utilisée a cause de ses bonnes
propriétés mathématiques.
Paramètres de dispersion
Variance et écart-type
La variance et écart-type calculés généralement en complément de la moyenne, pour mesurer la
plus ou moins grande dispersion autour de celle-ci la variance de x est définie par
n q
V (X ) = σx2 = n1 (xi − x̄)2 ou pour des données pondérées V (X ) = σx2 = pi (xi − x̄)2 avec
P P
i=1 i=1
q ≤ n. L’écart type σx est la racine carrée de la variance.
Propriété
q
La variance satisfait la formule suivante σx2 = pi xi2 − (x̄)2 avec q ≤ n. La variance est « la
P
i=1
moyenne des carres moins le carre de la moyenne ». L’écart-type, qui a la même unité que x, est
une mesure de dispersion.
Attention !
1
les calculatrices utilisent l’estimateur sans biais de la variance dans lequel le est remplacé par
n
1
.
n−1
Distribution statistique à deux variables : Mesure de liaison entre deux variables quantitatifs
Covariance
La covariance observée entre deux variables x et y est
Pq q
P
Cov (X , Y ) = σxy = pi (xi − x̄)(yi − ȳ ) = pi xi yi − xy
¯ avec q ≤ n.
i=1 i=1
Distribution statistique à deux variables : Mesure de liaison entre deux variables quantitatifs
Propriété
La covariance est positive si X et Y ont tendance à varier dans le même sens, et
négative si elles ont tendance à varier en sens contraire.
La covariance ne dépend pas de l’origine choisie pour X et Y , mais dépend des unités de
mesure. C’est pourquoi, pour mesurer l’aspect plus ou moins ”allongé” du nuage dans une
direction, par un coefficient sans unité : C’est le coefficient de corrélation linéaire.
Ce coefficient, symétrique en X et Y , indépendant des unités choisies pour X et Y , et de
l’origine, est toujours compris entre - 1 et 1.
|rxy | = 1 si et seulement si x et y sont linéairement liées En
particulier, rxx = 1.
si rxy = 0, on dit que les variables sont de-corrélées ou indépendants.
0.4
0.0
● ● ●
●●
50 million barrels
0.8
●
●
0.88
● ●
●
●
●
●
● ●
● x2 0.023
0.4
●
●
●
●
● ●
● 0 million barrels
● ●
● ● ● ● 1999 2000
0.0
●
● ● ●●
●
0.0
●
● ● ●
● ●
● ●
● ●
−1.0 −0.5
● ●
● ●
●
●●
●
● ●
●
●
●
●
● ●
x3 −0.087
● ●● ● ● ●
● ●
● ● ● ●
● ● ● ●
● ● ●
●●
Exempl
●● ●
●
● ● ●
● ● ●
● ● ●● ● ●
● ● ●
0.8
● ● ●
● ● ●
● ● ● x4
0.4
● ●● ●
[Link]
● ●
● ● ● ●
● ● ● ● ●●
● ● ● ● ●
●
● ● ● ● ● ●● ● ●● ● ● ●
● ●●●●
● ● ● ● ●
●
● ● ●● ● ●
● ● ● ● ●
●
0.0
● ● ● ● ●● ● ● ● ● ●
Interprétation Figure:
on a 4 variables numériques avec 30 indivi-
Coefficient de corrélation
dus. Les variables 1 et 2 sont « indépendantes » ; les variables Partie I
Interprétation
1 et 3 ont une relation linéaire ; les variables 2 et 4 ont une
relation non-linéaire. matricie
Les variables 1 et 2Que
sont signifie
indépendantes
une ;corrélation et 3 ont?une relation linéairePense-bête
les variables 1linéaire ; les m
variables 2 et 4 ont une relation non-linéaire. Matrice tablea
Qu’est ce qui est significatif ? si on a assez de données,
Dr Malicki ZOROMon
grasse (ex : A).
peut considérer
(2iE) qu’une
Statistique corrélation
et Analyse supérieure à 0, 5 est7 octobre 2022
de Données 21 / 97
Rappel d’éléments de Statistique descriptive
Histogramme
Utilisation des données de la taille de 237 étudiants disponibles dans le jeu de données survey de la bibliothèque MASS pour
construire un histogramme.
50
45
40
33
30
30 29
Effectifs
26
20
16
14
10 8
6
2
0
Taille [cm]
Figure: Histogramme
● Q3 +1.5 h
100
90
Q3 : troisieme quartile
80
Pulsations/minutes
70 h Mediane
Q1 : premier quartile
60
50
Q1 −1.5 h
40 ●
Représentation de plusieurs boı̂tes à moustaches sur un même graphique : Les boı̂tes à moustaches permettent de comparer
facilement des groupes d’individus, par exemple ici les garçons et les filles :
● ●
100
90
80
Pulsations/minutes
70
60
50
40 ●
Female Male
3.1une Meilleures
Imaginons représentations
forme géométrique complexe, dans de Np
un espace de dimension élevée disons de dimension 3 pour pouvoir visualiser.
PensonsImaginons
pour cela àune forme
l’image géométrique
d’un chameau. Encomplexe,
figure 25,dans
nous un espace deux
proposons de dimension élevéesimplifiées
représentations disons dededimension
cette image3 : des
pour pouvoir visualiser. Pensons pour cela à l’image d’un chameau. En figure 4, nous proposons deux
représentations en dimension
représentations 2. Deux
simplifiées devues
cetteviennent
image :naturellement en tête en
des représentations : ladimension
vue de face
2. et la vue
Deux de viennent
vues profil. naturel-
lement en tête : la vue de face et la vue de profil.
Variantes
Plan
3 Analyse Factorielle
Analyse en Composante Principale
Analyse des correspondances Multiples
Analyse Factorielle des données Mixtes
Introduction
Données
n individus observés sur p variables quantitatives.
L’ACP permet d’explorer les liaisons entre variables et les
ressemblances entre individus.
Résultats
Visualisation des individus (Notion de distances entre individus)
Visualisation des variables (en fonction de leurs corrélations)
Données
1 Mesurer la qualité des représentations obtenues
critère global
critères individuels
2 « Donner des noms aux axes » si possible
Expliquer la position des individus
3 Utilisation éventuelle de variables supplémentaires (illustratives)
pour la description des axes
On note xij la valeur de la variable x.j pour le i ème individu. X = (x.1 , x.2 , · · · , x.j , · · · , x.p ) est
une matrice rectangulaire à n lignes et p colonnes.
X1 X2 ··· Xj ··· Xp
x1j e1 x11 x12 ··· x1j ··· x1p
x2j
e2 x21 x22 ··· x2j ··· x2p
. . .. .. .. .. .. .. ..
. .
. . . . . . . . .
xj = X(n,p) = e x xi2 ··· xij ··· xip
(1)
xij i
i1
..
. .. .. .. .. .. .. ..
.
. . . . . . . . .
xnj en xn1 xn2 ··· xnj ··· xnp
Espaces
Un individu est un élément de Rp
Une variable est un élément de Rn
Nuages d’individus
On cherche à représenter le nuage des individus.
A chaque individu noté ei , on peut associer un point dans Rp = espace des individus.
ei = (xi1 , xi2 , · · · , xij , · · · , xip )
A chaque variable du tableau X est associé un axe de Rp .
X3
xi3
ei
xi2 X2
xi1
X1
Espaces
Impossible à visualiser dès que p > 3.
Principes de l’ACP
Axes principaux
X1
axe 2
X2
ON VISUALISE
axe 1
Xi
F3
p axe 3
R
axes principaux
Figure: Axes principaux
Distances
ei
ej
Δ2 fi
βi
βj fj
αi α j Δ1
Distances
3. LE CHOIX DE LA DISTANCE ENTRE INDIVIDUS
yB B
Dans le plan:
d 2 (A, B) = (x B − x A ) + (y B − y A )
2 2
A
yA
xA xB
(
e i = x1i x 2i . .. x ip ) (
e j = x1j x 2j . .. x pj )
(ei , xe jB) =)(2x1i+− x(y) A+ (−
1 2
B)
2+ ... ( x ip − x pj )
2 2
Dans le plan : d 2 (A, B) = (xdA −
2
j x 2i −yx 2j )
En général, les variables n’ont pas les mêmes unités. Pour résoudre ce
problème, on choisit de transformer les données en données
centrées-réduites.
xik − x̄.k
L’observation xik est alors remplacée par : zik =
σ.k
où x̄.k représente la moyenne de la variable Xk
σ.k écart-type de la variable Xk
Inertie totale
Inertie
L’inertie mesure la dispersion totale du nuage de points.
Inertie
Pn 1
Ig = d 2 (ei , ḡ )
i=1 n
ou de façon plus générale
P
n P n
Ig = pi d 2 (ei , ḡ ) avec pi = 1
i=1 i=1
Inertie
L’inertie est la somme pondérée des carrés des distances des individus au
centre de gravité ḡ
Variances-covariances
Inertie
L’inertie est aussi égale à la somme des variances des variables étudiées.
Var (X1 )
Cov (X1 , X2 ) ··· Cov (X1 , Xn )
Cov (X1 , X2 ) Var (X2 ) ··· Cov (X2 , Xn )
..
En notant V la matrice de variances-covariances : V = .
. . . . . .
. . . . . .
. . . . . .
Cov (Xp , X1 ) Cov (Xp , X2 ) ··· Var (Xp )
Inertie
p
P
Ig = Var (Xi ) = Tr (V )
i=1
Remarques
Dans le cas où les variables sont centrées réduites, la variance de chaque variable vaut 1.
L’inertie totale est alors égale à p (nombre de variables).
La matrice de variance-covariance devient une matrice de corrélation lorsque les variables sont centrées-réduites.
𝑒̅𝑖
𝑔̅ 𝑓𝑖̅
F
Soit F un sous-ensemble de Rp .
f¯i la projection orthogonale de ēi sur F .
Inertie
kēi − ḡ k2 = kēi − f¯i k2 + kf¯i − ḡ k2 , ∀x = 1, · · · , n
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 40 / 97
Analyse Factorielle Analyse en Composante Principale
P
n
Minimiser cette quantité pi kēi − f¯i k2 (carrés des distances entre
i=1
points individus et leurs projections).
Pn
Maximiser cette quantité pi kf¯i − ḡ k2 l’inertie du nuage projeté
i=1
Solution
Axes principaux
On appelle axes principaux d’inertie les axes de direction les vecteurs
1
propres de V = Z t Z normés à 1. Il y en a p.
n
Le premier axe est celui associé à la plus grande valeur propre . On le
note u1
Le deuxième axe est celui associé à la deuxième valeur propre . On le
note u2 .
···
Composantes principales
Coordonnées
Les coordonnées des individus dans le nouvel espace des axes principaux
sont données par la formule matricielle : F = Z ∗ P avec Z la matrice
centrée réduite et P la matrice de passage constituée des vecteurs propres
1t
de la matrice V = ZZ rangés de manière décroissante suivant les
n
valeurs propres.
Les signes des vecteurs propres sont fixées arbitrairement ; ils peuvent être
différents d’un logiciel à un autre. Ce n’est pas un problème. Le plus important
est que les positions relatives entre les individus (proximités) et les variables
(corrélations)soient préservées.
L’ACP s’applique sur les variables actives.
Lorsque toutes (ou quasiment) les variables sont corrélées au premier axe, on dit
qu’il y a effet taille il n’est donc pas intéressant d’interpréter l’axe, il suffit de faire
une rotation des axes pour obtenir des axes facilement interprétables.
Contribution
Elle indique l’influence de l’individu dans la définition de l’axe. Elle est
donnée par :
Fik2 Pn
CTRik = et CTRik = 1
n ∗ λk i=1
Cos 2
Il indique la qualité de la représentation de l’individu sur le facteur (fraction
F2 Pp
de son inertie restituée par le facteur) COSik2 = ik2 et COSik2 = 1
di j=1
Critère global
λi
mesure la part d’inertie expliquée par l’axe i.
λ1 + λ2 + · · · + λp
Exemple
λ1 + λ2
p est la part d’inertie expliquée par le premier plan principal.
P
λi
j=1
Ce critère (souvent exprimé en pourcentage) mesure le degré de reconstitution des carrés des
distances.
La réduction de dimension est d’autant plus forte que les variables de départ sont plus corrélées.
e Histogramme
4
.. λ 1 = 4,5
λ 2 = 3,8
cassure 29
F2
F1
Plan
3 Analyse Factorielle
Analyse en Composante Principale
Analyse des correspondances Multiples
Analyse Factorielle des données Mixtes
En projet
Plan
3 Analyse Factorielle
Analyse en Composante Principale
Analyse des correspondances Multiples
Analyse Factorielle des données Mixtes
En projet
Plan
4 Classification
Généralité
Classification Ascendante Hiérarchique
Classification des Centres mobiles : K-Means
Variantes de classification
Classification non-supervisée
Partant des données, l’objectif est de regrouper/classer les individus qui se
ressemblent le plus/qui ont des caractéristiques semblables.
Classification supervisée
Partant des données, l’objectif est de déterminer à quel groupe l’individu
ω∗ a le plus chance d’appartenir.
Étude de la ressemblance
Matrice de données : On appelle matrice de données associées à Γ la matrice X
définie par
X1 X2 ··· Xj ··· Xp
ω1 x11 x12 ··· x1j ··· x1p
ω2 x21 x22 ··· x2j ··· x2p
. .. .. .. .. .. .. ..
.. . . . . . . .
X(n,p) = ω x xi2 ··· xij ··· xip (2)
i i1
. .. .. .. .. .. .. ..
.. . . . . . . .
ωn xn1 xn2 ··· xnj ··· xnp
Nuage de points : Pour tout i ∈ {1, · · · , n}, l’individu ωi peut être représenté
dans Rp par un point mi de coordonnées (xi1 , · · · , xip ). On appelle nuage de
points la représentation graphique de l’ensemble de ces points. Il est noté
N = {m1 , · · · , mn }.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 61 / 97
Classification Généralité
Étude de la ressemblance
Distances
Distances : définition
On peut donc aborder le problème de la ressemblance entre individus par le biais
de la notion de distance. On appelle distance sur un ensemble M toute
application d : M 2 → [0, ∞[ telle que :
pour tout (x, y ) ∈ M 2 , on a d(x, y ) = 0 si, et seulement si, x = y ,
pour tout (x, y ) ∈ M 2 , on a d(x, y ) = d(y , x),
pour tout (x, y , z) ∈ M 3 , on a d(x, y ) ≤ d(x, z) + d(z, y ).
Exemple de distances
Distance euclidienne
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ys
m ) ∈ R . On appelle
m
Pm
distance euclidienne entre x et y la distance : d(x, y ) = (xi − yi )2 .
i=1
Distance de Manhattan
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On appelle
P
m
distance de Manhattan entre x et y la distance : d(x, y ) = | xi − yi | .
i=1
Distance de Minkowski
Soient m ∈ N∗ , q ≥ 1, x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On
appelle distance de Minkowski entre x et y la distance :
m q1
P q
d(x, y ) = | xi − yi | .
i=1
Exemple de distances
Distance de Canberra
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On appelle
Pm |x −y |
i i
distance de Canberra entre x et y la distance : d(x, y ) = .
i=1 | xi + yi |
Distance maximum
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On appelle
distance maximum entre x et y la distance : d(x, y ) = sup | xi − yi | .
i∈1,··· ,m
Écarts
Écarts
En notant P(Γ) l’ensemble des parties de Γ, on appelle écart toute application
e : P(Γ)2 → [0, ∞[ définie à partir d’une distance et évaluant la ressemblance
entre deux groupes d’individus.
Règle centrale
Plus l’écart entre deux éléments est petit, plus ils se ressemblent.
Écarts usuels
Parmi les écarts usuels entre deux groupes A et B/méthodes usuelles mesurant la
ressemblance entre deux groupes A et B, il y a :
Exemples d’écarts
Écart complet (complete linkage)/Méthode du voisin le plus éloigné :
Écart complet (complete linkage)/Méthode du voisin le plus éloigné
e(A, B) = max d(ω, ω ∗ ). B) =
e(A, max d(ω, ω∗ ).
(ω,ω∗ )∈A×B (ω,ω∗ )∈A×B
L’écart entre deux groupes A et B est caractérisé par la distance la plus forte
entre
L’écartun point
entre degroupes
deux A et un point
A et B estde B:
caractérisé par la distance la plus forte entre un point
de A et un point de B :
1 X X
e(A, B) = d(ω, ω∗ ),
Dr Malicki ZOROM (2iE) n An
Statistique etBAnalyse de Données 7 octobre 2022 68 / 97
ω∈A ω ∈B
Classification Généralité
Exemples d’écarts
Écart moyen (average linkage)/Méthode de la distance moyenne
1 P P
e(A, B) = d(ω, ω∗ ).
nA nB ω∈A ω∗ ∈B
té deoù nA est le nombre d’individus dans le groupe A, et nB le nombre d’individus
Caen Classification
dans le groupe B.
L’écart entre deux groupes A et B est caractérisé par la distance moyenne entre
L’écart entre deux groupes A et B est caractérisé par la distance moyenne entre les points
les points de A et B :
de A et B :
Exemples d’écarts
Écart de Ward
Soit d la distance euclidienne. La méthode de Ward considère l’écart
nA nB 2
e(A, B) = d (gA , gB ).
nA + nB
où gA est le centre de gravité de A, et gB celui de B. On rappelle que gA est le
point de coordonnées (x̄A1 , · · · , x̄Ap ), où, pour tout j ∈ {1, · · · , p}, x̄Aj désigne la
moyenne des valeurs observées du caractère Xj sur les nA individus du groupe A.
De même pour gB . Cette méthode prend en compte à la fois la dispersion à
l’intérieur d’un groupe et la dispersion entre les groupes. Elle est utilisée par
défaut dans la plupart des programmes informatiques.
e(u, v ) = e(Au , Av )
Exemple
2 2
7, 5 4
On considère la matrice de données X dans R2 définie par X = 3 3 . En considérant la
0, 5 5
6 4
méthode du voisin le plus éloigné munie de la distance euclidienne, donner le tableau des écarts.
Plan
4 Classification
Généralité
Classification Ascendante Hiérarchique
Classification des Centres mobiles : K-Means
Algorithme de CAH
Description de l’algorithme
Algorithme CAH :
L’algorithme de CAH est décrit ci-dessous :
On choisit un écart. On construit le tableau des écarts pour la partition initiale des
n individus de Γ : P0 = {{ω1 }, · · · , {ωn }}. Chaque individu constitue un élément.
On parcours le tableau des écarts pour identifier le couple d’individus ayant l’écart
le plus petit. Le regroupement de ces deux individus forme un groupe A. On a
donc une partition de Γ de n − 1 éléments : A et les n − 2 individus restants.
On calcule le tableau des écarts entre les n − 1 éléments obtenus à l’étape
précédente et on regroupe les deux éléments ayant l’écart le plus petit (cela peut
être deux des n − 2 individus, ou un individu des n − 2 individus restants avec A).
On a donc une partition de Γ de n − 2 éléments.
On itère la procédure précédente jusqu’à ce qu’il ne reste que deux éléments.
On regroupe les deux éléments restants. Il ne reste alors qu’un seul élément
contenant tous les individus de Γ.
Dendrogramme
Dendrogramme
Les partitions de Γ faites à chaque étape de l’algorithme de la CAH peuvent se visualiser
via un arbre appelé dendrogramme. Sur un axe apparait les individus à regrouper et sur
l’autre axe sont indiqués les écarts correspondants aux différents niveaux de
regroupement. Cela se fait graphiquement par le biais de branches et de noeuds.
Une partition naturelle se fait en coupant l’arbre au niveau du plus grand saut de noeuds.
Exemple
2 2
7, 5 4
On considère la matrice de données X dans R2 définie par X =
3 3
. Regrouper
0, 5 5
6 4
les individus avec l’algorithme CAH et la méthode du voisin le plus éloigné munie de la
distance euclidienne.
dist(m)
On met en oevre l’algorithme CAH avec la méthode du voisin le plus éloigné (complete linkage) :
hc = hclust(dist(m), ”complete”)
hc$merge
hc$height
On trace le dendrogramme :
On peut demander à quel groupe chaque individu appartient suivant la hauteur des sauts avec la commande cutree. Avec 2
groupes, on a :
b = cutree(hc, k = 2)
b
table(b)
Les indices des individus dans le groupe 1 (par exemple) peuvent s’obtenir en faisant :
(1 :5)[b == 1]
(ou rownames(m)[b == 1] si des noms aux lignes de la matrice ou de la [Link] existent)
[Link](hc, 2)
Centre de gravité
On appelle centre de gravité du nuage de points N = {m1 , · · · , mn } le point g de
coordonnées (x 1 , · · · , x p ) où, pour tout j ∈ {1, · · · , p}
1P n
xj = xij
n i=1
Inertie totale
On appelle inertie totale de N autour de son centre de gravité g le réel :
n
1X 2
Itot = d (ωi , g )
n i=1
p n
1P
σj2 avec σj2 = (xij − x j )2
P
On peut remarquer que Itot =
j=1 n i=1
L’inertie de N est une mesure de l’homogénéité de N .
Inertie d’un sous-nuage de points : Soient k ∈ {1, · · · , n} et P = (Nl )l∈{1,··· ,k} une
partition de N . Ainsi, pour tout l ∈ {1, · · · , k}, Nl est un sous-nuage de points de N .
On note
nl le nombre d’individus représentés par Nl ,
gl le centre de gravité de Nl , donc le point de coordonnées (x l1 , · · · , x lp ), où, pour
tout j ∈ {1, · · · , p}, x lj ‘ désigne la moyenne des valeurs observées du caractère Xj
sur les nl individus du sous-nuage Nl .
Inertie totale : On appelle inertie totale de Nl autour de son centre de gravité gl
1 P 2
le réel : I(Nl ) = d (ωi , gl ).
nl i∈Nl
Inertie intra-classes : On appelle inertie intra-classes le réel :
k n p Pk P
l 1P
(xij − x lj )2 .
P
Iintra (P) = I(Nl ) =
l=1 n n j=1 l=1 i∈Nl
L’inertie intra-classes mesure l’homogénéité de l’ensemble des sous-nuages de la
partition.
Inertie inter-classes : On appelle inertie inter-classes le réel :
k n p P k P
l 2 1P
(x j − x lj )2 .
P
Iextra (P) = d (gl , g ) =
l=1 n n j=1 l=1 i∈Nl
L’inertie inter-classes mesure la séparation entre les sous-nuages de la partition.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 79 / 97
n n
Classification
`=1 Classification Ascendante
j=1 `=1 i∈N ` Hiérarchique
On constate que minimiser l’inertie intra-classes est équivalent à maximiser l’inertie inter-classes. Cette décomposition est
On constate
illustrée par les schémas que minimiser
ci-dessous : l’inertie intra-classes est équivalent à maximiser l’inertie inter-classes.
Figure: Inertie
Le point
Le point g est le centre est le du
de ggravité centre de de
nuage gravité dugnuage
points, de points, g1 est celui du sous-nuage de points à
1 est celui du sous-nuage de points à gauche, g2 est celui du sous-nuage
de points à droite gauche,
et g3 est
g2celui du sous-nuage
est celui de points
du sous-nuage en bas.
de points Les traits
à droite et g3 de
estcouleurs
celui du représentent
sous-nuage de lespoints
distances
en entre les points
et les centres de gravité.
Alors la somme des bas. Les traits
distances desdetraits
couleurs
bleusreprésentent
au carré estleségale
distances entre les
à la somme despoints et lesdes
distances centres
traitsdeverts
gravité.
au carré plus la somme
des traits orange au carré.
C. Chesneau 34
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 80 / 97
Classification Classification Ascendante Hiérarchique
Sur l’écart de Ward : L’utilisation de l’algorithme de CAH avec la méthode de Ward est justifiée
par le résultat suivant :
Soient Γn = {ω1 , · · · , ωn } individus et g le centre de gravité associé. Soient A et B deux
groupes d’individus
d’effectifs respectifs nA et nB ,
de centres de gravité associés respectifs gA et gB .
Le regroupement de A et B, noté A ∪ B, a pour centre de gravité :
nA gA + nB gB
gA∪B =
nA + nB
1
La perte d’inertie inter-classes lors du regroupement de A et B est égale à multiplié par
n
nA nB
nA d 2 (gA , g ) + nB d 2 (gB , g ) − (nA + nB )d 2 (gA∪B , g ) = d 2 (gA , gB ).
nA + nB
On reconnait alors l’écart de Ward qui est donc une mesure de la perte d’inertie inter-classes lors
du regroupement de A et B. Ainsi, à chaque étape de l’algorithme de CAH, on veut regrouper
des éléments dont le regroupement provoque une perte minimale de l’inertie inter-classes.
où
pour tout i ∈ {1, · · · , n}, Ai désigne le premier élément avec lequel ωi
a été regroupé,
Q et R désignent les deux éléments rassemblés à l’étape finale de
l’algorithme.
On a AC ∈]0, 1[.
Plus AC est proche de 1, plus les individus sont fortement structurés en
plusieurs groupes. Une valeur proche de 0 signifie que les individus
appartiennent tous à un même groupe.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 83 / 97
Classification Classification Ascendante Hiérarchique
bi − ai
S(i) = ,
max(ai , bi )
où
ai est la moyenne des distances entre ωi et les individus de son groupe,
bi est la moyenne des distances entre ωi et les individus du groupe le
plus proche de celui auquel il appartient.
On a S(i) ∈] − 1, 1[.
Plus S(i) est proche de 1, plus l’appartenance de ωi a son groupe est
justifiée.
Ainsi, les individus ayant des grands indices de silhouette sont bien
regroupés.
Si l’indice de silhouette d’un individu est négatif, l’individu n’est pas dans
le bon groupe et pourrait être déplacé dans le groupe le plus proche.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 84 / 97
Classification Classification Ascendante Hiérarchique
Exemple
Exemple
Plan
4 Classification
Généralité
Classification Ascendante Hiérarchique
Classification des Centres mobiles : K-Means
Algorithme de K-means :
L’algorithme des centres mobiles vise à classer une population Γ en q classes. Cela se fait de manière automatique ; il n’y a pas
de lien hiérarchique dans les regroupements contrairement à l’algorithme CAH. Il est le mieux adapté aux très grands tableaux
de données.
L’algorithme des centres mobiles avec la méthode de Lloyd (la plus standard) est décrit ci-dessous :
On choisit q points au hasard dans Rp . Ces points sont appelés centres.
On calcule le tableau de distances entre tous les individus et les q centres.
On forme alors q groupes de la manière suivante : chaque groupe est constitué d ?un centre et des individus les plus
proches de ce centre que d’un autre. On obtient une partition P1 de Γ.
On calcule le centre de gravité de chacun des q sous-nuages de points formés par les q groupes. Ces q centres de gravité
sont nos nouveaux q centres.
On calcule le tableau de distances entre tous les individus et les nouveaux q centres.
On forme alors q groupes, chaque groupe étant constitué d’un centre et des individus les plus proches de ce centre que
d’un autre. On a une nouvelle partition P2 de Γ.
On itère la procédure précédente jusqu’à ce que deux itérations conduisent à la même partition.
Remarque importante
La classification des individus dépend du choix des centres initiaux. Plusieurs méthodes existent pour choisir judicieusement ces
centres.
Exemple
Description de l’OCDE
L’Organisation de coopération et de développement économiques (OCDE) est une
organisation internationale qui œuvre pour la mise en place de politiques meilleures pour
une vie meilleure.
L’objectif est de promouvoir des politiques publiques qui favorisent la prospérité, l’égalité
des chances et le bien-être pour tous. ([Link]
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 93 / 97
Projet
Objectif du projet
L’objectif de ce projet est d’extraire, d’analyser et d’interpréter des
informations à travers des sélections multicritères, dans le but de répondre
à des questions de recherche préalablement formulées. Il s’agira
particulièrement d’élaborer une typologie de pays à partir de données
spatialisées sur des variables environnementales. La finalité est de formuler
des recommandations à l’endroit des décideurs pour répondre à la
problématique identifiée.
Projet
Projet
Projet
Projet
Projet
Projet
Projet
Projet