0% ont trouvé ce document utile (0 vote)
70 vues107 pages

Statistiques et Analyse des Données

Transféré par

Zinatou Abembou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
70 vues107 pages

Statistiques et Analyse des Données

Transféré par

Zinatou Abembou
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique et Analyse de Données

Dr Malicki ZOROM

Cours de Statistique et Analyse des Données de S7


”Département Sciences et Techniques de l’Ingénieur”
email: [Link]@[Link]
Institut 2iE
7 octobre 2022

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 1 / 97


Plan

1 Généralité

2 Rappel d’éléments de Statistique descriptive

3 Analyse Factorielle

4 Classification

5 Projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 2 / 97


Plan

1 Généralité

2 Rappel d’éléments de Statistique descriptive

3 Analyse Factorielle

4 Classification

5 Projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 2 / 97


Plan

1 Généralité

2 Rappel d’éléments de Statistique descriptive

3 Analyse Factorielle

4 Classification

5 Projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 2 / 97


Plan

1 Généralité

2 Rappel d’éléments de Statistique descriptive

3 Analyse Factorielle

4 Classification

5 Projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 2 / 97


Plan

1 Généralité

2 Rappel d’éléments de Statistique descriptive

3 Analyse Factorielle

4 Classification

5 Projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 2 / 97


Plan

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 3 / 97


Généralité

Logiciels utilisés et Bibliographie

Logiciels
: [Link]
RStudio : [Link]

Installation des packages de : Shiny, FactoShiny, FactoMineR, FactoInvestigate,


Rcmdr, ggplot2

Bibliographie
Conseil : Ne jamais acheter un livre sur .
FactoMiner : [Link]

: [Link]

Apprendre les B-A-BA de : [Link]


1393696-effectuez-vos-etudes-statistiques-avec-r

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 4 / 97


Généralité

Analyse des données

Introduction
L’analyse des données est une technique relativement ancienne 1930
(PEARSON, SPEARMAN, HOTELLING). Elle a connu cependant des
développements récents 1960-1970 du fait de l’expansion de l’informatique.
L’analyse des données est une technique d’analyse statistique d’ensemble de
données. Elle cherche à décrire des tableaux et à en exhiber des relations
pertinentes.
L’objectif de la démarche statistique est de faire apparaı̂tre ces liaisons. Les
deux types de relations fondamentales sont les relations d’équivalence et les
relations d’ordre. Ainsi, une population peut-elle être décomposée en classes
hiérarchisées.

But
Synthétiser, structurer l’information contenue dans des données
multidimensionnelles (n individus, p variables).

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 5 / 97


Généralité

Analyse des données

Analyse des données


L’analyse des données est une des branches les plus vivantes de la
statistique.

Variantes
Les principales méthodes de l’analyse des données se séparent en deux
groupes :
Les méthodes factorielles.
Les méthodes de classification

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 6 / 97


Généralité

Méthodes

Algèbre linéaire
les données sont vues de manière abstraites comme un nuage de points
dans un espace vectoriel. On utilise :
Des matrices qui permettent de manipuler un ensemble de variables
comme un objet mathématique unique ;
Des valeurs et vecteurs propres qui permettent de décrire la structure
d’une matrice.
Des métriques : permettent de définir la distance entre deux points de
l’espace vectoriel ; on utilise aussi des produits scalaires.

Théorie des probabilités


nécessaire en statistique inférentielle (estimation, tests,modélisation et
prévision,...).

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 7 / 97


Généralité

Rappels de géométrie

Distance entre deux points, Produit scalaire

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 8 / 97


Généralité

Rappels sur les matrices

Transposée d’une matrice, Inverse d’une Matrice, Matrice identité, Matrice


diagonale, Trace d’une matrice, Valeurs propres, Vecteurs
propres,Sous-espace propre, Diagonalisation, Déterminant,

Déterminer la transposée, l’inverse, le déterminant, le polynôme


caractéristique, les valeurs propres(Spectre), Vecteurs propres,Sous-espace
propre.
 A Est-elle Diagonalisable
 ?
5 1 −1
A = 2 4 −2
1 −1 3

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 9 / 97


Généralité

Rappels de mécanique

Centre de gravité
Le centre de gravité d’un solide, ou barycentre, correspond à la notion
statistique de moyenne.

Inertie
L’inertie d’un solide correspond à la notion de variance

Inertie
Un corps a d’autant plus d’inertie qu’il faut d’énergie pour le mettre en
rotation autour d’un axe.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 10 / 97


Rappel d’éléments de Statistique descriptive

Statistique descriptive

Des notions à connaı̂tre


Série numérique,Variable (discrète,continue, binaire), Fonction de
répartition empirique, Statistiques de tendance centrale (
moyenne,médiane, mode),Statistiques de dispersion (variance,écart-type,
écart interquartile),Variables centrées-réduites, Statistiques
d’ordre(Quantiles), Covariance, Corrélation, Nuage de points, Droite de
régression, Matrice de variance-covariance, Matrice de
corrélation,Histogramme, Boxplots.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 11 / 97


Rappel d’éléments de Statistique descriptive

La Statistique Descriptive
Ensemble des méthodes et techniques permettant de présenter, de décrire, de résumer, des
données nombreuses et variées.

Population statistique
Ensemble étudié dont les éléments sont des individus ou unités statistiques.

Recensement
Étude de tous les individus d’une population donnée.

Sondage
Étude d’une partie seulement d’une population appelée échantillon.

Échantillon
Ensemble d’individus extraits d’une population initiale de manière aléatoire de façon à ce qu’il
soit représentatif de cette population.

Caractère
Aspect des individus que l’on étudie

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 12 / 97


Rappel d’éléments de Statistique descriptive

Nature du caractère ( variable)


1 quantitatives : nombres sur lesquels les opérations usuelles (somme,moyenne,...) ont un
sens ; elles peuvent être discrètes (ex : nombre d’éléments dans un ensemble) ou continues
(ex : prix, taille) ;
La variable peut alors être discrète ou continue selon la nature de l’ensemble des valeurs
qu’elle est susceptible de prendre (valeurs isolées ou intervalle).
2 qualitatives : appartenance a une catégorie donnée ; elles peuvent être nominales (ex :
sexe, goût) ou ordinales quand les catégories sont ordonnées (ex : très résistant, assez
résistant, peu résistant).
On distingue des variables qualitatives ordinales ou nominales, selon que les modalités
peuvent être naturellement ordonnées ou pas.
Une variable est ordinale si l’ensemble des catégories est munie d’un ordre total si non elle
est nominale

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 13 / 97


Rappel d’éléments de Statistique descriptive

Figure: Typologies des variables

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 14 / 97


Rappel d’éléments de Statistique descriptive

paramètres de position (centrale) et dispersion

Introduction
on dispose d’une série d’indicateurs qui ne donne qu’une vue partielle des données :
effectif, moyenne, médiane, variance, écart type, minimum, maximum, étendue, 1er
quartile, 3ème quartile, ...
Ces indicateurs mesurent principalement la tendance centrale et la dispersion. On utilisera
principalement la moyenne, la variance et l’écart. type.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 15 / 97


Rappel d’éléments de Statistique descriptive

Paramètres de position(centrale)

La moyenne arithmétique
La moyenne arithmétique d’une série brute numérique x1 , x2 , · · · , xn est le quotient de la somme
1 Pn Pq
des observations par leur nombre x̄ = xi ou pour des données pondérées x̄ = pi xi avec
n i=1 i=1
q ≤ n.

Propriété
La moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les
observations et est sensible aux valeurs extrêmes. Elle est très utilisée a cause de ses bonnes
propriétés mathématiques.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 16 / 97


Rappel d’éléments de Statistique descriptive

Paramètres de dispersion

Variance et écart-type
La variance et écart-type calculés généralement en complément de la moyenne, pour mesurer la
plus ou moins grande dispersion autour de celle-ci la variance de x est définie par
n q
V (X ) = σx2 = n1 (xi − x̄)2 ou pour des données pondérées V (X ) = σx2 = pi (xi − x̄)2 avec
P P
i=1 i=1
q ≤ n. L’écart type σx est la racine carrée de la variance.

Propriété
q
La variance satisfait la formule suivante σx2 = pi xi2 − (x̄)2 avec q ≤ n. La variance est « la
P
i=1
moyenne des carres moins le carre de la moyenne ». L’écart-type, qui a la même unité que x, est
une mesure de dispersion.

Attention !
1
les calculatrices utilisent l’estimateur sans biais de la variance dans lequel le est remplacé par
n
1
.
n−1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 17 / 97


Rappel d’éléments de Statistique descriptive

Distribution statistique à deux variables : Mesure de liaison entre deux variables quantitatifs

Covariance
La covariance observée entre deux variables x et y est
Pq q
P
Cov (X , Y ) = σxy = pi (xi − x̄)(yi − ȳ ) = pi xi yi − xy
¯ avec q ≤ n.
i=1 i=1

Coefficient de r de Bravais-Pearson ou coefficient de corrélation


Le coefficient de r de Bravais-Pearson ou coefficient de corrélation est donnée par
Pq
pi (xi − x̄)(yi − ȳ )
σxy i=1
rxy = = s s avec q ≤ n.
σx σy q q
2 2
P P
pi (xi − x̄) pi (yi − ȳ )
i=1 i=1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 18 / 97


Rappel d’éléments de Statistique descriptive

Distribution statistique à deux variables : Mesure de liaison entre deux variables quantitatifs

Propriété
La covariance est positive si X et Y ont tendance à varier dans le même sens, et
négative si elles ont tendance à varier en sens contraire.
La covariance ne dépend pas de l’origine choisie pour X et Y , mais dépend des unités de
mesure. C’est pourquoi, pour mesurer l’aspect plus ou moins ”allongé” du nuage dans une
direction, par un coefficient sans unité : C’est le coefficient de corrélation linéaire.
Ce coefficient, symétrique en X et Y , indépendant des unités choisies pour X et Y , et de
l’origine, est toujours compris entre - 1 et 1.
|rxy | = 1 si et seulement si x et y sont linéairement liées En
particulier, rxx = 1.
si rxy = 0, on dit que les variables sont de-corrélées ou indépendants.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 19 / 97


Rappel d’éléments de Statistique descriptive

Signification du coefficient de corrélation

Qu’est-ce qui est significatif ?


Si on a assez de données (n ≥ 30), on peut considérer qu’une corrélation
supérieure à 0, 5 est forte, et une corrélation entre 0, 3 et 0, 5 est moyenne.
Une corrélation égale à 1 indique que les deux variables sont équivalentes.

Qu’est-ce cela veut dire ?


Une corrélation significative indique que une liaison entre deux variables,
mais pas nécessairement un lien de causalité. Par exemple :
Le nombre de pompiers présents pour combattre un incendie est corrélé
aux dégâts de l’incendie. Mais ce ne sont pas les pompiers qui causent les
dégâts.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 20 / 97


En particulier, cor(x, x) = 1.
Rappel d’éléments de Statistique descriptive
Variables décorrélées si cor(x, y) = 0, on dit que les va-
riables Exemple 2 Im
Exemple du coefficient desont décorrélées. Cela ne veut pas dire qu’elles sont
corrélation vers les États-U
indépendantes !
collision avec un
On a 4 variables numériques avec 30 individus représenté deux à deux dans la figure (21)
Le coefficient de corrélation par l’exemple
D
ci-dessous
1999 2000
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 150 million barrels

US crude oil imports from Norway


0.8
x1 −0.0052

−0.99 0.13 100 million barrels

0.4
0.0
● ● ●
●●
50 million barrels
0.8


0.88
● ●




● ●
● x2 0.023
0.4





● ●
● 0 million barrels
● ●
● ● ● ● 1999 2000
0.0


● ● ●●

0.0

● ● ●
● ●
● ●
● ●

−1.0 −0.5
● ●
● ●

●●

● ●



● ●
x3 −0.087
● ●● ● ● ●
● ●
● ● ● ●
● ● ● ●
● ● ●
●●

Exempl
●● ●

● ● ●

● ● ●
● ● ●● ● ●
● ● ●
0.8

● ● ●

● ● ●
● ● ● x4
0.4

● ●● ●

[Link]
● ●

● ● ● ●
● ● ● ● ●●
● ● ● ● ●

● ● ● ● ● ●● ● ●● ● ● ●
● ●●●●
● ● ● ● ●

● ● ●● ● ●
● ● ● ● ●

0.0

● ● ● ● ●● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0 −1.0 −0.5 0.0

Interprétation Figure:
on a 4 variables numériques avec 30 indivi-
Coefficient de corrélation
dus. Les variables 1 et 2 sont « indépendantes » ; les variables Partie I
Interprétation
1 et 3 ont une relation linéaire ; les variables 2 et 4 ont une
relation non-linéaire. matricie
Les variables 1 et 2Que
sont signifie
indépendantes
une ;corrélation et 3 ont?une relation linéairePense-bête
les variables 1linéaire ; les m
variables 2 et 4 ont une relation non-linéaire. Matrice tablea
Qu’est ce qui est significatif ? si on a assez de données,
Dr Malicki ZOROMon
grasse (ex : A).
peut considérer
(2iE) qu’une
Statistique corrélation
et Analyse supérieure à 0, 5 est7 octobre 2022
de Données 21 / 97
Rappel d’éléments de Statistique descriptive

Histogramme

Utilisation des données de la taille de 237 étudiants disponibles dans le jeu de données survey de la bibliothèque MASS pour
construire un histogramme.

Taille de 237 etudiants

50

45

40

33
30
30 29
Effectifs

26

20
16
14

10 8
6

2
0

150 160 170 180 190 200

Taille [cm]

Figure: Histogramme

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 22 / 97


Rappel d’éléments de Statistique descriptive

Boı̂te à moustaches (Boxplot) : une modalité

Rythme cardiaque de 237 etudiants

● Q3 +1.5 h
100

90

Q3 : troisieme quartile
80
Pulsations/minutes

70 h Mediane

Q1 : premier quartile
60

50

Q1 −1.5 h
40 ●

L'ecart inter−quartile h contient 50 % des individus

Figure: Détail sur la boı̂te à moustaches

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 23 / 97


Rappel d’éléments de Statistique descriptive

Boı̂te à moustaches (Boxplot) : Comparaison de deux modalités

Représentation de plusieurs boı̂tes à moustaches sur un même graphique : Les boı̂tes à moustaches permettent de comparer
facilement des groupes d’individus, par exemple ici les garçons et les filles :

Rythme cardiaque de 237 etudiants

● ●

100

90

80
Pulsations/minutes

70

60

50

40 ●

Female Male

Figure: Détail sur les 2 boı̂tes à moustaches

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 24 / 97


Analyse Factorielle
nuages, une représentation simplifiée.

3.1une Meilleures
Imaginons représentations
forme géométrique complexe, dans de Np
un espace de dimension élevée disons de dimension 3 pour pouvoir visualiser.

PensonsImaginons
pour cela àune forme
l’image géométrique
d’un chameau. Encomplexe,
figure 25,dans
nous un espace deux
proposons de dimension élevéesimplifiées
représentations disons dededimension
cette image3 : des
pour pouvoir visualiser. Pensons pour cela à l’image d’un chameau. En figure 4, nous proposons deux
représentations en dimension
représentations 2. Deux
simplifiées devues
cetteviennent
image :naturellement en tête en
des représentations : ladimension
vue de face
2. et la vue
Deux de viennent
vues profil. naturel-
lement en tête : la vue de face et la vue de profil.

Figure 4 – Quelle représentation choisir pour le chameau ?


Figure: Quelle représentation choisir pour le chameau ?
Quelle est la meilleure représentation simplifiée ? A l’évidence, c’est la vue de profil. La raison est que
l’image projetée du chameau dans ce plan est plus proche de l’image initiale dans le sens où la variabilité des
points servant à sa représentation est plus grande et donc restitue mieux la variabilité des points d’origine
en dimension 3. Réduire la dimension pour obtenir une représentation plus simple du nuage Np tout en
Quelle
conservant le plus possible est la meilleure
de variabilité représentation
est le principe simplifiée ?
appliqué en ACP.

Meilleure représentation axiale de Np On cherche tout d’abord la meilleure représentation axiale de


A l’évidence, c’estprécisement,
N . plus la vue de profil.
on La raison la
cherche estdirection
que l’image
de projetée
Rp (Rp du estchameau
l’espace dans ce plan est plusdes
de représentation proche de l’image
individus) de initiale
p
sorteoùà la
dans le sens cevariabilité
que les distances
des pointsentre les àpoints
servant initiaux Miest
sa représentation soient les plusetproches
plus grande possibles
donc restitue delaleurs
mieux projetés
variabilité des points
orthogonaux et ce d’un point de vue global i.e. en tenant compte de tous les points Mi . On illustre cela en
d’originefigure 5.
en dimension 3. Réduire la dimension pour obtenir une représentation plus simple du nuage tout en conservant le plus

possible de variabilité est le principe appliqué en Analyse Factorielle.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 25 / 97


Analyse Factorielle

Variantes

Il existe 3 variantes d’analyse factorielle (AF) :


Variantes
Analyse en Composante Principale ( ACP) : variables quantitatives
Analyse des correspondances Multiples (ACM) : variables qualitatives
cas particulier de deux variables Analyse Factorielle de
Correspondance (AFC)
Analyse Factorielle des données Mixtes (AFDM) : variables
quantitatives et qualitatives
Notez que dans chaque variante, il existe également d’autres variantes
d’AF.
Nous mettrons l’accent sur l’Analyse en Composante Principale.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 26 / 97


Analyse Factorielle Analyse en Composante Principale

Plan

3 Analyse Factorielle
Analyse en Composante Principale
Analyse des correspondances Multiples
Analyse Factorielle des données Mixtes

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 27 / 97


Analyse Factorielle Analyse en Composante Principale

Introduction

Données
n individus observés sur p variables quantitatives.
L’ACP permet d’explorer les liaisons entre variables et les
ressemblances entre individus.

Résultats
Visualisation des individus (Notion de distances entre individus)
Visualisation des variables (en fonction de leurs corrélations)

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 28 / 97


Analyse Factorielle Analyse en Composante Principale

Interprétation des résultats

Données
1 Mesurer la qualité des représentations obtenues

critère global
critères individuels
2 « Donner des noms aux axes » si possible
Expliquer la position des individus
3 Utilisation éventuelle de variables supplémentaires (illustratives)
pour la description des axes

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 29 / 97


Analyse Factorielle Analyse en Composante Principale

Tableau des données

On note xij la valeur de la variable x.j pour le i ème individu. X = (x.1 , x.2 , · · · , x.j , · · · , x.p ) est
une matrice rectangulaire à n lignes et p colonnes.

X1 X2 ··· Xj ··· Xp
 
x1j e1 x11 x12 ··· x1j ··· x1p
 
x2j 
  e2  x21 x22 ··· x2j ··· x2p 
   
 
 
 .   . .. .. .. .. .. .. .. 
 .   . 
 .   . . . . . . . . 
xj =   X(n,p) = e  x xi2 ··· xij ··· xip 
 (1)
 xij  i 
 i1 
 .. 
   . .. .. .. .. .. .. .. 
 .
 .   . . . . . . . . 

   
 
xnj en xn1 xn2 ··· xnj ··· xnp

Espaces
Un individu est un élément de Rp
Une variable est un élément de Rn

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 30 / 97


Analyse Factorielle Analyse en Composante Principale

Nuages d’individus
On cherche à représenter le nuage des individus.
A chaque individu noté ei , on peut associer un point dans Rp = espace des individus.
ei = (xi1 , xi2 , · · · , xij , · · · , xip )
A chaque variable du tableau X est associé un axe de Rp .
X3
xi3

ei

xi2 X2

xi1

X1

Figure: Représentation de nuage des individus.

Espaces
Impossible à visualiser dès que p > 3.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 31 / 97


Analyse Factorielle Analyse en Composante Principale

Principes de l’ACP

On cherche une représentation des n individus , dans un sous-espace Fk de


Rp de dimension k ( k petit 2, 3, · · · ; par exemple un plan)
Autrement dit, on cherche à définir k nouvelles variables combinaisons
linéaires des p variables initiales qui feront perdre le moins d’information
possible.

Les nouvelles variables généraux en tant que eu combinaison linéaire des


variables initiales sont appelées axes principaux ou composantes
principales ou facteurs principaux.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 32 / 97


Analyse Factorielle Analyse en Composante Principale

Axes principaux

X1
axe 2
X2

ON VISUALISE

axe 1

Xi
F3
p axe 3
R
axes principaux
Figure: Axes principaux

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 33 / 97


Analyse Factorielle Analyse en Composante Principale

Perdre le moins d’information possible


Fk devra être « ajusté » 1 le mieux possible au nu
des individus:
Fk devra être « ajustéla
» lesomme desau carrés
mieux possible nuage des des distances
individus : la
somme des carrés des distances des individus à Fk doit être minimale.
individus à Fk doit être minimale.

Fk est le sous-espace tel 2que le nuage projeté ait u


Fk est le sous-espace tel que le nuage projeté ait une inertie (dispersion)
inertie
maximale.(dispersion) maximale.
1 et 2 sont basées sur les notions de :
c et d sont basées sur les notions de :
distance
projection orthogonale
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 34 / 97
Analyse Factorielle Analyse en Composante Principale

Distances

ei

ej

Δ2 fi
βi
βj fj

αi α j Δ1

Figure: La distance entre f et f est inférieure ou égale à celle entre ei et ej


La distance entre fii et jfj est inférieure ou
égale à celle entre ei et ej 9

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 35 / 97


Analyse Factorielle Analyse en Composante Principale

Distances
3. LE CHOIX DE LA DISTANCE ENTRE INDIVIDUS

yB B
Dans le plan:
d 2 (A, B) = (x B − x A ) + (y B − y A )
2 2
A
yA

xA xB

Dans l’espace Rp à p dimensions, on généralise cette notion : la distance


euclidienne
Figure: entre
Deux deux
points le plan s’écrit:
individus
dans

(
e i = x1i x 2i . .. x ip ) (
e j = x1j x 2j . .. x pj )
(ei , xe jB) =)(2x1i+− x(y) A+ (−
1 2
B)
2+ ... ( x ip − x pj )
2 2
Dans le plan : d 2 (A, B) = (xdA −
2
j x 2i −yx 2j )

Dans l’espace R à p dimensions,


p on pgénéralise cette notion : la distance
d 2 (e i , e j ) = ∑ ( x ik − x kj ) Le problème des unités ?
2

euclidienne entre deux individus s’écrit k =1 : e = (x


i , x
i1 i2 , · · · , xik , · · · , xip ) et 10
ej = (xj1 , xj2 , · · · , xjk , · · · , xjp )
P
p
d 2 (ei , ej ) = (xi1 − xj1 )2 + (xi2 − xj2 )2 + · · · + (xip − xjp ) = (xik − xjk )2 .
k=1
Le problème des unités ?
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 36 / 97
Analyse Factorielle Analyse en Composante Principale

Standardiser les variables

En général, les variables n’ont pas les mêmes unités. Pour résoudre ce
problème, on choisit de transformer les données en données
centrées-réduites.
xik − x̄.k
L’observation xik est alors remplacée par : zik =
σ.k
où x̄.k représente la moyenne de la variable Xk
σ.k écart-type de la variable Xk

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 37 / 97


Analyse Factorielle Analyse en Composante Principale

Inertie totale

Inertie
L’inertie mesure la dispersion totale du nuage de points.

Inertie
Pn 1
Ig = d 2 (ei , ḡ )
i=1 n
ou de façon plus générale
P
n P n
Ig = pi d 2 (ei , ḡ ) avec pi = 1
i=1 i=1

Inertie
L’inertie est la somme pondérée des carrés des distances des individus au
centre de gravité ḡ

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 38 / 97


Analyse Factorielle Analyse en Composante Principale

Variances-covariances

Inertie

L’inertie est aussi égale à la somme des variances des variables étudiées.

Var (X1 )
 Cov (X1 , X2 ) ··· Cov (X1 , Xn )
Cov (X1 , X2 ) Var (X2 ) ··· Cov (X2 , Xn )
 

 .. 

En notant V la matrice de variances-covariances : V =  . 
 
 . . . . . . 
. . . . . .
 

. . . . . .

Cov (Xp , X1 ) Cov (Xp , X2 ) ··· Var (Xp )

Inertie
p
P
Ig = Var (Xi ) = Tr (V )
i=1

Remarques

Dans le cas où les variables sont centrées réduites, la variance de chaque variable vaut 1.
L’inertie totale est alors égale à p (nombre de variables).
La matrice de variance-covariance devient une matrice de corrélation lorsque les variables sont centrées-réduites.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 39 / 97


Analyse Factorielle Analyse en Composante Principale

Équivalence des deux critères concernant la perte


d’information

𝑒̅𝑖

𝑔̅ 𝑓𝑖̅
F

Figure: Projection orthogonale du nuage sur un sous-espace

Soit F un sous-ensemble de Rp .
f¯i la projection orthogonale de ēi sur F .
Inertie
kēi − ḡ k2 = kēi − f¯i k2 + kf¯i − ḡ k2 , ∀x = 1, · · · , n
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 40 / 97
Analyse Factorielle Analyse en Composante Principale

Équivalence des deux critères concernant la perte


d’information

On va chercher F tel que :


1
P
n
pi kēi − f¯i k2 soit minimal
i=1

ce qui revient d’après le théorème de Pythagore à maximiser :


2
P
n
pi kf¯i − ḡ k2
i=1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 41 / 97


Analyse Factorielle Analyse en Composante Principale

Équivalence des deux critères concernant la perte


d’information

kēi − ḡ k2 = kēi − f¯i k2 + kf¯i − ḡ k2 , ∀x = 1, · · · , n


n
X n
X n
X
pi kēi − ḡ k2 − pi kēi − f¯i k2 |{z}
= pi kf¯i − ḡ k2

|i=1 {z } |i=1 {z } |i=1 {z }
Inertietotale minimiser maximiser

P
n
Minimiser cette quantité pi kēi − f¯i k2 (carrés des distances entre
i=1
points individus et leurs projections).
Pn
Maximiser cette quantité pi kf¯i − ḡ k2 l’inertie du nuage projeté
i=1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 42 / 97


Analyse Factorielle Analyse en Composante Principale

La solution du problème posé

La recherche d’axes portant le maximum d’inertie équivaut à la


construction de nouvelles variables (auxquelles sont associés ces axes) de
variance maximale.
En d’autres termes, on effectue un changement de repère dans Rp de
façon à se placer dans un nouveau système de représentation où le premier
axe apporte le plus possible de l’inertie totale du nuage, le deuxième axe le
plus possible de l’inertie non prise en compte par le premier axe, et ainsi de
suite.
Cette réorganisation s’appuie sur la diagonalisation de la matrice de
variances-covariances.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 43 / 97


Analyse Factorielle Analyse en Composante Principale

Solution

Axes principaux
On appelle axes principaux d’inertie les axes de direction les vecteurs
1
propres de V = Z t Z normés à 1. Il y en a p.
n
Le premier axe est celui associé à la plus grande valeur propre . On le
note u1
Le deuxième axe est celui associé à la deuxième valeur propre . On le
note u2 .
···

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 44 / 97


Analyse Factorielle Analyse en Composante Principale

Composantes principales

À chaque axe est associée une variable appelée composante principale.


La composante c1 est le vecteur renfermant les cordonnées des
projections des individus sur l’axe 1.
La composante c2 est le vecteur renfermant les cordonnées des
projections des individus sur l’axe 2.
···
Pour obtenir ces coordonnées, on écrit que chaque composante principale
est une combinaison linéaire des variables initiales.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 45 / 97


Analyse Factorielle Analyse en Composante Principale

Propriétés des composantes principales

1 La variance d’une composante principale est égale à l’inertie portée


par l’axe principal qui lui est associé.
1ère composante c1 variance : λ1
2ème composante c2 variance : λ2
···
2 Les composantes principales sont non corrélées deux à deux.
En effet, les axes associés sont orthogonaux.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 46 / 97


Analyse Factorielle Analyse en Composante Principale

Représentation des individus

1 La variance d’une composante principale est égale à l’inertie portée


par l’axe principal qui lui est associé.
1ère composante c1 variance : λ1
2ème composante c2 variance : λ2
···
2 Les composantes principales sont non corrélées deux à deux.
En effet, les axes associés sont orthogonaux.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 47 / 97


Analyse Factorielle Analyse en Composante Principale

Coordonnées, contribution, cosninus carrés

Coordonnées
Les coordonnées des individus dans le nouvel espace des axes principaux
sont données par la formule matricielle : F = Z ∗ P avec Z la matrice
centrée réduite et P la matrice de passage constituée des vecteurs propres
1t
de la matrice V = ZZ rangés de manière décroissante suivant les
n
valeurs propres.

Les signes des vecteurs propres sont fixées arbitrairement ; ils peuvent être
différents d’un logiciel à un autre. Ce n’est pas un problème. Le plus important
est que les positions relatives entre les individus (proximités) et les variables
(corrélations)soient préservées.
L’ACP s’applique sur les variables actives.
Lorsque toutes (ou quasiment) les variables sont corrélées au premier axe, on dit
qu’il y a effet taille il n’est donc pas intéressant d’interpréter l’axe, il suffit de faire
une rotation des axes pour obtenir des axes facilement interprétables.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 48 / 97


Analyse Factorielle Analyse en Composante Principale

Coordonnées, contribution, cosninus carrés

Contribution
Elle indique l’influence de l’individu dans la définition de l’axe. Elle est
donnée par :
Fik2 Pn
CTRik = et CTRik = 1
n ∗ λk i=1

Il est très utile aussi de calculer pour chaque axe la contribution


apportée par les divers individus à cet axe.
Il n’est pas souhaitable qu’un individu ait une contribution excessive
(car facteur d’instabilité).
Il faut éliminer les individus de l’analyse dont la contribution est trop
importante.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 49 / 97


Analyse Factorielle Analyse en Composante Principale

Coordonnées, contribution, cosninus carrés

Cos 2
Il indique la qualité de la représentation de l’individu sur le facteur (fraction
F2 Pp
de son inertie restituée par le facteur) COSik2 = ik2 et COSik2 = 1
di j=1

Pour chaque individu, la qualité de sa représentation est définie par le carré du


cosinus de l’angle entre l’axe de projection et l’axe principal . Plus la valeur est
proche de 1, meilleure est la qualité de représentation
En général, les qualités de représentation sont données axe par axe. Pour avoir la
qualité de représentation dans un plan, on additionne les critères correspondant
aux axes étudiés.
Ce critère n’a pas de signification pour les individus proches de l’origine.
Quand on détecte un individu pour lequel le cosinus carré est faible, on doit tenir
compte de sa distance à l’origine avant d’indiquer qu’il est mal représenté.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 50 / 97


Analyse Factorielle Analyse en Composante Principale

Validité des représentations

Critère global
λi
mesure la part d’inertie expliquée par l’axe i.
λ1 + λ2 + · · · + λp

Exemple
λ1 + λ2
p est la part d’inertie expliquée par le premier plan principal.
P
λi
j=1

Ce critère (souvent exprimé en pourcentage) mesure le degré de reconstitution des carrés des
distances.
La réduction de dimension est d’autant plus forte que les variables de départ sont plus corrélées.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 51 / 97


Analyse Factorielle Analyse en Composante Principale

Combien d’axes retenir ?

Les critères les plus utilisables sont les suivantes :


Interprétation des axes
On retient que les axes que l’on peut attribuer une forme d’interprétation,
par exemple, soit directement, soit en terme des variables avec lesquelles
ils sont très corrélés.

Critère de Kaiser ou Kaizer (variables centrées et réduites)


On ne retient que les axes associés à valeurs propres supérieurs à 1,
c’est-à-dire dont la variance est supérieure à celle des variables d’origine.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 52 / 97


Analyse Factorielle Analyse en Composante Principale

Combien d’axes retenir ?


Pourcentage d’inertie souhaité
L’utilisateur se fixe un pourcentage de telle sorte qu’il soit supérieur à
50%. On retient les axes dont le cumul des variances expliquées est au
moins supérieur à 50%.
Combien d’axes ?
Différentes procédures sont complémentaires:
Éboulis des valeurs propres ou la règle de coude
c Pourcentage d’inertie souhaité : a priori

On cherche un « coude » dans le graphe des valeurs propres et on ne


d Diviser l’inertie totale par le nombre de variables initiales

associés aux valeurs propres situées avant le « coude ».


Ö inertie moyenne par variable : I.M.
conserve les axes
Conserver tous les axes apportant une inertie supérieure à cette valeur I.M.
(inertie > 1 si variables centrées réduites).

e Histogramme
4
.. λ 1 = 4,5
λ 2 = 3,8

Conserver les axes associés


3
2
. λ 3 = 2,9

aux valeurs propres situées


avant la cassure.
1 ....
λ1 λ2 λ3 λ4 λ5 λ6 λ7

cassure 29

Figure: On retient les 3 premiers axes


Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 53 / 97
Analyse Factorielle Analyse en Composante Principale

Représentation des variables (cercle de corrélations)

Le cercle des corrélations est la projection du nuage des variables sur le


plan des composantes principales. Les variables bien représentées sont
celles qui sont proches du cercle, celles qui sont proches de l’origine sont
mal représentées.

F2

F1

Figure: Cercle de corrélation de rayon 1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 54 / 97


Analyse Factorielle Analyse des correspondances Multiples

Plan

3 Analyse Factorielle
Analyse en Composante Principale
Analyse des correspondances Multiples
Analyse Factorielle des données Mixtes

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 55 / 97


Analyse Factorielle Analyse des correspondances Multiples

En projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 56 / 97


Analyse Factorielle Analyse Factorielle des données Mixtes

Plan

3 Analyse Factorielle
Analyse en Composante Principale
Analyse des correspondances Multiples
Analyse Factorielle des données Mixtes

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 57 / 97


Analyse Factorielle Analyse Factorielle des données Mixtes

En projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 58 / 97


Classification Généralité

Plan

4 Classification
Généralité
Classification Ascendante Hiérarchique
Classification des Centres mobiles : K-Means

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 59 / 97


Classification Généralité

Variantes de classification

Classification non-supervisée
Partant des données, l’objectif est de regrouper/classer les individus qui se
ressemblent le plus/qui ont des caractéristiques semblables.

Classification supervisée
Partant des données, l’objectif est de déterminer à quel groupe l’individu
ω∗ a le plus chance d’appartenir.

L’accent sera mis sur la classification non-supervisée : Classification


Ascendante Hiérarchique, Classification des Centres mobiles

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 60 / 97


Classification Généralité

Étude de la ressemblance
Matrice de données : On appelle matrice de données associées à Γ la matrice X
définie par

X1 X2 ··· Xj ··· Xp
 
ω1 x11 x12 ··· x1j ··· x1p
ω2  x21 x22 ··· x2j ··· x2p 
 
 
 . .. .. .. .. .. .. .. 
 .. . . . . . . . 
 
X(n,p) = ω x xi2 ··· xij ··· xip  (2)
i  i1 
 . .. .. .. .. .. .. .. 
 .. . . . . . . . 
 
 
ωn xn1 xn2 ··· xnj ··· xnp

Nuage de points : Pour tout i ∈ {1, · · · , n}, l’individu ωi peut être représenté
dans Rp par un point mi de coordonnées (xi1 , · · · , xip ). On appelle nuage de
points la représentation graphique de l’ensemble de ces points. Il est noté
N = {m1 , · · · , mn }.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 61 / 97
Classification Généralité

Étude de la ressemblance

Ressemblance : On dira que des individus se ressemblent si les points associés


sont proches les uns des autres/si les distances qui les séparent sont petites.
Ainsi, on souhaite rechercher dans N les zones denses pouvant correspondre à des
groupes d’individus qu’il s’agira d’interpréter par la suite.
Exemple
On considère la matrice
 données X associée à 5 individus, Γ = {ω1 , · · · , ω5 },
de
2 2
7, 5 4
 
définie par X =  
 3 3 La problématique est la suivante : comment
0, 5 5
6 4
regrouper ces individus en 2 ou 3 groupes, par exemple, en fonction de leur
position dans R2 ?

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 62 / 97


Classification Généralité

Distances

Distances : définition
On peut donc aborder le problème de la ressemblance entre individus par le biais
de la notion de distance. On appelle distance sur un ensemble M toute
application d : M 2 → [0, ∞[ telle que :
pour tout (x, y ) ∈ M 2 , on a d(x, y ) = 0 si, et seulement si, x = y ,
pour tout (x, y ) ∈ M 2 , on a d(x, y ) = d(y , x),
pour tout (x, y , z) ∈ M 3 , on a d(x, y ) ≤ d(x, z) + d(z, y ).

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 63 / 97


Classification Généralité

Exemple de distances
Distance euclidienne
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ys
m ) ∈ R . On appelle
m

Pm
distance euclidienne entre x et y la distance : d(x, y ) = (xi − yi )2 .
i=1

Distance de Manhattan
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On appelle
P
m
distance de Manhattan entre x et y la distance : d(x, y ) = | xi − yi | .
i=1

Distance de Minkowski
Soient m ∈ N∗ , q ≥ 1, x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On
appelle distance de Minkowski entre x et y la distance :
m  q1
P q
d(x, y ) = | xi − yi | .
i=1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 64 / 97


Classification Généralité

Exemple de distances

Distance de Canberra
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On appelle
Pm |x −y |
i i
distance de Canberra entre x et y la distance : d(x, y ) = .
i=1 | xi + yi |

Distance maximum
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On appelle
distance maximum entre x et y la distance : d(x, y ) = sup | xi − yi | .
i∈1,··· ,m

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 65 / 97


Classification Généralité

Écarts

Écarts
En notant P(Γ) l’ensemble des parties de Γ, on appelle écart toute application
e : P(Γ)2 → [0, ∞[ définie à partir d’une distance et évaluant la ressemblance
entre deux groupes d’individus.

Règle centrale
Plus l’écart entre deux éléments est petit, plus ils se ressemblent.

Écarts usuels
Parmi les écarts usuels entre deux groupes A et B/méthodes usuelles mesurant la
ressemblance entre deux groupes A et B, il y a :

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 66 / 97


Classification Généralité
usuels : Parmi les écarts usuels entre deux groupes A et B/méthodes usuelles mesurant la
Exemples d’écarts
essemblance entre deux groupes A et B, il y a :

Écart simple (single linkage)/Méthode du plus proche voisin :


Écart simple (single linkage)/Méthode du plus proche voisin
e(A, B) = min d(ω, ω ∗ ). B) =
e(A, min d(ω, ω∗ ).
(ω,ω∗ )∈A×B (ω,ω∗ )∈A×B
L’écart entre deux groupes A et B est caractérisé par la distance la plus faible
entre
L’écartunentre
point de groupes
deux A et unApoint
et B de
est B :
caractérisé par la distance la plus faible entre un
point de A et un point de B :

Écart complet (complete linkage)/Méthode dusimple


Figure: Écart voisin le plus éloigné :

e(A, B) = max d(ω, ω∗ ).


Dr Malicki ZOROM (2iE) Statistique(ω,ω∗ )∈A×B
et Analyse de Données 7 octobre 2022 67 / 97
Classification Généralité

Exemples d’écarts
Écart complet (complete linkage)/Méthode du voisin le plus éloigné :
Écart complet (complete linkage)/Méthode du voisin le plus éloigné
e(A, B) = max d(ω, ω ∗ ). B) =
e(A, max d(ω, ω∗ ).
(ω,ω∗ )∈A×B (ω,ω∗ )∈A×B
L’écart entre deux groupes A et B est caractérisé par la distance la plus forte
entre
L’écartun point
entre degroupes
deux A et un point
A et B estde B:
caractérisé par la distance la plus forte entre un point
de A et un point de B :

Écart moyen (average linkage)/Méthode


Figure: de lacomplet
Écart distance moyenne :

1 X X
e(A, B) = d(ω, ω∗ ),
Dr Malicki ZOROM (2iE) n An
Statistique etBAnalyse de Données 7 octobre 2022 68 / 97
ω∈A ω ∈B
Classification Généralité

Exemples d’écarts
Écart moyen (average linkage)/Méthode de la distance moyenne
1 P P
e(A, B) = d(ω, ω∗ ).
nA nB ω∈A ω∗ ∈B
té deoù nA est le nombre d’individus dans le groupe A, et nB le nombre d’individus
Caen Classification
dans le groupe B.
L’écart entre deux groupes A et B est caractérisé par la distance moyenne entre
L’écart entre deux groupes A et B est caractérisé par la distance moyenne entre les points
les points de A et B :
de A et B :

Écart de Ward : Soit d la distance euclidienne. La moyen


Figure: Écart méthode de Ward considère l’écart :

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 69 / 97


Classification Généralité

Exemples d’écarts

Écart de Ward
Soit d la distance euclidienne. La méthode de Ward considère l’écart
nA nB 2
e(A, B) = d (gA , gB ).
nA + nB
où gA est le centre de gravité de A, et gB celui de B. On rappelle que gA est le
point de coordonnées (x̄A1 , · · · , x̄Ap ), où, pour tout j ∈ {1, · · · , p}, x̄Aj désigne la
moyenne des valeurs observées du caractère Xj sur les nA individus du groupe A.
De même pour gB . Cette méthode prend en compte à la fois la dispersion à
l’intérieur d’un groupe et la dispersion entre les groupes. Elle est utilisée par
défaut dans la plupart des programmes informatiques.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 70 / 97


Classification Généralité

Tableau des écarts


Soit e un écart défini par une des méthodes précédentes. On appelle tableau des écarts associé
aux groupes d’individus (A1 , · · · , An ) le tableau :
A1 A2 ··· An−1 An
A1 0 e1,2 ··· e1,n−1 e1,n
A2 e2,1 0 ··· ··· ···
E=
··· ··· ··· ··· ··· ···
An−1 en−1,1 ··· ··· 0 en−1,n
An en,1 ··· ··· en,n−1 0
où, pour tout (u, v ) ∈ {1, · · · , n}2 avec u 6= v ,

e(u, v ) = e(Au , Av )

Exemple
2 2
 
7, 5 4
On considère la matrice de données X dans R2 définie par X =  3 3 . En considérant la
 
0, 5 5
6 4
méthode du voisin le plus éloigné munie de la distance euclidienne, donner le tableau des écarts.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 71 / 97


Classification Classification Ascendante Hiérarchique

Plan

4 Classification
Généralité
Classification Ascendante Hiérarchique
Classification des Centres mobiles : K-Means

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 72 / 97


Classification Classification Ascendante Hiérarchique

Algorithme de CAH

CAH : L’idée de l’algorithme de Classification Ascendante Hiérarchique (CAH)


est de créer, à chaque étape, une partition de Γ = {ω1 , · · · , n} en regroupant les
deux éléments les plus proches. Le terme ”élément” désigne aussi bien un individu
qu’un groupe d’individus.
Objectif : On veut
mettre en relief les liens hiérarchiques entre les individus ou groupe
d’individus,
détecter les groupes d’individus qui se démarquent le plus.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 73 / 97


Classification Classification Ascendante Hiérarchique

Description de l’algorithme

Algorithme CAH :
L’algorithme de CAH est décrit ci-dessous :
On choisit un écart. On construit le tableau des écarts pour la partition initiale des
n individus de Γ : P0 = {{ω1 }, · · · , {ωn }}. Chaque individu constitue un élément.
On parcours le tableau des écarts pour identifier le couple d’individus ayant l’écart
le plus petit. Le regroupement de ces deux individus forme un groupe A. On a
donc une partition de Γ de n − 1 éléments : A et les n − 2 individus restants.
On calcule le tableau des écarts entre les n − 1 éléments obtenus à l’étape
précédente et on regroupe les deux éléments ayant l’écart le plus petit (cela peut
être deux des n − 2 individus, ou un individu des n − 2 individus restants avec A).
On a donc une partition de Γ de n − 2 éléments.
On itère la procédure précédente jusqu’à ce qu’il ne reste que deux éléments.
On regroupe les deux éléments restants. Il ne reste alors qu’un seul élément
contenant tous les individus de Γ.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 74 / 97


Classification Classification Ascendante Hiérarchique

Dendrogramme

Dendrogramme
Les partitions de Γ faites à chaque étape de l’algorithme de la CAH peuvent se visualiser
via un arbre appelé dendrogramme. Sur un axe apparait les individus à regrouper et sur
l’autre axe sont indiqués les écarts correspondants aux différents niveaux de
regroupement. Cela se fait graphiquement par le biais de branches et de noeuds.
Une partition naturelle se fait en coupant l’arbre au niveau du plus grand saut de noeuds.

Exemple
 
2 2
7, 5 4
On considère la matrice de données X dans R2 définie par X = 
 
 3 3
 . Regrouper
0, 5 5
6 4
les individus avec l’algorithme CAH et la méthode du voisin le plus éloigné munie de la
distance euclidienne.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 75 / 97


Classification Classification Ascendante Hiérarchique

Implémentation de CAH sous RStudio

On met les données dans une matrice et on trace le nuage de points :

x = c(2, 7.5, 3, 0.5, 6, 2, 4, 3, 5, 4)


m = matrix(x, ncol = 2, nrow = 5)
plot(m)

On calcule les distances euclidiennes :

dist(m)

On met en oevre l’algorithme CAH avec la méthode du voisin le plus éloigné (complete linkage) :

hc = hclust(dist(m), ”complete”)

On affiche les regroupements :

hc$merge

On affiche les écarts de regroupements

hc$height

On trace le dendrogramme :

plot(hc, hang = -1)

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 76 / 97


Classification Classification Ascendante Hiérarchique

Implémentation de CAH sous RStudio

On peut demander à quel groupe chaque individu appartient suivant la hauteur des sauts avec la commande cutree. Avec 2
groupes, on a :

b = cutree(hc, k = 2)
b

Les effectifs dans chaque groupe s’obtiennent en faisant :

table(b)

Les indices des individus dans le groupe 1 (par exemple) peuvent s’obtenir en faisant :

(1 :5)[b == 1]
(ou rownames(m)[b == 1] si des noms aux lignes de la matrice ou de la [Link] existent)

On peut alors afficher clairement les groupes sur le dendrogramme :

[Link](hc, 2)

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 77 / 97


Classification Classification Ascendante Hiérarchique

CAH et méthode de Ward

Centre de gravité
On appelle centre de gravité du nuage de points N = {m1 , · · · , mn } le point g de
coordonnées (x 1 , · · · , x p ) où, pour tout j ∈ {1, · · · , p}
1P n
xj = xij
n i=1

Pour raison de simplicité, on dira que g est le centre de gravité associé à


Γn = {ω1 , · · · , ωn } on ne se ramènera pas toujours au nuage de point associé.

Inertie totale
On appelle inertie totale de N autour de son centre de gravité g le réel :
n
1X 2
Itot = d (ωi , g )
n i=1
p n
1P
σj2 avec σj2 = (xij − x j )2
P
On peut remarquer que Itot =
j=1 n i=1
L’inertie de N est une mesure de l’homogénéité de N .

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 78 / 97


Classification Classification Ascendante Hiérarchique

CAH et méthode de Ward

Inertie d’un sous-nuage de points : Soient k ∈ {1, · · · , n} et P = (Nl )l∈{1,··· ,k} une
partition de N . Ainsi, pour tout l ∈ {1, · · · , k}, Nl est un sous-nuage de points de N .
On note
nl le nombre d’individus représentés par Nl ,
gl le centre de gravité de Nl , donc le point de coordonnées (x l1 , · · · , x lp ), où, pour
tout j ∈ {1, · · · , p}, x lj ‘ désigne la moyenne des valeurs observées du caractère Xj
sur les nl individus du sous-nuage Nl .
Inertie totale : On appelle inertie totale de Nl autour de son centre de gravité gl
1 P 2
le réel : I(Nl ) = d (ωi , gl ).
nl i∈Nl
Inertie intra-classes : On appelle inertie intra-classes le réel :
k n p Pk P
l 1P
(xij − x lj )2 .
P
Iintra (P) = I(Nl ) =
l=1 n n j=1 l=1 i∈Nl
L’inertie intra-classes mesure l’homogénéité de l’ensemble des sous-nuages de la
partition.
Inertie inter-classes : On appelle inertie inter-classes le réel :
k n p P k P
l 2 1P
(x j − x lj )2 .
P
Iextra (P) = d (gl , g ) =
l=1 n n j=1 l=1 i∈Nl
L’inertie inter-classes mesure la séparation entre les sous-nuages de la partition.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 79 / 97
n n
Classification
`=1 Classification Ascendante
j=1 `=1 i∈N ` Hiérarchique

L’inertie inter-classes mesure la séparation entre les sous-nuages de la partition.


CAH et méthode de Ward
Décomposition de Huygens : Pour toute partition P de N , on a
Décomposition de Huygens :
Pour toute partition P de N , on a
I = Iintra (P) + Iinter (P).
Itottot= Iintra (P) + Iextra (P).

On constate que minimiser l’inertie intra-classes est équivalent à maximiser l’inertie inter-classes. Cette décomposition est
On constate
illustrée par les schémas que minimiser
ci-dessous : l’inertie intra-classes est équivalent à maximiser l’inertie inter-classes.

Cette décomposition est illustrée par les schémas ci-dessous :

Figure: Inertie

Le point
Le point g est le centre est le du
de ggravité centre de de
nuage gravité dugnuage
points, de points, g1 est celui du sous-nuage de points à
1 est celui du sous-nuage de points à gauche, g2 est celui du sous-nuage
de points à droite gauche,
et g3 est
g2celui du sous-nuage
est celui de points
du sous-nuage en bas.
de points Les traits
à droite et g3 de
estcouleurs
celui du représentent
sous-nuage de lespoints
distances
en entre les points
et les centres de gravité.
Alors la somme des bas. Les traits
distances desdetraits
couleurs
bleusreprésentent
au carré estleségale
distances entre les
à la somme despoints et lesdes
distances centres
traitsdeverts
gravité.
au carré plus la somme
des traits orange au carré.

C. Chesneau 34
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 80 / 97
Classification Classification Ascendante Hiérarchique

CAH et méthode de Ward

Sur l’écart de Ward : L’utilisation de l’algorithme de CAH avec la méthode de Ward est justifiée
par le résultat suivant :
Soient Γn = {ω1 , · · · , ωn } individus et g le centre de gravité associé. Soient A et B deux
groupes d’individus
d’effectifs respectifs nA et nB ,
de centres de gravité associés respectifs gA et gB .
Le regroupement de A et B, noté A ∪ B, a pour centre de gravité :

nA gA + nB gB
gA∪B =
nA + nB

1
La perte d’inertie inter-classes lors du regroupement de A et B est égale à multiplié par
n
nA nB
nA d 2 (gA , g ) + nB d 2 (gB , g ) − (nA + nB )d 2 (gA∪B , g ) = d 2 (gA , gB ).
nA + nB

On reconnait alors l’écart de Ward qui est donc une mesure de la perte d’inertie inter-classes lors
du regroupement de A et B. Ainsi, à chaque étape de l’algorithme de CAH, on veut regrouper
des éléments dont le regroupement provoque une perte minimale de l’inertie inter-classes.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 81 / 97


Classification Classification Ascendante Hiérarchique

CAH et méthode de Ward

Dendrogramme associé à l’écart de Ward :


Pour la hauteur des branches, on peut soit prendre les écarts, soit prendre
les inerties intra-classe correspondants aux différents niveaux de
regroupement.

Commande agnes et écart de Ward :


La commande agnes avec method = ”ward” dans RStudio considère un
écart défini comme une transformation de l’écart de Ward original :
r
nA nB 2 √
e(A, B) = 2 d (gA , gB ) = 2 × ecart de Ward
nA + nB

Cela ne change rien quant à la hiérarchie de la classification.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 82 / 97


Classification Classification Ascendante Hiérarchique

Qualité d’une représentation

Coefficient d’agglomération : On appelle coefficient d’agglomération le


réel :
n  
1X e(ωi , Ai )
AC = 1−
n e(Q, R)
i=1

où
pour tout i ∈ {1, · · · , n}, Ai désigne le premier élément avec lequel ωi
a été regroupé,
Q et R désignent les deux éléments rassemblés à l’étape finale de
l’algorithme.
On a AC ∈]0, 1[.
Plus AC est proche de 1, plus les individus sont fortement structurés en
plusieurs groupes. Une valeur proche de 0 signifie que les individus
appartiennent tous à un même groupe.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 83 / 97
Classification Classification Ascendante Hiérarchique

Qualité d’une représentation

Indice de silhouette : Pour tout i ∈ {1, · · · , n}, on appelle indice de


silhouette associé à l’individu ωi le réel :

bi − ai
S(i) = ,
max(ai , bi )
où
ai est la moyenne des distances entre ωi et les individus de son groupe,
bi est la moyenne des distances entre ωi et les individus du groupe le
plus proche de celui auquel il appartient.
On a S(i) ∈] − 1, 1[.
Plus S(i) est proche de 1, plus l’appartenance de ωi a son groupe est
justifiée.
Ainsi, les individus ayant des grands indices de silhouette sont bien
regroupés.
Si l’indice de silhouette d’un individu est négatif, l’individu n’est pas dans
le bon groupe et pourrait être déplacé dans le groupe le plus proche.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 84 / 97
Classification Classification Ascendante Hiérarchique

Qualité d’une représentation

Largeur de silhouette : On appelle largeur de silhouette de la partition


le réel :
n
1X
S= S(i).
n
i=1

On a alors l’interprétation suivante :


Valeur de S Nature de la structure
∈]0.51, 1] Forte
∈]0.31, 0.50] Raisonnable
∈ [0, 0.30[ Faible
∈ [−1, 0[ Inexistante
On peut également calculer S pour les individus d’un groupe.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 85 / 97


Classification Classification Ascendante Hiérarchique

Exemple

Exemple

 matrice de données X dans R définie par


On considère la 2

2 2
7, 5 4
 
X = 3 3 .

0, 5 5
6 4
Regrouper les individus avec l’algorithme CAH et la méthode de Ward
munie de la distance euclidienne.
Déterminer à chaque étape l’inertie intra-classe. Conclure.
Déterminer le coefficient d’agglomération.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 86 / 97


Classification Classification Ascendante Hiérarchique

Implémentation avec RStudio

# Création d’un vecteur


x = c(2, 7.5, 3, 0.5, 6, 2, 4, 3, 5, 4)

#Transformer le vecteur précédent en matrice


m = matrix(x, ncol = 2, nrow = 5)

# La classification nécessite le chargement du package cluster


library(cluster)

# Le script permet de construire le CAH avec la méthode Ward en utilisant la


commande agnes pour le calcul des hauteurs
ag = agnes(m, method = ”ward”)

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 87 / 97


Classification Classification Ascendante Hiérarchique

Implémentation avec RStudio

# Le script permet d’afficher les arguments de ag


ag

# Le script permet d’afficher le dendrogramme


pltree(ag, hang = -1)

# Le script permet d’afficher le coefficient d’agglomération


ag$ac

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 88 / 97


Classification Classification des Centres mobiles : K-Means

Plan

4 Classification
Généralité
Classification Ascendante Hiérarchique
Classification des Centres mobiles : K-Means

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 89 / 97


Classification Classification des Centres mobiles : K-Means

Algorithme des centres mobiles (K-means)

Algorithme de K-means :

L’algorithme des centres mobiles vise à classer une population Γ en q classes. Cela se fait de manière automatique ; il n’y a pas
de lien hiérarchique dans les regroupements contrairement à l’algorithme CAH. Il est le mieux adapté aux très grands tableaux
de données.
L’algorithme des centres mobiles avec la méthode de Lloyd (la plus standard) est décrit ci-dessous :
On choisit q points au hasard dans Rp . Ces points sont appelés centres.
On calcule le tableau de distances entre tous les individus et les q centres.
On forme alors q groupes de la manière suivante : chaque groupe est constitué d ?un centre et des individus les plus
proches de ce centre que d’un autre. On obtient une partition P1 de Γ.
On calcule le centre de gravité de chacun des q sous-nuages de points formés par les q groupes. Ces q centres de gravité
sont nos nouveaux q centres.
On calcule le tableau de distances entre tous les individus et les nouveaux q centres.
On forme alors q groupes, chaque groupe étant constitué d’un centre et des individus les plus proches de ce centre que
d’un autre. On a une nouvelle partition P2 de Γ.
On itère la procédure précédente jusqu’à ce que deux itérations conduisent à la même partition.

Remarque importante

La classification des individus dépend du choix des centres initiaux. Plusieurs méthodes existent pour choisir judicieusement ces
centres.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 90 / 97


Classification Classification des Centres mobiles : K-Means

Exemple

Dans une étude industrielle, on a étudié 2 caractères : X1 et X2 , sur 6 individus ω1 , · · · , ω6 . Les


données recueillies sont :
X1 X2
ω1 -2 2
ω2 -2 -1
ω3 0 -1
ω4 2 2
ω5 -2 3
ω6 3 0
Faire une classification par l’algorithme des centres mobiles avec, pour centres initiaux, c10 de
coordonnées (−1, −1) et c20 de coordonnées (2; 3).

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 91 / 97


Classification Classification des Centres mobiles : K-Means

Implémentation de K-means sous RStudio

x = c(-2, -2, 0, 2, -2, 3, 2, -1, -1, 2, 3, 0)


m = matrix(x, ncol = 2, nrow = 6)
clus = kmeans(m, centers = rbind(c(-1, -1), c(2, 3)), algorithm = ”Lloyd”)
clus$cluster
clus$centers
plot(m, col = clus$cluster, pch = 1, lwd = 3, xlab = ”X1”, ylab = ”X2”)
points(clus$centers, col = 1 :2, pch = 9, lwd = 3)

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 92 / 97


Projet

Projet Interdisciplinaire de l’UE Recherche et traitement de


l’information
ECUEs concernées
Recherche bibliographique et communication scientifique
Techniques et outils de collectes des données
Statistique et analyse de données
Systèmes d’information géographique 2

Lien de la base des données


[Link]

Description de l’OCDE
L’Organisation de coopération et de développement économiques (OCDE) est une
organisation internationale qui œuvre pour la mise en place de politiques meilleures pour
une vie meilleure.
L’objectif est de promouvoir des politiques publiques qui favorisent la prospérité, l’égalité
des chances et le bien-être pour tous. ([Link]
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 93 / 97
Projet

Données disponibles dans la base


L’OCDE contient des données de l’environnement en particulier sur : Air et
climat, Biodiversité, Déchets, Eau, Forêts, Matériaux et les Politiques
environnementales de plusieurs pays sur plusieurs années.

Objectif du projet
L’objectif de ce projet est d’extraire, d’analyser et d’interpréter des
informations à travers des sélections multicritères, dans le but de répondre
à des questions de recherche préalablement formulées. Il s’agira
particulièrement d’élaborer une typologie de pays à partir de données
spatialisées sur des variables environnementales. La finalité est de formuler
des recommandations à l’endroit des décideurs pour répondre à la
problématique identifiée.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 94 / 97


Projet

Projet

Ce projet doit faire ressortir les points suivants


A partir des données disponibles dans la base de données, définir une
problématique et la formuler sous forme de plusieurs questions de recherche (par
exemple, existe-t-il des corrélations entre la qualité de l’air et la biodiversité ? ou
entre la production de déchets municipaux et la qualité de l’air ? etc.) Ces
questions devront être traitées à l’échelle de plusieurs pays
Réaliser une revue bibliographique sur la problématique retenue (maximum de 10
pages, en utilisant entre 15 et 30 références bibliographiques)
Présenter les données extraites et expliquer la méthode d’échantillonnage utilisée
pour extraire vos données de la base, en prenant soin d’éviter toutes formes de
biais dans le choix des variables (expliquer la pertinence du plan d’échantillonnage
que vous aurez choisi)
Concevoir des outils de collecte de données qui ont pu être utilisés pour élaborer la
base de données sur laquelle chaque groupe s’appuiera pour la présentation de ces
travaux

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 95 / 97


Projet

Projet

Ce projet doit faire ressortir les points suivants


A partir des données disponibles dans la base de données, définir une
problématique et la formuler sous forme de plusieurs questions de recherche (par
exemple, existe-t-il des corrélations entre la qualité de l’air et la biodiversité ? ou
entre la production de déchets municipaux et la qualité de l’air ? etc.) Ces
questions devront être traitées à l’échelle de plusieurs pays
Réaliser une revue bibliographique sur la problématique retenue (maximum de 10
pages, en utilisant entre 15 et 30 références bibliographiques)
Présenter les données extraites et expliquer la méthode d’échantillonnage utilisée
pour extraire vos données de la base, en prenant soin d’éviter toutes formes de
biais dans le choix des variables (expliquer la pertinence du plan d’échantillonnage
que vous aurez choisi)
Concevoir des outils de collecte de données qui ont pu être utilisés pour élaborer la
base de données sur laquelle chaque groupe s’appuiera pour la présentation de ces
travaux

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 95 / 97


Projet

Projet

Ce projet doit faire ressortir les points suivants


A partir des données disponibles dans la base de données, définir une
problématique et la formuler sous forme de plusieurs questions de recherche (par
exemple, existe-t-il des corrélations entre la qualité de l’air et la biodiversité ? ou
entre la production de déchets municipaux et la qualité de l’air ? etc.) Ces
questions devront être traitées à l’échelle de plusieurs pays
Réaliser une revue bibliographique sur la problématique retenue (maximum de 10
pages, en utilisant entre 15 et 30 références bibliographiques)
Présenter les données extraites et expliquer la méthode d’échantillonnage utilisée
pour extraire vos données de la base, en prenant soin d’éviter toutes formes de
biais dans le choix des variables (expliquer la pertinence du plan d’échantillonnage
que vous aurez choisi)
Concevoir des outils de collecte de données qui ont pu être utilisés pour élaborer la
base de données sur laquelle chaque groupe s’appuiera pour la présentation de ces
travaux

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 95 / 97


Projet

Projet

Ce projet doit faire ressortir les points suivants


A partir des données disponibles dans la base de données, définir une
problématique et la formuler sous forme de plusieurs questions de recherche (par
exemple, existe-t-il des corrélations entre la qualité de l’air et la biodiversité ? ou
entre la production de déchets municipaux et la qualité de l’air ? etc.) Ces
questions devront être traitées à l’échelle de plusieurs pays
Réaliser une revue bibliographique sur la problématique retenue (maximum de 10
pages, en utilisant entre 15 et 30 références bibliographiques)
Présenter les données extraites et expliquer la méthode d’échantillonnage utilisée
pour extraire vos données de la base, en prenant soin d’éviter toutes formes de
biais dans le choix des variables (expliquer la pertinence du plan d’échantillonnage
que vous aurez choisi)
Concevoir des outils de collecte de données qui ont pu être utilisés pour élaborer la
base de données sur laquelle chaque groupe s’appuiera pour la présentation de ces
travaux

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 95 / 97


Projet

Projet

Ce projet doit faire ressortir les points suivants


Expliquer s’il existe des données manquantes et comment elles seront
comblées
Présenter les méthodes d’analyse de données utilisées pour élaborer la
typologie des pays
Présenter sur une carte les pays sélectionnés avec les résultats
spatialisés : il s’agira de présenter une répartition spatiale sous forme
de carte pour chaque thématique retenue pour les pays concernés
Analyser et interpréter les résultats obtenus en donnant des réponses
aux questions de recherche (confirmation ou infirmation des
hypothèses) et en formulant des recommandations pour
l’approfondissement de l’étude (par exemple, nouvelles hypothèses
pertinentes à tester) et des orientations à l’endroit des décideurs pour
la résolution de la problématique

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 96 / 97


Projet

Projet

Ce projet doit faire ressortir les points suivants


Expliquer s’il existe des données manquantes et comment elles seront
comblées
Présenter les méthodes d’analyse de données utilisées pour élaborer la
typologie des pays
Présenter sur une carte les pays sélectionnés avec les résultats
spatialisés : il s’agira de présenter une répartition spatiale sous forme
de carte pour chaque thématique retenue pour les pays concernés
Analyser et interpréter les résultats obtenus en donnant des réponses
aux questions de recherche (confirmation ou infirmation des
hypothèses) et en formulant des recommandations pour
l’approfondissement de l’étude (par exemple, nouvelles hypothèses
pertinentes à tester) et des orientations à l’endroit des décideurs pour
la résolution de la problématique

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 96 / 97


Projet

Projet

Ce projet doit faire ressortir les points suivants


Expliquer s’il existe des données manquantes et comment elles seront
comblées
Présenter les méthodes d’analyse de données utilisées pour élaborer la
typologie des pays
Présenter sur une carte les pays sélectionnés avec les résultats
spatialisés : il s’agira de présenter une répartition spatiale sous forme
de carte pour chaque thématique retenue pour les pays concernés
Analyser et interpréter les résultats obtenus en donnant des réponses
aux questions de recherche (confirmation ou infirmation des
hypothèses) et en formulant des recommandations pour
l’approfondissement de l’étude (par exemple, nouvelles hypothèses
pertinentes à tester) et des orientations à l’endroit des décideurs pour
la résolution de la problématique

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 96 / 97


Projet

Projet

Ce projet doit faire ressortir les points suivants


Expliquer s’il existe des données manquantes et comment elles seront
comblées
Présenter les méthodes d’analyse de données utilisées pour élaborer la
typologie des pays
Présenter sur une carte les pays sélectionnés avec les résultats
spatialisés : il s’agira de présenter une répartition spatiale sous forme
de carte pour chaque thématique retenue pour les pays concernés
Analyser et interpréter les résultats obtenus en donnant des réponses
aux questions de recherche (confirmation ou infirmation des
hypothèses) et en formulant des recommandations pour
l’approfondissement de l’étude (par exemple, nouvelles hypothèses
pertinentes à tester) et des orientations à l’endroit des décideurs pour
la résolution de la problématique

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 96 / 97


Projet

Modalités d’évaluation et remise de projet


Modalités d’évaluation : Évaluation des livrables et soutenance devant le jury de l’UE
Date limite de remise du projet : 12 avril 2021 à 12h00, délai de rigueur

Les fichiers à rendre avant la présentation devant le jury de l’UE


Le rapport du projet rédigé en anglais
La base de données extraite sous format Excel
Le fichier RMarkdown du rapport
Le power point ou Beamer de la présentation
Les fichiers shapefiles des cartes produites et le fichier de la session de travail de l’outil sig
(projet sig)
Le fichier excel de matrice pme correctement rempli

Date de la soutenance ( à définir)


Former un groupe de 4 personnes maximum en optimisant la diversité en matière de genre
et de multiculturalité
Organisation de l’équipe en mode projet : il vous est demandé de vous inscrire au MOOC
gestion de projet ([Link]) et de suivre au moins les 4 premières
semaines du MOOC (début des cours le 8 mars 2021).

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 97 / 97

Vous aimerez peut-être aussi