0% ont trouvé ce document utile (0 vote)

70 vues107 pages

Statistiques et Analyse des Données

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

70 vues107 pages

Statistiques et Analyse des Données

Transféré par

Zinatou Abembou

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique et Analyse de Données

Dr Malicki ZOROM

Cours de Statistique et Analyse des Données de S7

”Département Sciences et Techniques de l’Ingénieur”
email: [Link]@[Link]
Institut 2iE
7 octobre 2022

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 1 / 97

Plan

1 Généralité

2 Rappel d’éléments de Statistique descriptive

3 Analyse Factorielle

4 Classification

5 Projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 2 / 97

Plan

1 Généralité

2 Rappel d’éléments de Statistique descriptive

3 Analyse Factorielle

4 Classification

5 Projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 2 / 97

Plan

1 Généralité

2 Rappel d’éléments de Statistique descriptive

3 Analyse Factorielle

4 Classification

5 Projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 2 / 97

Plan

1 Généralité

2 Rappel d’éléments de Statistique descriptive

3 Analyse Factorielle

4 Classification

5 Projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 2 / 97

Plan

1 Généralité

2 Rappel d’éléments de Statistique descriptive

3 Analyse Factorielle

4 Classification

5 Projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 2 / 97

Plan

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 3 / 97

Généralité

Logiciels utilisés et Bibliographie

Logiciels
: [Link]
RStudio : [Link]

Installation des packages de : Shiny, FactoShiny, FactoMineR, FactoInvestigate,

Rcmdr, ggplot2

Bibliographie
Conseil : Ne jamais acheter un livre sur .
FactoMiner : [Link]

: [Link]

Apprendre les B-A-BA de : [Link]

1393696-effectuez-vos-etudes-statistiques-avec-r

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 4 / 97

Généralité

Analyse des données

Introduction
L’analyse des données est une technique relativement ancienne 1930
(PEARSON, SPEARMAN, HOTELLING). Elle a connu cependant des
développements récents 1960-1970 du fait de l’expansion de l’informatique.
L’analyse des données est une technique d’analyse statistique d’ensemble de
données. Elle cherche à décrire des tableaux et à en exhiber des relations
pertinentes.
L’objectif de la démarche statistique est de faire apparaı̂tre ces liaisons. Les
deux types de relations fondamentales sont les relations d’équivalence et les
relations d’ordre. Ainsi, une population peut-elle être décomposée en classes
hiérarchisées.

But
Synthétiser, structurer l’information contenue dans des données
multidimensionnelles (n individus, p variables).

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 5 / 97

Généralité

Analyse des données

L’analyse des données est une des branches les plus vivantes de la
statistique.

Variantes
Les principales méthodes de l’analyse des données se séparent en deux
groupes :
Les méthodes factorielles.
Les méthodes de classification

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 6 / 97

Généralité

Méthodes

Algèbre linéaire
les données sont vues de manière abstraites comme un nuage de points
dans un espace vectoriel. On utilise :
Des matrices qui permettent de manipuler un ensemble de variables
comme un objet mathématique unique ;
Des valeurs et vecteurs propres qui permettent de décrire la structure
d’une matrice.
Des métriques : permettent de définir la distance entre deux points de
l’espace vectoriel ; on utilise aussi des produits scalaires.

Théorie des probabilités

nécessaire en statistique inférentielle (estimation, tests,modélisation et
prévision,...).

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 7 / 97

Généralité

Rappels de géométrie

Distance entre deux points, Produit scalaire

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 8 / 97

Généralité

Rappels sur les matrices

Transposée d’une matrice, Inverse d’une Matrice, Matrice identité, Matrice

diagonale, Trace d’une matrice, Valeurs propres, Vecteurs
propres,Sous-espace propre, Diagonalisation, Déterminant,

Déterminer la transposée, l’inverse, le déterminant, le polynôme

caractéristique, les valeurs propres(Spectre), Vecteurs propres,Sous-espace
propre.
 A Est-elle Diagonalisable
 ?
5 1 −1
A = 2 4 −2
1 −1 3

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 9 / 97

Généralité

Rappels de mécanique

Centre de gravité
Le centre de gravité d’un solide, ou barycentre, correspond à la notion
statistique de moyenne.

Inertie
L’inertie d’un solide correspond à la notion de variance

Inertie
Un corps a d’autant plus d’inertie qu’il faut d’énergie pour le mettre en
rotation autour d’un axe.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 10 / 97

Rappel d’éléments de Statistique descriptive

Statistique descriptive

Des notions à connaı̂tre

Série numérique,Variable (discrète,continue, binaire), Fonction de
répartition empirique, Statistiques de tendance centrale (
moyenne,médiane, mode),Statistiques de dispersion (variance,écart-type,
écart interquartile),Variables centrées-réduites, Statistiques
d’ordre(Quantiles), Covariance, Corrélation, Nuage de points, Droite de
régression, Matrice de variance-covariance, Matrice de
corrélation,Histogramme, Boxplots.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 11 / 97

Rappel d’éléments de Statistique descriptive

La Statistique Descriptive
Ensemble des méthodes et techniques permettant de présenter, de décrire, de résumer, des
données nombreuses et variées.

Population statistique
Ensemble étudié dont les éléments sont des individus ou unités statistiques.

Recensement
Étude de tous les individus d’une population donnée.

Sondage
Étude d’une partie seulement d’une population appelée échantillon.

Échantillon
Ensemble d’individus extraits d’une population initiale de manière aléatoire de façon à ce qu’il
soit représentatif de cette population.

Caractère
Aspect des individus que l’on étudie

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 12 / 97

Rappel d’éléments de Statistique descriptive

Nature du caractère ( variable)

1 quantitatives : nombres sur lesquels les opérations usuelles (somme,moyenne,...) ont un
sens ; elles peuvent être discrètes (ex : nombre d’éléments dans un ensemble) ou continues
(ex : prix, taille) ;
La variable peut alors être discrète ou continue selon la nature de l’ensemble des valeurs
qu’elle est susceptible de prendre (valeurs isolées ou intervalle).
2 qualitatives : appartenance a une catégorie donnée ; elles peuvent être nominales (ex :
sexe, goût) ou ordinales quand les catégories sont ordonnées (ex : très résistant, assez
résistant, peu résistant).
On distingue des variables qualitatives ordinales ou nominales, selon que les modalités
peuvent être naturellement ordonnées ou pas.
Une variable est ordinale si l’ensemble des catégories est munie d’un ordre total si non elle
est nominale

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 13 / 97

Rappel d’éléments de Statistique descriptive

Figure: Typologies des variables

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 14 / 97

Rappel d’éléments de Statistique descriptive

paramètres de position (centrale) et dispersion

Introduction
on dispose d’une série d’indicateurs qui ne donne qu’une vue partielle des données :
effectif, moyenne, médiane, variance, écart type, minimum, maximum, étendue, 1er
quartile, 3ème quartile, ...
Ces indicateurs mesurent principalement la tendance centrale et la dispersion. On utilisera
principalement la moyenne, la variance et l’écart. type.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 15 / 97

Rappel d’éléments de Statistique descriptive

Paramètres de position(centrale)

La moyenne arithmétique
La moyenne arithmétique d’une série brute numérique x1 , x2 , · · · , xn est le quotient de la somme
1 Pn Pq
des observations par leur nombre x̄ = xi ou pour des données pondérées x̄ = pi xi avec
n i=1 i=1
q ≤ n.

Propriété
La moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les
observations et est sensible aux valeurs extrêmes. Elle est très utilisée a cause de ses bonnes
propriétés mathématiques.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 16 / 97

Rappel d’éléments de Statistique descriptive

Paramètres de dispersion

Variance et écart-type
La variance et écart-type calculés généralement en complément de la moyenne, pour mesurer la
plus ou moins grande dispersion autour de celle-ci la variance de x est définie par
n q
V (X ) = σx2 = n1 (xi − x̄)2 ou pour des données pondérées V (X ) = σx2 = pi (xi − x̄)2 avec
P P
i=1 i=1
q ≤ n. L’écart type σx est la racine carrée de la variance.

Propriété
q
La variance satisfait la formule suivante σx2 = pi xi2 − (x̄)2 avec q ≤ n. La variance est « la
P
i=1
moyenne des carres moins le carre de la moyenne ». L’écart-type, qui a la même unité que x, est
une mesure de dispersion.

Attention !
1
les calculatrices utilisent l’estimateur sans biais de la variance dans lequel le est remplacé par
n
1
.
n−1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 17 / 97

Rappel d’éléments de Statistique descriptive

Distribution statistique à deux variables : Mesure de liaison entre deux variables quantitatifs

Covariance
La covariance observée entre deux variables x et y est
Pq q
P
Cov (X , Y ) = σxy = pi (xi − x̄)(yi − ȳ ) = pi xi yi − xy
¯ avec q ≤ n.
i=1 i=1

Coefficient de r de Bravais-Pearson ou coefficient de corrélation

Le coefficient de r de Bravais-Pearson ou coefficient de corrélation est donnée par
Pq
pi (xi − x̄)(yi − ȳ )
σxy i=1
rxy = = s s avec q ≤ n.
σx σy q q
2 2
P P
pi (xi − x̄) pi (yi − ȳ )
i=1 i=1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 18 / 97

Rappel d’éléments de Statistique descriptive

Distribution statistique à deux variables : Mesure de liaison entre deux variables quantitatifs

Propriété
La covariance est positive si X et Y ont tendance à varier dans le même sens, et
négative si elles ont tendance à varier en sens contraire.
La covariance ne dépend pas de l’origine choisie pour X et Y , mais dépend des unités de
mesure. C’est pourquoi, pour mesurer l’aspect plus ou moins ”allongé” du nuage dans une
direction, par un coefficient sans unité : C’est le coefficient de corrélation linéaire.
Ce coefficient, symétrique en X et Y , indépendant des unités choisies pour X et Y , et de
l’origine, est toujours compris entre - 1 et 1.
|rxy | = 1 si et seulement si x et y sont linéairement liées En
particulier, rxx = 1.
si rxy = 0, on dit que les variables sont de-corrélées ou indépendants.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 19 / 97

Rappel d’éléments de Statistique descriptive

Signification du coefficient de corrélation

Qu’est-ce qui est significatif ?

Si on a assez de données (n ≥ 30), on peut considérer qu’une corrélation
supérieure à 0, 5 est forte, et une corrélation entre 0, 3 et 0, 5 est moyenne.
Une corrélation égale à 1 indique que les deux variables sont équivalentes.

Qu’est-ce cela veut dire ?

Une corrélation significative indique que une liaison entre deux variables,
mais pas nécessairement un lien de causalité. Par exemple :
Le nombre de pompiers présents pour combattre un incendie est corrélé
aux dégâts de l’incendie. Mais ce ne sont pas les pompiers qui causent les
dégâts.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 20 / 97

En particulier, cor(x, x) = 1.
Rappel d’éléments de Statistique descriptive
Variables décorrélées si cor(x, y) = 0, on dit que les va-
riables Exemple 2 Im
Exemple du coefficient desont décorrélées. Cela ne veut pas dire qu’elles sont
corrélation vers les États-U
indépendantes !
collision avec un
On a 4 variables numériques avec 30 individus représenté deux à deux dans la figure (21)
Le coefficient de corrélation par l’exemple
D
ci-dessous
1999 2000
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 150 million barrels

US crude oil imports from Norway

0.8
x1 −0.0052

−0.99 0.13 100 million barrels

0.4
0.0
● ● ●
●●
50 million barrels
0.8

●
●

0.88
● ●
●
●
●
●
● ●
● x2 0.023
0.4

●
●
●
●
● ●
● 0 million barrels
● ●
● ● ● ● 1999 2000
0.0

●
● ● ●●
●

0.0
●
● ● ●
● ●
● ●
● ●

−1.0 −0.5
● ●
● ●
●
●●
●
● ●
●
●
●

●
● ●
x3 −0.087
● ●● ● ● ●
● ●
● ● ● ●
● ● ● ●
● ● ●
●●

Exempl
●● ●
●
● ● ●

● ● ●
● ● ●● ● ●
● ● ●
0.8

● ● ●

● ● ●
● ● ● x4
0.4

● ●● ●

[Link]
● ●

● ● ● ●
● ● ● ● ●●
● ● ● ● ●
●
● ● ● ● ● ●● ● ●● ● ● ●
● ●●●●
● ● ● ● ●
●
● ● ●● ● ●
● ● ● ● ●
●
0.0

● ● ● ● ●● ● ● ● ● ●

0.0 0.2 0.4 0.6 0.8 1.0 −1.0 −0.5 0.0

Interprétation Figure:
on a 4 variables numériques avec 30 indivi-
Coefficient de corrélation
dus. Les variables 1 et 2 sont « indépendantes » ; les variables Partie I
Interprétation
1 et 3 ont une relation linéaire ; les variables 2 et 4 ont une
relation non-linéaire. matricie
Les variables 1 et 2Que
sont signifie
indépendantes
une ;corrélation et 3 ont?une relation linéairePense-bête
les variables 1linéaire ; les m
variables 2 et 4 ont une relation non-linéaire. Matrice tablea
Qu’est ce qui est significatif ? si on a assez de données,
Dr Malicki ZOROMon
grasse (ex : A).
peut considérer
(2iE) qu’une
Statistique corrélation
et Analyse supérieure à 0, 5 est7 octobre 2022
de Données 21 / 97
Rappel d’éléments de Statistique descriptive

Histogramme

Utilisation des données de la taille de 237 étudiants disponibles dans le jeu de données survey de la bibliothèque MASS pour
construire un histogramme.

Taille de 237 etudiants

33
30
30 29
Effectifs

20
16
14

10 8
6

2
0

150 160 170 180 190 200

Taille [cm]

Figure: Histogramme

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 22 / 97

Rappel d’éléments de Statistique descriptive

Boı̂te à moustaches (Boxplot) : une modalité

Rythme cardiaque de 237 etudiants

● Q3 +1.5 h
100

Q3 : troisieme quartile
80
Pulsations/minutes

70 h Mediane

Q1 : premier quartile
60

Q1 −1.5 h
40 ●

L'ecart inter−quartile h contient 50 % des individus

Figure: Détail sur la boı̂te à moustaches

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 23 / 97

Rappel d’éléments de Statistique descriptive

Boı̂te à moustaches (Boxplot) : Comparaison de deux modalités

Représentation de plusieurs boı̂tes à moustaches sur un même graphique : Les boı̂tes à moustaches permettent de comparer
facilement des groupes d’individus, par exemple ici les garçons et les filles :

Rythme cardiaque de 237 etudiants

● ●

100

80
Pulsations/minutes

40 ●

Female Male

Figure: Détail sur les 2 boı̂tes à moustaches

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 24 / 97

Analyse Factorielle
nuages, une représentation simplifiée.

3.1une Meilleures
Imaginons représentations
forme géométrique complexe, dans de Np
un espace de dimension élevée disons de dimension 3 pour pouvoir visualiser.

PensonsImaginons
pour cela àune forme
l’image géométrique
d’un chameau. Encomplexe,
figure 25,dans
nous un espace deux
proposons de dimension élevéesimplifiées
représentations disons dededimension
cette image3 : des
pour pouvoir visualiser. Pensons pour cela à l’image d’un chameau. En figure 4, nous proposons deux
représentations en dimension
représentations 2. Deux
simplifiées devues
cetteviennent
image :naturellement en tête en
des représentations : ladimension
vue de face
2. et la vue
Deux de viennent
vues profil. naturel-
lement en tête : la vue de face et la vue de profil.

Figure 4 – Quelle représentation choisir pour le chameau ?

Figure: Quelle représentation choisir pour le chameau ?
Quelle est la meilleure représentation simplifiée ? A l’évidence, c’est la vue de profil. La raison est que
l’image projetée du chameau dans ce plan est plus proche de l’image initiale dans le sens où la variabilité des
points servant à sa représentation est plus grande et donc restitue mieux la variabilité des points d’origine
en dimension 3. Réduire la dimension pour obtenir une représentation plus simple du nuage Np tout en
Quelle
conservant le plus possible est la meilleure
de variabilité représentation
est le principe simplifiée ?
appliqué en ACP.

Meilleure représentation axiale de Np On cherche tout d’abord la meilleure représentation axiale de

A l’évidence, c’estprécisement,
N . plus la vue de profil.
on La raison la
cherche estdirection
que l’image
de projetée
Rp (Rp du estchameau
l’espace dans ce plan est plusdes
de représentation proche de l’image
individus) de initiale
p
sorteoùà la
dans le sens cevariabilité
que les distances
des pointsentre les àpoints
servant initiaux Miest
sa représentation soient les plusetproches
plus grande possibles
donc restitue delaleurs
mieux projetés
variabilité des points
orthogonaux et ce d’un point de vue global i.e. en tenant compte de tous les points Mi . On illustre cela en
d’originefigure 5.
en dimension 3. Réduire la dimension pour obtenir une représentation plus simple du nuage tout en conservant le plus

possible de variabilité est le principe appliqué en Analyse Factorielle.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 25 / 97

Analyse Factorielle

Variantes

Il existe 3 variantes d’analyse factorielle (AF) :

Variantes
Analyse en Composante Principale ( ACP) : variables quantitatives
Analyse des correspondances Multiples (ACM) : variables qualitatives
cas particulier de deux variables Analyse Factorielle de
Correspondance (AFC)
Analyse Factorielle des données Mixtes (AFDM) : variables
quantitatives et qualitatives
Notez que dans chaque variante, il existe également d’autres variantes
d’AF.
Nous mettrons l’accent sur l’Analyse en Composante Principale.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 26 / 97

Analyse Factorielle Analyse en Composante Principale

Plan

3 Analyse Factorielle
Analyse en Composante Principale
Analyse des correspondances Multiples
Analyse Factorielle des données Mixtes

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 27 / 97

Analyse Factorielle Analyse en Composante Principale

Introduction

Données
n individus observés sur p variables quantitatives.
L’ACP permet d’explorer les liaisons entre variables et les
ressemblances entre individus.

Résultats
Visualisation des individus (Notion de distances entre individus)
Visualisation des variables (en fonction de leurs corrélations)

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 28 / 97

Analyse Factorielle Analyse en Composante Principale

Interprétation des résultats

Données
1 Mesurer la qualité des représentations obtenues

critère global
critères individuels
2 « Donner des noms aux axes » si possible
Expliquer la position des individus
3 Utilisation éventuelle de variables supplémentaires (illustratives)
pour la description des axes

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 29 / 97

Analyse Factorielle Analyse en Composante Principale

Tableau des données

On note xij la valeur de la variable x.j pour le i ème individu. X = (x.1 , x.2 , · · · , x.j , · · · , x.p ) est
une matrice rectangulaire à n lignes et p colonnes.

X1 X2 ··· Xj ··· Xp
 
x1j e1 x11 x12 ··· x1j ··· x1p
 
x2j 
  e2  x21 x22 ··· x2j ··· x2p 
   
 
 
 .   . .. .. .. .. .. .. .. 
 .   . 
 .   . . . . . . . . 
xj =   X(n,p) = e  x xi2 ··· xij ··· xip 
 (1)
 xij  i 
 i1 
 .. 
   . .. .. .. .. .. .. .. 
 .
 .   . . . . . . . . 

   
 
xnj en xn1 xn2 ··· xnj ··· xnp

Espaces
Un individu est un élément de Rp
Une variable est un élément de Rn

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 30 / 97

Analyse Factorielle Analyse en Composante Principale

Nuages d’individus
On cherche à représenter le nuage des individus.
A chaque individu noté ei , on peut associer un point dans Rp = espace des individus.
ei = (xi1 , xi2 , · · · , xij , · · · , xip )
A chaque variable du tableau X est associé un axe de Rp .
X3
xi3

xi2 X2

xi1

Figure: Représentation de nuage des individus.

Espaces
Impossible à visualiser dès que p > 3.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 31 / 97

Analyse Factorielle Analyse en Composante Principale

Principes de l’ACP

On cherche une représentation des n individus , dans un sous-espace Fk de

Rp de dimension k ( k petit 2, 3, · · · ; par exemple un plan)
Autrement dit, on cherche à définir k nouvelles variables combinaisons
linéaires des p variables initiales qui feront perdre le moins d’information
possible.

Les nouvelles variables généraux en tant que eu combinaison linéaire des

variables initiales sont appelées axes principaux ou composantes
principales ou facteurs principaux.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 32 / 97

Analyse Factorielle Analyse en Composante Principale

Axes principaux

X1
axe 2
X2

ON VISUALISE

axe 1

Xi
F3
p axe 3
R
axes principaux
Figure: Axes principaux

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 33 / 97

Analyse Factorielle Analyse en Composante Principale

Perdre le moins d’information possible

Fk devra être « ajusté » 1 le mieux possible au nu
des individus:
Fk devra être « ajustéla
» lesomme desau carrés
mieux possible nuage des des distances
individus : la
somme des carrés des distances des individus à Fk doit être minimale.
individus à Fk doit être minimale.

Fk est le sous-espace tel 2que le nuage projeté ait u

Fk est le sous-espace tel que le nuage projeté ait une inertie (dispersion)
inertie
maximale.(dispersion) maximale.
1 et 2 sont basées sur les notions de :
c et d sont basées sur les notions de :
distance
projection orthogonale
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 34 / 97
Analyse Factorielle Analyse en Composante Principale

Distances

Δ2 fi
βi
βj fj

αi α j Δ1

Figure: La distance entre f et f est inférieure ou égale à celle entre ei et ej

La distance entre fii et jfj est inférieure ou
égale à celle entre ei et ej 9

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 35 / 97

Analyse Factorielle Analyse en Composante Principale

Distances
3. LE CHOIX DE LA DISTANCE ENTRE INDIVIDUS

yB B
Dans le plan:
d 2 (A, B) = (x B − x A ) + (y B − y A )
2 2
A
yA

xA xB

Dans l’espace Rp à p dimensions, on généralise cette notion : la distance

euclidienne
Figure: entre
Deux deux
points le plan s’écrit:
individus
dans

(
e i = x1i x 2i . .. x ip ) (
e j = x1j x 2j . .. x pj )
(ei , xe jB) =)(2x1i+− x(y) A+ (−
1 2
B)
2+ ... ( x ip − x pj )
2 2
Dans le plan : d 2 (A, B) = (xdA −
2
j x 2i −yx 2j )

Dans l’espace R à p dimensions,

p on pgénéralise cette notion : la distance
d 2 (e i , e j ) = ∑ ( x ik − x kj ) Le problème des unités ?
2

euclidienne entre deux individus s’écrit k =1 : e = (x

i , x
i1 i2 , · · · , xik , · · · , xip ) et 10
ej = (xj1 , xj2 , · · · , xjk , · · · , xjp )
P
p
d 2 (ei , ej ) = (xi1 − xj1 )2 + (xi2 − xj2 )2 + · · · + (xip − xjp ) = (xik − xjk )2 .
k=1
Le problème des unités ?
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 36 / 97
Analyse Factorielle Analyse en Composante Principale

Standardiser les variables

En général, les variables n’ont pas les mêmes unités. Pour résoudre ce
problème, on choisit de transformer les données en données
centrées-réduites.
xik − x̄.k
L’observation xik est alors remplacée par : zik =
σ.k
où x̄.k représente la moyenne de la variable Xk
σ.k écart-type de la variable Xk

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 37 / 97

Analyse Factorielle Analyse en Composante Principale

Inertie totale

Inertie
L’inertie mesure la dispersion totale du nuage de points.

Inertie
Pn 1
Ig = d 2 (ei , ḡ )
i=1 n
ou de façon plus générale
P
n P n
Ig = pi d 2 (ei , ḡ ) avec pi = 1
i=1 i=1

Inertie
L’inertie est la somme pondérée des carrés des distances des individus au
centre de gravité ḡ

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 38 / 97

Analyse Factorielle Analyse en Composante Principale

Variances-covariances

Inertie

L’inertie est aussi égale à la somme des variances des variables étudiées.

Var (X1 )
 Cov (X1 , X2 ) ··· Cov (X1 , Xn )
Cov (X1 , X2 ) Var (X2 ) ··· Cov (X2 , Xn )
 

 .. 

En notant V la matrice de variances-covariances : V =  . 
 
 . . . . . . 
. . . . . .
 

. . . . . .

Cov (Xp , X1 ) Cov (Xp , X2 ) ··· Var (Xp )

Inertie
p
P
Ig = Var (Xi ) = Tr (V )
i=1

Remarques

Dans le cas où les variables sont centrées réduites, la variance de chaque variable vaut 1.
L’inertie totale est alors égale à p (nombre de variables).
La matrice de variance-covariance devient une matrice de corrélation lorsque les variables sont centrées-réduites.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 39 / 97

Analyse Factorielle Analyse en Composante Principale

Équivalence des deux critères concernant la perte

d’information

𝑒̅𝑖

𝑔̅ 𝑓𝑖̅
F

Figure: Projection orthogonale du nuage sur un sous-espace

Soit F un sous-ensemble de Rp .
f¯i la projection orthogonale de ēi sur F .
Inertie
kēi − ḡ k2 = kēi − f¯i k2 + kf¯i − ḡ k2 , ∀x = 1, · · · , n
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 40 / 97
Analyse Factorielle Analyse en Composante Principale

Équivalence des deux critères concernant la perte

d’information

On va chercher F tel que :

1
P
n
pi kēi − f¯i k2 soit minimal
i=1

ce qui revient d’après le théorème de Pythagore à maximiser :

2
P
n
pi kf¯i − ḡ k2
i=1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 41 / 97

Analyse Factorielle Analyse en Composante Principale

Équivalence des deux critères concernant la perte

d’information

kēi − ḡ k2 = kēi − f¯i k2 + kf¯i − ḡ k2 , ∀x = 1, · · · , n

n
X n
X n
X
pi kēi − ḡ k2 − pi kēi − f¯i k2 |{z}
= pi kf¯i − ḡ k2
⇔
|i=1 {z } |i=1 {z } |i=1 {z }
Inertietotale minimiser maximiser

P
n
Minimiser cette quantité pi kēi − f¯i k2 (carrés des distances entre
i=1
points individus et leurs projections).
Pn
Maximiser cette quantité pi kf¯i − ḡ k2 l’inertie du nuage projeté
i=1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 42 / 97

Analyse Factorielle Analyse en Composante Principale

La solution du problème posé

La recherche d’axes portant le maximum d’inertie équivaut à la

construction de nouvelles variables (auxquelles sont associés ces axes) de
variance maximale.
En d’autres termes, on effectue un changement de repère dans Rp de
façon à se placer dans un nouveau système de représentation où le premier
axe apporte le plus possible de l’inertie totale du nuage, le deuxième axe le
plus possible de l’inertie non prise en compte par le premier axe, et ainsi de
suite.
Cette réorganisation s’appuie sur la diagonalisation de la matrice de
variances-covariances.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 43 / 97

Analyse Factorielle Analyse en Composante Principale

Solution

Axes principaux
On appelle axes principaux d’inertie les axes de direction les vecteurs
1
propres de V = Z t Z normés à 1. Il y en a p.
n
Le premier axe est celui associé à la plus grande valeur propre . On le
note u1
Le deuxième axe est celui associé à la deuxième valeur propre . On le
note u2 .
···

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 44 / 97

Analyse Factorielle Analyse en Composante Principale

Composantes principales

À chaque axe est associée une variable appelée composante principale.

La composante c1 est le vecteur renfermant les cordonnées des
projections des individus sur l’axe 1.
La composante c2 est le vecteur renfermant les cordonnées des
projections des individus sur l’axe 2.
···
Pour obtenir ces coordonnées, on écrit que chaque composante principale
est une combinaison linéaire des variables initiales.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 45 / 97

Analyse Factorielle Analyse en Composante Principale

Propriétés des composantes principales

1 La variance d’une composante principale est égale à l’inertie portée

par l’axe principal qui lui est associé.
1ère composante c1 variance : λ1
2ème composante c2 variance : λ2
···
2 Les composantes principales sont non corrélées deux à deux.
En effet, les axes associés sont orthogonaux.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 46 / 97

Analyse Factorielle Analyse en Composante Principale

Représentation des individus

1 La variance d’une composante principale est égale à l’inertie portée

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 47 / 97

Analyse Factorielle Analyse en Composante Principale

Coordonnées, contribution, cosninus carrés

Coordonnées
Les coordonnées des individus dans le nouvel espace des axes principaux
sont données par la formule matricielle : F = Z ∗ P avec Z la matrice
centrée réduite et P la matrice de passage constituée des vecteurs propres
1t
de la matrice V = ZZ rangés de manière décroissante suivant les
n
valeurs propres.

Les signes des vecteurs propres sont fixées arbitrairement ; ils peuvent être
différents d’un logiciel à un autre. Ce n’est pas un problème. Le plus important
est que les positions relatives entre les individus (proximités) et les variables
(corrélations)soient préservées.
L’ACP s’applique sur les variables actives.
Lorsque toutes (ou quasiment) les variables sont corrélées au premier axe, on dit
qu’il y a effet taille il n’est donc pas intéressant d’interpréter l’axe, il suffit de faire
une rotation des axes pour obtenir des axes facilement interprétables.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 48 / 97

Analyse Factorielle Analyse en Composante Principale

Coordonnées, contribution, cosninus carrés

Contribution
Elle indique l’influence de l’individu dans la définition de l’axe. Elle est
donnée par :
Fik2 Pn
CTRik = et CTRik = 1
n ∗ λk i=1

Il est très utile aussi de calculer pour chaque axe la contribution

apportée par les divers individus à cet axe.
Il n’est pas souhaitable qu’un individu ait une contribution excessive
(car facteur d’instabilité).
Il faut éliminer les individus de l’analyse dont la contribution est trop
importante.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 49 / 97

Analyse Factorielle Analyse en Composante Principale

Coordonnées, contribution, cosninus carrés

Cos 2
Il indique la qualité de la représentation de l’individu sur le facteur (fraction
F2 Pp
de son inertie restituée par le facteur) COSik2 = ik2 et COSik2 = 1
di j=1

Pour chaque individu, la qualité de sa représentation est définie par le carré du

cosinus de l’angle entre l’axe de projection et l’axe principal . Plus la valeur est
proche de 1, meilleure est la qualité de représentation
En général, les qualités de représentation sont données axe par axe. Pour avoir la
qualité de représentation dans un plan, on additionne les critères correspondant
aux axes étudiés.
Ce critère n’a pas de signification pour les individus proches de l’origine.
Quand on détecte un individu pour lequel le cosinus carré est faible, on doit tenir
compte de sa distance à l’origine avant d’indiquer qu’il est mal représenté.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 50 / 97

Analyse Factorielle Analyse en Composante Principale

Validité des représentations

Critère global
λi
mesure la part d’inertie expliquée par l’axe i.
λ1 + λ2 + · · · + λp

Exemple
λ1 + λ2
p est la part d’inertie expliquée par le premier plan principal.
P
λi
j=1

Ce critère (souvent exprimé en pourcentage) mesure le degré de reconstitution des carrés des
distances.
La réduction de dimension est d’autant plus forte que les variables de départ sont plus corrélées.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 51 / 97

Analyse Factorielle Analyse en Composante Principale

Combien d’axes retenir ?

Les critères les plus utilisables sont les suivantes :

Interprétation des axes
On retient que les axes que l’on peut attribuer une forme d’interprétation,
par exemple, soit directement, soit en terme des variables avec lesquelles
ils sont très corrélés.

Critère de Kaiser ou Kaizer (variables centrées et réduites)

On ne retient que les axes associés à valeurs propres supérieurs à 1,
c’est-à-dire dont la variance est supérieure à celle des variables d’origine.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 52 / 97

Analyse Factorielle Analyse en Composante Principale

Combien d’axes retenir ?

Pourcentage d’inertie souhaité
L’utilisateur se fixe un pourcentage de telle sorte qu’il soit supérieur à
50%. On retient les axes dont le cumul des variances expliquées est au
moins supérieur à 50%.
Combien d’axes ?
Différentes procédures sont complémentaires:
Éboulis des valeurs propres ou la règle de coude
c Pourcentage d’inertie souhaité : a priori

On cherche un « coude » dans le graphe des valeurs propres et on ne

d Diviser l’inertie totale par le nombre de variables initiales

associés aux valeurs propres situées avant le « coude ».

Ö inertie moyenne par variable : I.M.
conserve les axes
Conserver tous les axes apportant une inertie supérieure à cette valeur I.M.
(inertie > 1 si variables centrées réduites).

e Histogramme
4
.. λ 1 = 4,5
λ 2 = 3,8

Conserver les axes associés

3
2
. λ 3 = 2,9

aux valeurs propres situées

avant la cassure.
1 ....
λ1 λ2 λ3 λ4 λ5 λ6 λ7

cassure 29

Figure: On retient les 3 premiers axes

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 53 / 97
Analyse Factorielle Analyse en Composante Principale

Représentation des variables (cercle de corrélations)

Le cercle des corrélations est la projection du nuage des variables sur le

plan des composantes principales. Les variables bien représentées sont
celles qui sont proches du cercle, celles qui sont proches de l’origine sont
mal représentées.

Figure: Cercle de corrélation de rayon 1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 54 / 97

Analyse Factorielle Analyse des correspondances Multiples

Plan

3 Analyse Factorielle
Analyse en Composante Principale
Analyse des correspondances Multiples
Analyse Factorielle des données Mixtes

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 55 / 97

Analyse Factorielle Analyse des correspondances Multiples

En projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 56 / 97

Analyse Factorielle Analyse Factorielle des données Mixtes

Plan

3 Analyse Factorielle
Analyse en Composante Principale
Analyse des correspondances Multiples
Analyse Factorielle des données Mixtes

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 57 / 97

Analyse Factorielle Analyse Factorielle des données Mixtes

En projet

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 58 / 97

Classification Généralité

Plan

4 Classification
Généralité
Classification Ascendante Hiérarchique
Classification des Centres mobiles : K-Means

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 59 / 97

Classification Généralité

Variantes de classification

Classification non-supervisée
Partant des données, l’objectif est de regrouper/classer les individus qui se
ressemblent le plus/qui ont des caractéristiques semblables.

Classification supervisée
Partant des données, l’objectif est de déterminer à quel groupe l’individu
ω∗ a le plus chance d’appartenir.

L’accent sera mis sur la classification non-supervisée : Classification

Ascendante Hiérarchique, Classification des Centres mobiles

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 60 / 97

Classification Généralité

Étude de la ressemblance
Matrice de données : On appelle matrice de données associées à Γ la matrice X
définie par

X1 X2 ··· Xj ··· Xp
 
ω1 x11 x12 ··· x1j ··· x1p
ω2  x21 x22 ··· x2j ··· x2p 
 
 
 . .. .. .. .. .. .. .. 
 .. . . . . . . . 
 
X(n,p) = ω x xi2 ··· xij ··· xip  (2)
i  i1 
 . .. .. .. .. .. .. .. 
 .. . . . . . . . 
 
 
ωn xn1 xn2 ··· xnj ··· xnp

Nuage de points : Pour tout i ∈ {1, · · · , n}, l’individu ωi peut être représenté
dans Rp par un point mi de coordonnées (xi1 , · · · , xip ). On appelle nuage de
points la représentation graphique de l’ensemble de ces points. Il est noté
N = {m1 , · · · , mn }.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 61 / 97
Classification Généralité

Étude de la ressemblance

Ressemblance : On dira que des individus se ressemblent si les points associés

sont proches les uns des autres/si les distances qui les séparent sont petites.
Ainsi, on souhaite rechercher dans N les zones denses pouvant correspondre à des
groupes d’individus qu’il s’agira d’interpréter par la suite.
Exemple
On considère la matrice
 données X associée à 5 individus, Γ = {ω1 , · · · , ω5 },
de
2 2
7, 5 4
 
définie par X =  
 3 3 La problématique est la suivante : comment
0, 5 5
6 4
regrouper ces individus en 2 ou 3 groupes, par exemple, en fonction de leur
position dans R2 ?

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 62 / 97

Classification Généralité

Distances

Distances : définition
On peut donc aborder le problème de la ressemblance entre individus par le biais
de la notion de distance. On appelle distance sur un ensemble M toute
application d : M 2 → [0, ∞[ telle que :
pour tout (x, y ) ∈ M 2 , on a d(x, y ) = 0 si, et seulement si, x = y ,
pour tout (x, y ) ∈ M 2 , on a d(x, y ) = d(y , x),
pour tout (x, y , z) ∈ M 3 , on a d(x, y ) ≤ d(x, z) + d(z, y ).

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 63 / 97

Classification Généralité

Exemple de distances
Distance euclidienne
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ys
m ) ∈ R . On appelle
m

Pm
distance euclidienne entre x et y la distance : d(x, y ) = (xi − yi )2 .
i=1

Distance de Manhattan
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On appelle
P
m
distance de Manhattan entre x et y la distance : d(x, y ) = | xi − yi | .
i=1

Distance de Minkowski
Soient m ∈ N∗ , q ≥ 1, x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On
appelle distance de Minkowski entre x et y la distance :
m q1
P q
d(x, y ) = | xi − yi | .
i=1

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 64 / 97

Classification Généralité

Exemple de distances

Distance de Canberra
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On appelle
Pm |x −y |
i i
distance de Canberra entre x et y la distance : d(x, y ) = .
i=1 | xi + yi |

Distance maximum
Soient m ∈ N∗ , x = (x1 , · · · , xm ) ∈ Rm et y = (y1 , · · · , ym ) ∈ Rm . On appelle
distance maximum entre x et y la distance : d(x, y ) = sup | xi − yi | .
i∈1,··· ,m

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 65 / 97

Classification Généralité

Écarts

Écarts
En notant P(Γ) l’ensemble des parties de Γ, on appelle écart toute application
e : P(Γ)2 → [0, ∞[ définie à partir d’une distance et évaluant la ressemblance
entre deux groupes d’individus.

Règle centrale
Plus l’écart entre deux éléments est petit, plus ils se ressemblent.

Écarts usuels
Parmi les écarts usuels entre deux groupes A et B/méthodes usuelles mesurant la
ressemblance entre deux groupes A et B, il y a :

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 66 / 97

Classification Généralité
usuels : Parmi les écarts usuels entre deux groupes A et B/méthodes usuelles mesurant la
Exemples d’écarts
essemblance entre deux groupes A et B, il y a :

Écart simple (single linkage)/Méthode du plus proche voisin :

Écart simple (single linkage)/Méthode du plus proche voisin
e(A, B) = min d(ω, ω ∗ ). B) =
e(A, min d(ω, ω∗ ).
(ω,ω∗ )∈A×B (ω,ω∗ )∈A×B
L’écart entre deux groupes A et B est caractérisé par la distance la plus faible
entre
L’écartunentre
point de groupes
deux A et unApoint
et B de
est B :
caractérisé par la distance la plus faible entre un
point de A et un point de B :

Écart complet (complete linkage)/Méthode dusimple

Figure: Écart voisin le plus éloigné :

e(A, B) = max d(ω, ω∗ ).

Dr Malicki ZOROM (2iE) Statistique(ω,ω∗ )∈A×B
et Analyse de Données 7 octobre 2022 67 / 97
Classification Généralité

Exemples d’écarts
Écart complet (complete linkage)/Méthode du voisin le plus éloigné :
Écart complet (complete linkage)/Méthode du voisin le plus éloigné
e(A, B) = max d(ω, ω ∗ ). B) =
e(A, max d(ω, ω∗ ).
(ω,ω∗ )∈A×B (ω,ω∗ )∈A×B
L’écart entre deux groupes A et B est caractérisé par la distance la plus forte
entre
L’écartun point
entre degroupes
deux A et un point
A et B estde B:
caractérisé par la distance la plus forte entre un point
de A et un point de B :

Écart moyen (average linkage)/Méthode

Figure: de lacomplet
Écart distance moyenne :

1 X X
e(A, B) = d(ω, ω∗ ),
Dr Malicki ZOROM (2iE) n An
Statistique etBAnalyse de Données 7 octobre 2022 68 / 97
ω∈A ω ∈B
Classification Généralité

Exemples d’écarts
Écart moyen (average linkage)/Méthode de la distance moyenne
1 P P
e(A, B) = d(ω, ω∗ ).
nA nB ω∈A ω∗ ∈B
té deoù nA est le nombre d’individus dans le groupe A, et nB le nombre d’individus
Caen Classification
dans le groupe B.
L’écart entre deux groupes A et B est caractérisé par la distance moyenne entre
L’écart entre deux groupes A et B est caractérisé par la distance moyenne entre les points
les points de A et B :
de A et B :

Écart de Ward : Soit d la distance euclidienne. La moyen

Figure: Écart méthode de Ward considère l’écart :

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 69 / 97

Classification Généralité

Exemples d’écarts

Écart de Ward
Soit d la distance euclidienne. La méthode de Ward considère l’écart
nA nB 2
e(A, B) = d (gA , gB ).
nA + nB
où gA est le centre de gravité de A, et gB celui de B. On rappelle que gA est le
point de coordonnées (x̄A1 , · · · , x̄Ap ), où, pour tout j ∈ {1, · · · , p}, x̄Aj désigne la
moyenne des valeurs observées du caractère Xj sur les nA individus du groupe A.
De même pour gB . Cette méthode prend en compte à la fois la dispersion à
l’intérieur d’un groupe et la dispersion entre les groupes. Elle est utilisée par
défaut dans la plupart des programmes informatiques.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 70 / 97

Classification Généralité

Tableau des écarts

Soit e un écart défini par une des méthodes précédentes. On appelle tableau des écarts associé
aux groupes d’individus (A1 , · · · , An ) le tableau :
A1 A2 ··· An−1 An
A1 0 e1,2 ··· e1,n−1 e1,n
A2 e2,1 0 ··· ··· ···
E=
··· ··· ··· ··· ··· ···
An−1 en−1,1 ··· ··· 0 en−1,n
An en,1 ··· ··· en,n−1 0
où, pour tout (u, v ) ∈ {1, · · · , n}2 avec u 6= v ,

e(u, v ) = e(Au , Av )

Exemple
2 2
 
7, 5 4
On considère la matrice de données X dans R2 définie par X =  3 3 . En considérant la
 
0, 5 5
6 4
méthode du voisin le plus éloigné munie de la distance euclidienne, donner le tableau des écarts.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 71 / 97

Classification Classification Ascendante Hiérarchique

Plan

4 Classification
Généralité
Classification Ascendante Hiérarchique
Classification des Centres mobiles : K-Means

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 72 / 97

Classification Classification Ascendante Hiérarchique

Algorithme de CAH

CAH : L’idée de l’algorithme de Classification Ascendante Hiérarchique (CAH)

est de créer, à chaque étape, une partition de Γ = {ω1 , · · · , n} en regroupant les
deux éléments les plus proches. Le terme ”élément” désigne aussi bien un individu
qu’un groupe d’individus.
Objectif : On veut
mettre en relief les liens hiérarchiques entre les individus ou groupe
d’individus,
détecter les groupes d’individus qui se démarquent le plus.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 73 / 97

Classification Classification Ascendante Hiérarchique

Description de l’algorithme

Algorithme CAH :
L’algorithme de CAH est décrit ci-dessous :
On choisit un écart. On construit le tableau des écarts pour la partition initiale des
n individus de Γ : P0 = {{ω1 }, · · · , {ωn }}. Chaque individu constitue un élément.
On parcours le tableau des écarts pour identifier le couple d’individus ayant l’écart
le plus petit. Le regroupement de ces deux individus forme un groupe A. On a
donc une partition de Γ de n − 1 éléments : A et les n − 2 individus restants.
On calcule le tableau des écarts entre les n − 1 éléments obtenus à l’étape
précédente et on regroupe les deux éléments ayant l’écart le plus petit (cela peut
être deux des n − 2 individus, ou un individu des n − 2 individus restants avec A).
On a donc une partition de Γ de n − 2 éléments.
On itère la procédure précédente jusqu’à ce qu’il ne reste que deux éléments.
On regroupe les deux éléments restants. Il ne reste alors qu’un seul élément
contenant tous les individus de Γ.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 74 / 97

Classification Classification Ascendante Hiérarchique

Dendrogramme

Dendrogramme
Les partitions de Γ faites à chaque étape de l’algorithme de la CAH peuvent se visualiser
via un arbre appelé dendrogramme. Sur un axe apparait les individus à regrouper et sur
l’autre axe sont indiqués les écarts correspondants aux différents niveaux de
regroupement. Cela se fait graphiquement par le biais de branches et de noeuds.
Une partition naturelle se fait en coupant l’arbre au niveau du plus grand saut de noeuds.

Exemple
 
2 2
7, 5 4
On considère la matrice de données X dans R2 définie par X = 
 
 3 3
 . Regrouper
0, 5 5
6 4
les individus avec l’algorithme CAH et la méthode du voisin le plus éloigné munie de la
distance euclidienne.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 75 / 97

Classification Classification Ascendante Hiérarchique

Implémentation de CAH sous RStudio

On met les données dans une matrice et on trace le nuage de points :

x = c(2, 7.5, 3, 0.5, 6, 2, 4, 3, 5, 4)

m = matrix(x, ncol = 2, nrow = 5)
plot(m)

On calcule les distances euclidiennes :

dist(m)

On met en oevre l’algorithme CAH avec la méthode du voisin le plus éloigné (complete linkage) :

hc = hclust(dist(m), ”complete”)

On affiche les regroupements :

hc$merge

On affiche les écarts de regroupements

hc$height

On trace le dendrogramme :

plot(hc, hang = -1)

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 76 / 97

Classification Classification Ascendante Hiérarchique

Implémentation de CAH sous RStudio

On peut demander à quel groupe chaque individu appartient suivant la hauteur des sauts avec la commande cutree. Avec 2
groupes, on a :

b = cutree(hc, k = 2)
b

Les effectifs dans chaque groupe s’obtiennent en faisant :

table(b)

Les indices des individus dans le groupe 1 (par exemple) peuvent s’obtenir en faisant :

(1 :5)[b == 1]
(ou rownames(m)[b == 1] si des noms aux lignes de la matrice ou de la [Link] existent)

On peut alors afficher clairement les groupes sur le dendrogramme :

[Link](hc, 2)

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 77 / 97

Classification Classification Ascendante Hiérarchique

CAH et méthode de Ward

Centre de gravité
On appelle centre de gravité du nuage de points N = {m1 , · · · , mn } le point g de
coordonnées (x 1 , · · · , x p ) où, pour tout j ∈ {1, · · · , p}
1P n
xj = xij
n i=1

Pour raison de simplicité, on dira que g est le centre de gravité associé à

Γn = {ω1 , · · · , ωn } on ne se ramènera pas toujours au nuage de point associé.

Inertie totale
On appelle inertie totale de N autour de son centre de gravité g le réel :
n
1X 2
Itot = d (ωi , g )
n i=1
p n
1P
σj2 avec σj2 = (xij − x j )2
P
On peut remarquer que Itot =
j=1 n i=1
L’inertie de N est une mesure de l’homogénéité de N .

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 78 / 97

Classification Classification Ascendante Hiérarchique

CAH et méthode de Ward

Inertie d’un sous-nuage de points : Soient k ∈ {1, · · · , n} et P = (Nl )l∈{1,··· ,k} une
partition de N . Ainsi, pour tout l ∈ {1, · · · , k}, Nl est un sous-nuage de points de N .
On note
nl le nombre d’individus représentés par Nl ,
gl le centre de gravité de Nl , donc le point de coordonnées (x l1 , · · · , x lp ), où, pour
tout j ∈ {1, · · · , p}, x lj ‘ désigne la moyenne des valeurs observées du caractère Xj
sur les nl individus du sous-nuage Nl .
Inertie totale : On appelle inertie totale de Nl autour de son centre de gravité gl
1 P 2
le réel : I(Nl ) = d (ωi , gl ).
nl i∈Nl
Inertie intra-classes : On appelle inertie intra-classes le réel :
k n p Pk P
l 1P
(xij − x lj )2 .
P
Iintra (P) = I(Nl ) =
l=1 n n j=1 l=1 i∈Nl
L’inertie intra-classes mesure l’homogénéité de l’ensemble des sous-nuages de la
partition.
Inertie inter-classes : On appelle inertie inter-classes le réel :
k n p P k P
l 2 1P
(x j − x lj )2 .
P
Iextra (P) = d (gl , g ) =
l=1 n n j=1 l=1 i∈Nl
L’inertie inter-classes mesure la séparation entre les sous-nuages de la partition.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 79 / 97
n n
Classification
`=1 Classification Ascendante
j=1 `=1 i∈N ` Hiérarchique

L’inertie inter-classes mesure la séparation entre les sous-nuages de la partition.

CAH et méthode de Ward
Décomposition de Huygens : Pour toute partition P de N , on a
Décomposition de Huygens :
Pour toute partition P de N , on a
I = Iintra (P) + Iinter (P).
Itottot= Iintra (P) + Iextra (P).

On constate que minimiser l’inertie intra-classes est équivalent à maximiser l’inertie inter-classes. Cette décomposition est
On constate
illustrée par les schémas que minimiser
ci-dessous : l’inertie intra-classes est équivalent à maximiser l’inertie inter-classes.

Cette décomposition est illustrée par les schémas ci-dessous :

Figure: Inertie

Le point
Le point g est le centre est le du
de ggravité centre de de
nuage gravité dugnuage
points, de points, g1 est celui du sous-nuage de points à
1 est celui du sous-nuage de points à gauche, g2 est celui du sous-nuage
de points à droite gauche,
et g3 est
g2celui du sous-nuage
est celui de points
du sous-nuage en bas.
de points Les traits
à droite et g3 de
estcouleurs
celui du représentent
sous-nuage de lespoints
distances
en entre les points
et les centres de gravité.
Alors la somme des bas. Les traits
distances desdetraits
couleurs
bleusreprésentent
au carré estleségale
distances entre les
à la somme despoints et lesdes
distances centres
traitsdeverts
gravité.
au carré plus la somme
des traits orange au carré.

C. Chesneau 34
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 80 / 97
Classification Classification Ascendante Hiérarchique

CAH et méthode de Ward

Sur l’écart de Ward : L’utilisation de l’algorithme de CAH avec la méthode de Ward est justifiée
par le résultat suivant :
Soient Γn = {ω1 , · · · , ωn } individus et g le centre de gravité associé. Soient A et B deux
groupes d’individus
d’effectifs respectifs nA et nB ,
de centres de gravité associés respectifs gA et gB .
Le regroupement de A et B, noté A ∪ B, a pour centre de gravité :

nA gA + nB gB
gA∪B =
nA + nB

1
La perte d’inertie inter-classes lors du regroupement de A et B est égale à multiplié par
n
nA nB
nA d 2 (gA , g ) + nB d 2 (gB , g ) − (nA + nB )d 2 (gA∪B , g ) = d 2 (gA , gB ).
nA + nB

On reconnait alors l’écart de Ward qui est donc une mesure de la perte d’inertie inter-classes lors
du regroupement de A et B. Ainsi, à chaque étape de l’algorithme de CAH, on veut regrouper
des éléments dont le regroupement provoque une perte minimale de l’inertie inter-classes.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 81 / 97

Classification Classification Ascendante Hiérarchique

CAH et méthode de Ward

Dendrogramme associé à l’écart de Ward :

Pour la hauteur des branches, on peut soit prendre les écarts, soit prendre
les inerties intra-classe correspondants aux différents niveaux de
regroupement.

Commande agnes et écart de Ward :

La commande agnes avec method = ”ward” dans RStudio considère un
écart défini comme une transformation de l’écart de Ward original :
r
nA nB 2 √
e(A, B) = 2 d (gA , gB ) = 2 × ecart de Ward
nA + nB

Cela ne change rien quant à la hiérarchie de la classification.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 82 / 97

Classification Classification Ascendante Hiérarchique

Qualité d’une représentation

Coefficient d’agglomération : On appelle coefficient d’agglomération le

réel :
n
1X e(ωi , Ai )
AC = 1−
n e(Q, R)
i=1

où
pour tout i ∈ {1, · · · , n}, Ai désigne le premier élément avec lequel ωi
a été regroupé,
Q et R désignent les deux éléments rassemblés à l’étape finale de
l’algorithme.
On a AC ∈]0, 1[.
Plus AC est proche de 1, plus les individus sont fortement structurés en
plusieurs groupes. Une valeur proche de 0 signifie que les individus
appartiennent tous à un même groupe.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 83 / 97
Classification Classification Ascendante Hiérarchique

Qualité d’une représentation

Indice de silhouette : Pour tout i ∈ {1, · · · , n}, on appelle indice de

silhouette associé à l’individu ωi le réel :

bi − ai
S(i) = ,
max(ai , bi )
où
ai est la moyenne des distances entre ωi et les individus de son groupe,
bi est la moyenne des distances entre ωi et les individus du groupe le
plus proche de celui auquel il appartient.
On a S(i) ∈] − 1, 1[.
Plus S(i) est proche de 1, plus l’appartenance de ωi a son groupe est
justifiée.
Ainsi, les individus ayant des grands indices de silhouette sont bien
regroupés.
Si l’indice de silhouette d’un individu est négatif, l’individu n’est pas dans
le bon groupe et pourrait être déplacé dans le groupe le plus proche.
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 84 / 97
Classification Classification Ascendante Hiérarchique

Qualité d’une représentation

Largeur de silhouette : On appelle largeur de silhouette de la partition

le réel :
n
1X
S= S(i).
n
i=1

On a alors l’interprétation suivante :

Valeur de S Nature de la structure
∈]0.51, 1] Forte
∈]0.31, 0.50] Raisonnable
∈ [0, 0.30[ Faible
∈ [−1, 0[ Inexistante
On peut également calculer S pour les individus d’un groupe.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 85 / 97

Classification Classification Ascendante Hiérarchique

Exemple

 matrice de données X dans R définie par

On considère la 2

2 2
7, 5 4
 
X = 3 3 .

0, 5 5
6 4
Regrouper les individus avec l’algorithme CAH et la méthode de Ward
munie de la distance euclidienne.
Déterminer à chaque étape l’inertie intra-classe. Conclure.
Déterminer le coefficient d’agglomération.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 86 / 97

Classification Classification Ascendante Hiérarchique

Implémentation avec RStudio

# Création d’un vecteur

x = c(2, 7.5, 3, 0.5, 6, 2, 4, 3, 5, 4)

#Transformer le vecteur précédent en matrice

m = matrix(x, ncol = 2, nrow = 5)

# La classification nécessite le chargement du package cluster

library(cluster)

# Le script permet de construire le CAH avec la méthode Ward en utilisant la

commande agnes pour le calcul des hauteurs
ag = agnes(m, method = ”ward”)

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 87 / 97

Classification Classification Ascendante Hiérarchique

Implémentation avec RStudio

# Le script permet d’afficher les arguments de ag

# Le script permet d’afficher le dendrogramme

pltree(ag, hang = -1)

# Le script permet d’afficher le coefficient d’agglomération

ag$ac

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 88 / 97

Classification Classification des Centres mobiles : K-Means

Plan

4 Classification
Généralité
Classification Ascendante Hiérarchique
Classification des Centres mobiles : K-Means

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 89 / 97

Classification Classification des Centres mobiles : K-Means

Algorithme des centres mobiles (K-means)

Algorithme de K-means :

L’algorithme des centres mobiles vise à classer une population Γ en q classes. Cela se fait de manière automatique ; il n’y a pas
de lien hiérarchique dans les regroupements contrairement à l’algorithme CAH. Il est le mieux adapté aux très grands tableaux
de données.
L’algorithme des centres mobiles avec la méthode de Lloyd (la plus standard) est décrit ci-dessous :
On choisit q points au hasard dans Rp . Ces points sont appelés centres.
On calcule le tableau de distances entre tous les individus et les q centres.
On forme alors q groupes de la manière suivante : chaque groupe est constitué d ?un centre et des individus les plus
proches de ce centre que d’un autre. On obtient une partition P1 de Γ.
On calcule le centre de gravité de chacun des q sous-nuages de points formés par les q groupes. Ces q centres de gravité
sont nos nouveaux q centres.
On calcule le tableau de distances entre tous les individus et les nouveaux q centres.
On forme alors q groupes, chaque groupe étant constitué d’un centre et des individus les plus proches de ce centre que
d’un autre. On a une nouvelle partition P2 de Γ.
On itère la procédure précédente jusqu’à ce que deux itérations conduisent à la même partition.

Remarque importante

La classification des individus dépend du choix des centres initiaux. Plusieurs méthodes existent pour choisir judicieusement ces
centres.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 90 / 97

Classification Classification des Centres mobiles : K-Means

Exemple

Dans une étude industrielle, on a étudié 2 caractères : X1 et X2 , sur 6 individus ω1 , · · · , ω6 . Les

données recueillies sont :
X1 X2
ω1 -2 2
ω2 -2 -1
ω3 0 -1
ω4 2 2
ω5 -2 3
ω6 3 0
Faire une classification par l’algorithme des centres mobiles avec, pour centres initiaux, c10 de
coordonnées (−1, −1) et c20 de coordonnées (2; 3).

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 91 / 97

Classification Classification des Centres mobiles : K-Means

Implémentation de K-means sous RStudio

x = c(-2, -2, 0, 2, -2, 3, 2, -1, -1, 2, 3, 0)

m = matrix(x, ncol = 2, nrow = 6)
clus = kmeans(m, centers = rbind(c(-1, -1), c(2, 3)), algorithm = ”Lloyd”)
clus$cluster
clus$centers
plot(m, col = clus$cluster, pch = 1, lwd = 3, xlab = ”X1”, ylab = ”X2”)
points(clus$centers, col = 1 :2, pch = 9, lwd = 3)

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 92 / 97

Projet

Projet Interdisciplinaire de l’UE Recherche et traitement de

l’information
ECUEs concernées
Recherche bibliographique et communication scientifique
Techniques et outils de collectes des données
Statistique et analyse de données
Systèmes d’information géographique 2

Lien de la base des données

[Link]

Description de l’OCDE
L’Organisation de coopération et de développement économiques (OCDE) est une
organisation internationale qui œuvre pour la mise en place de politiques meilleures pour
une vie meilleure.
L’objectif est de promouvoir des politiques publiques qui favorisent la prospérité, l’égalité
des chances et le bien-être pour tous. ([Link]
Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 93 / 97
Projet

Données disponibles dans la base

L’OCDE contient des données de l’environnement en particulier sur : Air et
climat, Biodiversité, Déchets, Eau, Forêts, Matériaux et les Politiques
environnementales de plusieurs pays sur plusieurs années.

Objectif du projet
L’objectif de ce projet est d’extraire, d’analyser et d’interpréter des
informations à travers des sélections multicritères, dans le but de répondre
à des questions de recherche préalablement formulées. Il s’agira
particulièrement d’élaborer une typologie de pays à partir de données
spatialisées sur des variables environnementales. La finalité est de formuler
des recommandations à l’endroit des décideurs pour répondre à la
problématique identifiée.

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 94 / 97

Projet

Ce projet doit faire ressortir les points suivants

A partir des données disponibles dans la base de données, définir une
problématique et la formuler sous forme de plusieurs questions de recherche (par
exemple, existe-t-il des corrélations entre la qualité de l’air et la biodiversité ? ou
entre la production de déchets municipaux et la qualité de l’air ? etc.) Ces
questions devront être traitées à l’échelle de plusieurs pays
Réaliser une revue bibliographique sur la problématique retenue (maximum de 10
pages, en utilisant entre 15 et 30 références bibliographiques)
Présenter les données extraites et expliquer la méthode d’échantillonnage utilisée
pour extraire vos données de la base, en prenant soin d’éviter toutes formes de
biais dans le choix des variables (expliquer la pertinence du plan d’échantillonnage
que vous aurez choisi)
Concevoir des outils de collecte de données qui ont pu être utilisés pour élaborer la
base de données sur laquelle chaque groupe s’appuiera pour la présentation de ces
travaux

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 95 / 97

Projet

Ce projet doit faire ressortir les points suivants

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 95 / 97

Projet

Ce projet doit faire ressortir les points suivants

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 95 / 97

Projet

Ce projet doit faire ressortir les points suivants

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 95 / 97

Projet

Ce projet doit faire ressortir les points suivants

Expliquer s’il existe des données manquantes et comment elles seront
comblées
Présenter les méthodes d’analyse de données utilisées pour élaborer la
typologie des pays
Présenter sur une carte les pays sélectionnés avec les résultats
spatialisés : il s’agira de présenter une répartition spatiale sous forme
de carte pour chaque thématique retenue pour les pays concernés
Analyser et interpréter les résultats obtenus en donnant des réponses
aux questions de recherche (confirmation ou infirmation des
hypothèses) et en formulant des recommandations pour
l’approfondissement de l’étude (par exemple, nouvelles hypothèses
pertinentes à tester) et des orientations à l’endroit des décideurs pour
la résolution de la problématique

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 96 / 97

Projet

Ce projet doit faire ressortir les points suivants

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 96 / 97

Projet

Ce projet doit faire ressortir les points suivants

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 96 / 97

Projet

Ce projet doit faire ressortir les points suivants

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 96 / 97

Projet

Modalités d’évaluation et remise de projet

Modalités d’évaluation : Évaluation des livrables et soutenance devant le jury de l’UE
Date limite de remise du projet : 12 avril 2021 à 12h00, délai de rigueur

Les fichiers à rendre avant la présentation devant le jury de l’UE

Le rapport du projet rédigé en anglais
La base de données extraite sous format Excel
Le fichier RMarkdown du rapport
Le power point ou Beamer de la présentation
Les fichiers shapefiles des cartes produites et le fichier de la session de travail de l’outil sig
(projet sig)
Le fichier excel de matrice pme correctement rempli

Date de la soutenance ( à définir)

Former un groupe de 4 personnes maximum en optimisant la diversité en matière de genre
et de multiculturalité
Organisation de l’équipe en mode projet : il vous est demandé de vous inscrire au MOOC
gestion de projet ([Link]) et de suivre au moins les 4 premières
semaines du MOOC (début des cours le 8 mars 2021).

Dr Malicki ZOROM (2iE) Statistique et Analyse de Données 7 octobre 2022 97 / 97

Vous aimerez peut-être aussi

Méthodes d'Analyse des Données en Marketing
100% (1)
Méthodes d'Analyse des Données en Marketing
105 pages
Statistiques Multivariées et ACP
Pas encore d'évaluation
Statistiques Multivariées et ACP
57 pages
Introduction à la Statistique
Pas encore d'évaluation
Introduction à la Statistique
44 pages
Statistiques Descriptives 21 - 05
Pas encore d'évaluation
Statistiques Descriptives 21 - 05
28 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
21 pages
Statistique SMI S3 2024
Pas encore d'évaluation
Statistique SMI S3 2024
49 pages
Analyse des Données en Statistique
Pas encore d'évaluation
Analyse des Données en Statistique
102 pages
Technique Analyse Univariee
100% (1)
Technique Analyse Univariee
26 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
33 pages
Statistiques Exploratoires Multidimensionnelles
Pas encore d'évaluation
Statistiques Exploratoires Multidimensionnelles
32 pages
Stat Chapitre1 Et 2 Statistique Completes
Pas encore d'évaluation
Stat Chapitre1 Et 2 Statistique Completes
39 pages
Lessentiel de Statistique Descriptive by Elisabeth OLIVIER
100% (10)
Lessentiel de Statistique Descriptive by Elisabeth OLIVIER
197 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
33 pages
Cours Stat Descriptive
Pas encore d'évaluation
Cours Stat Descriptive
53 pages
Analyse des données et méthodes statistiques
Pas encore d'évaluation
Analyse des données et méthodes statistiques
104 pages
Support de Cours Analyse de Donnees Economiques Licence 1 Sce Eco Iua
Pas encore d'évaluation
Support de Cours Analyse de Donnees Economiques Licence 1 Sce Eco Iua
111 pages
Statistiques descriptives et analyses clés
Pas encore d'évaluation
Statistiques descriptives et analyses clés
76 pages
Cours Danalyse Des Donnees Complet
Pas encore d'évaluation
Cours Danalyse Des Donnees Complet
77 pages
Statistique Descriptive : Concepts Clés
Pas encore d'évaluation
Statistique Descriptive : Concepts Clés
38 pages
Analyse de Données
Pas encore d'évaluation
Analyse de Données
122 pages
Analyse de Données pour Licence MRI
Pas encore d'évaluation
Analyse de Données pour Licence MRI
7 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
27 pages
Cours Ue Mat-131
Pas encore d'évaluation
Cours Ue Mat-131
56 pages
Statistique descriptive : Cours et exercices
Pas encore d'évaluation
Statistique descriptive : Cours et exercices
20 pages
Statistique Descriptive: U C A É E
Pas encore d'évaluation
Statistique Descriptive: U C A É E
85 pages
Statistiques : Descriptive et Inférentielle
100% (2)
Statistiques : Descriptive et Inférentielle
66 pages
Introduction à la Statistique Descriptive
100% (3)
Introduction à la Statistique Descriptive
98 pages
Analyse Statistique des Données
Pas encore d'évaluation
Analyse Statistique des Données
30 pages
Statistique descriptive : concepts clés
Pas encore d'évaluation
Statistique descriptive : concepts clés
16 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
7 pages
Cours Stat 1LNSG 2020
Pas encore d'évaluation
Cours Stat 1LNSG 2020
57 pages
Modélisation et Régression Avancées
Pas encore d'évaluation
Modélisation et Régression Avancées
43 pages
Chapitre 1 AD
Pas encore d'évaluation
Chapitre 1 AD
73 pages
Cours Stat
Pas encore d'évaluation
Cours Stat
30 pages
Introduction aux Statistiques Descriptives
Pas encore d'évaluation
Introduction aux Statistiques Descriptives
63 pages
Mathématique - Plan Du Cours Et Fiche 1
Pas encore d'évaluation
Mathématique - Plan Du Cours Et Fiche 1
24 pages
Cours Statistique Et Analyse de Données
Pas encore d'évaluation
Cours Statistique Et Analyse de Données
97 pages
Rappels sur la statistique descriptive
Pas encore d'évaluation
Rappels sur la statistique descriptive
19 pages
MP2-MRH S2 Statistiques Appliquées Aux RH
100% (1)
MP2-MRH S2 Statistiques Appliquées Aux RH
11 pages
Stat Ddcsprtiv
Pas encore d'évaluation
Stat Ddcsprtiv
38 pages
Chapter 2 Rappel
100% (1)
Chapter 2 Rappel
5 pages
Statistique appliquée : concepts clés
Pas encore d'évaluation
Statistique appliquée : concepts clés
42 pages
Cours de Statistique Descriptive
Pas encore d'évaluation
Cours de Statistique Descriptive
58 pages
Fiches TD Statistiques et Probabilités 2023
Pas encore d'évaluation
Fiches TD Statistiques et Probabilités 2023
10 pages
Cours Theorie L3 TOPO
Pas encore d'évaluation
Cours Theorie L3 TOPO
43 pages
Statistics For Managers
Pas encore d'évaluation
Statistics For Managers
141 pages
Bases 18
Pas encore d'évaluation
Bases 18
13 pages
Cours1 BDD
Pas encore d'évaluation
Cours1 BDD
18 pages
Statistiques Descriptives (PDF)
Pas encore d'évaluation
Statistiques Descriptives (PDF)
76 pages
Chapitre Introduction
Pas encore d'évaluation
Chapitre Introduction
36 pages
Partie2 Statistique
Pas encore d'évaluation
Partie2 Statistique
60 pages
Introduction à la Statistique 2019-2020
Pas encore d'évaluation
Introduction à la Statistique 2019-2020
52 pages
Bcg1 Ch3 23 Cours TD - Copie
Pas encore d'évaluation
Bcg1 Ch3 23 Cours TD - Copie
55 pages
Simulation Numeric 2
Pas encore d'évaluation
Simulation Numeric 2
77 pages
Poly Algebre PDF
Pas encore d'évaluation
Poly Algebre PDF
34 pages
Exercices de programmation Python avancés
Pas encore d'évaluation
Exercices de programmation Python avancés
6 pages
BTP 1207-Technicien en Travaux Publics Niv 4
Pas encore d'évaluation
BTP 1207-Technicien en Travaux Publics Niv 4
64 pages
Rapport A Greg 2008
Pas encore d'évaluation
Rapport A Greg 2008
41 pages
Devoir N° 16 - 1e S1 - Sunudaara
Pas encore d'évaluation
Devoir N° 16 - 1e S1 - Sunudaara
4 pages
Algorithmes Linéaires
Pas encore d'évaluation
Algorithmes Linéaires
7 pages
Série - IESCA-ELECTRONIQUE NUMERIQUE TD1
Pas encore d'évaluation
Série - IESCA-ELECTRONIQUE NUMERIQUE TD1
5 pages
Fonctions Holomorphes et Équations de Cauchy-Riemann
Pas encore d'évaluation
Fonctions Holomorphes et Équations de Cauchy-Riemann
2 pages
TD1 de Mécanique Des Solides
Pas encore d'évaluation
TD1 de Mécanique Des Solides
6 pages
Liste Exercices MPSI
Pas encore d'évaluation
Liste Exercices MPSI
115 pages
Suites numériques : exercices et limites
Pas encore d'évaluation
Suites numériques : exercices et limites
3 pages
Devoir Maison Mathématiques ECE 2 2018-2019
Pas encore d'évaluation
Devoir Maison Mathématiques ECE 2 2018-2019
2 pages
Liste Des Universités Publique Et Filieres
Pas encore d'évaluation
Liste Des Universités Publique Et Filieres
6 pages
Similitude Exo
Pas encore d'évaluation
Similitude Exo
10 pages
Systèmes de numération : décimal, binaire, hexadécimal
Pas encore d'évaluation
Systèmes de numération : décimal, binaire, hexadécimal
4 pages
Courbes de Bézier : Modélisation et Applications
Pas encore d'évaluation
Courbes de Bézier : Modélisation et Applications
39 pages
Devoir TA 2026
Pas encore d'évaluation
Devoir TA 2026
2 pages
Distributions et Équations aux Dérivées Partielles
Pas encore d'évaluation
Distributions et Équations aux Dérivées Partielles
404 pages
Algorithmes de base en programmation
Pas encore d'évaluation
Algorithmes de base en programmation
23 pages
Exercices de Barycentre et Vecteurs
100% (2)
Exercices de Barycentre et Vecteurs
2 pages
Culture numérique : Algorithmique et Python
Pas encore d'évaluation
Culture numérique : Algorithmique et Python
27 pages
Morphismes et sous-groupes en théorie des groupes
Pas encore d'évaluation
Morphismes et sous-groupes en théorie des groupes
11 pages
Estimateurs non biaisés et exhaustifs
100% (3)
Estimateurs non biaisés et exhaustifs
12 pages
Travaux Dirigés en Réseaux de Files d'Attente
Pas encore d'évaluation
Travaux Dirigés en Réseaux de Files d'Attente
48 pages
Anneaux et Modules : Concepts Clés
Pas encore d'évaluation
Anneaux et Modules : Concepts Clés
15 pages
DEVOIR DEPATEMENTAL N°2 DE MATHS 1s2
Pas encore d'évaluation
DEVOIR DEPATEMENTAL N°2 DE MATHS 1s2
2 pages
Grand Oral Maths Ses
Pas encore d'évaluation
Grand Oral Maths Ses
3 pages
Coordonnées généralisées en mécanique
Pas encore d'évaluation
Coordonnées généralisées en mécanique
2 pages