Standardisation vs Normalisation
: Différences et Applications
Dr. Clotilde Djuikem
Dr. Clotilde Djuikem 1/9
Introduction
Context
En analyse de données et en apprentissage automatique,
la standardisation et la normalisation sont deux
techniques couramment utilisées pour transformer les
données avant de les utiliser dans des modèles.
Question: Mais quelles sont leurs différences, comment
sont-elles définies mathématiquement et dans quels
contextes les utilise-t-on ?
Dr. Clotilde Djuikem 2/9
Standardisation
Définition : Transformation des données pour qu’elles
aient une moyenne nulle et un écart-type de 1.
X −µ
Z= (1)
σ
Où :
X est la valeur originale,
µ est la moyenne de la variable,
σ est l’écart-type de la variable.
Dr. Clotilde Djuikem 3/9
Exemple pratique
Prenons un jeu de données simple :
Individu Valeur
A 10
B 20
C 30
D 40
E 50
10 + 20 + 30 + 40 + 50
µ= = 30
5
r
(10 − 30)2 + (20 − 30)2 + (30 − 30)2 + (40 − 30)2 + (50 − 30)2
σ= = 14.14
5
Dr. Clotilde Djuikem 4/9
Application de la standardisation
Calculs :
Valeurs standardisées :
ZA = 10−30
14.14 = −1.41
ZB = 20−30
14.14 = −0.71
ZC = 30−30
14.14 = 0
ZD = 40−30
14.14 = 0.71
ZE = 50−30
14.14 = 1.41
Dr. Clotilde Djuikem 5/9
Normalisation
Définition : Ramène les données dans un intervalle fixe
(souvent entre 0 et 1 ou entre −1 et 1).
X − Xmin
X′ = (2)
Xmax − Xmin
Où :
Xmin et Xmax sont respectivement la valeur minimale
et maximale de la variable.
Dr. Clotilde Djuikem 6/9
Application de la normalisation
Calculs :
X − Xmin
X′ =
Xmax − Xmin
Valeurs normalisées :
XA′ = 10−10
50−10 = 0
XB′ = 20−10
50−10 = 0.25
XC′ = 30−10
50−10 = 0.50
XD′ = 40−10
50−10 = 0.75
XE′ = 50−10
50−10 =1
Dr. Clotilde Djuikem 7/9
Comparaison Standardisation vs Normalisation
Critère Standardisation
X −µ
Formule σ
Plage de valeurs Moyenne : 0, écart-type : 1
Utilisation Données normalement distribuées Don
Critère Normalisation
X −Xmin
Formule Xmax −Xmin
Plage de valeurs Entre 0 et 1 ou -1 et 1
Utilisation Données non normalisées, algorithmes
Dr. Clotilde Djuikem 8/9
Conclusion
Résumé :
Standardisation : utile lorsque les données suivent
une distribution normale et qu’on veut conserver
l’écart-type.
Normalisation : utile pour contraindre les données
dans un intervalle défini, utile pour des algorithmes
sensibles aux distances.
Dr. Clotilde Djuikem 9/9