0% ont trouvé ce document utile (0 vote)
151 vues22 pages

Formation en Statistiques Descriptives

Cette formation vise à enseigner aux cadres de l’Institut National de la Statistique du Congo les techniques d'analyse descriptive univariée et bivariée des données, en mettant l'accent sur le nettoyage et la représentation des données. Le cours aborde les concepts fondamentaux de la statistique, les types de variables, ainsi que l'utilisation des logiciels R et Excel pour l'analyse des données. Les objectifs incluent la compréhension des variables, la réalisation d'analyses univariées et bivariées, ainsi que la gestion des erreurs dans les jeux de données.

Transféré par

Jospin Ntsiwema
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
151 vues22 pages

Formation en Statistiques Descriptives

Cette formation vise à enseigner aux cadres de l’Institut National de la Statistique du Congo les techniques d'analyse descriptive univariée et bivariée des données, en mettant l'accent sur le nettoyage et la représentation des données. Le cours aborde les concepts fondamentaux de la statistique, les types de variables, ainsi que l'utilisation des logiciels R et Excel pour l'analyse des données. Les objectifs incluent la compréhension des variables, la réalisation d'analyses univariées et bivariées, ainsi que la gestion des erreurs dans les jeux de données.

Transféré par

Jospin Ntsiwema
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

LES STATISTIQUES

DESCRIPTIVES UNIVARIEE
ET BIVARIEE
Formation destinée aux cadres de l’Institut National de la Statistique du Congo

Les données sont le pétrole alimentant quasiment toutes industries modernes du XXIème
siècle. Dans ce contexte, le Statisticien/Data analyst a un rôle capital dans la création de
la valeur et une responsabilité énormissime. Celui-ci doit constamment se réinventer en
trouvant des méthodes adaptées et en sélectionnant les outils appropriés pour extraire
l’information pertinente des données.

Dispensé par :

Stanislas MBOUNGOU MANGOUBI,


Ingénieur d’Application de la Statistique,
INS/DSAE & DGB/Prévision

Email : stanislasaigle@[Link]
Tel : +242 05 032 56 82

Juillet 2023
PRÉAMBULE

Les contenus de ce cours ont été produits par M. Stanislas MBOUNGOU MANGOUBI,
stagiaire de l'unité d’exécution du Projet de Renforcement des Capacités en Statistiques
(PSTAT). Il est diplômé de l’Institut Sous-régional de Statistique et d’Economie Appliquée
(ISSEA), Ingénieur d’Application de la Statistique, spécialisé en Système d’Information et
Statistique Décisionnelle. Mis à la disposition de l’Institut National de la Statistique (INS), par
le contrat N°030/UCP-PSTAT/23, il est tenu selon les Termes de Références Annexe A : de
contribuer à l’amélioration de la production des données statistiques ; de renforcer les services
techniques en personnel de qualité ; et d’assurer la transmission des connaissances et
d’expérience.

Etant doté de plus de trois (03) ans d’expérience dans l’analyse des données (Econométrie,
Data mining, Credit scoring, etc.) et les Systèmes de Gestion de Base de données (SGBD), il
forme les particuliers et les organisations à piloter leurs entreprises à partir des données. Cela
se fait grâce à des formations en analyse de données, la création des tableaux de bord, la
conception des systèmes d’information et la création des bases de données.

La présente formation expose en intégralité, l’analyse descriptive (univariée et bivariée)


des données en coupe transversale. En effet, l’analyse descriptive est la base de toute
modélisation économétrique (cas des CNT) et du calcul des indicateurs statistiques. Elle permet
d’explorer des données, de découvrir leurs structures et d’émettre les hypothèses. Par ailleurs,
elle renseigne sur la qualité des données. Le présent cours sera complété par un cours
approfondi sur le traitement des données. Celui-ci abordera de façon détaillée les différents
traitements des valeurs manquantes et des outiliers, tout en précisant les fondements
mathématiques des méthodes de traitement.

Stanislas MBOUNGOU MANGOUBI

« La statistique est l’art de dépouiller les chiffres de toute la réalité qu’ils contiennent.
‘Un’ égale ‘un’, parfois ; le plus souvent : 1= X. » par Rémy de Gourmont

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 1


Email : stanislasaigle@[Link]
Objectifs pédagogiques :

➢ Nettoyer un jeu de données.


➢ Comprendre et représenter les variables.
➢ Réaliser une analyse univariée.
➢ Réaliser une analyse bivariée.

Base de données et logiciels

Les données analysées dans ce cours sont des données issues d'un compte bancaire. En
appliquant les techniques de l’analyse descriptive (univariée et bivariée), nous répondrons aux
questions suivantes :

• Quand vous faites vos courses, à quelle vitesse consommez-vous vos produits ?
• Combien faites-vous de stock ?
• Consommez-vous plus en début ou en fin de mois ? Les week-ends ?
• Êtes-vous plus dépensier lorsque vous avez beaucoup d'argent sur votre compte ?
• etc.

Nous utiliserons tout au long de cours deux logiciels qui sont R et Excel.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 2


Email : stanislasaigle@[Link]
TABLES DES MATIERES
PRÉAMBULE ............................................................................................................................ 1
Objectifs pédagogiques : ............................................................................................................ 2
Base de données et logiciels ....................................................................................................... 2
TABLES DES MATIERES ....................................................................................................... 3
INTRODUCTION ...................................................................................................................... 4
Lexique du vocabulaire de la statistique................................................................................. 4
Différence entre statistiques et probabilités ............................................................................ 5
Appréhendez les différents domaines de la statistique ........................................................... 6
Les statistiques descriptives......................................................................................... 6
L'analyse multidimensionnelle .................................................................................... 6
Les statistiques inférentielles ....................................................................................... 6
La modélisation statistique .......................................................................................... 6
1 Les variables statistiques ..................................................................................................... 8
1.1 Appréhendez les variables quantitatives...................................................................... 8
1.2 Découvrez les variables qualitatives............................................................................ 9
1.3 En résumé .................................................................................................................... 9
2 Nettoyez et analysez votre jeu de données ....................................................................... 10
2.1 Identifiez les différents types d'erreurs ...................................................................... 10
2.2 Gérez les différentes erreurs ...................................................................................... 12
3 Gérez les différentes erreurs d'un jeu de données ............................................................. 14
3.1 Gérez les valeurs manquantes.................................................................................... 14
3.1.1 Travaillez avec un jeu de données "gruyère" ..................................................... 14
3.1.2 Oubliez des individus ......................................................................................... 15
3.1.3 Imputer des valeurs manquantes ........................................................................ 15
3.1.4 Limites de l’imputation : .................................................................................... 17
3.2 Traitez les outliers ..................................................................................................... 17
3.3 Éliminez les doublons ................................................................................................ 18
4 Bibliographie..................................................................................................................... 21

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 3


Email : stanislasaigle@[Link]
INTRODUCTION
Dans ce cours, vous apprendrez comment nettoyer et décrire un jeu de données. Mais avant
d’entrer dans le vif du sujet, faisons un petit tour d'horizon du domaine des statistiques et des
concepts clés qui nous accompagneront tout au long de ce cours.

Lexique du vocabulaire de la statistique


En statistiques, on étudie des trucs, des humains, des bidules et des choses. Ces "choses", on
les appelle des individus. Ces individus peuvent être des objets, des personnes, des animaux,
des mesures physiques, etc. L’individu, c’est l’unité d’observation. C’est sur l’individu qu’un
ensemble des données sont collectées ou qu’un ensembles des caractéristiques sont observées.

C’est quoi une donnée ? ou les données ?

Les données statistiques sont des éléments d'information, souvent numériques, qui servent de
point de départ à une étude statistique. Elles peuvent être des données numériques ou des
données alphanumériques.

Les données brutes sont des données non encore classées. Les données sont des faits, des
chiffres, des observations ou des enregistrements qui peuvent se présenter sous la forme
d'image, de son, de texte ou de mesure physique. Les données peuvent être collectées et traitées
dans le but de tirer des conclusions. (Statistique Canada, 2023)

Des individus ont des caractéristiques : on les appelle des caractères, ou des variables.

L’ensemble des individus s’appelle la population. On note souvent sa taille « N »,


correspondant au nombre d’individus de la population. Il est très fréquent de ne pas connaître
la taille exacte d'une population.

Lorsque l’on sélectionne certains individus d’une population, on obtient un échantillon. Sa


taille est souvent notée « n ».

On utilisera souvent le terme de jeu de données, (ou data set, en anglais). Cela correspond à
l'ensemble des informations collectées sur les individus de notre échantillon.

Comment peut-on représenter un échantillon ?

On représente en général un échantillon sous forme de tableau, où chaque ligne correspond à


un individu, et chaque colonne représente une variable. Cette représentation est à l’origine du
format de fichier CSV (comma separated values). Ce format peut être ouvert avec les logiciels

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 4


Email : stanislasaigle@[Link]
tableurs (Microsoft® Excel, OpenOffice Calc), et est facilement interprétable par les langages
R et Python.

Tableau 1 : Représentation de notre échantillon

Cette représentation est très similaire à celle des bases de données relationnelles.

Différence entre statistiques et probabilités


Ces deux domaines sont étroitement liés, mais ils sont distincts. Quand on ne fait qu’observer
et décrire objectivement un phénomène passé, alors on fait des statistiques.

Mais dès lors que l'on modélise, qu'on essaie de comprendre les chances (ou le risque) qu'un
événement se produise, on fait le lien entre ce qu'on observe et le domaine théorique que
constituent les probabilités. On passe alors dans le domaine de la statistique dite statistique
inférentielle1.

En statistiques, les données que l'on observe sont appelées observations, ou parfois réalisations.
À partir de ces observations, on peut modéliser. Modéliser, c'est essayer de trouver les lois
mathématiques qui régissent les données observées. Dans le domaine des probabilités, on
manipule des variables aléatoires, des lois de probabilité, etc.

Si vous étudiez la proportion femmes/hommes d'un pays, vous sélectionnez un échantillon dans
lequel vous observez ces proportions : par exemple 55 % de femmes et 45 % d'hommes. Ce
sont des statistiques. Mais si vous dites ensuite dans ce pays, un enfant qui naît a une probabilité
de 55 % d’être une fille, alors vous faites des probabilités !

1
Ensemble des techniques permettant d'induire les caractéristiques d'un groupe général (la population) à partir de 5
celles d'un groupe particulier (l'échantillon), en fournissant une mesure de la certitude de la prédiction : la
probabilité d'erreur.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique


Email : stanislasaigle@[Link]
Appréhendez les différents domaines de la statistique
❖ Les statistiques descriptives

Il s’agit de présenter, décrire et résumer le jeu de données, à l’aide de graphiques et de mesures


(moyenne, écart-type, etc.). En statistique descriptive, chaque graphique (ou chaque mesure)
est calculé(e) sur 1 ou 2 variables à la fois, pas plus. Pourquoi pas plus ? Parce que représenter
les relations entre 2 variables sur un graphique est assez simple sur du papier ou sur un écran,
car ceux-ci sont en 2 dimensions (longueur-largeur).

❖ L'analyse multidimensionnelle

L’analyse multidimensionnelle (appelée également analyse exploratoire de données) est le


prolongement des statistiques descriptives, sauf que là, on étudie plutôt les relations entre 3
variables ou plus. Représenter des graphiques avec 3, 4, 5 ou 100 dimensions n’est plus possible
sur du papier à 2 dimensions.

Le terme anglophone Data Analysis n'est pas l'équivalent du terme français analyse de données.
Data Analysis est un terme beaucoup plus large qui englobe les statistiques descriptives, le
nettoyage et la transformation des données, la modélisation, etc.

❖ Les statistiques inférentielles

Ici, il s’agit d’analyser les données d’un sous-ensemble d’une population pour en déduire les
caractéristiques globales de la population. Si vous entendez un jour parler d'estimateurs ou de
tests statistiques, il s'agira de statistiques inférentielles.

❖ La modélisation statistique

Il s’agit d’observer les caractéristiques d’un échantillon, puis de formaliser ces observations par
des règles mathématiques. Cette formalisation s’appelle un modèle probabiliste. Une fois que
l'on a décrit un phénomène par un modèle, on peut faire de la prédiction ou de la prévision.

En résumé

➢ En statistiques, un jeu de données correspond à un échantillon d'une population globale


étudiée.
➢ Un jeu de données est organisé sous forme de tableau où les lignes sont des individus et
les colonnes des variables.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 6


Email : stanislasaigle@[Link]
➢ Le domaine de la statistique est concentré sur l'explication et la description objective
d'un phénomène passé.
➢ Le domaine de la probabilité est plus intéressé au futur potentiel d'un évènement à venir.
➢ Il existe quatre grands domaines de la statistique :
• Les statistiques descriptives.
• L'analyse multidimensionnelle.
• Les statistiques inférentielles.
• La modélisation statistique.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 7


Email : stanislasaigle@[Link]
1 Les variables statistiques

Maintenant que nous avons tous le même vocabulaire, observons les variables de notre jeu de
données de relevés bancaires. Elles ne sont pas toutes de même type. Certaines sont des
nombres (la variable "montant"), certaines sont des dates (la variable "date opération"),
certaines sont des mots (comme la catégorie d'opération : "loyer", "courses", etc.).

En statistique, on distingue deux types de variables, chacun d’eux est subdivisé en 2 groupes :

1.1 Appréhendez les variables quantitatives


Ce sont les variables qui prennent des valeurs numériques (des nombres, quoi !), à condition
que ces valeurs expriment une quantité et aient un sens lorsque l’on y applique des opérations
arithmétiques.

Par exemple, si vous additionnez tous les montants des dépenses de votre relevé bancaire, vous
saurez combien vous aurez dépensé au total : ceci a un sens. C’est une quantité d’argent.
Cependant, l’identifiant d’une opération, bien que numérique, n’est pas une variable
quantitative. En effet, effectuer la somme des identifiants de vos opérations n’a aucun sens,
l’identifiant ne représente pas une quantité.

Une variable quantitative est soit discrète, soit continue.


Si le nombre de valeurs possibles (et probables) d'une variable est très grand, alors on peut la
considérer comme continue. Sinon, on la considère comme discrète.

Dans nos relevés de compte, le montant des opérations peut prendre beaucoup de valeurs. Si
vous prenez le montant d'une opération au hasard, il a de grandes chances d'être compris entre
0 € et 1 000 €. Entre ces 2 valeurs, il y a 100 000 valeurs possibles : 0,00 €, 0,01 €, 0,02 €, etc.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 8


Email : stanislasaigle@[Link]
1.2 Découvrez les variables qualitatives
Il s’agit de toutes les variables qui ne sont pas quantitatives. Les valeurs qu’elles prennent sont
appelées des catégories, ou modalités. Ces dernières sont exprimées sous forme littérale (par
un mot, une phrase ou un code) ou par un codage numérique sur lequel les opérations
arithmétiques n’ont aucun sens. Une variable qualitative est nominale ou ordinale.

Une variable est ordinale si ses modalités peuvent être ordonnées. Imaginons qu'à partir de la
variable "montant", nous ayons construit une variable "tranche dépense", qui peut prendre
différentes valeurs en fonction du montant de la dépense :

▪ petite dépense
▪ dépense moyenne
▪ grosse dépense.
Cette variable serait ordinale, car on peut dire qu’une dépense de la tranche "petite dépense" est
plus petite qu’une "dépense moyenne", elle-même plus petite qu’une "grosse dépense". Dans
un autre cadre, les mentions attribuées à un examen (moyen, bien, très bien) sont aussi une
variable ordinale. Par ailleurs, l’identifiant d’une opération est nominal, car on ne peut pas dire
que l’opération numéro 1 est "inférieure" à l’opération numéro 40 (on suppose ici que les
identifiants ne sont pas forcément classés par date d’opération).

NB : Dans un ordinateur, les dates sont stockées sous forme de nombre entier, appelé
timestamp. Il comptabilise le nombre de secondes (ou parfois de millisecondes) écoulées depuis
le 1er janvier 1970. Par exemple, la date du 23 septembre 2020 est codée par le timestamp
1600819200. Cependant, additionner des timestamps n'a pas vraiment de sens : une date sera
donc considérée comme qualitative ordinale.

1.3 En résumé
➢ Les variables quantitatives représentent l'ensemble des variables numériques.
➢ Une variable quantitative peut être continue si le nombre de valeurs possibles est
potentiellement infini, discrète sinon.
➢ Les variables qualitatives sont des variables caractérisant l'appartenance de l'individu à
un groupe (ou une catégorie).
➢ Les différentes valeurs possibles d'une variable qualitative sont appelées des modalités.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 9


Email : stanislasaigle@[Link]
➢ Une variable qualitative peut être ordinale lorsque les modalités peuvent être ordonnées
selon une certaine hiérarchie ou importance, nominale sinon.

2 Nettoyez et analysez votre jeu de données

Le traitement des données est une tâche fastidieuse qui prend énormément du temps. Les
statisticiens passent une grande partie de leur temps à cette étape. Car, la qualité des résultats
est directement inhérente à la qualité des données analysées. Il serait faux de dire que le
nettoyage des données intervient avant de les analyser. Dans la plupart des cas, on est obligé de
faire des allers-retours entre la phase de nettoyage et la phase de description (analyse). En phase
d'analyse, on trouve souvent de nouvelles erreurs, et il faut revenir au nettoyage. De plus, le
nettoyage nécessaire à l'analyse différera d'un traitement à un autre : d'où les allers-retours !

Donc comme ça, notre jeu de données contient des erreurs ?

En fait, tout dépend de la source de vos données. Prenons deux exemples de sources parmi
d'autres : les saisies "à la main" effectuées par des humains, et les capteurs. Si les données ont
été saisies par un humain, alors il y a de fortes chances pour que des erreurs se soient glissées
dans la saisie. Par exemple, lorsque quelqu'un tape dans un tableur les résultats d'un sondage
rempli sur papier, ou encore lorsqu'un site web contient un formulaire dans lequel l'internaute
saisit de fausses données. Par ailleurs, si les données proviennent de capteurs (le système de
géolocalisation de votre téléphone, le capteur de vitesse de votre véhicule, la machine qui valide
votre billet à l'entrée du bus, etc.), alors il se peut que le capteur se dégrade au cours du temps
et ne soit plus étalonné (un thermomètre qui indique 23°C alors que la température réelle est de
25°C) ou bien qu'il ne fonctionne plus (il n'envoie plus de données).

2.1 Identifiez les différents types d'erreurs


Nous allons ici voir quelques types d'erreurs. Prenons l'exemple d'un échantillon de personnes,
décrites par plusieurs variables :

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 10


Email : stanislasaigle@[Link]
Tableau 2 : Echantillon des données (exemple)

Date de
Prénom E-mail Pays Taille
naissance

Stanislas stanislas@[Link] 23/01/1990 Congo 1,49 m

Samuel samuel_329@[Link] 20/09/2001 1,67 m

Radia choupipoune@[Link] 12 sept. 1984 Côte d'ivoire 153 cm

marco23@[Link],
Marc 10/02/1978 France 1,65 m
mc23@[Link]

Heri helloworld@[Link] 05/03/2008 Madagascar 1,34 m

Hanna hanna2019@[Link] 01/01/1970 24 3,45 m

samuël samuel_329@[Link] Bénin 1,45 m

Cet échantillon n'est pas vraiment. En effet, on y trouve :

➢ Tout d'abord, il y a des cases vides pour les variables Pays et Date de naissance. On
appelle cela les valeurs manquantes.
➢ Si vous regardez dans la colonne Pays, il y a une case qui contient 24. Or, 24 n'est
absolument pas un pays ! Il s'agit ici d'une erreur lexicale.
➢ Ensuite, vous avez peut-être vu qu'un 153 cm s'est glissé dans la colonne Taille. C'est
un problème car toutes les autres valeurs sont données en mètres, et pas en centimètres
! C'est une erreur d'irrégularité, car la variable Taille n'est pas représentée de manière
régulière.
➢ Marc a 2 adresses e-mail. Ce n'est pas forcément problématique, mais si vous oubliez
cela et que vous codez un programme d'analyse en faisant la supposition qu'une
personne n'a qu'un seul e-mail, votre programme plantera probablement ! Si vous faites
effectivement cette supposition, alors il y aura une erreur de formatage, car
marco23@[Link], mc23@[Link] ne respecte pas le format voulu.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 11


Email : stanislasaigle@[Link]
➢ Regardez la variable Date de naissance. Il y a également une erreur de formatage : la
date de naissance de Radia n'est pas du même format que les autres dates.
➢ Samuel est présent sur 2 lignes. Comment être sûr qu'il s'agit bien du même Samuel ?
Par son adresse e-mail, bien sûr ! Il s'agit d'un doublon. De plus, sur les 2 lignes de
Samuel, les tailles sont différentes : 1,67 m et 1,45 m, ça c'est une erreur de
contradiction.
➢ Hanna mesure 3,45 m. Cette taille est très différente des tailles usuelles des êtres
humains : c'est une valeur qualifiée d'outlier, ou valeur extrême, en français.

Le terme anglophone d'outlier peut désigner deux choses en français : une valeur atypique ou
une valeur aberrante. Seul le contexte permet de faire la distinction entre les deux, comme nous
le verrons dans le chapitre suivant.

2.2 Gérez les différentes erreurs


Je préfère vous le dire tout de suite, dès que vous devrez nettoyer un jeu de données, il n'y a pas
de règle toute faite. Tous les traitements que vous ferez seront en fonction de l'utilisation que
vous aurez de vos données. Deux statisticiens ne nettoieront pas un même jeu de données de la
même manière s'ils ont des objectifs différents !

Pas de règle donc, mais je peux vous donner quelques pistes :

➢ Concernant les valeurs manquantes, c'est l'objet du chapitre suivant.


➢ Pour le pays invalide, il est possible de fixer à l'avance une liste des pays autorisés, puis de
supprimer les valeurs qui ne sont pas dans cette liste (ici, 24 n’y sera pas). Une telle liste est
souvent appelée dictionnaire.
➢ Pour les erreurs d'irrégularité, c'est plus compliqué. On peut par exemple fixer un format
fixe (ici : un nombre décimal suivi du caractère "m"), et supprimer les valeurs qui ne suivent
pas ce format. Mais on peut faire mieux, et détecter d'abord dans quelle unité est exprimée
la valeur (mètres ou centimètres), puis tout convertir en une même unité.
➢ Pour l'erreur de formatage de la double adresse e-mail, tout dépend de ce que vous souhaitez
faire. Si vous n'analyserez pas les e-mails dans votre analyse future, alors pas besoin de
corriger l'erreur. Si par contre vous souhaitez connaître la proportion du nombre de
personnes dont l'adresse finit par @[Link], par @[Link], etc., alors vous pouvez choisir
entre :
• Prendre la première adresse e-mail, et oublier la seconde.
• Garder l'ensemble des adresses e-mail.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 12


Email : stanislasaigle@[Link]
➢ Passons à la variable Date de naissance. Il existe d'innombrables formats de date, et
chaque pays a sa propre habitude quand il s'agit d'écrire une date (ex. : les Français et
les Nord-Américains n'utilisent pas les mêmes formats). En plus de cela, il faut ajouter
les problèmes des fuseaux horaires. Dans notre cas, la plus simple des solutions consiste
à supprimer les dates qui ne sont pas au format jour/mois/année.
➢ Pour le doublon, vous verrez cela dans le chapitre suivant.
➢ Pour l'outlier, c'est également dans le chapitre suivant !

Sachez que selon les pays, on peut adopter le format de date normalisé : le format le format ISO
8601. Il est de cette forme : 1977-04-22 T [Link]Z.

En règle générale, si une variable contient peu d'erreurs et que cette variable n'est pas d'une
importance cruciale pour votre analyse, on peut se permettre de supprimer les valeurs erronées
[plusieurs précautions doivent être prises]. On se retrouvera alors avec des valeurs manquantes.
Vous verrez que faire des valeurs manquantes dans le chapitre suivant. Cependant, si les erreurs
sont nombreuses et de même nature, autant créer un programme informatique qui corrigera les
erreurs.
Par exemple, si 60 % des tailles sont données en mètres, 35 % en centimètres et 5 % dans
d'autres unités, alors il y a 35 % d'erreurs qui sont de même nature (35 % des valeurs sont en
centimètres au lieu de mètres). Autant donc coder quelques lignes de code qui convertiront les
centimètres en mètres. Si vous êtes motivé et que le jeu en vaut la chandelle, attaquez-vous
aussi aux 5 % restants, mais cela vous prendra beaucoup de temps !

En résumé

➢ Lorsqu'une valeur au sein d'un jeu de données n'est pas renseignée, on parle de valeur
manquante.
➢ Une valeur peut également être incohérente par rapport au format ou par rapport à la
façon dont la variable a été construite. On parle alors d'erreur lexicale, d'erreur de
formatage ou encore d'erreur d'irrégularité.
➢ Certaines valeurs peuvent apparaître en double dans notre jeu de données : ce sont des
doublons.
➢ Une valeur extrême, ou outlier, est une valeur bien trop importante ou bien trop faible
par rapport à l'ensemble des valeurs d'une variable.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 13


Email : stanislasaigle@[Link]
3 Gérez les différentes erreurs d'un jeu de données

Nous l'avons vu dans le chapitre précédent, un échantillon peut contenir des valeurs
manquantes, des outliers et des doublons. Alors que faire ?

Certaines des méthodes suivantes suppriment de l'information dans votre échantillon. Faites
attention à toujours conserver une copie de votre échantillon. Si vous souhaitez supprimer de
l'information, alors créez une copie de l'échantillon, puis supprimez ce que vous voulez : le
nouvel échantillon que vous obtenez sera appelé échantillon02.

3.1 Gérez les valeurs manquantes


En statistique, on parle de valeur manquante lorsqu’on n’a pas d’observations pour une variable
donnée et pour un individu donné. Le problème de gestion des données manquantes est un vaste
sujet qui fera l’objet d’un cours à part entière (On ne peut traiter la problématique des données
manquantes en une section). Les données manquantes ne peuvent pas être ignorées lors d’une
analyse statistique. Mais selon leur proportion et leur type, des solutions différentes vont être
choisies. On pourra soit retirer les variables ou les individus présentant des données manquantes
ou imputer des valeurs aux données manquantes ou encore développer des méthodes (ou
algorithme) qui permettent de mener les analyses en présence de données manquantes.

3.1.1 Travaillez avec un jeu de données "gruyère"

Pour une variable donnée (par exemple, date de naissance dans l'exemple du chapitre
précédent), si la proportion de valeurs manquantes est faible, alors on peut les oublier et ne
rien faire. On laisse l'échantillon intact. On travaillera alors avec un jeu de données qui
contiendra des "trous", comme dans un gruyère. Selon le traitement statistique que vous
appliquerez, cette solution sera ou non acceptable.

Cependant, si pour cette même variable, la proportion de valeurs manquantes est beaucoup
trop importante, mieux vaut l'oublier. Cela à condition que la variable ne soit pas trop
importante pour l'analyse. Cela équivaut à ne pas considérer une colonne dans le tableau du
chapitre précédent.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 14


Email : stanislasaigle@[Link]
3.1.2 Oubliez des individus

Si la variable qui contient des données manquantes est cruciale dans l'analyse, alors mieux vaut
créer un sous-échantillon et y supprimer les individus pour lesquels cette variable est
manquante. Par exemple, si vous analysez vos relevés de comptes bancaires en vous intéressant
aux sommes d'argent que vous gagnez/dépensez, la variable "montant de l'opération" sera très
importante. S'il arrive que le montant de l'opération soit inconnu pour certaines lignes de votre
relevé, alors mieux vaut créer un sous-échantillon et y supprimer la totalité de ces lignes.

Cette dernière méthode contient cependant des risques. En effet, vous pouvez vous retrouver
avec un nombre d'individus (un nombre de lignes) trop petit pour que votre analyse ait encore
du sens. De plus, il se peut que votre échantillon ne soit plus représentatif de la population
globale.

3.1.3 Imputer des valeurs manquantes

Dans la littérature, on distingue un grand nombre de méthodes d’imputation des données. Ces
méthodes dépendent généralement du type des données qualitative ou quantitative (données en
coupe transversale ou données temporelles) et du type de la valeur manquante. En effet, Little
et Rubin (2002) définissent une typologie générale des données manquantes en trois catégories
qui dépendent de la relation statistique entre les données et le mécanisme de génération des
données manquantes. On peut citer :
Données manquantes complétement aléatoirement (MCAR : Missing Completely At
Random)
Les données sont manquantes complétement aléatoirement si la probabilité d’absence est la
même pour toutes les observations. Cette probabilité ne dépend que des paramètres extérieurs
indépendants de cette variable. De manière formelle, ce cas est d´défini par :
Dans ce cas-ci, les données manquantes sont nécessairement sans structure. Un exemple typique
de données MCAR est le cas où une personne oublie par accident de répondre à une question
lors d’une enquête.
Données manquantes aléatoirement (MAR : Missing At Random)
Le cas des données MCAR est peu courant. Il arrive lorsque les données ne manquent pas de
façon complètement aléatoire ; si la probabilité d’absence est liée à une ou plusieurs autres
variables observées, on parle de missing at random (MAR). Il existe des méthodes statistiques
appropriées qui permettrons d’éviter de biaiser l’analyse.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 15


Email : stanislasaigle@[Link]
Données manquantes non aléatoirement (MNAR : Missing Not At Random)
La donnée est manquante de façon non aléatoire si la probabilité d’absence dépend de la
variable en question. Un exemple répandu est le cas où des personnes avec un revenu important
refusent de le dévoiler. Les données MNAR induisent une perte de précision (inhérente à tout
cas de données manquantes) mais aussi un biais qui nécessite le recours à une analyse de
sensibilité. Ce type de données manquantes est plus complexe à traiter. Il peut être abordée par
analyse de sensibilité.

Les différentes méthodes se trouvant dans la littérature pour imputer les données manquantes
sont inhérentes à cette typologie. Parmi ces méthodes, les plus courantes sont :

Imputation par la moyenne : On remplace chacune des valeurs manquantes par la


valeur moyenne de l’ensemble de réponses obtenues.

Imputation par le ratio : chaque valeur manquante 𝑦𝑖 est remplacée par la valeur
prévue 𝑦𝑖∗ obtenue par régression de y sur x.

Imputation par régression : c’est une extension naturelle de l’imputation par la


méthode du ratio où l’on se sert de q variables auxiliaires 𝑥1 … 𝑥𝑞 .

Imputation par la méthode hot-deck aléatoire : cela consiste à attribuer la valeur de


y fournie par un répondant (donneur), sélectionné au hasard avec remise parmi
l’ensemble des répondants, pour remplacer la valeur manquante pour l’unité non-
répondante (receveur).

Imputation par la méthode par le plus proche voisin : on attribue à l’enregistrement


pour lequel la réponse à une question manque la valeur figurant pour cette question dans
l’enregistrement obtenu pour le répondant le plus proche, où l’expression « le plus
proche » est habituellement définie par une fonction de distance basée sur une ou
plusieurs variables auxiliaires.

Exemple : Imaginons un nouvel individu : Luc, né en 1991, dont la taille est inconnue. Plutôt
que de lui attribuer la moyenne de tout l'échantillon (1,52 m), on peut lui attribuer la moyenne
des personnes qui ont à peu près son âge. Attribuons-lui donc la moyenne des tailles des
personnes nées entre 1990 et 2000, soit 1,49 m. Ici, on a regardé la valeur de la
variable date_de_naissance pour déduire la valeur de la variable taille.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 16


Email : stanislasaigle@[Link]
3.1.4 Limites de l’imputation :

Deviner (imputer) des valeurs modifie forcément votre échantillon, car les valeurs imputées
sont fausses. En particulier, vos calculs de variances ou de corrélations seront faussées. Il faut
donc les utiliser avec précaution, afin de ne pas trop modifier les données. A cet effet, une bonne
pratique peut être d'observer la distribution de la variable (ou tout au moins ses quantiles) avant
et après l'imputation, pour voir si sa forme n'a pas trop été impactée. D’où, il est nécessaire de
toujours préciser la méthode utilisée dans chacun des résultats d'analyse que vous présenterez.
Cela c’est principalement pour des raisons suivantes :

Bien que l’imputation permette de remédier au problème de données manquantes,


l’inférence, en particulier l’estimation ponctuelle, ne sera valide que si les hypothèses
sous-jacentes sont satisfaites.
L’imputation modifie les relations entre les variables.
Si les valeurs imputées sont traitées comme des valeurs observées, la variance de
l’estimateur risque d’être considérablement sous-estimée, surtout si la proportion de
non-réponses est appréciable.

3.2 Traitez les outliers


Dans la base de données qui est disposée pour ce cours, Hanna mesure 3,45 m. Vous ne trouvez
pas cela très grand ? Si. C'est très grand comparé aux tailles des autres êtres humains. Mais
attention, un outlier n'est pas forcément une valeur fausse. En effet, Hanna mesure peut-être
réellement 3,45 m. OK, c'est difficile à concevoir, mais c'est théoriquement possible.

Un outlier peut être :

• une valeur aberrante : c'est une valeur qui est manifestement fausse ;
• une valeur atypique : c'est une valeur qui "sort du lot", mais pas forcément fausse.
En français, il arrive très souvent que le terme valeur aberrante soit employé à tort pour
désigner une valeur atypique.
Mais comment déterminer si mon outlier est une valeur aberrante ou une valeur atypique ?

Dans l'exemple d'Hanna, même si cela est théoriquement possible, le record de taille pour un
être humain se situe un peu au-dessus de 2,70 m. En ayant cette information en tête, on peut

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 17


Email : stanislasaigle@[Link]
assez facilement conclure que notre outlier est une valeur aberrante, et le traiter en conséquence.
Ainsi, c'est notre connaissance du sujet qui nous a permis dans cet exemple de faire la
distinction : c'est ce que nous appelons le contexte. Ainsi, en présence d'un outlier, la première
étape va être de déterminer à partir du contexte de notre étude si ce dernier est une
valeur aberrante ou une valeur atypique.

Si nous sommes sûrs que la valeur est erronée (erreur de saisie ou défaut d’un capteur, par
exemple), alors il faut la supprimer s’il n’est pas possible de connaître la vraie valeur. Dans
les autres cas, nous avons le choix entre :

• Supprimer la valeur. On se retrouve alors avec une valeur manquante, à laquelle on


peut imputer une valeur comme nous l’avons vu précédemment. L’imputation n’est
pas obligatoire.
• Conserver la valeur.
Comment choisir entre ces deux options ? Tout dépend des traitements que vous appliquerez
par la suite. Certaines méthodes sont dites "robustes", car elles ne sont pas déstabilisées par les
outliers. Par exemple, nous verrons par la suite que la moyenne est très sensible aux outliers,
alors que la médiane ne l’est pas. Si vous souhaitez faire une moyenne, créez un sous-
échantillon dans lequel vous ne considérez pas les outliers. Mais si vous calculez aussi la
médiane, travaillez sur l’échantillon de départ. N’hésitez pas, quand vous présentez votre
analyse, à citer les outliers s'ils sont intéressants. Cela permet à ce que le lecteur ne remette pas
en question vos résultats, en le laissant l’occasion d’explorer le type de traitement adopté.

3.3 Éliminez les doublons


Dans notre exemple, Samuel est présent 2 fois. C’est problématique, car ce doublon (aussi
appelé "donnée dupliquée") fausse les analyses : notamment la taille moyenne de l'échantillon.
Eliminer les doublons de l’échantillon fait partie du traitement des données. Cependant, il n’y
a pas de règle précise pour les détecter : vous seul pouvez les détecter, à partir de la structure
de vos données et en sachant comment elles ont été collectées. Mais parfois, ce sera très difficile
voire même impossible.

Un petit exemple : si votre échantillon contient une variable "identifiant", alors il est aisé de
détecter des doublons. Ce sont ceux qui auront le même identifiant. Dans notre exemple, on
peut considérer que l’adresse e-mail est l’identifiant d’une personne. Dans notre exemple, les
2 lignes qui ont pour e-mail samuel_329@[Link] constituent un doublon.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 18


Email : stanislasaigle@[Link]
Si vous êtes familier avec les bases de données, vous connaissez probablement la notion
de clé (clé primaire ou clé candidate). Deux individus avec les mêmes valeurs pour une
clé sont un doublon.
Autre exemple : vous analysez des relevés de température pris dans un village. Il y a 2 stations
météo dans ce village : la station 1, qui a fonctionné de nombreuses années jusqu’au 15 janvier
2019, puis qui s’est arrêtée à cause de son ancienneté. Cette panne ayant été prévue, une station
2 avait été installée (au même endroit) pour la remplacer : elle a été mise en service le 2 janvier
2019. Votre échantillon est donc constitué de relevés provenant des 2 stations. Cependant, les
relevés compris entre le 2 janvier et le 15 janvier 2019 sont en double, car les 2 stations
fonctionnaient en parallèle. Il vous faut donc supprimer, pour chaque date comprise dans cette
période, l’un des 2 relevés.

Oui mais de nos deux lignes contenant samuel_329@[Link] , faut-il en supprimer une
au hasard ?
En fait, il faut faire un peu plus attention. Mieux vaut les regrouper en une ligne. En effet,
parmi ces 2 lignes, la première nous informe que Samuel est né le 20/09/2001, et la seconde
ligne nous informe que Samuel habite au Bénin (information qui est manquante dans la
première ligne). Le problème, c’est pour la taille : la première ligne nous dit que Samuel mesure
1,67 m, alors que la seconde nous affirme qu’il ne mesure que 1,45 m. Il y a contradiction. S’il
n’y a pas d’autre moyen de vérification, on peut par exemple choisir de prendre la moyenne de
ces 2 valeurs.

Gardez bien en tête que peu importe la solution que vous choisirez, à partir du moment où vous
supprimez des valeurs, des individus, ou réalisez des imputations, vous modifierez forcément
votre jeu de données. Vous créerez donc ce qu'on appelle en statistiques un biais dans vos
données. Ce n'est pas un problème en soi, mais il faut bien en être conscient au moment de gérer
les différents types d'erreurs et de faire des modélisations.

En résumé

Chaque erreur doit être traitée spécifiquement en fonction de sa nature.

• Le premier réflexe face à une valeur manquante doit être d'essayer de trouver la valeur
exacte.
• Sinon, nous pouvons :
1. Choisir de laisser les choses telles quelles.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 19


Email : stanislasaigle@[Link]
2. Supprimer les individus concernés lorsque leur nombre n'est pas trop important
: on parle d'amputation.
3. Remplacer la valeur manquante, on parle alors d'imputation.
4. Supprimer la variable lorsque le nombre de valeurs manquantes est trop
important.
• Un outlier peut être une valeur aberrante, ou une valeur atypique.
• Une valeur atypique peut être traitée spécifiquement. Mais pour une valeur aberrante,
on peut choisir de supprimer cette dernière, ou la laisser telle quelle.
• Enfin, en présence de doublons nous pouvons :
1. ne conserver qu'une seule ligne lorsque les informations sont identiques ;
2. trouver un moyen de regrouper les informations sur une seule ligne, en essayant
de conserver le plus de cohérence possible.
Ouf, voilà pour la théorie ! Il est à présent temps de voir un peu comment on peut mettre toutes
ces méthodes en place pratiquement, avec un petit exemple avec R dans le prochain chapitre.

******************* En cours de rédaction**********************

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 20


Email : stanislasaigle@[Link]
4 Bibliographie

LITTLE, R. et RUBIN, D. (2002). Statistical Analysis with Missing Data.

©Stanislas MBOUNGOU MANGOUBI, Ingénieur d’Application de la Statistique 21


Email : stanislasaigle@[Link]

Vous aimerez peut-être aussi