0% ont trouvé ce document utile (0 vote)
20 vues8 pages

TP Latex

Ingénieux

Transféré par

probe.lukoki
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
20 vues8 pages

TP Latex

Ingénieux

Transféré par

probe.lukoki
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse Statistique des Véhicules

Paramètres d'étude
Population étudiée et individu statistique
Notre population étudiée est un certain ensemble d'automobiles ou véhicules et
notre individu statistique est chaque voiture prise de façon isolée dans notre
grand ensemble de véhicules.
Classifications des variables
Variables qualitatives

• Qualitative nominale : Vendeur, Type de véhicule, Marque, État


général, Type de véhicule.
• Qualitative ordinale : Date d'observation.

Variables quantitatives

• Quantitative discrète : Année d'immatriculation, Prix, Kilométrage.


• Quantitative continue : Aucun

Gestion des valeurs manquantes


Ces valeurs se retrouvent à l'extérieur de la majorité de nos données.
Définition
Les valeurs manquantes sont définies comme étant des données qui ne sont pas
présentes dans notre base de données. Ces données peuvent apparaître pour
diverses raisons, telles qu'une erreur de saisie, une information non disponible,
ou un problème technique lors de la collecte.
Traitement des données manquantes
L’idée est de séparer ces valeurs et les étudier à part, puis étudier la valeur

1
moyenne à part. Il faut donc bien les identifier.
Gérer ces erreurs

• Valeurs manquantes : si l'on remarque une de ces valeurs, le premier


réflexe est de trouver les valeurs exactes.
• Si on ne peut pas les trouver, voici quelques options :
– laisser les choses telles quelles,
– supprimer les lignes de données contenant des valeurs manquantes,
– utiliser une méthode statistique pour remplir les valeurs manquantes
avec des valeurs raisonnables,
– supprimer la colonne lorsque le nombre de valeurs manquantes est
trop important.

Identification de la nature ou du type de la valeur


manquante
Il existe trois grandes catégories de données manquantes :
• MCAR (Missing Completely at Random) ou Les variables
complètement aléatoires : Une variable est complètement aléatoire si elle
est le fruit du hasard, c'est-à-dire que la valeur manquante de la variable
qu'on essaie d'étudier ne dépend d'aucune autre variable. Lorsqu'on a des
preuves que des données sont MCAR, il y a deux solutions :
– S'il y a moins de 5% de valeurs manquantes dans notre base de
données, on peut les supprimer.
– Imputation par la moyenne, le mode, la médiane. Donc moyenne et
médiane (variable quantitative), mode (variable qualitative).
Au-delà de 30%, il faut éviter l'imputation ou supprimer la variable car cela
va détériorer notre base de données.
• MAR (Missing at Random) ou Les variables aléatoires : La valeur
manquante de la variable qu'on essaie d'étudier dépend d'autres variables
ou données observées dans la base de données mais pas des données
manquantes.
– Traitement : On ne les supprime pas. On utilise la méthode
d'imputation (KNN, MissForest, régression).
• MNAR (Missing Not at Random) ou Les variables non aléatoires
: Les valeurs manquantes dépendent d'elles-mêmes.

2
– Traitement : Méthodes d'imputation (KNN, MissForest, régression).

Résumé

• On détermine le type.
• On détermine la stratégie à adopter.
• Pour les MCAR : supprimer les données manquantes si l'on en a moins
de 5%.
• Réduire l'imputation par la médiane, le mode, la moyenne si l'on a
autour de 5 à 15%.
Or dans notre base de données toutes les cases sont remplies donc il n'y a
aucune valeur manquante ce qui implique que le taux est de 0%. Nous ne
pouvons pas non plus imputer car on impute uniquement en cas de manque ce
qui n'est pas le cas dans notre base de données.
Colonnes sans valeurs manquantes

Pourcentage de valeurs manquantes par colonne (y compris


0%)

Donnée manquante Pourcentage


Date d'observation 0
Prix (euros) 0
Kilométrage (km) 0
Année d'immatriculation 0
Type de carburant 0
État général 0
Marque 0
Type de véhicule 0
Vendeur 0

Table 1: Pourcentage de valeurs manquantes par colonne

Identification et traitement des valeurs aberrantes


Définition
Les valeurs aberrantes sont définies comme des observations qui se situent loin

3
des autres valeurs dans notre base de données. Elles peuvent indiquer une erreur
de mesure, une variation inhabituelle, ou une caractéristique rare. Elles peuvent
fausser les résultats des analyses statistiques et doivent être traitées avec
précaution. Ces valeurs sont souvent quantitatives.
Identification
C'est lorsque les valeurs prises par un individu sont complètement différentes de
la majorité. Ce sont les données (individus) qui sont complètement différentes de
la plupart des variables (individus) de la base de données. Sur le graphique, elles
vont complètement s'écarter. En statistique, on distingue deux catégories de
valeurs aberrantes :
• Les valeurs erronées : des valeurs dans la base de données qui seront
écartées et proviennent principalement d'une erreur de mesure, de saisie ou
d'un problème dans le système d'information. Elles doivent être détectées
dans la phase de nettoyage de la base de données car ce sont des anomalies
à corriger. Par exemple, des prix négatifs dans la base de données seraient
des valeurs aberrantes car on ne peut pas avoir des prix négatifs.
• Les valeurs extrêmes : elles sont vraies mais tellement élevées qu'elles
s'écartent de la distribution normale ou du lot. Elles sont vraies mais
complètement différentes ou éloignées de la moyenne. C'est pour cette raison
qu'il faut les rayer de notre base de données car elles risquent d'influencer
et de fausser nos analyses.
En revenant à notre base de données, nous constatons que nous n'avons aucune
valeur aberrante.
Critère d'Identification
Pour juger si une valeur est aberrante ou non, les statisticiens se sont basés sur
un critère. Ce critère fait intervenir les quartiles de notre série statistique, dont le
premier et le troisième quartile. Plus précisément, une valeur est aberrante si elle
est inférieure à :
Q 1-1,5×( Q Q
3- 1)

Ou plus grande si elle est supérieure à :


Q 3+1,5×( Q Q
3- 1)

Nombre de valeurs aberrantes par colonne

• Prix (euros) : 0

4
• Kilométrage (km) : 0
• Année d'immatriculation : 0

Analyses statistiques enrichies


Analyse descriptive des variables

• Types de carburant les plus fréquents : ESSENCE et HYBRIDES.


• Marques les plus représentées : VOLKSWAGEN et RENAULT.
• Modèles les plus vendus pour chaque marque : COUPÉ et SUV.

Statistiques descriptives pour 'Prix (euros)'

Statistique Valeur
Moyenne 27117.634
Médiane 26551.5
Mode 17895
Écart type 13135.1489
Coefficient de variation 48.4377
Étendue 44989
Intervalle interquartile 23344.25
Coefficient d'asymétrie 0.0631
Coefficient d'aplatissement -1.2341

Table 2: Statistiques descriptives pour 'Prix (euros)'

Quartiles

• 25e percentile : 15395.75


• 50e percentile : 26551.5
• 75e percentile : 38740.0

Déciles

• 10e percentile : 9674.1

5
• 20e percentile : 13393.8
• 30e percentile : 17827.7
• 40e percentile : 22370.2
• 50e percentile : 26551.5
• 60e percentile : 31536.0
• 70e percentile : 36187.4
• 80e percentile : 40955.4
• 90e percentile : 45552.9

Statistiques descriptives pour 'Kilométrage (km)'

Statistique Valeur
Moyenne 159738.985
Médiane 157210.0
Mode 10952
Écart type 82913.0589
Coefficient de variation 51.9053
Étendue 288913
Intervalle interquartile 142515.25
Coefficient d'asymétrie -0.0505
Coefficient d'aplatissement -1.1821

Table 3: Statistiques descriptives pour 'Kilométrage (km)'

Quartiles

• 25e percentile : 91371.75


• 50e percentile : 157210.0
• 75e percentile : 233887.0

Déciles

• 10e percentile : 43659.7


• 20e percentile : 77626.6
• 30e percentile : 104235.0
• 40e percentile : 131343.8
• 50e percentile : 157210.0

6
• 60e percentile : 188607.2
• 70e percentile : 220401.7
• 80e percentile : 246261.8
• 90e percentile : 271846.5

Statistiques descriptives pour 'Année d'immatriculation'

Statistique Valeur
Moyenne 2011.424
Médiane 2011.0
Mode 2001
Écart type 7.0948
Coefficient de variation 0.3527
Étendue 23
Intervalle interquartile 13.0
Coefficient d'asymétrie 0.0003
Coefficient d'aplatissement -1.2238

Table 4: Statistiques descriptives pour 'Année d'immatriculation'

Quartiles

• 25e percentile : 2006.0


• 50e percentile : 2011.0
• 75e percentile : 2016.0

Déciles

• 10e percentile : 2001.0


• 20e percentile : 2006.0
• 30e percentile : 2010.0
• 40e percentile : 2012.0
• 50e percentile : 2011.0
• 60e percentile : 2013.0
• 70e percentile : 2015.0
• 80e percentile : 2017.0

7
• 90e percentile : 2019.0

Vous aimerez peut-être aussi