0% ont trouvé ce document utile (0 vote)

20 vues8 pages

TP Latex

Ingénieux

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

20 vues8 pages

TP Latex

Ingénieux

Transféré par

probe.lukoki

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse Statistique des Véhicules

Paramètres d'étude
Population étudiée et individu statistique
Notre population étudiée est un certain ensemble d'automobiles ou véhicules et
notre individu statistique est chaque voiture prise de façon isolée dans notre
grand ensemble de véhicules.
Classiﬁcations des variables
Variables qualitatives

• Qualitative nominale : Vendeur, Type de véhicule, Marque, État

général, Type de véhicule.
• Qualitative ordinale : Date d'observation.

Variables quantitatives

• Quantitative discrète : Année d'immatriculation, Prix, Kilométrage.

• Quantitative continue : Aucun

Gestion des valeurs manquantes

Ces valeurs se retrouvent à l'extérieur de la majorité de nos données.
Déﬁnition
Les valeurs manquantes sont déﬁnies comme étant des données qui ne sont pas
présentes dans notre base de données. Ces données peuvent apparaître pour
diverses raisons, telles qu'une erreur de saisie, une information non disponible,
ou un problème technique lors de la collecte.
Traitement des données manquantes
L’idée est de séparer ces valeurs et les étudier à part, puis étudier la valeur

1
moyenne à part. Il faut donc bien les identiﬁer.
Gérer ces erreurs

• Valeurs manquantes : si l'on remarque une de ces valeurs, le premier

réﬂexe est de trouver les valeurs exactes.
• Si on ne peut pas les trouver, voici quelques options :
– laisser les choses telles quelles,
– supprimer les lignes de données contenant des valeurs manquantes,
– utiliser une méthode statistique pour remplir les valeurs manquantes
avec des valeurs raisonnables,
– supprimer la colonne lorsque le nombre de valeurs manquantes est
trop important.

Identiﬁcation de la nature ou du type de la valeur

manquante
Il existe trois grandes catégories de données manquantes :
• MCAR (Missing Completely at Random) ou Les variables
complètement aléatoires : Une variable est complètement aléatoire si elle
est le fruit du hasard, c'est-à-dire que la valeur manquante de la variable
qu'on essaie d'étudier ne dépend d'aucune autre variable. Lorsqu'on a des
preuves que des données sont MCAR, il y a deux solutions :
– S'il y a moins de 5% de valeurs manquantes dans notre base de
données, on peut les supprimer.
– Imputation par la moyenne, le mode, la médiane. Donc moyenne et
médiane (variable quantitative), mode (variable qualitative).
Au-delà de 30%, il faut éviter l'imputation ou supprimer la variable car cela
va détériorer notre base de données.
• MAR (Missing at Random) ou Les variables aléatoires : La valeur
manquante de la variable qu'on essaie d'étudier dépend d'autres variables
ou données observées dans la base de données mais pas des données
manquantes.
– Traitement : On ne les supprime pas. On utilise la méthode
d'imputation (KNN, MissForest, régression).
• MNAR (Missing Not at Random) ou Les variables non aléatoires
: Les valeurs manquantes dépendent d'elles-mêmes.

2
– Traitement : Méthodes d'imputation (KNN, MissForest, régression).

Résumé

• On détermine le type.
• On détermine la stratégie à adopter.
• Pour les MCAR : supprimer les données manquantes si l'on en a moins
de 5%.
• Réduire l'imputation par la médiane, le mode, la moyenne si l'on a
autour de 5 à 15%.
Or dans notre base de données toutes les cases sont remplies donc il n'y a
aucune valeur manquante ce qui implique que le taux est de 0%. Nous ne
pouvons pas non plus imputer car on impute uniquement en cas de manque ce
qui n'est pas le cas dans notre base de données.
Colonnes sans valeurs manquantes

Pourcentage de valeurs manquantes par colonne (y compris

0%)

Donnée manquante Pourcentage

Date d'observation 0
Prix (euros) 0
Kilométrage (km) 0
Année d'immatriculation 0
Type de carburant 0
État général 0
Marque 0
Type de véhicule 0
Vendeur 0

Table 1: Pourcentage de valeurs manquantes par colonne

Identiﬁcation et traitement des valeurs aberrantes

Déﬁnition
Les valeurs aberrantes sont déﬁnies comme des observations qui se situent loin

3
des autres valeurs dans notre base de données. Elles peuvent indiquer une erreur
de mesure, une variation inhabituelle, ou une caractéristique rare. Elles peuvent
fausser les résultats des analyses statistiques et doivent être traitées avec
précaution. Ces valeurs sont souvent quantitatives.
Identification
C'est lorsque les valeurs prises par un individu sont complètement différentes de
la majorité. Ce sont les données (individus) qui sont complètement différentes de
la plupart des variables (individus) de la base de données. Sur le graphique, elles
vont complètement s'écarter. En statistique, on distingue deux catégories de
valeurs aberrantes :
• Les valeurs erronées : des valeurs dans la base de données qui seront
écartées et proviennent principalement d'une erreur de mesure, de saisie ou
d'un problème dans le système d'information. Elles doivent être détectées
dans la phase de nettoyage de la base de données car ce sont des anomalies
à corriger. Par exemple, des prix négatifs dans la base de données seraient
des valeurs aberrantes car on ne peut pas avoir des prix négatifs.
• Les valeurs extrêmes : elles sont vraies mais tellement élevées qu'elles
s'écartent de la distribution normale ou du lot. Elles sont vraies mais
complètement différentes ou éloignées de la moyenne. C'est pour cette raison
qu'il faut les rayer de notre base de données car elles risquent d'influencer
et de fausser nos analyses.
En revenant à notre base de données, nous constatons que nous n'avons aucune
valeur aberrante.
Critère d'Identification
Pour juger si une valeur est aberrante ou non, les statisticiens se sont basés sur
un critère. Ce critère fait intervenir les quartiles de notre série statistique, dont le
premier et le troisième quartile. Plus précisément, une valeur est aberrante si elle
est inférieure à :
Q 1-1,5×( Q Q
3- 1)

Ou plus grande si elle est supérieure à :

Q 3+1,5×( Q Q
3- 1)

Nombre de valeurs aberrantes par colonne

• Prix (euros) : 0

4
• Kilométrage (km) : 0
• Année d'immatriculation : 0

Analyses statistiques enrichies

Analyse descriptive des variables

• Types de carburant les plus fréquents : ESSENCE et HYBRIDES.

• Marques les plus représentées : VOLKSWAGEN et RENAULT.
• Modèles les plus vendus pour chaque marque : COUPÉ et SUV.

Statistiques descriptives pour 'Prix (euros)'

Statistique Valeur
Moyenne 27117.634
Médiane 26551.5
Mode 17895
Écart type 13135.1489
Coefficient de variation 48.4377
Étendue 44989
Intervalle interquartile 23344.25
Coefficient d'asymétrie 0.0631
Coefficient d'aplatissement -1.2341

Table 2: Statistiques descriptives pour 'Prix (euros)'

Quartiles

• 25e percentile : 15395.75

• 50e percentile : 26551.5
• 75e percentile : 38740.0

Déciles

• 10e percentile : 9674.1

5
• 20e percentile : 13393.8
• 30e percentile : 17827.7
• 40e percentile : 22370.2
• 50e percentile : 26551.5
• 60e percentile : 31536.0
• 70e percentile : 36187.4
• 80e percentile : 40955.4
• 90e percentile : 45552.9

Statistiques descriptives pour 'Kilométrage (km)'

Statistique Valeur
Moyenne 159738.985
Médiane 157210.0
Mode 10952
Écart type 82913.0589
Coefficient de variation 51.9053
Étendue 288913
Intervalle interquartile 142515.25
Coefficient d'asymétrie -0.0505
Coefficient d'aplatissement -1.1821

Table 3: Statistiques descriptives pour 'Kilométrage (km)'

Quartiles

• 25e percentile : 91371.75

• 50e percentile : 157210.0
• 75e percentile : 233887.0

Déciles

• 10e percentile : 43659.7

• 20e percentile : 77626.6
• 30e percentile : 104235.0
• 40e percentile : 131343.8
• 50e percentile : 157210.0

6
• 60e percentile : 188607.2
• 70e percentile : 220401.7
• 80e percentile : 246261.8
• 90e percentile : 271846.5

Statistiques descriptives pour 'Année d'immatriculation'

Statistique Valeur
Moyenne 2011.424
Médiane 2011.0
Mode 2001
Écart type 7.0948
Coefficient de variation 0.3527
Étendue 23
Intervalle interquartile 13.0
Coefficient d'asymétrie 0.0003
Coefficient d'aplatissement -1.2238

Table 4: Statistiques descriptives pour 'Année d'immatriculation'

Quartiles

• 25e percentile : 2006.0

• 50e percentile : 2011.0
• 75e percentile : 2016.0

Déciles

• 10e percentile : 2001.0

• 20e percentile : 2006.0
• 30e percentile : 2010.0
• 40e percentile : 2012.0
• 50e percentile : 2011.0
• 60e percentile : 2013.0
• 70e percentile : 2015.0
• 80e percentile : 2017.0

7
• 90e percentile : 2019.0

Vous aimerez peut-être aussi

Cours de Data Mining - 3
Pas encore d'évaluation
Cours de Data Mining - 3
19 pages
Chapitre1 - STAT - DESCRIP-UNIVARIEE-EHTP-2023-2024
Pas encore d'évaluation
Chapitre1 - STAT - DESCRIP-UNIVARIEE-EHTP-2023-2024
58 pages
Travail Pratique 2: Analyse Descriptive D'une Base de Donn Ees Automobile Avec Excel
Pas encore d'évaluation
Travail Pratique 2: Analyse Descriptive D'une Base de Donn Ees Automobile Avec Excel
3 pages
Traitement et Nettoyage des Données
Pas encore d'évaluation
Traitement et Nettoyage des Données
41 pages
AFDM : Comparaison Tanagra et R
Pas encore d'évaluation
AFDM : Comparaison Tanagra et R
13 pages
Nettoyage et traitement des données
Pas encore d'évaluation
Nettoyage et traitement des données
25 pages
Méthodes d'imputation des données manquantes
Pas encore d'évaluation
Méthodes d'imputation des données manquantes
66 pages
Analyse Exploratoire Détaillée Des Données Exploratoires
Pas encore d'évaluation
Analyse Exploratoire Détaillée Des Données Exploratoires
19 pages
Sphinx
Pas encore d'évaluation
Sphinx
14 pages
Statistiques Descriptives et Mesures clés
Pas encore d'évaluation
Statistiques Descriptives et Mesures clés
20 pages
Test Statistique Pour MCAR en Python
Pas encore d'évaluation
Test Statistique Pour MCAR en Python
25 pages
Traitement Des Valeurs Manquantes Et Aberrantes Avec Python
Pas encore d'évaluation
Traitement Des Valeurs Manquantes Et Aberrantes Avec Python
19 pages
Découverte de Minitab v19 pour Statistiques
Pas encore d'évaluation
Découverte de Minitab v19 pour Statistiques
14 pages
Méthodes d'Analyse des Données en Marketing
100% (1)
Méthodes d'Analyse des Données en Marketing
105 pages
Analyse des données avec Explore.xla
Pas encore d'évaluation
Analyse des données avec Explore.xla
21 pages
Analyse Statistique du Parc Automobile
Pas encore d'évaluation
Analyse Statistique du Parc Automobile
5 pages
Support DA m202 Cours 1
Pas encore d'évaluation
Support DA m202 Cours 1
80 pages
Statistiques et Graphiques en R
Pas encore d'évaluation
Statistiques et Graphiques en R
25 pages
CH2 - Préparation Des Données
Pas encore d'évaluation
CH2 - Préparation Des Données
27 pages
Qualité et Analyse des Données Statistiques
Pas encore d'évaluation
Qualité et Analyse des Données Statistiques
28 pages
Tuto 4-5 - AFDM
Pas encore d'évaluation
Tuto 4-5 - AFDM
26 pages
Préparation Des Données-Chapitre2
Pas encore d'évaluation
Préparation Des Données-Chapitre2
27 pages
Analyse des Réunions et Ventes
Pas encore d'évaluation
Analyse des Réunions et Ventes
10 pages
TPPré-traitement Des Donnée
Pas encore d'évaluation
TPPré-traitement Des Donnée
23 pages
Analyse Descriptive en Business Intelligence
Pas encore d'évaluation
Analyse Descriptive en Business Intelligence
53 pages
Analyse des Statistiques R² dans R
Pas encore d'évaluation
Analyse des Statistiques R² dans R
25 pages
CM1 Stats Descriptives
Pas encore d'évaluation
CM1 Stats Descriptives
16 pages
Cours Statistiques Descriptives L1
Pas encore d'évaluation
Cours Statistiques Descriptives L1
37 pages
Corrigé Nouveau TD3
100% (4)
Corrigé Nouveau TD3
10 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
33 pages
Importation et analyse de données avec Pandas
Pas encore d'évaluation
Importation et analyse de données avec Pandas
85 pages
Imputation des données manquantes expliquée
Pas encore d'évaluation
Imputation des données manquantes expliquée
10 pages
Modèle Intelligent de Prédiction Des Prix Des Voitures
Pas encore d'évaluation
Modèle Intelligent de Prédiction Des Prix Des Voitures
26 pages
CH2 - Préparation Des Données
100% (1)
CH2 - Préparation Des Données
27 pages
Cours et Exercices de Statistique Descriptive
Pas encore d'évaluation
Cours et Exercices de Statistique Descriptive
5 pages
Statistiques Univariées avec Excel
Pas encore d'évaluation
Statistiques Univariées avec Excel
44 pages
Guide sur la Collecte et Gestion des Données
Pas encore d'évaluation
Guide sur la Collecte et Gestion des Données
139 pages
Choix du Test Statistique en Statistique
Pas encore d'évaluation
Choix du Test Statistique en Statistique
46 pages
Cours de Statistiques Descriptives et Applications
Pas encore d'évaluation
Cours de Statistiques Descriptives et Applications
46 pages
GMP Analyse Et Traitement Des Données-Informatique Appliqué PR Sqalli Cours Complet
Pas encore d'évaluation
GMP Analyse Et Traitement Des Données-Informatique Appliqué PR Sqalli Cours Complet
142 pages
IBM SPSS Missing Values
Pas encore d'évaluation
IBM SPSS Missing Values
32 pages
Analyse Exploratoire Des Donnéesfeuille de Route Complète Pour Les Données de Nettoyage
Pas encore d'évaluation
Analyse Exploratoire Des Donnéesfeuille de Route Complète Pour Les Données de Nettoyage
9 pages
Formation en Statistiques Descriptives
Pas encore d'évaluation
Formation en Statistiques Descriptives
22 pages
Définition et éléments préliminaires
Pas encore d'évaluation
Définition et éléments préliminaires
29 pages
Le Prétraitement Des Données Expliqué Simplement
Pas encore d'évaluation
Le Prétraitement Des Données Expliqué Simplement
7 pages
Statistique Inférentielle L3
Pas encore d'évaluation
Statistique Inférentielle L3
30 pages
Catalogue de Formation Continue ENSAE
0% (1)
Catalogue de Formation Continue ENSAE
78 pages
MR Mintdonnesmanquantes
Pas encore d'évaluation
MR Mintdonnesmanquantes
12 pages
Machine Learning Preparation Des Donnéees
Pas encore d'évaluation
Machine Learning Preparation Des Donnéees
29 pages
Introduction à la logique statistique
Pas encore d'évaluation
Introduction à la logique statistique
80 pages
Utilisation Pratique de l'ACP
Pas encore d'évaluation
Utilisation Pratique de l'ACP
7 pages
Analyse Statistique des Données
Pas encore d'évaluation
Analyse Statistique des Données
30 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
33 pages
Statistiques et Analyse de Données Essentielles
Pas encore d'évaluation
Statistiques et Analyse de Données Essentielles
9 pages
Analyse de Données
Pas encore d'évaluation
Analyse de Données
4 pages
1 - Sise - DM 2 - Cah
Pas encore d'évaluation
1 - Sise - DM 2 - Cah
6 pages
Cahier Explications Chimie
Pas encore d'évaluation
Cahier Explications Chimie
12 pages
Physiopathologie de L'oligohydriamios2
Pas encore d'évaluation
Physiopathologie de L'oligohydriamios2
2 pages
Copie de COURS D'ALGEBRE (Notes Des Ã© Tudiants)
Pas encore d'évaluation
Copie de COURS D'ALGEBRE (Notes Des Ã© Tudiants)
2 pages
Concepts clés en chimie et calculs stœchiométriques
Pas encore d'évaluation
Concepts clés en chimie et calculs stœchiométriques
28 pages
Document
Pas encore d'évaluation
Document
5 pages
CIR Bielle
Pas encore d'évaluation
CIR Bielle
2 pages
Introduction au diagramme SADT
Pas encore d'évaluation
Introduction au diagramme SADT
7 pages
Electro Magn Appl 02
100% (1)
Electro Magn Appl 02
42 pages
Document
Pas encore d'évaluation
Document
1 page
ISI - Cours 4 - Version Étudiant
Pas encore d'évaluation
ISI - Cours 4 - Version Étudiant
15 pages
ISI - Cours 5 - Version Enseignant
Pas encore d'évaluation
ISI - Cours 5 - Version Enseignant
11 pages
Analyse et Conception d'un Système Fournisseurs
Pas encore d'évaluation
Analyse et Conception d'un Système Fournisseurs
4 pages
Gestion des Fournisseurs et Commandes
Pas encore d'évaluation
Gestion des Fournisseurs et Commandes
8 pages
Système de Gestion des Fournisseurs : Analyse et Conception
Pas encore d'évaluation
Système de Gestion des Fournisseurs : Analyse et Conception
4 pages
Baccalauréat 2019 : Mathématiques C & TMGM
Pas encore d'évaluation
Baccalauréat 2019 : Mathématiques C & TMGM
2 pages
Découverte des canalisations électriques
Pas encore d'évaluation
Découverte des canalisations électriques
5 pages
Devoir de Niveau 4 2ndc Anador PDF-1
Pas encore d'évaluation
Devoir de Niveau 4 2ndc Anador PDF-1
2 pages
Conjugaison Éligible
Pas encore d'évaluation
Conjugaison Éligible
4 pages
Calcul Courants Court-Circuit
Pas encore d'évaluation
Calcul Courants Court-Circuit
11 pages
Etude Bibliographique
Pas encore d'évaluation
Etude Bibliographique
13 pages
Introduction. Ir Abiga
Pas encore d'évaluation
Introduction. Ir Abiga
10 pages
Offre Technique NSA Équipements
Pas encore d'évaluation
Offre Technique NSA Équipements
214 pages
2015 04 19 TD1
50% (2)
2015 04 19 TD1
3 pages
Locomotive Électrique : Structure et Fonctionnement
100% (2)
Locomotive Électrique : Structure et Fonctionnement
13 pages
Évaluation SPT 3ème : Sciences et Technologie
Pas encore d'évaluation
Évaluation SPT 3ème : Sciences et Technologie
3 pages
Introduction Au Système D'interconnexion de Câblage Électrique (EWIS)
Pas encore d'évaluation
Introduction Au Système D'interconnexion de Câblage Électrique (EWIS)
4 pages
Espaces Vectoriels
Pas encore d'évaluation
Espaces Vectoriels
4 pages
Analyse en Groupe: Méthode et Applications
Pas encore d'évaluation
Analyse en Groupe: Méthode et Applications
23 pages
Audi rs5 Catalogue Tarifs 20121206
Pas encore d'évaluation
Audi rs5 Catalogue Tarifs 20121206
25 pages
Capacité portante et tassement des fondations
Pas encore d'évaluation
Capacité portante et tassement des fondations
5 pages
Plan de Développement de Champ
Pas encore d'évaluation
Plan de Développement de Champ
11 pages
Analyste en Sécurité Informatique à Airtel
Pas encore d'évaluation
Analyste en Sécurité Informatique à Airtel
3 pages
Iso 19000
Pas encore d'évaluation
Iso 19000
2 pages
Modulations Numériques en Systèmes Électroniques
Pas encore d'évaluation
Modulations Numériques en Systèmes Électroniques
3 pages
Devoir de Psychologie Médecine 2023 - 080241
Pas encore d'évaluation
Devoir de Psychologie Médecine 2023 - 080241
3 pages
Verbes intransitifs et transitifs expliqués
Pas encore d'évaluation
Verbes intransitifs et transitifs expliqués
5 pages
La Planification Stratégique en Tant Qu
Pas encore d'évaluation
La Planification Stratégique en Tant Qu
2 pages
LU2ME002 - TD 1 (Thermique)
Pas encore d'évaluation
LU2ME002 - TD 1 (Thermique)
12 pages
Identification des systèmes et méthodes graphiques
Pas encore d'évaluation
Identification des systèmes et méthodes graphiques
63 pages
Pronoms, Noms et Adjectifs en Français
100% (1)
Pronoms, Noms et Adjectifs en Français
20 pages
Introduction à la micro-économie
Pas encore d'évaluation
Introduction à la micro-économie
42 pages
Exercices d'électrotechnique 2ème année
Pas encore d'évaluation
Exercices d'électrotechnique 2ème année
3 pages
Guide Maintenance Tours Refroidissement
Pas encore d'évaluation
Guide Maintenance Tours Refroidissement
36 pages
Arrêtez de Vous Tromper 52 Erreurs de Jugement Quil Vaut Mieux Laisser Aux Autres... by Rolf Dobelli
Pas encore d'évaluation
Arrêtez de Vous Tromper 52 Erreurs de Jugement Quil Vaut Mieux Laisser Aux Autres... by Rolf Dobelli
262 pages