Guide sur la Collecte et Gestion des Données
Guide sur la Collecte et Gestion des Données
1
Introduction
• Les données peuvent être définies comme la valeur quantitative ou
qualitative d'une variable (par exemple, nombre, images, mots,
chiffres, faits ou idées)
• C'est une unité d'information à partir de laquelle d'autres mesures et
analyses peuvent être effectuées.
• Les données sont l'un des aspects les plus importants et vitaux de
toute étude de recherche.
2
Facteurs à considérer avant la collecte de
données
• Objectif et portée de l'enquête.
• Sources d'information.
• Expression quantitative.
• Techniques de collecte de données.
• Unité de collecte.
3
Données
Sources primaires
Sources de externes Données
données Sources secondaires
internes
4
Sources internes et externes de données
Sources internes de données Sources externes de données
• De nombreuses institutions et • Lorsque des informations sont
départements disposent collectées auprès d'organismes
d'informations sur leurs fonctions extérieurs, on parle de sources
régulières, à des fins internes. externes de données.
• Lorsque ces informations sont • Ces types de données sont soit
utilisées dans une enquête, on parle primaires, soit secondaires.
de sources internes de données • Ce type d'informations peut être
• Par exemple : sociétés de bien-être collecté par recensement ou
social. échantillonnage en menant une
enquête.
5
Données primaires
• Les données collectées à partir d'expériences de première main sont
appelées données primaires. Elles sont plus fiables, authentiques et
n'ont pas été publiées ailleurs.
• Les données primaires n'ont pas été modifiées ou altérées par
l'homme, donc leur validité est supérieure à celle des données
secondaires.
6
Enquête personnelle
directe (c'est-à-dire
méthode d'entrevue)
Enquête par
observation Méthodes de Enquête indirecte
orale (c'est-à-dire par
des énumérateurs)
collecte de
données
primaires
Enquête par
Enquête par
questionnaire postal questionnaire auprès
de reporteurs locaux
7
Mérites Inconvénients
Données primaires
Les problèmes ciblés
Coût évalué
sont abordés
L'interprétation des
données est Chronophage
meilleure
Aborde des
problèmes de
Feedback inexact
recherche
spécifiques
Nécessite beaucoup
Un plus grand
contrôle de compétences et
du travail.
8
Données secondaires
• Les données secondaires sont celles qu’ont déjà été collectées par
d'autres.
• Elles se trouvent généralement dans des journaux, des périodiques,
des publications de recherche, des dossiers officiels, etc.
• Les données secondaires peuvent être disponibles sous forme publiée
ou non publiée. Lorsqu'il n'est pas possible de collecter les données
par la méthode primaire, l'enquêteur opte pour la méthode
secondaire.
• Ces données sont collectées dans un but autre que le problème en
cours.
9
Méthode de collecte de données secondaires
Internationales
Gouvernementales
Sources publiées
Coorporations
municipales
Sources non
publiées
Institutionnelles /
commerciales
10
Mérites Inconvénients
Données secondaires
Ne répondent pas
Source de données
à nos besoins
rapide et bon
spécifiques en
marché
recherche
Zone géographique
Faible précision
plus large
Période
Les données ne
d'orientation plus
sont pas à jour
longue
Menant à trouver
Faible accessibilité
des données
dans certains cas
primaires
11
Différence entre les données primaires et
secondaires
12
Pourquoi cette effervescence aujourd’hui
concernant les Sciences Données ?
13
Démarche pour le traitement d’un probléme
en SD :
Il est necessaire de traduire un besion métier en un problématique de
SD, puis la resoudre grâce à des algorithmes.
Globalement le démarche est simple :
3. Comment le faire ?
14
C’est quoi une Données ?
• Une données peut étre voir comme une collection d’objets
(enregistrements) et leurs attributs (champs).
15
Processus d’extraction des connaissances :
16
Processus d’extraction des connaissances :
• Collecter : regrouper les données, independament de leurs sources ou types.
• Nettoyer : compléter les données manquante ou corriger les données qui sont mal saisies ou
mesurées.
• Integrer : combiner des données provenant de différentes sources dans une vue unifiée.
• Transformer : réorganisrt et convertir les données dans une format appropriée.
• Selectionner : choisir juste les données les plus represantatives au objective visés.
• Data mining : resérver a l’application des algorithmes sur les données déja pour identifier des
modéles et des patterns.
• Visualisation et Interprétation : analyser les resultats obtenus pour permettre d’extraire des
connaissances utiles a la résolution du probléme liés aux données analysées.
17
Exemple de DataFrame en python :
18
Exemple de DataFrame en python :
19
Exemple de DataFrame en python (Table
Statitique) :
20
Exemple de DataFrame en python(valeurs
manquante):
21
Correction et Nettoyage des
Données
22
Gestion des Valeurs Manquantes : Stratégies
et Méthodes
● Problématique des Valeurs Manquantes : Dans tout projet de data
science, il est fréquent de rencontrer des données incomplètes.
● Impact sur l'Analyse : Les valeurs manquantes peuvent
compromettre la qualité de nos analyses et modèles.
23
Méthodes de Remplacement
1. Suppression des lignes
● Avantages : Simple et rapide.
● Inconvénients : Perte de données significative si plusieurs lignes sont concernées.
2. Remplacement par la Moyenne/Médiane/Mode
● Avantages : Préservation de la taille de l'échantillon.
● Inconvénients : Biais potentiel si la distribution des données est biaisée.
3. Imputation Avancée
● Régression : Estimation basée sur d'autres variables.
● KNN (k plus proches voisins) : Imputation basée sur des observations similaires.
● Modèles prédictifs : Utilisation de modèles pour prédire les valeurs manquantes.
24
Exemple en Python (Pandas)
25
Imputation des Valeurs Manquantes avec
Pandas
• La gestion des valeurs manquantes est essentielle pour maintenir
l'intégrité des analyses de données. Pandas offre des solutions flexibles
pour imputer les valeurs manquantes, tant pour les variables
numériques que catégorielles.
• Imputation pour Variables Numériques (par la Moyenne) :
import pandas as pd
moyenne_variable = df['variable'].mean()
df['variable'].fillna(moyenne_variable, inplace=True)
Imputation pour Variables Catégorielles (par le Mode) :
mode_categoriel = df['variable_categorique'].mode()[0]
df['variable_categorique'].fillna(mode_categoriel, inplace=True) 26
• La bibliothèque Pandas en Python facilite l'ajout d'une colonne spécifique
dans notre DataFrame pour marquer où les données sont manquantes, ce qui
peut être une caractéristique significative pour un modèle prédictif.
def add_indicator(col): return df[col].isna().astype(int)
df[‘tip_missing'] = add_indicator("tip")
27
Valeurs Aberrantes
• Les anomalies (ou valeurs aberrantes) sont des points de données qui
diffèrent significativement du reste des données, indiquant
potentiellement des erreurs, des événements rares ou des nouveautés.
28
Schémas de détection d'anomalies
1.Ce profil peut être élaboré à partir de modèles ou de statistiques
descriptives qui représentent la majorité de la population.
2.Le profil standard est ensuite utilisé comme référence pour identifier
les anomalies.
3.Les anomalies sont des observations qui se distinguent de manière
significative du comportement standard établi.
29
Impact sur l'analyse des données et les
résultats
• L'impact sur l'analyse des données et les résultats de la présence de
valeurs aberrantes dépend du contexte spécifique de l'étude et de la
nature des données. Cependant, en général, les valeurs aberrantes
peuvent avoir les effets suivants :
1.Distorsion des Statistiques Descriptives
2.Altération de la Distribution
3.Impact sur les Tests Statistiques
4.Modifications des Relations entre les Variables
5.Dégradation de la Précision
30
Méthode et traitement des valeurs aberrantes
31
1.Diagramme de Boîte (Box Plot)
• Identification visuelle des valeurs
aberrantes en observant les points
au-delà des moustaches.
32
2. Méthodes Statistiques : Z-Score
• Contexte et Définition:
Un Z-Score est une mesure statistique qui représente le nombre d'écart-
types qu'une donnée est éloignée de la moyenne de l'ensemble des
données. C'est un outil standard pour identifier les valeurs aberrantes
dans un ensemble de données.
• Formule du Z-Score:
33
• Seuil pour les valeurs aberrantes:
Les valeurs avec un Z-Score supérieur à 3 ou inférieur à -3 sont
généralement considérées comme des valeurs aberrantes, indiquant des
données qui sont extrêmement différentes de la moyenne.
• Avantages et Limitations:
Avantages: Le Z-Score est normalisé, permettant des comparaisons
entre différents ensembles de données.
Limitations: Moins fiable pour les distributions non gaussiennes ou
lorsque les données contiennent déjà des valeurs aberrantes qui peuvent
fausser la moyenne et l'écart-type.
34
• Exemple de Code Python:
from scipy.stats import zscore
z_scores = zscore(data)
# Exemple de filtrage des valeurs non aberrantes
filtered_data = data[abs(z_scores) < 3]
35
3. Algorithmes d'Apprentissage
Automatique
a.L’isolation Forest
• Principe:
L'Isolation Forest est un algorithme de machine learning qui identifie les anomalies
en isolant les observations. Il fonctionne sur le principe que les anomalies sont des
observations rares et différentes et sont donc plus faciles à isoler que les
observations normales.
• Fonctionnement:
Contrairement aux méthodes de détection d'anomalies classiques, l'Isolation Forest
n'a pas besoin d'un modèle de données normal. Il construit des arbres de décision
aléatoires pour partitionner les données jusqu'à ce que chaque observation soit
isolée, ce qui permet de détecter les valeurs aberrantes de manière efficace et avec
un coût de calcul réduit.
36
• Paramètre 'contamination':
Le paramètre contamination représente la proportion attendue d'anomalies dans les
données. Un réglage approprié de ce paramètre est crucial pour de bons résultats.
from sklearn.ensemble import IsolationForest
# Initialiser le modèle avec un taux de contamination de 5%
model = IsolationForest(contamination=0.05)
# Adapter le modèle aux données
model.fit(data)
# Prédire les outliers (-1 pour les anomalies, 1 pour les données normales)
outliers = model.predict(data)
37
• Interprétation des Résultats:
Après l'entraînement, le modèle marque chaque point de données
comme étant un outlier (-1) ou non (1). Les points de données marqués
comme -1 sont ceux que le modèle a identifiés comme des anomalies.
• Avantages:
Peu sensible au bruit et capable de détecter les anomalies sans avoir
besoin d'un grand nombre d'arbres, ce qui le rend rapide et efficace
même sur de grands ensembles de données
38
b. Local Outlier Factor (LOF)
39
Exemple de Code Python:
from sklearn.neighbors import LocalOutlierFactor
# Initialiser le modèle avec une contamination estimée à 5%
model = LocalOutlierFactor(n_neighbors=20, contamination=0.05)
# Adapter le modèle et prédire (-1 pour les anomalies, 1 pour les
données normales)
outliers = model.fit_predict(data)
40
• Avantages: Particulièrement efficace dans les cas où les données
contiennent des groupes de différentes densités. Contrairement à
d'autres méthodes, il n'est pas biaisé par la prédominance de régions
de forte densité.
• Paramètres Importants:Le choix du nombre de voisins (n_neighbors)
est crucial et peut influencer considérablement la performance de
l'algorithme.
41
4. Méthode de la Tranche (Cut-Off)
• Stratégie: Détermination d'un seuil fixe ou calculé statistiquement
pour identifier les valeurs aberrantes. Toutes les observations
dépassant ce seuil sont considérées comme des anomalies.
• Comment choisir un seuil: Le seuil peut être déterminé par des
connaissances spécifiques au domaine, des statistiques descriptives
(comme des percentiles), ou des exigences opérationnelles.
42
Exemple en Python:
import pandas as pd
df = pd.DataFrame(data)
# Définir un seuil, par exemple le 95e percentile
seuil = df['valeurs'].quantile(0.95)
# Éliminer les valeurs aberrantes supérieures au seuil
df_cleaned = df[df['valeurs'] <= seuil]
43
• Avantages:
• Simplicité de mise en œuvre.
• Facile à comprendre et à expliquer.
• Rapide et ne nécessite pas de modélisation complexe.
• Inconvénients:
• Risque de perte d'informations précieuses si le seuil n'est pas bien choisi.
• Peut être arbitraire et insensible aux nuances dans les données.
• Ne tient pas compte de la structure contextuelle des données (par exemple, la
saisonnalité, les tendances).
• Bonnes Pratiques:
• Examiner les données avant et après l'application du seuil pour s'assurer que
les résultats sont logiques.
• Combiner avec d'autres méthodes de détection des valeurs aberrantes pour
confirmer les résultats.
44
5.Méthode de la Déviation Standard
• Principe:
• Cette méthode identifie les valeurs aberrantes en supprimant les
données qui se trouvent à une distance significative de la moyenne,
souvent définie par un multiple de l'écart-type.
• Formule et Calcul:
• Seuil de détection des valeurs aberrantes : Moyenne±k×Eˊcart-
typeMoyenne±k×Eˊcart-type
• k est généralement choisi entre 2 et 3 pour un niveau de confiance
respectif de 95% et 99.7% selon la règle empirique.
45
Exemple en Python:
import numpy as np
import pandas as pd
df = pd.DataFrame(data)
mean_val = np.mean(df['valeurs'])
std_dev = np.std(df['valeurs'])
# Définir un seuil basé sur un multiple de l'écart-type (par exemple, 3)
seuil_sup = mean_val + 3 * std_dev
seuil_inf = mean_val - 3 * std_dev
# Éliminer les valeurs aberrantes des deux côtés de la moyenne
df_cleaned = df[(df['valeurs'] >= seuil_inf) & (df['valeurs'] <= seuil_sup)]
46
• Avantages:
• Facile à comprendre et à implémenter.
• Utilise la dispersion des données pour déterminer un seuil d'élimination des
valeurs aberrantes.
• Inconvénients:
• Peut ne pas être approprié pour les données qui ne suivent pas une distribution
normale.
• Les valeurs aberrantes extrêmes peuvent fausser la moyenne et l'écart-type,
affectant la détection.
• Bonnes Pratiques:
• Vérifiez la distribution des données avant d'appliquer cette méthode pour vous
assurer qu'elle est appropriée.
• Considérez d'utiliser une médiane et une déviation médiane absolue pour des
données non normalement distribuées.
47
6.Analyse de l'IQR : Identification des
Valeurs Aberrantes dans les Données
• Définition de l'IQR (Interquartile Range) :
L'IQR mesure la dispersion statistique et est la différence entre le 3e
quartile (Q3) et le 1er quartile (Q1).
Q1 représente la valeur médiane dans la première moitié des données.
Q3 représente la valeur médiane dans la seconde moitié des données.
Calcul de l'IQR :
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
48
• Détection des Valeurs Aberrantes :
Les valeurs aberrantes sont souvent définies comme des points de
données situés en dehors des limites inférieures et supérieures, calculées
comme suit :
• Limite inférieure = Q1 - 1.5 * IQR
• Limite supérieure = Q3 + 1.5 * IQR
• Toute donnée en dehors de ces limites est considérée comme
aberrante.
49
Pourquoi utiliser 1.5 * IQR ?
• Le facteur 1.5 est utilisé pour créer une marge permettant de distinguer
les valeurs modérément éloignées des valeurs extrêmement éloignées.
• Ce choix n'est pas strict et peut être ajusté en fonction de la nature des
données.
50
Avantages de l'IQR :
• Résistant aux valeurs aberrantes extrêmes.
• Fournit une mesure robuste de la dispersion des données.
Limitations de l'IQR :
• Peut ne pas bien fonctionner pour les distributions non symétriques.
• Peut identifier un grand nombre de valeurs aberrantes dans les grandes
ensembles de données.
• Application Pratique :
outliers = (data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))
51
7. Méthodes Robustes : MAD (Median
Absolute Deviation)
• Définition:
• La MAD est une mesure statistique de la dispersion autour de la
médiane. Elle est moins sensible aux valeurs aberrantes que l'écart-
type, ce qui la rend plus robuste.
• Formule:
• MAD = médiane(|Xᵢ - médiane(X)|)
• Où X représente l'ensemble des observations.
• Identification des valeurs aberrantes:
• Une valeur est considérée comme aberrante si elle s'écarte de la médiane plus
que k fois la MAD (où k est souvent pris autour de 2.5 à 3).
52
• Avantages:
• Robuste contre les valeurs extrêmes qui peuvent fausser la moyenne et l'écart-type.
• Adaptée aux distributions non symétriques et aux petits échantillons.
• Exemple en Python:
from scipy.stats import median_abs_deviation
mad = median_abs_deviation(data)
• Interprétation: Les scores MAD peuvent être utilisés pour créer un
"seuil" au-delà duquel une observation est considérée comme une valeur
aberrante.
• Application:
Particulièrement utile dans les domaines où la sécurité est critique, comme
dans l'ingénierie ou la finance, car elle minimise l'influence des données
potentiellement erronées.
53
Conclusion
• La gestion efficace des valeurs aberrantes est cruciale pour l'intégrité
des analyses statistiques. Les méthodes de détection, comme l'analyse
de l'écart interquartile ou l'utilisation de z-scores, permettent
d'identifier ces valeurs atypiques. Une fois détectées, il est essentiel de
choisir le traitement approprié, qui peut varier de l'ajustement à
l'exclusion, en fonction de la nature des données et de l'objectif de
l'étude. Cette démarche garantit la fiabilité des résultats et la validité
des conclusions tirées. Ainsi, le traitement des valeurs aberrantes est
un élément indispensable pour maintenir l'intégrité et la précision des
analyses statistiques.
54
INTRODUCTION :
55
LA NORMALISATION ET LA
STANDARDISATION
56
1. LA
NORMALISATI
ON :
57
a) AVANTAGES DE NORMALISATION:
Xnorm=(X−min(X)) / ( max(X)−min(X) )
59
Avantages de la Méthode Min-Max Scaling :
61
CONCLUSION:
62
ii. La Méthode Z-Score
Normalization :
63
Avantages de la Méthode Z-Score Normalization :
64
IMPLEMENTATION DE LA METHODE PAR PYTHON :
65
1. STANDARDISA
TION:
66
a) AVANTAGES DE NORMALISATION:
69
Avantages de La Méthode Robust Scaling :
70
IMPLEMENTATION DE LA METHODE PAR PYTHON :
71
CONCLUSION:
72
ii. La Méthode Unit Vector
Transformation:
76
Comparaison des situations idéales pour
chaque technique :
1. LA NORMALISATION:
Situations idéales :
Lorsque les données ont des distributions
asymétriques ou non normales. Dans des modèles sensibles à
l'échelle des données.
Raisonnement :
La normalisation est particulièrement utile lorsque
l'écart entre les valeurs minimale et maximale dans un
ensemble de données est significatif 77
Comparaison des situations idéales pour
chaque technique :
1. LA STANDARDISATION:
Situations idéales :
Lorsque les données suivent une distribution
normale ou presque normale. Dans des modèles qui supposent
souvent que les caractéristiques sont centrées autour de zéro
(comme la régression linéaire).
Raisonnement :
La standardisation est préférée lorsque les données
ont une moyenne significative et un écart type qui peut être
important. 78
Comparaison des situations idéales pour
chaque technique :
K- Means Clustering :
Sensibilité à l'échelle des données : L'algorithme K- Means
repose sur la distance euclidienne entre les points pour déterminer les
clusters.
79
Comparaison des situations idéales pour
chaque technique :
80
CONCLUSION GENERALE :
81
LA GESTION DES DONNES
CATEGORIELLES :
82
LA GESTION DES DONNES
CATEGORIELLES :
83
LA GESTION DES DONNES
CATEGORIELLES :
codage one-hot
codage ordinal
84
LA GESTION DES DONNES
CATEGORIELLES :
1. codage one-hot
85
LA GESTION DES DONNES
CATEGORIELLES :
1. codage one-hot
Avantages du codage one-hot :
86
LA GESTION DES DONNES
CATEGORIELLES :
1. codage one-hot
Inconvénients du codage one-hot :
88
LA GESTION DES DONNES
CATEGORIELLES :
2. codage ordinal
89
LA GESTION DES DONNES
CATEGORIELLES :
2. codage ordinal
Avantages du codage ordinal :
• Conservation de l'ordre : Préserve l'ordre naturel entre les
catégories.
• Réduction de la complexité : Moins de colonnes générées par
rapport au codage one-hot.
• Moins de sensibilité au bruit : Le codage ordinal peut être moins
sensible aux variations mineures des catégories.
90
LA GESTION DES DONNES
CATEGORIELLES :
2. codage ordinal
Inconvénients du codage one-hot :
91
IMPLEMENTATION DE LA METHODE PAR PYTHON :
92
COMPARAISON ENTRE CES
DEUX METHODES :
1. Nature de la Variable :
1. One-Hot : Pour catégories sans ordre particulier.
2. Ordinal : Pour catégories avec un ordre significatif.
2. Nombre de Colonnes :
1. One-Hot : Plusieurs colonnes, une par catégorie.
2. Ordinal : Une seule colonne.
93
Transformation des données catégorielles en
variables num :
94
Transformation des données catégorielles en
variables num :
96
CONCLUS
ION
99
Élimination des Valeurs Aberrantes
100
Attribution des Valeurs Manquantes
101
Normalisation
102
Gestion des Données Catégorielles
103
Suppression des Duplicatas
104
Sélection des données
105
Rappel Préliminaire sur la Sélection des Données dans
le Processus KDD et le Prétraitement
• La sélection des données constitue la quatrième étape dans le
processus de découverte de connaissances dans les bases de données
(KDD).
• Dans le processus de prétraitement des données, la sélection des
données intervient en dernière position, juste avant la phase de
datamining.
• La sélection des données représente la dernière étape cruciale avant
d'entrer dans la phase de datamining.
106
Définition de la Sélection des Données
La sélection des données englobe le processus méticuleux de choisir et
de filtrer les informations pertinentes parmi un ensemble plus large.
Cela va au-delà de la simple agrégation de données, impliquant une
compréhension approfondie du problème à résoudre et la prise de
décisions éclairées quant aux variables et aux échantillons à inclure.
En d'autres termes, c'est l'art de distiller la quintessence des données
pour en extraire la substance la plus significative.
107
Importance de la Sélection des Données
La qualité des résultats d'un projet de data science dépend directement
de la qualité des données utilisées. Des données mal sélectionnées
peuvent entraîner des conclusions erronées, des modèles inefficaces,
voire des décisions coûteuses. La sélection judicieuse des données
permet non seulement d'améliorer la précision des modèles, mais elle
contribue également à réduire le bruit, à accélérer les temps de
formation des modèles, et à rendre les résultats plus interprétables et
généralisables.
108
Objectifs
Cette section vise à approfondir notre compréhension de l'importance
capitale de la sélection des données dans le contexte de la prédiction
du montant du pourboire (tip). En utilisant la régression linéaire
multiple comme outil, avec l'appui de statsmodels.api et pandas en
Python, nous explorerons comment des choix judicieux dans la
sélection des caractéristiques du client et de la transaction influent
directement sur la précision de notre modèle de prédiction. L'objectif
ultime est de démontrer de manière tangible comment une sélection
de données stratégique peut renforcer la performance prédictive,
optimiser les résultats, et accroître la fiabilité de nos prévisions de
pourboires dans un contexte de données réelles
109
Avantages et Inconvénients des
Méthodes de Sélection des
Données pour la Prédiction du
Montant du Pourboire (Tip)
par la Régression Linéaire
Multiple
110
Corrélation Univariée :
• Avantage : Identifie les relations linéaires simples entre chaque
variable indépendante et la variable dépendante.
• Inconvénient : Ne capture pas les relations complexes et les
interactions entre plusieurs variables.
• Risque de Sous-estimation avec la Corrélation Univariée :
Exemple : Si une variable a une faible corrélation univariée mais
contribue significativement en combinaison avec d'autres variables,
elle peut être ignorée.
111
Analyse en Composantes Principales
(ACP) :
• Avantage : Réduit la dimensionnalité en combinant les variables tout
en préservant la variance maximale.
• Inconvénient : Les composantes principales peuvent ne pas être
facilement interprétables, et l'information spécifique à chaque
variable peut être perdue.
• Interprétation Complexifiée avec l'ACP :
Exemple : Lorsque plusieurs composantes principales sont impliquées, il
peut être difficile d'expliquer concrètement la signification de chaque
composante.
112
Méthodes de Sélection de Modèle
(Enveloppes) :
• Avantage : Évalue les performances du modèle avec différentes
combinaisons de variables, identifiant ainsi le modèle optimal.
• Inconvénient : Peut être coûteux en termes de ressources
computationnelles, surtout avec un grand nombre de variables.
• Complexité et Coût avec les Méthodes de Sélection de Modèle :
Exemple : La méthode "Forward Selection" peut être gourmande en
ressources si le nombre de variables est élevé.
113
Filtres Statistiques (p.ex., Test F) :
• Avantage : Évalue la significativité globale de l'ensemble des
variables.
• Inconvénient : Néglige les relations spécifiques entre les variables et
la variable dépendante.
• Limitation des Filtres Statistiques pour des Cas Spécifiques :
Exemple : Un filtre statistique peut ne pas être adapté pour des
données non linéaires, où des méthodes plus avancées peuvent être
nécessaires.
114
Utilisation de statsmodels.api et pandas de
Python pour l'Analyse de Régression
Linéaire Multiple sur
data_final_normalise_netoye_cat_gere.csv
115
Avant la sélection des données
116
Avant la sélection des données
117
Avant la sélection des données
118
Après sélection des données
119
Après sélection des données
120
Après sélection des données
121
Comparaison des performances avant et
après la sélection des données
• Avant la sélection des données (tipav), la prédiction est 0.4047580393250119.
• Après la sélection des données (tipap), la prédiction est 0.4102291465137762.
• Le vrai tip dans notre données réelles associées à la ligne 233 est
0.4440677966101695.
• Cela suggère que la sélection des données a contribué à améliorer la précision du
modèle, rendant les prédictions plus proches des valeurs réelles.
122
Conclusion
La sélection des données dans un projet de data science joue un rôle
essentiel dans la qualité et la fiabilité des résultats obtenus.
123
visualisation des données
avec Python et Matplotlib
124
Qu'est-ce que la visualisation de données ?
125
Qu'est-ce que c’est Matplotlib?
126
Pourquoi utiliser Matplotlib ? Les
avantages de Matplotlib.
• Les avantages de Matplotlib sont infinis, mais voici quelques raisons pour
lesquelles vous devriez utiliser Matplotlib dans votre prochain projet :
• C'est gratuit et open source;
• Simple et facile à prendre en main;
• Il a une large gamme de fonctionnalités;
• Vous pouvez changer votre style de tracé facilement.
127
Comment installer Matplotlib?
La façon la plus simple d’installer non seulement Panda, mais aussi Python et
ses bibliothèques les plus populaires (IPython, NumPy, Matplotlib, ...) est
d’utiliser Anaconda, une distribution Python multiplateforme (Linux, macOS,
Windows) pour l’analyse de données et le calcul scientifique. Vous pouvez vous
référer à l'article sur Pandas pour l'installation.
128
Démarrer avec JupyterLab
Pour démarrer avec JupyterLab, tapez sur votre terminal ❯ jupyter lab
patientez quelques secondes, Jupyter va ouvrir une nouvelle fenêtre de navigation
sur http://localhost:8888/lab.
129
Importer Pandas et Matplotlib
• Nous allons utiliser Pandas pour lire notre fichier csv et Matplotlib pour la
visualisation.
• Mais vous devez d'abord télécharger matplotlib par :
• !pip install matplotlib
130
l'installation de matplotlib
131
Ici, nous avons importé Pandas et Matplotlib, ensuite nous avons lu le
fichier et enfin afficher les 5 premières lignes. 132
Pylot : Pyplot est un module Matplotlib qui fournit une interface de type MATLAB.
Tracé linéaire : Line Plot dans Seaborn tracé à l’aide de la méthode lineplot() . En cela, nous ne pouvons
également transmettre que l’argument de données.
133
Tracé linéaire
134
Graphique à barres
Bar Plot dans Seaborn peut être créé à l’aide de la méthode barplot() .
135
Nous pouvons ajouter un titre aussi.
136
Histogramme
L’histogramme dans Seaborn peut être tracé à l’aide de la fonction histplot() .
137
Tracer les résidus du modèle
Seaborn utilise: set_theme() , residplot()
138
conclusion
• En conclusion, la visualisation des données est essentielle car elle simplifie la
compréhension des informations, facilite la communication, identifie des modèles
et contribue à des prises de décision éclairées. Avec une variété d'outils
disponibles en Python, il est possible de créer des visualisations adaptées à divers
besoins, renforçant ainsi la valeur des données dans l'analyse et la communication.
• Matplotlib, c'est un outil très puissant avec d'autres bibliothèques intégrées. Pour
aller plus loin.
139