0% ont trouvé ce document utile (0 vote)
39 vues139 pages

Guide sur la Collecte et Gestion des Données

Transféré par

Abdilghani Zahar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
39 vues139 pages

Guide sur la Collecte et Gestion des Données

Transféré par

Abdilghani Zahar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

COLLECTE DE DONNÉES

1
Introduction
• Les données peuvent être définies comme la valeur quantitative ou
qualitative d'une variable (par exemple, nombre, images, mots,
chiffres, faits ou idées)
• C'est une unité d'information à partir de laquelle d'autres mesures et
analyses peuvent être effectuées.
• Les données sont l'un des aspects les plus importants et vitaux de
toute étude de recherche.

2
Facteurs à considérer avant la collecte de
données
• Objectif et portée de l'enquête.
• Sources d'information.
• Expression quantitative.
• Techniques de collecte de données.
• Unité de collecte.

3
Données
Sources primaires
Sources de externes Données
données Sources secondaires
internes

4
Sources internes et externes de données
Sources internes de données Sources externes de données
• De nombreuses institutions et • Lorsque des informations sont
départements disposent collectées auprès d'organismes
d'informations sur leurs fonctions extérieurs, on parle de sources
régulières, à des fins internes. externes de données.
• Lorsque ces informations sont • Ces types de données sont soit
utilisées dans une enquête, on parle primaires, soit secondaires.
de sources internes de données • Ce type d'informations peut être
• Par exemple : sociétés de bien-être collecté par recensement ou
social. échantillonnage en menant une
enquête.

5
Données primaires
• Les données collectées à partir d'expériences de première main sont
appelées données primaires. Elles sont plus fiables, authentiques et
n'ont pas été publiées ailleurs.
• Les données primaires n'ont pas été modifiées ou altérées par
l'homme, donc leur validité est supérieure à celle des données
secondaires.

6
Enquête personnelle
directe (c'est-à-dire
méthode d'entrevue)

Enquête par
observation Méthodes de Enquête indirecte
orale (c'est-à-dire par
des énumérateurs)
collecte de
données
primaires
Enquête par
Enquête par
questionnaire postal questionnaire auprès
de reporteurs locaux

7
Mérites Inconvénients

Données primaires
Les problèmes ciblés
Coût évalué
sont abordés

L'interprétation des
données est Chronophage
meilleure

Haute précision des Plus de ressources


données sont nécessaires

Aborde des
problèmes de
Feedback inexact
recherche
spécifiques

Nécessite beaucoup
Un plus grand
contrôle de compétences et
du travail.
8
Données secondaires
• Les données secondaires sont celles qu’ont déjà été collectées par
d'autres.
• Elles se trouvent généralement dans des journaux, des périodiques,
des publications de recherche, des dossiers officiels, etc.
• Les données secondaires peuvent être disponibles sous forme publiée
ou non publiée. Lorsqu'il n'est pas possible de collecter les données
par la méthode primaire, l'enquêteur opte pour la méthode
secondaire.
• Ces données sont collectées dans un but autre que le problème en
cours.
9
Méthode de collecte de données secondaires

Internationales

Gouvernementales

Sources publiées
Coorporations
municipales
Sources non
publiées
Institutionnelles /
commerciales

10
Mérites Inconvénients
Données secondaires
Ne répondent pas
Source de données
à nos besoins
rapide et bon
spécifiques en
marché
recherche

Zone géographique
Faible précision
plus large

Période
Les données ne
d'orientation plus
sont pas à jour
longue

Menant à trouver
Faible accessibilité
des données
dans certains cas
primaires
11
Différence entre les données primaires et
secondaires

Données primaires Données secondaires


• Données en temps réel • ancienne données
• Sûr des sources de données • Incertitude quant aux sources de données
• Aide à fournir des résultats / des • Affiner le problème
découvertes • Processus bon marché et peu chronophage
• Processus coûteux et chronophage • Impossible de savoir si les données sont
• Évite le biais des données de réponse biaisées ou non
• Plus flexible • Moins flexible

12
Pourquoi cette effervescence aujourd’hui
concernant les Sciences Données ?

• Prise de conscience collective, surtout des entreprises, de la valeur


ajoutee qu’on peut tirer des données.
• Nous somme devant un déluge de données, qui arrivent de partout et
que l’on sait collecter et conserver.
• l’évolution des algorithmes informatique a fortement contribue et
encourage les informaticiens à s’interésser au SD.

13
Démarche pour le traitement d’un probléme
en SD :
Il est necessaire de traduire un besion métier en un problématique de
SD, puis la resoudre grâce à des algorithmes.
Globalement le démarche est simple :

1. Il vous faut des donnees.

2. Vous deverez savoir ce que vous voulez faire.

3. Comment le faire ?

14
C’est quoi une Données ?
• Une données peut étre voir comme une collection d’objets
(enregistrements) et leurs attributs (champs).

15
Processus d’extraction des connaissances :

16
Processus d’extraction des connaissances :
• Collecter : regrouper les données, independament de leurs sources ou types.
• Nettoyer : compléter les données manquante ou corriger les données qui sont mal saisies ou
mesurées.
• Integrer : combiner des données provenant de différentes sources dans une vue unifiée.
• Transformer : réorganisrt et convertir les données dans une format appropriée.
• Selectionner : choisir juste les données les plus represantatives au objective visés.
• Data mining : resérver a l’application des algorithmes sur les données déja pour identifier des
modéles et des patterns.
• Visualisation et Interprétation : analyser les resultats obtenus pour permettre d’extraire des
connaissances utiles a la résolution du probléme liés aux données analysées.

17
Exemple de DataFrame en python :

18
Exemple de DataFrame en python :

19
Exemple de DataFrame en python (Table
Statitique) :

20
Exemple de DataFrame en python(valeurs
manquante):

21
Correction et Nettoyage des
Données

22
Gestion des Valeurs Manquantes : Stratégies
et Méthodes
● Problématique des Valeurs Manquantes : Dans tout projet de data
science, il est fréquent de rencontrer des données incomplètes.
● Impact sur l'Analyse : Les valeurs manquantes peuvent
compromettre la qualité de nos analyses et modèles.

23
Méthodes de Remplacement
1. Suppression des lignes
● Avantages : Simple et rapide.
● Inconvénients : Perte de données significative si plusieurs lignes sont concernées.
2. Remplacement par la Moyenne/Médiane/Mode
● Avantages : Préservation de la taille de l'échantillon.
● Inconvénients : Biais potentiel si la distribution des données est biaisée.
3. Imputation Avancée
● Régression : Estimation basée sur d'autres variables.
● KNN (k plus proches voisins) : Imputation basée sur des observations similaires.
● Modèles prédictifs : Utilisation de modèles pour prédire les valeurs manquantes.
24
Exemple en Python (Pandas)

Abandon des données manquantes :


Avec la librairie pandas, vous pouvez abandonner toutes les lignes
contenant des données manquantes au moyen de la méthode .dropna :
>>> df1 = df.dropna()
Pour abandonner des colonnes, il faut d’abord les repérer et utiliser la
méthode .drop. Il suffit de lui transmettre une liste de noms de
colonnes ou un seul nom :
>>> df1 = df.drop(columns="cabin")

25
Imputation des Valeurs Manquantes avec
Pandas
• La gestion des valeurs manquantes est essentielle pour maintenir
l'intégrité des analyses de données. Pandas offre des solutions flexibles
pour imputer les valeurs manquantes, tant pour les variables
numériques que catégorielles.
• Imputation pour Variables Numériques (par la Moyenne) :
import pandas as pd
moyenne_variable = df['variable'].mean()
df['variable'].fillna(moyenne_variable, inplace=True)
Imputation pour Variables Catégorielles (par le Mode) :
mode_categoriel = df['variable_categorique'].mode()[0]
df['variable_categorique'].fillna(mode_categoriel, inplace=True) 26
• La bibliothèque Pandas en Python facilite l'ajout d'une colonne spécifique
dans notre DataFrame pour marquer où les données sont manquantes, ce qui
peut être une caractéristique significative pour un modèle prédictif.
def add_indicator(col): return df[col].isna().astype(int)
df[‘tip_missing'] = add_indicator("tip")

•‘add_indicato’r : crée une colonne indiquant les données absentes (1) ou


présentes (0).
•Application : ‘df[‘tip_missing']’ ajoute la colonne à notre DataFrame.
•Intérêt : Permet au modèle d'apprendre de l'absence de données

27
Valeurs Aberrantes
• Les anomalies (ou valeurs aberrantes) sont des points de données qui
diffèrent significativement du reste des données, indiquant
potentiellement des erreurs, des événements rares ou des nouveautés.

28
Schémas de détection d'anomalies
1.Ce profil peut être élaboré à partir de modèles ou de statistiques
descriptives qui représentent la majorité de la population.
2.Le profil standard est ensuite utilisé comme référence pour identifier
les anomalies.
3.Les anomalies sont des observations qui se distinguent de manière
significative du comportement standard établi.

29
Impact sur l'analyse des données et les
résultats
• L'impact sur l'analyse des données et les résultats de la présence de
valeurs aberrantes dépend du contexte spécifique de l'étude et de la
nature des données. Cependant, en général, les valeurs aberrantes
peuvent avoir les effets suivants :
1.Distorsion des Statistiques Descriptives
2.Altération de la Distribution
3.Impact sur les Tests Statistiques
4.Modifications des Relations entre les Variables
5.Dégradation de la Précision

30
Méthode et traitement des valeurs aberrantes

31
1.Diagramme de Boîte (Box Plot)
• Identification visuelle des valeurs
aberrantes en observant les points
au-delà des moustaches.

32
2. Méthodes Statistiques : Z-Score
• Contexte et Définition:
Un Z-Score est une mesure statistique qui représente le nombre d'écart-
types qu'une donnée est éloignée de la moyenne de l'ensemble des
données. C'est un outil standard pour identifier les valeurs aberrantes
dans un ensemble de données.
• Formule du Z-Score:

Où X est une observation, μ est la moyenne des données, et σ est l'écart-


type.

33
• Seuil pour les valeurs aberrantes:
Les valeurs avec un Z-Score supérieur à 3 ou inférieur à -3 sont
généralement considérées comme des valeurs aberrantes, indiquant des
données qui sont extrêmement différentes de la moyenne.
• Avantages et Limitations:
Avantages: Le Z-Score est normalisé, permettant des comparaisons
entre différents ensembles de données.
Limitations: Moins fiable pour les distributions non gaussiennes ou
lorsque les données contiennent déjà des valeurs aberrantes qui peuvent
fausser la moyenne et l'écart-type.
34
• Exemple de Code Python:
from scipy.stats import zscore
z_scores = zscore(data)
# Exemple de filtrage des valeurs non aberrantes
filtered_data = data[abs(z_scores) < 3]

35
3. Algorithmes d'Apprentissage
Automatique
a.L’isolation Forest
• Principe:
L'Isolation Forest est un algorithme de machine learning qui identifie les anomalies
en isolant les observations. Il fonctionne sur le principe que les anomalies sont des
observations rares et différentes et sont donc plus faciles à isoler que les
observations normales.
• Fonctionnement:
Contrairement aux méthodes de détection d'anomalies classiques, l'Isolation Forest
n'a pas besoin d'un modèle de données normal. Il construit des arbres de décision
aléatoires pour partitionner les données jusqu'à ce que chaque observation soit
isolée, ce qui permet de détecter les valeurs aberrantes de manière efficace et avec
un coût de calcul réduit.
36
• Paramètre 'contamination':
Le paramètre contamination représente la proportion attendue d'anomalies dans les
données. Un réglage approprié de ce paramètre est crucial pour de bons résultats.
from sklearn.ensemble import IsolationForest
# Initialiser le modèle avec un taux de contamination de 5%
model = IsolationForest(contamination=0.05)
# Adapter le modèle aux données
model.fit(data)
# Prédire les outliers (-1 pour les anomalies, 1 pour les données normales)
outliers = model.predict(data)

37
• Interprétation des Résultats:
Après l'entraînement, le modèle marque chaque point de données
comme étant un outlier (-1) ou non (1). Les points de données marqués
comme -1 sont ceux que le modèle a identifiés comme des anomalies.
• Avantages:
Peu sensible au bruit et capable de détecter les anomalies sans avoir
besoin d'un grand nombre d'arbres, ce qui le rend rapide et efficace
même sur de grands ensembles de données

38
b. Local Outlier Factor (LOF)

• Concept: Le LOF est une technique de détection d'anomalies qui repose


sur l'analyse de la densité locale des données. Il compare la densité d'une
observation avec celle de ses voisins pour identifier les régions de faible
densité qui sont susceptibles d'être des anomalies.
• Fonctionnement: L'algorithme calcule un score pour chaque observation
qui reflète son degré d'isolement par rapport aux observations voisines. Un
score élevé indique une forte probabilité d'être une valeur aberrante.
• Paramètre 'contamination’: Similaire à l'Isolation Forest, le paramètre
contamination spécifie la proportion estimée d'anomalies présentes dans les
données, ce qui influe sur le seuil de décision du modèle.

39
Exemple de Code Python:
from sklearn.neighbors import LocalOutlierFactor
# Initialiser le modèle avec une contamination estimée à 5%
model = LocalOutlierFactor(n_neighbors=20, contamination=0.05)
# Adapter le modèle et prédire (-1 pour les anomalies, 1 pour les
données normales)
outliers = model.fit_predict(data)

40
• Avantages: Particulièrement efficace dans les cas où les données
contiennent des groupes de différentes densités. Contrairement à
d'autres méthodes, il n'est pas biaisé par la prédominance de régions
de forte densité.
• Paramètres Importants:Le choix du nombre de voisins (n_neighbors)
est crucial et peut influencer considérablement la performance de
l'algorithme.

41
4. Méthode de la Tranche (Cut-Off)
• Stratégie: Détermination d'un seuil fixe ou calculé statistiquement
pour identifier les valeurs aberrantes. Toutes les observations
dépassant ce seuil sont considérées comme des anomalies.
• Comment choisir un seuil: Le seuil peut être déterminé par des
connaissances spécifiques au domaine, des statistiques descriptives
(comme des percentiles), ou des exigences opérationnelles.

42
Exemple en Python:
import pandas as pd
df = pd.DataFrame(data)
# Définir un seuil, par exemple le 95e percentile
seuil = df['valeurs'].quantile(0.95)
# Éliminer les valeurs aberrantes supérieures au seuil
df_cleaned = df[df['valeurs'] <= seuil]

43
• Avantages:
• Simplicité de mise en œuvre.
• Facile à comprendre et à expliquer.
• Rapide et ne nécessite pas de modélisation complexe.
• Inconvénients:
• Risque de perte d'informations précieuses si le seuil n'est pas bien choisi.
• Peut être arbitraire et insensible aux nuances dans les données.
• Ne tient pas compte de la structure contextuelle des données (par exemple, la
saisonnalité, les tendances).
• Bonnes Pratiques:
• Examiner les données avant et après l'application du seuil pour s'assurer que
les résultats sont logiques.
• Combiner avec d'autres méthodes de détection des valeurs aberrantes pour
confirmer les résultats.

44
5.Méthode de la Déviation Standard

• Principe:
• Cette méthode identifie les valeurs aberrantes en supprimant les
données qui se trouvent à une distance significative de la moyenne,
souvent définie par un multiple de l'écart-type.
• Formule et Calcul:
• Seuil de détection des valeurs aberrantes : Moyenne±k×Eˊcart-
typeMoyenne±k×Eˊcart-type
• k est généralement choisi entre 2 et 3 pour un niveau de confiance
respectif de 95% et 99.7% selon la règle empirique.

45
Exemple en Python:
import numpy as np
import pandas as pd
df = pd.DataFrame(data)
mean_val = np.mean(df['valeurs'])
std_dev = np.std(df['valeurs'])
# Définir un seuil basé sur un multiple de l'écart-type (par exemple, 3)
seuil_sup = mean_val + 3 * std_dev
seuil_inf = mean_val - 3 * std_dev
# Éliminer les valeurs aberrantes des deux côtés de la moyenne
df_cleaned = df[(df['valeurs'] >= seuil_inf) & (df['valeurs'] <= seuil_sup)]
46
• Avantages:
• Facile à comprendre et à implémenter.
• Utilise la dispersion des données pour déterminer un seuil d'élimination des
valeurs aberrantes.
• Inconvénients:
• Peut ne pas être approprié pour les données qui ne suivent pas une distribution
normale.
• Les valeurs aberrantes extrêmes peuvent fausser la moyenne et l'écart-type,
affectant la détection.
• Bonnes Pratiques:
• Vérifiez la distribution des données avant d'appliquer cette méthode pour vous
assurer qu'elle est appropriée.
• Considérez d'utiliser une médiane et une déviation médiane absolue pour des
données non normalement distribuées.

47
6.Analyse de l'IQR : Identification des
Valeurs Aberrantes dans les Données
• Définition de l'IQR (Interquartile Range) :
L'IQR mesure la dispersion statistique et est la différence entre le 3e
quartile (Q3) et le 1er quartile (Q1).
Q1 représente la valeur médiane dans la première moitié des données.
Q3 représente la valeur médiane dans la seconde moitié des données.
Calcul de l'IQR :
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
48
• Détection des Valeurs Aberrantes :
Les valeurs aberrantes sont souvent définies comme des points de
données situés en dehors des limites inférieures et supérieures, calculées
comme suit :
• Limite inférieure = Q1 - 1.5 * IQR
• Limite supérieure = Q3 + 1.5 * IQR
• Toute donnée en dehors de ces limites est considérée comme
aberrante.

49
Pourquoi utiliser 1.5 * IQR ?
• Le facteur 1.5 est utilisé pour créer une marge permettant de distinguer
les valeurs modérément éloignées des valeurs extrêmement éloignées.
• Ce choix n'est pas strict et peut être ajusté en fonction de la nature des
données.

50
Avantages de l'IQR :
• Résistant aux valeurs aberrantes extrêmes.
• Fournit une mesure robuste de la dispersion des données.
Limitations de l'IQR :
• Peut ne pas bien fonctionner pour les distributions non symétriques.
• Peut identifier un grand nombre de valeurs aberrantes dans les grandes
ensembles de données.
• Application Pratique :
outliers = (data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))
51
7. Méthodes Robustes : MAD (Median
Absolute Deviation)
• Définition:
• La MAD est une mesure statistique de la dispersion autour de la
médiane. Elle est moins sensible aux valeurs aberrantes que l'écart-
type, ce qui la rend plus robuste.
• Formule:
• MAD = médiane(|Xᵢ - médiane(X)|)
• Où X représente l'ensemble des observations.
• Identification des valeurs aberrantes:
• Une valeur est considérée comme aberrante si elle s'écarte de la médiane plus
que k fois la MAD (où k est souvent pris autour de 2.5 à 3).
52
• Avantages:
• Robuste contre les valeurs extrêmes qui peuvent fausser la moyenne et l'écart-type.
• Adaptée aux distributions non symétriques et aux petits échantillons.
• Exemple en Python:
from scipy.stats import median_abs_deviation
mad = median_abs_deviation(data)
• Interprétation: Les scores MAD peuvent être utilisés pour créer un
"seuil" au-delà duquel une observation est considérée comme une valeur
aberrante.
• Application:
Particulièrement utile dans les domaines où la sécurité est critique, comme
dans l'ingénierie ou la finance, car elle minimise l'influence des données
potentiellement erronées.
53
Conclusion
• La gestion efficace des valeurs aberrantes est cruciale pour l'intégrité
des analyses statistiques. Les méthodes de détection, comme l'analyse
de l'écart interquartile ou l'utilisation de z-scores, permettent
d'identifier ces valeurs atypiques. Une fois détectées, il est essentiel de
choisir le traitement approprié, qui peut varier de l'ajustement à
l'exclusion, en fonction de la nature des données et de l'objectif de
l'étude. Cette démarche garantit la fiabilité des résultats et la validité
des conclusions tirées. Ainsi, le traitement des valeurs aberrantes est
un élément indispensable pour maintenir l'intégrité et la précision des
analyses statistiques.

54
INTRODUCTION :

Les données en science des données proviennent


de sources diverses, avec des échelles et des unités
différentes. Cette disparité rend difficile la
comparaison et l'analyse cohérente.

55
LA NORMALISATION ET LA
STANDARDISATION

La normalisation et la standardisation sont des


méthodes cruciales pour résoudre ce problème. Elles
visent à égaliser les échelles. assurant ainsi une base
homogène pour une analyse fiable.

56
1. LA
NORMALISATI
ON :

La normalisation est un processus qui vise à ajuster


les valeurs d'un jeu de données pour les mettre à l'échelle
dans une plage spécifique. L'objectif est de garantir que
toutes les variables contribuent de manière équitable à
l'analyse.

57
a) AVANTAGES DE NORMALISATION:

1. Comparaison équitable des échelles : permet de


comparer des variables qui ont des échelles différentes.

2. Amélioration de la convergence des algorithmes : aide


les algorithmes à converger plus rapidement.

3. Amélioration des performances des modèles : les


caractéristiques contribuent de manière équitable à la
mesure des distances. 58
i. La Méthode min-max scaling :

Le Min-Max Scaling est une méthode de


normalisation qui transforme les valeurs d'un ensemble de
données pour qu'elles tombent dans une plage spécifique,
généralement entre 0 et 1.

La formule de base pour le Min-Max Scaling est la suivante :

Xnorm=(X−min(X)) / ( max(X)−min(X) )

59
Avantages de la Méthode Min-Max Scaling :

Adaptabilité : Convient bien lorsque les données sont initialement dans


des plages diverses.

Facilité d'interprétation : Les valeurs normalisées sont intuitives, se


situant entre 0 et 1.

Maintien de la forme de distribution : Conserve la distribution


relative des données tout en les ajustant à une échelle commune.
60
IMPLEMENTATION DE LA METHODE PAR PYTHON :

61
CONCLUSION:

La méthode Min-Max Scaling rend les échelles des


caractéristiques équivalentes, favorisant une meilleure
interprétation, généralisation, et stabilité des modèles.

62
ii. La Méthode Z-Score
Normalization :

La Z-Score Normalization, également appelée standardisation, est une


méthode qui transforme nos données pour qu'elles aient une moyenne de
zéro et un écart type de un.

• Moyenne de Zéro : Xnorm​=X−mean(X)

• Écart Type de Un : Xnorm​=( X−mean(X)​)/ std(X)

63
Avantages de la Méthode Z-Score Normalization :

Comparabilité Améliorée : Facilite de comparaison , car elles sont


toutes mesurées en termes d'écart type.

Interprétation Facilitée : En transformant nos données en une


distribution normale, les valeurs deviennent plus intuitives à comprendre.

Réduction des Impacts des Valeurs Extrêmes : Conserve la


distribution relative des données tout en les ajustant à une échelle
commune.

64
IMPLEMENTATION DE LA METHODE PAR PYTHON :

65
1. STANDARDISA
TION:

La standardisation, est un processus visant à


transformer les données de telle manière qu'elles
présentent une moyenne de zéro et un écart type de un. En
d'autres termes, il s'agit de centrer les données autour de
zéro tout en les redimensionnant pour qu'elles aient une
dispersion uniforme.

66
a) AVANTAGES DE NORMALISATION:

1. Comparabilité des Caractéristiques : en éliminant les


différences d'échelle.

2. Stabilité des Algorithmes : En atténuant les impacts de


l'échelle des données.

3. Interprétation Facilitée : La standardisation simplifie


l'interprétation des modèles, notamment des modèles
linéaires 67
68
i. La Méthode Robust Scaling :

Cette méthode est utile lorsque les données


contiennent des valeurs aberrantes. Elle utilise la médiane
(Q2​) et l'écart interquartile (Q3−Q1​) au lieu de la moyenne
et de l'écart type.

69
Avantages de La Méthode Robust Scaling :

L'avantage principal du Robust Scaling réside


dans sa résilience face aux valeurs extrêmes. le Robust
Scaling utilise la médiane et le quartile plutôt que la
moyenne et l'écart type. Ainsi, il est moins influencé par
les valeurs aberrantes.

70
IMPLEMENTATION DE LA METHODE PAR PYTHON :

71
CONCLUSION:

La méthode Min-Max Scaling normalise les valeurs


pour les ajuster dans une plage spécifique, typiquement
entre 0 et 1. elle rend les échelles des caractéristiques
équivalentes, favorisant une meilleure interprétation,
généralisation, et stabilité des modèles.

72
ii. La Méthode Unit Vector
Transformation:

L'Unit Vector Transformation est une méthode de


standardisation qui transforme chaque observation de telle
sorte que sa norme euclidienne (longueur) soit égale à 1.
Cette méthode est souvent utilisée dans des contextes où la
direction des données est plus importante que leurs
amplitudes exactes.
73
Avantages de la Méthode Unit Vector
Transformation :

Conservation des Relations Angulaires : Préservation


des angles entre les vecteurs, maintient les relations directionnelles.

Adaptée à Certains Algorithmes : Avantageuse pour des


algorithmes axés sur la similarité ou les distances.

Réduction de la Sensibilité aux Échelles


Différentes : : Minimisation de la sensibilité aux échelles différentes
entre les variables. 74
PROCESSUS :
• Diviser chaque valeur de l'observation par la norme euclidienne
de l'ensemble de données.

• La norme euclidienne d'un vecteur XX est calculée comme la


racine carrée de la somme des carrés de ses composantes.

• Le résultat est une distribution où chaque observation a une


norme euclidienne de 1.
La formule de transformation pour une variable X est donnée par :
Xunit= X / ∥X∥
​ 75
IMPLEMENTATION DE LA METHODE PAR PYTHON :

76
Comparaison des situations idéales pour
chaque technique :
1. LA NORMALISATION:
Situations idéales :
Lorsque les données ont des distributions
asymétriques ou non normales. Dans des modèles sensibles à
l'échelle des données.

Raisonnement :
La normalisation est particulièrement utile lorsque
l'écart entre les valeurs minimale et maximale dans un
ensemble de données est significatif 77
Comparaison des situations idéales pour
chaque technique :
1. LA STANDARDISATION:
Situations idéales :
Lorsque les données suivent une distribution
normale ou presque normale. Dans des modèles qui supposent
souvent que les caractéristiques sont centrées autour de zéro
(comme la régression linéaire).

Raisonnement :
La standardisation est préférée lorsque les données
ont une moyenne significative et un écart type qui peut être
important. 78
Comparaison des situations idéales pour
chaque technique :

K- Means Clustering :
Sensibilité à l'échelle des données : L'algorithme K- Means
repose sur la distance euclidienne entre les points pour déterminer les
clusters.

Impact de la normalisation : En normalisant les données, on


s'assure que toutes les variables contribuent de manière équitable à la
formation des clusters, car elles sont mises à la même échelle.

79
Comparaison des situations idéales pour
chaque technique :

Support Vector Machines (SVM) avec Noyau Radial :

Sensibilité à l'échelle des données : Les SVM avec un noyau


radial calculent la distance entre les points.

Impact de la standardisation : En standardisant les données, on


centre les variables autour de zéro avec un écart type de un. Cela
garantit que la distance est calculée de manière équilibrée.

80
CONCLUSION GENERALE :

En résumé, la normalisation et la standardisation sont des outils


essentiels en science des données, permettant d'homogénéiser les
données pour des analyses plus fiables. Ces techniques, qu'il s'agisse
de normaliser les plages de données ou de centrer la distribution
autour de zéro, améliorent la performance des modèles de machine
Learning.

81
LA GESTION DES DONNES
CATEGORIELLES :

La gestion des données catégorielles est cruciale en science des


données. Elle implique l'exploration, l'encodage adapté, la gestion
des catégories rares, et l'imputation des valeurs manquantes.
Combinée à la normalisation, elle assure la cohérence et la
comparabilité des données pour des modèles fiables.

82
LA GESTION DES DONNES
CATEGORIELLES :

Dans la gestion des données catégorielles, nous explorons


les distributions, utilisons l'encodage one-hot pour représenter les
catégories, gérons les catégories rares, et imputons les données
manquantes. Cette étape se combine harmonieusement avec la
normalisation des données. Ensemble, ces processus préparent les
données de manière optimale pour l'application efficace des modèles
d'apprentissage automatique.

83
LA GESTION DES DONNES
CATEGORIELLES :

L'encodage des données catégorielles vise à transformer les


variables catégorielles en une forme que les algorithmes
d'apprentissage automatique peuvent traiter efficacement. Deux
approches courantes sont le codage one-hot et le codage ordinal.

codage one-hot
codage ordinal

84
LA GESTION DES DONNES
CATEGORIELLES :
1. codage one-hot

Le codage one-hot représente les données catégorielles en


créant des colonnes binaires (0 ou 1) pour chaque catégorie de la
variable d'origine. Par exemple, une variable "Classe" avec les
catégories {"A", "B", "C"} générera trois colonnes, où une seule aura
la valeur 1 par ligne pour indiquer la catégorie de l'observation,
tandis que les autres auront la valeur 0.

85
LA GESTION DES DONNES
CATEGORIELLES :
1. codage one-hot
Avantages du codage one-hot :

• Préservation de l'information : Chaque colonne créée conserve


l'information sur la présence ou l'absence d'une catégorie.
• Interprétation facilitée : Les modèles résultants sont plus faciles à
interpréter .
• Évite le piège de la distance : Élimine les problèmes liés à la
distance euclidienne.

86
LA GESTION DES DONNES
CATEGORIELLES :
1. codage one-hot
Inconvénients du codage one-hot :

• Dimensionnalité accrue : Introduit un nombre élevé de


colonnes, ce qui peut entraîner une augmentation de la
dimensionnalité des données.
• Gestion des catégories rares : Peut conduire à des problèmes
liés aux catégories rares.
• Consommation de mémoire : La représentation en one-hot peut
occuper plus de mémoire que d'autres encodages.
87
IMPLEMENTATION DE LA METHODE PAR PYTHON :

88
LA GESTION DES DONNES
CATEGORIELLES :
2. codage ordinal

Le codage ordinal attribue des valeurs numériques aux


catégories des données catégorielles en tenant compte de leur
ordre. Par exemple, pour une variable "Taille" avec les catégories
{"Petit", "Moyen", "Grand"}, le codage ordinal pourrait utiliser
les valeurs {1, 2, 3}. Cela permet de représenter numériquement
les catégories tout en préservant l'information sur leur ordre.

89
LA GESTION DES DONNES
CATEGORIELLES :
2. codage ordinal
Avantages du codage ordinal :
• Conservation de l'ordre : Préserve l'ordre naturel entre les
catégories.
• Réduction de la complexité : Moins de colonnes générées par
rapport au codage one-hot.
• Moins de sensibilité au bruit : Le codage ordinal peut être moins
sensible aux variations mineures des catégories.

90
LA GESTION DES DONNES
CATEGORIELLES :
2. codage ordinal
Inconvénients du codage one-hot :

• Perte d'information : Ne tient pas compte des distances ou des


différences entre les catégories.

• Assumption d'intervalles égaux : Le codage ordinal suppose que


les intervalles entre les catégories sont égaux.

91
IMPLEMENTATION DE LA METHODE PAR PYTHON :

92
COMPARAISON ENTRE CES
DEUX METHODES :

1. Nature de la Variable :
1. One-Hot : Pour catégories sans ordre particulier.
2. Ordinal : Pour catégories avec un ordre significatif.
2. Nombre de Colonnes :
1. One-Hot : Plusieurs colonnes, une par catégorie.
2. Ordinal : Une seule colonne.

93
Transformation des données catégorielles en
variables num :

Pour intégrer des données catégorielles dans des modèles


d'apprentissage automatique, on peut les convertir en variables
num en utilisant des techniques comme le codage de fréquence.
Cette méthode remplace chaque catégorie par sa fréquence
d'occurrence dans l'ensemble des données, fournissant ainsi une
représentation numérique de l'importance de chaque catégorie.

94
Transformation des données catégorielles en
variables num :

Le codage de fréquence transforme une caractéristique


catégorielle comme "Couleur" avec les catégories "Rouge",
"Bleu" et "Vert" en valeurs numériques. Par exemple, si les
fréquences d'occurrence respectives sont 30%, 40%, et 30%, la
transformation serait :
"Rouge" → 0.3, "Bleu" → 0.4, "Vert" → 0.3.
Cela offre une représentation numérique utilisable dans les
modèles d'apprentissage automatique
95
IMPLEMENTATION DE LA METHODE PAR PYTHON :

96
CONCLUS
ION

Gérer efficacement les données catégorielles est


essentiel pour des modèles d'apprentissage automatique solides.
L'encodage adéquat garantit une représentation précise des
caractéristiques, tandis que la gestion des catégories rares évitent
les biais. Transformer les données en variables numériques
facilite leur intégration dans divers algorithmes, assurant des
analyses fiables et des modèles performants.
97
CONCLUSION
GENERALE
Normaliser et standardiser les données est crucial
pour garantir des échelles comparables et une convergence
efficace des modèles en science des données. Une gestion
appropriée des données catégorielles, avec des encodages
pertinents et la prise en compte des catégories rares. Ces étapes
de prétraitement assurent des analyses fiables et des modèles
performants.
98
Prétraitement des Données dans un Fichier CSV : Élimination des
Valeurs Aberrantes, Attribution des Valeurs Manquantes,
Normalisation, Suppression des Duplicatas et Gestion des Données
Catégorielles

99
Élimination des Valeurs Aberrantes

100
Attribution des Valeurs Manquantes

101
Normalisation

102
Gestion des Données Catégorielles

103
Suppression des Duplicatas

104
Sélection des données

105
Rappel Préliminaire sur la Sélection des Données dans
le Processus KDD et le Prétraitement
• La sélection des données constitue la quatrième étape dans le
processus de découverte de connaissances dans les bases de données
(KDD).
• Dans le processus de prétraitement des données, la sélection des
données intervient en dernière position, juste avant la phase de
datamining.
• La sélection des données représente la dernière étape cruciale avant
d'entrer dans la phase de datamining.

106
Définition de la Sélection des Données
La sélection des données englobe le processus méticuleux de choisir et
de filtrer les informations pertinentes parmi un ensemble plus large.
Cela va au-delà de la simple agrégation de données, impliquant une
compréhension approfondie du problème à résoudre et la prise de
décisions éclairées quant aux variables et aux échantillons à inclure.
En d'autres termes, c'est l'art de distiller la quintessence des données
pour en extraire la substance la plus significative.

107
Importance de la Sélection des Données
La qualité des résultats d'un projet de data science dépend directement
de la qualité des données utilisées. Des données mal sélectionnées
peuvent entraîner des conclusions erronées, des modèles inefficaces,
voire des décisions coûteuses. La sélection judicieuse des données
permet non seulement d'améliorer la précision des modèles, mais elle
contribue également à réduire le bruit, à accélérer les temps de
formation des modèles, et à rendre les résultats plus interprétables et
généralisables.

108
Objectifs
Cette section vise à approfondir notre compréhension de l'importance
capitale de la sélection des données dans le contexte de la prédiction
du montant du pourboire (tip). En utilisant la régression linéaire
multiple comme outil, avec l'appui de statsmodels.api et pandas en
Python, nous explorerons comment des choix judicieux dans la
sélection des caractéristiques du client et de la transaction influent
directement sur la précision de notre modèle de prédiction. L'objectif
ultime est de démontrer de manière tangible comment une sélection
de données stratégique peut renforcer la performance prédictive,
optimiser les résultats, et accroître la fiabilité de nos prévisions de
pourboires dans un contexte de données réelles
109
Avantages et Inconvénients des
Méthodes de Sélection des
Données pour la Prédiction du
Montant du Pourboire (Tip)
par la Régression Linéaire
Multiple
110
Corrélation Univariée :
• Avantage : Identifie les relations linéaires simples entre chaque
variable indépendante et la variable dépendante.
• Inconvénient : Ne capture pas les relations complexes et les
interactions entre plusieurs variables.
• Risque de Sous-estimation avec la Corrélation Univariée :
Exemple : Si une variable a une faible corrélation univariée mais
contribue significativement en combinaison avec d'autres variables,
elle peut être ignorée.

111
Analyse en Composantes Principales
(ACP) :
• Avantage : Réduit la dimensionnalité en combinant les variables tout
en préservant la variance maximale.
• Inconvénient : Les composantes principales peuvent ne pas être
facilement interprétables, et l'information spécifique à chaque
variable peut être perdue.
• Interprétation Complexifiée avec l'ACP :
Exemple : Lorsque plusieurs composantes principales sont impliquées, il
peut être difficile d'expliquer concrètement la signification de chaque
composante.

112
Méthodes de Sélection de Modèle
(Enveloppes) :
• Avantage : Évalue les performances du modèle avec différentes
combinaisons de variables, identifiant ainsi le modèle optimal.
• Inconvénient : Peut être coûteux en termes de ressources
computationnelles, surtout avec un grand nombre de variables.
• Complexité et Coût avec les Méthodes de Sélection de Modèle :
Exemple : La méthode "Forward Selection" peut être gourmande en
ressources si le nombre de variables est élevé.

113
Filtres Statistiques (p.ex., Test F) :
• Avantage : Évalue la significativité globale de l'ensemble des
variables.
• Inconvénient : Néglige les relations spécifiques entre les variables et
la variable dépendante.
• Limitation des Filtres Statistiques pour des Cas Spécifiques :
Exemple : Un filtre statistique peut ne pas être adapté pour des
données non linéaires, où des méthodes plus avancées peuvent être
nécessaires.

114
Utilisation de statsmodels.api et pandas de
Python pour l'Analyse de Régression
Linéaire Multiple sur
data_final_normalise_netoye_cat_gere.csv

115
Avant la sélection des données

116
Avant la sélection des données

117
Avant la sélection des données

118
Après sélection des données

119
Après sélection des données

120
Après sélection des données

121
Comparaison des performances avant et
après la sélection des données
• Avant la sélection des données (tipav), la prédiction est 0.4047580393250119.
• Après la sélection des données (tipap), la prédiction est 0.4102291465137762.
• Le vrai tip dans notre données réelles associées à la ligne 233 est
0.4440677966101695.
• Cela suggère que la sélection des données a contribué à améliorer la précision du
modèle, rendant les prédictions plus proches des valeurs réelles.

122
Conclusion
La sélection des données dans un projet de data science joue un rôle
essentiel dans la qualité et la fiabilité des résultats obtenus.

123
visualisation des données
avec Python et Matplotlib

La visualisation des données est un moyen de communiquer des données dans un


format visuel facile à comprendre et à interpréter.

124
Qu'est-ce que la visualisation de données ?

La visualisation des données est le processus d'affichage des données sous


forme graphique, généralement de manière qu’elles puissent être facilement
interprétées par le spectateur. L'objectif de la visualisation de données est de
présenter des informations complexes d'une manière facile à comprendre et à
interpréter.

125
Qu'est-ce que c’est Matplotlib?

• Matplotlib est une bibliothèque python pour la visualisation de données. Il peut


être utilisé pour créer des graphiques, des histogrammes, des spectres de
puissance, des diagrammes à barres, des diagrammes de dispersion, etc.
• Il fournit une grande variété de fonctions qui peuvent être utilisées pour
personnaliser les tracés.
• Cette bibliothèque est très populaire parmi les scientifiques des données et les
experts en apprentissage automatique car elle prend en charge toutes sortes
d'algorithmes d'analyse statistique et d'apprentissage automatique grâce à sa
fonctionnalité de traçage intégrée.

126
Pourquoi utiliser Matplotlib ? Les
avantages de Matplotlib.

• Les avantages de Matplotlib sont infinis, mais voici quelques raisons pour
lesquelles vous devriez utiliser Matplotlib dans votre prochain projet :
• C'est gratuit et open source;
• Simple et facile à prendre en main;
• Il a une large gamme de fonctionnalités;
• Vous pouvez changer votre style de tracé facilement.

127
Comment installer Matplotlib?

La façon la plus simple d’installer non seulement Panda, mais aussi Python et
ses bibliothèques les plus populaires (IPython, NumPy, Matplotlib, ...) est
d’utiliser Anaconda, une distribution Python multiplateforme (Linux, macOS,
Windows) pour l’analyse de données et le calcul scientifique. Vous pouvez vous
référer à l'article sur Pandas pour l'installation.

128
Démarrer avec JupyterLab

Pour démarrer avec JupyterLab, tapez sur votre terminal ❯ jupyter lab
patientez quelques secondes, Jupyter va ouvrir une nouvelle fenêtre de navigation
sur http://localhost:8888/lab.

129
Importer Pandas et Matplotlib

• Nous allons utiliser Pandas pour lire notre fichier csv et Matplotlib pour la
visualisation.
• Mais vous devez d'abord télécharger matplotlib par :
• !pip install matplotlib

130
l'installation de matplotlib

131
Ici, nous avons importé Pandas et Matplotlib, ensuite nous avons lu le
fichier et enfin afficher les 5 premières lignes. 132
Pylot : Pyplot est un module Matplotlib qui fournit une interface de type MATLAB.

Tracé linéaire : Line Plot dans Seaborn tracé à l’aide de la méthode lineplot() . En cela, nous ne pouvons
également transmettre que l’argument de données.

L’installation de seaborn : !pip install seaborn

133
Tracé linéaire

134
Graphique à barres
Bar Plot dans Seaborn peut être créé à l’aide de la méthode barplot() .

135
Nous pouvons ajouter un titre aussi.

136
Histogramme
L’histogramme dans Seaborn peut être tracé à l’aide de la fonction histplot() .

137
Tracer les résidus du modèle
Seaborn utilise: set_theme() , residplot()

138
conclusion
• En conclusion, la visualisation des données est essentielle car elle simplifie la
compréhension des informations, facilite la communication, identifie des modèles
et contribue à des prises de décision éclairées. Avec une variété d'outils
disponibles en Python, il est possible de créer des visualisations adaptées à divers
besoins, renforçant ainsi la valeur des données dans l'analyse et la communication.
• Matplotlib, c'est un outil très puissant avec d'autres bibliothèques intégrées. Pour
aller plus loin.

139

Vous aimerez peut-être aussi