0% ont trouvé ce document utile (0 vote)

39 vues139 pages

Guide sur la Collecte et Gestion des Données

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

39 vues139 pages

Guide sur la Collecte et Gestion des Données

Transféré par

Abdilghani Zahar

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

COLLECTE DE DONNÉES

1
Introduction
• Les données peuvent être définies comme la valeur quantitative ou
qualitative d'une variable (par exemple, nombre, images, mots,
chiffres, faits ou idées)
• C'est une unité d'information à partir de laquelle d'autres mesures et
analyses peuvent être effectuées.
• Les données sont l'un des aspects les plus importants et vitaux de
toute étude de recherche.

2
Facteurs à considérer avant la collecte de
données
• Objectif et portée de l'enquête.
• Sources d'information.
• Expression quantitative.
• Techniques de collecte de données.
• Unité de collecte.

3
Données
Sources primaires
Sources de externes Données
données Sources secondaires
internes

4
Sources internes et externes de données
Sources internes de données Sources externes de données
• De nombreuses institutions et • Lorsque des informations sont
départements disposent collectées auprès d'organismes
d'informations sur leurs fonctions extérieurs, on parle de sources
régulières, à des fins internes. externes de données.
• Lorsque ces informations sont • Ces types de données sont soit
utilisées dans une enquête, on parle primaires, soit secondaires.
de sources internes de données • Ce type d'informations peut être
• Par exemple : sociétés de bien-être collecté par recensement ou
social. échantillonnage en menant une
enquête.

5
Données primaires
• Les données collectées à partir d'expériences de première main sont
appelées données primaires. Elles sont plus fiables, authentiques et
n'ont pas été publiées ailleurs.
• Les données primaires n'ont pas été modifiées ou altérées par
l'homme, donc leur validité est supérieure à celle des données
secondaires.

6
Enquête personnelle
directe (c'est-à-dire
méthode d'entrevue)

Enquête par
observation Méthodes de Enquête indirecte
orale (c'est-à-dire par
des énumérateurs)
collecte de
données
primaires
Enquête par
Enquête par
questionnaire postal questionnaire auprès
de reporteurs locaux

7
Mérites Inconvénients

Données primaires
Les problèmes ciblés
Coût évalué
sont abordés

L'interprétation des
données est Chronophage
meilleure

Haute précision des Plus de ressources

données sont nécessaires

Aborde des
problèmes de
Feedback inexact
recherche
spécifiques

Nécessite beaucoup
Un plus grand
contrôle de compétences et
du travail.
8
Données secondaires
• Les données secondaires sont celles qu’ont déjà été collectées par
d'autres.
• Elles se trouvent généralement dans des journaux, des périodiques,
des publications de recherche, des dossiers officiels, etc.
• Les données secondaires peuvent être disponibles sous forme publiée
ou non publiée. Lorsqu'il n'est pas possible de collecter les données
par la méthode primaire, l'enquêteur opte pour la méthode
secondaire.
• Ces données sont collectées dans un but autre que le problème en
cours.
9
Méthode de collecte de données secondaires

Internationales

Gouvernementales

Sources publiées
Coorporations
municipales
Sources non
publiées
Institutionnelles /
commerciales

10
Mérites Inconvénients
Données secondaires
Ne répondent pas
Source de données
à nos besoins
rapide et bon
spécifiques en
marché
recherche

Zone géographique
Faible précision
plus large

Période
Les données ne
d'orientation plus
sont pas à jour
longue

Menant à trouver
Faible accessibilité
des données
dans certains cas
primaires
11
Différence entre les données primaires et
secondaires

Données primaires Données secondaires

• Données en temps réel • ancienne données
• Sûr des sources de données • Incertitude quant aux sources de données
• Aide à fournir des résultats / des • Affiner le problème
découvertes • Processus bon marché et peu chronophage
• Processus coûteux et chronophage • Impossible de savoir si les données sont
• Évite le biais des données de réponse biaisées ou non
• Plus flexible • Moins flexible

12
Pourquoi cette effervescence aujourd’hui
concernant les Sciences Données ?

• Prise de conscience collective, surtout des entreprises, de la valeur

ajoutee qu’on peut tirer des données.
• Nous somme devant un déluge de données, qui arrivent de partout et
que l’on sait collecter et conserver.
• l’évolution des algorithmes informatique a fortement contribue et
encourage les informaticiens à s’interésser au SD.

13
Démarche pour le traitement d’un probléme
en SD :
Il est necessaire de traduire un besion métier en un problématique de
SD, puis la resoudre grâce à des algorithmes.
Globalement le démarche est simple :

1. Il vous faut des donnees.

2. Vous deverez savoir ce que vous voulez faire.

3. Comment le faire ?

14
C’est quoi une Données ?
• Une données peut étre voir comme une collection d’objets
(enregistrements) et leurs attributs (champs).

15
Processus d’extraction des connaissances :

16
Processus d’extraction des connaissances :
• Collecter : regrouper les données, independament de leurs sources ou types.
• Nettoyer : compléter les données manquante ou corriger les données qui sont mal saisies ou
mesurées.
• Integrer : combiner des données provenant de différentes sources dans une vue unifiée.
• Transformer : réorganisrt et convertir les données dans une format appropriée.
• Selectionner : choisir juste les données les plus represantatives au objective visés.
• Data mining : resérver a l’application des algorithmes sur les données déja pour identifier des
modéles et des patterns.
• Visualisation et Interprétation : analyser les resultats obtenus pour permettre d’extraire des
connaissances utiles a la résolution du probléme liés aux données analysées.

17
Exemple de DataFrame en python :

18
Exemple de DataFrame en python :

19
Exemple de DataFrame en python (Table
Statitique) :

20
Exemple de DataFrame en python(valeurs
manquante):

21
Correction et Nettoyage des
Données

22
Gestion des Valeurs Manquantes : Stratégies
et Méthodes
● Problématique des Valeurs Manquantes : Dans tout projet de data
science, il est fréquent de rencontrer des données incomplètes.
● Impact sur l'Analyse : Les valeurs manquantes peuvent
compromettre la qualité de nos analyses et modèles.

23
Méthodes de Remplacement
1. Suppression des lignes
● Avantages : Simple et rapide.
● Inconvénients : Perte de données significative si plusieurs lignes sont concernées.
2. Remplacement par la Moyenne/Médiane/Mode
● Avantages : Préservation de la taille de l'échantillon.
● Inconvénients : Biais potentiel si la distribution des données est biaisée.
3. Imputation Avancée
● Régression : Estimation basée sur d'autres variables.
● KNN (k plus proches voisins) : Imputation basée sur des observations similaires.
● Modèles prédictifs : Utilisation de modèles pour prédire les valeurs manquantes.
24
Exemple en Python (Pandas)

Abandon des données manquantes :

Avec la librairie pandas, vous pouvez abandonner toutes les lignes
contenant des données manquantes au moyen de la méthode .dropna :
>>> df1 = df.dropna()
Pour abandonner des colonnes, il faut d’abord les repérer et utiliser la
méthode .drop. Il suffit de lui transmettre une liste de noms de
colonnes ou un seul nom :
>>> df1 = df.drop(columns="cabin")

25
Imputation des Valeurs Manquantes avec
Pandas
• La gestion des valeurs manquantes est essentielle pour maintenir
l'intégrité des analyses de données. Pandas offre des solutions flexibles
pour imputer les valeurs manquantes, tant pour les variables
numériques que catégorielles.
• Imputation pour Variables Numériques (par la Moyenne) :
import pandas as pd
moyenne_variable = df['variable'].mean()
df['variable'].fillna(moyenne_variable, inplace=True)
Imputation pour Variables Catégorielles (par le Mode) :
mode_categoriel = df['variable_categorique'].mode()[0]
df['variable_categorique'].fillna(mode_categoriel, inplace=True) 26
• La bibliothèque Pandas en Python facilite l'ajout d'une colonne spécifique
dans notre DataFrame pour marquer où les données sont manquantes, ce qui
peut être une caractéristique significative pour un modèle prédictif.
def add_indicator(col): return df[col].isna().astype(int)
df[‘tip_missing'] = add_indicator("tip")

•‘add_indicato’r : crée une colonne indiquant les données absentes (1) ou

présentes (0).
•Application : ‘df[‘tip_missing']’ ajoute la colonne à notre DataFrame.
•Intérêt : Permet au modèle d'apprendre de l'absence de données

27
Valeurs Aberrantes
• Les anomalies (ou valeurs aberrantes) sont des points de données qui
diffèrent significativement du reste des données, indiquant
potentiellement des erreurs, des événements rares ou des nouveautés.

28
Schémas de détection d'anomalies
1.Ce profil peut être élaboré à partir de modèles ou de statistiques
descriptives qui représentent la majorité de la population.
2.Le profil standard est ensuite utilisé comme référence pour identifier
les anomalies.
3.Les anomalies sont des observations qui se distinguent de manière
significative du comportement standard établi.

29
Impact sur l'analyse des données et les
résultats
• L'impact sur l'analyse des données et les résultats de la présence de
valeurs aberrantes dépend du contexte spécifique de l'étude et de la
nature des données. Cependant, en général, les valeurs aberrantes
peuvent avoir les effets suivants :
1.Distorsion des Statistiques Descriptives
2.Altération de la Distribution
3.Impact sur les Tests Statistiques
4.Modifications des Relations entre les Variables
5.Dégradation de la Précision

30
Méthode et traitement des valeurs aberrantes

31
1.Diagramme de Boîte (Box Plot)
• Identification visuelle des valeurs
aberrantes en observant les points
au-delà des moustaches.

32
2. Méthodes Statistiques : Z-Score
• Contexte et Définition:
Un Z-Score est une mesure statistique qui représente le nombre d'écart-
types qu'une donnée est éloignée de la moyenne de l'ensemble des
données. C'est un outil standard pour identifier les valeurs aberrantes
dans un ensemble de données.
• Formule du Z-Score:

Où X est une observation, μ est la moyenne des données, et σ est l'écart-

type.

33
• Seuil pour les valeurs aberrantes:
Les valeurs avec un Z-Score supérieur à 3 ou inférieur à -3 sont
généralement considérées comme des valeurs aberrantes, indiquant des
données qui sont extrêmement différentes de la moyenne.
• Avantages et Limitations:
Avantages: Le Z-Score est normalisé, permettant des comparaisons
entre différents ensembles de données.
Limitations: Moins fiable pour les distributions non gaussiennes ou
lorsque les données contiennent déjà des valeurs aberrantes qui peuvent
fausser la moyenne et l'écart-type.
34
• Exemple de Code Python:
from scipy.stats import zscore
z_scores = zscore(data)
# Exemple de filtrage des valeurs non aberrantes
filtered_data = data[abs(z_scores) < 3]

35
3. Algorithmes d'Apprentissage
Automatique
a.L’isolation Forest
• Principe:
L'Isolation Forest est un algorithme de machine learning qui identifie les anomalies
en isolant les observations. Il fonctionne sur le principe que les anomalies sont des
observations rares et différentes et sont donc plus faciles à isoler que les
observations normales.
• Fonctionnement:
Contrairement aux méthodes de détection d'anomalies classiques, l'Isolation Forest
n'a pas besoin d'un modèle de données normal. Il construit des arbres de décision
aléatoires pour partitionner les données jusqu'à ce que chaque observation soit
isolée, ce qui permet de détecter les valeurs aberrantes de manière efficace et avec
un coût de calcul réduit.
36
• Paramètre 'contamination':
Le paramètre contamination représente la proportion attendue d'anomalies dans les
données. Un réglage approprié de ce paramètre est crucial pour de bons résultats.
from sklearn.ensemble import IsolationForest
# Initialiser le modèle avec un taux de contamination de 5%
model = IsolationForest(contamination=0.05)
# Adapter le modèle aux données
model.fit(data)
# Prédire les outliers (-1 pour les anomalies, 1 pour les données normales)
outliers = model.predict(data)

37
• Interprétation des Résultats:
Après l'entraînement, le modèle marque chaque point de données
comme étant un outlier (-1) ou non (1). Les points de données marqués
comme -1 sont ceux que le modèle a identifiés comme des anomalies.
• Avantages:
Peu sensible au bruit et capable de détecter les anomalies sans avoir
besoin d'un grand nombre d'arbres, ce qui le rend rapide et efficace
même sur de grands ensembles de données

38
b. Local Outlier Factor (LOF)

• Concept: Le LOF est une technique de détection d'anomalies qui repose

sur l'analyse de la densité locale des données. Il compare la densité d'une
observation avec celle de ses voisins pour identifier les régions de faible
densité qui sont susceptibles d'être des anomalies.
• Fonctionnement: L'algorithme calcule un score pour chaque observation
qui reflète son degré d'isolement par rapport aux observations voisines. Un
score élevé indique une forte probabilité d'être une valeur aberrante.
• Paramètre 'contamination’: Similaire à l'Isolation Forest, le paramètre
contamination spécifie la proportion estimée d'anomalies présentes dans les
données, ce qui influe sur le seuil de décision du modèle.

39
Exemple de Code Python:
from sklearn.neighbors import LocalOutlierFactor
# Initialiser le modèle avec une contamination estimée à 5%
model = LocalOutlierFactor(n_neighbors=20, contamination=0.05)
# Adapter le modèle et prédire (-1 pour les anomalies, 1 pour les
données normales)
outliers = model.fit_predict(data)

40
• Avantages: Particulièrement efficace dans les cas où les données
contiennent des groupes de différentes densités. Contrairement à
d'autres méthodes, il n'est pas biaisé par la prédominance de régions
de forte densité.
• Paramètres Importants:Le choix du nombre de voisins (n_neighbors)
est crucial et peut influencer considérablement la performance de
l'algorithme.

41
4. Méthode de la Tranche (Cut-Off)
• Stratégie: Détermination d'un seuil fixe ou calculé statistiquement
pour identifier les valeurs aberrantes. Toutes les observations
dépassant ce seuil sont considérées comme des anomalies.
• Comment choisir un seuil: Le seuil peut être déterminé par des
connaissances spécifiques au domaine, des statistiques descriptives
(comme des percentiles), ou des exigences opérationnelles.

42
Exemple en Python:
import pandas as pd
df = pd.DataFrame(data)
# Définir un seuil, par exemple le 95e percentile
seuil = df['valeurs'].quantile(0.95)
# Éliminer les valeurs aberrantes supérieures au seuil
df_cleaned = df[df['valeurs'] <= seuil]

43
• Avantages:
• Simplicité de mise en œuvre.
• Facile à comprendre et à expliquer.
• Rapide et ne nécessite pas de modélisation complexe.
• Inconvénients:
• Risque de perte d'informations précieuses si le seuil n'est pas bien choisi.
• Peut être arbitraire et insensible aux nuances dans les données.
• Ne tient pas compte de la structure contextuelle des données (par exemple, la
saisonnalité, les tendances).
• Bonnes Pratiques:
• Examiner les données avant et après l'application du seuil pour s'assurer que
les résultats sont logiques.
• Combiner avec d'autres méthodes de détection des valeurs aberrantes pour
confirmer les résultats.

44
5.Méthode de la Déviation Standard

• Principe:
• Cette méthode identifie les valeurs aberrantes en supprimant les
données qui se trouvent à une distance significative de la moyenne,
souvent définie par un multiple de l'écart-type.
• Formule et Calcul:
• Seuil de détection des valeurs aberrantes : Moyenne±k×Eˊcart-
typeMoyenne±k×Eˊcart-type
• k est généralement choisi entre 2 et 3 pour un niveau de confiance
respectif de 95% et 99.7% selon la règle empirique.

45
Exemple en Python:
import numpy as np
import pandas as pd
df = pd.DataFrame(data)
mean_val = np.mean(df['valeurs'])
std_dev = np.std(df['valeurs'])
# Définir un seuil basé sur un multiple de l'écart-type (par exemple, 3)
seuil_sup = mean_val + 3 * std_dev
seuil_inf = mean_val - 3 * std_dev
# Éliminer les valeurs aberrantes des deux côtés de la moyenne
df_cleaned = df[(df['valeurs'] >= seuil_inf) & (df['valeurs'] <= seuil_sup)]
46
• Avantages:
• Facile à comprendre et à implémenter.
• Utilise la dispersion des données pour déterminer un seuil d'élimination des
valeurs aberrantes.
• Inconvénients:
• Peut ne pas être approprié pour les données qui ne suivent pas une distribution
normale.
• Les valeurs aberrantes extrêmes peuvent fausser la moyenne et l'écart-type,
affectant la détection.
• Bonnes Pratiques:
• Vérifiez la distribution des données avant d'appliquer cette méthode pour vous
assurer qu'elle est appropriée.
• Considérez d'utiliser une médiane et une déviation médiane absolue pour des
données non normalement distribuées.

47
6.Analyse de l'IQR : Identification des
Valeurs Aberrantes dans les Données
• Définition de l'IQR (Interquartile Range) :
L'IQR mesure la dispersion statistique et est la différence entre le 3e
quartile (Q3) et le 1er quartile (Q1).
Q1 représente la valeur médiane dans la première moitié des données.
Q3 représente la valeur médiane dans la seconde moitié des données.
Calcul de l'IQR :
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
48
• Détection des Valeurs Aberrantes :
Les valeurs aberrantes sont souvent définies comme des points de
données situés en dehors des limites inférieures et supérieures, calculées
comme suit :
• Limite inférieure = Q1 - 1.5 * IQR
• Limite supérieure = Q3 + 1.5 * IQR
• Toute donnée en dehors de ces limites est considérée comme
aberrante.

49
Pourquoi utiliser 1.5 * IQR ?
• Le facteur 1.5 est utilisé pour créer une marge permettant de distinguer
les valeurs modérément éloignées des valeurs extrêmement éloignées.
• Ce choix n'est pas strict et peut être ajusté en fonction de la nature des
données.

50
Avantages de l'IQR :
• Résistant aux valeurs aberrantes extrêmes.
• Fournit une mesure robuste de la dispersion des données.
Limitations de l'IQR :
• Peut ne pas bien fonctionner pour les distributions non symétriques.
• Peut identifier un grand nombre de valeurs aberrantes dans les grandes
ensembles de données.
• Application Pratique :
outliers = (data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))
51
7. Méthodes Robustes : MAD (Median
Absolute Deviation)
• Définition:
• La MAD est une mesure statistique de la dispersion autour de la
médiane. Elle est moins sensible aux valeurs aberrantes que l'écart-
type, ce qui la rend plus robuste.
• Formule:
• MAD = médiane(|Xᵢ - médiane(X)|)
• Où X représente l'ensemble des observations.
• Identification des valeurs aberrantes:
• Une valeur est considérée comme aberrante si elle s'écarte de la médiane plus
que k fois la MAD (où k est souvent pris autour de 2.5 à 3).
52
• Avantages:
• Robuste contre les valeurs extrêmes qui peuvent fausser la moyenne et l'écart-type.
• Adaptée aux distributions non symétriques et aux petits échantillons.
• Exemple en Python:
from scipy.stats import median_abs_deviation
mad = median_abs_deviation(data)
• Interprétation: Les scores MAD peuvent être utilisés pour créer un
"seuil" au-delà duquel une observation est considérée comme une valeur
aberrante.
• Application:
Particulièrement utile dans les domaines où la sécurité est critique, comme
dans l'ingénierie ou la finance, car elle minimise l'influence des données
potentiellement erronées.
53
Conclusion
• La gestion efficace des valeurs aberrantes est cruciale pour l'intégrité
des analyses statistiques. Les méthodes de détection, comme l'analyse
de l'écart interquartile ou l'utilisation de z-scores, permettent
d'identifier ces valeurs atypiques. Une fois détectées, il est essentiel de
choisir le traitement approprié, qui peut varier de l'ajustement à
l'exclusion, en fonction de la nature des données et de l'objectif de
l'étude. Cette démarche garantit la fiabilité des résultats et la validité
des conclusions tirées. Ainsi, le traitement des valeurs aberrantes est
un élément indispensable pour maintenir l'intégrité et la précision des
analyses statistiques.

54
INTRODUCTION :

Les données en science des données proviennent

de sources diverses, avec des échelles et des unités
différentes. Cette disparité rend difficile la
comparaison et l'analyse cohérente.

55
LA NORMALISATION ET LA
STANDARDISATION

La normalisation et la standardisation sont des

méthodes cruciales pour résoudre ce problème. Elles
visent à égaliser les échelles. assurant ainsi une base
homogène pour une analyse fiable.

56
1. LA
NORMALISATI
ON :

La normalisation est un processus qui vise à ajuster

les valeurs d'un jeu de données pour les mettre à l'échelle
dans une plage spécifique. L'objectif est de garantir que
toutes les variables contribuent de manière équitable à
l'analyse.

57
a) AVANTAGES DE NORMALISATION:

1. Comparaison équitable des échelles : permet de

comparer des variables qui ont des échelles différentes.

2. Amélioration de la convergence des algorithmes : aide

les algorithmes à converger plus rapidement.

3. Amélioration des performances des modèles : les

caractéristiques contribuent de manière équitable à la
mesure des distances. 58
i. La Méthode min-max scaling :

Le Min-Max Scaling est une méthode de

normalisation qui transforme les valeurs d'un ensemble de
données pour qu'elles tombent dans une plage spécifique,
généralement entre 0 et 1.

La formule de base pour le Min-Max Scaling est la suivante :

Xnorm=(X−min(X)) / ( max(X)−min(X) )

59
Avantages de la Méthode Min-Max Scaling :

Adaptabilité : Convient bien lorsque les données sont initialement dans

des plages diverses.

Facilité d'interprétation : Les valeurs normalisées sont intuitives, se

situant entre 0 et 1.

Maintien de la forme de distribution : Conserve la distribution

relative des données tout en les ajustant à une échelle commune.
60
IMPLEMENTATION DE LA METHODE PAR PYTHON :

61
CONCLUSION:

La méthode Min-Max Scaling rend les échelles des

caractéristiques équivalentes, favorisant une meilleure
interprétation, généralisation, et stabilité des modèles.

62
ii. La Méthode Z-Score
Normalization :

La Z-Score Normalization, également appelée standardisation, est une

méthode qui transforme nos données pour qu'elles aient une moyenne de
zéro et un écart type de un.

• Moyenne de Zéro : Xnorm=X−mean(X)

• Écart Type de Un : Xnorm=( X−mean(X))/ std(X)

63
Avantages de la Méthode Z-Score Normalization :

Comparabilité Améliorée : Facilite de comparaison , car elles sont

toutes mesurées en termes d'écart type.

Interprétation Facilitée : En transformant nos données en une

distribution normale, les valeurs deviennent plus intuitives à comprendre.

Réduction des Impacts des Valeurs Extrêmes : Conserve la

distribution relative des données tout en les ajustant à une échelle
commune.

64
IMPLEMENTATION DE LA METHODE PAR PYTHON :

65
1. STANDARDISA
TION:

La standardisation, est un processus visant à

transformer les données de telle manière qu'elles
présentent une moyenne de zéro et un écart type de un. En
d'autres termes, il s'agit de centrer les données autour de
zéro tout en les redimensionnant pour qu'elles aient une
dispersion uniforme.

66
a) AVANTAGES DE NORMALISATION:

1. Comparabilité des Caractéristiques : en éliminant les

différences d'échelle.

2. Stabilité des Algorithmes : En atténuant les impacts de

l'échelle des données.

3. Interprétation Facilitée : La standardisation simplifie

l'interprétation des modèles, notamment des modèles
linéaires 67
68
i. La Méthode Robust Scaling :

Cette méthode est utile lorsque les données

contiennent des valeurs aberrantes. Elle utilise la médiane
(Q2) et l'écart interquartile (Q3−Q1) au lieu de la moyenne
et de l'écart type.

69
Avantages de La Méthode Robust Scaling :

L'avantage principal du Robust Scaling réside

dans sa résilience face aux valeurs extrêmes. le Robust
Scaling utilise la médiane et le quartile plutôt que la
moyenne et l'écart type. Ainsi, il est moins influencé par
les valeurs aberrantes.

70
IMPLEMENTATION DE LA METHODE PAR PYTHON :

71
CONCLUSION:

La méthode Min-Max Scaling normalise les valeurs

pour les ajuster dans une plage spécifique, typiquement
entre 0 et 1. elle rend les échelles des caractéristiques
équivalentes, favorisant une meilleure interprétation,
généralisation, et stabilité des modèles.

72
ii. La Méthode Unit Vector
Transformation:

L'Unit Vector Transformation est une méthode de

standardisation qui transforme chaque observation de telle
sorte que sa norme euclidienne (longueur) soit égale à 1.
Cette méthode est souvent utilisée dans des contextes où la
direction des données est plus importante que leurs
amplitudes exactes.
73
Avantages de la Méthode Unit Vector
Transformation :

Conservation des Relations Angulaires : Préservation

des angles entre les vecteurs, maintient les relations directionnelles.

Adaptée à Certains Algorithmes : Avantageuse pour des

algorithmes axés sur la similarité ou les distances.

Réduction de la Sensibilité aux Échelles

Différentes : : Minimisation de la sensibilité aux échelles différentes
entre les variables. 74
PROCESSUS :
• Diviser chaque valeur de l'observation par la norme euclidienne
de l'ensemble de données.

• La norme euclidienne d'un vecteur XX est calculée comme la

racine carrée de la somme des carrés de ses composantes.

• Le résultat est une distribution où chaque observation a une

norme euclidienne de 1.
La formule de transformation pour une variable X est donnée par :
Xunit= X / ∥X∥
75
IMPLEMENTATION DE LA METHODE PAR PYTHON :

76
Comparaison des situations idéales pour
chaque technique :
1. LA NORMALISATION:
Situations idéales :
Lorsque les données ont des distributions
asymétriques ou non normales. Dans des modèles sensibles à
l'échelle des données.

Raisonnement :
La normalisation est particulièrement utile lorsque
l'écart entre les valeurs minimale et maximale dans un
ensemble de données est significatif 77
Comparaison des situations idéales pour
chaque technique :
1. LA STANDARDISATION:
Situations idéales :
Lorsque les données suivent une distribution
normale ou presque normale. Dans des modèles qui supposent
souvent que les caractéristiques sont centrées autour de zéro
(comme la régression linéaire).

Raisonnement :
La standardisation est préférée lorsque les données
ont une moyenne significative et un écart type qui peut être
important. 78
Comparaison des situations idéales pour
chaque technique :

K- Means Clustering :
Sensibilité à l'échelle des données : L'algorithme K- Means
repose sur la distance euclidienne entre les points pour déterminer les
clusters.

Impact de la normalisation : En normalisant les données, on

s'assure que toutes les variables contribuent de manière équitable à la
formation des clusters, car elles sont mises à la même échelle.

79
Comparaison des situations idéales pour
chaque technique :

Support Vector Machines (SVM) avec Noyau Radial :

Sensibilité à l'échelle des données : Les SVM avec un noyau

radial calculent la distance entre les points.

Impact de la standardisation : En standardisant les données, on

centre les variables autour de zéro avec un écart type de un. Cela
garantit que la distance est calculée de manière équilibrée.

80
CONCLUSION GENERALE :

En résumé, la normalisation et la standardisation sont des outils

essentiels en science des données, permettant d'homogénéiser les
données pour des analyses plus fiables. Ces techniques, qu'il s'agisse
de normaliser les plages de données ou de centrer la distribution
autour de zéro, améliorent la performance des modèles de machine
Learning.

81
LA GESTION DES DONNES
CATEGORIELLES :

La gestion des données catégorielles est cruciale en science des

données. Elle implique l'exploration, l'encodage adapté, la gestion
des catégories rares, et l'imputation des valeurs manquantes.
Combinée à la normalisation, elle assure la cohérence et la
comparabilité des données pour des modèles fiables.

82
LA GESTION DES DONNES
CATEGORIELLES :

Dans la gestion des données catégorielles, nous explorons

les distributions, utilisons l'encodage one-hot pour représenter les
catégories, gérons les catégories rares, et imputons les données
manquantes. Cette étape se combine harmonieusement avec la
normalisation des données. Ensemble, ces processus préparent les
données de manière optimale pour l'application efficace des modèles
d'apprentissage automatique.

83
LA GESTION DES DONNES
CATEGORIELLES :

L'encodage des données catégorielles vise à transformer les

variables catégorielles en une forme que les algorithmes
d'apprentissage automatique peuvent traiter efficacement. Deux
approches courantes sont le codage one-hot et le codage ordinal.

codage one-hot
codage ordinal

84
LA GESTION DES DONNES
CATEGORIELLES :
1. codage one-hot

Le codage one-hot représente les données catégorielles en

créant des colonnes binaires (0 ou 1) pour chaque catégorie de la
variable d'origine. Par exemple, une variable "Classe" avec les
catégories {"A", "B", "C"} générera trois colonnes, où une seule aura
la valeur 1 par ligne pour indiquer la catégorie de l'observation,
tandis que les autres auront la valeur 0.

85
LA GESTION DES DONNES
CATEGORIELLES :
1. codage one-hot
Avantages du codage one-hot :

• Préservation de l'information : Chaque colonne créée conserve

l'information sur la présence ou l'absence d'une catégorie.
• Interprétation facilitée : Les modèles résultants sont plus faciles à
interpréter .
• Évite le piège de la distance : Élimine les problèmes liés à la
distance euclidienne.

86
LA GESTION DES DONNES
CATEGORIELLES :
1. codage one-hot
Inconvénients du codage one-hot :

• Dimensionnalité accrue : Introduit un nombre élevé de

colonnes, ce qui peut entraîner une augmentation de la
dimensionnalité des données.
• Gestion des catégories rares : Peut conduire à des problèmes
liés aux catégories rares.
• Consommation de mémoire : La représentation en one-hot peut
occuper plus de mémoire que d'autres encodages.
87
IMPLEMENTATION DE LA METHODE PAR PYTHON :

88
LA GESTION DES DONNES
CATEGORIELLES :
2. codage ordinal

Le codage ordinal attribue des valeurs numériques aux

catégories des données catégorielles en tenant compte de leur
ordre. Par exemple, pour une variable "Taille" avec les catégories
{"Petit", "Moyen", "Grand"}, le codage ordinal pourrait utiliser
les valeurs {1, 2, 3}. Cela permet de représenter numériquement
les catégories tout en préservant l'information sur leur ordre.

89
LA GESTION DES DONNES
CATEGORIELLES :
2. codage ordinal
Avantages du codage ordinal :
• Conservation de l'ordre : Préserve l'ordre naturel entre les
catégories.
• Réduction de la complexité : Moins de colonnes générées par
rapport au codage one-hot.
• Moins de sensibilité au bruit : Le codage ordinal peut être moins
sensible aux variations mineures des catégories.

90
LA GESTION DES DONNES
CATEGORIELLES :
2. codage ordinal
Inconvénients du codage one-hot :

• Perte d'information : Ne tient pas compte des distances ou des

différences entre les catégories.

• Assumption d'intervalles égaux : Le codage ordinal suppose que

les intervalles entre les catégories sont égaux.

91
IMPLEMENTATION DE LA METHODE PAR PYTHON :

92
COMPARAISON ENTRE CES
DEUX METHODES :

1. Nature de la Variable :
1. One-Hot : Pour catégories sans ordre particulier.
2. Ordinal : Pour catégories avec un ordre significatif.
2. Nombre de Colonnes :
1. One-Hot : Plusieurs colonnes, une par catégorie.
2. Ordinal : Une seule colonne.

93
Transformation des données catégorielles en
variables num :

Pour intégrer des données catégorielles dans des modèles

d'apprentissage automatique, on peut les convertir en variables
num en utilisant des techniques comme le codage de fréquence.
Cette méthode remplace chaque catégorie par sa fréquence
d'occurrence dans l'ensemble des données, fournissant ainsi une
représentation numérique de l'importance de chaque catégorie.

94
Transformation des données catégorielles en
variables num :

Le codage de fréquence transforme une caractéristique

catégorielle comme "Couleur" avec les catégories "Rouge",
"Bleu" et "Vert" en valeurs numériques. Par exemple, si les
fréquences d'occurrence respectives sont 30%, 40%, et 30%, la
transformation serait :
"Rouge" → 0.3, "Bleu" → 0.4, "Vert" → 0.3.
Cela offre une représentation numérique utilisable dans les
modèles d'apprentissage automatique
95
IMPLEMENTATION DE LA METHODE PAR PYTHON :

96
CONCLUS
ION

Gérer efficacement les données catégorielles est

essentiel pour des modèles d'apprentissage automatique solides.
L'encodage adéquat garantit une représentation précise des
caractéristiques, tandis que la gestion des catégories rares évitent
les biais. Transformer les données en variables numériques
facilite leur intégration dans divers algorithmes, assurant des
analyses fiables et des modèles performants.
97
CONCLUSION
GENERALE
Normaliser et standardiser les données est crucial
pour garantir des échelles comparables et une convergence
efficace des modèles en science des données. Une gestion
appropriée des données catégorielles, avec des encodages
pertinents et la prise en compte des catégories rares. Ces étapes
de prétraitement assurent des analyses fiables et des modèles
performants.
98
Prétraitement des Données dans un Fichier CSV : Élimination des
Valeurs Aberrantes, Attribution des Valeurs Manquantes,
Normalisation, Suppression des Duplicatas et Gestion des Données
Catégorielles

99
Élimination des Valeurs Aberrantes

100
Attribution des Valeurs Manquantes

101
Normalisation

102
Gestion des Données Catégorielles

103
Suppression des Duplicatas

104
Sélection des données

105
Rappel Préliminaire sur la Sélection des Données dans
le Processus KDD et le Prétraitement
• La sélection des données constitue la quatrième étape dans le
processus de découverte de connaissances dans les bases de données
(KDD).
• Dans le processus de prétraitement des données, la sélection des
données intervient en dernière position, juste avant la phase de
datamining.
• La sélection des données représente la dernière étape cruciale avant
d'entrer dans la phase de datamining.

106
Définition de la Sélection des Données
La sélection des données englobe le processus méticuleux de choisir et
de filtrer les informations pertinentes parmi un ensemble plus large.
Cela va au-delà de la simple agrégation de données, impliquant une
compréhension approfondie du problème à résoudre et la prise de
décisions éclairées quant aux variables et aux échantillons à inclure.
En d'autres termes, c'est l'art de distiller la quintessence des données
pour en extraire la substance la plus significative.

107
Importance de la Sélection des Données
La qualité des résultats d'un projet de data science dépend directement
de la qualité des données utilisées. Des données mal sélectionnées
peuvent entraîner des conclusions erronées, des modèles inefficaces,
voire des décisions coûteuses. La sélection judicieuse des données
permet non seulement d'améliorer la précision des modèles, mais elle
contribue également à réduire le bruit, à accélérer les temps de
formation des modèles, et à rendre les résultats plus interprétables et
généralisables.

108
Objectifs
Cette section vise à approfondir notre compréhension de l'importance
capitale de la sélection des données dans le contexte de la prédiction
du montant du pourboire (tip). En utilisant la régression linéaire
multiple comme outil, avec l'appui de statsmodels.api et pandas en
Python, nous explorerons comment des choix judicieux dans la
sélection des caractéristiques du client et de la transaction influent
directement sur la précision de notre modèle de prédiction. L'objectif
ultime est de démontrer de manière tangible comment une sélection
de données stratégique peut renforcer la performance prédictive,
optimiser les résultats, et accroître la fiabilité de nos prévisions de
pourboires dans un contexte de données réelles
109
Avantages et Inconvénients des
Méthodes de Sélection des
Données pour la Prédiction du
Montant du Pourboire (Tip)
par la Régression Linéaire
Multiple
110
Corrélation Univariée :
• Avantage : Identifie les relations linéaires simples entre chaque
variable indépendante et la variable dépendante.
• Inconvénient : Ne capture pas les relations complexes et les
interactions entre plusieurs variables.
• Risque de Sous-estimation avec la Corrélation Univariée :
Exemple : Si une variable a une faible corrélation univariée mais
contribue significativement en combinaison avec d'autres variables,
elle peut être ignorée.

111
Analyse en Composantes Principales
(ACP) :
• Avantage : Réduit la dimensionnalité en combinant les variables tout
en préservant la variance maximale.
• Inconvénient : Les composantes principales peuvent ne pas être
facilement interprétables, et l'information spécifique à chaque
variable peut être perdue.
• Interprétation Complexifiée avec l'ACP :
Exemple : Lorsque plusieurs composantes principales sont impliquées, il
peut être difficile d'expliquer concrètement la signification de chaque
composante.

112
Méthodes de Sélection de Modèle
(Enveloppes) :
• Avantage : Évalue les performances du modèle avec différentes
combinaisons de variables, identifiant ainsi le modèle optimal.
• Inconvénient : Peut être coûteux en termes de ressources
computationnelles, surtout avec un grand nombre de variables.
• Complexité et Coût avec les Méthodes de Sélection de Modèle :
Exemple : La méthode "Forward Selection" peut être gourmande en
ressources si le nombre de variables est élevé.

113
Filtres Statistiques (p.ex., Test F) :
• Avantage : Évalue la significativité globale de l'ensemble des
variables.
• Inconvénient : Néglige les relations spécifiques entre les variables et
la variable dépendante.
• Limitation des Filtres Statistiques pour des Cas Spécifiques :
Exemple : Un filtre statistique peut ne pas être adapté pour des
données non linéaires, où des méthodes plus avancées peuvent être
nécessaires.

114
Utilisation de statsmodels.api et pandas de
Python pour l'Analyse de Régression
Linéaire Multiple sur
data_final_normalise_netoye_cat_gere.csv

115
Avant la sélection des données

116
Avant la sélection des données

117
Avant la sélection des données

118
Après sélection des données

119
Après sélection des données

120
Après sélection des données

121
Comparaison des performances avant et
après la sélection des données
• Avant la sélection des données (tipav), la prédiction est 0.4047580393250119.
• Après la sélection des données (tipap), la prédiction est 0.4102291465137762.
• Le vrai tip dans notre données réelles associées à la ligne 233 est
0.4440677966101695.
• Cela suggère que la sélection des données a contribué à améliorer la précision du
modèle, rendant les prédictions plus proches des valeurs réelles.

122
Conclusion
La sélection des données dans un projet de data science joue un rôle
essentiel dans la qualité et la fiabilité des résultats obtenus.

123
visualisation des données
avec Python et Matplotlib

La visualisation des données est un moyen de communiquer des données dans un

format visuel facile à comprendre et à interpréter.

124
Qu'est-ce que la visualisation de données ?

La visualisation des données est le processus d'affichage des données sous

forme graphique, généralement de manière qu’elles puissent être facilement
interprétées par le spectateur. L'objectif de la visualisation de données est de
présenter des informations complexes d'une manière facile à comprendre et à
interpréter.

125
Qu'est-ce que c’est Matplotlib?

• Matplotlib est une bibliothèque python pour la visualisation de données. Il peut

être utilisé pour créer des graphiques, des histogrammes, des spectres de
puissance, des diagrammes à barres, des diagrammes de dispersion, etc.
• Il fournit une grande variété de fonctions qui peuvent être utilisées pour
personnaliser les tracés.
• Cette bibliothèque est très populaire parmi les scientifiques des données et les
experts en apprentissage automatique car elle prend en charge toutes sortes
d'algorithmes d'analyse statistique et d'apprentissage automatique grâce à sa
fonctionnalité de traçage intégrée.

126
Pourquoi utiliser Matplotlib ? Les
avantages de Matplotlib.

• Les avantages de Matplotlib sont infinis, mais voici quelques raisons pour
lesquelles vous devriez utiliser Matplotlib dans votre prochain projet :
• C'est gratuit et open source;
• Simple et facile à prendre en main;
• Il a une large gamme de fonctionnalités;
• Vous pouvez changer votre style de tracé facilement.

127
Comment installer Matplotlib?

La façon la plus simple d’installer non seulement Panda, mais aussi Python et
ses bibliothèques les plus populaires (IPython, NumPy, Matplotlib, ...) est
d’utiliser Anaconda, une distribution Python multiplateforme (Linux, macOS,
Windows) pour l’analyse de données et le calcul scientifique. Vous pouvez vous
référer à l'article sur Pandas pour l'installation.

128
Démarrer avec JupyterLab

Pour démarrer avec JupyterLab, tapez sur votre terminal ❯ jupyter lab
patientez quelques secondes, Jupyter va ouvrir une nouvelle fenêtre de navigation
sur http://localhost:8888/lab.

129
Importer Pandas et Matplotlib

• Nous allons utiliser Pandas pour lire notre fichier csv et Matplotlib pour la
visualisation.
• Mais vous devez d'abord télécharger matplotlib par :
• !pip install matplotlib

130
l'installation de matplotlib

131
Ici, nous avons importé Pandas et Matplotlib, ensuite nous avons lu le
fichier et enfin afficher les 5 premières lignes. 132
Pylot : Pyplot est un module Matplotlib qui fournit une interface de type MATLAB.

Tracé linéaire : Line Plot dans Seaborn tracé à l’aide de la méthode lineplot() . En cela, nous ne pouvons
également transmettre que l’argument de données.

L’installation de seaborn : !pip install seaborn

133
Tracé linéaire

134
Graphique à barres
Bar Plot dans Seaborn peut être créé à l’aide de la méthode barplot() .

135
Nous pouvons ajouter un titre aussi.

136
Histogramme
L’histogramme dans Seaborn peut être tracé à l’aide de la fonction histplot() .

137
Tracer les résidus du modèle
Seaborn utilise: set_theme() , residplot()

138
conclusion
• En conclusion, la visualisation des données est essentielle car elle simplifie la
compréhension des informations, facilite la communication, identifie des modèles
et contribue à des prises de décision éclairées. Avec une variété d'outils
disponibles en Python, il est possible de créer des visualisations adaptées à divers
besoins, renforçant ainsi la valeur des données dans l'analyse et la communication.
• Matplotlib, c'est un outil très puissant avec d'autres bibliothèques intégrées. Pour
aller plus loin.

139

Vous aimerez peut-être aussi

IntroductionADD Partie 1
Pas encore d'évaluation
IntroductionADD Partie 1
20 pages
Prétraitement des Données Avancé
100% (2)
Prétraitement des Données Avancé
153 pages
Préparation Des Données-Chapitre2
Pas encore d'évaluation
Préparation Des Données-Chapitre2
27 pages
Support+du+cours+Mr +Ibourk+Jrs+1
Pas encore d'évaluation
Support+du+cours+Mr +Ibourk+Jrs+1
75 pages
4-Préparation Données
100% (1)
4-Préparation Données
55 pages
Analyse de Données
Pas encore d'évaluation
Analyse de Données
39 pages
Analyse des données en ingénierie
Pas encore d'évaluation
Analyse des données en ingénierie
26 pages
ADD Intro 2016-2017
Pas encore d'évaluation
ADD Intro 2016-2017
14 pages
Analyse des Données avec SPSS en L2
Pas encore d'évaluation
Analyse des Données avec SPSS en L2
68 pages
Traitement et Nettoyage des Données
Pas encore d'évaluation
Traitement et Nettoyage des Données
41 pages
Workflow de Préparation des Données
Pas encore d'évaluation
Workflow de Préparation des Données
34 pages
CH2 - Préparation Des Données
100% (1)
CH2 - Préparation Des Données
27 pages
Méthodes d'imputation des données manquantes
Pas encore d'évaluation
Méthodes d'imputation des données manquantes
66 pages
Python Chapt8
Pas encore d'évaluation
Python Chapt8
57 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
11 pages
Analyse Des Données
100% (5)
Analyse Des Données
36 pages
Statistique Inférentielle L3
Pas encore d'évaluation
Statistique Inférentielle L3
30 pages
Importation et analyse de données avec Pandas
Pas encore d'évaluation
Importation et analyse de données avec Pandas
85 pages
Analyse Descriptive en Business Intelligence
Pas encore d'évaluation
Analyse Descriptive en Business Intelligence
53 pages
Chapitre1 Add
Pas encore d'évaluation
Chapitre1 Add
26 pages
Leçon 1 WB
Pas encore d'évaluation
Leçon 1 WB
12 pages
Qualité des données et analyse fiable
Pas encore d'évaluation
Qualité des données et analyse fiable
17 pages
Introduction à l'analyse de données 2023
Pas encore d'évaluation
Introduction à l'analyse de données 2023
134 pages
Introduction à l'analyse de données
100% (1)
Introduction à l'analyse de données
109 pages
Traitement Des Valeurs Manquantes Et Aberrantes Avec Python
Pas encore d'évaluation
Traitement Des Valeurs Manquantes Et Aberrantes Avec Python
19 pages
Méthodes d'Analyse des Données Statistiques
Pas encore d'évaluation
Méthodes d'Analyse des Données Statistiques
14 pages
01introduction Au Data Mining
Pas encore d'évaluation
01introduction Au Data Mining
9 pages
Chap1-Introduction Au DataMining Sahbi
Pas encore d'évaluation
Chap1-Introduction Au DataMining Sahbi
47 pages
Analyse Exploratoire Des Donnéesfeuille de Route Complète Pour Les Données de Nettoyage
Pas encore d'évaluation
Analyse Exploratoire Des Donnéesfeuille de Route Complète Pour Les Données de Nettoyage
9 pages
Analyse de Donnes
Pas encore d'évaluation
Analyse de Donnes
41 pages
Analyse et Valorisation des Données
Pas encore d'évaluation
Analyse et Valorisation des Données
7 pages
CH2 - Préparation Des Données
Pas encore d'évaluation
CH2 - Préparation Des Données
27 pages
Collecte et Analyse des Données Quantitatives
Pas encore d'évaluation
Collecte et Analyse des Données Quantitatives
17 pages
Cours sur l'Analyse des Données
Pas encore d'évaluation
Cours sur l'Analyse des Données
46 pages
Analyse Des Données
Pas encore d'évaluation
Analyse Des Données
31 pages
Le Prétraitement Des Données Expliqué Simplement
Pas encore d'évaluation
Le Prétraitement Des Données Expliqué Simplement
7 pages
M1 RO - COURS 2 Pretraitement Des Données
Pas encore d'évaluation
M1 RO - COURS 2 Pretraitement Des Données
27 pages
Guide de l'Analyse de Données
Pas encore d'évaluation
Guide de l'Analyse de Données
70 pages
Chap2 Pretraitement Donnees
100% (1)
Chap2 Pretraitement Donnees
31 pages
Types et méthodes d'analyse de données
Pas encore d'évaluation
Types et méthodes d'analyse de données
7 pages
Statistiques de Base Pour L'analyse de Données
Pas encore d'évaluation
Statistiques de Base Pour L'analyse de Données
74 pages
IoT Et Big Data
Pas encore d'évaluation
IoT Et Big Data
11 pages
Techniques D'imputation
Pas encore d'évaluation
Techniques D'imputation
14 pages
Analyse Et Sécurité de Données Multimédia
Pas encore d'évaluation
Analyse Et Sécurité de Données Multimédia
35 pages
Exercice Évaluatif 2 - Révision de La Tentative
Pas encore d'évaluation
Exercice Évaluatif 2 - Révision de La Tentative
5 pages
Différentes Phases de L' Analyse
Pas encore d'évaluation
Différentes Phases de L' Analyse
3 pages
Cours 1 - Introduction ADD
Pas encore d'évaluation
Cours 1 - Introduction ADD
46 pages
Chapitre Introductif
Pas encore d'évaluation
Chapitre Introductif
11 pages
Prost at
Pas encore d'évaluation
Prost at
13 pages
Cours01 Introduction (1) Statistica
Pas encore d'évaluation
Cours01 Introduction (1) Statistica
17 pages
Collecte de Données
Pas encore d'évaluation
Collecte de Données
13 pages
Techniques de Data Mining et Weka
0% (1)
Techniques de Data Mining et Weka
24 pages
Outils d'Aide à la Prise de Décision
Pas encore d'évaluation
Outils d'Aide à la Prise de Décision
46 pages
Prétraitement des données sur R
Pas encore d'évaluation
Prétraitement des données sur R
12 pages
Introduction au Data Mining et Modélisation
Pas encore d'évaluation
Introduction au Data Mining et Modélisation
115 pages
Importation et analyse de données avec Pandas
Pas encore d'évaluation
Importation et analyse de données avec Pandas
18 pages
Variance Et Écart
Pas encore d'évaluation
Variance Et Écart
7 pages
Statistiques descriptives et échantillonnage
Pas encore d'évaluation
Statistiques descriptives et échantillonnage
63 pages
Guide sur la Collecte et Gestion des Données
Pas encore d'évaluation
Guide sur la Collecte et Gestion des Données
139 pages
Prétraitement Des Données
Pas encore d'évaluation
Prétraitement Des Données
35 pages
Types et échelles de variables statistiques
Pas encore d'évaluation
Types et échelles de variables statistiques
16 pages
PSY1004 Annexe6-SPSS
Pas encore d'évaluation
PSY1004 Annexe6-SPSS
72 pages
Optimisation du report topographique ferroviaire
Pas encore d'évaluation
Optimisation du report topographique ferroviaire
7 pages
Cours MSP Chapitre 3
100% (1)
Cours MSP Chapitre 3
45 pages
Analyse de données avec R : Cours complet
Pas encore d'évaluation
Analyse de données avec R : Cours complet
88 pages
Cours de Data Mining : Métier et Données
Pas encore d'évaluation
Cours de Data Mining : Métier et Données
57 pages
CM M1 BTAS Biostatistique 2026
Pas encore d'évaluation
CM M1 BTAS Biostatistique 2026
67 pages
Combinaison Des Modeles de Prévision Des Série Temporelles
Pas encore d'évaluation
Combinaison Des Modeles de Prévision Des Série Temporelles
26 pages
PL-300-Master-Cheat-Sheet FR
Pas encore d'évaluation
PL-300-Master-Cheat-Sheet FR
19 pages
Géostatistiques : Analyse et Visualisation des Données
Pas encore d'évaluation
Géostatistiques : Analyse et Visualisation des Données
55 pages
Économétrie : Spécification et Données
Pas encore d'évaluation
Économétrie : Spécification et Données
19 pages
Méthode de calcul de capabilités non gaussiennes
Pas encore d'évaluation
Méthode de calcul de capabilités non gaussiennes
39 pages
Vocabulaire
Pas encore d'évaluation
Vocabulaire
4 pages
Chimiométrie : Science des Données Chimiques
Pas encore d'évaluation
Chimiométrie : Science des Données Chimiques
22 pages
Cours-Traitement Des Donnees
Pas encore d'évaluation
Cours-Traitement Des Donnees
19 pages
Cours 5
Pas encore d'évaluation
Cours 5
61 pages
1coursintroduction PDF
Pas encore d'évaluation
1coursintroduction PDF
28 pages

Guide sur la Collecte et Gestion des Données

Transféré par

Guide sur la Collecte et Gestion des Données

Transféré par

COLLECTE DE DONNÉES

Haute précision des Plus de ressources

Données primaires Données secondaires

• Prise de conscience collective, surtout des entreprises, de la valeur

1. Il vous faut des donnees.

2. Vous deverez savoir ce que vous voulez faire.

Abandon des données manquantes :

•‘add_indicato’r : crée une colonne indiquant les données absentes (1) ou

Où X est une observation, μ est la moyenne des données, et σ est l'écart-

• Concept: Le LOF est une technique de détection d'anomalies qui repose

Les données en science des données proviennent

La normalisation et la standardisation sont des

La normalisation est un processus qui vise à ajuster

1. Comparaison équitable des échelles : permet de

2. Amélioration de la convergence des algorithmes : aide

3. Amélioration des performances des modèles : les

Le Min-Max Scaling est une méthode de

La formule de base pour le Min-Max Scaling est la suivante :

Adaptabilité : Convient bien lorsque les données sont initialement dans

Facilité d'interprétation : Les valeurs normalisées sont intuitives, se

Maintien de la forme de distribution : Conserve la distribution

La méthode Min-Max Scaling rend les échelles des

La Z-Score Normalization, également appelée standardisation, est une

• Moyenne de Zéro : Xnorm​=X−mean(X)

• Écart Type de Un : Xnorm​=( X−mean(X)​)/ std(X)

Comparabilité Améliorée : Facilite de comparaison , car elles sont

Interprétation Facilitée : En transformant nos données en une

Réduction des Impacts des Valeurs Extrêmes : Conserve la

La standardisation, est un processus visant à

1. Comparabilité des Caractéristiques : en éliminant les

2. Stabilité des Algorithmes : En atténuant les impacts de

3. Interprétation Facilitée : La standardisation simplifie

Cette méthode est utile lorsque les données

L'avantage principal du Robust Scaling réside

La méthode Min-Max Scaling normalise les valeurs

L'Unit Vector Transformation est une méthode de

Conservation des Relations Angulaires : Préservation

Adaptée à Certains Algorithmes : Avantageuse pour des

Réduction de la Sensibilité aux Échelles

• La norme euclidienne d'un vecteur XX est calculée comme la

• Le résultat est une distribution où chaque observation a une

Impact de la normalisation : En normalisant les données, on

Support Vector Machines (SVM) avec Noyau Radial :

Sensibilité à l'échelle des données : Les SVM avec un noyau

Impact de la standardisation : En standardisant les données, on

En résumé, la normalisation et la standardisation sont des outils

La gestion des données catégorielles est cruciale en science des

Dans la gestion des données catégorielles, nous explorons

L'encodage des données catégorielles vise à transformer les

Le codage one-hot représente les données catégorielles en

• Préservation de l'information : Chaque colonne créée conserve

• Dimensionnalité accrue : Introduit un nombre élevé de

Le codage ordinal attribue des valeurs numériques aux

• Perte d'information : Ne tient pas compte des distances ou des

• Assumption d'intervalles égaux : Le codage ordinal suppose que

Pour intégrer des données catégorielles dans des modèles

Le codage de fréquence transforme une caractéristique

Gérer efficacement les données catégorielles est

La visualisation des données est un moyen de communiquer des données dans un

La visualisation des données est le processus d'affichage des données sous

• Matplotlib est une bibliothèque python pour la visualisation de données. Il peut

L’installation de seaborn : !pip install seaborn

Vous aimerez peut-être aussi

• Moyenne de Zéro : Xnorm=X−mean(X)

• Écart Type de Un : Xnorm=( X−mean(X))/ std(X)