0% ont trouvé ce document utile (0 vote)
22 vues44 pages

3

Transféré par

mohamed Sabbar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues44 pages

3

Transféré par

mohamed Sabbar
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

❑ Introduction

❑ Qualité de données
❑ Importance de la préparation de données
❑ Caractéristiques des données
❑ Stratégies pour la préparation de données
Les bases de données réelles sont fortement
influencées par des facteurs négatifs tels que la
présence du bruit, des valeurs manquantes, des
données incohérentes et superflues...
Une décision de qualité doit être basée sur des
données de bonne qualité!

Nécessité d’une préparation de données


basée sur des stratégies bien conçues
Précision

Qualité des données

Complétude Consistance
Les données du monde réel ont tendance à être :
❑incomplètes,
❑Bruyantes,
❑Incohérentes,
❑Superflues,
❑….
Sources
❑ capteurs défectueux
❑ erreurs dans le traitement manuel des données
❑ erreurs de stockage / transmission
❑ problèmes d'encodage, formats de fichiers mal interprétés
❑ ……
Remède simple
❑ supprimer des points de données en dehors d'un
intervalle donné
✓ cela nécessite une certaine connaissance du
domaine
❑ Exemples
❑ supprimer les valeurs de température en dehors
de -30 et +50 ° C
❑ supprimer les durées négatives
❑ supprimer les achats supérieurs à 1 million
d'euros
Pour illustrer l’importance de ces problèmes, considérez la
situation suivante.

05 232 34,5 1 10,7


020 210 18 0 200,2
029 150 20 0 300
039 198 29 2 123
Le prétraitement des données tente de corriger les
problèmes relatifs aux données manquantes, au bruit ….

Les analyses effectuées sur des données non traitées


peuvent conduire à des conclusions et des interprétations
erronées.
Nettoyage

Intégration

Réduction

Transformation
❑ Ignorer l’enregistrement (le point)
➢ Problème : les autres attributs ne seront pas utilisés
❑ Remplir manuellement la valeur manquante:
➢ en général, cette approche prend du temps et peut ne
pas être faisable étant donné un grand ensemble de
données avec de nombreuses valeurs manquantes.
❑ Utiliser une constante globale pour remplir la valeur
manquante:
➢ remplacer toutes les valeurs d'attribut manquantes par
la même constante.
❑ Utilisez une mesure de tendance centrale pour l'attribut
(par exemple, la moyenne ou la médiane)
❑ Utiliser la moyenne ou la médiane pour tous les points
appartenant à la même classe.
➢ Exemple : si nous classons les clients en fonction du risque de
crédit, nous pouvons remplacer la valeur manquante de l’attribut
revenu par la valeur moyenne des revenus des clients de la
même catégorie de risque de crédit.
❑ Utiliser la valeur la plus probable pour remplir la valeur
manquante:
➢ La valeur peut être déterminée en utilisant la régression, des
outils basés sur l'inférence bayésien ou l'induction d'arbre de
décision.
❑ Le bruit : est une erreur aléatoire dans une variable mesurée.
❑ Lissage des données
➢ Binning : est une technique de lissage des données classées en
consultant les valeurs des points voisins. Les données triées sont
distribuées dans un ensemble de bins. Les valeurs dans chaque
bin sont remplacées par une même valeur:
➢ Le bining par moyenne (smoothing by bin mean) consiste à
remplacer les valeurs de chaque bin par la valeur moyenne.
➢ Le bining par médiane (smoothing by bin median) consiste à
remplacer les valeurs de chaque bin par la médiane.
➢ Le binning par bords (smoothing by bin boundaries) consiste
à trouver la valeur minimale et maximale de chaque bin puis
remplacer chaque valeur par la borne la plus proche.
Partitionnement en bins de même taille :
24, 28, 15, 21, 34, 4, 25, 8, 21 → 4, 8, 15, 21, 21, 24, 25, 28, 34

Bin 1: 4, 8, 15
Bin 2: 21, 21, 24
Bin 3: 25, 28, 34

Binning par la moyenne (Smoothing by bin means):


Bin 1: 9, 9, 9
Bin 2: 22, 22, 22
Bin 3: 29, 29, 29

Bininng par les bords du bac (Smoothing by bin boundaries):


Bin 1: 4, 4, 15
Bin 2: 21, 21, 24
Bin 3: 25, 25, 34
❑ dentification et suppression des valeurs aberrantes
et bruitées
❑ Par clustering: Après avoir regrouper les valeurs en
clusters
❑ Par régression : Lissage des données par rapport à
la fonction de régression.
❑ Le data mining nécessite parfois l’intégration des données de
plusieurs sources. Une intégration soigneuse permet d’éviter des
problèmes de redondance et d’inconsistance des données.

❑ La redondance : un attribut est redondant s’il peut être dérivé d’un


ou plusieurs autres attributs.
❑ La redondance peut être aussi causée par l’inconsistance des
noms des attributs.

❑ La redondance peut être détectée par une étude de


corrélation entre les variables. Pour les variables
catégorielles, la corrélation est étudiée en utilisant le test de
2 et en utilisant le coefficient de corrélation et la covariance
pour les variables continues.
❑ Test de corrélation pour les variables nominales.
❑ La corrélation entre deux attributs nominales peut être
analysée en utilisant le test de 2.
❑ Soient A et B deux attributs nominaux où a1, …..,ac sont les
différentes modalités de A et b1,…….,br sont les modalités
de B.
❑ Les exemples décrits par A et B peuvent être représentés
par une table de continence. Chaque évènement
(A=ai,B=bj) occupe une cellule dans la table de
contingence. A
a1 a2 a3 a4
b1
b2
B
b3
b4
❑ Test de corrélation pour les variables nominales.
(𝑂𝑖𝑗 −𝑓𝑖𝑗 )2
❑ 2 = σ𝑟𝑖=1 σ𝑟𝑗=1
𝑓𝑖𝑗
Où Oij est la fréquence observée et fij est la fréquence théorique calculée
par la formule suivante
𝑂𝑖.× 𝑂. 𝑗 𝑐𝑜𝑢𝑛𝑡(𝐴 = 𝑎𝑖) × 𝑐𝑜𝑢𝑛𝑡(𝐵 = 𝑏𝑗)
𝑓𝑖𝑗 = =
𝑛 𝑛
Sex
homme femme
Genre Fiction 250 200
du film Non 50 1000

Appliquer le test de 2 sur la table de contingence ci-dessus


❑ Test de corrélation pour les variables nominales.
(𝑂𝑖𝑗 −𝑓𝑖𝑗 )2
❑ 2 = σ𝑟𝑖=1 σ𝑐𝑗=1
𝑓𝑖𝑗
Sex Sex
homme femme total homme femme total
Genre Fiction 250 200 450 Genre Fiction 90 360 450
du film Non 50 1000 1050 du film Non 210 840 1050
Total 300 1200 1500 Total 300 1200 1500

𝑟 𝑐
(𝑂𝑖𝑗 − 𝑓𝑖𝑗 )2 (250 − 90)2 (200 − 360)2 (50 − 210)2 (1000 − 840)2
2 = ෍ ෍ = + + + = 507,93
𝑓𝑖𝑗 90 360 210 840
𝑖=1 𝑗=1
❑ Test de corrélation pour les variables nominales.
2 = 507,93

L’hypothèse d’indépendance est rejetée. Les deux variables sont fortement corrélées
❑ Test de corrélation pour les variables continues.
❑ On peut mesurer la corrélation entre deux variables
continues en utilisant le coefficient de corrélation.

σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)

𝑟𝑥,𝑦 =
𝑛𝜎𝑥 𝜎𝑦
𝑐𝑜𝑣(𝑥, 𝑦)
𝑟𝑥,𝑦 =
𝜎𝑥 𝜎𝑦

−1 ≤ 𝑟𝑥,𝑦 ≤ 1
❑ Utiliser uniquement les attributs utilies
❑ Variable nominale :
▪ Supprimer les variables nominales ayant plus de p%
valeurs identiques.
▪ Exemple : millionnaire = false
▪ Supprimer les variables nominales ayant plus de p%
valeurs distincts.
▪ Exemple : nom, ID ….
❑ Variable continue :
▪ Supprimer les variables continues ayant une faible
variation.
Des techniques de réduction de données peuvent être
appliquées pour obtenir une représentation réduite de
l'ensemble de données, tout en maintenant étroitement
l'intégrité des données d'origine.
❑ Réduction de dimensionnalité : est le processus de
réduction des attributs (des variables) en utilisant la
transformation en ondelette ou l’analyse en composantes
principales.
Réduction de numérosité : consiste à remplacer le volume de
données d'origine par des formes de représentation alternatives plus
petites:
❑ Méthodes paramétriques : remplacer les données par
des modèles qui permettent de les estimer (seul les
paramètres sont enregistrés), tels que la régression.
❑ Méthodes non-paramétriques : utiliser une représentation
réduite des données telles que l’histogramme, clustering
…..
❑ Normalisation : La normalisation des données permet de donner
à tous les attributs un poids égal.

❑ Min-max normalisation :

𝑣𝑖 − 𝑚𝑖𝑛𝐴
𝑣𝑖 = 𝑚𝑎𝑥 ′ − 𝑚𝑖𝑛′ + 𝑚𝑖𝑛′
𝑚𝑎𝑥𝐴 − 𝑚𝑖𝑛𝐴
❑ Normalisation :

𝑣𝑖 − 𝑣ҧ
𝑣′𝑖 =
𝜎𝑣
❑ Parfois, les attributs des données d'origine contiennent les
informations nécessaires, mais elles ne sont pas sous une forme

adaptée à l'algorithme utilisé.


▪ Certains algorithmes ne peuvent pas traiter des variables
continues
▪ d’autres ne peuvent pas traiter les variables nominales

❑ Solutions
▪ convertir les variables nominales en variables continues
▪ convertir les variables continues en variables nominales
❑ Conversion binaire → numérique
▪ Remplacer les deux modalités de la variable nominales par les
valeurs 0 et 1.
▪ Exemple : étudiant :oui/non → étudiant 0/1

❑ Conversion ordinale → numérique


▪ Certaines variables nominales sont ordonnées (exemple : grade).
▪ Remplacer les modalités par des variables numériques
conservant l’ordre.
▪ Exemple :
▪ A→1
▪ B → 1.5
▪ A→2
❑ Conversion nominale → numérique
▪ Pour chaque modalité, créer une variable qui prend la valeur 0
si la modalité est absente et la valeur 1 dans le cas contraire.
▪ Exemple :

ID Couleur ID C_Rouge C_Vert C_Bleu


1 Rouge 1 1 0 0
2 Vert 2 0 1 0
3 Bleu 3 0 0 1
❑ Discrétisation : même largeur
❑ Discrétisation : même hauteur
❑ Exemple :
❑ Apprentissage d’un modèle qui reconnait le VIH en se basant
sur un ensemble de symptômes.
❑ Dataset :
Ensemble de patients testés
❑ Distribution des classes :
▪ 99,99% négatifs
▪ 0,01% positifs
❑ L’acuracy du modèle est très grande
▪ 99,9%
▪ …..mais le rappel et la précision sont nuls sur la classe
d’intéret.
❑ Solution
▪ Rééquilibrer la base d’apprentissage
▪ Laisser la base d’apprentissage sans changement
❑ Ré-échantillonnage de données non équilibrées :
❑ Deux objectifs contradictoire :
1. utiliser autant de données d'entraînement que
possible
2. Utiliser des données d'entraînement aussi diverses
que possible
❑ Stratégies
▪ Sous-échantillonnage de la classe la plus grande
(conflit avec l'objectif 1).
▪ Sur-échantillonnage de la classe la plus petite
(conflit avec l'objectif 2).
❑ Ré-échantillonnage de données non équilibrées
(exemple) :
❑ 1000 individus de la classe A
❑ 10 individus de la classe B
❑ Sous-échantillonage de la classe A
▪ Ne pas utiliser 990 individus
❑ Sur-échantillonage de la classe B
▪ Dupliquer chaque exemple de la classe B
100 fois.
❑ SMOTE (Synthetic Minority Over Sampling Technique)
❑ Créer des exemples synthétiques pour la classe
minoritaire.
❑ Etant donné un exemple x
❑ Créer un exemple synthétique e
❑ Choisir un exemple z parmi les k plus proches
voisins dans la même classe que x
❑ Pour chaque attribut a
❑ 𝑒. 𝑎 ← 𝑥. 𝑎 + 𝑟𝑎𝑛𝑑(0,1) ∗ (𝑧. 𝑎 – 𝑥. 𝑎)

Vous aimerez peut-être aussi