3

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

22 vues44 pages

3

Transféré par

mohamed Sabbar

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

❑ Introduction

❑ Qualité de données
❑ Importance de la préparation de données
❑ Caractéristiques des données
❑ Stratégies pour la préparation de données
Les bases de données réelles sont fortement
influencées par des facteurs négatifs tels que la
présence du bruit, des valeurs manquantes, des
données incohérentes et superflues...
Une décision de qualité doit être basée sur des
données de bonne qualité!

Nécessité d’une préparation de données

basée sur des stratégies bien conçues
Précision

Qualité des données

Complétude Consistance
Les données du monde réel ont tendance à être :
❑incomplètes,
❑Bruyantes,
❑Incohérentes,
❑Superflues,
❑….
Sources
❑ capteurs défectueux
❑ erreurs dans le traitement manuel des données
❑ erreurs de stockage / transmission
❑ problèmes d'encodage, formats de fichiers mal interprétés
❑ ……
Remède simple
❑ supprimer des points de données en dehors d'un
intervalle donné
✓ cela nécessite une certaine connaissance du
domaine
❑ Exemples
❑ supprimer les valeurs de température en dehors
de -30 et +50 ° C
❑ supprimer les durées négatives
❑ supprimer les achats supérieurs à 1 million
d'euros
Pour illustrer l’importance de ces problèmes, considérez la
situation suivante.

05 232 34,5 1 10,7

020 210 18 0 200,2
029 150 20 0 300
039 198 29 2 123
Le prétraitement des données tente de corriger les
problèmes relatifs aux données manquantes, au bruit ….

Les analyses effectuées sur des données non traitées

peuvent conduire à des conclusions et des interprétations
erronées.
Nettoyage

Intégration

Réduction

Transformation
❑ Ignorer l’enregistrement (le point)
➢ Problème : les autres attributs ne seront pas utilisés
❑ Remplir manuellement la valeur manquante:
➢ en général, cette approche prend du temps et peut ne
pas être faisable étant donné un grand ensemble de
données avec de nombreuses valeurs manquantes.
❑ Utiliser une constante globale pour remplir la valeur
manquante:
➢ remplacer toutes les valeurs d'attribut manquantes par
la même constante.
❑ Utilisez une mesure de tendance centrale pour l'attribut
(par exemple, la moyenne ou la médiane)
❑ Utiliser la moyenne ou la médiane pour tous les points
appartenant à la même classe.
➢ Exemple : si nous classons les clients en fonction du risque de
crédit, nous pouvons remplacer la valeur manquante de l’attribut
revenu par la valeur moyenne des revenus des clients de la
même catégorie de risque de crédit.
❑ Utiliser la valeur la plus probable pour remplir la valeur
manquante:
➢ La valeur peut être déterminée en utilisant la régression, des
outils basés sur l'inférence bayésien ou l'induction d'arbre de
décision.
❑ Le bruit : est une erreur aléatoire dans une variable mesurée.
❑ Lissage des données
➢ Binning : est une technique de lissage des données classées en
consultant les valeurs des points voisins. Les données triées sont
distribuées dans un ensemble de bins. Les valeurs dans chaque
bin sont remplacées par une même valeur:
➢ Le bining par moyenne (smoothing by bin mean) consiste à
remplacer les valeurs de chaque bin par la valeur moyenne.
➢ Le bining par médiane (smoothing by bin median) consiste à
remplacer les valeurs de chaque bin par la médiane.
➢ Le binning par bords (smoothing by bin boundaries) consiste
à trouver la valeur minimale et maximale de chaque bin puis
remplacer chaque valeur par la borne la plus proche.
Partitionnement en bins de même taille :
24, 28, 15, 21, 34, 4, 25, 8, 21 → 4, 8, 15, 21, 21, 24, 25, 28, 34

Bin 1: 4, 8, 15
Bin 2: 21, 21, 24
Bin 3: 25, 28, 34

Binning par la moyenne (Smoothing by bin means):

Bin 1: 9, 9, 9
Bin 2: 22, 22, 22
Bin 3: 29, 29, 29

Bininng par les bords du bac (Smoothing by bin boundaries):

Bin 1: 4, 4, 15
Bin 2: 21, 21, 24
Bin 3: 25, 25, 34
❑ dentification et suppression des valeurs aberrantes
et bruitées
❑ Par clustering: Après avoir regrouper les valeurs en
clusters
❑ Par régression : Lissage des données par rapport à
la fonction de régression.
❑ Le data mining nécessite parfois l’intégration des données de
plusieurs sources. Une intégration soigneuse permet d’éviter des
problèmes de redondance et d’inconsistance des données.

❑ La redondance : un attribut est redondant s’il peut être dérivé d’un

ou plusieurs autres attributs.
❑ La redondance peut être aussi causée par l’inconsistance des
noms des attributs.

❑ La redondance peut être détectée par une étude de

corrélation entre les variables. Pour les variables
catégorielles, la corrélation est étudiée en utilisant le test de
2 et en utilisant le coefficient de corrélation et la covariance
pour les variables continues.
❑ Test de corrélation pour les variables nominales.
❑ La corrélation entre deux attributs nominales peut être
analysée en utilisant le test de 2.
❑ Soient A et B deux attributs nominaux où a1, …..,ac sont les
différentes modalités de A et b1,…….,br sont les modalités
de B.
❑ Les exemples décrits par A et B peuvent être représentés
par une table de continence. Chaque évènement
(A=ai,B=bj) occupe une cellule dans la table de
contingence. A
a1 a2 a3 a4
b1
b2
B
b3
b4
❑ Test de corrélation pour les variables nominales.
(𝑂𝑖𝑗 −𝑓𝑖𝑗 )2
❑ 2 = σ𝑟𝑖=1 σ𝑟𝑗=1
𝑓𝑖𝑗
Où Oij est la fréquence observée et fij est la fréquence théorique calculée
par la formule suivante
𝑂𝑖.× 𝑂. 𝑗 𝑐𝑜𝑢𝑛𝑡(𝐴 = 𝑎𝑖) × 𝑐𝑜𝑢𝑛𝑡(𝐵 = 𝑏𝑗)
𝑓𝑖𝑗 = =
𝑛 𝑛
Sex
homme femme
Genre Fiction 250 200
du film Non 50 1000

Appliquer le test de 2 sur la table de contingence ci-dessus

❑ Test de corrélation pour les variables nominales.
(𝑂𝑖𝑗 −𝑓𝑖𝑗 )2
❑ 2 = σ𝑟𝑖=1 σ𝑐𝑗=1
𝑓𝑖𝑗
Sex Sex
homme femme total homme femme total
Genre Fiction 250 200 450 Genre Fiction 90 360 450
du film Non 50 1000 1050 du film Non 210 840 1050
Total 300 1200 1500 Total 300 1200 1500

𝑟 𝑐
(𝑂𝑖𝑗 − 𝑓𝑖𝑗 )2 (250 − 90)2 (200 − 360)2 (50 − 210)2 (1000 − 840)2
2 = ෍ ෍ = + + + = 507,93
𝑓𝑖𝑗 90 360 210 840
𝑖=1 𝑗=1
❑ Test de corrélation pour les variables nominales.
2 = 507,93

L’hypothèse d’indépendance est rejetée. Les deux variables sont fortement corrélées
❑ Test de corrélation pour les variables continues.
❑ On peut mesurer la corrélation entre deux variables
continues en utilisant le coefficient de corrélation.

σ𝑛𝑖=1(𝑥𝑖 − 𝑥)(𝑦
ҧ 𝑖 − 𝑦)
ത
𝑟𝑥,𝑦 =
𝑛𝜎𝑥 𝜎𝑦
𝑐𝑜𝑣(𝑥, 𝑦)
𝑟𝑥,𝑦 =
𝜎𝑥 𝜎𝑦

−1 ≤ 𝑟𝑥,𝑦 ≤ 1
❑ Utiliser uniquement les attributs utilies
❑ Variable nominale :
▪ Supprimer les variables nominales ayant plus de p%
valeurs identiques.
▪ Exemple : millionnaire = false
▪ Supprimer les variables nominales ayant plus de p%
valeurs distincts.
▪ Exemple : nom, ID ….
❑ Variable continue :
▪ Supprimer les variables continues ayant une faible
variation.
Des techniques de réduction de données peuvent être
appliquées pour obtenir une représentation réduite de
l'ensemble de données, tout en maintenant étroitement
l'intégrité des données d'origine.
❑ Réduction de dimensionnalité : est le processus de
réduction des attributs (des variables) en utilisant la
transformation en ondelette ou l’analyse en composantes
principales.
Réduction de numérosité : consiste à remplacer le volume de
données d'origine par des formes de représentation alternatives plus
petites:
❑ Méthodes paramétriques : remplacer les données par
des modèles qui permettent de les estimer (seul les
paramètres sont enregistrés), tels que la régression.
❑ Méthodes non-paramétriques : utiliser une représentation
réduite des données telles que l’histogramme, clustering
…..
❑ Normalisation : La normalisation des données permet de donner
à tous les attributs un poids égal.

❑ Min-max normalisation :
′
𝑣𝑖 − 𝑚𝑖𝑛𝐴
𝑣𝑖 = 𝑚𝑎𝑥 ′ − 𝑚𝑖𝑛′ + 𝑚𝑖𝑛′
𝑚𝑎𝑥𝐴 − 𝑚𝑖𝑛𝐴
❑ Normalisation :

𝑣𝑖 − 𝑣ҧ
𝑣′𝑖 =
𝜎𝑣
❑ Parfois, les attributs des données d'origine contiennent les
informations nécessaires, mais elles ne sont pas sous une forme

adaptée à l'algorithme utilisé.

▪ Certains algorithmes ne peuvent pas traiter des variables
continues
▪ d’autres ne peuvent pas traiter les variables nominales

❑ Solutions
▪ convertir les variables nominales en variables continues
▪ convertir les variables continues en variables nominales
❑ Conversion binaire → numérique
▪ Remplacer les deux modalités de la variable nominales par les
valeurs 0 et 1.
▪ Exemple : étudiant :oui/non → étudiant 0/1

❑ Conversion ordinale → numérique

▪ Certaines variables nominales sont ordonnées (exemple : grade).
▪ Remplacer les modalités par des variables numériques
conservant l’ordre.
▪ Exemple :
▪ A→1
▪ B → 1.5
▪ A→2
❑ Conversion nominale → numérique
▪ Pour chaque modalité, créer une variable qui prend la valeur 0
si la modalité est absente et la valeur 1 dans le cas contraire.
▪ Exemple :

ID Couleur ID C_Rouge C_Vert C_Bleu

1 Rouge 1 1 0 0
2 Vert 2 0 1 0
3 Bleu 3 0 0 1
❑ Discrétisation : même largeur
❑ Discrétisation : même hauteur
❑ Exemple :
❑ Apprentissage d’un modèle qui reconnait le VIH en se basant
sur un ensemble de symptômes.
❑ Dataset :
Ensemble de patients testés
❑ Distribution des classes :
▪ 99,99% négatifs
▪ 0,01% positifs
❑ L’acuracy du modèle est très grande
▪ 99,9%
▪ …..mais le rappel et la précision sont nuls sur la classe
d’intéret.
❑ Solution
▪ Rééquilibrer la base d’apprentissage
▪ Laisser la base d’apprentissage sans changement
❑ Ré-échantillonnage de données non équilibrées :
❑ Deux objectifs contradictoire :
1. utiliser autant de données d'entraînement que
possible
2. Utiliser des données d'entraînement aussi diverses
que possible
❑ Stratégies
▪ Sous-échantillonnage de la classe la plus grande
(conflit avec l'objectif 1).
▪ Sur-échantillonnage de la classe la plus petite
(conflit avec l'objectif 2).
❑ Ré-échantillonnage de données non équilibrées
(exemple) :
❑ 1000 individus de la classe A
❑ 10 individus de la classe B
❑ Sous-échantillonage de la classe A
▪ Ne pas utiliser 990 individus
❑ Sur-échantillonage de la classe B
▪ Dupliquer chaque exemple de la classe B
100 fois.
❑ SMOTE (Synthetic Minority Over Sampling Technique)
❑ Créer des exemples synthétiques pour la classe
minoritaire.
❑ Etant donné un exemple x
❑ Créer un exemple synthétique e
❑ Choisir un exemple z parmi les k plus proches
voisins dans la même classe que x
❑ Pour chaque attribut a
❑ 𝑒. 𝑎 ← 𝑥. 𝑎 + 𝑟𝑎𝑛𝑑(0,1) ∗ (𝑧. 𝑎 – 𝑥. 𝑎)

Vous aimerez peut-être aussi

Cours Data Mining
Pas encore d'évaluation
Cours Data Mining
60 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
11 pages
Leçon 1 WB
Pas encore d'évaluation
Leçon 1 WB
12 pages
M1 RO - COURS 2 Pretraitement Des Données
Pas encore d'évaluation
M1 RO - COURS 2 Pretraitement Des Données
27 pages
Techniques de Data Mining et Weka
0% (1)
Techniques de Data Mining et Weka
24 pages
01introduction Au Data Mining
Pas encore d'évaluation
01introduction Au Data Mining
9 pages
Cours de Data Mining - 3
Pas encore d'évaluation
Cours de Data Mining - 3
19 pages
Data Mining et Machine Learning
Pas encore d'évaluation
Data Mining et Machine Learning
34 pages
CH2 - Préparation Des Données
100% (1)
CH2 - Préparation Des Données
27 pages
Chap2 4 1
Pas encore d'évaluation
Chap2 4 1
53 pages
Préparation Des Données-Chapitre2
Pas encore d'évaluation
Préparation Des Données-Chapitre2
27 pages
0 - OUTILS STATISTIQUES DU DATA MINING - Pour Debutant
Pas encore d'évaluation
0 - OUTILS STATISTIQUES DU DATA MINING - Pour Debutant
16 pages
Clu String
Pas encore d'évaluation
Clu String
32 pages
Machine Learning Preparation Des Donnéees
Pas encore d'évaluation
Machine Learning Preparation Des Donnéees
29 pages
Chap2 Pretraitement Donnees
100% (1)
Chap2 Pretraitement Donnees
31 pages
Cartographie des Méthodes Statistiques
Pas encore d'évaluation
Cartographie des Méthodes Statistiques
48 pages
Pretraitement Des Donnees
100% (1)
Pretraitement Des Donnees
27 pages
Cours - Data Science Intro+ACP
100% (2)
Cours - Data Science Intro+ACP
63 pages
2011-12 Cours Add
Pas encore d'évaluation
2011-12 Cours Add
12 pages
CH2 - Préparation Des Données
Pas encore d'évaluation
CH2 - Préparation Des Données
27 pages
Seance 1
Pas encore d'évaluation
Seance 1
26 pages
Partie 3-Data Mining - DRC - 2021-2022
Pas encore d'évaluation
Partie 3-Data Mining - DRC - 2021-2022
47 pages
dmING Chap02 DataPreprocess
Pas encore d'évaluation
dmING Chap02 DataPreprocess
27 pages
Le Prétraitement Des Données Expliqué Simplement
Pas encore d'évaluation
Le Prétraitement Des Données Expliqué Simplement
7 pages
Cours3 PrétraitementDonnées
Pas encore d'évaluation
Cours3 PrétraitementDonnées
38 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
16 pages
Discrétisation des variables quantitatives
100% (1)
Discrétisation des variables quantitatives
37 pages
Cours sur l'Analyse des Données
Pas encore d'évaluation
Cours sur l'Analyse des Données
46 pages
Discrétisation des Données Numériques
Pas encore d'évaluation
Discrétisation des Données Numériques
21 pages
Cours D'analyse de Donnees Ecodoc Istm 2023-2024
Pas encore d'évaluation
Cours D'analyse de Donnees Ecodoc Istm 2023-2024
117 pages
Techniques de Data Mining avec SAS
Pas encore d'évaluation
Techniques de Data Mining avec SAS
48 pages
Chapitre III
Pas encore d'évaluation
Chapitre III
37 pages
Preparation Des Donnees Nettoyage Organisation25
Pas encore d'évaluation
Preparation Des Donnees Nettoyage Organisation25
41 pages
Data Mining
Pas encore d'évaluation
Data Mining
36 pages
Steps To Complete A Machine Learning
Pas encore d'évaluation
Steps To Complete A Machine Learning
11 pages
Partie Moad
Pas encore d'évaluation
Partie Moad
10 pages
ST M Intro ExploMultidim
Pas encore d'évaluation
ST M Intro ExploMultidim
3 pages
Analyse de Donnees-Résumé
Pas encore d'évaluation
Analyse de Donnees-Résumé
7 pages
4-Préparation Données
100% (1)
4-Préparation Données
55 pages
Introduction au Data Mining et Concepts de Base
Pas encore d'évaluation
Introduction au Data Mining et Concepts de Base
8 pages
Prétraitement Des Données
Pas encore d'évaluation
Prétraitement Des Données
3 pages
Méthodologie Des Nomophob01
Pas encore d'évaluation
Méthodologie Des Nomophob01
5 pages
Analyse Des Donnees
Pas encore d'évaluation
Analyse Des Donnees
10 pages
Clustering et Similarité des Données
Pas encore d'évaluation
Clustering et Similarité des Données
57 pages
Chap2 DM
Pas encore d'évaluation
Chap2 DM
40 pages
Analyse Et Sécurité de Données Multimédia
Pas encore d'évaluation
Analyse Et Sécurité de Données Multimédia
35 pages
Chapitre 2 Préparation Des Données
Pas encore d'évaluation
Chapitre 2 Préparation Des Données
39 pages
Introduction à l'analyse de données
Pas encore d'évaluation
Introduction à l'analyse de données
15 pages
Formulaire AD
Pas encore d'évaluation
Formulaire AD
3 pages
TPPré-traitement Des Donnée
Pas encore d'évaluation
TPPré-traitement Des Donnée
23 pages
Cours de Data Mining 3-Modelisation-EPF 1
Pas encore d'évaluation
Cours de Data Mining 3-Modelisation-EPF 1
16 pages
Découverte de Minitab v19 pour Statistiques
Pas encore d'évaluation
Découverte de Minitab v19 pour Statistiques
14 pages
Chap1 Part1 FDM
Pas encore d'évaluation
Chap1 Part1 FDM
18 pages
Cours Add MMBDS
Pas encore d'évaluation
Cours Add MMBDS
25 pages
Chap08.reduction Dimensions
Pas encore d'évaluation
Chap08.reduction Dimensions
40 pages
COURS STATISTIQUES EXPLORATOIR, Intro Et Chap 1
Pas encore d'évaluation
COURS STATISTIQUES EXPLORATOIR, Intro Et Chap 1
14 pages
Corr TD3 YA
100% (1)
Corr TD3 YA
6 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
50 pages
Modélisation Mathématique 1
Pas encore d'évaluation
Modélisation Mathématique 1
95 pages
0-Rappel 1
Pas encore d'évaluation
0-Rappel 1
36 pages
Cours Séance 4
Pas encore d'évaluation
Cours Séance 4
32 pages
6 Éme
Pas encore d'évaluation
6 Éme
5 pages
Bonnery Amidou Geo - 2
Pas encore d'évaluation
Bonnery Amidou Geo - 2
3 pages
Oral Emc
Pas encore d'évaluation
Oral Emc
5 pages
Gestion des Conflits en Entreprise
Pas encore d'évaluation
Gestion des Conflits en Entreprise
17 pages
336-Article Text-1130-2-10-20220529
Pas encore d'évaluation
336-Article Text-1130-2-10-20220529
18 pages
Le Prophetisme
Pas encore d'évaluation
Le Prophetisme
22 pages
Parcours des arbres binaires de recherche
Pas encore d'évaluation
Parcours des arbres binaires de recherche
4 pages
Methode de Recherche Grille DAnalyse Dun Travail Scientifique
Pas encore d'évaluation
Methode de Recherche Grille DAnalyse Dun Travail Scientifique
12 pages
Initiation A La Recherche Scientifique
Pas encore d'évaluation
Initiation A La Recherche Scientifique
16 pages
La Dialectologie - Server Pop
Pas encore d'évaluation
La Dialectologie - Server Pop
808 pages
CHOUIKH HEMZA MEMOIRE MASTER 2 Français Sciences Des Textes Litteraires-Juin 2014-Jijel
Pas encore d'évaluation
CHOUIKH HEMZA MEMOIRE MASTER 2 Français Sciences Des Textes Litteraires-Juin 2014-Jijel
72 pages
Cours M2 Amélioration
Pas encore d'évaluation
Cours M2 Amélioration
33 pages
Banque de Tests Des Creances À Recevoir PDF
Pas encore d'évaluation
Banque de Tests Des Creances À Recevoir PDF
7 pages
Genèse du Graphisme Enfantin
Pas encore d'évaluation
Genèse du Graphisme Enfantin
5 pages
La Souffrance et la Foi de Job
Pas encore d'évaluation
La Souffrance et la Foi de Job
2 pages
Aldo Lavagnini - Manuel Du Chevalier Rosicrucien TEXTE
Pas encore d'évaluation
Aldo Lavagnini - Manuel Du Chevalier Rosicrucien TEXTE
91 pages
Alexandrie, Les Fatimides Et La Mer (969-1171)
Pas encore d'évaluation
Alexandrie, Les Fatimides Et La Mer (969-1171)
44 pages
Japonais PDF
100% (1)
Japonais PDF
4 pages
2 - Aristote
Pas encore d'évaluation
2 - Aristote
2 pages
Analyse d'Images et Didactique FLES
Pas encore d'évaluation
Analyse d'Images et Didactique FLES
9 pages
Histoire et architecture de l'Alhambra
Pas encore d'évaluation
Histoire et architecture de l'Alhambra
16 pages
French Tenses
Pas encore d'évaluation
French Tenses
2 pages
Entraînement Modalisation ÉLÈVE-1
Pas encore d'évaluation
Entraînement Modalisation ÉLÈVE-1
5 pages
Fiche Phonetique Francaise Complète Detaillee
Pas encore d'évaluation
Fiche Phonetique Francaise Complète Detaillee
2 pages
Premiere Guerre Mondiale - Joseph Kessel
100% (1)
Premiere Guerre Mondiale - Joseph Kessel
103 pages
Gestion Financière
Pas encore d'évaluation
Gestion Financière
9 pages
Maladie Micrométastatique Et Maladie Résiduelle Axillaire. Exemple Du Cancer Du Sein
Pas encore d'évaluation
Maladie Micrométastatique Et Maladie Résiduelle Axillaire. Exemple Du Cancer Du Sein
5 pages
Platon La République Livre X Début
Pas encore d'évaluation
Platon La République Livre X Début
4 pages
Zététique et autodéfense intellectuelle
Pas encore d'évaluation
Zététique et autodéfense intellectuelle
1 page