Cours de Data Mining - 3

La préparation des données est essentielle en data mining pour traiter les données brutes, souvent incomplètes ou bruyantes. Cela inclut le nettoyage, la transformation, et la gestion des valeurs manquantes, qui peuvent représenter jusqu'à 60% du temps total du processus. Des méthodes graphiques et des techniques de normalisation sont également utilisées pour améliorer la qualité des données avant l'analyse.

Transféré par

innovateur65officiel

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

76 vues19 pages

Cours de Data Mining - 3

Transféré par

innovateur65officiel

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Partie III

Cours de
DATA MINING

Prof. Elisée ILUNGA MBUYAMBA

Préparation de données
Pourquoi ?
La plupart des données brutes contenues dans
les bases de données sont non préparées,
incomplètes et bruites. En effet, les bases de
données peuvent contenir :
- Des champs obsolètes ou redondants
- Des données manquantes
- Des valeurs hors limites ou aberrantes
- Des données dans une forme inadaptée au
modèle de data mining
- etc
Pour etre utiles dans une perspective de data
mining, les bases de données ont besoin de
subir une préparation, sous la forme d’un
nettoyage et d’une transformation des
données.

Selon les dataset (jeu de données), la

preparation des données elle-meme peut
prendre entre 10 et 60% du temps et de
l’effort du processus complet de data mining.
Exemple
Pouvez-vous trouver des données à problème dans
ces tables ?

ID CP Sexe Revenu Age Statut Montant

Client marital de la
transaction
1001 75000 M 75000 C M 5000
1002 4000 F -40000 40 V 4000
1003 92100 1000000 45 C 7000
1004 6260 M 50000 0 C 1000
1005 29000 F 99999 30 D 3000
Nom Fréquence
US 1
France 1
USA 156
Europe 46
Japon 51
Les méthodes graphiques pour identifier les
valeurs aberrantes
1. Examen de l’histogramme
Charger les données en R
cars2<-
read.csv("file:///C:/Users/arlette/Documents/Cours_Disp
_RDC/ESIS/Machine Learning and Data Mining/2019 -
2020/cars2.txt",sep=",",na.strings=c(".","NA","","?"),strip.
white=TRUE,stringsAsFactors=FALSE)
View(cars2)
par(mfrow=c(1,1))
hist(cars2$weight,breaks=30,xlim=c(0,5000),col="blue",bo
rder="black",ylim=c(0,40),xlab="Weight",ylab="Counts",mai
n="Histogram of Car Weights")
box(which="plot",lty="solid",col="black")
2. Nuage de points
plot(cars2$weight,cars2$mpg, xlim=c(0,5000), col="blue",
border="black",ylim=c(0,600),xlab="Weight",ylab="MPG",m
ain="Scatterplot of MPG by Weights",type="p",pch=16)
Prise en compte des données manquantes
Une méthode courante consiste à omettre de
l’analyse les enregistrements avec des valeurs
manquantes. Ceci est dangereux et à éviter.
Les analystes de données proposent des méthodes
visant à remplacer les vides par une valeur
substituée selon différents critères :
1. Remplacer la valeur manquante avec une
constante spécifiée par l’analyste
2. Remplacer la valeur manquante par la moyenne
de la variable de la variable (variables
numériques) ou le mode (variables catégorielles)
3. Remplacer les valeurs manquantes par une valeur
générée aléatoirement à partir de la
distribution observée de la variable
4. Remplacer les valeurs manquantes par des
valeurs imputées à partir des autres
caractéristiques des enregistrements

Charger les données en R

cars<-
read.csv("file:///C:/Users/arlette/Documents/Cours_Disp
_RDC/ESIS/Machine Learning and Data Mining/2019 -
2020/cars.txt",sep=",",na.strings=c(".","NA","","?"),strip.w
hite=TRUE,stringsAsFactors=FALSE)
View(cars)
# Copions cars et modifions un peu quelque variables
cars_copy[2,3]<- cars_copy[4,8]<-NA
cars_copy<- cars
cars_copy[2,3]<-0
cars_copy[4,8]<- "Missing"
View(cars_copy)
#Remplacer les valeurs manquantes par la moyenne ou le
mode
cars_copy[2,3]<- cars_copy[4,8]<-NA
cars_copy[2,3]<-mean(na.omit(cars_copy$cubicinches))
our_table<-table(cars_copy$brand)
our_mode<-names(our_table)[our_table==max(our_table)]
cars_copy[4,8]<-our_mode
View(cars_copy)
#Remplacer les valeurs manquantes par une valeur
aléatoire tirée de la distribution observée
cars_copy[2,3]<- cars_copy[4,8]<-NA
obs_brand<-sample(na.omit(cars_copy$brand),1)
obs_cubicinches<-
sample(na.omit(cars_copy$cubicinches),1)
cars_copy[2,3]<-obs_cubicinches
cars_copy[4,8]<- obs_brand
View(cars_copy)

N.B: comme les valeurs tirées pour compléter celles

manquantes sont aléatoires, le résultat peut être diffèrent
à chaque fois qu’on exécute ce code
Transformation des données
Les variables tendent à avoir une amplitude variant
fortement d’une variable à l’autre. Dans certains
algorithmes de Data Mining, les variables avec une grande
amplitude peuvent avoir une forte une influence sur les
résultats. Pour cela il est important de normaliser les
variables numériques. Il existe plusieurs techniques de
normalisation telles que :
- La normalisation min-max
- La normalisation par le score Z
- La normalisation decimale
- Transformation pour atteindre la normalité
Eliminer les doublons
Les enregistrements en doublon conduisent à donner un
surpoids aux valeurs de ces enregistrements.

FIN

Vous aimerez peut-être aussi

CH2 - Préparation Des Données
Pas encore d'évaluation
CH2 - Préparation Des Données
27 pages
Préparation Des Données-Chapitre2
Pas encore d'évaluation
Préparation Des Données-Chapitre2
27 pages
CH2 - Préparation Des Données
100% (1)
CH2 - Préparation Des Données
27 pages
3
Pas encore d'évaluation
3
44 pages
Le Prétraitement Des Données Expliqué Simplement
Pas encore d'évaluation
Le Prétraitement Des Données Expliqué Simplement
7 pages
TPPré-traitement Des Donnée
Pas encore d'évaluation
TPPré-traitement Des Donnée
23 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
11 pages
Partie 3-Data Mining - DRC - 2021-2022
Pas encore d'évaluation
Partie 3-Data Mining - DRC - 2021-2022
47 pages
Chap2 4 1
Pas encore d'évaluation
Chap2 4 1
53 pages
Traitement Des Valeurs Manquantes Et Aberrantes Avec Python
Pas encore d'évaluation
Traitement Des Valeurs Manquantes Et Aberrantes Avec Python
19 pages
Nettoyage et traitement des données
Pas encore d'évaluation
Nettoyage et traitement des données
25 pages
Preparation Des Donnees Nettoyage Organisation25
Pas encore d'évaluation
Preparation Des Donnees Nettoyage Organisation25
41 pages
M1 RO - COURS 2 Pretraitement Des Données
Pas encore d'évaluation
M1 RO - COURS 2 Pretraitement Des Données
27 pages
0 - OUTILS STATISTIQUES DU DATA MINING - Pour Debutant
Pas encore d'évaluation
0 - OUTILS STATISTIQUES DU DATA MINING - Pour Debutant
16 pages
01introduction Au Data Mining
Pas encore d'évaluation
01introduction Au Data Mining
9 pages
Data Mining et Machine Learning
Pas encore d'évaluation
Data Mining et Machine Learning
34 pages
Machine Learning Preparation Des Donnéees
Pas encore d'évaluation
Machine Learning Preparation Des Donnéees
29 pages
Importance du prétraitement des données
Pas encore d'évaluation
Importance du prétraitement des données
12 pages
Prétraitement des Données Avancé
100% (2)
Prétraitement des Données Avancé
153 pages
Aaa Seance 02 Preparation Des Données
Pas encore d'évaluation
Aaa Seance 02 Preparation Des Données
15 pages
Leçon 1 WB
Pas encore d'évaluation
Leçon 1 WB
12 pages
Python Chapt8
Pas encore d'évaluation
Python Chapt8
57 pages
Support Cours 2
Pas encore d'évaluation
Support Cours 2
34 pages
Pré-traitement des données d'attaques de requins
Pas encore d'évaluation
Pré-traitement des données d'attaques de requins
29 pages
3 - Netteoayage
Pas encore d'évaluation
3 - Netteoayage
16 pages
Cours Data Mining
Pas encore d'évaluation
Cours Data Mining
60 pages
Techniques D'imputation
Pas encore d'évaluation
Techniques D'imputation
14 pages
Chap1-Introduction Au DataMining Sahbi
Pas encore d'évaluation
Chap1-Introduction Au DataMining Sahbi
47 pages
Analyse de Données
Pas encore d'évaluation
Analyse de Données
39 pages
Chap2 Pretraitement Donnees
100% (1)
Chap2 Pretraitement Donnees
31 pages
Prétraitement Des Données
Pas encore d'évaluation
Prétraitement Des Données
3 pages
NDIAYE Jean Pierre Adiouma Présentation BEAMER ISEP2
Pas encore d'évaluation
NDIAYE Jean Pierre Adiouma Présentation BEAMER ISEP2
66 pages
Data Exploration&Pretreatment
Pas encore d'évaluation
Data Exploration&Pretreatment
85 pages
Bi
Pas encore d'évaluation
Bi
73 pages
Datawringling 1
Pas encore d'évaluation
Datawringling 1
15 pages
Prétraitement des données sur R
Pas encore d'évaluation
Prétraitement des données sur R
12 pages
DataMining Part2 ECD
100% (1)
DataMining Part2 ECD
38 pages
DataScience PJ
Pas encore d'évaluation
DataScience PJ
139 pages
Seance 1
Pas encore d'évaluation
Seance 1
26 pages
Chap2 DM
Pas encore d'évaluation
Chap2 DM
40 pages
Cours de Data Mining : Métier et Données
Pas encore d'évaluation
Cours de Data Mining : Métier et Données
57 pages
Cours - Data Science Intro+ACP
100% (2)
Cours - Data Science Intro+ACP
63 pages
Pretraitement Des Donnees
Pas encore d'évaluation
Pretraitement Des Donnees
6 pages
Chapitre 2 Préparation Des Données
Pas encore d'évaluation
Chapitre 2 Préparation Des Données
39 pages
Prétraitement des Données: Étapes Clés
Pas encore d'évaluation
Prétraitement des Données: Étapes Clés
12 pages
Test Statistique Pour MCAR en Python
Pas encore d'évaluation
Test Statistique Pour MCAR en Python
25 pages
Techniques de Data Mining avec SAS
Pas encore d'évaluation
Techniques de Data Mining avec SAS
48 pages
Steps To Complete A Machine Learning
Pas encore d'évaluation
Steps To Complete A Machine Learning
11 pages
Compréhension Et Préparation Des Données (Partie 1)
Pas encore d'évaluation
Compréhension Et Préparation Des Données (Partie 1)
36 pages
TP 01 Data Preprosessing
Pas encore d'évaluation
TP 01 Data Preprosessing
19 pages
Cours sur l'Analyse des Données
Pas encore d'évaluation
Cours sur l'Analyse des Données
46 pages
DataMining CIPMA SAV2 SupportDeCours
Pas encore d'évaluation
DataMining CIPMA SAV2 SupportDeCours
73 pages
Introduction au Data Mining et Concepts de Base
Pas encore d'évaluation
Introduction au Data Mining et Concepts de Base
8 pages
Data Mining
Pas encore d'évaluation
Data Mining
36 pages
Cours1 ECD
Pas encore d'évaluation
Cours1 ECD
17 pages
Chapitre 2 Préparation Des Données
Pas encore d'évaluation
Chapitre 2 Préparation Des Données
49 pages
Cours Data Mining - MORIE
Pas encore d'évaluation
Cours Data Mining - MORIE
88 pages
Cours de Base de Données 2025
Pas encore d'évaluation
Cours de Base de Données 2025
49 pages
Guide Active Directory Windows 2008
Pas encore d'évaluation
Guide Active Directory Windows 2008
29 pages
Informatique Décisionnelle et ETL
Pas encore d'évaluation
Informatique Décisionnelle et ETL
7 pages
SQL Server
100% (1)
SQL Server
114 pages
Exemples de requêtes SQL pour Oracle
Pas encore d'évaluation
Exemples de requêtes SQL pour Oracle
3 pages
Cours Java JDBC
Pas encore d'évaluation
Cours Java JDBC
75 pages
TD 10 Corrige
Pas encore d'évaluation
TD 10 Corrige
6 pages
Intro BDD
Pas encore d'évaluation
Intro BDD
23 pages
Introduction au Modèle Logique
Pas encore d'évaluation
Introduction au Modèle Logique
15 pages
Les Triggers SQL
Pas encore d'évaluation
Les Triggers SQL
17 pages
Analyse Des Données Textuelles: Une Approche D'Extraction de Contenu Sémantique Et Un Opérateur D'Agrégation Top - Krankedtopics
Pas encore d'évaluation
Analyse Des Données Textuelles: Une Approche D'Extraction de Contenu Sémantique Et Un Opérateur D'Agrégation Top - Krankedtopics
14 pages
La Communication VB .NET - BDD - Apprenez À Programmer en VB .NET - OpenClassrooms
100% (1)
La Communication VB .NET - BDD - Apprenez À Programmer en VB .NET - OpenClassrooms
9 pages
Leçon5 Spark
Pas encore d'évaluation
Leçon5 Spark
18 pages
Exemple
Pas encore d'évaluation
Exemple
47 pages
Concepts Clés des Bases de Données BDR
Pas encore d'évaluation
Concepts Clés des Bases de Données BDR
4 pages
Guide D'utilisation Arcopole Builder
Pas encore d'évaluation
Guide D'utilisation Arcopole Builder
34 pages
Bases de Données Lazarus
Pas encore d'évaluation
Bases de Données Lazarus
75 pages
Tp3 PHP Mysql Upb 23 24
Pas encore d'évaluation
Tp3 PHP Mysql Upb 23 24
7 pages
Introduction à Microsoft SQL Server
Pas encore d'évaluation
Introduction à Microsoft SQL Server
173 pages
Bilan de Puissance Électrique ATTAWFIQ
Pas encore d'évaluation
Bilan de Puissance Électrique ATTAWFIQ
5 pages
Seg S4 Ig TD 7
Pas encore d'évaluation
Seg S4 Ig TD 7
2 pages
Gestion de fichiers et systèmes FAT
Pas encore d'évaluation
Gestion de fichiers et systèmes FAT
8 pages
Initiation au LDD avec SQL Server
Pas encore d'évaluation
Initiation au LDD avec SQL Server
7 pages
CM-DW Olap
Pas encore d'évaluation
CM-DW Olap
63 pages
Chap1 Chap2
Pas encore d'évaluation
Chap1 Chap2
27 pages
Oracle Exam Questions
Pas encore d'évaluation
Oracle Exam Questions
6 pages
Série TP Linux
Pas encore d'évaluation
Série TP Linux
32 pages
Conception de base de données efficace
Pas encore d'évaluation
Conception de base de données efficace
26 pages
Gestion des fichiers sous UNIX
Pas encore d'évaluation
Gestion des fichiers sous UNIX
10 pages
Algèbre - SQL: Employés - Départements
Pas encore d'évaluation
Algèbre - SQL: Employés - Départements
11 pages