0% ont trouvé ce document utile (0 vote)
76 vues19 pages

Cours de Data Mining - 3

La préparation des données est essentielle en data mining pour traiter les données brutes, souvent incomplètes ou bruyantes. Cela inclut le nettoyage, la transformation, et la gestion des valeurs manquantes, qui peuvent représenter jusqu'à 60% du temps total du processus. Des méthodes graphiques et des techniques de normalisation sont également utilisées pour améliorer la qualité des données avant l'analyse.

Transféré par

innovateur65officiel
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
76 vues19 pages

Cours de Data Mining - 3

La préparation des données est essentielle en data mining pour traiter les données brutes, souvent incomplètes ou bruyantes. Cela inclut le nettoyage, la transformation, et la gestion des valeurs manquantes, qui peuvent représenter jusqu'à 60% du temps total du processus. Des méthodes graphiques et des techniques de normalisation sont également utilisées pour améliorer la qualité des données avant l'analyse.

Transféré par

innovateur65officiel
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Partie III

Cours de
DATA MINING

Prof. Elisée ILUNGA MBUYAMBA


Préparation de données
Pourquoi ?
La plupart des données brutes contenues dans
les bases de données sont non préparées,
incomplètes et bruites. En effet, les bases de
données peuvent contenir :
- Des champs obsolètes ou redondants
- Des données manquantes
- Des valeurs hors limites ou aberrantes
- Des données dans une forme inadaptée au
modèle de data mining
- etc
Pour etre utiles dans une perspective de data
mining, les bases de données ont besoin de
subir une préparation, sous la forme d’un
nettoyage et d’une transformation des
données.

Selon les dataset (jeu de données), la


preparation des données elle-meme peut
prendre entre 10 et 60% du temps et de
l’effort du processus complet de data mining.
Exemple
Pouvez-vous trouver des données à problème dans
ces tables ?

ID CP Sexe Revenu Age Statut Montant


Client marital de la
transaction
1001 75000 M 75000 C M 5000
1002 4000 F -40000 40 V 4000
1003 92100 1000000 45 C 7000
1004 6260 M 50000 0 C 1000
1005 29000 F 99999 30 D 3000
Nom Fréquence
US 1
France 1
USA 156
Europe 46
Japon 51
Les méthodes graphiques pour identifier les
valeurs aberrantes
1. Examen de l’histogramme
Charger les données en R
cars2<-
read.csv("file:///C:/Users/arlette/Documents/Cours_Disp
_RDC/ESIS/Machine Learning and Data Mining/2019 -
2020/cars2.txt",sep=",",na.strings=c(".","NA","","?"),strip.
white=TRUE,stringsAsFactors=FALSE)
View(cars2)
par(mfrow=c(1,1))
hist(cars2$weight,breaks=30,xlim=c(0,5000),col="blue",bo
rder="black",ylim=c(0,40),xlab="Weight",ylab="Counts",mai
n="Histogram of Car Weights")
box(which="plot",lty="solid",col="black")
2. Nuage de points
plot(cars2$weight,cars2$mpg, xlim=c(0,5000), col="blue",
border="black",ylim=c(0,600),xlab="Weight",ylab="MPG",m
ain="Scatterplot of MPG by Weights",type="p",pch=16)
Prise en compte des données manquantes
Une méthode courante consiste à omettre de
l’analyse les enregistrements avec des valeurs
manquantes. Ceci est dangereux et à éviter.
Les analystes de données proposent des méthodes
visant à remplacer les vides par une valeur
substituée selon différents critères :
1. Remplacer la valeur manquante avec une
constante spécifiée par l’analyste
2. Remplacer la valeur manquante par la moyenne
de la variable de la variable (variables
numériques) ou le mode (variables catégorielles)
3. Remplacer les valeurs manquantes par une valeur
générée aléatoirement à partir de la
distribution observée de la variable
4. Remplacer les valeurs manquantes par des
valeurs imputées à partir des autres
caractéristiques des enregistrements

Charger les données en R


cars<-
read.csv("file:///C:/Users/arlette/Documents/Cours_Disp
_RDC/ESIS/Machine Learning and Data Mining/2019 -
2020/cars.txt",sep=",",na.strings=c(".","NA","","?"),strip.w
hite=TRUE,stringsAsFactors=FALSE)
View(cars)
# Copions cars et modifions un peu quelque variables
cars_copy[2,3]<- cars_copy[4,8]<-NA
cars_copy<- cars
cars_copy[2,3]<-0
cars_copy[4,8]<- "Missing"
View(cars_copy)
#Remplacer les valeurs manquantes par la moyenne ou le
mode
cars_copy[2,3]<- cars_copy[4,8]<-NA
cars_copy[2,3]<-mean(na.omit(cars_copy$cubicinches))
our_table<-table(cars_copy$brand)
our_mode<-names(our_table)[our_table==max(our_table)]
cars_copy[4,8]<-our_mode
View(cars_copy)
#Remplacer les valeurs manquantes par une valeur
aléatoire tirée de la distribution observée
cars_copy[2,3]<- cars_copy[4,8]<-NA
obs_brand<-sample(na.omit(cars_copy$brand),1)
obs_cubicinches<-
sample(na.omit(cars_copy$cubicinches),1)
cars_copy[2,3]<-obs_cubicinches
cars_copy[4,8]<- obs_brand
View(cars_copy)

N.B: comme les valeurs tirées pour compléter celles


manquantes sont aléatoires, le résultat peut être diffèrent
à chaque fois qu’on exécute ce code
Transformation des données
Les variables tendent à avoir une amplitude variant
fortement d’une variable à l’autre. Dans certains
algorithmes de Data Mining, les variables avec une grande
amplitude peuvent avoir une forte une influence sur les
résultats. Pour cela il est important de normaliser les
variables numériques. Il existe plusieurs techniques de
normalisation telles que :
- La normalisation min-max
- La normalisation par le score Z
- La normalisation decimale
- Transformation pour atteindre la normalité
Eliminer les doublons
Les enregistrements en doublon conduisent à donner un
surpoids aux valeurs de ces enregistrements.

FIN

Vous aimerez peut-être aussi