0% ont trouvé ce document utile (0 vote)
152 vues3 pages

TP1 Data Mining

Ce document décrit diverses fonctionnalités de base de R pour l'analyse de données, notamment l'importation et l'exportation de données dans des fichiers CSV et Excel, la structure des dataframes, l'exploration de variables quantitatives et qualitatives, et les graphiques.

Transféré par

SARA STAMBOULI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
152 vues3 pages

TP1 Data Mining

Ce document décrit diverses fonctionnalités de base de R pour l'analyse de données, notamment l'importation et l'exportation de données dans des fichiers CSV et Excel, la structure des dataframes, l'exploration de variables quantitatives et qualitatives, et les graphiques.

Transféré par

SARA STAMBOULI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Ministère de l'Enseignement Supérieur et de la Recherche Scientifique

Université Abderrahmane Mira de Bejaïa


Faculté des Sciences Exactes
Département d’informatique
Année Universitaire: 2021-2022

Enseignante: Dr. BERMAD TP 1: Introduction à R


(Suite) A l’intention de: M1-RN-SIA
Durée: 1h

1. Importer et exporter dans des fichiers


a) CSV
> var1 <- 1:5
> var2 <- (1:5) / 10
> var3 <- c("R", "et", "Data Mining", "Exemples", "Cas d’etudes ")
> df <- [Link] (var1, var2, var3) # Créer un [Link] df
> names (df) <- c("VariableInt", "VariableReal", "VariableChar") # Renommer les
attributs du df
> [Link] (df, "csv_path", row. names = FALSE) # Enregistrer df dans un fichier csv
# csv_path est le chemin d'accès au fichier csv
> df1 <- [Link] ("csv_path ") # Importer un fichier csv dans un [Link] df1
> print (df1)

b) Excel
> [Link]("readxl")# Installer le package «readxl» pour importer les données
> library("readxl") # Charger la bibliothèque «readxl»
> df1<- read_excel("xls_path) # Lire un fichier xls
> df2<- read_excel("xlsx_path") # Lire un fichier xlsx
> df3<-read_excel("xlsx_path", sheet = 2) # Lire deux feuilles de calcul Excel
> sort <- read_xlsx("xlsx_path") # Le même rôle que la fonction read_excel()
> [Link]("writexl") # Installer le package «writexl» pour exporter les données
> library("writexl") # Charger la bibliothèque «writexl»
> write_xlsx(df, "xlsx_path") # exporter un [Link] dans un fichier xlsx

2. Comprendre la structure d’un data frame (ensemble de données)


> dim(iris) # Afficher le nombre du tuples et le nombre des attributs du [Link] iris
> names(iris) # Afficher les noms des attributs
> attributes (iris) # Retourner les attributs
> iris[1:5,] # Accès par indice-plage de valeurs
> head(iris) # Examiner les premières lignes de données
> tail(iris) # Examiner les dernières lignes de données

1
> iris[1:10, "[Link]"]
# Récupérer les 10 premières valeurs d’une colonne
> iris$[Link][1:10]

> length(iris$[Link]) # Récupérer la longueur d’un attribut=nombre


d’observations
> iris$[Link][c(2,5,8)] # Accès par indice-quelques valeurs dispersées

3. Explorer les variables individuelles


a. Variable quantitative
> class(iris$[Link]) # Afficher le type d’un attribut(colonne)
> summary(iris) # Statistiques descriptives sur l’ensemble des variables
> mean (iris$[Link]) # La moyenne des valeurs d’un attribut
> sd(iris$[Link],[Link]=TRUE) # Calculer l’écart type sans données
manquantes
> median(iris$[Link]) # La valeur médiane d’un attribut
> quantile (iris$[Link])
# Statistiques descriptive-quantiles
> quantile(iris$[Link], c(.1,.3,.65))

> var(iris$[Link]) # Calculer la variance


> with(iris, tapply([Link],Species,mean)) # Caractériser une variable
numérique (quantitative)
> hist(iris$[Link],color=green) # Afficher la distribution avec histogramme
> plot(density(iris$[Link])) # Afficher la densité d’un attribut

b. Variable qualitative
> class(iris$Species)
> levels(iris$Species) # Décrire les modalités d’une variable qualitative
> table(iris$Species) # Afficher la fréquence des modalités
> pie(table(iris$Species)) # Tracer un camembert
> barplot(table(iris$Species)) # Tracer un diagramme en bâtons

4. Explorer plusieurs variables


> cov(iris$[Link], iris$[Link]) # Calculer la covariance entre deux variables
> cov(iris[,1:4]) # Calculer la covariance d’une plage de valeurs
> cor(iris$[Link], iris$[Link],use="[Link]" ) # Calculer la
corrélation entre deux variables
> cor(iris[,1:4]) # Calculer la corrélation d’une plage de valeurs
> aggregate([Link] ~Species,mean, data=iris) # Calculer la moyenne d’un
attribut pour chaque modalité

2
> boxplot([Link]~Species, data=iris) # Tracer une boite à moustache pour
montrer la médiane, les premier et troisième
quartiles d'une distribution (c'est-à-dire les
50 %, 25 %, et 75 % de points dans la
distribution cumulée) et les valeurs
aberrantes. La barre au milieu est le médian.
L’encadré montre l'intervalle interquartile
(IQR), qui est l'intervalle entre le 75 % et 25
% d'observation.
> with(iris, plot([Link], [Link], col=Species, pch=[Link](Species))) #
Tracer un diagramme cartésien pour deux variables. Les couleurs (col)
et les symboles (pch) des points sont définis sur l’attribut
«Species».
> plot(jitter(iris$[Link]), jitter(iris$[Link])) # Tracer un diagramme
cartésien sans
chevauchement des
points.
> pairs(iris) # Tracer une matrice du nuages de points avec la fonction
pairs ()

5. Enregistrer les graphiques dans des fichiers


a. Format pdf
> pdf(“[Link]”) # Enregistrer en tant que fichier pdf
> x <- 1:50
> plot(x, log(x))
> [Link]() # Fermer la page du graphique
b. Format ps
> postscript("[Link]") # Enregistrer en tant que fichier postscript
> x <-20:20
> plot(x, x^2)
> [Link]()
c. Format image
> dt <- c(1,2,3) # Enregistrer un graphique au format .jpg
> jpeg("[Link]")
> plot(data)
> [Link]() # Permet d'ouvrir le fichier .jpg sans fermer R

Vous aimerez peut-être aussi