Ministère de l'Enseignement Supérieur et de la Recherche Scientifique
Université Abderrahmane Mira de Bejaïa
Faculté des Sciences Exactes
Département d’informatique
Année Universitaire: 2021-2022
Enseignante: Dr. BERMAD TP 1: Introduction à R
(Suite) A l’intention de: M1-RN-SIA
Durée: 1h
1. Importer et exporter dans des fichiers
a) CSV
> var1 <- 1:5
> var2 <- (1:5) / 10
> var3 <- c("R", "et", "Data Mining", "Exemples", "Cas d’etudes ")
> df <- [Link] (var1, var2, var3) # Créer un [Link] df
> names (df) <- c("VariableInt", "VariableReal", "VariableChar") # Renommer les
attributs du df
> [Link] (df, "csv_path", row. names = FALSE) # Enregistrer df dans un fichier csv
# csv_path est le chemin d'accès au fichier csv
> df1 <- [Link] ("csv_path ") # Importer un fichier csv dans un [Link] df1
> print (df1)
b) Excel
> [Link]("readxl")# Installer le package «readxl» pour importer les données
> library("readxl") # Charger la bibliothèque «readxl»
> df1<- read_excel("xls_path) # Lire un fichier xls
> df2<- read_excel("xlsx_path") # Lire un fichier xlsx
> df3<-read_excel("xlsx_path", sheet = 2) # Lire deux feuilles de calcul Excel
> sort <- read_xlsx("xlsx_path") # Le même rôle que la fonction read_excel()
> [Link]("writexl") # Installer le package «writexl» pour exporter les données
> library("writexl") # Charger la bibliothèque «writexl»
> write_xlsx(df, "xlsx_path") # exporter un [Link] dans un fichier xlsx
2. Comprendre la structure d’un data frame (ensemble de données)
> dim(iris) # Afficher le nombre du tuples et le nombre des attributs du [Link] iris
> names(iris) # Afficher les noms des attributs
> attributes (iris) # Retourner les attributs
> iris[1:5,] # Accès par indice-plage de valeurs
> head(iris) # Examiner les premières lignes de données
> tail(iris) # Examiner les dernières lignes de données
1
> iris[1:10, "[Link]"]
# Récupérer les 10 premières valeurs d’une colonne
> iris$[Link][1:10]
> length(iris$[Link]) # Récupérer la longueur d’un attribut=nombre
d’observations
> iris$[Link][c(2,5,8)] # Accès par indice-quelques valeurs dispersées
3. Explorer les variables individuelles
a. Variable quantitative
> class(iris$[Link]) # Afficher le type d’un attribut(colonne)
> summary(iris) # Statistiques descriptives sur l’ensemble des variables
> mean (iris$[Link]) # La moyenne des valeurs d’un attribut
> sd(iris$[Link],[Link]=TRUE) # Calculer l’écart type sans données
manquantes
> median(iris$[Link]) # La valeur médiane d’un attribut
> quantile (iris$[Link])
# Statistiques descriptive-quantiles
> quantile(iris$[Link], c(.1,.3,.65))
> var(iris$[Link]) # Calculer la variance
> with(iris, tapply([Link],Species,mean)) # Caractériser une variable
numérique (quantitative)
> hist(iris$[Link],color=green) # Afficher la distribution avec histogramme
> plot(density(iris$[Link])) # Afficher la densité d’un attribut
b. Variable qualitative
> class(iris$Species)
> levels(iris$Species) # Décrire les modalités d’une variable qualitative
> table(iris$Species) # Afficher la fréquence des modalités
> pie(table(iris$Species)) # Tracer un camembert
> barplot(table(iris$Species)) # Tracer un diagramme en bâtons
4. Explorer plusieurs variables
> cov(iris$[Link], iris$[Link]) # Calculer la covariance entre deux variables
> cov(iris[,1:4]) # Calculer la covariance d’une plage de valeurs
> cor(iris$[Link], iris$[Link],use="[Link]" ) # Calculer la
corrélation entre deux variables
> cor(iris[,1:4]) # Calculer la corrélation d’une plage de valeurs
> aggregate([Link] ~Species,mean, data=iris) # Calculer la moyenne d’un
attribut pour chaque modalité
2
> boxplot([Link]~Species, data=iris) # Tracer une boite à moustache pour
montrer la médiane, les premier et troisième
quartiles d'une distribution (c'est-à-dire les
50 %, 25 %, et 75 % de points dans la
distribution cumulée) et les valeurs
aberrantes. La barre au milieu est le médian.
L’encadré montre l'intervalle interquartile
(IQR), qui est l'intervalle entre le 75 % et 25
% d'observation.
> with(iris, plot([Link], [Link], col=Species, pch=[Link](Species))) #
Tracer un diagramme cartésien pour deux variables. Les couleurs (col)
et les symboles (pch) des points sont définis sur l’attribut
«Species».
> plot(jitter(iris$[Link]), jitter(iris$[Link])) # Tracer un diagramme
cartésien sans
chevauchement des
points.
> pairs(iris) # Tracer une matrice du nuages de points avec la fonction
pairs ()
5. Enregistrer les graphiques dans des fichiers
a. Format pdf
> pdf(“[Link]”) # Enregistrer en tant que fichier pdf
> x <- 1:50
> plot(x, log(x))
> [Link]() # Fermer la page du graphique
b. Format ps
> postscript("[Link]") # Enregistrer en tant que fichier postscript
> x <-20:20
> plot(x, x^2)
> [Link]()
c. Format image
> dt <- c(1,2,3) # Enregistrer un graphique au format .jpg
> jpeg("[Link]")
> plot(data)
> [Link]() # Permet d'ouvrir le fichier .jpg sans fermer R