Ensemble des variables
View(gujarati)
dim(gujarati) # nb d'observations et nombre de colonne
names(gujarati) # nom des variables présentes
str(gujarati)
##_____ Analyse univariée______________________________________________________
## Variable quantitative continue (dépense de santé)
# indicateur de centralité (mean())
# indicateur de dispersion (sd(), quantile(())
# graphique: histogramme (hist(), boite à moustache (boxplot())
boxplot(gujarati$wage,
horizontal=TRUE,
col="darkred",
main = paste("Distribution des", nrow(gujarati), "répondants en fonction de leur salaire"),
xlab="Salaire")
hist(gujarati$wage,
col = "purple", border = "white",
main = paste("Distribution des", nrow(gujarati), "répondants en fonction de leur salaire"),
xlab = "Salaire horaire (en dollars)", ylab = "Densité",
ylim = c(0,0.08),
xlim = c(0,70),
proba = TRUE)
lines(density(gujarati$wage, [Link] = TRUE), lwd = 2, col = "orange" )
##Variable quantitative discrète (éducation)
# indicateur de centralité
# inducateur de dispersion
# effectifs (table())table(gujarati$education)
# fréquences relatives ([Link]())round([Link](table(gujarati$education)),2)
# graphique: diagramme en baton (barplot()),
barplot(cumsum(table(gujarati$education)),
col="darkred",
main=paste("Répartition des", nrow(gujarati), "répondants en fonction du nombre d'années
d'études"),
xlab="Nombre d'années d'études",
ylab="Effectifs")
### Variable qualitative dummy (0,1) (syndiqué, genre,etC...)
# indicateur de centralité mean(gujarati$wage)
# indicateur de dispersion sd(gujarati$wage) quantile(gujarati$wage)
# effectifs table(gujarati$education)
# table des fréquences relatives round([Link](table(gujarati$education)),2)
# graphique: diagramme en baton et diagramme circulaire
barplot(table(gujarati$union),
col="darkred",
main ="Effectif selon le statut syndiqué ou non",
xlab="Nombre d'enfants",
ylab="Effectifs",
ylim = c(0,1200))
pie(table(gujarati$union),
col=c("gray","blue"),
labels = paste(c("Non syndiqué", "syndiqué"), round([Link](table(gujarati$union)),2), sep =
"\n"),
main ="Effectifs selon le statut syndiqué ou non")
##________ Analyses bivariées___________________________________________________
# Variable quantitative (health_expenditures) + Qualitive(genre)
## graphique: boxplot
## Calculer la différence de moyenne entre les groupes
## test de différence des moyennes ([Link]): Ho: il n'y a pas de différences de moyenne entre les
variables
[Link](gujarati$wage~gujarati$female)
# Variable qualitative (genre) + qualitative (syndiqué)
##effectifs + fréquences relatives entre les deux variables
##test de chi2: HO: les deux variables sont indépendantes
[Link](gujarati$female,gujarati$union)
# Variable quantitative + quantitative
## calculer le coefficient de corrélation cor(gujarati$wage,gujarati$education) + test du
coefficient du corrélation (Ho: absence de corrélation entre les variables)
## nuage de points
[Link](gujarati$wage,gujarati$education)
plot(gujarati$education,gujarati$wage, col="cornflowerblue")# Regression linéaire simple
两个变量之间的关系
# Regression linéaire simple
[Link] <- lm(gujarati$ln_wage ~ gujarati$education)
summary([Link])
plot(jitter(gujarati$education), jitter(gujarati$ln_wage),
col="cornflowerblue",
main = "Salaire en fonction du nombre d'années d'études",
xlab = "Nombre d'années d'études",
ylab="Salaire horaire (en dollars)")
abline([Link], col = "deepskyblue4")
一个与多个变量之间的关系
# Regression linéaire multiple
[Link] <- lm(gujarati$ln_wage ~ education + exper + union + female+ nonwhite,
data=gujarati)
summary([Link])