Lab 5: Multiple Linear Regression
Introduction
Ce laboratoire est basé sur l'analyse de l'article de FiveThirtyEight.com intitulé The
Ultimate Halloween Candy Power Ranking (lien vers l'article). L'objectif du laboratoire
est d'utiliser la régression linéaire pour décrire ce qui rend un bonbon populaire.
Getting Started
us utiliserez R Studio via votre conteneur Docker personnel R Studio (https://vm-
manage.oit.duke.edu/containers) sur Duke VM Manage.
Modèle de laboratoire 5
Vous rédigerez votre devoir de laboratoire en utilisant le modèle STA 210 : Lab 5.
Pour accéder au modèle, vous devrez mettre à jour le package STA210. Vous
pouvez mettre à jour le package en utilisant le code ci-dessous dans la console R.
#updates the STA210 package
devtools::install_github("matackett/sta210/STA210") #add STA210
package to your R Studio environment to access the template and
datasets library("STA210")
Packages
En plus du package STA210, vous aurez besoin du packages suivants pour terminer
le laboratoire :
library("readr")
library("dplyr")
library("ggplot2")
library("broom")
library("knitr")
The Data
Nous utiliserons la fonction read_csv() dans le package readr pour lire les données
du site FiveThirtyEight.com Github. Si vous n'avez pas installé le package readr,
vous pouvez exécuter la commande suivante dans la console.
install.packages("readr")
Utilisez le code ci-dessous pour charger le package dans votre environnement R
Studio actuel et lire les données dans un tableau de données appelé candy.
library(readr)
candy <- read_csv("https://raw.githubusercontent.com/f
ivethirtyeight/data/master/candy-power-ranking/candy-d ata.csv")
Après avoir chargé le fichier CSV, vous pouvez utiliser la fonction glimpse() pour
vérifier que le jeu de données a bien été chargé correctement.
Questions
Question 0.
Lisez les premiers paragraphes de l'article The Ultimate Halloween Candy Power
Ranking (lien vers l'article). Décrivez brièvement comment les données du jeu de
données "candy" ont été collectées.
Question 1.
Avant de commencer l'analyse, nous voulons comprendre la structure de base des
données ainsi que les définitions de chaque variable.
a. Combien d'observations contient le jeu de données sur les candy ?
Combien de variables ?
b. Consultez le dictionnaire de données
(https://github.com/fivethirtyeight/data/blob/master/candy-power-
ranking/README.md) pour le jeu de données sur les candy.
L'objectif de notre analyse est d'identifier les attributs qui décrivent le bonbon le plus
populaire. Pour mesurer la popularité, nous utiliserons la variable winpercent. Quelle
est la définition exacte de la variable winpercent ?
Question 2.
Vous décidez de commencer l'analyse en utilisant un seul attribut pour décrire un
type de bonbon : la quantité de sucre contenue dans le bonbon.
a. La variable sugarpercent fournit une mesure de la quantité de sucre dans les
bonbons. Quelle est la définition exacte de sugarpercent ?
b. Créez un graphique en nuage de points montrant winpercent en fonction de
sugarpercent. D'après ce graphique, pensez-vous qu'il existe une relation linéaire
entre les deux variables ? Expliquez brièvement.
c. Calculez un modèle de régression décrivant la relation entre sugarpercent et
winpercent.
d. Avant de tirer des conclusions à partir du modèle, nous voulons vérifier les
hypothèses nécessaires à la régression. Ces hypothèses sont-elles respectées ?
Montrez tous les graphiques utilisés pour cette évaluation.
e. Utilisez la fonction confint() pour calculer un intervalle de confiance à 95 %
concernant l'effet de sugarpercent sur winpercent. Interprétez cet intervalle.
f. Le modèle de régression confirme-t-il votre hypothèse de la partie (b) ? Expliquez
brièvement.
Question 3.
Vous pensez que le fait qu'un bonbon contienne ou non du chocolat est un autre
attribut important pour déterminer le bonbon le plus populaire. Par conséquent, vous
souhaitez inclure l'effet du chocolat dans votre modèle de régression.
a. Calculez un modèle de régression qui utilise sugarpercent et chocolate pour
estimer winpercent.
b. Quel est l'effet estimé du chocolat sur winpercent, après avoir pris en compte
sugarpercent ?
c. Quelle est l'ordonnée à l'origine du modèle pour un bonbon sans chocolat ?
d. Quelle est l'ordonnée à l'origine du modèle pour un bonbon contenant du chocolat
?
Question 4.
Vous souhaitez vérifier si l'effet de sugarpercent sur winpercent diffère selon que le
bonbon contient ou non une gaufrette de riz croustillante (crispedricewafer).
a. Créez des graphiques en nuage de points séparés montrant winpercent en
fonction de sugarpercent pour les bonbons contenant des gaufrettes de riz
croustillantes et ceux qui n'en contiennent pas.
b. D'après vos graphiques, pensez-vous qu'il existe un effet d'interaction entre
sugarpercent et crispedricewafer ? Expliquez brièvement.
c. Calculez un modèle de régression qui utilise sugarpercent, crispedricewafer et
l'effet d'interaction sugarpercent * crispedricewafer pour estimer winpercent.
d. Quelle proportion de la variation de winpercent est expliquée par le modèle de
régression ?
e. Pourquoi pensez-vous que l'effet d'interaction n'est pas significatif, même si la
relation entre sugarpercent et winpercent semble différer en fonction de
crispedricewafer ? Indice : Prenez en compte la taille de l'échantillon des deux
groupes.
Question 5.
Vous souhaitez maintenant combiner les informations des modèles calculés dans les
questions 3 et 4.
a. Calculez un modèle de régression qui estime winpercent en utilisant les variables
suivantes : chocolate, crispedricewafer, et sugarpercent.
b. D'après le modèle, quel attribut a l'effet le plus fort sur winpercent ? Expliquez
brièvement.
c. Supposons que vous distribuez des bonbons pour Halloween et que vous
souhaitez vous assurer de donner les bonbons les plus populaires. D'après votre
modèle, quelles caractéristiques les bonbons devraient-ils avoir ?
d. Quel bonbon du jeu de données serait considéré comme le meilleur d'après votre
modèle ? Quel était son winpercent ?
Question 6.
Vérifiez les hypothèses pour le modèle de régression de la question 5. Les
hypothèses nécessaires pour la régression sont-elles respectées ? Assurez-vous
d'inclure tous les graphiques utilisés pour cette évaluation.
Soumission de votre devoir :
Une fois le devoir terminé, vous êtes prêt à générer le document PDF en compilant le
fichier. Cliquez sur le bouton Knit dans la barre de menu.
Une fois que vous cliquez sur Knit, votre fichier PDF apparaîtra dans une nouvelle
fenêtre. Si vous ne voyez pas le PDF, vérifiez les bloqueurs de fenêtres contextuelles
dans votre navigateur web.
Une fois le fichier tricoté (knit), vous devriez voir le texte écrit, accompagné de tout
code R ainsi que des sorties et/ou des graphiques correspondants. Si vous souhaitez
modifier quoi que ce soit dans votre document, vous pouvez apporter des
modifications dans le fichier R Markdown, puis recompiler (knit) le document pour
générer un PDF mis à jour.
Une fois le fichier PDF créé, vous pouvez l’exporter depuis le conteneur Docker vers
votre machine locale. Pour exporter le fichier, cliquez sur le bouton Download
(Télécharger) situé dans le coin supérieur droit.
Vous pouvez maintenant soumettre le PDF téléchargé sous l'onglet Assignments
(Devoirs) sur Sakai.
Références
Hickey, Walt. 2017. « The Ultimate Halloween Candy Power Ranking ».
FiveThirtyEight. Consulté le 1er octobre 2018. https://fivethirtyeight.com/features/the-
ultimate-halloween-candy-power-ranking/