13/01/2023 18:34 Devoir maison 3
Devoir maison 3
Aude Sportisse
24/09/2020
Ce devoir maison est à envoyer par mail [Link]@[Link] ([Link]@[Link]) pour le lundi 28
septembre (soir) en format .Rmd et .html.
Il comporte deux exercices, on pourra utiliser les fiches 5 et 6.
Exercice 1
A partir du jeu de données icecream ([Link] nous allons étudier la
consommation de glace aux Etats-Unis sur une période de 30 semaines du 18 Mars 1950 au 11 Juillet 1953.
Les variables sont la consommation (Consumption en pintes par habitant), le salaire hebdomadaire (Income
en dollars), le prix des glaces (Price en dollars), la température (Temp en degré fahrenheit) et la catégorie
socio-professionnelle (sc).
1. Charger le jeu de données icecream avec le nom des colonnes en utilisant la fonction [Link] et en
specifiant correctement les arguments sep, [Link] et header. Précisez la nature des variables
(qualitative ou quantitative) et faites une analyse rapide des données.
2. Créer un jeu de données comprenant seulement les variables quantitatives. Découper aléatoirement ce
jeu de données en deux échantillons: un échantillon d'apprentissage (avec 70% des données) et un
échantillon de test.
3. Sur le jeu de données d'apprentissage, représenter les nuages de points de cons en fonction de(s)
variable(s) quantitative(s). Effectuer ensuite la régression linéaire de la variable cons en fonction de
toute(s) le(s) variable(s) quantitative(s). Ce modèle sera appelé modele1. Afficher un résumé et
interpréter le résultat (variables significatives, ...).
4. Effectuer une procédure de sélection de variable par le critère d'information bayésien (BIC). Quelles
sont les variables sélectionnées ?
5. Effectuer une nouvelle régression linéaire avec uniquement les variables retenues en question
précédente, ce modèle sera appelé modele2. Refaire ensuite la procédure de sélection de variables.
6. Dans un vecteur, stocker les valeurs de cons prédites par le modèle modele1 pour chaque individu de
l'échantillon de test. Construire de même un vecteur à partir de modele2. Utiliser pour cela la fonction
predict.
7. Notons Y la variable cons. Pour i = 1, . . . , Nt où Nt est le nombre d'observation de l'échantillon de
j
test, on note Y^i la prévision par le modèle j du i -ème individu de l'échantillon test, et Yi la valeur de Y
observée sur le i -ème individu de l'échantillon test. Calculer
Nt Nt
1 1 1 2
^ 2 ^ 2
EQM1 = ∑(Y i − Y i ) et EQM2 = ∑(Y i − Y i ) .
Nt Nt
i=1 i=1
Interpréter.
9. Représenter cons en fonction de(s) variable(s) qualitative(s). Effectuer une analyse de la variance.
Conclure sur l'effet de(s) variable(s) qualitative(s) sur la consommation de glace.
[Link] 1/2
13/01/2023 18:34 Devoir maison 3
Exercice 2
Nous considérons le modèle linéaire
Y = β 0 + β 1 X + ε,
où ε est la variable d'erreur. Rappelons que les paramètres β 0 et β 1 sont inconnus. Nous les estimons par β^0
′ ′
et β^1 . Nous notons dans la suite β = ( β
0
β1 ) et β^ ^
= (β
0
^
β1 ) . Dans cet exercice, nous voulons
retrouver expérimentalement le résultat vu en cours β^
′
∼ N (β, σ
2
( X X)
−1
) , où X = (1, X) avec
1 = (1, … , 1) .
′
1. Simuler 1000 échantillons (x i , Yi ) 1≤i≤100 suivant le modèle
Y i = 1 + 4x i + ε i , εi ∼ N (0, 1),
avec les x i ∼ N (3, 1) .
2. Pour les 1000 échantillons simulés, stocker les estimateurs des moindres carrés β^0 et β^1 renvoyés par
la fonction lm dans une matrice de taille 1000 × 2. Stocker également les moindres carrés β^0 et β^1
renvoyés par la fonction lm dans une autre matrice de taille 1000 × 2 en les calculant à la main avec la
formule β^ = ( X X)
′ −1
X Y
′
. Vérifier que les valeurs sont bien les mêmes.
3. Rappeler la moyenne et l'écart type théorique de β^0 . Calculer l'écart-type. Comparer les valeurs
théoriques avec la valeurs observées.
4. Superposer la densité théorique de β^0 et un estimateur de la densité obtenu à partir de l'échantillon
obtenu précédemment.
5. Reprendre la question 1 en augmentant le bruit avec ϵi ∼ N (0, 10) . Comme dans la question 2, pour
les 1000 échantillons simulés, stocker les estimateurs des moindres carrés β^0 et β^1 renvoyés par la
fonction lm dans une matrice de taille 1000 × 2. Que remarque-t-on sur les valeurs estimées β^ ?
Expliquer pourquoi (avec un graphique idéalement).
[Link] 2/2