Université de Lille
Master 1 MAS 2020-2021
TD 4 : Analyse de la variance à un facteur - Régression linéaire
multiple
Eglantine Karlé ([Link]@[Link])
Exercice 1 : Hauteur des Saede brassica
Le tableau ci-dessous présente des mesures de la hauteur en mm de la plante Saede brassica, réalisées
dans plusieurs milieux différents, sur des prélévements échantillonés aléatoirement. On désire comparer
ces données afin de connaître l’effet du milieu sur la taille de cette plante.
Milieu A Milieu B Milieu C Milieu D Milieu E
12 141 56 87 241
15 146 67 105 264
12 135 43 79 225
18 147 78 123 257
24 154 45 114 248
32 69 258
31 236
15
1. Visualiser les caractéristiques de chacune des séries de données.
2. Quelle analyse permet d’estimer l’effet du milieu sur la hauteur des plantes ?
On suppose que les résidus sont indépendants des milieux, et suivent une loi N (0, 1).
3. Ecrire le modèle que l’on va étudier ici.
4. Retrouver les expressions des estimateurs du maximum de vraisemblance des µk .
5. Donner la table d’analyse de la variance.
6. Faire le test d’égalité des espérances.
Exercice 2 : Notation matricielle
On considère le modèle de régression linéaire simple où l’on dispose de n observations (xi , yi )
vérifiant
yi = β0 + β1 xi + i
où l’on suppose que les variables i sont centrées, de variance σ 2 et indépendantes. On veut retrouver
les propriétés des estimateurs de la régression simple à l’aide des notations de la régression linéaire
multiple, puisqu’il ne s’agit en effet que d’un ca particulier de la régression multiple.
1. Écrire le modèle sous la forme d’un modèle de régression linéaire multiple.
2. Calculer l’estimateur des moindres carrés βb dans le modèle matriciel et retrouver les estimateurs
βb0 et βb1 du modèle de régression simple.
1
Exercice 3 : Notes
Lors d’un examen oral, les étudiants sont répartis en 3 groupes, chacun étant noté par un examina-
teur différent. Les résultats obtenus sont donnés ci-dessous :
Examinateur A : 10 11 11 12 13 15
Examinateur B : 8 11 11 13 14 15 16 16
Examinateur C : 10 13 14 14 15 16 16
1. Écrire le modèle d’analyse de la variance à un facteur et donner sa version matricielle
2. Estimer les paramètres du modèle à l’aide de la notation matricielle.
3. Y-a-t’il un effet de l’examinateur sur la notation ?
Exercice 4 (R) : Consommation de glace
On étudie la consommation de glaces aux États-Unis sur une période de 30 semaines du 18 mars
1950 au 11 juillet 1953. LEs variables sont ma période (de la semaine 1 à la semaine 30), la consommation
(Consumption en pintes par habitant), le prix des glaces (en dollars), le salaire hebdomadaire (Income)
et la température (en degré Fahrenheit). Les données sont disponibles dans le fichier [Link].
1. Représenter la consommation en fonction des différentes variables. Représenter l’évolution du
salaire en fonction de la période. Interpréter.
2. On propose de régresser la consommation sur les trois variables, Prix, Salaire et Température.
Réaliser la phase d’estimation de cette régression et commenter les résultats obtenus.
3. Déterminer les intervalles de confiance simultanés au niveau 95% pour les βj (j = 1 . . . 3). On
pensera pour cela à ajuster le niveau de confiance de chacun des intervalles pour obtenir un
niveau de confiance de 95% pour le vecteur β.
4. Tester la significativité du modèle proposé à l’aide du test de Fisher global : H0 : β1 = β2 =
β3 = 0.
5. Tester H0 : P rix = 0. Tester le modèle réduit aux variables Salaire et Température. Commenter.
6. Tester à l’aide de la fonction linearHypothesis du package car l’hypothèse H0 : Salaire =
Température.
Exercice 5 : Pollution à l’ozone
Reprenons l’exemple des données de pollution à l’ozone vu dans le TD 3. Nous pouvons ré-étudier
ce modèle en utilisant la régression linéaire multiple.
1. Observer les différentes corrélation entre la quantité d’ozone dans l’air et les autres variables à
l’aide de la fonction corrplot. Commenter.
2. On souhaite comprendre le lien entre la pollution dans l’air et la température, la nébulosité et
le vent. Pour cela, on considèrera les données mesurées à 12h pour chacune de ces catégories.
Écrire le modèle dans le cas où les erreurs suivent une loi normale centrée réduite.
3. Comment déterminer s’il y a un effet de la température ?
4. Comment déterminer s’il y a un effet de la température ou du vent ?
5. Si l’on conclut que βT = 0, quelle incidence cela a-t’il sur les autres coefficients estimés ?
6. Les trois covariables (température, nébulosité et vent) ont-elles une influence sur la pollution en
ozone ?
2
7. Mener l’analyse graphique a posteriori pour notre modèle.
On pourra pour cela tracer le graphe des résidus en fonction des valeurs estimées ainsi que le
graphe des résidus en fonction du temps.
Exercice 6 : Analyse de la variance à 2 facteurs
Dans trois fermes de vaches laitiè res, on a comparé la calcémie (en mgr %) des bêtes lactantes en
fonction de l’époque et du niveau de production. On a obtenu les résultats suivants :
Février Avril Juillet Octobre Décembre
de 0 à 8L 104 113 116 110 98
de 8 à 15 L 104 115 117 115 94
> 15L 104 116 118 113 97
On aimerait connaître l’influence respective du facteur ”époque” et du facteur ”niveau de produc-
tion”.
1. Ecrire le modèle.
2. Donner l’expressionn des estimateurs
3. Dresser la table d’analyse de la variance pour tester l’hypothèse H0 : l’époque n’a pas d’effet
puis pour tester l’hypothèse H0 : les niveaux de production n’ont pas d’effet.
Exercice 7 (R) : données simulées
1. Créer une fonction prenant en argument le nombre d’observations n et renvoyant une table
contenant n + 2 observations et 10 variables X1 , . . . , X9 et Y créées de la façon suivante :
— ∀i = 1, . . . , n,
σ12
X1,i 25 ρ1 σ1 σ2 ρ2 σ1 σ3
X2,i ∼ N 50 , ρ1 σ1 σ2 σ22 ρ3 σ2 σ3 ,
X3,i 0.5 ρ2 σ1 σ3 ρ3 σ2 σ3 σ32
σ12 = 2.5, σ22 = 12.5, σ32 = 0.075, ρ1 = 0.9, ρ2 = 0.5, ρ3 = 0.65.
— ∀i = 1, . . . , n, ∀j = 4, . . . , 9, Xj,i ∼ N (µj , s2j ), où µj est la j-ème composante du vecteur
µ = (10, 15, 27, 85, 1.5)t et sj la j-ème composante du vecteur s = (2, 5, 1, 5, 1, 1)t .
— ∀i = 1, . . . , n,
X 9
Yi = β0 + βj Xj,i + ε, ε ∼ N (0, 0.52 ),
j=1
avec β0 = 50 et βj la j-ème composante du vecteur β = (1.5, 0, 10, 5, 0, −2.5, 1, 0, −8)t .
— après avoir créé les n premières observations, rajouter deux points “atypiques” selon le schéma
suivant :
(a) le point n + 1, pour lequel Yn+1 = 1.2 × n1 ni=1 Yi , et Xj = n1 ni=1 Xj,i , pour j =
P P
1, . . . , 9.
(b) le point n + 2, pour lequel les valeurs de la variable Y et des variables explicatives seront
égales à la moyenne calculée par variable sur les n premières observations, sauf pour la
1 Pn
variable X3 , pour laquelle X3,n+2 = n i=1 X3,i + 5.
3
2. Générer un jeu de données à l’aide de la fonction créée à la question précédente, et visualiser
les nuages de points de Y en fonction de chaque variable explicative. Colorer les deux points
atypiques pour mieux les visualiser.
3. Faire la régression multiple de Y sur l’ensemble des variables explicatives de la table, et analyser
les résultats :
— étudier les résidus (fonction residuals) et les résidus studentisés (fonction rstudent). Af-
ficher le graphe des résidus studentisés et ajouter sur le graphe les quantiles d’ordre 0.975 et
0.025 de la loi de Student correspondante. Que remarque t-on ?
— étudier l’influence des observations en utilisant l’effet levier (accessible par la commande
[Link] ou la fonction hatvalues(model, ...)), et la distance de Cook (fonction
[Link])
Effet levier : on rappelle que l’on a Ŷ = HY avec H = X(X t X)−1 X t . H est aussi appelée hat
matrix (car elle “met le chapeau” sur Y ). Sur la diagonale de cette matrice, on obtient une mesure
de l’influence de l’observation Yi sur la prédiction Ŷi . Plus cette valeur est élevée, plus le point i a de
l’influence : c’est ce que l’on appelle l’effet levier. En pratique on considère qu’une valeur supérieure
à 1/2 correspond à un point levier (notons que le levier d’une observation est compris entre 0 et 1).
Distance de Cook : la distance de Cook mesure l’influence de l’observation i sur l’ensemble des
prédictions. On la définit par :
Pn
(Ŷ(i)j − Ŷj )2
Di = i=1 ,
pσ̂ 2
où Ŷ(i)j est la prédiction pour l’observation j obtenue sans tenir compte de l’observation i. En pra-
tique, on considère qu’une valeur supérieure à 1 correspond à un point atypique ou influent 1 .
— y a t-il des problèmes de multicolinéarité ? on pourra afficher les facteurs d’inflation de la
variance à l’aide du package car et de la fonction vif, et calculer les valeurs propres de la
matrice de corrélation R = (X t X)−1 . Si oui, proposer une solution.
Facteur d’inflation de la variance : le V IF mesure la liaison entre une variable donnée et
toutes les autres. Il est définit par :
1
V IFj = ,
1 − Rj2
où Rj2 est le coefficient de détermination (le “R2 ”) de la régression de Xj sur toutes les autres va-
riables.
4. Reprendre la question précédente en considérant le jeu de données dans lequel on aura supprimé
les éventuelles observations détectées comme atypiques ou influentes.
5. Comparer les résultats obtenus aux deux questions précédentes. En particulier, comparer les
estimations des coefficients de régression avec les vrais valeurs des paramètres βj , j = 0, . . . , 9
utilisées pour générer les données.
1. ce seuil vient du fait que la variable Di s’apparente à une variable aléatoire suivant une loi de Fisher à p et n − p degrés
de liberté. Quand n est grand et p << n, le quantile d’ordre 0.95 associé est proche de 1, d’où la règle empirique obtenue