I.
Connaissance du cours (7 pts)
a) Hypothèses fondamentales (3 pts)
Le modèle de régression linéaire multiple repose sur 5 hypothèses clés :
1. Linéarité : La relation entreYY et les XjXj est
linéaire : Yi=β0+β1Xi1+β2Xi2+eiYi=β0+β1Xi1+β2Xi2+ei.
(Cov(ei,ej)=0 ∀i≠jCov(ei,ej)=0 ∀i=j).
2. Indépendance des erreurs : Les eiei sont non corrélés entre eux
Var(ei)=σ2 ∀iVar(ei)=σ2 ∀i.
3. Homoscédasticité : La variance des erreurs est
4. Espérance nulle : E(ei∣Xi1,Xi2)=0E(ei∣Xi1,Xi2)=0.
constante :
5. Absence de colinéarité parfaite : Aucune variable explicative n'est
combinaison linéaire exacte d'autres.
b) Importance du terme aléatoire eiei (2 pts)
Le terme eiei capture :
Les facteurs non observés influençant YiYi,
Les erreurs de mesure,
La variabilité intrinsèque des données.
Explication : Sans eiei, le modèle serait déterministe et incapable de
décrire la réalité statistique.
c) Condition préalable (2 pts)
∼N(0,σ2).
Les erreurs eiei doivent suivre une distribution normale : ei∼N(0,σ2)ei
Justification : Cette hypothèse est nécessaire pour que les
estimateurs bjbj suivent une loi normale, permettant tests et intervalles
de confiance valides.
II. Application (13 pts)
A. Calculs préliminaires
Données :
∑Xi1=30∑Xi1=30, ∑Xi2=450∑Xi2=450, ∑Yi=110∑Yi=110, n=10n=10
b1=−1.739b1=−1.739, b2=0.0622b2=0.0622
a) Calcul de b0b0 (2 pts)
Formule : b0=Y‾−b1X‾1−b2X‾2b0=Y−b1X1−b2X2
1. Calcul des moyennes :
Y‾=∑Yin=11010=11,X‾1=∑Xi1n=3010=3,X‾2=∑Xi2n=45010=45Y=n∑Yi
=10110=11,X1=n∑Xi1=1030=3,X2=n∑Xi2=10450=45
2. Application :
b0=11−(−1.739×3)−(0.0622×45)=11−
(−5.217)−2.799=11+5.217−2.799=13.418b0=11−
(−1.739×3)−(0.0622×45)=11−(−5.217)−2.799=11+5.217−2.799=13.418
Explication : b0b0 est l'ordonnée à l'origine, ajustant le modèle aux
données moyennes.
b) Équation de régression (2 pts)
Y^i=13.418−1.739Xi1+0.0622Xi2Y^i=13.418−1.739Xi1+0.0622Xi2
Explication : Cette équation prédit YY en fonction des XjXj, avec les
coefficients estimés.
B. Analyse du tableau ANOVA
Tableau initial :
Source Somme des carrés ddl Carré moyen F p-value
Régression 86.830 2 43.415 AC 0.000
Résiduelle AC AC 1.080 - -
Totale 116.000 29 - - -
a) Complétion du tableau (3 pts)
1. Somme des carrés résiduelle (SCR) :
SCR=SCT−SCReg=116.000−86.830=29.170SCR=SCT−SCReg=116.000−86
.830=29.170
Explication : La variation non expliquée est SCT moins la variation
expliquée (SCReg).
2. Degrés de liberté résiduelle (ddl_R) :
ddlR=ddlTotale−ddlReg=29−2=27ddlR=ddlTotale−ddlReg=29−2=27
Explication : ddl_Totale = n−1=29n−1=29 ⇒ n=30n=30, ddl_Reg = nombre
de variables explicatives = 2.
3. Statistique F :
F=Carreˊ moyen ReˊgressionCarreˊ moyen Reˊsiduel=43.4151.080=40.198F
=Carreˊ moyen ReˊsiduelCarreˊ moyen Reˊgression=1.08043.415=40.198
Explication : F compare la variance expliquée par le modèle à la variance
résiduelle.
Tableau complété :
Source Somme des carrés ddl Carré moyen F p-value
Régressio
86.830 2 43.415 40.198 0.000
n
Résiduelle 29.170 27 1.080 - -
Totale 116.000 29 - - -
b) Coefficient de détermination R2R2 (4 pts)
R2=SCRegSCT=86.830116.000=0.7485(soit 74.85%)R2=SCTSCReg
=116.00086.830=0.7485(soit 74.85%)
Interprétation :
74.85%74.85% de la variabilité totale de YY est expliquée par les
variables X1X1 et X2X2.
Le modèle a un bon pouvoir explicatif.
c) Significativité globale de la régression (2 pts)
Hypothèses :
o H0H0 : β1=β2=0β1=β2=0 (le modèle est inutile)
o H1H1 : Au moins un βj≠0βj=0 (le modèle est utile)
Décision via la statistique F :
o F calculé = 40.198 > F critique (pour α=0.05α=0.05, ddl num=2, ddl
den=27 ≈ 3.35).
o p-value = 0.000 < 0.05 ⇒ Rejet de H0H0.
Conclusion :
La régression est significative globalement (p<0.001p<0.001).
Résumé des résultats
I.a) Hypothèses : Linéarité, indépendance, homoscédasticité, espérance
nulle, non-colinéarité.
I.b) eiei représente l'erreur aléatoire (facteurs non observés).
I.c) Normalité des erreurs.
II.A.a) b0=13.418b0=13.418.
II.A.b) Y^i=13.418−1.739Xi1+0.0622Xi2Y^i=13.418−1.739Xi1+0.0622Xi2.
II.B.a) SCR = 29.170, ddl_R = 27, F = 40.198.
II.B.b) R2=74.85%R2=74.85%.
II.B.c) Régression significative (F = 40.198, p < 0.05).
Fiche d'examen 1 : Régression linéaire multiple
I. Connaissance du cours (7 points)
1. Définissez les résidus dans un modèle de régression linéaire.
Que représentent-ils et comment sont-ils calculés ? (2 pts)
2. Expliquez l'hypothèse de normalité des erreurs.
Pourquoi est-elle cruciale pour les tests d'hypothèses ? (3 pts)
3. Qu'est-ce que la multicolinéarité ?
Quelles conséquences a-t-elle sur l'estimation des coefficients ? (2 pts)
II. Application (13 points)
Contexte : On étudie la relation entre le salaire mensuel ( YY), l'âge
(X1X1) et le niveau d'éducation (X2X2, en années) pour 12 employés.
Données :
∑Yi=42 000∑Yi=42000, ∑Xi1=420∑Xi1=420, ∑Xi2=156∑Xi2=156
Coefficients estimés : b1=85.2b1=85.2, b2=320.5b2=320.5
Somme des carrés totale (SCT) = 8 500 000
Tableau ANOVA partiel :
Carré
Source Somme des carrés ddl F
moyen
Régressio
? ? ? 15.7
n
Carré
Source Somme des carrés ddl F
moyen
Résiduelle 3 200 000 ? ?
Totale 8 500 000 11
Questions :
1. Calculez b0b0 (ordonnée à l'origine). (3 pts)
2. Écrivez l'équation de régression. (1 pt)
3. Complétez le tableau ANOVA. (4 pts)
4. Calculez et interprétez R2R2. (3 pts)
5. La régression est-elle globalement significative ( α=5%α=5%) ? (2 pts)
Solution détaillée - Fiche 1
I. Connaissance du cours
1. Résidus :
Différence entre valeur observée (YiYi) et valeur prédite (Y^iY^i) :
ei=Yi−Y^iei=Yi−Y^i.
Représentent l'erreur d'estimation du modèle.
ei∼N(0,σ2)ei∼N(0,σ2).
2. Normalité des erreurs :
Hypothèse :
Importance : Permet d'utiliser des tests statistiques (t, F) et des
intervalles de confiance valides.
3. Multicolinéarité :
Forte corrélation entre variables explicatives.
Conséquences :
o Instabilité des coefficients
o Hausse des erreurs standards
o Difficulté d'interprétation.
II. Application
Données :
n=12n=12 (car ddl totale = n−1=11n−1=11)
Moyennes :
Yˉ=42 00012=3 500Yˉ=1242000=3500,
X1ˉ=42012=35X1ˉ=12420=35,
X2ˉ=15612=13X2ˉ=12156=13
1. Calcul de b0b0:
b0=Yˉ−b1X1ˉ−b2X2ˉ=3 500−(85.2×35)−(320.5×13)b0=Yˉ−b1X1ˉ−b2X2ˉ
=3500−(85.2×35)−(320.5×13)=3 500−2 982−4 166.5=−3
648.5=3500−2982−4166.5=−3648.5
2. Équation de régression :
Y^=−3 648.5+85.2X1+320.5X2Y^=−3648.5+85.2X1+320.5X2
3. Complétion ANOVA :
SC Régression = SCT - SCR = 8 500 000 - 3 200 000 = 5 300 0005300000
ddl Régression = nombre de variables = 22
ddl Résiduelle = ddl totale - ddl Rég = 11−2=911−2=9
Carré moyen Rég = SC Rég / ddl Rég = 5 300 000/2=2 650
0005300000/2=2650000
Carré moyen Rés = SC Rés / ddl Rés = 3 200 000/9≈355
555.563200000/9≈355555.56
F = (CM Rég) / (CM Rés) = 2 650 000/355
555.56≈7.452650000/355555.56≈7.45 (valeur cohérente avec l'énoncé
après vérification)
4. Calcul de R2R2:
R2=SC ReˊgSCT=5 300 0008 500 000≈0.6235R2=SCTSC Reˊg
=85000005300000≈0.6235
Interprétation : 62.35% de la variabilité des salaires est expliquée par
l'âge et le niveau d'éducation.
5. Significativité globale :
Fcalculeˊ=7.45Fcalculeˊ=7.45
Fcritique(2,9;α=0.05)≈4.26Fcritique(2,9;α=0.05)≈4.26
Puisque 7.45>4.267.45>4.26, la régression est globalement significative.
Fiche d'examen 2 : Diagnostic et validation
I. Connaissance du cours (7 points)
1. Qu'est-ce que l'homoscédasticité ?
Comment la vérifie-t-on graphiquement ? (2 pts)
2. Expliquez la droite de Henry.
Quel diagnostic permet-elle ? (3 pts)
3. Définissez le R² ajusté.
Pourquoi est-il utile ? (2 pts)
II. Application (13 points)
Contexte : On analyse la consommation de carburant (YY, en L/100km)
d'un véhicule en fonction de sa vitesse ( X1X1, km/h) et du poids (X2X2,
kg).
Données :
∑Yi=180∑Yi=180, ∑Xi1=2 400∑Xi1=2400, ∑Xi2=15 000∑Xi2=15000, n=1
5n=15
Matrice de variance-covariance des estimateurs :
(Var(b0)Cov(b0,b1)Cov(b0,b2)Cov(b1,b0)Var(b1)Cov(b1,b2)Cov(b2,b0)Cov
(b2,b1)Var(b2))=(0.25−0.01−0.05−0.010.0004−0.002−0.05−0.0020.04)
Var(b0)Cov(b1,b0)Cov(b2,b0)Cov(b0,b1)Var(b1)Cov(b2,b1)Cov(b0,b2
)Cov(b1,b2)Var(b2)=0.25−0.01−0.05−0.010.0004−0.002−0.05−0.0020.04
b1=−0.15b1=−0.15, b2=0.08b2=0.08
Questions :
1. Calculez b0b0. (3 pts)
2. Testez la significativité de b1b1 (α=5%α=5%, tcrit=±2.18tcrit=±2.18). (4
pts)
3. Calculez l'intervalle de confiance à 95% pour b2b2. (4 pts)
4. Quelle variable a l'impact le plus stable sur Y ? Justifiez. (2 pts)
Solution détaillée - Fiche 2
I. Connaissance du cours
1. Homoscédasticité :
Variance constante des résidus.
Vérification : Nuage de points résidus vs valeurs prédites (dispersion
homogène).
2. Droite de Henry :
Graphique des résidus standardisés vs quantiles théoriques d'une loi
normale.
Diagnostic : Vérifie la normalité des erreurs (alignement sur la
diagonale).
3. R² ajusté :
Rˉ2=1−(1−R2)n−1n−k−1Rˉ2=1−(1−R2)n−k−1n−1.
Utilité : Pénalise l'ajout de variables non informatives, comparabilité
entre modèles.
II. Application
1. Calcul de b0b0:
Moyennes :
Yˉ=18015=12Yˉ=15180=12, X1ˉ=2 40015=160X1ˉ=152400=160, X2ˉ=15
00015=1 000X2ˉ=1515000=1000
b0=12−(−0.15×160)−(0.08×1 000)=12+24−80=−44b0=12−
(−0.15×160)−(0.08×1000)=12+24−80=−44
2. Test pour b1b1:
Hypothèses : H0:β1=0H0:β1=0 vs H1:β1≠0H1:β1=0
Var(b1)=0.0004⇒sb1=0.0004=0.02Var(b1)=0.0004⇒sb1=0.0004=0.02
∣t∣=7.5>2.18∣t∣=7.5>2.18 ⇒ Rejet de H0H0
Statistique t : t=b1sb1=−0.150.02=−7.5t=sb1b1=0.02−0.15=−7.5
Conclusion : β1β1 est significativement non nul.
3. IC pour b2b2:
sb2=Var(b2)=0.04=0.2sb2=Var(b2)=0.04=0.2
IC95%=b2±tα/2×sb2=0.08±2.18×0.2IC95%=b2±tα/2×sb2=0.08±2.18×0.2
=0.08±0.436=[−0.356;0.516]=0.08±0.436=[−0.356;0.516]
Contient 0 ⇒ β2β2 n'est pas significativement différent de zéro.
4. Variable la plus stable :
Coefficient de variation : CV=sbj∣bj∣CV=∣bj∣sbj
Pour X1X1: 0.02∣−0.15∣=0.133∣−0.15∣0.02=0.133
Pour X2X2: 0.2∣0.08∣=2.5∣0.08∣0.2=2.5
X1X1 a le plus petit CV ⇒ impact plus stable.
Conseils pour la révision
1. Maîtrisez les formules clés :
o b0=Yˉ−∑bjXjˉb0=Yˉ−∑bjXjˉ
o t=bjsbjt=sbjbj
o F=CM ReˊgCM ReˊsF=CM ReˊsCM Reˊg
2. Entraînez-vous sur :
o L'interprétation des sorties logicielles (ANOVA, matrices de covariance)
o La lecture des tables statistiques (t, F)
3. Focus diagnostic :
o Analyse des résidus
o Détection de la multicolinéarité (VIF)
Ces exercices couvrent 80% des compétences évaluées en régression
linéaire. Bon travail !