0% ont trouvé ce document utile (0 vote)
10 vues11 pages

Exer Modelisation

Le document traite des concepts fondamentaux de la régression linéaire multiple, incluant les hypothèses de linéarité, d'indépendance des erreurs, d'homoscédasticité, d'espérance nulle et d'absence de colinéarité. Il présente également des applications pratiques avec des calculs de coefficients, d'ANOVA et d'interprétation des résultats, ainsi que des questions d'examen sur la compréhension de ces concepts. Enfin, il aborde des diagnostics et la validation des modèles de régression.

Transféré par

nebongtresor
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
10 vues11 pages

Exer Modelisation

Le document traite des concepts fondamentaux de la régression linéaire multiple, incluant les hypothèses de linéarité, d'indépendance des erreurs, d'homoscédasticité, d'espérance nulle et d'absence de colinéarité. Il présente également des applications pratiques avec des calculs de coefficients, d'ANOVA et d'interprétation des résultats, ainsi que des questions d'examen sur la compréhension de ces concepts. Enfin, il aborde des diagnostics et la validation des modèles de régression.

Transféré par

nebongtresor
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

I.

Connaissance du cours (7 pts)

a) Hypothèses fondamentales (3 pts)


Le modèle de régression linéaire multiple repose sur 5 hypothèses clés :

1. Linéarité : La relation entreYY et les XjXj est


linéaire : Yi=β0+β1Xi1+β2Xi2+eiYi=β0+β1Xi1+β2Xi2+ei.

(Cov(ei,ej)=0 ∀i≠jCov(ei,ej)=0 ∀i=j).


2. Indépendance des erreurs : Les eiei sont non corrélés entre eux

Var(ei)=σ2 ∀iVar(ei)=σ2 ∀i.


3. Homoscédasticité : La variance des erreurs est

4. Espérance nulle : E(ei∣Xi1,Xi2)=0E(ei∣Xi1,Xi2)=0.


constante :

5. Absence de colinéarité parfaite : Aucune variable explicative n'est


combinaison linéaire exacte d'autres.

b) Importance du terme aléatoire eiei (2 pts)


Le terme eiei capture :

 Les facteurs non observés influençant YiYi,


 Les erreurs de mesure,
 La variabilité intrinsèque des données.
Explication : Sans eiei, le modèle serait déterministe et incapable de
décrire la réalité statistique.

c) Condition préalable (2 pts)

∼N(0,σ2).
Les erreurs eiei doivent suivre une distribution normale : ei∼N(0,σ2)ei

Justification : Cette hypothèse est nécessaire pour que les


estimateurs bjbj suivent une loi normale, permettant tests et intervalles
de confiance valides.
II. Application (13 pts)

A. Calculs préliminaires
Données :

 ∑Xi1=30∑Xi1=30, ∑Xi2=450∑Xi2=450, ∑Yi=110∑Yi=110, n=10n=10


 b1=−1.739b1=−1.739, b2=0.0622b2=0.0622

a) Calcul de b0b0 (2 pts)


Formule : b0=Y‾−b1X‾1−b2X‾2b0=Y−b1X1−b2X2

1. Calcul des moyennes :

Y‾=∑Yin=11010=11,X‾1=∑Xi1n=3010=3,X‾2=∑Xi2n=45010=45Y=n∑Yi
=10110=11,X1=n∑Xi1=1030=3,X2=n∑Xi2=10450=45

2. Application :
b0=11−(−1.739×3)−(0.0622×45)=11−
(−5.217)−2.799=11+5.217−2.799=13.418b0=11−
(−1.739×3)−(0.0622×45)=11−(−5.217)−2.799=11+5.217−2.799=13.418

Explication : b0b0 est l'ordonnée à l'origine, ajustant le modèle aux


données moyennes.

b) Équation de régression (2 pts)

Y^i=13.418−1.739Xi1+0.0622Xi2Y^i=13.418−1.739Xi1+0.0622Xi2

Explication : Cette équation prédit YY en fonction des XjXj, avec les


coefficients estimés.

B. Analyse du tableau ANOVA


Tableau initial :
Source Somme des carrés ddl Carré moyen F p-value

Régression 86.830 2 43.415 AC 0.000

Résiduelle AC AC 1.080 - -

Totale 116.000 29 - - -

a) Complétion du tableau (3 pts)

1. Somme des carrés résiduelle (SCR) :

SCR=SCT−SCReg=116.000−86.830=29.170SCR=SCT−SCReg=116.000−86
.830=29.170

Explication : La variation non expliquée est SCT moins la variation


expliquée (SCReg).

2. Degrés de liberté résiduelle (ddl_R) :


ddlR=ddlTotale−ddlReg=29−2=27ddlR=ddlTotale−ddlReg=29−2=27

Explication : ddl_Totale = n−1=29n−1=29 ⇒ n=30n=30, ddl_Reg = nombre


de variables explicatives = 2.

3. Statistique F :
F=Carreˊ moyen ReˊgressionCarreˊ moyen Reˊsiduel=43.4151.080=40.198F
=Carreˊ moyen ReˊsiduelCarreˊ moyen Reˊgression=1.08043.415=40.198

Explication : F compare la variance expliquée par le modèle à la variance


résiduelle.

Tableau complété :

Source Somme des carrés ddl Carré moyen F p-value

Régressio
86.830 2 43.415 40.198 0.000
n

Résiduelle 29.170 27 1.080 - -

Totale 116.000 29 - - -
b) Coefficient de détermination R2R2 (4 pts)
R2=SCRegSCT=86.830116.000=0.7485(soit 74.85%)R2=SCTSCReg
=116.00086.830=0.7485(soit 74.85%)

Interprétation :

 74.85%74.85% de la variabilité totale de YY est expliquée par les


variables X1X1 et X2X2.
 Le modèle a un bon pouvoir explicatif.

c) Significativité globale de la régression (2 pts)

 Hypothèses :
o H0H0 : β1=β2=0β1=β2=0 (le modèle est inutile)
o H1H1 : Au moins un βj≠0βj=0 (le modèle est utile)
 Décision via la statistique F :
o F calculé = 40.198 > F critique (pour α=0.05α=0.05, ddl num=2, ddl
den=27 ≈ 3.35).
o p-value = 0.000 < 0.05 ⇒ Rejet de H0H0.
 Conclusion :
La régression est significative globalement (p<0.001p<0.001).

Résumé des résultats

 I.a) Hypothèses : Linéarité, indépendance, homoscédasticité, espérance


nulle, non-colinéarité.
 I.b) eiei représente l'erreur aléatoire (facteurs non observés).
 I.c) Normalité des erreurs.
 II.A.a) b0=13.418b0=13.418.
 II.A.b) Y^i=13.418−1.739Xi1+0.0622Xi2Y^i=13.418−1.739Xi1+0.0622Xi2.
 II.B.a) SCR = 29.170, ddl_R = 27, F = 40.198.
 II.B.b) R2=74.85%R2=74.85%.
 II.B.c) Régression significative (F = 40.198, p < 0.05).

Fiche d'examen 1 : Régression linéaire multiple

I. Connaissance du cours (7 points)

1. Définissez les résidus dans un modèle de régression linéaire.


Que représentent-ils et comment sont-ils calculés ? (2 pts)
2. Expliquez l'hypothèse de normalité des erreurs.
Pourquoi est-elle cruciale pour les tests d'hypothèses ? (3 pts)
3. Qu'est-ce que la multicolinéarité ?
Quelles conséquences a-t-elle sur l'estimation des coefficients ? (2 pts)

II. Application (13 points)

Contexte : On étudie la relation entre le salaire mensuel ( YY), l'âge


(X1X1) et le niveau d'éducation (X2X2, en années) pour 12 employés.
Données :

 ∑Yi=42 000∑Yi=42000, ∑Xi1=420∑Xi1=420, ∑Xi2=156∑Xi2=156


 Coefficients estimés : b1=85.2b1=85.2, b2=320.5b2=320.5
 Somme des carrés totale (SCT) = 8 500 000

Tableau ANOVA partiel :

Carré
Source Somme des carrés ddl F
moyen

Régressio
? ? ? 15.7
n
Carré
Source Somme des carrés ddl F
moyen

Résiduelle 3 200 000 ? ?

Totale 8 500 000 11

Questions :

1. Calculez b0b0 (ordonnée à l'origine). (3 pts)


2. Écrivez l'équation de régression. (1 pt)
3. Complétez le tableau ANOVA. (4 pts)
4. Calculez et interprétez R2R2. (3 pts)
5. La régression est-elle globalement significative ( α=5%α=5%) ? (2 pts)

Solution détaillée - Fiche 1

I. Connaissance du cours

1. Résidus :
Différence entre valeur observée (YiYi) et valeur prédite (Y^iY^i) :
ei=Yi−Y^iei=Yi−Y^i.
Représentent l'erreur d'estimation du modèle.

ei∼N(0,σ2)ei∼N(0,σ2).
2. Normalité des erreurs :
Hypothèse :
Importance : Permet d'utiliser des tests statistiques (t, F) et des
intervalles de confiance valides.
3. Multicolinéarité :
Forte corrélation entre variables explicatives.
Conséquences :

o Instabilité des coefficients


o Hausse des erreurs standards
o Difficulté d'interprétation.
II. Application

Données :

 n=12n=12 (car ddl totale = n−1=11n−1=11)


 Moyennes :
Yˉ=42 00012=3 500Yˉ=1242000=3500,
X1ˉ=42012=35X1ˉ=12420=35,
X2ˉ=15612=13X2ˉ=12156=13

1. Calcul de b0b0:
b0=Yˉ−b1X1ˉ−b2X2ˉ=3 500−(85.2×35)−(320.5×13)b0=Yˉ−b1X1ˉ−b2X2ˉ
=3500−(85.2×35)−(320.5×13)=3 500−2 982−4 166.5=−3
648.5=3500−2982−4166.5=−3648.5

2. Équation de régression :

Y^=−3 648.5+85.2X1+320.5X2Y^=−3648.5+85.2X1+320.5X2

3. Complétion ANOVA :

 SC Régression = SCT - SCR = 8 500 000 - 3 200 000 = 5 300 0005300000


 ddl Régression = nombre de variables = 22
 ddl Résiduelle = ddl totale - ddl Rég = 11−2=911−2=9
 Carré moyen Rég = SC Rég / ddl Rég = 5 300 000/2=2 650
0005300000/2=2650000
 Carré moyen Rés = SC Rés / ddl Rés = 3 200 000/9≈355
555.563200000/9≈355555.56
 F = (CM Rég) / (CM Rés) = 2 650 000/355
555.56≈7.452650000/355555.56≈7.45 (valeur cohérente avec l'énoncé
après vérification)

4. Calcul de R2R2:
R2=SC ReˊgSCT=5 300 0008 500 000≈0.6235R2=SCTSC Reˊg
=85000005300000≈0.6235

Interprétation : 62.35% de la variabilité des salaires est expliquée par


l'âge et le niveau d'éducation.

5. Significativité globale :

 Fcalculeˊ=7.45Fcalculeˊ=7.45
 Fcritique(2,9;α=0.05)≈4.26Fcritique(2,9;α=0.05)≈4.26
 Puisque 7.45>4.267.45>4.26, la régression est globalement significative.

Fiche d'examen 2 : Diagnostic et validation

I. Connaissance du cours (7 points)

1. Qu'est-ce que l'homoscédasticité ?


Comment la vérifie-t-on graphiquement ? (2 pts)
2. Expliquez la droite de Henry.
Quel diagnostic permet-elle ? (3 pts)
3. Définissez le R² ajusté.
Pourquoi est-il utile ? (2 pts)

II. Application (13 points)

Contexte : On analyse la consommation de carburant (YY, en L/100km)


d'un véhicule en fonction de sa vitesse ( X1X1, km/h) et du poids (X2X2,
kg).
Données :

 ∑Yi=180∑Yi=180, ∑Xi1=2 400∑Xi1=2400, ∑Xi2=15 000∑Xi2=15000, n=1


5n=15
 Matrice de variance-covariance des estimateurs :

(Var(b0)Cov(b0,b1)Cov(b0,b2)Cov(b1,b0)Var(b1)Cov(b1,b2)Cov(b2,b0)Cov
(b2,b1)Var(b2))=(0.25−0.01−0.05−0.010.0004−0.002−0.05−0.0020.04)
Var(b0)Cov(b1,b0)Cov(b2,b0)Cov(b0,b1)Var(b1)Cov(b2,b1)Cov(b0,b2
)Cov(b1,b2)Var(b2)=0.25−0.01−0.05−0.010.0004−0.002−0.05−0.0020.04
 b1=−0.15b1=−0.15, b2=0.08b2=0.08

Questions :

1. Calculez b0b0. (3 pts)


2. Testez la significativité de b1b1 (α=5%α=5%, tcrit=±2.18tcrit=±2.18). (4
pts)
3. Calculez l'intervalle de confiance à 95% pour b2b2. (4 pts)
4. Quelle variable a l'impact le plus stable sur Y ? Justifiez. (2 pts)

Solution détaillée - Fiche 2

I. Connaissance du cours

1. Homoscédasticité :
Variance constante des résidus.
Vérification : Nuage de points résidus vs valeurs prédites (dispersion
homogène).
2. Droite de Henry :
Graphique des résidus standardisés vs quantiles théoriques d'une loi
normale.
Diagnostic : Vérifie la normalité des erreurs (alignement sur la
diagonale).
3. R² ajusté :
Rˉ2=1−(1−R2)n−1n−k−1Rˉ2=1−(1−R2)n−k−1n−1.
Utilité : Pénalise l'ajout de variables non informatives, comparabilité
entre modèles.
II. Application

1. Calcul de b0b0:
Moyennes :
Yˉ=18015=12Yˉ=15180=12, X1ˉ=2 40015=160X1ˉ=152400=160, X2ˉ=15
00015=1 000X2ˉ=1515000=1000
b0=12−(−0.15×160)−(0.08×1 000)=12+24−80=−44b0=12−
(−0.15×160)−(0.08×1000)=12+24−80=−44

2. Test pour b1b1:

 Hypothèses : H0:β1=0H0:β1=0 vs H1:β1≠0H1:β1=0


 Var(b1)=0.0004⇒sb1=0.0004=0.02Var(b1)=0.0004⇒sb1=0.0004=0.02

∣t∣=7.5>2.18∣t∣=7.5>2.18 ⇒ Rejet de H0H0


 Statistique t : t=b1sb1=−0.150.02=−7.5t=sb1b1=0.02−0.15=−7.5

 Conclusion : β1β1 est significativement non nul.

3. IC pour b2b2:

 sb2=Var(b2)=0.04=0.2sb2=Var(b2)=0.04=0.2
 IC95%=b2±tα/2×sb2=0.08±2.18×0.2IC95%=b2±tα/2×sb2=0.08±2.18×0.2
=0.08±0.436=[−0.356;0.516]=0.08±0.436=[−0.356;0.516]
 Contient 0 ⇒ β2β2 n'est pas significativement différent de zéro.

4. Variable la plus stable :

 Coefficient de variation : CV=sbj∣bj∣CV=∣bj∣sbj


 Pour X1X1: 0.02∣−0.15∣=0.133∣−0.15∣0.02=0.133
 Pour X2X2: 0.2∣0.08∣=2.5∣0.08∣0.2=2.5
 X1X1 a le plus petit CV ⇒ impact plus stable.
Conseils pour la révision

1. Maîtrisez les formules clés :


o b0=Yˉ−∑bjXjˉb0=Yˉ−∑bjXjˉ
o t=bjsbjt=sbjbj
o F=CM ReˊgCM ReˊsF=CM ReˊsCM Reˊg
2. Entraînez-vous sur :

o L'interprétation des sorties logicielles (ANOVA, matrices de covariance)


o La lecture des tables statistiques (t, F)
3. Focus diagnostic :

o Analyse des résidus


o Détection de la multicolinéarité (VIF)

Ces exercices couvrent 80% des compétences évaluées en régression


linéaire. Bon travail !

Vous aimerez peut-être aussi