exemple De modèle de régression linéaire simple
Le modèle de régression linéaire simple s'écrit :
yi = a × x i + b + εi
Exemple - Rendement de maïs et quantité d'engrais. Dans cet exemple tiré de l'ouvrage de Bourbonnais
(page 12), nous disposons de n = 10 observations (Figure 1.1) . On cherche à expliquer Y le rendement en
maïs (en quintal) de parcelles de terrain, à partir de X la quantité d'engrais (en kg) que l'on y a épandu.
L'objectif est de modéliser le lien à travers une relation linéaire. Bien évidemment, si l'on ne met pas
d'engrais du tout, il sera quand même possible d'obtenir du maïs, c'est le sens de la constante b de la
régression. Sa valeur devrait être positive. Ensuite, plus on mettra de l'engrais, meilleur sera le rendement.
On suppute que cette relation est linéaire, d'où l'expression a × x, on imagine à l'avance que a devrait être
positif.
. Tableau de données
Fig. 1.1 Rendements Agricoles
Le graphique nuage de points associant X et Y semble confirmer cette première analyse Dans le cas contraire
où les coefficients estimés contredisent les valeurs attendues
. Graphiquenuage de
Fig. 1.2 points Rendments Agricoles
Calculs pourles données Rendements agricoles
Revenons à notre exemple des "Rendementsagricoles"(Figure 1.1). Nous montons la feuille Excel
permettantde réaliser les calculs (Figure 1.4) .
Fig. 1.4. Estimation des coecients "Rendements agricoles" - Feuille de calcul Excel
Voici les principales étapes :
Nous calculons les moyennes des variables, ȳ = 26.1 et x̄ = 30.4.
Nous formons alors les valeurs de (yi − ȳ), (xi − x̄), (yi − ȳ) × (xi − x̄) et (xi − x̄)2 .
∑ ∑
Nous réalisons les sommes i (yi − ȳ) × (xi − x̄) = 351.6 et i (xi − x̄)2 = 492.4.
Nous déduisons enn les estimations :
∑n
(y − ȳ)(xi − x̄) 351.6
â = i=1∑n i = = 0.7141
i=1 (x i − x̄) 2 492.4
b̂ = ȳ − âx̄ = 26.1 − 0.7141 × 30.4 = 4.3928
La droite de régression peut être représentée dans le graphique nuage de points. Nous avons utilisé
l'outil "Courbe de tendance" d'Excel (Figure 1.5) 5 .
. Droitede
Fig. 1.5 régression- "Rendements
agricoles"
Nous constatonsque la droite passe peu ou prou au milieu du nuage de points. Mais nous ne saurions pas dire
dans quelle mesure notre modélisation est suffisamment intéressante. La simple évaluationvisuelle ne sut pas. La
seule manière d'obtenir une réponse rigoureuse est de produire un critère quantitatifque l'on saura interpréter.
Nous nous pencherons sur cette question dans la section consacrée à l'évaluationdu modèle (section 1.3).
L'exemple des rendements agricoles
Nous nous appuyons sur les coefficients estimés précédemment(section 1.2.2), à savoir â = 0.71405 et b̂ =
4.39277 pour construire la colonne des valeurs prédites ŷi, en déduire le résidu ε̂i et nalement obtenir les
sommes des carré[Link] tableaude calcul est organisé comme suit (Figure1.7) 6 :
Nous calculons ŷi . Par exemple, pour le 1er individu : ŷ1 = â × x1 + b̂ = 0.71405 × 20 + 4.39277 =
18.674.
Sur la colonne suivante, nous en déduisons le résidu ε̂i (ex. ε̂1 = y1 − ŷ1 = 16 − 18.674 = −2.674).
Pour obtenir la SCT, nous réalisons la somme des (yi − ȳi ) passées au carré : SCT = (16 − 26.1)2 +
· · · = 102.010 + · · · = 314.900
Pour la SCE, nous sommons (ŷi −ȳ)2 c.-a-d. SCE = (18.674−26.1)2 +· · · = 55.148+· · · = 251.061
Nous pouvons obtenir la SCR par diérence, en faisant SCR = SCT −SCE = 314.900−251.061 =
63.839.
Exemple: les rendements
agricoles
Revenons à notre exemple des rendements agricoles. Nous complétons notre feuille de calcul précédente
(Figure 1.7) de manière à mettre en exergue le tableau d'analyse de variance complet et le test F de
signicativité globale (Figure 3.1) 2 .
Fig. 3.1. Tableau d'analyse de variance et Test de signicativité globale - "Rendements agricoles"
Voici le détail des calculs :
Nous avions expliqué précédemment l'obtention des SCT, SCE et SCR (section 1.3.4).
Nous réorganisons les valeurs pour construire le tableau d'analyse de variance. Nous en déduisons
les carrés moyens expliqués CM E = SCE
1 = 251.061
1 = 251.061 et les carrés moyens résiduels
SCR 63.839
CM R = n−2 = 10−2 = 7.980
Inférence statistique
Nous en déduisons la statistique de test F = CM E
= 251.061
= 31.462
CM R 7.980
Que nous comparons au quantile d'ordre (1 − α) de la loi F(1, n − 2). Pour α = 5%, elle est
égale 3 à F0.95 (1, 8) = 5.318. Nous concluons que le modèle est globalement signicatif au risque
5%. La relation linéaire entre Y et X est représentatif d'un phénomène existant réellement dans
la population.
En passant par la probabilité critique, nous avons 4 α ′ ≈ 0.00050, inférieure à α = 5%. La conclu-
sion est la même. Il ne peut pas y avoir de contradictions entre ces deux visions de toute manière.
Fig. 3.2. Calculs intermédiaires pour les tests relatifs à la pente - "Rendements agricoles"
A ce stade, nous obtenons l'estimation de la variance de l'erreur, soit
SCR 63.839
σ̂ε2 = = = 7.980
n−2 8
L'écart-type estimé de l'erreur correspond à la racine carrée, il est bien de le préciser car de nombreux
logiciels (la fonction DROITEREG d'Excel par exemple) l'achent plutôt que la variance.
√
σ̂ε = 7.980 = 2.825
Pour obtenir l'estimation de l'écart-type de la pente, nous avons besoin de la somme des écarts à la
∑
moyenne au carré des X c.-à-d. i (xi − x̄)2 = (20 − 30.4)2 + · · · = 108.16 + · · · = 492.4. Nous avons
alors :
√
σ̂ε2
σ̂â = ∑
i (xi − x̄)
2
√
7.980
=
492.4
√
= 0.01621
= 0.12730
Nous formons la statistique de test
â 0.71405
tâ = = = 5.60909
σ̂â 0.12730
Au risque α = 5%, le seuil critique pour la loi de Student à (n − 2) degrés de liberté pour un test bila-
téral 6 est t1− α2 = 2.30600. Puisque |5.60909| > 2.30600, nous concluons que la pente est signicativement
non nulle au risque 5%.