0% ont trouvé ce document utile (0 vote)
22 vues43 pages

Chapitre4 RLS

informatique

Transféré par

mailbichou338
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues43 pages

Chapitre4 RLS

informatique

Transféré par

mailbichou338
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Prédire / expliquer les valeurs d’une variable

quantitative Y à partir d’une autre variable X

Ricco Rakotomalala
[Link]@[Link]

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 1
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 2
Position du problème Exemple de régression simple (Bourbonnais, page 12)
Expliquer le rendement de maïs Y (en quintal) à partir de la quantité
d'engrais utilisé (en kilo) sur des parcelles de terrain similaires.

Variable à prédire
Attribut classe Variables prédictive
Variable endogène Descripteur
Quantitative Variable exogène
Quantitative ou binaire
N° de parcelle Y X
Identifiant 1 16 20
2 18 24
(Pas utilisé pour les calculs, mais peut
3 23 28
être utilisé pour les commentaires : 4 24 22
points atypiques, etc.) 5 28 32
6 29 28
7 26 32
8 31 36
9 32 41
10 34 41

Modèle de régression simple : yi = a × xi + b + ε i

 Nous disposons donc d’un échantillon de n couples de points (xi,yi) i.i.d (indépendants et identiquement
distribués), et on veut expliquer (prédire) les valeurs de Y en fonction des valeurs prises par X.

 Le terme aléatoire permet de résumer toute l’information qui n’est pas prise en compte dans la
relation linéaire entre Y et X (problèmes de spécifications, approximation de la linéarité, résumer les
variables qui sont absentes, etc.)

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 3
Hypothèses
Permettent de déterminer les propriétés des estimateurs
Et de mettre en place les outils de statistique inférentielle (tests d’hypothèses, intervalle de confiance)

H1 : Hypothèses sur X et Y. Ce sont des grandeurs numériques mesurées sans erreur. X est une donnée
(exogène) dans le modèle, Y est aléatoire par l’intermédiaire de ε (c.-à-d. la seule erreur que l’on a sur Y
provient des insuffisances de X à expliquer ses valeurs dans le modèle).

H2 : Hypothèses sur le terme aléatoire . Les εi sont i.i.d. (indépendants et identiquement distribués)

(H2.a) En moyenne les erreurs s’annulent, le modèle est bien spécifié E (ε i ) = 0

(H2.b) La variance de l’erreur est constante et ne dépend pas de l’observation : homoscédasticité V (ε i ) = σ ε2

(H2.c) En particulier, l’erreur est indépendante de la variable exogène COV ( xi , ε i ) = 0

(H2.d) Indépendance des erreurs, les erreurs relatives à 2 observations sont indépendantes (on dit aussi que

les erreurs « ne sont pas corrélées ») COV (ε i , ε j ) = 0

(H2.e) Loi normale ε i ≡ N (0, σ ε )

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 4
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 5
Estimateur des MCO (Moindres carrés ordinaires)
Critère numérique
Critère des moindres carrés : trouver les valeurs de a et b qui
minimise la somme des carrés des écarts entre les vraies valeurs
yi
εi de Y et les valeurs prédites avec le modèle de prédiction.
a × xi + b
n
S = ∑ε
2
i
i =1 Remarque : Pourquoi
n pas la somme des
S = ∑ [y
i =1
i − ( ax i + b )] 2 erreurs ? Ou la somme
des écarts absolus ?
n
xi S = ∑ [y
i =1
i − ax i − b ] 2

 ∂S
 ∂a = 0 ∑ xi y i − a ∑ xi 2 − bx = 0

SOLUTION   i i
Equations normales
 ∂S = 0  y − ax − b = 0
 ∂b

 ∑ ( yi − y )(xi − x )
aˆ = i

∑i (xi − x )
2
 Estimateurs des moindres carrés

bˆ = y − aˆx Voir détail des calculs…

Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 6
Exemple des rendements agricoles

Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2


1 16 20 -10.1 -10.4 105.04 108.160
2 18 24 -8.1 -6.4 51.84 40.960
3 23 28 -3.1 -2.4 7.44 5.760
4 24 22 -2.1 -8.4 17.64 70.560
5 28 32 1.9 1.6 3.04 2.560
6 29 28 2.9 -2.4 -6.96 5.760
7 26 32 -0.1 1.6 -0.16 2.560
8 31 36 4.9 5.6 27.44 31.360
9 32 41 5.9 10.6 62.54 112.360
10 34 41 7.9 10.6 83.74 112.360
Moyenne 26.1 30.4 Somme 351.6 492.4

 351.6
aˆ = = 0.714
 492.4
bˆ = 26.1 − 0.714 × 30.4 = 4.39

35
y = 0.7141x + 4.3928
33

31

29

27

25

23

21

19

17

15
15 20 25 30 35 40 45

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 7
Quelques commentaires

C Oˆ V ( X , Y ) σˆ Relation entre la pente et le


Autre écriture de la pente « a » aˆ = = ˆ
r Y
coefficient de corrélation
σˆ X2 σˆ X linéaire !!!

Erreur et résidus : « erreur » =


définie dans la spécification du yˆ i = yˆ ( x i )
εˆi = yi − yˆ i
modèle ; « résidus », erreurs = aˆ x i + bˆ
observées sur les données Résidus de la régression
Pour la régression
∑ εˆ
i
i =0 avec constante !
Voir détail des calculs…

Centre de gravité du nuage de yˆ ( x ) = aˆx + bˆ 35

33y = 0.7141x + 4.3928


points : la droite de régression
= aˆx + ( y − aˆx ) 31
passe forcément par le 29

barycentre du nuage de points. =y 27

25

23

21

19

17

15

Équipe de recherche en Ingénierie des Connaissances 15 20 25 30 35 40 45

Laboratoire ERIC 8
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 9
Equation d’analyse de variance
Décomposition de la variance

Objectif de la régression : minimiser S. n


S = ∑ ( y i − yˆ i )
2
Mais 0 ≤ S ≤ +∞ ; à partir de quand peut-on dire que
i =1
la régression est de « bonne qualité » ?

∑ (y − y ) = ∑ ( y i − yˆ i + yˆ i − y )
2 2
i
i i
Somme des écarts à la moyenne
= ∑ ( y i − yˆ i ) + ∑ ( yˆ i − y ) + 2∑ ( y i − yˆ i )( yˆ i − y )
2 2

i i i

=0
Voir détail des calculs…

(
∑ iy − y )2
= (
∑ i i ∑ i
y − ˆ
y )2
+ ( ˆ
y − y )2

Décomposition i i i
de la variance SCT = SCR + SCE

SCT : somme des carrés totaux


SCE : somme des carrés expliqués par le modèle
SCR : somme des carrés résiduels, non expliqués par le modèle

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 10
Coefficient de détermination
Et coefficient de corrélation linéaire multiple

( yˆ − y)
SCE ∑
2
i
R2 = = i
SCT ∑ ( y − y)
2

Coefficient de détermination. i
i

Exprime la part de variabilité de Y expliquée par le modèle. SCR


R2 = 1−
SCT
R²  1, le modèle est excellent ∑ ( yi − yˆi )
2

R²  0, le modèle ne sert à rien R2 = 1− i

∑ (y − y)
2
i
i

Coefficient de corrélation
linéaire multiple R R = R2

On montre que rY , X = sgn(aˆ ) × R


Lien entre le coefficient de corrélation linéaire (de Pearson) et le coefficient de
corrélation linéaire multiple de la régression linéaire simple

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 11
Exemple des rendements agricoles

yˆ i = aˆxi + bˆ
= 0.714 xi + 4.39 εˆi = yi − yˆ i
εˆi2

Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2


1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.838749
SCT SCR

ESTIMATION
a 0.714053615
b 4.392770106 SCE = SCT - SCR 251.061251

R² 0.79727295

R 0.89290142

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 12
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 13
Biais

E [aˆ ] = a
Les estimateurs sont sans biais si…
[]
E bˆ = b

â = a + ∑ ωi ε i ωi =
(xi − x )
∑ (x − x)
Etape 1 : Exprimer â en fonction de a Où 2
j
Voir détail des calculs… i j

 
Etape 2 : Déterminer E(â) en fonction de a E (â ) = a + E  ∑ ωiε i 
 i 

E (â ) = a + ∑ ωi E (ε i ) X n’est pas aléatoire par


hypothèse, donc ωi ne l’est pas
Etape 3 : Identifier sous quelles i

conditions E(â) = a
E (â ) = a
E(εi) = E(ε) ; les εi sont i.i.d.
E(ε) = 0 par hypothèse

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 14
Biais (suite)

Pour « b » bˆ = b + ε − (aˆ − a )x
Avec les mêmes hypothèses, on aboutit à ()
E bˆ = b

Conclusion : Les EMCO (estimateurs des moindres


carrés ordinaires) sont sans biais, si

 Les X ne sont pas stochastiques (non aléatoires)


 E(ε) = 0 c.-à-d. le modèle est bien spécifié

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 15
Variance

V (aˆ ) = E[(aˆ − a ) ]
2

puisque
  
2
â = a + ∑ ωi ε i
= E  ∑ ωiε i   i

 i  
 
= E ∑ ωi2ε i2 + 2∑ ωiωi 'ε iε i ' 
 i i <i ' 
( )
= ∑ ωi2 E ε i2 + 2∑ ωiωi ' E (ε iε i ' )
i i <i '

( )
V (ε i ) = E ε i2 = σ ε2 E (ε iε i ' ) = 0

Homoscédasticité Non-autocorrélation des résidus

avec
σ ε2
(xi − x ) V (aˆ ) =
( )
ωi =
∑ (x − x)
∑ i −
2 2
j
j x x
i

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 16
Convergence

σ ε2
Est une valeur qui ne dépend pas des effectifs (variance de l’erreur

σ ε2 théorique)
V (aˆ ) =
(
∑ ix − x )2
(
∑ ix − x )2
n→ +∞
→ +∞
i i

â est convergent V (aˆ ) n→ 0


→ +∞

 
()
2
1 x 
De même, pour « b » V bˆ = σ ε2  +
n ∑ (xi − x )2 
 i


()
V bˆ n→ 0
→ +∞

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 17
Caractérisation graphique

o o

o o
o
o o o
o
o o
o
(1) o o
o o

o
o o o o
o o o

( )
E εi = σε
2 2
est faible
( )
E εi = σε
2 2
est élevé
est faible, modèle « stable » V (aˆ ) est moyennement élevée
V (aˆ )
Cette élévation est compensée par
∑ (xi − x )2
la valeur élevée de i

Les estimateurs sont d’autant plus précis que :


o
o
(2) oo oo
ooo
oo
o
(1) La variance de l’erreur est faible (la droite de
régression passe bien au milieu des points.
(2) La dispersion des X est forte (les X couvrent
bien l’espace de représentation)
( )
E εi = σε
2 2
est faible
V (aˆ ) ?
∑ (x − x )
2
i est faible
i
L’adjonction d’un point supplé mentaire dans la régression fait « bouger » la droite
Le modè le est instable é galeme nt

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 18
Théorème de GAUSS-MARKOV

Les EMCO de la régression sont sans biais et convergents.

Parmi les estimateurs sans biais, ils sont à variance minimale c.-à-d. il est
impossible de trouver un autre estimateur sans biais à plus petite variance

 On dit qu’ils sont BLUE (best linear unbiased estimator)


 Ce sont des « estimateurs efficaces »

Cf. démonstration C. Labrousse (1983), page 26

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 19
Estimation de la variance de l’erreur

σ ε2 Joue un rôle très important. Comment l’estimer à partir des données ?

(
εˆi = yi − yˆ i = axi + b + ε i − aˆxi + bˆ )
Le résidu est tel que
( )
= ε i − (aˆ − a )xi − bˆ − b

 
On montre que E  ∑ εˆi2  = (n − 2 )σ ε2
Giraud & Chaix (1994), page 31  i 

On en déduit un ∑ εˆ i
2
SCR
estimateur sans biais
σˆ ε2 = i
=
n−2 n−2

∑ xi εˆi = 0
Parce 2 contraintes avec les  i

équations normale ∑ εˆi = 0
 i
Remarque : A propos du degré
de liberté (n-2)
Parce que (simplement), on estimé 2 paramètres « a » et « b »
dans le modèle pour obtenir les prédictions, et donc les résidus

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 20
Rendements agricoles

Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2


1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR

sigma²(epsilon) 7.979843623
ESTIMATION
a 0.714053615 sigma²(a^) 0.01620602 sigma(a^) 0.127302862
b 4.392770106 sigma²(b^) 15.7749386 sigma(b^) 3.971767696

σˆ ε2 SCR (n − 2 )
Vˆ (aˆ ) = σˆ =
2
=
∑ (x − x )
aˆ 2
i
492.4
i σˆ aˆ = σˆ a2ˆ = 0.0162 = 0.127
7.9798
= = 0.0162
492.4

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 21
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 22
Distribution de « â » – Variance de l’erreur connue

∑ ( y − y )(x − x )
i i
X est non aléatoire
aˆ = i

∑ (x − x ) i
2 Y l’est par l’entremise de ε
i
ε ≡ N (0, σ ε )

aˆ − a
≡ N (0,1)
Et « â » est issue d’une
combinaison linéaire de Y σ aˆ

Distribution de l’estimation de la variance de l’erreur

σε 2 σˆ ε 2
σ aˆ =
2
σˆ aˆ =
2
σˆ ε2
∑ (xi − x ) ∑ (xi − x )  on a besoin de connaître la distribution de
2 2

i i

Par hypothèse
Le résidu étant une réalisation de ε, εˆi
ε ≡ N (0, σ ε ) elle suit aussi une loi normale σε
≡ N (0,1)

2
 εˆi  ∑ εˆi
2

∑  σ  = i 2 ≡ χ 2 (n − 2 )
i  ε σε

(n − 2) σ ε2 ≡ χ 2 (n − 2)
ˆ2
σε
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 23
Distribution de « â » – Variance de l’erreur estimée

σˆ aˆ 2 σˆ ε 2 σˆ aˆ 2
On vérifie (n − 2) 2 = (n − 2) 2 (n − 2) 2 ≡ χ 2 (n − 2)
facilement σ aˆ σε σ aˆ

De la même
aˆ − a bˆ − b
On en déduit ≡ ℑ(n − 2 ) manière, on ≡ ℑ(n − 2)
dès lors que σˆ aˆ montre
σˆ bˆ

Intervalle de confiance au niveau (1 - α) [aˆ ± t


1−α 2 × σˆ aˆ ]

A partir de ces
 H 0 : a = a0
éléments, on peut Tests d’hypothèses au risque α 
 H 1 : a ≠ a0
mettre en place
l’inférence statistique Avec, en particulier le test de H 0 : a = 0
significativité (mesurer l’impact 
de X dans l’explication de Y via le  H1 : a ≠ 0
modèle)

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 24
Rendements agricoles – Tests de significativité des coefficients
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR

sigma²(epsilon) 7.979843623
ESTIMATION
a 0.714053615 sigma²(a^) 0.016206019 sigma(a^) 0.127302862
b 4.392770106 sigma²(b^) 15.77493863 sigma(b^) 3.971767696

ddl 8

t théorique (bilatéral à 5%) 2.306004133

t(a^) 5.609093169 rejet H0


t(b^) 1.10599875 acceptation H0

aˆ 0.714
t aˆ = = = 5.609
σˆ aˆ 0.127
Puisque t aˆ > t1−α 2
t1−α / 2 (8) = t1−0.05 / 2 (8) = t0.975 (8) = 2.306
Rejet de H0 : a = 0

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 25
Test de significativité globale du modèle
H0 : Le modèle n’amène rien dans l’explication de Y
H1 : Le modèle est pertinent (globalement significatif)

Tableau d’analyse
de variance

Remarque : Ecriture de F à partir du R²


SCE
R2
Statistique de test F = 1 ≡ F (1, n − 2) F=
(
1− R2 )
SCR
n−2 (n − 2)

Région critique au F > F1−α (1, n − 2)


risque α
Remarque : Tester la significativité de la
régression et tester la significativité de la pente
sont équivalents dans la régression simple.
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 26
Rendements agricoles – Tests de significativité globale
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR

Tableau d'analyse de variance


ESTIMATION Source de variation SC DDL CM
a 0.714053615 Expliqués (Régression) 251.061251 1 251.061251
b 4.392770106 Résidus 63.83874898 8 7.979843623
Total 314.9 9

F calculé 31.46192618 rejet de H0

DDL1 1
DDL2 8
F théorique (à 5%) 5.317655063

SCE
Rejet de H0 c.-à-d. on conclut que le
F= 1 =
251.06
= 31.4619 Puisque F > F1−α modèle est globalement significatif
SCR 7.9798
n−2
Remarque :
F1−α (1, 8) = F0.95 (1, 8) = 5.37655
F = 31.4619 = 5.609 = t aˆ

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 27
Rendements agricoles – La fonction DROITEREG d’EXCEL

Y X
16 20
18 24
23 28
24 22
28 32 DROITEREG
29 28 â 0.71405361 4.392770106 b̂
26
31
32
36 σˆ â 0.12730286 3.971767696 σˆ b̂
32 41
R 2 0.79727295 2.8248617 σˆ ε
34 41
F 31.4619262 8 n−2
SCE 251.061251 63.83874898 SCR
Intervalle de confiance à 5%
t théorique 2.30600413 2.306004133
Borne basse 0.42049269 -4.76614262
Borne haute 1.00761454 13.55168283

Test de significativité des coefficients


t de Student 5.60909317 1.10599875
p-value 0.00050487 0.30087418

Test de la régression globale


F-calculé 31.4619262
DDL numérateur 1
DDL dénominateur 8
p-value 0.00050487

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 28
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 29
Prévision ponctuelle
A prédire d’une valeur connue de X, prédire la valeur de Y

Pour un individu i*, la


prédiction ponctuelle s’écrit yˆ i* = yˆ ( xi* ) = aˆxi* + bˆ

La prédiction est sans biais c.-à-d. E ( yˆ i* ) = yi*

εˆi* = yˆ i* − yi*
[ ( ) ]
En effet,
E (εˆi* ) = E (aˆ − a )xi* + bˆ − b − ε i*
= aˆxi* + bˆ − (axi* + b + ε i* )
( )
= (aˆ − a )x + bˆ − b − ε
i* ( )
= x E (aˆ − a ) + E bˆ − b − E (ε i* )
i* i*

0
0 L’erreur du modèle est
Les EMCO sont sans biais nulle par hypothèse

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 30
Prévision par intervalle εˆi* = yˆ i* − yi*
Variance de l’erreur de prévision
E (εˆi* ) = 0
Puisque

 
On montre ( ) 
V (εˆi* ) = E εˆi2* = σ ε2 1 + +
1 ( xi* − x )2

= σ ε2ˆi*
Giraud & Chaix (1994), page 30 n ∑ (xi − x ) 2
 i


Remarque :
  (xi* − x )
(xi* − x ) 
2
2 1
D’où la variance estimée  1 hi* = +
σˆ ε2ˆ = σˆ ε2 1 + + n ∑ ( xi − x )2
de l’erreur de prévision i*
n ∑ ( xi − x )2 
 i
 i
est le LEVIER de l’observation i*
(Il joue un rôle très important dans la
régression. Cf. points atypiques).

SCR
(1) σˆ ε2 = est petit c.-à-d. la droite ajuste bien le nuage de points .
n−2

(2) ( xi* − x )
2
La variance de est petit c.-à-d. le point est proche du centre de gravité du nuage.
l’erreur sera d’autant
plus faible que :
(3) ∑ (x − x )
i
i
2
est grand c.-à-d. la dispersion des points est grande.

(4) n est grand c.-à-d. le nombre d’observations ayant servi à la construction du modèle est élevé.

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 31
Prévision par intervalle
Distribution – Définition de l’intervalle

Puisque ε ≡ N (0, σ ε ) (
εˆi* = yˆ i* − yi* ≡ N 0, σ ε 1 + hi* )

(n − 2) σ ε2 ≡ χ 2 (n − 2)
ˆ2
σε

yˆ i* − yi*
≡ ℑ(n − 2 ) Rapport d’une loi normale avec un KHI-2 normalisé
σˆ εˆi*

yˆ i* ± t1−α 2 × σˆ εˆi* Intervalle de confiance au niveau (1-α)

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 32
yˆ i* = aˆxi* + bˆ
Rendements agricoles – x* = 38 Prédiction ponctuelle 
= 0.714 × 38 + 4.39
= 31.5268
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 18.674 -2.674 7.149 ESTIMATION
2 18 24 -8.1 -6.4 51.84 40.960 21.530 -3.530 12.461 a 0.714053615
3 23 28 -3.1 -2.4 7.44 5.760 24.386 -1.386 1.922 b 4.392770106
4 24 22 -2.1 -8.4 17.64 70.560 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 27.242 0.758 0.574 x* 38
6 29 28 2.9 -2.4 -6.96 5.760 24.386 4.614 21.286 y^ 31.52680747
7 26 32 -0.1 1.6 -0.16 2.560 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 30.099 0.901 0.812 (x*-xb)^2 57.76
9 32 41 5.9 10.6 62.54 112.360 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 33.669 0.331 0.110 sigma²(epsilon^) 9.71389
Moyenne 26.1 30.4 Somme 351.6 492.4 Somme 63.838749
t (0.975) 2.306004133
sigma²(erreur) 7.97984362
[Link] 24.33965896
[Link] 38.71395598

Variance de l’erreur de prédiction


 
2 1
σˆ εˆ = σˆ ε 1 + +
2 ( xi* − x ) 
2
Intervalle de prédiction pour x* = 38
i*
n ∑ (xi − x )2  40

 i

 1 57.76  35
y = 0.7141x + 4.3928
= 7.9798 × 1 + + 
 10 492.4 
= 9.71389 30

25

b.b. = 31.5298 − 2.306 × 9.71389 = 24.3397 20

b.h. = 31.5298 + 2.306 × 9.71389 = 38.7140


15
15 20 25 30 35 40 45
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 33
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 34
Modèle linéaire 40
Ex. ventes = -12 * prix + 1000
Lecture de la pente  Lecture en niveau : si prix = 10 euros alors
35
30
ventes = 980 unités 25

Y = aX + b
20
 Lecture en termes d’évolution : si prix Y

augmente de 1 euro , les ventes vont


15
10
Linéaire
diminuer de 12 unités. 5 a = 3; b = 5
0
0 5 10 15
X

La variation de Y est proportionnelle à la variation de X


dy Avantages
a=  Simplicité
 Utilisé dans une première approche
dx  Estimation directe des paramètres par la méthode des MCO

Y = bX
6000

a
Modèle log-linéaire Log-linéaire
5000

4000

Y 3000

2000

1000

0
a = 3; b = 5
0 2 4 6 8 10 12
X

dy Le taux de variation de Y est proportionnelle au taux de variation de X


Avantages
y
a=  Modèle à élasticité constante : favori des économistes
dx  Ex. emploi = f(production), demande = f(prix)
x  Linéarisation : ln(y) = a ln(x) + ln(b)

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 35
Modèle exponentiel aX + b
180000

Y =e
160000

(géométrique) Exponentiel
140000

120000

100000
Y
80000

60000

40000

20000

0 2 4 6 a =8 0.7; 10
b = 5 12
X

Le taux de variation de Y est proportionnelle à la variation de X


dy Avantages
 Surtout utilisé quand x = temps, ainsi dx= 1
y
a=  Dans ce cas, la croissance (décroissance) de Y est constante dans le temps
 Ce type d’évolution (croissance exponentielle) ne dure pas longtemps
dx  Linéarisation : ln(y) = a x + ln(b)

Modèle logarithmique 12

Logarithmique
Y = a ln( X ) + b
10

Y 6

2
a = 2; b = 5
0

0 2 4 6 8 10 12
X

dy La variation de Y est proportionnelle au taux de variation de X


a= Avantages
dx  Archétype de la croissance (décroissance) qui s’épuise
x  Ex. salaire = f(ancienneté) ; vente = f(publicité)

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 36
Un modèle particulier
3) Un modèle particulier : le modèle logistique
Le modèle logistique
Problème :
Tous les modèles dans (2) ont une concavité constante
(dérivée seconde de signe constant), on peut avoir besoin
d ’un modèle à plusieurs phases

ex : lancement d ’un produit dans le temps

Décollage Croissance accélérée Freinage


• produit inconnu • large diffusion • saturation du marché
• positionnement sur le • concurrence
marché

ymax − ymin
Equation y = ymin +
1 + e ax + b

ymax − y
Linéarisation ln( ) = a x+b
Équipe de recherche en Ingénierie des Connaissances y − ymin
Laboratoire ERIC 37
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 38
Cas des données centrées

Lorsque les données


sont centrées La constante est nulle
par construction Parce que le barycentre du nuage de
 o points est l’origine du repère c.-à-d.
 y i = yi − y
− −
o o − −
o bˆ = y − aˆ × x = 0 o
y=x=0
o

 x i = xi − x

Y X (Y-YB) (X-XB) 10
16 20 -10.1 -10.4
18 24 -8.1 -6.4 y = 0.7141x - 2E-15 5
23 28 -3.1 -2.4 R² = 0.7973
24 22 -2.1 -8.4 0
28 32 1.9 1.6 -15 -10 -5 0 5 10 15
29 28 2.9 -2.4 -5
26 32 -0.1 1.6
31 36 4.9 5.6 -10
32 41 5.9 10.6
34 41 7.9 10.6 -15
Moyenne 26.1 30.4

La droite passe forcément par le barycentre,


qui se trouve être l’origine (0, 0) du repère.

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 39
Cas des données non-centrées

b = 0  on force le modèle à passer par


l’origine (0,0) du repère
yi = a × xi + ε i

On veut minimiser Une équation normale Estimation de la pente

S = ∑ ε = ∑ ( yi − a × xi )
2 2 ∂S ∑x y i i
i =0 aˆ = i
i i ∂a ∑x i
2
i

Y X Y^.1 Y^.2
45
16 20 18.6738424 17.0248613
18 24 21.5300569 20.4298336
40
23 28 24.3862713 23.8348058
24 22 20.1019496 18.7273474 35
28 32 27.2424858 27.2397781
29 28 24.3862713 23.8348058 30
26 32 27.2424858 27.2397781
31 36 30.0987002 30.6447504 25
32 41 33.6689683 34.9009657
34 41 33.6689683 34.9009657 20
0 4.39277011 0
50 40.0954509 42.5621533 15

Rég.1 - Avec constante 10


0.71405361 4.39277011
a b 5

Rég.2 - Sans constante 0


0.85124307 0 10 20 30 40 50
a

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 40
Cas des données non-centrées (suite)

A propos du R² Le coefficient de détermination R² n’a plus de sens parce que : SCT ≠ SCE + SCR
 Ca ne sert à rien de le calculer

A propos des Un seul paramètre « a » estimé à partir des données  ddl = n - 1


degrés de liberté
SCR
σˆ ε2 = Estimateur sans biais de la variance de l’erreur
n −1

σˆ ε 2
σˆ aˆ =
2

∑ (x ) Variance de la pente estimée


2
i
i

Sert pour les intervalles de confiance


aˆ − a
≡ ℑ(n − 1) Pour les tests de significativité
σˆ aˆ Pour les autres tests

SCR (modèle avec constante) ≤ SCR (modèle sans constante)


A propos des  Pourquoi s’embêter avec un modèle sans constante alors ???
performances  Pour les possibilités d’interprétations

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 41
Cas des données non-centrées – Un exemple
Comparaison des salaires à l’intérieur des ménages

Numero [Link] [Link]


1 7.43 7.20
2 6.83 7.06
3 6.97 7.10 En termes de régression linéaire simple (Y : Sal.H ; X : Sal.F)
yi = a × xi + ε i
4 7.85 7.39
5 7.48 6.97
6 7.86 7.50
7 7.44 7.16
8 7.83 7.77
9 7.36 7.78

H 0 : a = 1
10 7.28 7.47
11 7.53 7.51
Test d’hypothèses
12 8.40 8.07

H1 : a > 1
13 7.48 7.25 (Attention : test unilatéral ) !
14 7.46 6.79
15 7.33 7.14
16 7.80 7.38
17 7.57 7.53
18 6.02 6.03
19 7.28 7.05
20 8.42 8.01 a^ 1.021323921 0
21 7.42 7.25 sigma(a) 0.006821202 #N/A
22 7.47 7.59 0.998708093 0.27418841
23 7.14 7.20 22418.42983 29 ddl
24 7.29 6.93 1685.401501 2.18019923
25 8.28 7.85
26 6.98 7.29 a^-1 0.021323921
27 8.03 7.94
aˆ − 1 1 . 0213 − 1
28 7.69 7.11
t calculé 3.126123666 t = =
29
30
6.67
7.92
6.76
7.72 σˆ aˆ 0 . 00682
t-théorique (95%) 1.699126996

En moyenne, l’homme a-t-il un salaire plus Conclusion Rejet de H0


élevé que sa conjointe dans les ménages
(lorsque les deux sont salariés ?) t = 3 . 126 > t 1 − α ( n − 1 ) = t 0 . 95 ( 29 ) = 1 . 699

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 42
Bibliographique

• R. Bourbonnais, « Économétrie », Dunod, 1998.

• [Link], [Link], « Analyse de régression appliquée », Dunod, 2004.

• M. Tenenhaus, « Statistique : Méthodes pour décrire, expliquer et

prévoir », Dunod, 2007.

Équipe de recherche en Ingénierie des Connaissances


Laboratoire ERIC 43

Vous aimerez peut-être aussi