0% ont trouvé ce document utile (0 vote)

22 vues43 pages

Chapitre4 RLS

informatique

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

22 vues43 pages

Chapitre4 RLS

informatique

Transféré par

mailbichou338

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Prédire / expliquer les valeurs d’une variable

quantitative Y à partir d’une autre variable X

Ricco Rakotomalala
[Link]@[Link]

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 1
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 2
Position du problème Exemple de régression simple (Bourbonnais, page 12)
Expliquer le rendement de maïs Y (en quintal) à partir de la quantité
d'engrais utilisé (en kilo) sur des parcelles de terrain similaires.

Variable à prédire
Attribut classe Variables prédictive
Variable endogène Descripteur
Quantitative Variable exogène
Quantitative ou binaire
N° de parcelle Y X
Identifiant 1 16 20
2 18 24
(Pas utilisé pour les calculs, mais peut
3 23 28
être utilisé pour les commentaires : 4 24 22
points atypiques, etc.) 5 28 32
6 29 28
7 26 32
8 31 36
9 32 41
10 34 41

Modèle de régression simple : yi = a × xi + b + ε i

Nous disposons donc d’un échantillon de n couples de points (xi,yi) i.i.d (indépendants et identiquement
distribués), et on veut expliquer (prédire) les valeurs de Y en fonction des valeurs prises par X.

Le terme aléatoire permet de résumer toute l’information qui n’est pas prise en compte dans la
relation linéaire entre Y et X (problèmes de spécifications, approximation de la linéarité, résumer les
variables qui sont absentes, etc.)

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 3
Hypothèses
Permettent de déterminer les propriétés des estimateurs
Et de mettre en place les outils de statistique inférentielle (tests d’hypothèses, intervalle de confiance)

H1 : Hypothèses sur X et Y. Ce sont des grandeurs numériques mesurées sans erreur. X est une donnée
(exogène) dans le modèle, Y est aléatoire par l’intermédiaire de ε (c.-à-d. la seule erreur que l’on a sur Y
provient des insuffisances de X à expliquer ses valeurs dans le modèle).

H2 : Hypothèses sur le terme aléatoire . Les εi sont i.i.d. (indépendants et identiquement distribués)

(H2.a) En moyenne les erreurs s’annulent, le modèle est bien spécifié E (ε i ) = 0

(H2.b) La variance de l’erreur est constante et ne dépend pas de l’observation : homoscédasticité V (ε i ) = σ ε2

(H2.c) En particulier, l’erreur est indépendante de la variable exogène COV ( xi , ε i ) = 0

(H2.d) Indépendance des erreurs, les erreurs relatives à 2 observations sont indépendantes (on dit aussi que

les erreurs « ne sont pas corrélées ») COV (ε i , ε j ) = 0

(H2.e) Loi normale ε i ≡ N (0, σ ε )

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 4
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 5
Estimateur des MCO (Moindres carrés ordinaires)
Critère numérique
Critère des moindres carrés : trouver les valeurs de a et b qui
minimise la somme des carrés des écarts entre les vraies valeurs
yi
εi de Y et les valeurs prédites avec le modèle de prédiction.
a × xi + b
n
S = ∑ε
2
i
i =1 Remarque : Pourquoi
n pas la somme des
S = ∑ [y
i =1
i − ( ax i + b )] 2 erreurs ? Ou la somme
des écarts absolus ?
n
xi S = ∑ [y
i =1
i − ax i − b ] 2

 ∂S
 ∂a = 0 ∑ xi y i − a ∑ xi 2 − bx = 0

SOLUTION   i i
Equations normales
 ∂S = 0  y − ax − b = 0
 ∂b

 ∑ ( yi − y )(xi − x )
aˆ = i

∑i (xi − x )
2
 Estimateurs des moindres carrés

bˆ = y − aˆx Voir détail des calculs…

Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 6
Exemple des rendements agricoles

Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2

1 16 20 -10.1 -10.4 105.04 108.160
2 18 24 -8.1 -6.4 51.84 40.960
3 23 28 -3.1 -2.4 7.44 5.760
4 24 22 -2.1 -8.4 17.64 70.560
5 28 32 1.9 1.6 3.04 2.560
6 29 28 2.9 -2.4 -6.96 5.760
7 26 32 -0.1 1.6 -0.16 2.560
8 31 36 4.9 5.6 27.44 31.360
9 32 41 5.9 10.6 62.54 112.360
10 34 41 7.9 10.6 83.74 112.360
Moyenne 26.1 30.4 Somme 351.6 492.4

 351.6
aˆ = = 0.714
 492.4
bˆ = 26.1 − 0.714 × 30.4 = 4.39

35
y = 0.7141x + 4.3928
33

15
15 20 25 30 35 40 45

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 7
Quelques commentaires

C Oˆ V ( X , Y ) σˆ Relation entre la pente et le

Autre écriture de la pente « a » aˆ = = ˆ
r Y
coefficient de corrélation
σˆ X2 σˆ X linéaire !!!

Erreur et résidus : « erreur » =

définie dans la spécification du yˆ i = yˆ ( x i )
εˆi = yi − yˆ i
modèle ; « résidus », erreurs = aˆ x i + bˆ
observées sur les données Résidus de la régression
Pour la régression
∑ εˆ
i
i =0 avec constante !
Voir détail des calculs…

Centre de gravité du nuage de yˆ ( x ) = aˆx + bˆ 35

33y = 0.7141x + 4.3928

points : la droite de régression
= aˆx + ( y − aˆx ) 31
passe forcément par le 29

barycentre du nuage de points. =y 27

Équipe de recherche en Ingénierie des Connaissances 15 20 25 30 35 40 45

Laboratoire ERIC 8
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 9
Equation d’analyse de variance
Décomposition de la variance

Objectif de la régression : minimiser S. n

S = ∑ ( y i − yˆ i )
2
Mais 0 ≤ S ≤ +∞ ; à partir de quand peut-on dire que
i =1
la régression est de « bonne qualité » ?

∑ (y − y ) = ∑ ( y i − yˆ i + yˆ i − y )
2 2
i
i i
Somme des écarts à la moyenne
= ∑ ( y i − yˆ i ) + ∑ ( yˆ i − y ) + 2∑ ( y i − yˆ i )( yˆ i − y )
2 2

i i i

=0
Voir détail des calculs…

(
∑ iy − y )2
= (
∑ i i ∑ i
y − ˆ
y )2
+ ( ˆ
y − y )2

Décomposition i i i
de la variance SCT = SCR + SCE

SCT : somme des carrés totaux

SCE : somme des carrés expliqués par le modèle
SCR : somme des carrés résiduels, non expliqués par le modèle

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 10
Coefficient de détermination
Et coefficient de corrélation linéaire multiple

( yˆ − y)
SCE ∑
2
i
R2 = = i
SCT ∑ ( y − y)
2

Coefficient de détermination. i
i

Exprime la part de variabilité de Y expliquée par le modèle. SCR

R2 = 1−
SCT
R² 1, le modèle est excellent ∑ ( yi − yˆi )
2

R² 0, le modèle ne sert à rien R2 = 1− i

∑ (y − y)
2
i
i

Coefficient de corrélation
linéaire multiple R R = R2

On montre que rY , X = sgn(aˆ ) × R

Lien entre le coefficient de corrélation linéaire (de Pearson) et le coefficient de
corrélation linéaire multiple de la régression linéaire simple

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 11
Exemple des rendements agricoles

yˆ i = aˆxi + bˆ
= 0.714 xi + 4.39 εˆi = yi − yˆ i
εˆi2

Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2

1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.838749
SCT SCR

ESTIMATION
a 0.714053615
b 4.392770106 SCE = SCT - SCR 251.061251

R² 0.79727295

R 0.89290142

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 12
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 13
Biais

E [aˆ ] = a
Les estimateurs sont sans biais si…
[]
E bˆ = b

â = a + ∑ ωi ε i ωi =
(xi − x )
∑ (x − x)
Etape 1 : Exprimer â en fonction de a Où 2
j
Voir détail des calculs… i j

 
Etape 2 : Déterminer E(â) en fonction de a E (â ) = a + E  ∑ ωiε i 
 i 

E (â ) = a + ∑ ωi E (ε i ) X n’est pas aléatoire par

hypothèse, donc ωi ne l’est pas
Etape 3 : Identifier sous quelles i

conditions E(â) = a
E (â ) = a
E(εi) = E(ε) ; les εi sont i.i.d.
E(ε) = 0 par hypothèse

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 14
Biais (suite)

Pour « b » bˆ = b + ε − (aˆ − a )x
Avec les mêmes hypothèses, on aboutit à ()
E bˆ = b

Conclusion : Les EMCO (estimateurs des moindres

carrés ordinaires) sont sans biais, si

Les X ne sont pas stochastiques (non aléatoires)

E(ε) = 0 c.-à-d. le modèle est bien spécifié

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 15
Variance

V (aˆ ) = E[(aˆ − a ) ]
2

puisque
  
2
â = a + ∑ ωi ε i
= E  ∑ ωiε i   i

 i  
 
= E ∑ ωi2ε i2 + 2∑ ωiωi 'ε iε i ' 
 i i <i ' 
( )
= ∑ ωi2 E ε i2 + 2∑ ωiωi ' E (ε iε i ' )
i i <i '

( )
V (ε i ) = E ε i2 = σ ε2 E (ε iε i ' ) = 0

Homoscédasticité Non-autocorrélation des résidus

avec
σ ε2
(xi − x ) V (aˆ ) =
( )
ωi =
∑ (x − x)
∑ i −
2 2
j
j x x
i

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 16
Convergence

σ ε2
Est une valeur qui ne dépend pas des effectifs (variance de l’erreur

σ ε2 théorique)
V (aˆ ) =
(
∑ ix − x )2
(
∑ ix − x )2
n→ +∞
→ +∞
i i

â est convergent V (aˆ ) n→ 0

→ +∞

 
()
2
1 x 
De même, pour « b » V bˆ = σ ε2  +
n ∑ (xi − x )2 
 i


()
V bˆ n→ 0
→ +∞

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 17
Caractérisation graphique

o o

o o
o
o o o
o
o o
o
(1) o o
o o

o
o o o o
o o o

( )
E εi = σε
2 2
est faible
( )
E εi = σε
2 2
est élevé
est faible, modèle « stable » V (aˆ ) est moyennement élevée
V (aˆ )
Cette élévation est compensée par
∑ (xi − x )2
la valeur élevée de i

Les estimateurs sont d’autant plus précis que :

o
o
(2) oo oo
ooo
oo
o
(1) La variance de l’erreur est faible (la droite de
régression passe bien au milieu des points.
(2) La dispersion des X est forte (les X couvrent
bien l’espace de représentation)
( )
E εi = σε
2 2
est faible
V (aˆ ) ?
∑ (x − x )
2
i est faible
i
L’adjonction d’un point supplé mentaire dans la régression fait « bouger » la droite
Le modè le est instable é galeme nt

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 18
Théorème de GAUSS-MARKOV

Les EMCO de la régression sont sans biais et convergents.

Parmi les estimateurs sans biais, ils sont à variance minimale c.-à-d. il est
impossible de trouver un autre estimateur sans biais à plus petite variance

On dit qu’ils sont BLUE (best linear unbiased estimator)

Ce sont des « estimateurs efficaces »

Cf. démonstration C. Labrousse (1983), page 26

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 19
Estimation de la variance de l’erreur

σ ε2 Joue un rôle très important. Comment l’estimer à partir des données ?

(
εˆi = yi − yˆ i = axi + b + ε i − aˆxi + bˆ )
Le résidu est tel que
( )
= ε i − (aˆ − a )xi − bˆ − b

 
On montre que E  ∑ εˆi2  = (n − 2 )σ ε2
Giraud & Chaix (1994), page 31  i 

On en déduit un ∑ εˆ i
2
SCR
estimateur sans biais
σˆ ε2 = i
=
n−2 n−2

∑ xi εˆi = 0
Parce 2 contraintes avec les  i

équations normale ∑ εˆi = 0
 i
Remarque : A propos du degré
de liberté (n-2)
Parce que (simplement), on estimé 2 paramètres « a » et « b »
dans le modèle pour obtenir les prédictions, et donc les résidus

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 20
Rendements agricoles

Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2

sigma²(epsilon) 7.979843623
ESTIMATION
a 0.714053615 sigma²(a^) 0.01620602 sigma(a^) 0.127302862
b 4.392770106 sigma²(b^) 15.7749386 sigma(b^) 3.971767696

σˆ ε2 SCR (n − 2 )
Vˆ (aˆ ) = σˆ =
2
=
∑ (x − x )
aˆ 2
i
492.4
i σˆ aˆ = σˆ a2ˆ = 0.0162 = 0.127
7.9798
= = 0.0162
492.4

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 21
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 22
Distribution de « â » – Variance de l’erreur connue

∑ ( y − y )(x − x )
i i
X est non aléatoire
aˆ = i

∑ (x − x ) i
2 Y l’est par l’entremise de ε
i
ε ≡ N (0, σ ε )

aˆ − a
≡ N (0,1)
Et « â » est issue d’une
combinaison linéaire de Y σ aˆ

Distribution de l’estimation de la variance de l’erreur

σε 2 σˆ ε 2
σ aˆ =
2
σˆ aˆ =
2
σˆ ε2
∑ (xi − x ) ∑ (xi − x ) on a besoin de connaître la distribution de
2 2

i i

Par hypothèse
Le résidu étant une réalisation de ε, εˆi
ε ≡ N (0, σ ε ) elle suit aussi une loi normale σε
≡ N (0,1)

2
 εˆi  ∑ εˆi
2

∑  σ  = i 2 ≡ χ 2 (n − 2 )
i  ε σε

(n − 2) σ ε2 ≡ χ 2 (n − 2)
ˆ2
σε
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 23
Distribution de « â » – Variance de l’erreur estimée

σˆ aˆ 2 σˆ ε 2 σˆ aˆ 2
On vérifie (n − 2) 2 = (n − 2) 2 (n − 2) 2 ≡ χ 2 (n − 2)
facilement σ aˆ σε σ aˆ

De la même
aˆ − a bˆ − b
On en déduit ≡ ℑ(n − 2 ) manière, on ≡ ℑ(n − 2)
dès lors que σˆ aˆ montre
σˆ bˆ

Intervalle de confiance au niveau (1 - α) [aˆ ± t

1−α 2 × σˆ aˆ ]

A partir de ces
 H 0 : a = a0
éléments, on peut Tests d’hypothèses au risque α 
 H 1 : a ≠ a0
mettre en place
l’inférence statistique Avec, en particulier le test de H 0 : a = 0
significativité (mesurer l’impact 
de X dans l’explication de Y via le  H1 : a ≠ 0
modèle)

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 24
Rendements agricoles – Tests de significativité des coefficients
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR

sigma²(epsilon) 7.979843623
ESTIMATION
a 0.714053615 sigma²(a^) 0.016206019 sigma(a^) 0.127302862
b 4.392770106 sigma²(b^) 15.77493863 sigma(b^) 3.971767696

ddl 8

t théorique (bilatéral à 5%) 2.306004133

t(a^) 5.609093169 rejet H0

t(b^) 1.10599875 acceptation H0

aˆ 0.714
t aˆ = = = 5.609
σˆ aˆ 0.127
Puisque t aˆ > t1−α 2
t1−α / 2 (8) = t1−0.05 / 2 (8) = t0.975 (8) = 2.306
Rejet de H0 : a = 0

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 25
Test de significativité globale du modèle
H0 : Le modèle n’amène rien dans l’explication de Y
H1 : Le modèle est pertinent (globalement significatif)

Tableau d’analyse
de variance

Remarque : Ecriture de F à partir du R²

SCE
R2
Statistique de test F = 1 ≡ F (1, n − 2) F=
(
1− R2 )
SCR
n−2 (n − 2)

Région critique au F > F1−α (1, n − 2)

risque α
Remarque : Tester la significativité de la
régression et tester la significativité de la pente
sont équivalents dans la régression simple.
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 26
Rendements agricoles – Tests de significativité globale
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 (Y-YB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 102.010 18.674 -2.674 7.149
2 18 24 -8.1 -6.4 51.84 40.960 65.610 21.530 -3.530 12.461
3 23 28 -3.1 -2.4 7.44 5.760 9.610 24.386 -1.386 1.922
4 24 22 -2.1 -8.4 17.64 70.560 4.410 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 3.610 27.242 0.758 0.574
6 29 28 2.9 -2.4 -6.96 5.760 8.410 24.386 4.614 21.286
7 26 32 -0.1 1.6 -0.16 2.560 0.010 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 24.010 30.099 0.901 0.812
9 32 41 5.9 10.6 62.54 112.360 34.810 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 62.410 33.669 0.331 0.110
Moyenne 26.1 30.4 Somme 351.6 492.4 314.9 Somme 63.83874898
SCT SCR

Tableau d'analyse de variance

ESTIMATION Source de variation SC DDL CM
a 0.714053615 Expliqués (Régression) 251.061251 1 251.061251
b 4.392770106 Résidus 63.83874898 8 7.979843623
Total 314.9 9

F calculé 31.46192618 rejet de H0

DDL1 1
DDL2 8
F théorique (à 5%) 5.317655063

SCE
Rejet de H0 c.-à-d. on conclut que le
F= 1 =
251.06
= 31.4619 Puisque F > F1−α modèle est globalement significatif
SCR 7.9798
n−2
Remarque :
F1−α (1, 8) = F0.95 (1, 8) = 5.37655
F = 31.4619 = 5.609 = t aˆ

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 27
Rendements agricoles – La fonction DROITEREG d’EXCEL

Y X
16 20
18 24
23 28
24 22
28 32 DROITEREG
29 28 â 0.71405361 4.392770106 b̂
26
31
32
36 σˆ â 0.12730286 3.971767696 σˆ b̂
32 41
R 2 0.79727295 2.8248617 σˆ ε
34 41
F 31.4619262 8 n−2
SCE 251.061251 63.83874898 SCR
Intervalle de confiance à 5%
t théorique 2.30600413 2.306004133
Borne basse 0.42049269 -4.76614262
Borne haute 1.00761454 13.55168283

Test de significativité des coefficients

t de Student 5.60909317 1.10599875
p-value 0.00050487 0.30087418

Test de la régression globale

F-calculé 31.4619262
DDL numérateur 1
DDL dénominateur 8
p-value 0.00050487

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 28
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 29
Prévision ponctuelle
A prédire d’une valeur connue de X, prédire la valeur de Y

Pour un individu i*, la

prédiction ponctuelle s’écrit yˆ i* = yˆ ( xi* ) = aˆxi* + bˆ

La prédiction est sans biais c.-à-d. E ( yˆ i* ) = yi*

εˆi* = yˆ i* − yi*
[ ( ) ]
En effet,
E (εˆi* ) = E (aˆ − a )xi* + bˆ − b − ε i*
= aˆxi* + bˆ − (axi* + b + ε i* )
( )
= (aˆ − a )x + bˆ − b − ε
i* ( )
= x E (aˆ − a ) + E bˆ − b − E (ε i* )
i* i*

0
0 L’erreur du modèle est
Les EMCO sont sans biais nulle par hypothèse

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 30
Prévision par intervalle εˆi* = yˆ i* − yi*
Variance de l’erreur de prévision
E (εˆi* ) = 0
Puisque

 
On montre ( ) 
V (εî* ) = E εî2* = σ ε2 1 + +
1 ( xi* − x )2

= σ ε2î*
Giraud & Chaix (1994), page 30 n ∑ (xi − x ) 2
 i


Remarque :
  (xi* − x )
(xi* − x ) 
2
2 1
D’où la variance estimée  1 hi* = +
σˆ ε2ˆ = σˆ ε2 1 + + n ∑ ( xi − x )2
de l’erreur de prévision i*
n ∑ ( xi − x )2 
 i
 i
est le LEVIER de l’observation i*
(Il joue un rôle très important dans la
régression. Cf. points atypiques).

SCR
(1) σˆ ε2 = est petit c.-à-d. la droite ajuste bien le nuage de points .
n−2

(2) ( xi* − x )
2
La variance de est petit c.-à-d. le point est proche du centre de gravité du nuage.
l’erreur sera d’autant
plus faible que :
(3) ∑ (x − x )
i
i
2
est grand c.-à-d. la dispersion des points est grande.

(4) n est grand c.-à-d. le nombre d’observations ayant servi à la construction du modèle est élevé.

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 31
Prévision par intervalle
Distribution – Définition de l’intervalle

Puisque ε ≡ N (0, σ ε ) (
εˆi* = yˆ i* − yi* ≡ N 0, σ ε 1 + hi* )

(n − 2) σ ε2 ≡ χ 2 (n − 2)
ˆ2
σε

yˆ i* − yi*
≡ ℑ(n − 2 ) Rapport d’une loi normale avec un KHI-2 normalisé
σˆ εˆi*

yˆ i* ± t1−α 2 × σˆ εˆi* Intervalle de confiance au niveau (1-α)

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 32
yˆ i* = aˆxi* + bˆ
Rendements agricoles – x* = 38 Prédiction ponctuelle
= 0.714 × 38 + 4.39
= 31.5268
Y X (Y-YB) (X-XB) (Y-YB)(X-XB) (X-XB)^2 Y^ Résidus Résidus^2
1 16 20 -10.1 -10.4 105.04 108.160 18.674 -2.674 7.149 ESTIMATION
2 18 24 -8.1 -6.4 51.84 40.960 21.530 -3.530 12.461 a 0.714053615
3 23 28 -3.1 -2.4 7.44 5.760 24.386 -1.386 1.922 b 4.392770106
4 24 22 -2.1 -8.4 17.64 70.560 20.102 3.898 15.195
5 28 32 1.9 1.6 3.04 2.560 27.242 0.758 0.574 x* 38
6 29 28 2.9 -2.4 -6.96 5.760 24.386 4.614 21.286 y^ 31.52680747
7 26 32 -0.1 1.6 -0.16 2.560 27.242 -1.242 1.544
8 31 36 4.9 5.6 27.44 31.360 30.099 0.901 0.812 (x*-xb)^2 57.76
9 32 41 5.9 10.6 62.54 112.360 33.669 -1.669 2.785
10 34 41 7.9 10.6 83.74 112.360 33.669 0.331 0.110 sigma²(epsilon^) 9.71389
Moyenne 26.1 30.4 Somme 351.6 492.4 Somme 63.838749
t (0.975) 2.306004133
sigma²(erreur) 7.97984362
[Link] 24.33965896
[Link] 38.71395598

Variance de l’erreur de prédiction

 
2 1
σˆ εˆ = σˆ ε 1 + +
2 ( xi* − x ) 
2
Intervalle de prédiction pour x* = 38
i*
n ∑ (xi − x )2  40

 i

 1 57.76  35
y = 0.7141x + 4.3928
= 7.9798 × 1 + + 
 10 492.4 
= 9.71389 30

b.b. = 31.5298 − 2.306 × 9.71389 = 24.3397 20

b.h. = 31.5298 + 2.306 × 9.71389 = 38.7140

15
15 20 25 30 35 40 45
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 33
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 34
Modèle linéaire 40
Ex. ventes = -12 * prix + 1000
Lecture de la pente Lecture en niveau : si prix = 10 euros alors
35
30
ventes = 980 unités 25

Y = aX + b
20
Lecture en termes d’évolution : si prix Y

augmente de 1 euro , les ventes vont

15
10
Linéaire
diminuer de 12 unités. 5 a = 3; b = 5
0
0 5 10 15
X

La variation de Y est proportionnelle à la variation de X

dy Avantages
a= Simplicité
Utilisé dans une première approche
dx Estimation directe des paramètres par la méthode des MCO

Y = bX
6000

a
Modèle log-linéaire Log-linéaire
5000

4000

Y 3000

2000

1000

0
a = 3; b = 5
0 2 4 6 8 10 12
X

dy Le taux de variation de Y est proportionnelle au taux de variation de X

Avantages
y
a= Modèle à élasticité constante : favori des économistes
dx Ex. emploi = f(production), demande = f(prix)
x Linéarisation : ln(y) = a ln(x) + ln(b)

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 35
Modèle exponentiel aX + b
180000

Y =e
160000

(géométrique) Exponentiel
140000

120000

100000
Y
80000

60000

40000

20000

0 2 4 6 a =8 0.7; 10
b = 5 12
X

Le taux de variation de Y est proportionnelle à la variation de X

dy Avantages
Surtout utilisé quand x = temps, ainsi dx= 1
y
a= Dans ce cas, la croissance (décroissance) de Y est constante dans le temps
Ce type d’évolution (croissance exponentielle) ne dure pas longtemps
dx Linéarisation : ln(y) = a x + ln(b)

Modèle logarithmique 12

Logarithmique
Y = a ln( X ) + b
10

Y 6

2
a = 2; b = 5
0

0 2 4 6 8 10 12
X

dy La variation de Y est proportionnelle au taux de variation de X

a= Avantages
dx Archétype de la croissance (décroissance) qui s’épuise
x Ex. salaire = f(ancienneté) ; vente = f(publicité)

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 36
Un modèle particulier
3) Un modèle particulier : le modèle logistique
Le modèle logistique
Problème :
Tous les modèles dans (2) ont une concavité constante
(dérivée seconde de signe constant), on peut avoir besoin
d ’un modèle à plusieurs phases

ex : lancement d ’un produit dans le temps

Décollage Croissance accélérée Freinage

• produit inconnu • large diffusion • saturation du marché
• positionnement sur le • concurrence
marché

ymax − ymin
Equation y = ymin +
1 + e ax + b

ymax − y
Linéarisation ln( ) = a x+b
Équipe de recherche en Ingénierie des Connaissances y − ymin
Laboratoire ERIC 37
Équipe de recherche en Ingénierie des Connaissances
Laboratoire ERIC 38
Cas des données centrées

Lorsque les données

sont centrées La constante est nulle
par construction Parce que le barycentre du nuage de
 o points est l’origine du repère c.-à-d.
 y i = yi − y
− −
o o − −
o bˆ = y − aˆ × x = 0 o
y=x=0
o

 x i = xi − x

Y X (Y-YB) (X-XB) 10
16 20 -10.1 -10.4
18 24 -8.1 -6.4 y = 0.7141x - 2E-15 5
23 28 -3.1 -2.4 R² = 0.7973
24 22 -2.1 -8.4 0
28 32 1.9 1.6 -15 -10 -5 0 5 10 15
29 28 2.9 -2.4 -5
26 32 -0.1 1.6
31 36 4.9 5.6 -10
32 41 5.9 10.6
34 41 7.9 10.6 -15
Moyenne 26.1 30.4

La droite passe forcément par le barycentre,

qui se trouve être l’origine (0, 0) du repère.

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 39
Cas des données non-centrées

b = 0 on force le modèle à passer par

l’origine (0,0) du repère
yi = a × xi + ε i

On veut minimiser Une équation normale Estimation de la pente

S = ∑ ε = ∑ ( yi − a × xi )
2 2 ∂S ∑x y i i
i =0 aˆ = i
i i ∂a ∑x i
2
i

Y X Y^.1 Y^.2
45
16 20 18.6738424 17.0248613
18 24 21.5300569 20.4298336
40
23 28 24.3862713 23.8348058
24 22 20.1019496 18.7273474 35
28 32 27.2424858 27.2397781
29 28 24.3862713 23.8348058 30
26 32 27.2424858 27.2397781
31 36 30.0987002 30.6447504 25
32 41 33.6689683 34.9009657
34 41 33.6689683 34.9009657 20
0 4.39277011 0
50 40.0954509 42.5621533 15

Rég.1 - Avec constante 10

0.71405361 4.39277011
a b 5

Rég.2 - Sans constante 0

0.85124307 0 10 20 30 40 50
a

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 40
Cas des données non-centrées (suite)

A propos du R² Le coefficient de détermination R² n’a plus de sens parce que : SCT ≠ SCE + SCR
Ca ne sert à rien de le calculer

A propos des Un seul paramètre « a » estimé à partir des données ddl = n - 1

degrés de liberté
SCR
σˆ ε2 = Estimateur sans biais de la variance de l’erreur
n −1

σˆ ε 2
σˆ aˆ =
2

∑ (x ) Variance de la pente estimée

2
i
i

Sert pour les intervalles de confiance

aˆ − a
≡ ℑ(n − 1) Pour les tests de significativité
σˆ aˆ Pour les autres tests

SCR (modèle avec constante) ≤ SCR (modèle sans constante)

A propos des Pourquoi s’embêter avec un modèle sans constante alors ???
performances Pour les possibilités d’interprétations

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 41
Cas des données non-centrées – Un exemple
Comparaison des salaires à l’intérieur des ménages

H 0 : a = 1
10 7.28 7.47
11 7.53 7.51
Test d’hypothèses
12 8.40 8.07

H1 : a > 1
13 7.48 7.25 (Attention : test unilatéral ) !
14 7.46 6.79
15 7.33 7.14
16 7.80 7.38
17 7.57 7.53
18 6.02 6.03
19 7.28 7.05
20 8.42 8.01 a^ 1.021323921 0
21 7.42 7.25 sigma(a) 0.006821202 #N/A
22 7.47 7.59 0.998708093 0.27418841
23 7.14 7.20 22418.42983 29 ddl
24 7.29 6.93 1685.401501 2.18019923
25 8.28 7.85
26 6.98 7.29 a^-1 0.021323921
27 8.03 7.94
aˆ − 1 1 . 0213 − 1
28 7.69 7.11
t calculé 3.126123666 t = =
29
30
6.67
7.92
6.76
7.72 σˆ aˆ 0 . 00682
t-théorique (95%) 1.699126996

En moyenne, l’homme a-t-il un salaire plus Conclusion Rejet de H0

élevé que sa conjointe dans les ménages
(lorsque les deux sont salariés ?) t = 3 . 126 > t 1 − α ( n − 1 ) = t 0 . 95 ( 29 ) = 1 . 699

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 42
Bibliographique

• R. Bourbonnais, « Économétrie », Dunod, 1998.

• [Link], [Link], « Analyse de régression appliquée », Dunod, 2004.

• M. Tenenhaus, « Statistique : Méthodes pour décrire, expliquer et

prévoir », Dunod, 2007.

Équipe de recherche en Ingénierie des Connaissances

Laboratoire ERIC 43

Vous aimerez peut-être aussi

Regression Lineaire Simple
100% (1)
Regression Lineaire Simple
43 pages
Regression Lineaire Simple12
Pas encore d'évaluation
Regression Lineaire Simple12
36 pages
Introduction à l'Économétrie : Régression Linéaire
0% (1)
Introduction à l'Économétrie : Régression Linéaire
95 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
20 pages
13 Regression Linéaire
Pas encore d'évaluation
13 Regression Linéaire
25 pages
Modele Lineaire Module 1
Pas encore d'évaluation
Modele Lineaire Module 1
55 pages
Régression Linéaire et Moindres Carrés
Pas encore d'évaluation
Régression Linéaire et Moindres Carrés
53 pages
Chapitre 4 Regression Generalities
Pas encore d'évaluation
Chapitre 4 Regression Generalities
9 pages
Modèle de régression linéaire simple
100% (1)
Modèle de régression linéaire simple
69 pages
Chapitre III REGRESSION LINEAIRE SIMPLE
Pas encore d'évaluation
Chapitre III REGRESSION LINEAIRE SIMPLE
3 pages
Regression Lineaire Multiple
Pas encore d'évaluation
Regression Lineaire Multiple
35 pages
Régression linéaire-DERNIERE PARTIE
Pas encore d'évaluation
Régression linéaire-DERNIERE PARTIE
34 pages
Méthodes de Prévision Quantitatives
Pas encore d'évaluation
Méthodes de Prévision Quantitatives
64 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
13 pages
Régression Linéaire Simple et Modèles Statistiques
100% (1)
Régression Linéaire Simple et Modèles Statistiques
51 pages
Stat Cours
Pas encore d'évaluation
Stat Cours
27 pages
8 Regression
Pas encore d'évaluation
8 Regression
32 pages
Concepts de Régression Linéaire
Pas encore d'évaluation
Concepts de Régression Linéaire
92 pages
Cours2 ADD
Pas encore d'évaluation
Cours2 ADD
45 pages
Ajustement Linéaire Hqse
Pas encore d'évaluation
Ajustement Linéaire Hqse
30 pages
EXEM
100% (1)
EXEM
4 pages
Cours RLMultiple
100% (2)
Cours RLMultiple
60 pages
Partie 2-1 Régression Linéaire Simple
Pas encore d'évaluation
Partie 2-1 Régression Linéaire Simple
25 pages
Prévisions Quantitatives et Régression
100% (6)
Prévisions Quantitatives et Régression
25 pages
Exercices et Corrections en Régression Linéaire
Pas encore d'évaluation
Exercices et Corrections en Régression Linéaire
10 pages
Méthode Linéaire Gaussienne Simple
Pas encore d'évaluation
Méthode Linéaire Gaussienne Simple
60 pages
Econométrie I 17 18
Pas encore d'évaluation
Econométrie I 17 18
31 pages
Regression Multiple
Pas encore d'évaluation
Regression Multiple
19 pages
Regression Multiple
Pas encore d'évaluation
Regression Multiple
19 pages
CHP 2
Pas encore d'évaluation
CHP 2
8 pages
Régression Linéaire Simple Et Multiple
Pas encore d'évaluation
Régression Linéaire Simple Et Multiple
13 pages
Régression Linéaire Simplifiée
Pas encore d'évaluation
Régression Linéaire Simplifiée
30 pages
Régression Linéaire Simple et Tests Statistiques
Pas encore d'évaluation
Régression Linéaire Simple et Tests Statistiques
36 pages
Cahier d'Exercices en Économétrie
100% (2)
Cahier d'Exercices en Économétrie
24 pages
Régression Linéaire et Logistique expliquées
Pas encore d'évaluation
Régression Linéaire et Logistique expliquées
51 pages
Chap2 Regression
Pas encore d'évaluation
Chap2 Regression
78 pages
Introduction à la régression linéaire
100% (3)
Introduction à la régression linéaire
42 pages
Régression Linéaire: Guide Pratique
Pas encore d'évaluation
Régression Linéaire: Guide Pratique
130 pages
Variables Expliquées et Explicatives
Pas encore d'évaluation
Variables Expliquées et Explicatives
20 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
16 pages
Analyse de la régression linéaire
Pas encore d'évaluation
Analyse de la régression linéaire
126 pages
Régression et Corrélation: Guide SEO
100% (1)
Régression et Corrélation: Guide SEO
33 pages
Chapitre7 PDF
Pas encore d'évaluation
Chapitre7 PDF
19 pages
Seance 8
Pas encore d'évaluation
Seance 8
10 pages
Introduction à la régression linéaire simple
100% (1)
Introduction à la régression linéaire simple
9 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
17 pages
Corrigé TD Econométrie L3 Gestion
Pas encore d'évaluation
Corrigé TD Econométrie L3 Gestion
12 pages
Cours m1 Econometrie Appliquee Slide34
100% (2)
Cours m1 Econometrie Appliquee Slide34
60 pages
Corrélation et Régression Linéaire
Pas encore d'évaluation
Corrélation et Régression Linéaire
5 pages
Régression Linéaire: Concepts et Calculs
Pas encore d'évaluation
Régression Linéaire: Concepts et Calculs
16 pages
Regression Lineaire Simple PDF
Pas encore d'évaluation
Regression Lineaire Simple PDF
43 pages
Chapitre 2 - R├йgression Lin├йaire
100% (1)
Chapitre 2 - R├йgression Lin├йaire
38 pages
Modèles Linéaires et Moindres Carrés
Pas encore d'évaluation
Modèles Linéaires et Moindres Carrés
20 pages
Liaison Entre Deux Caractères Quantitatifs
Pas encore d'évaluation
Liaison Entre Deux Caractères Quantitatifs
7 pages
Supplementaire Cluseing
Pas encore d'évaluation
Supplementaire Cluseing
7 pages
Chapitre3 LDA
Pas encore d'évaluation
Chapitre3 LDA
8 pages
Méthodes de Clustering et Hiérarchies
Pas encore d'évaluation
Méthodes de Clustering et Hiérarchies
11 pages
Chapitre1 ACP+AFC
Pas encore d'évaluation
Chapitre1 ACP+AFC
20 pages
5 Les Methodes de Calage
Pas encore d'évaluation
5 Les Methodes de Calage
7 pages
Regression Logistique Cours Complet
Pas encore d'évaluation
Regression Logistique Cours Complet
4 pages
Cours 1-2
Pas encore d'évaluation
Cours 1-2
41 pages
Tpe Ged234
Pas encore d'évaluation
Tpe Ged234
7 pages
StatDesc - Beamer 1 35 1 30
Pas encore d'évaluation
StatDesc - Beamer 1 35 1 30
30 pages
Régression Linéaire Simplifiée
Pas encore d'évaluation
Régression Linéaire Simplifiée
72 pages
TD Econometrie L3
Pas encore d'évaluation
TD Econometrie L3
8 pages
Cours de Statistique 2021
Pas encore d'évaluation
Cours de Statistique 2021
8 pages
LBC TC 2
Pas encore d'évaluation
LBC TC 2
56 pages
Corrélation et Causalité Décryptées
Pas encore d'évaluation
Corrélation et Causalité Décryptées
23 pages
Introduction À L'économetrie Appliqué
Pas encore d'évaluation
Introduction À L'économetrie Appliqué
367 pages
Économétrie L3 S1 Chapitre 4
Pas encore d'évaluation
Économétrie L3 S1 Chapitre 4
87 pages
MECAM Epreuves-Test Ecrit - Pré Sélection 2013-2021
Pas encore d'évaluation
MECAM Epreuves-Test Ecrit - Pré Sélection 2013-2021
10 pages
Déterminants de l'IDE en Méditerranée
Pas encore d'évaluation
Déterminants de l'IDE en Méditerranée
24 pages
TD2 Session1 2020 2021
Pas encore d'évaluation
TD2 Session1 2020 2021
2 pages
Université de Saint
Pas encore d'évaluation
Université de Saint
2 pages
Série Stat-Descriptive
Pas encore d'évaluation
Série Stat-Descriptive
6 pages
Les Brefs Du Plan #29 - 15 Mai 2024 (Version FR)
Pas encore d'évaluation
Les Brefs Du Plan #29 - 15 Mai 2024 (Version FR)
9 pages
Chapitre I Techniques de Prévision LSG3 %
Pas encore d'évaluation
Chapitre I Techniques de Prévision LSG3 %
25 pages
Livret de Travaux Pratiques (PDFDrive)
Pas encore d'évaluation
Livret de Travaux Pratiques (PDFDrive)
132 pages
Banque de Questions en Économétrie pour L3 FASE
Pas encore d'évaluation
Banque de Questions en Économétrie pour L3 FASE
4 pages
Randomisation
Pas encore d'évaluation
Randomisation
8 pages
Econométrie (M1) - Chapitre 2 (2019-2020)
Pas encore d'évaluation
Econométrie (M1) - Chapitre 2 (2019-2020)
47 pages
Corrigé Méth - Budget - Cas Le Ballec - Exo - Cours - Prévisions MCO - 2017
Pas encore d'évaluation
Corrigé Méth - Budget - Cas Le Ballec - Exo - Cours - Prévisions MCO - 2017
6 pages
Impact de la publicité mobile en Algérie
Pas encore d'évaluation
Impact de la publicité mobile en Algérie
15 pages
Effets médiateurs et modérateurs en régression
Pas encore d'évaluation
Effets médiateurs et modérateurs en régression
7 pages
Optimisation de la Pêche au Gondouana
Pas encore d'évaluation
Optimisation de la Pêche au Gondouana
6 pages
TD 2 Econometrie 3IEF 2024-2025
Pas encore d'évaluation
TD 2 Econometrie 3IEF 2024-2025
5 pages
Lassse9 Analyse de Données RL 23
Pas encore d'évaluation
Lassse9 Analyse de Données RL 23
24 pages
Modèles de Régression et Analyse des Données
Pas encore d'évaluation
Modèles de Régression et Analyse des Données
3 pages