0% ont trouvé ce document utile (0 vote)
116 vues20 pages

Variables Expliquées et Explicatives

Ce document présente un plan de cours sur la régression linéaire simple et multiple. Il décrit les estimateurs des moindres carrés ordinaires, leurs propriétés, les tests de validation du modèle et les prévisions.

Transféré par

Amine Chettat
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
116 vues20 pages

Variables Expliquées et Explicatives

Ce document présente un plan de cours sur la régression linéaire simple et multiple. Il décrit les estimateurs des moindres carrés ordinaires, leurs propriétés, les tests de validation du modèle et les prévisions.

Transféré par

Amine Chettat
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Plan du cours

Régression linéaire simple


Droite des moindres carrés
Estimateurs des mco,
Propriétés des estimateurs
Test de validation (Fisher et Student)
Prévisions
Régression linéaire multiple
Critère des mco,
Estimateurs des mco
Propriétés des estimateurs
R² ; Test de Student ; Test de Fisher
Prévisions

Tests de Fisher d'une hypothèse linéaire


Hypothèses linéaires, test de Fisher, cas particuliers
Modèle de régression linéaire:
cas bi varié
Soit deux variables continues X et Y. On observe les unités
expérimentales : (xi , yi), pour i = 1, …, n.
•1. Existe-t-il un lien entre X et Y?
•2. Comment le mesurer ?
•3. Comment modéliser ce lien?
•4. Comment estimer les paramètres de ce modèle?
•5. Comment valider ce modèle ?
•6. Comment tirer partie de ce modèle pour prévoir les valeurs
d’une variable d’après les valeurs de l’autre?
Quel type de lien?
•Mise en évidence un lien linéaire entre les 2 variables.
–Y est considérée comme la variable à expliquer, ou
indépendante, ou exogène
–X est considérée comme la variable explicative, ou dépendante,
ou endogène.
•Relation statistique entre les 2 variables (non-déterministe) :

la connaissance de X n’implique pas la connaissance parfaite de


Y : il existe une erreur aléatoire autour de la valeur prédite
Comment mesurer un lien linéaire?
Comment mesurer un lien linéaire?
Attention au piège : dépendance non linéaire
le coefficient de corrélation ne mesure que la dépendance linéaire.
•Effectuer une analyse graphique au préalable pour identifier la forme de la dépendance.
•Un coefficient de corrélation élevé ne signifie pas forcément une dépendance linéaire.
Attention au piège : Corrélation fallacieuse
Existence d’un coefficient de corrélation non nul entre deux variables qu’aucune théorie
économique ne relie.
2 cas :
–résultat purement aléatoire
–existence d’un troisième variable qui explique conjointement les 2 phénomènes (en général : le
temps)

Un coefficient de corrélation nul ne signifie pas que les variables sont indépendantes (sauf dans
le cas Gaussien)
En particulier, il peut exister une relation sur les moments d’ordre supérieur du modèle
Exemple : lien linéaire entre les variances de X et Y
(cas des processus ARCH en séries chronologiques)
Comment modéliser un lien linéaire?

•Quel est le « meilleur » ajustement linéaire entre 2 v.a. ?


•Exemple : taux longs souverains / dette publique brute

Notation i

• Yi est la ième observation de la variable exogène


• xi est la ième observation de la variable endogène
• 𝑦 i Est la valeur ajustée (estimée) de la ième observation
Equation de la meilleure droite d’ajustement: 𝑦i=â0+â1xi
Erreur de prévision (ou erreur résiduelle)
En utilisant
𝑦i pour prédire yi,

on fait une erreur de prévision: ei= yi - 𝑦i


La droite d’ajustement qui colle le mieux aux données est celle pour laquelle les n erreurs de prévisions sont les plus
petites possibles au sens d’un certain critère.
Critère des “Moindres Carrés”

Choisir les valeurs a0 et a1 qui minimise la somme des carrés des erreurs.
Equation de la droite : : 𝑦=a0+a1x
minimiser: 𝑄 = 𝑛𝑖=1(𝑦𝑖 − 𝑦)²

La droite de régression

Les estimateurs des moindres carrés ordinaires (MCO) de a0 et a1:


𝑛
(𝑥𝑖−𝑥)(𝑦𝑖−𝑦)
â1 =𝑖=1
𝑛
(𝑥𝑖−𝑥)²
; â𝑜 = 𝑦 − â1𝑥
𝑖=0

En termes géométriques
•la droite de régression est celle qui minimise la distance quadratique entre les points et les
projections orthogonales de ces points sur cette droite.
•la droite de régression est celle qui maximise la variance du nuage de points projetés
orthogonalement sur cette droite.
Formalisation

Hypothèses du modèle linéaire :


H1 : E(Yi) fonction linéaire des xi (déterministes) yi = a0 + a1 xi + εi , pour
i=1,…,n
H2 : Les erreurs, εi, sont indépendantes entre elles
H3 : E(εi) = 0, les erreurs sont d’espérance nulle (en moyenne le modèle est bien spécifié)
H4 : E(ε²i) = σ² , les erreurs sont de variance égale pour toute valeur de X
(hypothèse d ’Homoscédasticité)
H5 : E(Xi εi) = 0 , les erreurs, sont indépendantes des valeurs de X
H6 : Hypothèse de Normalité Les erreurs, εi, sont identiquement distribuées
selon la loi Normale.
Estimation des paramètres
âo;â1;
𝑛
𝑖=1(𝑦𝑖−𝑦 )²
σ²estimée par l’erreur quadratique moyenne : σ²=
𝑛−2

La MSE est définie par :


On pondère par le nombre de degrés de liberté du modèle défini par :
degrés de liberté = nombre d’observations - nombre de paramètres estimé

Loi asymptotique des paramètres


• De même,
1 𝑥²
𝑉 â𝑜 = 𝜎² + 𝑛 ; V(âo)0 si n ∞
𝑛 𝑖=1(𝑥𝑖−𝑥)²
Remarques

•Dans ce cadre, sous l ’hypothèse de normalité des erreurs, estimateur MCO = estimateur EMV
•La variance estimée par le modèle est différente de la variance empirique (valable pour tout échantillon qui suit le
modèle linéaire)
•La variance résiduelle mesure avec quelle amplitude les valeurs de Y s ’écartent de la droite de régression.
–C ’est une mesure de la précision du modèle
–C ’est une mesure du risque associé au modèle

Remarques
•Quel est le but de modélisation d’une variable Y ?

Minimiser la variance résiduelle


Y = partie déterministe + partie aléatoire
Y = f(X) + ε
Par indépendance, V(Y) = V(f(X)) + V(ε)
(Voir partie « Analyse de la Variance »)
Validation du modèle

On valide le modèle à l’aide des tests statistiques.


Deux types de tests d’hypothèses sont développés :
1)Tests sur les paramètres du modèle
2) Tests sur les résidus du modèle
Test sur la pente â1

Hypothèse Nulle H0: â1 = a (en général =0)


Hypothèse Alternative H1: â1 ≠ a (en général ҂ 0)
â𝟏−𝒂 â𝟏−𝒂
Test statistique t*= 𝝈 = 𝝈(â𝟏)
(𝒙𝒊−𝒙)²
P-value = Risque maximum d’accepter H1 à tort (à comparer avec le risque de première espèce α). La P-value est déterminée
par référence à une t-distribution avec n-2 degrés de liberté

𝛼 𝜎
Test par intervalle de confiance pour â1 : Formule : â1 ± 𝑡 1 − 2 ; 𝑛 − 2 ∗ ( )
(𝑥𝑖−𝑥)²

Hypothèse Nulle H0: â1 = a (en général =0)


Hypothèse Alternative H1: â1 ≠ a (en général ҂ 0)

â𝟎−𝒂 â𝟎−𝒂
Test statistique t*= = 𝝈(â𝟎)
𝟏 𝒙²
𝝈∗ +
𝒏 (𝒙𝒊−𝒙)²

Test par intervalle de confiance pour â0

𝛼 𝟏 𝒙²
Formule : â1 ± 𝑡 1 − 2 ; 𝑛 − 2 ∗ 𝝈 ∗ +
𝒏 (𝒙𝒊−𝒙)²
Test sur le terme d’erreur Les intervalles et les tests précédents
sont basés sur la Normalité du terme d’erreur. Il importe donc de
tester les résidus.

–Test d’adéquation (Jarque-Bera, KS, …)


–Test graphiques (QQ-Plot)

Les résultats restent valides en cas d’écart à la loi Normale si


l’échantillon est grand. (résultats asymptotiques)
Mesure de la qualité du modèle
On mesure la qualité du modèle par l’analyse de la variance On montre les 2
relations suivantes :
• la somme des résidus est nulle, : 𝑛𝑖=1 𝑒𝑖 = 0
• la moyenne de la variable et la moyenne de la variable estimée sont égales, i.e. :
𝑛 𝑛

𝑦𝑖 = 𝑦𝑖
𝑖=1 𝑖

On en déduit l’équation de l’analyse de la variance:


𝑛 𝑛 2
𝑖=1 (𝑦𝑖 − 𝑦)²= 𝑖=1 𝑦 − 𝑦 + 𝑒𝑖²
Variance totale = Variance expliquée + Variance résiduelle
Objectif : Maximiser la variance expliquée
r² : mesure de la variance expliquée valeur entre 0 et 1

2 𝜎²
𝑟 =1− 𝑛 (𝑦𝑖−𝑦)² ; r²∈[0;1]
𝑖=1
Prévision
Que veut-on prévoir?
•La réponse «moyenne» de la population = E(Yh) pour une valeur xh
–Ex : Quel est le poids moyen pour une taille donnée? (Plus précis que le poids moyen de
l’échantillon)
•La réponse Yh(new) à une nouvelle valeur donnée xh
–Ex : Quel est le poids estimé par le modèle d’un nouvel individu choisi au hasard de taille
donnée?
Intervalle de confiance pour la réponse moyenne de la population E(Yh)

IC pour la réponse moyenne E(Yh)

Implications sur la précision


•Au plus les valeurs des xi sont étalées, au plus l’intervalle de confiance est petit,
donc l’estimation de E(Yh) est plus précise.
•Suivant le même échantillon de xi, au plus la valeur de xh est loin de la moyenne empirique, au plus l’intervalle
de confiance est grand, donc l’estimation de E(Yh) est moins précise.
Remarques
•xh est une valeur correspondant au champ de l’étude mais pas nécessairement une
valeur de l’échantillon
•L’IC pour E(Yh) est correct même si le terme d’erreur est seulement approché par
une loi Normale
•Si le nombre d’observations est grand, l’IC pour E(Yh) est correct même si le terme
d’erreur s’écarte fortement d’une loi Normale

Intervalle de Prévision pour la réponse Yh(new) à une nouvelle valeur xh(new)

Prévision de Yh(new) si la moyenne E(Y) n’est pas connue ie : si les paramètres sont
estimés; on rajoute une incertitude sur la moyenne de Y

Vous aimerez peut-être aussi