0% ont trouvé ce document utile (0 vote)
333 vues103 pages

Introduction à l'Économétrie

Le document présente un cours d'introduction à l'économétrie, abordant des concepts fondamentaux, des méthodes d'estimation et des modèles de régression. Il souligne l'importance de l'économétrie comme outil d'analyse quantitative pour les économistes et gestionnaires, en se basant sur des données non-expérimentales. Le cours inclut également des applications pratiques à l'aide de logiciels comme Eviews et STATA.

Transféré par

lysadaka7
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
333 vues103 pages

Introduction à l'Économétrie

Le document présente un cours d'introduction à l'économétrie, abordant des concepts fondamentaux, des méthodes d'estimation et des modèles de régression. Il souligne l'importance de l'économétrie comme outil d'analyse quantitative pour les économistes et gestionnaires, en se basant sur des données non-expérimentales. Le cours inclut également des applications pratiques à l'aide de logiciels comme Eviews et STATA.

Transféré par

lysadaka7
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UNIVERSITE CHEIKH ANTA DIOP DE DAKAR

FACULTE DES SCIENCES ECONOMIQUES ET DE GESTION


(FASEG)

LICENCE ANALYSE

Cours : Introduction à l’ECONOMETRIE

Pr Awa TRAORE

Année académique 2024


Plan du cours

Introduction : Qu’est-ce que l’économétrie ?

Concepts et définitions

Première Partie : Estimation ponctuelle (Statistique)

Deuxième Partie : Modèle linéaire général (Econométrie)


Première Partie : Estimation ponctuelle (Statistique)

1. Généralités

2. Moyenne empirique et variance empirique sur un échantillon

3. Biais d’un estimateur

4. Convergence d’un estimateur

5. Comparaison des estimateurs

6. Efficacité d’un estimateur (Inégalité de Cramer-Rao)

7. Méthodes d’estimation ponctuelle

7.1 Méthode du maximum de vraisemblance

7.2 Méthode des moments


• Deuxième Partie : Modèle linéaire général (Econométrie)

• Chapitre 2. Le modèle de régression simple.

• Chapitre 3. Le modèle de régression multiple: estimation.


Chapitre 1

Concepts et définitions
• L’économétrie est devenue aujourd’hui une grande entreprise
de part:
- la quantité impressionnante de chercheurs
- Le volume et la profondeur des publications

• L’économétrie est le principal outil d’analyse quantitative


utilisée par les économistes et les gestionnaires, dans divers
domaines d’application, comme la macroéconomie, la finance
ou le marketing.

• L’économétrie est basée sur les développements des méthodes


statistiques pour estimer des relations économiques, tester des
théories économiques et évaluer des politiques (économiques).
• Une caractéristique importante de l’économétrie est qu’elle se
base sur des données non-expérimentales.
L’approche économétrique appelée aussi approche exogène
permet de faire des prévisions à moyen et à long terme. Dans cette
approche, le modèle explicatif que l’on construit, suppose que la
variable observée (variable à prévoir ou variable endogène) dépend
d’autres variables (variables exogènes) suivant une relation linéaire
ou non : modèle linéaire général (appelé aussi modèle de régression
multiple), modèle à correction d’erreur, modèle à équations
simultanées, modèle VAR, modèle Probit-Logit, modèle de
données de panel, modèles des variables qualitatives, modèles
ARCH, …
La prévision est calculée à partir d’un modèle explicité sur la
période observée et la connaissance des valeurs prises par les
variables exogènes sur les périodes à prévoir. L’approche est dite
exogène dans la mesure où on a recours à de l’information exogène
pour prévoir la série. Par exemple, on peut utiliser les variables
publicité, nombre de commerciaux et prix pour prévoir une série
de ventes.
1.1 Utilité et définition de l’économétrie

• R. FRISCHet I. FISCHER sont les fondateurs de la discipline


« économétrie ».
- Apparition dans la première moitié duXXième siècle
- Depuis la seconde moitié du XX ième siècle, l’économétrie
utilise des méthodes probabilistiques de la statistique
inférentielle pour spécifier les relations entre les lois
économiques et les données observées.

• C’est un ensemble de technique utilisant la statistique


mathématique qui vérifie la validité empirique des relations
supposées entre les phénomènes économiques et mesurant
les paramètres de ces relations.
• Au sens large, l’économétrie est l’art de construire et
d’estimer des modèles empiriques adéquats par rapport aux
caractéristiques de la réalité, et intelligibles au regard de la
théorie économique.

• Elle consiste à établir des lois ou à vérifier des hypothèses


à partir de données chiffrées tirées de la réalité. Par
conséquent, l’économétrie s’inscrit dans une logique
inductive.

• L'économétrie est une branche de l'économie qui applique des


techniques statistiques pour tester des hypothèses économiques et
estimer les relations économiques. Elle combine les théories
économiques, les mathématiques et les statistiques pour analyser des
données économiques réelles.
La notion d’un modèle
Un modèle est une représentation formalisée d’un
phénomène sous forme d’équations dont les
variables sont des grandeurs économiques ou
financières. L’objectif du modèle est de
représenter les traits marquants d’une réalité qu’il
cherche à styliser.

Le modèle est donc l’outil que le modélisateur


utilise lorsqu’il cherche à comprendre et à
expliquer des phénomènes. Pour ce faire, il émet
des hypothèses et explicite des relations.
Pourquoi des modèles ?
Nombreux sont ceux-sociologues, économistes ou
physiciens- qui fondent leurs analyses ou leurs jugements
sur des raisonnements construits et élaborés.
Le modèle est une présentation schématique et partielle
d’une réalité naturellement plus complexe. Toute la
difficulté de la modélisation consiste à ne retenir que la ou
les représentations intéressantes pour le problème que le
modélisateur cherche à expliquer. Ce choix dépend de la
nature du problème, du type de décision ou de l’étude à
effectuer. La même réalité peut ainsi être formalisée de
diverses manières en fonction des objectifs. Pour illustrer
ce propos, prenons un exemple très simple concernant la
vision de cette réalité particulière que constitue un
poisson.
Chapitre 1

Concepts et définitions
Plan du cours
• Chapitre 1. Concepts et définitions.

• Chapitre 2. Le modèle de régression simple.

• Chapitre 3. Le modèle de régression multiple: estimation.

• Chapitre 4. Initiation à la programmation sous logiciel


Eviews

• Chapitre 5. Initiation à la programmation sous logiciel STATA

• Chapitre 6. Applications aux séries temporelles etaux


• données de panel
• L’économétrie est devenue aujourd’hui une grande entreprise
de part:
- la quantité impressionnante de chercheurs
- Le volume et la profondeur des publications

• L’économétrie est le principal outil d’analyse quantitative


utilisée par les économistes et les gestionnaires, dans divers
domaines d’application, comme la macroéconomie, la finance
ou le marketing.

• L’économétrie est basée sur les développements des méthodes


statistiques pour estimer des relations économiques, tester des
théories économiques et évaluer des politiques (économiques).
• Une caractéristique importante de l’économétrie est qu’elle se
base sur des données non-expérimentales.
L’approche économétrique appelée aussi approche exogène
permet de faire des prévisions à moyen et à long terme. Dans cette
approche, le modèle explicatif que l’on construit, suppose que la
variable observée (variable à prévoir ou variable endogène) dépend
d’autres variables (variables exogènes) suivant une relation linéaire
ou non : modèle linéaire général (appelé aussi modèle de régression
multiple), modèle à correction d’erreur, modèle à équations
simultanées, modèle VAR, modèle Probit-Logit, modèle de
données de panel, modèles des variables qualitatives, modèles
ARCH, …
La prévision est calculée à partir d’un modèle explicité sur la
période observée et la connaissance des valeurs prises par les
variables exogènes sur les périodes à prévoir. L’approche est dite
exogène dans la mesure où on a recours à de l’information exogène
pour prévoir la série. Par exemple, on peut utiliser les variables
publicité, nombre de commerciaux et prix pour prévoir une série
de ventes.
1.1 Utilité et définition de l’économétrie

• R. FRISCHet I. FISCHER sont les fondateurs de la discipline


« économétrie ».
- Apparition dans la première moitié duXXième siècle
- Depuis la seconde moitié du XX ième siècle, l’économétrie
utilise des méthodes probabilistiques de la statistique
inférentielle pour spécifier les relations entre les lois
économiques et les données observées.

• C’est un ensemble de technique utilisant la statistique


mathématique qui vérifie la validité empirique des relations
supposées entre les phénomènes économiques et mesurant
les paramètres de ces relations.
• Au sens large, l’économétrie est l’art de construire et
d’estimer des modèles empiriques adéquats par rapport aux
caractéristiques de la réalité, et intelligibles au regard de la
théorie économique.

• Elle consiste à établir des lois ou à vérifier des hypothèses à


partir de données chiffrées tirées de la réalité. Par
conséquent, l’économétrie s’inscrit dans une logique
inductive.
La notion d’un modèle
Un modèle est une représentation formalisée d’un
phénomène sous forme d’équations dont les
variables sont des grandeurs économiques ou
financières. L’objectif du modèle est de
représenter les traits marquants d’une réalité qu’il
cherche à styliser.

Le modèle est donc l’outil que le modélisateur


utilise lorsqu’il cherche à comprendre et à
expliquer des phénomènes. Pour ce faire, il émet
des hypothèses et explicite des relations.
Pourquoi des modèles ?
Nombreux sont ceux-sociologues, économistes ou
physiciens- qui fondent leurs analyses ou leurs jugements
sur des raisonnements construits et élaborés.
Le modèle est une présentation schématique et partielle
d’une réalité naturellement plus complexe. Toute la
difficulté de la modélisation consiste à ne retenir que la ou
les représentations intéressantes pour le problème que le
modélisateur cherche à expliquer. Ce choix dépend de la
nature du problème, du type de décision ou de l’étude à
effectuer. La même réalité peut ainsi être formalisée de
diverses manières en fonction des objectifs. Pour illustrer
ce propos, prenons un exemple très simple concernant la
vision de cette réalité particulière que constitue un
poisson.
Vision 1 : le pêcheur à la ligne qui s’intéresse au poisson
du haut d’une ligne présente celui-ci de la manière
suivante.

Représentation 1
Vision 2 : le pêcheur sous-marin a une vision
différente du poisson qu’il affronte dans l’eau.

Représentation 2
Vision 3: le zoologiste qui s’intéresse à l’évolution de
cette espèce de poisson a sa propre représentation.

Représentation 3
Vision 3: Enfin, le cuisinier qui cherche à faire une
présentation artistique d’un poisson, propose une autre
représentation..

Représentation 4
1.2 Les fonctions de l’économétrie
Elle a deux fonctions principales:

- Tester les théories économiques, ou plus, modestement


certaines assertions de la théorie économique.

- Une théorie s’exprime au travers d’hypothèses auxquelles le


modèle fait référence.

- Evaluer les paramètres en jeu, dans les relations économiques

- Existence de ces techniques (soit de quantifier, d’analyser,


vérifier, de prévoir les phénomènes et d’aide de prise de
décision) présence de modèle
A quoi sert l’économétrie pour les ……

 C’est un outil complémentaire des modèles


d’évaluation économique, financière comptable,
……...
 C’est un outil d’aide à la décision.

 C’est un instrument de prévision.

 C’est un instrument de gestion des risques

L’économétrie est un outil de modélisation


économique ou financière.
De façon schématique:
Elle permet de répondre à des questions économiques (ou non)
telles que:

• Quels sont les déterminants du salaire?


• Quelle est la meilleur prévision du PIB du Sénégal de l’année
prochaine ?
• Quelle est l’influence du coût salarial sur la demande de travail?
(les économistes s’accordent en général pour considérer que le
coût salarial joue négativement sur la demande detravail),

• Est-ce que la politique de volontariat au Sénégal a été efficace ?

• Est- ce que le plan de résorption du chômage a été efficace?

• Quel est l’impact d’une hausse des boursiers sur la qualité de


l‘enseignement?
Une analyse empirique utilise des données pour tester unethéorie
ou estimer une relation (économique) 5 étapes.
[Link] la question.
[Link] certains cas, un modèle économique est développé :
équations mathématiques qui décrivent des relations. Exemple:
Quelle est l’influence d’une hausse de nouveaux professeurs sur la
qualité de l’enseignement supérieur ?
y = f(x1, x2, x3, x4, x5),où
y = le taux de réussite
x1 = le nombre de cours dispensés.
x2= le taux d’investissement des universités .
x3= le nombre de publications
x4= le taux en Recherche- Développement
x5 = la part de l’éducation sur lePIB
• 3. Dans beaucoup de cas, il faut se baser également sur
l’intuition plutôt que sur un modèle économique établi.
Exemple: wage = f(educ, exper, training).

• 4. Ensuite, il fautspécifier un modèle économétrique.


• a) f(.) ?
• b) Quelles sont les variables observées. Que faire avec les
variables non-observées (ou non-observables) ?
• 5. Finalement, une fois que nous disposons de données, nous
pouvons estimer les paramètres et procéderaux tests.

Danger de l’analyse
• Utiliser seulement la théorie sans évaluationempirique.
• Analyser des corrélations empiriques sans référence à la théorie
économique
Référence à une théorie
Une théorie s’exprime au travers d’hypothèses auxquelles le modèle fait
référence. Par exemple :

1)la consommation et le revenu sont liés,


2) le niveau d’investissement privé et le taux d’intérêt sont également
liés,
3)le produit national est égal à la consommation plus l’investissement
privé et public.

A partir des propositions précédentes, nous pouvons construire des


relations:

1) 𝐶 = 𝑓 𝑌 𝑎𝑣𝑒𝑐 𝑓 ′ > 0
2) 𝐼 = 𝑔 𝑟 𝑎𝑣𝑒𝑐 𝑔′ < 0
3) 𝑌 = 𝐶 + 𝐼+I’
1-3 Structure des données

 Le modèle étant spécifié, il convient de collecter les


variables représentatives des phénomènes
économiques. Ce choix n’est pas neutre et peut conduire
à des résultats différents ; les questions qu’il convient de
se poser sont par exemple:
:
- Faut-il raisonner en francs constants ?
- Les données sont-elles brutes ou CVS (Corrigées des
Variations Saisonnières) ?
- Quel taux d’intérêt faut-il retenir (taux au jour le jour,
taux directeur de la Banque de France…) ? Etc…
 Nous distinguons plusieurs types de données selon que
le modèle est spécifié. Chaque type de données peut
nécessiter des techniques économétriques particulières

 Données “cross-section” ou transversales.


 Séries temporelles.
 Données de panel ou longitudinales.
 Données cohortes.
Données “cross-section” ou transversales.

Échantillon d’élèves, d’étudiants, d’enseignants,


d’écoles, ..., pris à un point du temps donné.
Exemple: TBS en 2015
Important : on peut souvent supposer que les obs. =
échantillon aléatoire →simplifie l’analyse.

Données très utilisées en économie et sciences


sociales → micro appliquée: marché du travail,
finances publiques, démographie, économie de la
santé, économie de l’éducation etc.
 Séries temporelles.

Il s’agit de variables observées à intervalles de temps réguliers.

Séries chronologiques.

Exemple: PIB, les dépenses publiques, les TBSetc.


Différentes fréquences: annuel, trimestriel,
mensuel, hebdomadaire, journalier
Données très utilisées en macro-économie et en
finance.
Exemple: Les dépenses publiques d’éducation de
2000 à 2015.
 Données de panel ou longitudinales.

Série temporelle pour chaque unité/individu.


Important : la même unité est observée plusieurs
fois au court du temps.

Exemple: Les dépenses publiques d’éducation du


Sénégal, de la Côte d’Ivoire, du Mali de 2000 à
2015.
 Données cohortes

Très proche des données de panel, les données


de cohorte se distinguent de la précédente par
la constance de l’échantillon, les individus
sondés sont les mêmes d’une période sur
l’autre.
Causalité et notion CeterisParibus

L’objectif d’une modélisation est de montrer qu’une variable à


un effet causal sur une autre.
Exemple : les dépenses d’enseignement ont un effet causal
sur l’efficacité du système.

L’expert en éducation peut apporter une contribution


précieuse en traitant la formation comme un processus
markovien en calculant des indicateurs de productivité interne
en traitant l’enseignement comme unsystème:
Un modèle descriptif testera les relations entre les variables
exogènes et endogènes
Un modèle prévisionnel étudiera l’évolution des variables
endogènes moyennant des hypothèses sur les valeurs
prévisibles des variables exogènes
Causalité et notion CeterisParibus

 Un modèle décisionnel émettra des hypothèses sur


les variables exogènes suite à des décisions délibérées.
Variables exogènes à l’enseignement:
Economiques (PIB, Investissement),
démographiques(Population scolarisée, coût année-
élève, %des maîtres qualifiés, coût de l’élève formé),
Variables endogènes (résultats ou objectifs)à
l’enseignement:
Taux de réussite, la capacité d’absorption du système,
taux d’analphabétisme)
Chapitre 2

Le modèle de régression simple


Cadre et objectifs

• On dispose de 2 caractères X et Y . On distingue deux objectifs :


1) On cherche à savoir s’il existe un lien entre X et Y

On cherche à savoir si X a une influence sur Y et éventuellement


prédire Y à partir de X.
•1 Liaison entre X et Y . On définit un indice de liaison : coeff. de
corrélation, statistique du Khi-2,...

Estimation : mesure de l’intensité de la liaison


Test : Existence du lien
• 2 Infulence de x sur Y. On modélise l’influence de x sur Y : régression
logistique, analyse de la variance, régression linéaire,...

Estimation : description de l’influence et prédiction


Test : validation d’hypothèse particulière : absence d’influence,
influence linéaire, quadratique,...
Cadre et objectifs
[Link] modèle de régression linéaire simple: Présentation

• La régression linéaire vise à évaluer la dépendance entre une


variable expliquée et une (ou plusieurs) variables explicatives

• Mettre en évidence le sens de l’évolution jointe: Y ↑(↓) quand X


↑(↓)

• Et la force de la liaison: forte, faible

• Ici on parle d’une liaison descriptive et pas de causalité

• Trouver une fonction qui permet de déterminer Y à partir de X

• Estimer les paramètres de cette fonction


• Exemples
 Réduire la taille des classes à l’école primaire aurait-il des
conséquences quantifiables sur les performances scolaires ?

 Quel sera l’impact du prolongement d’une ou de plusieurs


années de votre parcours universitaire sur votre revenu futur ?

 Quel est l’effet d’une réduction d’effectif sur la performance


scolaire?

 Quel est le rôle de l’éducation la croissance économique?


• Ces conditions permettent de faire des régressions linéaire
reliant une variable X à une autre variable Y. Dansces modèles
la pente représente de la droite reliant Xet YdeX.
Figure : Modélisation de la relation entre les variables dans un modèlede
régression linéairesimple
Récapitulatif des éléments constitutifs du modèle de régression linéaire simple
• Application
• Le directeur administratif d’une zone scolaire vous demande
des conseils pour établir sa politique de recrutement des
professeurs à l’école primaire. Il aimerait réduire le nombre
d’élèves par enseignant (le ratio élèves-enseignants) de deux
élèves,
Mais il se trouve devant un dilemme :
 D’une part, les parents souhaitent que leurs enfants soient
bien suivis, bien encadrés et dans des structures éducatives
appropriées
 D’autre part, les collectivités locales se refusent, pour des
considérations budgétaires, à financer le recrutement de
nouveaux professeurs

Pour arbitrer, le directeur doit évaluer l’effet de la réduction des


classes sur la performance scolaire
Dans certaines écoles américaines, la performance scolaire est
mesurée par des tests standard.

La promotion, ainsi que la rémunération, de certains administrateurs


sont en partie tributaires des scores de ces tests.

De ce fait, la question du directeur peut être reformulée comme suit :

Quel sera l’effet d’une réduction de deux élèves par classe sur la
performance scolaire ?
variation de Score Test Score Test
  
variation de Taille classe  Taille Classe

 où 1 désigne la variation du score des tests lorsqu’on modifie la taille des


classes d’une unité. L’équation peut s’écrire sous la forme

 Score Test    *  Taille classe


• 2- Estimation et propriétés desestimateurs
• 2.1 Estimation des paramètres du modèlelinéaire
Procéder à estimation 𝛽መ de β, consiste à respecter au préalable les hypothèses
de base. Ces hypothèses pèsent sur les propriétés des estimateurs(biais,
convergence) et l’inférence statistique (distribution des coefficients
estimés).
1. Hypothèses stochastiques:
Les termes d’erreur sont idd (indépendants et identiquement
distribués)
• H1: E(Ɛ) = 0, la moyenne des erreurs s’annulent, le modèle est bien
spécifié.
• H2: V(Ɛ)=ð² la variance de l’erreur est constante et ne dépend pas
de l’observation. C’est l’hypothèse d’homoscédasticité.
• H3: L’erreur est indépendante de la variable exogène; càd
COV(xi,;Ɛi)=0
• H4: Autocorrélation: εi et εj sont non corrélés c’est-à-dire qu’il
n’existe pasde relation entre cesdeuxtermes.

• H5: Les erreurs suivent une loi normale centrée et réduite


(espérance nulle et de variance égale à1),

• 2- Hypothèses structurelles:
• H1: Multicolinéarité: Les variables explicatives ne doivent pas être
corrélées entre elles.

• H2:Exogénéité: les variables explicatives et l’erreur doivent


indépendantes
• 2.2 Propriétés des paramètres du modèle linéaire

Pour estimer β0 et β1 et garder cette interprétation Ceteris Paribus,il faut


faire certaineshypothèses.

Si les conditions susmentionnées sont satisfaites l’estimateur par


les Moindres carrés ordinaires (MCO) est le meilleur
estimateur qu’on peut utiliser.
Le critère des moindres carrés consiste à minimiser la
somme des carrés des écarts (des erreurs) entre les vraies valeurs de
Y et les valeurs prédites avec le modèle de prédiction. On parle
alors d’estimateur BLUE (best linear unbiased estimator).

Sous certaines conditions, c’est aussi la meilleure méthode de


régression linéaire.
• Pour comprendre comment la méthode des MCO marche, nous allons estimer
le modèle suivant:

• L’estimateur des moindre carrés ordinaires est obtenu en minimisant la somme


des carrés des résidus:

Attention toutefois: les paramètres 𝜷෡𝟎et 𝜷


෡𝟏ne sont que
des estimations des « vrais » paramètres 𝜷𝟎 et 𝜷𝟏. Ce sont
des estimations de cesvaleurs.
Deux équations de second ordre:
Représentation graphique de l’estimateur par les MCO
ෝ 𝟐 du modèlelinéaire
2.3 Estimateur 𝝈

• Dans le modèle de régression linéaire simple, la variable


aléatoire 𝜎ො 2 définie par

• Dansle modèle de régression linéaire simple, si les paramètres


β0 et β1 sont identifiés,
• les variables aléatoires V( β0) et V( β1) définiespar:
• Théorème de Gauss-Markov

• Dans le modèle de régression linéaire simple, si les


paramètres 𝜷𝟎 et𝜷𝟏 sont identifiés, les estimateurs des
moindres carrés ordinaires sont les estimateurs ayant la
plus petite variance parmi tous les estimateurs linéaires
sans biais de 𝜷𝟎et 𝜷𝟏.

Lecoefficient de détermination
R2 mesure de la proportion de variation chez la variable
dépendante qui est expliquée par le modèle d’explication.
Il mesure la qualité de l’ajustement du modèle
• Le R2 :quand le R carré de l’estimation est égal par
exemple à 0.50. Cela veut dire que la variabilité des variables
explicatives du modèle expliquerait 50% la variabilité de la
variable dépendante.
• Se baser sur R carré pour apprécier le modèle peut conduire à
l’erreur. Par exemple un Rcarré faible peut-être justifié par l’absence de
certaines variables explicatives. Il peut aussi être biaisé à la hausse si le
nombre de variables indépendantes est élevé. Il est préférable d’utiliser
le Rcarré ajusté.

Le R2 ajusté prend en compte à la fois l’accroissement du


nombre de variables explicatives et la réduction de la somme
des carrés des résidus ou erreurs (ESS = SCR) par rapport à la
somme des carrés totale (TSS = SCT)
• 2.3 Le modèle de régression simple: Tests et régions de
confiance
3.1 Test de significativié pour un coefficient de regression : Testde
Student/ Intervalle de confiance

Si les hypothèses sur  sont satisfaites, on peut se servir de la loi


du t de Student pour tester des hypothèses sur lesparamètres
individuels k.
Ho : β1=0 (Hypothèse nulle)
H1: β1 ≠ 0 (Hypothèsealternative)
Application
• Revenons maintenant à la problématique soulevée
par le directeur et formulée par la question
suivante : quel sera l’effet attendu d’une réduction
de l’effectif des classes de deux élèves par
enseignant sur le score des tests ? La réponse est
simple : la variation attendue est de ( 2)×β1.
• Dans la pratique, les coefficients de la constante et
de la pente, respectivement notés β0 et β1, qui
lient le score des tests à l’effectif des classes, sont
inconnus.
• Leur estimation passe par l’utilisation d’un
échantillon d’observations correspondant à ces
deux variables.
• Estimation


4 Tests statistiques
Test de significativité pour un coefficient de régression :Test
de Student/ Intervalle deconfiance
On utilise les même tests statistiques pour le modèle de
régression multiple
Si les hypothèses sur  sont satisfaites, on peut se servir de la loi
du t de Student pour tester des hypothèses sur les paramètres
individuels k.
•Ho : βk= 0
•H1: βk ≠0
 si T calculé>T lu, on rejette H0, (ou on accepte H1) donc la variable
explicative a un impact significatif sur la variable à expliquer y.
 Si T calculé<T lu, on accepte rejette H0, (ou on rejette H1) donc la
variable explicative n’a pas d’impact significatif sur la variable à
expliquer Y.

 N-k-1 constitue le degré de liberté (ddl) avec N le nombre


d’observations, k le nombre de variable explicative et 1la constante
si elle existe.
4 Tests statistiques
Test de significativité pour un coefficient de régression :Test
de Student/ Intervalle deconfiance
On utilise les même tests statistiques pour le modèle de
régression multiple
Si les hypothèses sur  sont satisfaites, on peut se servir de la loi
du t de Student pour tester des hypothèses sur les paramètres
individuels k.
•Ho : βk= 0
•H1: βk ≠0
 si T calculé>T lu, on rejette H0, (ou on accepte H1) donc la variable
explicative a un impact significatif sur la variable à expliquer y.
 Si T calculé<T lu, on accepte rejette H0, (ou on rejette H1) donc la
variable explicative n’a pas d’impact significatif sur la variable à
expliquer Y.

 N-k-1 constitue le degré de liberté (ddl) avec N le nombre


d’observations, k le nombre de variable explicative et 1la constante
si elle existe.
Application
Revenons maintenant à la problématique soulevée par le
directeur et formulée par la question suivante : quel sera l’effet
attendu d’une réduction de l’effectif des classes de deux élèves
par enseignant sur le score des tests ? La réponse est simple : la
variation attendue est de (−2)×β1. Mais qu
Dans la pratique, les coefficients de la constante et de la pente,
respectivement
notés β0 et β1, qui lient le score des tests à l’effectif des
classes, sont inconnus.
Leur estimation passe par l’utilisation d’un échantillon
d’observations correspondant à ces deux variables.
elle est la valeur de β1
4.2 Test de significativité globale pour un coefficient de
régression : Test de Fischer
Si les hypothèses sur  sont satisfaites, on peut se servir de la
loi du F de Fisher pour déterminer s’il existe une relation
significative entre y et l’ensemble des variables indépendantes
dans un modèle de régression multiple. Test simultané sur
plusieurs variables
Test de Ficher
Ho : β1=β2=β3=0
H1: β1 ≠ β2≠β3≠ 0
(au moins un des paramètres n’est pas égal à zéro)
Statistique de test:
4.3 Coefficient de détermination
La définition du R-carré (aussi : « coefficient de
détermination multiple ») est identique à celle pour la
régression linéaire simple.
Il existe une relation mathématique entre le R-carré et la statistique
de test de signification globale (du F de Fisher) :

Étant donné n et K, un R-carré élevé implique une statistique F


élevée.
De plus, la statistique F varie en fonction de n et de K. Pour un R
carré donné, plus n - K est grand, plus la statistique F est élevée.
Intuitivement, cela représente le fait que plus il y a d’observations
par rapport au nombre de variables indépendantes, plus il semble
invraisemblable qu’une certaine qualité d’ajustement du modèle
(càd un certain R-carré) se soit produit aléatoirement.
R- Carré ajusté
Puisque la méthode des MCO minimise la somme des carrés
des résidus (SCRes), le R-carré augmente si on ajoute des
variables indépendantes (ce qui ne change pas SCTot) même si
ces variables ne sont pas statistiquement significatives.
La valeur du R-carré dépend donc de K, ce qui complique la
comparaison de la qualité d’ajustement de différents
modèles de régression si le nombre de variables
indépendantes n’est pas identique.
Pour cette raison, il est courant de calculer le « R-carré ajusté
»:
Exemple:


Chapitre 3

Le modèle de régression multiple


Le modèle de régression linéaire multiple est une extension du
modèle linéaire simple dans le cas où il y a plus d’une variable
explicative. Il s’agit donc d’étudier la relation d’une variable
quantitative Y (variable dépendante supposée aléatoire) en
fonction de k variables explicatives , x1, x2 , ,...,x K ,(variables
indépendantes considérées comme non aléatoires), les
variables explicatives peuvent être quantitatives ou qualitatives.

Toutes les notions que nous avons introduites dans le cadre de


la régression linéaire simple sont valables pour la régression
linéaire multiple.
La régression multiple calcule toujours l’effet spécifique sur une
variable dépendante attribuable à une variable indépendante en
contrôlant pour toutes les autres. Elle ne tient pas compte de
l’ordre causal.
1- L’équation de la régression
 Un modèle de régression multiple contient 1< K < n -1 variables indépendantes,
x1, x2 , ,...,x K . (On utilisera k comme indice pour une variable particulière.)
 Les paramètres sont estimables quand K  n -1, mais l’ajustement est alors
parfait et l’inférence est impossible. En
pratique, on doit veiller à ce que n >> K.
 L’équation de la régression linéaire multiple (ou le « modèle de régression »)
s’écrit donc de la façon suivante :

Où sont les paramètres du modèle, et le terme


d’erreur  est une variable aléatoire.
1- L’équation de la régression
 Tout comme dans le cas de la régression linéaire simple, 0 représente le
point, où x1  x2  ...  xK  0 (« constante »).

 La valeur d’un paramètre  k>0 donne le nombre d’unités supplémentaires de


y associées à une augmentation par une unité de xk lorsque toutes les autres
variables indépendantes sont constantes (variation « ceteris paribus »).

 est la moyenne de y pour un vecteur de valeurs des variables


indépendantes {x1 ,x2 .. xK }.
Si K > 2, on ne peut plus représenter le modèle de régression de façon
graphique.

Avec K  2, une représentation graphique est possible, puisqu’il n’y a que trois
dimensions : x1, x2 et y. L’équivalent à la droite de régression en régression
linéaire simple est alors appelé « surface de réponse »
Les statistiques d’échantillon servent d’estimations

Ainsi, l’équation estimée de la régression est donnée par :


Processus d’estimation
2- Calcul des estimateurs
Tout comme pour la régression linéaire simple, la méthode la plus répandue
pour calculer est l’estimateur des moindres carrés.

L’estimateur des moindres carrés pour une régression multiple suit la même
logique que celle de la régression linéaire simple, mais sa formulation est
plus compliquée, nécessitant l’utilisation de l’algèbre matricielle.
Formellement, la méthode est alors la suivante :
2- Calcul des estimateurs
3-Propriétés des estimateurs par les MCO
Tout comme pour la régression linéaire simple, la légitimité des
tests d’hypothèse repose sur les hypothèses faites à propos du
terme d’erreur du modèle de régression,  .
En fait, on peut démontrer que, sous condition que ces
hypothèses soient satisfaites, l’estimateur des MCO est le
meilleur des estimateurs concevables, dans le sens suivant
(théorème de Gauss-Markov):

Les coefficients estimés sont des estimations non


biaisées des paramètres.

L’estimateur MCO implique les variances des coefficients


estimés
les plus petites de tous les estimateurs linéaires et non-biaisés
concevables.
Multicolinéarité
Il est possible qu’aucun des coefficients estimés bk soit
individuellement statistiquement significatif (selon le test du t de
Student), mais que le modèle soit quand même globalement
statistiquement significatif (selon le test du F de Fisher).
L’explication de ce phénomène apparemment paradoxal est la
multicolinéarité : le fait que les variables indépendantes xk, tout en
étant indépendantes de y, peuvent parfaitement être corrélées entre
elles.
Plus les variables indépendantes sont corrélées, plus il devient
difficile de déterminer l’effet propre d’une variable indépendante
particulière sur la variable dépendante. Autrement dit, quand la
multicolinéarité est forte, les erreurs type des coefficients sbk sont
grands, et le risque peut être fort que les coefficients estimés
prennent le signe opposé à celui du vrai paramètre.
En pratique il peut être utile d’inspecter la matrice de corrélation
entre les variables indépendante. Comme valeur pratique (très)
approximative, on utilise parfois un seuil de pour
déterminer il y a un problème potentiel de multicolinéarité entre
deux variables.
La multicolinéarité peut prendre la forme d’une relation linéaire
entre plusieurs variables indépendantes, càd elle peut être présente
même si les corrélations entre paires de variables individuelles sont
toutes relativement faibles. Des tests plus avancés existent pour
vérifier la présence de ce phénomène.
Le meilleur moyen pour pallier au problème de multicolinéarité est
d’augmenter la taille de l’échantillon n.
S’il y a colinéarité parfaite entre deux ou plusieurs variables
indépendantes, leurs paramètres ne peuvent pas être estimés.
Application : Tableau de l’estimation MCO par l’utilisation du
logiciel STATA

 Commande: regress ScoreTest TailleClasse Agemoyen ageenseig Privée

Source | SS df MS Number of obs = 395


---------+------------------------------ F( 4, 390) = 61.01
Model | 3071909.06 4 767977.265 Prob > F = 0.0000
Residual | 4909500.73 390 12588.4634 R-squared = 0.3849
---------+------------------------------ Adj R-squared = 0.3786
Total | 7981409.79 394 20257.3852 Root MSE = 112.20

----------------------------------------------------------------------------
ScoreTest | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+-------------------------------------------------------------------
TailleClasse| 6.954381 4.371097 1.591 0.112 -1.63948 15.54824
Agemoyen | 5.966015 1.531049 3.897 0.000 2.955873 8.9761
ageenseig | 4.668221 .4142537 11.269 0.000 3.853771 5.482671
Privée | -.1059909 .0269539 -3.932 0.000 -.1589841 -.0529977
_cons | -5.200407 84.95492 -0.061 0.951 -172.2273 161.8265
Avec Agemoyen= âge moyen de la classe, ageenseig= âge de l’enseignant, privée=
école privée

Vous aimerez peut-être aussi