0% ont trouvé ce document utile (0 vote)
60 vues99 pages

Chap 3

atie

Transféré par

eddyfournier2005
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
60 vues99 pages

Chap 3

atie

Transféré par

eddyfournier2005
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse et Traitement de l'Information Économique

Chapitre 3. Les distributions

à deux caractères
Plan du chapitre

1. Introduction

2. Tableaux de contingence

3. Caractéristiques des distributions

4. Liens entre deux variables

5. Régression linéaire

2
Plan

1. Introduction

2. Tableaux de contingence

3. Caractéristiques des distributions

4. Liens entre deux variables

5. Régression linéaire

3
Objectif général

L'information économique est très souvent présentée en faisant un lien,


de manière implicite ou explicite, entre deux variables ou plus.

> Liens entre ination et croissance, entre SMIC et emploi, etc.

4
Objectif général

Ce chapitre présente comment :

• Présenter et analyser des séries statistiques à deux dimensions

• Construire et interpréter des tableaux à double entrée

• Analyser la relation entre deux variables continues (covariance,

corrélation, régression linéaire...)

Ce chapitre présente les principaux outils statistiques pour étudier ces

relations bivariées...

5
Objectif général

> Tirer les bonnes leçons d'une analyse croisée de deux variables,
sans confondre analyse descriptive (ou corrélationnelle) et analyse
causale

• Une relation statistique visible entre deux variables n'implique pas

forcément de lien causal

• Une relation causale entre deux variables n'implique pas forcément

de relation statistique visible

6
Objectif général

> Tirer les bonnes leçons d'une analyse croisée de deux variables,
sans confondre analyse descriptive (ou corrélationnelle) et analyse
causale

• Une relation statistique visible entre deux variables n'implique pas

forcément de lien causal

• Une relation causale entre deux variables n'implique pas forcément

de relation statistique visible

> Exemples ?

6
Objectif général

• Une relation statistique visible entre deux variables n'implique pas

forcément de lien causal


• Une relation causale entre deux variables n'implique pas forcément

de relation statistique visible

> Exemple : sur l'autoroute,


- la vitesse d'une voiture est très corrélée à celle des autres voitures

devant et derrière, mais il n'y a pas forcément de lien causal

direct, ce sont d'autres variables (de confusion) qui expliquent


ces corrélations : état général du trac, météo, limitations de
vitesse...

- un automobiliste qui souhaite toujours garder une vitesse de

120km/h devra parfois accélérer, parfois freiner (en montée /

descente par exemple), il n'y a donc pas de lien statistique

visible entre le comportement du conducteur et la vitesse du


véhicule alors qu'il y a bien un eet causal entre les deux !
7
Plan du chapitre

1. Introduction

2. Tableaux de contingence

3. Caractéristiques des distributions

4. Liens entre deux variables

5. Régression linéaire

8
Plan

1. Introduction

2. Tableaux de contingence

3. Caractéristiques des distributions

4. Liens entre deux variables

5. Régression linéaire

9
Les tableaux de contingence

Les tableaux de contingence ou tableaux à double entrée sont utiles


lorsque l'on souhaite étudier deux variables

• qualitatives nominales ou ordinales

• quantitatives discrètes ou en classes

Il s'agit de tableaux d'eectifs ou de fréquences croisés, qui informent sur

les distributions conditionnelles et marginales des variables

Exemple :

La distribution des étudiants par lière et par origine sociale en France

10
Les tableaux de contingence

Figure 1  Eects étudiants inscrits en université en 2011-12 (Hurlin&Mignon)

• En ligne, le caractère Origine sociale en 8 modalités

• En colonne, le caractère Filière d'étude en 6 modalités

11
Les tableaux de contingence

Figure 2  Eects étudiants inscrits en université en 2011-12 (Hurlin&Mignon)

• Les eectifs sont notés nij avec i la modalité en ligne et j la

modalité en colonne

12
Les tableaux de contingence

Figure 2  Eects étudiants inscrits en université en 2011-12 (Hurlin&Mignon)

• Les eectifs sont notés nij avec i la modalité en ligne et j la

modalité en colonne
• Les eectifs marginaux sont notés ni . (eectifs de chaque modalité

i quel que soit j) ou n.j (eectifs de chaque modalité j quel que soit

i)
• L'eectif total N = n.. est la somme de tous les nij
12
Les tableaux de contingence

Q : Qu'est-ce que n6,2 ? Et n.2 ?

13
Les tableaux de contingence

Q : Qu'est-ce que n6,2 ? Et n.2 ?

n6,2 = eectif de la 6eme ligne, 2eme colonne = 16 601

n. 2 = eectif marginal de la 2eme colonne = 140 205

> Il y avait 16 601 ls/lles de parents ouvriers parmi les 140 205

étudiants inscrits en Economie dans les universités en 2011-2012, soit

11,8%.

13
Les tableaux de contingence

Dans un tel tableau, on peut analyser les données sous plusieurs angles :

• A l' intérieur du tableau


- par ligne : on parle de distribution conditionnelle par rapport à

la modalité i ou sachant i
- par colonne : distribution conditionnelle par rapport à la

modalité j ou sachant j

14
Les tableaux de contingence

Dans un tel tableau, on peut analyser les données sous plusieurs angles :

• A l' intérieur du tableau


- par ligne : on parle de distribution conditionnelle par rapport à

la modalité i ou sachant i
- par colonne : distribution conditionnelle par rapport à la

modalité j ou sachant j

• Dans les marges du tableau


- ligne Total : distribution marginale de la variable Filière

- colonne Total : distribution marginale de la variable Origine

sociale

14
Les tableaux de contingence

Dans un tel tableau, on peut analyser les données sous plusieurs angles :

• A l' intérieur du tableau


- par ligne : on parle de distribution conditionnelle par rapport à

la modalité i ou sachant i
- par colonne : distribution conditionnelle par rapport à la

modalité j ou sachant j

• Dans les marges du tableau


- ligne Total : distribution marginale de la variable Filière

- colonne Total : distribution marginale de la variable Origine

sociale

> Q : présentez la distribution marginale de l'origine sociale des étudiants

> Q : discutez de l'origine sociale des étudiants en études de santé

14
Q : Présentez la distribution marginale de l'origine sociale des
étudiants

Sur 1,187 millions d'étudiants, plus de 363 000 (31%) sont issus de

parents professions libérales et cadres supérieurs, 151 000 (13%) de

parents professions intermédiaires, seulement 21 000 (2%) sont enfants

d'agriculteurs, etc.

> Sachant que les cadres et professions libérales représentent en France

environ 22% des personnes en emploi ou ayant déjà occupé un emploi,

les étudiants semblent en moyenne plutôt issus de CSP favorisées

15
Q : Discutez de l'origine sociale des étudiants en études de santé

Sur les 182 étudiants en lière Santé, 41% sont issus de parents

professions libérales, cadres sup et seulement 6% sont ls/lle

d'ouvriers.

> Les CSP les plus favorisées semblent particulièrement représentées dans

cette lière d'études.

> Les enfants d'ouvriers sont peu représentés en Santé et au contraire

sur-représentés dans les lières IUT.

16
Un autre exemple de tableau de contingence

Figure 3  Enquête citoyenne sur le bien-être dans la métropole de Strasbourg


en 2017

A l'aide de tableaux de contingence, on peut en quelques secondes

identier la distribution du bien-être, la distribution de la


satisfaction dans la vie sociale, et les éventuels liens entre les
deux...

17
Un autre exemple de tableau de contingence

Figure 3  Enquête citoyenne sur le bien-être dans la métropole de Strasbourg


en 2017

A l'aide de tableaux de contingence, on peut en quelques secondes

identier la distribution du bien-être, la distribution de la


satisfaction dans la vie sociale, et les éventuels liens entre les
deux...

Ici, il semble bien qu'il existe un lien positif entre les deux variables...

17
Tableau de contingence : forme générale

Figure 4  Un tableau à double entrée générique

Où la variable en ligne est notée X et ses modalités i; et la variable en

colonne est notée Y et ses modalités j

Objectif : s'habituer à ce type de tableau pour éviter les contresens,

devenir agile pour rapidement identier les informations essentielles !

18
Fréquences

Au-delà des eectifs nij , les tableaux de contingence peuvent faire

apparaitre ou permettent de calculer des fréquences fij , fi . , f.j , fi |j , fj |i

n
• Fréquence d'une cellule ij : fij = Nij

• n
Fréquence marginale de i : fi . = Ni .

n
• Fréquence marginale de j : fi . = N.j

n
• Fréquence conditionnelle de i sachant j : fi |j = nij
.j

n
• Fréquence conditionnelle de j sachant i : fj |i = nij
i.

19
Retour sur les étudiants à l'université

Q : Quelles valeurs ce tableau reporte-t-il ?

20
Retour sur les étudiants à l'université

Q : Quelles valeurs ce tableau reporte-t-il ?

> Tableau des fréquences conditionnelles de j sachant i / des lières

d'étude selon l'origine sociale (facilement repérable grâce à la dernière

colonne 100%)

Q : Que dire des fréquences conditionnelles surlignées en jaune ?

20
Retour sur les étudiants à l'université

Q : Que dire des fréquences conditionnelles surlignées en jaune ?

21
Retour sur les étudiants à l'université

Q : Que dire des fréquences conditionnelles surlignées en jaune ?

> Parmi les étudiants enfants d'ouvriers, près de 32% sont inscrits en

Lettres, 22% en sciences, etc.

> Mais il faut penser à comparer cette distribution conditionnelle à la

distribution marginale des lières ! On remarque alors que les enfants

d'ouvriers sont très sous-représentés dans la lière Santé (8% contre

15%), sur-représentés en IUT, etc.

21
Retour sur les étudiants à l'université

Figure 5  Fréquences conditionnelles de l'origine sociale i selon la lière j

Q : Décrivez brièvement l'origine sociale des étudiants en


Economie

22
Retour sur les étudiants à l'université

Figure 5  Fréquences conditionnelles de l'origine sociale i selon la lière j

Q : Décrivez brièvement l'origine sociale des étudiants en


Economie

Par rapport à la moyenne des étudiants, ceux inscrits en économie sont

moins souvent issus de professions libérales ou intermédiaires, et plus

souvent enfants de parents ouvriers, retraités/inactifs et non-renseigné.

> toujours comparer les distributions conditionnelles aux distributions


22
marginales
Exercice 1

Figure 6  Choix de cours et genre

• Présentez la distribution marginale de la variable Matière


• Présentez la distribution conditionnelle de la variable Matière (...

donc conditionnellement à la variable Sexe)


• Présentez la distribution conditionnelle de la variable Sexe

23
Exercice 2

Figure 7  Enquête citoyenne sur le bien-être dans la métropole de Strasbourg


en 2017

• Complétez les distributions marginales

• Quelle est la part d'individus insatisfaits de leur environnement

parmi ceux déclarant un sentiment de bien-être positif ?

• Construisez le tableau des fréquences conditionnelles du bien-être

selon le niveau de satisfaction sur l'environnement

24
Plan du chapitre

1. Introduction

2. Tableaux de contingence

3. Caractéristiques des distributions

4. Liens entre deux variables

5. Régression linéaire

25
Plan

1. Introduction

2. Tableaux de contingence

3. Caractéristiques des distributions

4. Liens entre deux variables

5. Régression linéaire

26
Caractéristiques des distributions à deux caractères

Comme pour les distributions à un caractère (chapitre 2), les

distributions à deux caractères peuvent donner lieu à l'étude de nombreux

indicateurs statistiques.

On se concentre ici sur les principales caractéristiques des distributions à

deux caractères :

• la moyenne marginale

• la variance marginale

• la moyenne conditionnelle

• la variance conditionnelle

> indicateurs de tendance centrale et de dispersion

> pour des variables prenant des valeurs numériques uniquement !

27
Exemple numérique

Pour présenter le calcul de ces caractéristiques, on utilisera un exemple

de tableau de contingence très simple :

Chaque variable ne présente que 2 modalités/valeurs

28
Moyenne marginale

La moyenne marginale d'une variable X correspond à la moyenne de X

quelle que soit la modalité j prise par la variable Y

A partir d'un tableau de contingence, cela revient au calcul d'une

moyenne arithmétique pondérée par les eectifs marginaux ou les


fréquences marginales

Formule de la moyenne marginale de x :

Q : quelle est la moyenne marginale de X dans notre exemple ? et


de Y ?

29
Moyenne marginale : exemple

Quelle est la moyenne marginale de X dans notre exemple ?

La moyenne de X est forcément comprise entre 2 et 8, et plus proche de

8 que de 2 compte tenu des eectifs marginaux !

Quid de Y ?

30
Moyenne marginale : exemple

Quelle est la moyenne marginale de X dans notre exemple ?

La moyenne de X est forcément comprise entre 2 et 8, et plus proche de

8 que de 2 compte tenu des eectifs marginaux !

Quid de Y ? y = 3.125
30
Moyenne marginale : exemple

Quelle est la moyenne marginale de Y dans notre exemple ?

31
Variance marginale

De la même manière, la variance marginale d'une variable correspond à

sa variance calculée quelle que soit la valeur j prise par l'autre variable

A partir d'un tableau de contingence, cela revient au calcul d'une

variance pondérée par les eectifs marginaux ou les fréquences


marginales

Formule de la variance marginale de x et de y :

Q : quelle est la variance marginale de X dans notre exemple ? et


de Y ? 32
Variance marginale : exemple

Quelle est la variance marginale de X dans notre exemple ?

Quid de Y ?

33
Variance marginale : exemple

Quelle est la variance marginale de X dans notre exemple ?

Quid de Y ? Var (y ) = σ2Y = 1.86

33
Variance marginale : exemple

Quelle est la variance marginale de Y dans notre exemple ?

Var (y ) = σ2Y = 1.86

34
Exercice

A partir du tableau de contingence suivant, retrouvez à quoi


correspondent les 4 valeurs suivantes ? 1.41 ; 3.56 ; 4.17 ; 5.06

Moyenne marginale ? Variance marginale ? de X ? de Y

35
Correction

36
Caractéristiques des distributions conditionnelles

Les caractéristiques des distributions conditionnelles suivent la


même logique excepté que l'on ne raisonne plus dans les marges du
tableau (ligne/colonne Total)

... mais à l'intérieur d'une ligne ou d'une colonne, cad

conditionnellement à une modalité i ou j

Exemple : calcul de la moyenne de X conditionnellement au fait que /

sachant que Y =4 (soit la deuxième modalité), notée x2

37
Moyenne conditionnelle

Les moyennes conditionnelles xj et yi s'écrivent :

Q : quelle est la moyenne conditionnelle x2 ? et y1 ?

38
Moyenne conditionnelle : exemple

Q : quelle est la moyenne conditionnelle x2 ? et y1 ?

39
Moyenne conditionnelle : exemple

Q : quelle est la moyenne conditionnelle x2 ? et y1 ?

x2 = (2*5 + 8*12) / 17 = 6.24

y1 = (1*3 + 4*5) / 8 = 2.875

39
Variance conditionnelle

Les variance conditionnelles Vj (x) et Vi (y ) s'écrivent :

Q : quelle est la variance conditionnelle de x sachant que y prend


la première modalité ?

40
Plan du chapitre

1. Introduction

2. Tableaux de contingence

3. Caractéristiques des distributions

4. Liens entre deux variables

5. Régression linéaire

41
Plan

1. Introduction

2. Tableaux de contingence

3. Caractéristiques des distributions

4. Liens entre deux variables

5. Régression linéaire

42
Quels liens entre age des citoyens et participation lors des élections

présidentilles ?

> age et absention sont-ils liés entre eux ? indépendants ? corrélés ?

43
Quels liens entre consommation de café et accidents cardiovasculaires ?

44
... et entre cancers du sein et production de pomme de terre ?

> Comment quantier les relations entre deux variables ?

> Comment interpréter et non surinterpréter ces indicateurs


statistiques ?

45
Liens entre deux variables

L'analyse des liens existant entre deux variables X et Y peut s'eectuer à

l'aide de plusieurs notions et outils statistiques :

• la dépendance

• la covariance

• la corrélation

• la régression

46
Liens entre deux variables

L'analyse des liens existant entre deux variables X et Y peut s'eectuer à

l'aide de plusieurs notions et outils statistiques :

• la dépendance

• la covariance

• la corrélation

• la régression

Deux questions primordiales à se poser :

• Quelle est la forme de la relation entre X et Y ?

Linéaire (une droite) ou non-linéaire (une courbe)

• Quelle est la nature de la relation entre X et Y ?

Relation causale ou corrélationnelle

46
Dépendance ou indépendance

La notion de dépendance entre X et Y correspond à la capacité des

valeurs prises par la variable X à prédire ou expliquer les valeurs de


Y (ou inversement).

• Si la connaissance de X permet d'estimer précisément Y, il y a

dépendance entre X et Y

• Si la connaissance de X n'informe pas sur la valeur de Y, il y a

indépendance entre X et Y

> autrement dit, deux variables X et Y sont indépendantes si les

variations de l'une ne s'accompagnent pas de variations de l'autre

47
Dépendance ou indépendance

Indépendance : si la connaissance de X n'informe pas sur la valeur de Y,


il y a indépendance entre X et Y

Mathématiquement, cela revient à dire que :

> la fréquence marginale est égale à la fréquence conditionnelle :

fi |j = fi . et fj |i = f.j
> la moyenne marginale est égale à la moyenne conditionnelle : x = xj
pour toute modalité j
> ou encore, la probabilité d'observer une certaine valeur pour Y ne

dépend pas de X : Pr (Y = y |X ) = Pr (Y = y )

48
Dépendance ou indépendance ?

Q : Que dire de la dépendance / indépendance entre X et Y dans


ces quatre nuages de points ?

49
Dépendance ou indépendance ?

Q : Que dire de la dépendance / indépendance entre X et Y dans


ces quatre nuages de points ?

Il y a dépendance totale (cas 1) ou forte (cas 2 et 3), la valeur de X

informe bien sur la valeur de Y...

... excepté dans le 4ème cas (indépendance)

49
Dépendance ou indépendance ?

Q : Que dire de la dépendance / indépendance dans ce tableau de


contingence entre niveau des salaires et taille d'entreprise ?

50
Dépendance ou indépendance ?

Q : Que dire de la dépendance / indépendance dans ce tableau de


contingence entre niveau des salaires et taille d'entreprise ?

Il y a indépendance entre X et Y : la connaissance de X ne dit rien sur la

valeur de Y, et inversement.

Pour le vérier, on peut aussi montrer que fi |j = fi . et fj |i = f.j


50
Dépendance ou indépendance ?

On vérie que fi |j = fi . :

Il n'y a donc aucun lien entre taille de l'entreprise et niveau de salaires


dans cet exemple.
51
Dépendance ou indépendance ?

Q : Que dire de la dépendance / indépendance entre X et Y dans


ce tableau de contingence ?

52
Dépendance ou indépendance ?

Q : Que dire de la dépendance / indépendance entre X et Y dans


ce tableau de contingence ?

Il y a dépendance totale entre X et Y : la connaissance de X permet de


connaitre parfaitement Y.

Pour le vérier, il sut de remarquer que chaque valeur de X est associée

à une seule valeur de Y, et inversement. Autrement dit, les moyennes

conditionnelles sont égales aux valeurs des variables (par ex x 1 = 4 = x1 ).


52
Covariance

La covariance mesure à quel point deux variables évoluent ensemble ou

co-varient.

On la calcule comme suit :

53
Covariance

La covariance mesure à quel point deux variables évoluent ensemble ou

co-varient.

On la calcule comme suit :

Problème : la valeur de la covariance est dicile à interpréter en


elle-même (comme celle de la variance)

On la ramène donc généralement sur une échelle de -1 à +1 : le

coecient de corrélation

53
Corrélation

La corrélation mesure l'intensité de la relation linéaire qui lie X à Y,

c'est-à-dire à quel point ces deux variables s'alignent le long d'une

droite.

On la mesure à l'aide du coecient de corrélation (de Pearson), compris

entre -1 et +1, noté r ou ρ :

Cov (X ,Y )
ρ= σX ∗σY

54
Corrélation

La corrélation mesure l'intensité de la relation linéaire qui lie X à Y,

c'est-à-dire à quel point ces deux variables s'alignent le long d'une

droite.

On la mesure à l'aide du coecient de corrélation (de Pearson), compris

entre -1 et +1, noté r ou ρ :

Cov (X ,Y )
ρ= σX ∗σY

• ρ>0 si les deux variables évoluent de manière croissante

• ρ<0 si les deux variables évoluent en sens contraire

• ρ=0 s'il n'y a pas de relation linéaire (droite horizontale)

54
Covariance et corrélation : exemple

On s'intéresse à la relation entre les prix de vente médians des maisons et

des appartements dans les 12 régions de métropole + Corse (données

INSEE 2017).

Il semble exister un lien net entre X et Y, hormis en Corse et PACA...

Q : calculez la covariance et la corrélation entre les prix des


maisons et des appartements, et interprétez 55
Covariance et corrélation : exemple

Pour information, moyenne des appartements = 2372.3 euros par m2 ;

moyenne des maisons = 43.1 milliers d'euros par pièce

1 (4880∗67+1760∗32+...+2720∗68)−2372.3∗43.1 ≈ 10174 !
Cov (X , Y ) = 13
La covariance est positive comme attendu...

56
Covariance et corrélation : exemple

Pour information, variance de X (appartements) = 780386 ; variance de

Y (maisons) = 242.1

ρ=
Cov (X ,Y )
= p 10174
p = 0.75
σX σY 780386 242.1
La corrélation est donc bien positive, élevée car assez proche de 1, ce qui

témoigne du lien positif très fort entre les prix des maisons et des

appartements au sein des régions françaises.


57
Covariance et corrélation : exercice

Calculez la covariance puis la corrélation entre X et Y

58
Covariance et corrélation : exercice

Calculez la covariance puis la corrélation entre X et Y

Solutions : Cov = 9,5 ρ = 0, 97

58
Corrélation ?

Q : Que dire de la corrélation entre X et Y dans ces quatre nuages


de points ?

59
Corrélation ?

Q : Que dire de la corrélation entre X et Y dans ces quatre nuages


de points ?

Il y a corrélation extrême ou forte dans les cas 1 et 2 (ρ = +1 et ρ = −0.8)

et corrélation très faible ou nulle dans les cas 3 et 4 (ρ ≈ 0)

59
Corrélation ?

Q : Que dire de la corrélation entre X et Y dans ces quatre nuages


de points ?

Il y a corrélation extrême ou forte dans les cas 1 et 2 (ρ = +1 et ρ = −0.8)

et corrélation très faible ou nulle dans les cas 3 et 4 (ρ ≈ 0)

59
Corrélation 6= pente

Attention : le coecient de corrélation ne mesure pas la pente


du nuage de point...

Tous ces nuages de points ont une corrélation de +1 ou -1

Pour quantier la pente d'une relation linéaire, on utilise la régression

linéaire

> on cherche alors à estimer les deux coecients de la droite Y = aX + b

60
Plan du chapitre

1. Introduction

2. Tableaux de contingence

3. Caractéristiques des distributions

4. Liens entre deux variables

5. Régression linéaire

61
Plan

1. Introduction

2. Tableaux de contingence

3. Caractéristiques des distributions

4. Liens entre deux variables

5. Régression linéaire

62
Régression linéaire : un exemple

Qu'est-ce que cette droite de régression linéaire ? Comment déterminer

son équation ?

63
Régression linéaire

La régression linéaire est une méthode statistique permettant de

quantier la relation entre une variable dépendante (ou à expliquer)


Y et une variable explicative X (ou plusieurs variables explicatives).

Pour cela on pose un modèle économétrique, c'est-à-dire une équation

reliant X à Y via des paramètres inconnus que l'on souhaite estimer.

> La forme de modèle la plus simple est appelée régression linéaire

simple et s'écrit :
Yi = α + βXi + ei
où ei est un terme d'erreur (aléas de Y inexpliqués par le modèle)

64
Régression linéaire

La régression linéaire est une méthode statistique permettant de

quantier la relation entre une variable dépendante (ou à expliquer)


Y et une variable explicative X (ou plusieurs variables explicatives).

Pour cela on pose un modèle économétrique, c'est-à-dire une équation

reliant X à Y via des paramètres inconnus que l'on souhaite estimer.

> La forme de modèle la plus simple est appelée régression linéaire

simple et s'écrit :
Yi = α + βXi + ei
où ei est un terme d'erreur (aléas de Y inexpliqués par le modèle)

> Comment estimer les paramètres inconnus α et β?

On collecte un échantillon et on applique la méthode des Moindres

Carrés Ordinaires (MCO)

64
Régression linéaire et Moindres Carrés Ordinaires

Critère des Moindres Carrés Ordinaires : l'estimateur par MCO est


celui qui minimise la somme des erreurs empiriques au carré, dite Somme

des Carrés des Résidus (SCR) :

65
Moindres Carrés Ordinaires

Critère des Moindres Carrés Ordinaires : l'estimateur par MCO est


celui qui minimise la somme des erreurs empiriques au carré, dite Somme

des Carrés des Résidus (SCR) :

X 2 X
ebi = (Yi − Ybi )2 = (Yi − α
b − βbXi )2
X
Min SCR =

où Ybi est la valeur de Y prédite par le modèle pour l'observation i

66
Moindres Carrés Ordinaires

Critère des Moindres Carrés Ordinaires : l'estimateur par MCO est


celui qui minimise la somme des erreurs empiriques au carré, dite Somme

des Carrés des Résidus (SCR) :

X 2 X
ebi = (Yi − Ybi )2 = (Yi − α
b − βbXi )2
X
Min SCR =

où Ybi est la valeur de Y prédite par le modèle pour l'observation i

Quand on dérive cette fonction SCR par rapport à α


b et βb, on obtient la

formule de l'estimateur des Moindres Carrés Ordinaires :


Cov (X ,Y )
βb = Var (X ) et b = Y − βbX
α

> Ces deux coecients permettent de tracer la droite qui synthétise le

mieux un nuage de points d'après le critère des MCO. La droite s'écrit


alors : Ybi = α
b + βbXi

66
Régression linéaire et Moindres Carrés Ordinaires

Q : si l'on considère le modèle linéaire Yi = α + βXi + ei sur cet


échantillon, devinez graphiquement les valeurs de α
b et βb.

Q : Vériez à l'aide de la formule des estimateurs MCO α


b et βb.
Cov (X ,Y )
βb = Var (X ) et α
b = Y − βbX

67
Régression linéaire et Moindres Carrés Ordinaires

Q : si l'on considère le modèle linéaire Yi = α + βXi + ei sur cet


échantillon, devinez graphiquement les valeurs de α
b et βb.

Cette droite qui semble bien synthétiser la relation entre X et Y est

caractérisée par :

• une ordonnée à l'origine d'une valeur d'environ 4 (donc αb ≈ 4)


• une pente ou coecient directeur de l'ordre de 3 (donc βb ≈ 3)
Cov (X ,Y )
Pour le vérier, on calcule βb = Var (X ) et α
b = Y − βbX 68
Régression linéaire et Moindres Carrés Ordinaires

Cov (X ,Y )
βb = Var (X ) et α
b = Y − βbX

69
Régression linéaire et Moindres Carrés Ordinaires

Cov (X ,Y )
βb = Var (X ) et α
b = Y − βbX

• X = 3, 5 et Y = 13, 67
• Cov(X,Y) = 9,5 et Var(X) = 3,5
• Donc βb = 9,5 = 2, 71
3,5
• Donc α
b = 4, 17

> Notre modèle estimé par MCO s'écrit donc Ybi = 4, 17 + 2, 71Xi
69
Régression linéaire

Notre modèle estimé par MCO s'écrit donc Ybi = 4, 17 + 2, 71Xi


> Interprétation ? Utilité ?

• En moyenne, une hausse d'une unité de X est associée à une

augmentation de 2,7 unités (eet marginal de X sur Y)

• En moyenne, Y vaut 4,2 lorsque X vaut 0.

70
Régression linéaire

Notre modèle estimé par MCO s'écrit donc Ybi = 4, 17 + 2, 71Xi


> Interprétation ? Utilité ?

• En moyenne, une hausse d'une unité de X est associée à une

augmentation de 2,7 unités (eet marginal de X sur Y)

• En moyenne, Y vaut 4,2 lorsque X vaut 0.

• A partir de ce modèle, on peut estimer/prédire la valeur de Y pour

n'importe quelle valeur de X

Exemples : prévisions éco, scoring, ciblage de clients, etc.

> Pour que ces prédictions soient susamment bonnes, il faut

cependant mesurer la qualité de l'ajustement du modèle

70
Qualité de l'ajustement

Pour mesurer la qualité de l'ajustement d'un modèle linéaire, autrement

dit sa capacité à expliquer et prédire les variations de Y , on utilise


généralement le coecient de détermination noté R 2 ∈ [0, 1].
Le R2 se calcule comme la part des écarts de Y à la moyenne qui sont

expliqués par le modèle :

SCE SCR
R2 = = 1−
SCT SCT

71
Qualité de l'ajustement

Pour mesurer la qualité de l'ajustement d'un modèle linéaire, autrement

dit sa capacité à expliquer et prédire les variations de Y , on utilise


généralement le coecient de détermination noté R 2 ∈ [0, 1].
Le R2 se calcule comme la part des écarts de Y à la moyenne qui sont

expliqués par le modèle :

SCE SCR
R2 = = 1−
SCT SCT

• SCT = (Yi − Y )2
P
avec = la somme des carrés totaux (écarts à la

moyenne au carré, une mesure proche de la variance de Y)


• SCE = (Yb − Y )2 = la somme des carrés expliqués (écarts entre
P
et

les Y
bi prédits et les vrais Yi )
• Ex : si R 2 = 0, 8 = 80%, le modèle explique 80% des variations de Y

Attention : le R2 est une mesure du pouvoir explicatif ou prédictif d'un


modèle. Il ne dit rien de sa capacité à distinguer causalité et corrélation. 71
Qualité de l'ajustement

Dans notre exemple, le R2 est très élevé (0,93) : 93% des variations de Y
sont explicables par les variations de X.

Mais pour savoir si la qualité d'un modèle est satisfaisante ou non,


il faut s'interroger :

• sur l'objectif du modèle (prédire un prix ? prédire un risque de

maladie mortelle ? estimer un eet causal ?)


• sur la variabilité du Y : le phénomène étudié est-il a priori facile ou

dicile à prédire/comprendre ?
• sur la qualité des variables explicatives : les variables X sont-elles
72
susamment a priori riches et bien mesurées ?
Exercice

Quelle est l'équation de la droite de régression entre le taux de croissance

et le taux d'investissement ? Quel est le coecient de détermination de la

régression ? Que peut-on en conclure ?

73

Vous aimerez peut-être aussi