0% ont trouvé ce document utile (0 vote)
49 vues24 pages

Modelisation

Le document présente une modélisation statistique axée sur la régression linéaire, incluant des concepts tels que la régression linéaire simple et multiple, ainsi que la vérification des hypothèses stochastiques. Il aborde également des techniques pour détecter et résoudre la multicolinéarité, ainsi que des méthodes de test de significativité des coefficients. Enfin, des travaux pratiques sont proposés pour appliquer les concepts discutés.

Transféré par

jude38364
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
49 vues24 pages

Modelisation

Le document présente une modélisation statistique axée sur la régression linéaire, incluant des concepts tels que la régression linéaire simple et multiple, ainsi que la vérification des hypothèses stochastiques. Il aborde également des techniques pour détecter et résoudre la multicolinéarité, ainsi que des méthodes de test de significativité des coefficients. Enfin, des travaux pratiques sont proposés pour appliquer les concepts discutés.

Transféré par

jude38364
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Nationale

des Sciences,
Technologies,
Ingénierie et
Mathématiques
(UNSTIM)

Ecole Nationale Supérieure de Génie


Mathématique et Modélisation (ENSGMM)

Modélisation Statistique

Saisi par :
Sous la direction de :
Les étudiants de
Dr Nicodème ATCHADE
la 1re Promotion

Année académique : 2019-2020


2

ENSGMM II Modélisation Statistique


SOMMAIRE

Chapitre 1 Régression linéaire 5


1.1 Régression Linéaire Simple (RLS) . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Démarche de la modélisation . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Régression Linéaire Multiple (RLM) . . . . . . . . . . . . . . . . . . . . . . . . . 8

Chapitre 2 Vérification des hypothèses stochastiques du modèle linéaire 9


2.1 Hypothèse d’abscence de multicolinéarité . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Méthode de détection de la multicolinéarité . . . . . . . . . . . . . . . . 9
2.1.1.1 Règle de Klein . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1.2 Le VIF(Variance d’inflation) . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Résolution de la multicolinéarité . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2.1 Regression Ridge . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2.2 Regression LASSO . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2.3 Regression Elastic Net . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Hypothèse d’homoscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Correction de l’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Hypothèse de normalité des résidus . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1 Test de Normalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1.1 Test de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1.2 Résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2 Transformations avancées . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.2.1 Transformation de Boxcox . . . . . . . . . . . . . . . . . . . . . 15
2.3.3 Détection des valeurs anormales . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.4 Sélection des variables/modèles . . . . . . . . . . . . . . . . . . . . . . . 15

Chapitre 3 DUMMY VARIABLES IN MODELING 17


3.1 INTRODUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Regression Model specification with the dummy variables . . . . . . . . . 17
3.1.2 Regression Modelling with dummy variables(decallage) . . . . . . . . . . 17
3.1.2.1 Simple linear Regression Model . . . . . . . . . . . . . . . . . . 17
3.1.2.2 Simple linear Regression Model considering each modality . . . 18
3.1.2.3 Regression Modelling with dummy variables(pente) . . . . . . 18
3.2 Regression model with dummy variables (General form) . . . . . . . . . . . . . . 19

3
4 SOMMAIRE

3.2.1 Test of Chow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Chapitre A Travaux Pratiques 23


A.1 Régression Linéaire Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
A.2 Régression Linéaire Multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
A.3 ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

ENSGMM II Modélisation Statistique


CHAPITRE 1

RÉGRESSION LINÉAIRE

1.1 Régression Linéaire Simple (RLS)

En régression linéaire, les variables sont quantitatives. Dans le cas simple, le modèle s’écrit
comme suit :

yi = β0 + β1 xi + εi ; i = 1, ..., n.

Sous forme matricielle, on a :

Y = Xβ + ε

1.1.1 Démarche de la modélisation

1. Jeu de données :

Y X
y0 x0
y1 x1
.. ..
. .
yn x0

2. Représentation des données


> plot(x,y)

5
6 Chapitre 1 : Régression linéaire

10
8
yp

6
4
2

2 4 6 8 10

xp

FIGURE 1.1 – Représentation graphique des données

3. Estimation du modèle
Il existe deux méthodes principales sont utilisées : la Méthode des Moindres Carrés Ordi-
naires (MCO) et la Méthode du Maximum de Vraisemblance ou Maximum Likelyhood
(MLE). L’objectif principal de la MCO est la minimisation de la somme des carrés des er-
reurs commises.
ε2i = min (yi − ŷi )2
X X
min

β̂0M CO = ȳ − β̂1M CO x̄
¯ − x̄ȳ
xy
β̂1M CO = ¯2
x − x̄2
Sous forme matricielle Y = Xβ + ε

Xβ = Y − ε ⇔ X 0 Xβ = X 0 (Y − ε)

Xβ = Y − ε ⇔ X 0 Xβ = X 0 Y − X 0 ε
or X 0 ε = 0 ; donc X 0 Xβ = X 0 Y

βM CO = (X 0 X)−1 X 0 Y

4. Test de significativité
> modele = lm(y~x)
> summary(modele)
• Significativité des coefficients
Le test mis en évidence test de Student. Les hypothèses du test sont :

(H0 ) : βbj = 0 contre (H1 ) : βbj =


6 0

Statistique de Student :

β̂j √
tβ̂j = avec σ̂βj = se aii
σ̂βj

ENSGMM II Modélisation Statistique


Chapitre 1 : Régression linéaire 7

s P 2
ε
où aii sont les éléments diagonaux de la matrice carrée (XX ) 0 −1
et se = i
n−m−1
Si tβbj > ttab ou p_value < α, alors on rejet H0 ; on conclut donc que le coefficient β̂j est
significatif au seuil α.
• Significativité globale du modèle
Le test mis en évidence test de Fisher. Les hypothèses du test sont :

(H0 ) : Modèle globalement non significatif

contre

(H1 ) : Modèle globalement significatif


Statistique de Fisher :
R2 n−m−1
F = ·
1−R 2 m
où m est le nombre de variable explicative dans le modèle et R2 le coefficient de déter-
mination.
Si F > Ftab ou p_value < α, alors on rejette H0 et on conclut que le modèle globalement
significatif au seuil α.

5. Vérification des hypothèses stochastiques du modèle linéaire Les hypothèses stochas-


tiques du modèle linéaire sont :
(a) E(ε) = 0
(b) V ar(ε) = σ 2 = cste =⇒ Homoscédasticité ou Homogénéité
(c) Cov(Xi , Xj ) = 0 =⇒ Absence de multicolinéarite
i6=j

(d) Cov(εi , εi−1 ) = 0 =⇒ Absence d’autocorrélation des erreurs


(e) ε ∼ N (0, σ 2 ) =⇒ Normalité des résidus
(f) Cov(Xi , εi ) = 0
6. Prédire
Ŷp = β̂0 + β̂1 Xp

REMARQUE 1.1.1
• Si le coefficient est significatif, on peut l’interpréter.
• Intervalle de confiance du coefficient β̂j :

ICβbj = β̂0 ± ∆β̂j

ICβbj = β̂0 ± ttab · σ̂βj

cov(x, y)
• R2 = rxy
2
=
sx × sy
2 n−1
• Radj = 1 − (1 − R2 ) ·
n−m−1

Modélisation Statistique ENSGMM II


8 Chapitre 1 : Régression linéaire

1.2 Régression Linéaire Multiple (RLM)


Ici m ≥ 2 ; c’est-à-dire qu’on aplus d’une variable explicative
• Les hypothèses stochastiques ci-dessus sont valables.
• Radj
2
est d’actualité.
• Modèle m
X
y = β0 + βi xi + ε
i=2

Forme matricielle :
Y = βX + ε
• Procédure de la modélisation
1. Plot
> plot(x_1,y)
> plot(x_2,y)
..
.
> plot(x_m,y)
2. Estimations
> RLM = lm(y ~ x_1 + x_2 + ... + x_m, data = base)
3. Test de significativité
4. Vérifiaction des hypothèses
5. Prédire
6. Sélection de modèles :

Ŷ = βˆ0 + βˆ1 X1 + βˆ2 X2 + · · · + βˆm Xm

La variation d’une unité de X1 entraine la variation de βˆ1 de y, toute chose étant égale
par ailleurs.

ENSGMM II Modélisation Statistique


CHAPITRE 2

VÉRIFICATION DES HYPOTHÈSES


STOCHASTIQUES DU MODÈLE LINÉAIRE

Au bout d’une modélisation statisique par RL, il est important de vérifier les hypothèses sto-
chastiques essentiellement celles d’homoscédasticité, de normalité des résidus, d’abscence de
multicolinéarité et d’absence d’auto-corrélation des erreurs.

2.1 Hypothèse d’abscence de multicolinéarité


Au vu de la matrice de corrélation, on peut faire le choix de variables explicatives pour éviter
la liaison entre les Xi. Cette sélection se fait suivant deux règles :
1. les xi doivent être en liason maximale possible avec y.
2. la liaison entre les xi doit être la plus faible possible

2.1.1 Méthode de détection de la multicolinéarité


2.1.1.1 Règle de Klein
On calcule la matrice carré pxp composée des estimations ponctuelles :
cov(Xi , Xj )
ρ i ,j =
σ(Xi )σ(Xj )
Si une ou plusiurs valeurs au carré sont proches du coéfficeint de détermination R2 , alors on
soupçonne que les variables associées sont colinéaires.
Sous R :
> c = cor(cbind(X_1, X_2, X_3), cbind(X_1, X_2, X_3))
> c^2

2.1.1.2 Le VIF(Variance d’inflation)


Pour tout j ∈ {1, ...., p}, on appelle j ième facteur d’inflation de la variance VIF ,le réel :
1
V IF =
1 − Rj2

9
10 Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire

où Rj2 désigne le coefficient de détermination du modèle RLM. Xj = f (X1 , X2 , ..., Xj−1 , Xj+1 , ..., Xp )
Ainsi, plus le lien linéaire entre Xj et les autres variables est fort,plus Rj2 est proche de 1 et
plus le VIF est grand et plus l’estimation de
betaj est instable.Autrement,Xj est à la base de la multicolinéarité.
Si VIF ≥ 5, on admet qu’il y a multicolinéarité. Dans la littérature, ce seuil peut varier. (Ref 3
dans Eliseeva,2014 Econométrie)
Sous R :
> library(cor)
> vif(model)

2.1.2 Résolution de la multicolinéarité


1. On regroupe les variables colinéaires pour n’en former qu’une.
Par exemple, si on soupconne Xj et Xk colinéaires, on peut considérer la nouvelle variable
Zj =a+b(Xj +Xk ) ou Zj =a+b(Xj -Xk ).
2. On élimine une ou plusieurs variables colinéaires en concertation avec un spécialiste des
données du domaine pour savoir si cela a du sens.
3. On considère un autre estimateur de β :
(a) Régression Ridge
(b) Régression Lasso
(c) Régression ElasticitéN et

2.1.2.1 Regression Ridge


L’estimateur Ridge est définie par :

β̂Ridge = (X 0 X + λΠp )−1 X 0 Y

où λ est une valeur positive qui vérifie :


p
argmin 2
β̂j2
X X
(yi − ŷi ) + λ
β∈Rp+1 j=1
| {z }
pénalisation

On peut réécrire β̂Ridge comme suit :


p
β̂Ridge = argmin kY − Xβk + λ2
(β̂j2 )
X

β∈Rp+1 j=1
| {z }
pénalisation

En général,on le calcule pour plusieurs valeurs de λ, λ convenable est estimable avec plusieurs
méthodes dont le maximum de vraisemblance.
Sous R :
> library(MASS)
> reg = lm.ridge(Y ∼ X_1+X_2+X_3, lambda = seq(0,100,1))
> select(reg)

Exemple

ENSGMM II Modélisation Statistique


Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire 11

Y X
30 4
20 3
10 2

ŷi = β̂xi
MCO
ε2i
X
argminβ
yi2 − 2β xi y i + β 2 x2i
X X X
f (β) =

∂f
x2i = 0
X X
= 0 ⇐⇒ −2 xi yi + 2β
∂β
P
xi y i
⇐⇒ β̂M CO =
x2i

Ridge
yi2 − 2β xi y i + β 2 x2i + λβ 2
X X X
fRidge =

∂fRidge
x2i + 2λβ = 0
X X
= 0 ⇐⇒ −2 xi yi + 2β
∂β
P
xi y i
⇐⇒ β̂Ridge = 2
xi + λ

Application à l’exemple
120 + 60 + 20
β̂M CO = = 7.58
16 + 9 + 4
120 + 60 + 20
β̂Ridge = = 7.09
16 + 9 + 4 + 2
7.09 < 7.58

2.1.2.2 Regression LASSO

p
β̂Ridge = argmin kY − Xβk + λ 2
X
|β̂j |
β∈Rp+1 j=1
| {z }
pénalisation

Sous R :
> library(lars)
> X = cbind(1, X_1, X_2)
> regLasso = lars(X, Y, type = "lasso")
> summary(regLasso)

Modélisation Statistique ENSGMM II


12 Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire

2.1.2.3 Regression Elastic Net

p p
β̂ElN et = argmin kY − Xβk2 + λ β̂j2 + λ
X X
|β̂j |
β∈Rp+1 j=1 j=1
| {z }
pénalisation

C’est la combinaison des deux méthodes précédentes.

2.2 Hypothèse d’homoscédasticité


On parle d’absence d’homoscédasticité (ou d’hétéroscédasticité) des erreurs lorsque Ω =
diag(ω1 , . . . , ωn ) où les ωi sont des réels positifs dont au moins deux différents.
Notons que Var(εi ) = σ 2 ωi = E(ε2i ).
Il faut noter que Ω est la matrice des variances-covariances. Les valeurs diagonales de Ω
sont les variances et les autres, les covariances

εi εi
Homoscédasticité · ·· · Hétéroscédasticité
·
· ·· ··
·
· ·· ··
· · ·
· ·· ··
·
· ·· ··
· · ·
· ·· ··
·
· ·· ··
·
· ·· ··
· · ·
· ·· ··
·
·· ··
·
ŷi ŷi

Après la représentation graphique, il faut évidemment effectuer les tests d’hétérosédasticité


pour tirer une conclusion finale.
Les tests les plus utilisés sont ceux de : White,Breusch Pagan, Gleizer, Park, Goldfild-Quantd,
Spearman, ....
1. Test de Goldfild-Quantd
Il s’utilise pour des résidus supposés suivre la loi normale et pour une taille de l’échantillon.
Procédure du test
1. Les observations sont rangés dans l’ordre croissant selon une variable explicative soup-
çonné être à la base de l’hétérosédaticité.
2. L’échantillon est divisé en trois groupes dont le premier et le troisième sont de même
taille supérieure au nombre de paramètres du modèle.
3. Pour les groupes 1 et 3, on construit les modèles de regression et on récupère les sommes
de carrés résiduels.
4. Calcul de la statistique de Fisher
SCRmax
F = et ddl1 = ddl3 = n0 − m − 1
SCRmin

ENSGMM II Modélisation Statistique


Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire 13

5. Si F > Ftab , on rejette l’hypothèse nulle d’homosédasticicté.


2. Test de Breusch Pagan

εi 2
= α0 + αj xji + αj+1 x(j+1)i + · · · + αj+k x(j+k)i + υi
s2
1X 2
avec s2 = εi .
n
Si αj s’avère significatif, alors la variable xj explique la variation des résidus.
On dit que xj est à la base de l’heterosédasticité.
3. Test de White

εi 2 = α0 + α11 x1i + α12 x1i 2 + α21 x2i + α22 x2i 2 + γ12 x1i x2i + υi

4. Test de Park
ln εi 2 = α0 + αj lnxji + υi
5. Test de Gleizer
|εi | = α0 + αj xji k + υi
avec k = −1; −0.5; 0.5; 1
L’estimateur de β en cas d’hétéroscédasticité est :
 −1
βbM CG = X 0 Ω−1 X X 0 Ω−1 Y

σε1 2 0 ···
 
0
 0 σε2 2 ··· 0 
où Ω = .. .. ..
 

.. 

 . . . .


0 0 · · · σεn 2

2.2.1 Correction de l’hétéroscédasticité


Pour corriger l’hétéroscédasticité, on peut appliquer la méthode des Moindres Carrés Généralisés
(MCG) qui n’est rien d’autre que la méthode des Moindres Carrés Ordinaires (MCO) appliquée à
des données transformées.
Soit le modèle à trois variables explicatives suivant :

Y = β0 + β1 X1 + β2 X2 + β3 X3 + ε

S’il s’avère par exemple que c’est X3 qui est à la base de l’hétéroscédasticité, on divise toute
l’équation par X3 et on obtient un nouveau modèle qui est le suivant :
Y 1 X1 X2 1
= β0 + β1 + β2 + β3 + ε
X3 X3 X3 X3 X3
On peut réécrire comme suit le modèle :

Y ∗ = β0 X3∗ + β1 X1∗ + β2 X2∗ + β3 + ε∗

A ce nouveau modèle, on applique la MCO ; c’est cette procédure qu’on appelle la MCG.
Si la condition d’homoscédaticité (V ar(ε∗i ) = cste) est vérifiée , alors on réécrit le modèle sous
sa forme initiale avec les nouveaux coefficients βj∗ pour l’interprétation.

Modélisation Statistique ENSGMM II


14 Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire

Exemple 1 :
Soit le modèle suivant :

Y = 5226.44 + 12.45X1 + 0.06X2 + 0.01X3 + ε

X3 est à la base de l’hétéroscédasticité ; on a donc le modèle suivant :

Y ∗ = 524.15X3∗ + 8.018X1∗ + 0.058X2∗ + 0.723 + ε∗

Retour au modèle initial en conservant le coefficients du modèle transformé

Y = 524.15 + 8.018X1 + 0.058X2 + 0.723X3 + ε

Comme interprétation, on a :
Une augmentation d’une unité de X1 entraine une augmentation de 8.018 unités de Y ; toute chose
étant identique par ailleurs.
Sous R , pour avoir β̂M CG :
> reg = lm(Y∼X_1 + X_2 + X_3)
> e = residuals(reg)
> reg2 = lm(Y∼X_1+X_2+X_3,weights=1/e^2)
> summary(reg2)
Exemple 2 :
http : //rstudio−pubs−static.s3.amazonaws.com/300060d 2f 81f 64f 48443748969d7c1f 6cc7249.html
https : //rpubs.com/cyobero/187387

2.3 Hypothèse de normalité des résidus


Admettons que les εi , ..., εn soient indépendantes et var(εi ) = cste .
Dans un premier temps, pour étudier la normalité des εi , on trace le nuage de points QQ-plot
(en core appelé diagramme quantile-quantile) associé.

2.3.1 Test de Normalité


2.3.1.1 Test de Shapiro-Wilk
Pour conclure la Normalité des εi partant des résidus ei , on préconise le test de SHAPIRO-
WILK.
Sous R :
> shapiro.test(residuals(reg))
Si p-value > 5%, on admet l’hypothèse de normalité.

2.3.1.2 Résolution
√ 1
Une RLM avec y transformée comme ln(y), y, , . . . peut engendrer de nouvelles erreurs
y
ε1 , ε2 . . . , εn suivant chacune une loi normale. Dès lors, on peut utiliser ce nouveau modèle pour
une étude statistique.

ENSGMM II Modélisation Statistique


Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire 15

2.3.2 Transformations avancées


2.3.2.1 Transformation de Boxcox

yλ − 1

, λ 6= 0


y = λ sous l’hypothèse que y > 0
 ln(y) , sinon

Pour λ = 1, y ∗ = y − 1
1
Pour λ = −1, y ∗ = 1 −
y
Pour λ → 0, y ∗ = ln y (Démonstrations, voir TP)
Pour y < 0, on peut utiliser la transformation de Yéo Johson (Voir TP).
Sous R :
> library(car)
> reg = lm(Y ~ X1+X2+X3)
> reg2 = powerTransform(reg,family = "yjPower)
> summary(reg2)
> reg3 = lm(bcPower(Y,coef(reg2)) ~ X1+X2+X3)
> summary(reg3)
> reg3 = lm(modelYj$fitted ~ X1+X2+X3)

2.3.3 Détection des valeurs anormales


Pour détecter les valeurs anormales,on peut utiliser le critère des distances de Cook.
∀i ∈ {1, 2, ..., n}, on définit la distance de Cook de la iième observation par :
[X(X 0 X)−1 X 0 ]i,i
di = 0 −1 0
(e∗i )2
(p + 1)(1 − [X(X X) X ]i,i )
e∗i → résidus standartisés.
Si di > 1, on envisage l’anormalité de la iième observation.
di est la réalisation de :
||Ŷ − Yˆ−i ||2n
Di =
(p + 1)σ̂ 2
Yˆ−i = (X β̂)−i correspond au calcul de X β̂= X(X 0 X)−1 X 0 Y avec X et Y privés de la iième obser-
vation.
Sous R
> plot(reg, 4)
> coo.distance(reg)[cooks, distance(reg)v > 1]
> reg2 = lm(Y ∼ X_1 + X_2 + X_3, subset = - c(4, 26)) ; on soustrait les valeurs anor-
males

2.3.4 Sélection des variables/modèles


On utilise les critères suivants : Cp, AIC, BIC
• Critère Cp (de Mallows)
2
Y − Yb
Cp = − (n − 2 (p + 1))
σb 2
Modélisation Statistique ENSGMM II
16 Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire

• Critère AIC (Archaic Information Criteria)

AIC = 2(p + 1) − 2`

• Critèr BIC (Basic Information Criteria)

BIC = (p + 1) ln(n) − 2`

où ` = max
p+1
`(β) est le maximum de la log-vraissemblance du modèle.
β∈R
Ces critères reposent sur un compromis "biais parcimonie". Plus petits ils sont, meilleur
est le modèle
REMARQUE 2.3.1
Contrairemet au Radj , ces critères peuvent être utilisés pour les modèles linéaires généralisés
(voir cours de Statistique semestre 9)

Sous R :
> AIC(reg)
> BIC(reg)

ENSGMM II Modélisation Statistique


CHAPITRE 3

DUMMY VARIABLES IN MODELING

3.1 INTRODUCTION
In the previous classes, we studied Simple Linear Regression (SLR), Multiple Linear Regres-
sion (MLR) and the variables were quantitative. Generally, that condition is not frequent i.e in
real life, Y is influenced by factors(qualitative) and quantitative variable. For instance, the pro-
ductivity (milk) of a cow can depend on the quality of its diet (premium type I and type II). To
emphasize the dependency of Y related to the predictor, we use dummy variables. There are
binary variable which values are 0 and 1. If the qualitative variable has k modalities, we might
need a dummy variable ; by the way we use k − 1 dummy variables. We affect 1 to the dummy,
if the factor modality is the one of interest. Thus, the remaining got 0. This latter is the reference
Z1 = Z2 = · · · = Zk−1 = 0.
About the choice of the modalities, it is advised to select that modality which is the min or max
proportion of Y. If in the model we have many factors, then, for each of them we make all the
dummy variables. In that case the dummy variables are indexed as zji , with j as index of factor
and i the index about order of the j th category.

3.1.1 Regression Model specification with the dummy variables


It is written like :

Y = f (X1 , · · · , Xp , Z11 , · · · , Z12 , · · · , ) (3.1)


with Y dependent variable ; X quantitative predictor ; Z dummy variable ;  error ; Z11 , Z12 1st
factor ; Z21 1, Z22 2nd factor dummy variables.

We are going to out the different type of modeling with dummy variables.

3.1.2 Regression Modelling with dummy variables(decallage)


3.1.2.1 Simple linear Regression Model
Predictors : Z11 factor(Z modalities) and continous X1

17
18 Chapitre 3 : DUMMY VARIABLES IN MODELING

Y = α0 + α1 X1 + γ11 Z11 +  (3.2)


Y = α0 + α1 X1 + γ11 + ; when Z11 = 1 (3.3)
Y = α0 + α1 X1 + ; when Z11 = 0 (3.4)

Comparing (3.3 and 3.4) we do notice the difference between (α0 + γ11 ) and (α0 ). As illustration
we have :

Y
Ŷ = (α0 + γ11 ) + α1 X1

Ŷ = α0 + α1 X1

X
Let’s notify that α1 is unchanged. It means the variation of X1 has the same effect on Y not depen-
ding on the values of the factor. And, as the factor variation in the model 1 induces the variation
of Y , we can notice that it is the result of Z11 and Z1 2 = 0 of the factor. Eg : Y impôt in millions,
X1 Volume of products, X2 region. After computing OLS we have :

Ŷ = 9404, 1 + 0, 098X1 + 37136Z11 (3.5)

In general Z11 shows of how much in mean the taxes from the central regions are greater than
those in the other regions. We cannot be too sure about our conclusion, because γ11 is not signi-
ficant. If we ignore the non-significant effect of the dummy variable, then both equations (3.3
and 3.4) are equal.

3.1.2.2 Simple linear Regression Model considering each modality


Let’s notify that when we consider each modality and compute the linear regression, the equa-
tions are different.

Ŷ = 15794, 6 + 0, 073X1 ; CENTRAL REGION (3.6)


Ŷ = 6822, 7 + 0, 186X1 ; OTHER REGION (3.7)

3.1.2.3 Regression Modelling with dummy variables(pente)


When the effect of the predictor X1 on Y varies depending on the categories, we can write :

Ŷ = α0 + α11 X1 ; when Z12 = 0 (3.8)


Ŷ = α0 + α12 X1 ; when Z11 = 0 (3.9)

α11 6= α12 and in this case we said that it a structural change of the dependence of X1 and Y . To
take into account this structural change, we introduce the interaction variable and we have :

ENSGMM II Modélisation Statistique


Chapitre 3 : DUMMY VARIABLES IN MODELING 19

Ŷ = α0 + α1 X1 + φ111 X1 Z11 (3.10)

φ111 gathers two variables with one and two index.

The previous model can be set as :

Ŷ = α0 + α1 X1 ; when Z11 = 0 (3.11)


Ŷ = α0 + (α1 + φ111 )X1 ; when Z11 = 1 (3.12)

Consequently we have α12 = α1 + φ111 from (3.9. As an illustration of the model (3.10) can be
shown like this :

Y
Ŷ = α0 + (α1 + φ111 )X1

Ŷ = α0 + α1 + X1

X
1. α1 : can be considered as the influence of X1 with Z11 = 0,
2. φ111 : can be considered as the mean variation of X1 on Y when Z11 = 1
Related to our case our case we have Ŷ = 9436, 96 + 0, 145X1 − 0, 028X1 Z11 and the observed
differences in (3.6 and 3.7) is −0, 028 (non significant). The conclusion is that the difference bet-
ween regression coefficient for region 1 and 0............On the other hand we can interpret −0, 028
as the gain on taxes in central regions compared to the other regions. The obtained models for
the values of Z11 are as follows.

Ŷ = 9436.96 + 0.117X1 ; CENTRAL REGION (3.13)


Ŷ = 9436.96 + 0.145X1 ; OTHER REGION (3.14)

The last two models are not the same as (3.6 and 3.7). Thus, we are to improve them with the
dummy variables.

3.2 Regression model with dummy variables (General form)


Up to now, the studied models are specific model with dummy variables. For instance,for a
model with quantitative variable X1 and a dummy variable Z2 , there is a need to gather in a model
two regression equations :

Ŷ = α1 + α11 X1 ; if Z11 = 0 (3.15)


Ŷ = α2 + α12 X1 ; if Z11 = 1 (3.16)

Modélisation Statistique ENSGMM II


20 Chapitre 3 : DUMMY VARIABLES IN MODELING

Let’s use for it the model (3.2 and 3.10)

y = f (X, Z, XZ) (3.17)


Ŷ = α0 + α1 X1 + φ111 X1 Z11 + γ11 Z11 (3.18)

we can make sure that

Ŷ = α0 + α1 X1 ; if Z11 = 0
Ŷ = (α0 + γ11 ) + (α1 + φ111 )X1 ; if Z11 = 0

The parameters of (3.19 and 3.19) are from the general model and we can notice that α01 = α0 ,
α11 = α1 , α02 = α0 + γ11 , α12 = α1 φ111 . As illustration , the general model (3.2) can be presented
as follows :

y
Ŷ = (α0 + γ11 ) + (α1 + φ111 )x1

Ŷ = α0 + α1 X1

x
considering our example

Ŷ = 6822, 7 + 0, 186X1 − 0, 112X1 Z11 + 8971, 9Z11

all the parameters are significant. By the way ,the general model , well describe the study ; i.e R2
is quite high (R= 0, 59)and (F = 7, 79 > 2, 82). What are the reason of the non-significance of
the coefficient with the other model (decallage-pente) ?
To get the answer, we need to compare the parameters of the different models. We got that the
central regions helps to have greater taxes (8971.1). At the same time, the "profotability" in taxes
of X1 in the central regions is smaller ie the influence of "region" has two points. This is due to
the values of X1 in our sample and others factors that could taken into account in the model. The
interpretation can be set as follows :
1. 0.186 =⇒ In the region (non-central), Z11 = 0 the taxes are 0,186 millions ( in mean) of 1
million of exported products.
2. 0.112 =⇒ In the central region , the "profotability" of 1 million of exported products is
smaller of 0.112.
3. 9871.9 =⇒ The influence of others factors made us to state that the taxes in central regions
are greater of 8971.9 compare to non central region.
Let’s summarize the computed models and calculations in a table :

ENSGMM II Modélisation Statistique


Chapitre 3 : DUMMY VARIABLES IN MODELING 21

Regions General model with Dummy variables Model per sample


central Z11 = 1 Ŷ = 1579.7 + 0.074X1 Ŷ = 1579.6 + 0.073X1
others Z11 = 0 Ŷ = 6822.7 + 0.186X1 Ŷ = 6822.7 + 0.186X1
The model parameter for each group that we got with different methods are equivalent.

1-model with Dummy variable "à décalage" =⇒ Y = f (X, Z)


Ŷ = α0 + α1 X1 + α1 X1 + · · · + αp Xp + γ11 Z11 + γ12 Z12 + · · · + γ21 Z21 + γ22 Z22 + · · · + γj1 Zj1 +
γj2 Zj2 + · · ·

2-model with Dummy variable "à pente" =⇒ Y = f (X, XZ)


Ŷ = α0 + α1 X1 + α1 X1 + · · · + αp Xp + φ111 X1 Z11 + φ112 X1 z12 + φ1j1 X1 Zj1 + φ1j2 X1 Zj2 + · · · +
φp11 Xp Z11 + φp12 Xp Z12 + · · · + φpj1 Xp Zj1 + φpj2 Xp Zj2

3-General model with Dummy =⇒ Y = f (X, Z, XZ)


Ŷ = α0 + α1 X1 + α1 X1 + · · · + αp Xp + γ11 Z11 + γ12 Z12 + · · · + γ21 Z21 + γ22 Z22 + · · · + γj1 Zj1 +
γj2 Zj2 + · · · + φ111 X1 Z11 + φ112 X1 Z12 + φ1j1 x1 Zj1 + φ1j2 X1 zj2 + · · · + φp11 Xp Z11 + φp12 xp Z12 +
· · · + φpj1 xp Zj1 + φpj2 xp Zj2

Models with dummy variables can be used with time series analysis in order to structure the
seasonal fluctuations.

3.2.1 Test of Chow


For different values of the dummy variables, we get different regression model. The need of
using two models instead of one without the dummy variables can be estimated by test of Chow.
Be a sample of ”n” observations. And we are studying the dependence of a response variable Y
and many other predictors. The experience maker , by observing data sets, can suggest that the
populace is not homogeneous. In order to get it, we can need to divide the populace related to
a factor . To check that hypothesis, we will use chow test. For each of the regressions related to
each factor , we get SCR. The SCR0 = SCR1 + SCR2 is got if the parameters of the 3 equations
are equal, if not SCR0 > SCR1 + SCR2 . Greater is the difference SCR0 − [SCR1 + SCR2 ], more
significant is the coefficient in subgroups(different coef in subgroups). The significance of that
difference is checked with Fisher statistic.

SCR0 − [SCR1 + SCR2 ] n − m1 − m2 − 2


F = (3.19)
[SCR1 + SCR2 ] m1 + m2 + 1 − n
with m the number of parameter without the constant of general model. For this case F =
4.01 > 3.21andp < 0.05. The "profitabilities" about the factor "region" is significantly different.
Example
http ://www.sthda.com/english/articles/40-regression-analysis/163-regression-with-categorical-
variables-dummy-coding-essentials-in-r/

Modélisation Statistique ENSGMM II


22 Chapitre 3 : DUMMY VARIABLES IN MODELING

ENSGMM II Modélisation Statistique


ANNEXE A

TRAVAUX PRATIQUES

A.1 Régression Linéaire Simple


1. Déterminer β par la méthode de maximum de vraisemblance.
xy − x y
2. Montrer que β0M CO = y − βˆ1 x et β1M CO = 2
x − x2
3. Montrer que β̂0 et β̂1 sont des estimateurs sans biais de β0 et β1 .
4. Montrer que les variances des estimateurs de β0 et β1 sont :
σ 2 x2i σ2
P
V ar(β̂0 ) = P et V ar(β̂1 ) = P
n (xi − x)2 (xi − x)2
1 P 2
5. Montrer que εi est un estimateur sans biais de σ 2
n−2
6. Montrer que SCT ottal = SCRésiduel + SCRegression
7. Montrer que la covariance des estimateurs de β0 et β1 est :
σ2x
cov(β̂0 , β̂1 ) = − P
(xi − x)2

A.2 Régression Linéaire Multiple


1. Montrer que l’estimateur β̂ par MCO est sans biais et sa matrice de variance-covariance est
V ar(β̂M CO ) = σ 2 (X 0 X)−1
2. Montrer que l’estimateur β̂M CO est de variance minimale parmi les estimateurs linéaires
de β
3. Montrer que X 0 X est une matrice définie positive.
4. On considère le modèle linéaire suivant sous sa forme matricielle suivante :
Y = β0 1n + Xβ + ε
Montrer que l’estimateur Ridge du modèle est donné par :
β̂0 = Y et β̂Ridge = (X 0 X + λIp )−1 X 0 Y

23
24 Chapitre A : Travaux Pratiques

5. Donner les commandes R de la regression Elastic Net sous R


6. Transformation de Box Cox : Démontrer que pour λ → 0, y ∗ = ln(y)
7. Donner l’expression de la transformation de Yeo Johnson

A.3 ANOVA
Retrouver les formule des tests de Shapiro-Wilk et Shapiro-Francia

ENSGMM II Modélisation Statistique

Vous aimerez peut-être aussi