0% ont trouvé ce document utile (0 vote)

49 vues24 pages

Modelisation

Le document présente une modélisation statistique axée sur la régression linéaire, incluant des concepts tels que la régression linéaire simple et multiple, ainsi que la vérification des hypothèses stochastiques. Il aborde également des techniques pour détecter et résoudre la multicolinéarité, ainsi que des méthodes de test de significativité des coefficients. Enfin, des travaux pratiques sont proposés pour appliquer les concepts discutés.

Transféré par

jude38364

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

49 vues24 pages

Modelisation

Transféré par

jude38364

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Nationale

des Sciences,
Technologies,
Ingénierie et
Mathématiques
(UNSTIM)

Ecole Nationale Supérieure de Génie

Mathématique et Modélisation (ENSGMM)

Modélisation Statistique

Saisi par :
Sous la direction de :
Les étudiants de
Dr Nicodème ATCHADE
la 1re Promotion

Année académique : 2019-2020

ENSGMM II Modélisation Statistique

SOMMAIRE

Chapitre 1 Régression linéaire 5

1.1 Régression Linéaire Simple (RLS) . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Démarche de la modélisation . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Régression Linéaire Multiple (RLM) . . . . . . . . . . . . . . . . . . . . . . . . . 8

Chapitre 2 Vérification des hypothèses stochastiques du modèle linéaire 9

2.1 Hypothèse d’abscence de multicolinéarité . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Méthode de détection de la multicolinéarité . . . . . . . . . . . . . . . . 9
2.1.1.1 Règle de Klein . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1.2 Le VIF(Variance d’inflation) . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Résolution de la multicolinéarité . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2.1 Regression Ridge . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.2.2 Regression LASSO . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2.3 Regression Elastic Net . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Hypothèse d’homoscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Correction de l’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Hypothèse de normalité des résidus . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1 Test de Normalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1.1 Test de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.1.2 Résolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2 Transformations avancées . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.2.1 Transformation de Boxcox . . . . . . . . . . . . . . . . . . . . . 15
2.3.3 Détection des valeurs anormales . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.4 Sélection des variables/modèles . . . . . . . . . . . . . . . . . . . . . . . 15

Chapitre 3 DUMMY VARIABLES IN MODELING 17

3.1 INTRODUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1.1 Regression Model specification with the dummy variables . . . . . . . . . 17
3.1.2 Regression Modelling with dummy variables(decallage) . . . . . . . . . . 17
3.1.2.1 Simple linear Regression Model . . . . . . . . . . . . . . . . . . 17
3.1.2.2 Simple linear Regression Model considering each modality . . . 18
3.1.2.3 Regression Modelling with dummy variables(pente) . . . . . . 18
3.2 Regression model with dummy variables (General form) . . . . . . . . . . . . . . 19

3
4 SOMMAIRE

3.2.1 Test of Chow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Chapitre A Travaux Pratiques 23

A.1 Régression Linéaire Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
A.2 Régression Linéaire Multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
A.3 ANOVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

ENSGMM II Modélisation Statistique

CHAPITRE 1

RÉGRESSION LINÉAIRE

1.1 Régression Linéaire Simple (RLS)

En régression linéaire, les variables sont quantitatives. Dans le cas simple, le modèle s’écrit
comme suit :

yi = β0 + β1 xi + εi ; i = 1, ..., n.

Sous forme matricielle, on a :

Y = Xβ + ε

1.1.1 Démarche de la modélisation

1. Jeu de données :

Y X
y0 x0
y1 x1
.. ..
. .
yn x0

2. Représentation des données

> plot(x,y)

5
6 Chapitre 1 : Régression linéaire

10
8
yp

6
4
2

2 4 6 8 10

FIGURE 1.1 – Représentation graphique des données

3. Estimation du modèle
Il existe deux méthodes principales sont utilisées : la Méthode des Moindres Carrés Ordi-
naires (MCO) et la Méthode du Maximum de Vraisemblance ou Maximum Likelyhood
(MLE). L’objectif principal de la MCO est la minimisation de la somme des carrés des er-
reurs commises.
ε2i = min (yi − ŷi )2
X X
min

β̂0M CO = ȳ − β̂1M CO x̄
¯ − x̄ȳ
xy
β̂1M CO = ¯2
x − x̄2
Sous forme matricielle Y = Xβ + ε

Xβ = Y − ε ⇔ X 0 Xβ = X 0 (Y − ε)

Xβ = Y − ε ⇔ X 0 Xβ = X 0 Y − X 0 ε
or X 0 ε = 0 ; donc X 0 Xβ = X 0 Y

βM CO = (X 0 X)−1 X 0 Y

4. Test de significativité
> modele = lm(y~x)
> summary(modele)
• Significativité des coefficients
Le test mis en évidence test de Student. Les hypothèses du test sont :

(H0 ) : βbj = 0 contre (H1 ) : βbj =

6 0

Statistique de Student :

β̂j √
tβ̂j = avec σ̂βj = se aii
σ̂βj

ENSGMM II Modélisation Statistique

Chapitre 1 : Régression linéaire 7

s P 2
ε
où aii sont les éléments diagonaux de la matrice carrée (XX ) 0 −1
et se = i
n−m−1
Si tβbj > ttab ou p_value < α, alors on rejet H0 ; on conclut donc que le coefficient β̂j est
significatif au seuil α.
• Significativité globale du modèle
Le test mis en évidence test de Fisher. Les hypothèses du test sont :

(H0 ) : Modèle globalement non significatif

contre

(H1 ) : Modèle globalement significatif

Statistique de Fisher :
R2 n−m−1
F = ·
1−R 2 m
où m est le nombre de variable explicative dans le modèle et R2 le coefficient de déter-
mination.
Si F > Ftab ou p_value < α, alors on rejette H0 et on conclut que le modèle globalement
significatif au seuil α.

5. Vérification des hypothèses stochastiques du modèle linéaire Les hypothèses stochas-

tiques du modèle linéaire sont :
(a) E(ε) = 0
(b) V ar(ε) = σ 2 = cste =⇒ Homoscédasticité ou Homogénéité
(c) Cov(Xi , Xj ) = 0 =⇒ Absence de multicolinéarite
i6=j

(d) Cov(εi , εi−1 ) = 0 =⇒ Absence d’autocorrélation des erreurs

(e) ε ∼ N (0, σ 2 ) =⇒ Normalité des résidus
(f) Cov(Xi , εi ) = 0
6. Prédire
Ŷp = β̂0 + β̂1 Xp

REMARQUE 1.1.1
• Si le coefficient est significatif, on peut l’interpréter.
• Intervalle de confiance du coefficient β̂j :

ICβbj = β̂0 ± ∆β̂j

ICβbj = β̂0 ± ttab · σ̂βj

cov(x, y)
• R2 = rxy
2
=
sx × sy
2 n−1
• Radj = 1 − (1 − R2 ) ·
n−m−1

Modélisation Statistique ENSGMM II

8 Chapitre 1 : Régression linéaire

1.2 Régression Linéaire Multiple (RLM)

Ici m ≥ 2 ; c’est-à-dire qu’on aplus d’une variable explicative
• Les hypothèses stochastiques ci-dessus sont valables.
• Radj
2
est d’actualité.
• Modèle m
X
y = β0 + βi xi + ε
i=2

Forme matricielle :
Y = βX + ε
• Procédure de la modélisation
1. Plot
> plot(x_1,y)
> plot(x_2,y)
..
.
> plot(x_m,y)
2. Estimations
> RLM = lm(y ~ x_1 + x_2 + ... + x_m, data = base)
3. Test de significativité
4. Vérifiaction des hypothèses
5. Prédire
6. Sélection de modèles :

Ŷ = βˆ0 + βˆ1 X1 + βˆ2 X2 + · · · + βˆm Xm

La variation d’une unité de X1 entraine la variation de βˆ1 de y, toute chose étant égale
par ailleurs.

ENSGMM II Modélisation Statistique

CHAPITRE 2

VÉRIFICATION DES HYPOTHÈSES

STOCHASTIQUES DU MODÈLE LINÉAIRE

Au bout d’une modélisation statisique par RL, il est important de vérifier les hypothèses sto-
chastiques essentiellement celles d’homoscédasticité, de normalité des résidus, d’abscence de
multicolinéarité et d’absence d’auto-corrélation des erreurs.

2.1 Hypothèse d’abscence de multicolinéarité

Au vu de la matrice de corrélation, on peut faire le choix de variables explicatives pour éviter
la liaison entre les Xi. Cette sélection se fait suivant deux règles :
1. les xi doivent être en liason maximale possible avec y.
2. la liaison entre les xi doit être la plus faible possible

2.1.1 Méthode de détection de la multicolinéarité

2.1.1.1 Règle de Klein
On calcule la matrice carré pxp composée des estimations ponctuelles :
cov(Xi , Xj )
ρ i ,j =
σ(Xi )σ(Xj )
Si une ou plusiurs valeurs au carré sont proches du coéfficeint de détermination R2 , alors on
soupçonne que les variables associées sont colinéaires.
Sous R :
> c = cor(cbind(X_1, X_2, X_3), cbind(X_1, X_2, X_3))
> c^2

2.1.1.2 Le VIF(Variance d’inflation)

Pour tout j ∈ {1, ...., p}, on appelle j ième facteur d’inflation de la variance VIF ,le réel :
1
V IF =
1 − Rj2

9
10 Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire

où Rj2 désigne le coefficient de détermination du modèle RLM. Xj = f (X1 , X2 , ..., Xj−1 , Xj+1 , ..., Xp )
Ainsi, plus le lien linéaire entre Xj et les autres variables est fort,plus Rj2 est proche de 1 et
plus le VIF est grand et plus l’estimation de
betaj est instable.Autrement,Xj est à la base de la multicolinéarité.
Si VIF ≥ 5, on admet qu’il y a multicolinéarité. Dans la littérature, ce seuil peut varier. (Ref 3
dans Eliseeva,2014 Econométrie)
Sous R :
> library(cor)
> vif(model)

2.1.2 Résolution de la multicolinéarité

1. On regroupe les variables colinéaires pour n’en former qu’une.
Par exemple, si on soupconne Xj et Xk colinéaires, on peut considérer la nouvelle variable
Zj =a+b(Xj +Xk ) ou Zj =a+b(Xj -Xk ).
2. On élimine une ou plusieurs variables colinéaires en concertation avec un spécialiste des
données du domaine pour savoir si cela a du sens.
3. On considère un autre estimateur de β :
(a) Régression Ridge
(b) Régression Lasso
(c) Régression ElasticitéN et

2.1.2.1 Regression Ridge

L’estimateur Ridge est définie par :

β̂Ridge = (X 0 X + λΠp )−1 X 0 Y

où λ est une valeur positive qui vérifie :

p
argmin 2
β̂j2
X X
(yi − ŷi ) + λ
β∈Rp+1 j=1
| {z }
pénalisation

On peut réécrire β̂Ridge comme suit :

p
β̂Ridge = argmin kY − Xβk + λ2
(β̂j2 )
X

β∈Rp+1 j=1
| {z }
pénalisation

En général,on le calcule pour plusieurs valeurs de λ, λ convenable est estimable avec plusieurs
méthodes dont le maximum de vraisemblance.
Sous R :
> library(MASS)
> reg = lm.ridge(Y ∼ X_1+X_2+X_3, lambda = seq(0,100,1))
> select(reg)

Exemple

ENSGMM II Modélisation Statistique

Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire 11

Y X
30 4
20 3
10 2

ŷi = β̂xi
MCO
ε2i
X
argminβ
yi2 − 2β xi y i + β 2 x2i
X X X
f (β) =

∂f
x2i = 0
X X
= 0 ⇐⇒ −2 xi yi + 2β
∂β
P
xi y i
⇐⇒ β̂M CO =
x2i

Ridge
yi2 − 2β xi y i + β 2 x2i + λβ 2
X X X
fRidge =

∂fRidge
x2i + 2λβ = 0
X X
= 0 ⇐⇒ −2 xi yi + 2β
∂β
P
xi y i
⇐⇒ β̂Ridge = 2
xi + λ

Application à l’exemple
120 + 60 + 20
β̂M CO = = 7.58
16 + 9 + 4
120 + 60 + 20
β̂Ridge = = 7.09
16 + 9 + 4 + 2
7.09 < 7.58

2.1.2.2 Regression LASSO

p
β̂Ridge = argmin kY − Xβk + λ 2
X
|β̂j |
β∈Rp+1 j=1
| {z }
pénalisation

Sous R :
> library(lars)
> X = cbind(1, X_1, X_2)
> regLasso = lars(X, Y, type = "lasso")
> summary(regLasso)

Modélisation Statistique ENSGMM II

12 Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire

2.1.2.3 Regression Elastic Net

p p
β̂ElN et = argmin kY − Xβk2 + λ β̂j2 + λ
X X
|β̂j |
β∈Rp+1 j=1 j=1
| {z }
pénalisation

C’est la combinaison des deux méthodes précédentes.

2.2 Hypothèse d’homoscédasticité

On parle d’absence d’homoscédasticité (ou d’hétéroscédasticité) des erreurs lorsque Ω =
diag(ω1 , . . . , ωn ) où les ωi sont des réels positifs dont au moins deux différents.
Notons que Var(εi ) = σ 2 ωi = E(ε2i ).
Il faut noter que Ω est la matrice des variances-covariances. Les valeurs diagonales de Ω
sont les variances et les autres, les covariances

εi εi
Homoscédasticité · ·· · Hétéroscédasticité
·
· ·· ··
·
· ·· ··
· · ·
· ·· ··
·
· ·· ··
· · ·
· ·· ··
·
· ·· ··
·
· ·· ··
· · ·
· ·· ··
·
·· ··
·
ŷi ŷi

Après la représentation graphique, il faut évidemment effectuer les tests d’hétérosédasticité

pour tirer une conclusion finale.
Les tests les plus utilisés sont ceux de : White,Breusch Pagan, Gleizer, Park, Goldfild-Quantd,
Spearman, ....
1. Test de Goldfild-Quantd
Il s’utilise pour des résidus supposés suivre la loi normale et pour une taille de l’échantillon.
Procédure du test
1. Les observations sont rangés dans l’ordre croissant selon une variable explicative soup-
çonné être à la base de l’hétérosédaticité.
2. L’échantillon est divisé en trois groupes dont le premier et le troisième sont de même
taille supérieure au nombre de paramètres du modèle.
3. Pour les groupes 1 et 3, on construit les modèles de regression et on récupère les sommes
de carrés résiduels.
4. Calcul de la statistique de Fisher
SCRmax
F = et ddl1 = ddl3 = n0 − m − 1
SCRmin

ENSGMM II Modélisation Statistique

Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire 13

5. Si F > Ftab , on rejette l’hypothèse nulle d’homosédasticicté.

2. Test de Breusch Pagan

εi 2
= α0 + αj xji + αj+1 x(j+1)i + · · · + αj+k x(j+k)i + υi
s2
1X 2
avec s2 = εi .
n
Si αj s’avère significatif, alors la variable xj explique la variation des résidus.
On dit que xj est à la base de l’heterosédasticité.
3. Test de White

εi 2 = α0 + α11 x1i + α12 x1i 2 + α21 x2i + α22 x2i 2 + γ12 x1i x2i + υi

4. Test de Park
ln εi 2 = α0 + αj lnxji + υi
5. Test de Gleizer
|εi | = α0 + αj xji k + υi
avec k = −1; −0.5; 0.5; 1
L’estimateur de β en cas d’hétéroscédasticité est :
−1
βbM CG = X 0 Ω−1 X X 0 Ω−1 Y

σε1 2 0 ···
 
0
 0 σε2 2 ··· 0 
où Ω = .. .. ..
 

.. 

 . . . .


0 0 · · · σεn 2

2.2.1 Correction de l’hétéroscédasticité

Pour corriger l’hétéroscédasticité, on peut appliquer la méthode des Moindres Carrés Généralisés
(MCG) qui n’est rien d’autre que la méthode des Moindres Carrés Ordinaires (MCO) appliquée à
des données transformées.
Soit le modèle à trois variables explicatives suivant :

Y = β0 + β1 X1 + β2 X2 + β3 X3 + ε

S’il s’avère par exemple que c’est X3 qui est à la base de l’hétéroscédasticité, on divise toute
l’équation par X3 et on obtient un nouveau modèle qui est le suivant :
Y 1 X1 X2 1
= β0 + β1 + β2 + β3 + ε
X3 X3 X3 X3 X3
On peut réécrire comme suit le modèle :

Y ∗ = β0 X3∗ + β1 X1∗ + β2 X2∗ + β3 + ε∗

A ce nouveau modèle, on applique la MCO ; c’est cette procédure qu’on appelle la MCG.
Si la condition d’homoscédaticité (V ar(ε∗i ) = cste) est vérifiée , alors on réécrit le modèle sous
sa forme initiale avec les nouveaux coefficients βj∗ pour l’interprétation.

Modélisation Statistique ENSGMM II

14 Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire

Exemple 1 :
Soit le modèle suivant :

Y = 5226.44 + 12.45X1 + 0.06X2 + 0.01X3 + ε

X3 est à la base de l’hétéroscédasticité ; on a donc le modèle suivant :

Y ∗ = 524.15X3∗ + 8.018X1∗ + 0.058X2∗ + 0.723 + ε∗

Retour au modèle initial en conservant le coefficients du modèle transformé

Y = 524.15 + 8.018X1 + 0.058X2 + 0.723X3 + ε

Comme interprétation, on a :
Une augmentation d’une unité de X1 entraine une augmentation de 8.018 unités de Y ; toute chose
étant identique par ailleurs.
Sous R , pour avoir β̂M CG :
> reg = lm(Y∼X_1 + X_2 + X_3)
> e = residuals(reg)
> reg2 = lm(Y∼X_1+X_2+X_3,weights=1/e^2)
> summary(reg2)
Exemple 2 :
http : //rstudio−pubs−static.s3.amazonaws.com/300060d 2f 81f 64f 48443748969d7c1f 6cc7249.html
https : //rpubs.com/cyobero/187387

2.3 Hypothèse de normalité des résidus

Admettons que les εi , ..., εn soient indépendantes et var(εi ) = cste .
Dans un premier temps, pour étudier la normalité des εi , on trace le nuage de points QQ-plot
(en core appelé diagramme quantile-quantile) associé.

2.3.1 Test de Normalité

2.3.1.1 Test de Shapiro-Wilk
Pour conclure la Normalité des εi partant des résidus ei , on préconise le test de SHAPIRO-
WILK.
Sous R :
> shapiro.test(residuals(reg))
Si p-value > 5%, on admet l’hypothèse de normalité.

2.3.1.2 Résolution
√ 1
Une RLM avec y transformée comme ln(y), y, , . . . peut engendrer de nouvelles erreurs
y
ε1 , ε2 . . . , εn suivant chacune une loi normale. Dès lors, on peut utiliser ce nouveau modèle pour
une étude statistique.

ENSGMM II Modélisation Statistique

Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire 15

2.3.2 Transformations avancées

2.3.2.1 Transformation de Boxcox

yλ − 1

, λ 6= 0

∗
y = λ sous l’hypothèse que y > 0
 ln(y) , sinon


Pour λ = 1, y ∗ = y − 1
1
Pour λ = −1, y ∗ = 1 −
y
Pour λ → 0, y ∗ = ln y (Démonstrations, voir TP)
Pour y < 0, on peut utiliser la transformation de Yéo Johson (Voir TP).
Sous R :
> library(car)
> reg = lm(Y ~ X1+X2+X3)
> reg2 = powerTransform(reg,family = "yjPower)
> summary(reg2)
> reg3 = lm(bcPower(Y,coef(reg2)) ~ X1+X2+X3)
> summary(reg3)
> reg3 = lm(modelYj$fitted ~ X1+X2+X3)

2.3.3 Détection des valeurs anormales

Pour détecter les valeurs anormales,on peut utiliser le critère des distances de Cook.
∀i ∈ {1, 2, ..., n}, on définit la distance de Cook de la iième observation par :
[X(X 0 X)−1 X 0 ]i,i
di = 0 −1 0
(e∗i )2
(p + 1)(1 − [X(X X) X ]i,i )
e∗i → résidus standartisés.
Si di > 1, on envisage l’anormalité de la iième observation.
di est la réalisation de :
||Ŷ − Yˆ−i ||2n
Di =
(p + 1)σ̂ 2
Yˆ−i = (X β̂)−i correspond au calcul de X β̂= X(X 0 X)−1 X 0 Y avec X et Y privés de la iième obser-
vation.
Sous R
> plot(reg, 4)
> coo.distance(reg)[cooks, distance(reg)v > 1]
> reg2 = lm(Y ∼ X_1 + X_2 + X_3, subset = - c(4, 26)) ; on soustrait les valeurs anor-
males

2.3.4 Sélection des variables/modèles

On utilise les critères suivants : Cp, AIC, BIC
• Critère Cp (de Mallows)
2
Y − Yb
Cp = − (n − 2 (p + 1))
σb 2
Modélisation Statistique ENSGMM II
16 Chapitre 2 : Vérification des hypothèses stochastiques du modèle linéaire

• Critère AIC (Archaic Information Criteria)

AIC = 2(p + 1) − 2`

• Critèr BIC (Basic Information Criteria)

BIC = (p + 1) ln(n) − 2`

où ` = max
p+1
`(β) est le maximum de la log-vraissemblance du modèle.
β∈R
Ces critères reposent sur un compromis "biais parcimonie". Plus petits ils sont, meilleur
est le modèle
REMARQUE 2.3.1
Contrairemet au Radj , ces critères peuvent être utilisés pour les modèles linéaires généralisés
(voir cours de Statistique semestre 9)

Sous R :
> AIC(reg)
> BIC(reg)

ENSGMM II Modélisation Statistique

CHAPITRE 3

DUMMY VARIABLES IN MODELING

3.1 INTRODUCTION
In the previous classes, we studied Simple Linear Regression (SLR), Multiple Linear Regres-
sion (MLR) and the variables were quantitative. Generally, that condition is not frequent i.e in
real life, Y is influenced by factors(qualitative) and quantitative variable. For instance, the pro-
ductivity (milk) of a cow can depend on the quality of its diet (premium type I and type II). To
emphasize the dependency of Y related to the predictor, we use dummy variables. There are
binary variable which values are 0 and 1. If the qualitative variable has k modalities, we might
need a dummy variable ; by the way we use k − 1 dummy variables. We affect 1 to the dummy,
if the factor modality is the one of interest. Thus, the remaining got 0. This latter is the reference
Z1 = Z2 = · · · = Zk−1 = 0.
About the choice of the modalities, it is advised to select that modality which is the min or max
proportion of Y. If in the model we have many factors, then, for each of them we make all the
dummy variables. In that case the dummy variables are indexed as zji , with j as index of factor
and i the index about order of the j th category.

3.1.1 Regression Model specification with the dummy variables

It is written like :

Y = f (X1 , · · · , Xp , Z11 , · · · , Z12 , · · · , ) (3.1)

with Y dependent variable ; X quantitative predictor ; Z dummy variable ; error ; Z11 , Z12 1st
factor ; Z21 1, Z22 2nd factor dummy variables.

We are going to out the different type of modeling with dummy variables.

3.1.2 Regression Modelling with dummy variables(decallage)

3.1.2.1 Simple linear Regression Model
Predictors : Z11 factor(Z modalities) and continous X1

17
18 Chapitre 3 : DUMMY VARIABLES IN MODELING

Y = α0 + α1 X1 + γ11 Z11 + (3.2)

Y = α0 + α1 X1 + γ11 + ; when Z11 = 1 (3.3)
Y = α0 + α1 X1 + ; when Z11 = 0 (3.4)

Comparing (3.3 and 3.4) we do notice the difference between (α0 + γ11 ) and (α0 ). As illustration
we have :

Y
Ŷ = (α0 + γ11 ) + α1 X1

Ŷ = α0 + α1 X1

X
Let’s notify that α1 is unchanged. It means the variation of X1 has the same effect on Y not depen-
ding on the values of the factor. And, as the factor variation in the model 1 induces the variation
of Y , we can notice that it is the result of Z11 and Z1 2 = 0 of the factor. Eg : Y impôt in millions,
X1 Volume of products, X2 region. After computing OLS we have :

Ŷ = 9404, 1 + 0, 098X1 + 37136Z11 (3.5)

In general Z11 shows of how much in mean the taxes from the central regions are greater than
those in the other regions. We cannot be too sure about our conclusion, because γ11 is not signi-
ficant. If we ignore the non-significant effect of the dummy variable, then both equations (3.3
and 3.4) are equal.

3.1.2.2 Simple linear Regression Model considering each modality

Let’s notify that when we consider each modality and compute the linear regression, the equa-
tions are different.

Ŷ = 15794, 6 + 0, 073X1 ; CENTRAL REGION (3.6)

Ŷ = 6822, 7 + 0, 186X1 ; OTHER REGION (3.7)

3.1.2.3 Regression Modelling with dummy variables(pente)

When the effect of the predictor X1 on Y varies depending on the categories, we can write :

Ŷ = α0 + α11 X1 ; when Z12 = 0 (3.8)

Ŷ = α0 + α12 X1 ; when Z11 = 0 (3.9)

α11 6= α12 and in this case we said that it a structural change of the dependence of X1 and Y . To
take into account this structural change, we introduce the interaction variable and we have :

ENSGMM II Modélisation Statistique

Chapitre 3 : DUMMY VARIABLES IN MODELING 19

Ŷ = α0 + α1 X1 + φ111 X1 Z11 (3.10)

φ111 gathers two variables with one and two index.

The previous model can be set as :

Ŷ = α0 + α1 X1 ; when Z11 = 0 (3.11)

Ŷ = α0 + (α1 + φ111 )X1 ; when Z11 = 1 (3.12)

Consequently we have α12 = α1 + φ111 from (3.9. As an illustration of the model (3.10) can be
shown like this :

Y
Ŷ = α0 + (α1 + φ111 )X1

Ŷ = α0 + α1 + X1

X
1. α1 : can be considered as the influence of X1 with Z11 = 0,
2. φ111 : can be considered as the mean variation of X1 on Y when Z11 = 1
Related to our case our case we have Ŷ = 9436, 96 + 0, 145X1 − 0, 028X1 Z11 and the observed
differences in (3.6 and 3.7) is −0, 028 (non significant). The conclusion is that the difference bet-
ween regression coefficient for region 1 and 0............On the other hand we can interpret −0, 028
as the gain on taxes in central regions compared to the other regions. The obtained models for
the values of Z11 are as follows.

Ŷ = 9436.96 + 0.117X1 ; CENTRAL REGION (3.13)

Ŷ = 9436.96 + 0.145X1 ; OTHER REGION (3.14)

The last two models are not the same as (3.6 and 3.7). Thus, we are to improve them with the
dummy variables.

3.2 Regression model with dummy variables (General form)

Up to now, the studied models are specific model with dummy variables. For instance,for a
model with quantitative variable X1 and a dummy variable Z2 , there is a need to gather in a model
two regression equations :

Ŷ = α1 + α11 X1 ; if Z11 = 0 (3.15)

Ŷ = α2 + α12 X1 ; if Z11 = 1 (3.16)

Modélisation Statistique ENSGMM II

20 Chapitre 3 : DUMMY VARIABLES IN MODELING

Let’s use for it the model (3.2 and 3.10)

y = f (X, Z, XZ) (3.17)

Ŷ = α0 + α1 X1 + φ111 X1 Z11 + γ11 Z11 (3.18)

we can make sure that

Ŷ = α0 + α1 X1 ; if Z11 = 0
Ŷ = (α0 + γ11 ) + (α1 + φ111 )X1 ; if Z11 = 0

The parameters of (3.19 and 3.19) are from the general model and we can notice that α01 = α0 ,
α11 = α1 , α02 = α0 + γ11 , α12 = α1 φ111 . As illustration , the general model (3.2) can be presented
as follows :

y
Ŷ = (α0 + γ11 ) + (α1 + φ111 )x1

Ŷ = α0 + α1 X1

x
considering our example

Ŷ = 6822, 7 + 0, 186X1 − 0, 112X1 Z11 + 8971, 9Z11

all the parameters are significant. By the way ,the general model , well describe the study ; i.e R2
is quite high (R= 0, 59)and (F = 7, 79 > 2, 82). What are the reason of the non-significance of
the coefficient with the other model (decallage-pente) ?
To get the answer, we need to compare the parameters of the different models. We got that the
central regions helps to have greater taxes (8971.1). At the same time, the "profotability" in taxes
of X1 in the central regions is smaller ie the influence of "region" has two points. This is due to
the values of X1 in our sample and others factors that could taken into account in the model. The
interpretation can be set as follows :
1. 0.186 =⇒ In the region (non-central), Z11 = 0 the taxes are 0,186 millions ( in mean) of 1
million of exported products.
2. 0.112 =⇒ In the central region , the "profotability" of 1 million of exported products is
smaller of 0.112.
3. 9871.9 =⇒ The influence of others factors made us to state that the taxes in central regions
are greater of 8971.9 compare to non central region.
Let’s summarize the computed models and calculations in a table :

ENSGMM II Modélisation Statistique

Chapitre 3 : DUMMY VARIABLES IN MODELING 21

Regions General model with Dummy variables Model per sample

central Z11 = 1 Ŷ = 1579.7 + 0.074X1 Ŷ = 1579.6 + 0.073X1
others Z11 = 0 Ŷ = 6822.7 + 0.186X1 Ŷ = 6822.7 + 0.186X1
The model parameter for each group that we got with different methods are equivalent.

1-model with Dummy variable "à décalage" =⇒ Y = f (X, Z)

Ŷ = α0 + α1 X1 + α1 X1 + · · · + αp Xp + γ11 Z11 + γ12 Z12 + · · · + γ21 Z21 + γ22 Z22 + · · · + γj1 Zj1 +
γj2 Zj2 + · · ·

2-model with Dummy variable "à pente" =⇒ Y = f (X, XZ)

Ŷ = α0 + α1 X1 + α1 X1 + · · · + αp Xp + φ111 X1 Z11 + φ112 X1 z12 + φ1j1 X1 Zj1 + φ1j2 X1 Zj2 + · · · +
φp11 Xp Z11 + φp12 Xp Z12 + · · · + φpj1 Xp Zj1 + φpj2 Xp Zj2

3-General model with Dummy =⇒ Y = f (X, Z, XZ)

Ŷ = α0 + α1 X1 + α1 X1 + · · · + αp Xp + γ11 Z11 + γ12 Z12 + · · · + γ21 Z21 + γ22 Z22 + · · · + γj1 Zj1 +
γj2 Zj2 + · · · + φ111 X1 Z11 + φ112 X1 Z12 + φ1j1 x1 Zj1 + φ1j2 X1 zj2 + · · · + φp11 Xp Z11 + φp12 xp Z12 +
· · · + φpj1 xp Zj1 + φpj2 xp Zj2

Models with dummy variables can be used with time series analysis in order to structure the
seasonal fluctuations.

3.2.1 Test of Chow

For different values of the dummy variables, we get different regression model. The need of
using two models instead of one without the dummy variables can be estimated by test of Chow.
Be a sample of ”n” observations. And we are studying the dependence of a response variable Y
and many other predictors. The experience maker , by observing data sets, can suggest that the
populace is not homogeneous. In order to get it, we can need to divide the populace related to
a factor . To check that hypothesis, we will use chow test. For each of the regressions related to
each factor , we get SCR. The SCR0 = SCR1 + SCR2 is got if the parameters of the 3 equations
are equal, if not SCR0 > SCR1 + SCR2 . Greater is the difference SCR0 − [SCR1 + SCR2 ], more
significant is the coefficient in subgroups(different coef in subgroups). The significance of that
difference is checked with Fisher statistic.

SCR0 − [SCR1 + SCR2 ] n − m1 − m2 − 2

F = (3.19)
[SCR1 + SCR2 ] m1 + m2 + 1 − n
with m the number of parameter without the constant of general model. For this case F =
4.01 > 3.21andp < 0.05. The "profitabilities" about the factor "region" is significantly different.
Example
http ://www.sthda.com/english/articles/40-regression-analysis/163-regression-with-categorical-
variables-dummy-coding-essentials-in-r/

Modélisation Statistique ENSGMM II

22 Chapitre 3 : DUMMY VARIABLES IN MODELING

ENSGMM II Modélisation Statistique

ANNEXE A

TRAVAUX PRATIQUES

A.1 Régression Linéaire Simple

1. Déterminer β par la méthode de maximum de vraisemblance.
xy − x y
2. Montrer que β0M CO = y − βˆ1 x et β1M CO = 2
x − x2
3. Montrer que β̂0 et β̂1 sont des estimateurs sans biais de β0 et β1 .
4. Montrer que les variances des estimateurs de β0 et β1 sont :
σ 2 x2i σ2
P
V ar(β̂0 ) = P et V ar(β̂1 ) = P
n (xi − x)2 (xi − x)2
1 P 2
5. Montrer que εi est un estimateur sans biais de σ 2
n−2
6. Montrer que SCT ottal = SCRésiduel + SCRegression
7. Montrer que la covariance des estimateurs de β0 et β1 est :
σ2x
cov(β̂0 , β̂1 ) = − P
(xi − x)2

A.2 Régression Linéaire Multiple

1. Montrer que l’estimateur β̂ par MCO est sans biais et sa matrice de variance-covariance est
V ar(β̂M CO ) = σ 2 (X 0 X)−1
2. Montrer que l’estimateur β̂M CO est de variance minimale parmi les estimateurs linéaires
de β
3. Montrer que X 0 X est une matrice définie positive.
4. On considère le modèle linéaire suivant sous sa forme matricielle suivante :
Y = β0 1n + Xβ + ε
Montrer que l’estimateur Ridge du modèle est donné par :
β̂0 = Y et β̂Ridge = (X 0 X + λIp )−1 X 0 Y

23
24 Chapitre A : Travaux Pratiques

5. Donner les commandes R de la regression Elastic Net sous R

6. Transformation de Box Cox : Démontrer que pour λ → 0, y ∗ = ln(y)
7. Donner l’expression de la transformation de Yeo Johnson

A.3 ANOVA
Retrouver les formule des tests de Shapiro-Wilk et Shapiro-Francia

ENSGMM II Modélisation Statistique

Vous aimerez peut-être aussi

Modelisation Statistique ENSGMM
Pas encore d'évaluation
Modelisation Statistique ENSGMM
27 pages
Modèles Linéaires et Moindres Carrés
Pas encore d'évaluation
Modèles Linéaires et Moindres Carrés
20 pages
Chapitre 0 & 1 & 2
Pas encore d'évaluation
Chapitre 0 & 1 & 2
44 pages
Econométrie Du Modèle Linéaire-1
Pas encore d'évaluation
Econométrie Du Modèle Linéaire-1
6 pages
Cours de Statistique Et Econometrie
Pas encore d'évaluation
Cours de Statistique Et Econometrie
118 pages
Cours de Statistique Et Econometrie
Pas encore d'évaluation
Cours de Statistique Et Econometrie
118 pages
Introduction à l'économétrie appliquée
Pas encore d'évaluation
Introduction à l'économétrie appliquée
113 pages
Cours d'Économétrie : Modèles Linéaires
Pas encore d'évaluation
Cours d'Économétrie : Modèles Linéaires
31 pages
Cours Reg
Pas encore d'évaluation
Cours Reg
34 pages
Modèle de régression linéaire simple
Pas encore d'évaluation
Modèle de régression linéaire simple
27 pages
Modèle linéaire en actuariat 2022-2023
Pas encore d'évaluation
Modèle linéaire en actuariat 2022-2023
49 pages
M1 Econom 2
Pas encore d'évaluation
M1 Econom 2
13 pages
Introduction à l'Économétrie
Pas encore d'évaluation
Introduction à l'Économétrie
137 pages
Table Des Matières
Pas encore d'évaluation
Table Des Matières
6 pages
Introduction à la Régression Linéaire
Pas encore d'évaluation
Introduction à la Régression Linéaire
183 pages
Introduction à l'économétrie et modèles statistiques
Pas encore d'évaluation
Introduction à l'économétrie et modèles statistiques
14 pages
Econometrie Regression
Pas encore d'évaluation
Econometrie Regression
181 pages
Régression Linéaire : Guide Pratique
100% (2)
Régression Linéaire : Guide Pratique
110 pages
Econometrie - Chap. 2 Et 3
Pas encore d'évaluation
Econometrie - Chap. 2 Et 3
61 pages
Écono Métrie: 9782100865529 - FM - Indd 1 3/21/24 9:31 PM
Pas encore d'évaluation
Écono Métrie: 9782100865529 - FM - Indd 1 3/21/24 9:31 PM
26 pages
Support Master 2
Pas encore d'évaluation
Support Master 2
38 pages
Chap2-Le Modèle de Régression Linéairemuliple
Pas encore d'évaluation
Chap2-Le Modèle de Régression Linéairemuliple
8 pages
Variables Expliquées et Explicatives
Pas encore d'évaluation
Variables Expliquées et Explicatives
20 pages
Modèle de Régression Linéaire Multiple
100% (2)
Modèle de Régression Linéaire Multiple
65 pages
Spécification D'un Modèle À Deux Variables (Brouillon 2)
Pas encore d'évaluation
Spécification D'un Modèle À Deux Variables (Brouillon 2)
56 pages
Modèle de régression linéaire simple
Pas encore d'évaluation
Modèle de régression linéaire simple
13 pages
Économétrie - Cours Et Travaux Dirigés
100% (2)
Économétrie - Cours Et Travaux Dirigés
65 pages
QM - Leçon 6-vbb
Pas encore d'évaluation
QM - Leçon 6-vbb
16 pages
Econométrie I: Mounir JERRY Année Universitaire 2021-2022
Pas encore d'évaluation
Econométrie I: Mounir JERRY Année Universitaire 2021-2022
68 pages
Analyse de la régression linéaire multiple
Pas encore d'évaluation
Analyse de la régression linéaire multiple
31 pages
Cours d'Économétrie : Modèles Linéaires
Pas encore d'évaluation
Cours d'Économétrie : Modèles Linéaires
29 pages
Corrigé 2017
Pas encore d'évaluation
Corrigé 2017
9 pages
Sommaire Econometrie
Pas encore d'évaluation
Sommaire Econometrie
12 pages
Économétrie
Pas encore d'évaluation
Économétrie
24 pages
Régression Linéaire et Moindres Carrés
Pas encore d'évaluation
Régression Linéaire et Moindres Carrés
53 pages
Statistique Chap2
Pas encore d'évaluation
Statistique Chap2
20 pages
Modèle de régression linéaire simple
100% (1)
Modèle de régression linéaire simple
69 pages
17janv Econometrie
Pas encore d'évaluation
17janv Econometrie
54 pages
Econométrie (Régis Bourbonnais)
100% (1)
Econométrie (Régis Bourbonnais)
416 pages
EML ISE2 Chap3
Pas encore d'évaluation
EML ISE2 Chap3
9 pages
Ch3 PDF
Pas encore d'évaluation
Ch3 PDF
45 pages
S6 - Support de Cours
100% (1)
S6 - Support de Cours
48 pages
Mémoire Régression Simple Et Multiple
100% (1)
Mémoire Régression Simple Et Multiple
66 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
17 pages
Insg Cours Econometrie Regression Multiple
Pas encore d'évaluation
Insg Cours Econometrie Regression Multiple
110 pages
ST M Modlin Regmult
Pas encore d'évaluation
ST M Modlin Regmult
13 pages
Econométrie Régression Linéaire Multiple 1
Pas encore d'évaluation
Econométrie Régression Linéaire Multiple 1
19 pages
04 Structure Des Taux Dintc3a9rc3aat
Pas encore d'évaluation
04 Structure Des Taux Dintc3a9rc3aat
50 pages
Modèles de Régression à l'Université de Caen
Pas encore d'évaluation
Modèles de Régression à l'Université de Caen
191 pages
Cours D'econometrie Licence 3
100% (2)
Cours D'econometrie Licence 3
67 pages
Régression linéaire simple
Pas encore d'évaluation
Régression linéaire simple
10 pages
Chapitre. Régression Linéaire Simple - 19-20 - Part01
Pas encore d'évaluation
Chapitre. Régression Linéaire Simple - 19-20 - Part01
10 pages
Modèles de Régression Linéaire Appliquée
100% (1)
Modèles de Régression Linéaire Appliquée
127 pages
M1 Econometrie 2 e Chap 2
Pas encore d'évaluation
M1 Econometrie 2 e Chap 2
3 pages
Méthode de Ritz Exemples
Pas encore d'évaluation
Méthode de Ritz Exemples
10 pages
Krylov
Pas encore d'évaluation
Krylov
17 pages
TP Var Vecm
Pas encore d'évaluation
TP Var Vecm
118 pages
Exposé Analyse Numérique
Pas encore d'évaluation
Exposé Analyse Numérique
13 pages
Tests Statistiques avec R : Guide Pratique
Pas encore d'évaluation
Tests Statistiques avec R : Guide Pratique
72 pages
Statistique Deux Removed
Pas encore d'évaluation
Statistique Deux Removed
91 pages
Statistiques : Moyenne, Mode, Médiane
Pas encore d'évaluation
Statistiques : Moyenne, Mode, Médiane
16 pages
Resume Chapitre 5 MSF
Pas encore d'évaluation
Resume Chapitre 5 MSF
3 pages
DS Proba - 2324
Pas encore d'évaluation
DS Proba - 2324
2 pages
Tchala Series Temporelles
Pas encore d'évaluation
Tchala Series Temporelles
7 pages
ECG2 TD16 Correction
Pas encore d'évaluation
ECG2 TD16 Correction
14 pages
Exos Proba 23-24
Pas encore d'évaluation
Exos Proba 23-24
14 pages
Copie de Fiche de Collecte 04 10 2024 13 01mn (Enregistré Automatiquement) Kevin
Pas encore d'évaluation
Copie de Fiche de Collecte 04 10 2024 13 01mn (Enregistré Automatiquement) Kevin
560 pages
1.3 Espérance, Espérance Conditionnelle
Pas encore d'évaluation
1.3 Espérance, Espérance Conditionnelle
24 pages
Processus Stochastiques et Brownien
Pas encore d'évaluation
Processus Stochastiques et Brownien
23 pages
Ex 1
Pas encore d'évaluation
Ex 1
3 pages
Somme de Variables Aléatoires
Pas encore d'évaluation
Somme de Variables Aléatoires
4 pages
Probabilités
Pas encore d'évaluation
Probabilités
26 pages
Variance Estimation PDF
Pas encore d'évaluation
Variance Estimation PDF
30 pages
Inferene 2
Pas encore d'évaluation
Inferene 2
24 pages
Géostat Exercices+Corrigé
90% (10)
Géostat Exercices+Corrigé
9 pages
Chapitre 5 Gestion Des Projets
Pas encore d'évaluation
Chapitre 5 Gestion Des Projets
28 pages
Statistiques et Contrôle de Qualité 2005-2006
Pas encore d'évaluation
Statistiques et Contrôle de Qualité 2005-2006
18 pages
Chapitre 3 4 PERT Probabiliste
Pas encore d'évaluation
Chapitre 3 4 PERT Probabiliste
20 pages
11 TD - 2 - Mag
Pas encore d'évaluation
11 TD - 2 - Mag
2 pages
Organisation et contrôle des données hydrologiques
Pas encore d'évaluation
Organisation et contrôle des données hydrologiques
15 pages
COURS INFÉRENCE Stage
Pas encore d'évaluation
COURS INFÉRENCE Stage
26 pages
Serie 4 Proba-EnSA
Pas encore d'évaluation
Serie 4 Proba-EnSA
1 page
Exercices de Statistique Avancée
Pas encore d'évaluation
Exercices de Statistique Avancée
11 pages
Régression et Tests Statistiques en Économétrie
Pas encore d'évaluation
Régression et Tests Statistiques en Économétrie
5 pages
Main
Pas encore d'évaluation
Main
16 pages
Probabilités sur la durée de vie des ampoules
Pas encore d'évaluation
Probabilités sur la durée de vie des ampoules
6 pages
Intro Stata
Pas encore d'évaluation
Intro Stata
56 pages
Exercice 1 de La Série 2 Des TD-Gestion de portefeuille-ACG - S7 - 2023
Pas encore d'évaluation
Exercice 1 de La Série 2 Des TD-Gestion de portefeuille-ACG - S7 - 2023
4 pages

Modelisation

Transféré par

Modelisation

Transféré par

Université Nationale

Ecole Nationale Supérieure de Génie

Année académique : 2019-2020

ENSGMM II Modélisation Statistique

Chapitre 1 Régression linéaire 5

Chapitre 2 Vérification des hypothèses stochastiques du modèle linéaire 9

Chapitre 3 DUMMY VARIABLES IN MODELING 17

3.2.1 Test of Chow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

Chapitre A Travaux Pratiques 23

ENSGMM II Modélisation Statistique

1.1 Régression Linéaire Simple (RLS)

Sous forme matricielle, on a :

1.1.1 Démarche de la modélisation

2. Représentation des données

FIGURE 1.1 – Représentation graphique des données

(H0 ) : βbj = 0 contre (H1 ) : βbj =

ENSGMM II Modélisation Statistique

(H0 ) : Modèle globalement non significatif

(H1 ) : Modèle globalement significatif

5. Vérification des hypothèses stochastiques du modèle linéaire Les hypothèses stochas-

(d) Cov(εi , εi−1 ) = 0 =⇒ Absence d’autocorrélation des erreurs

ICβbj = β̂0 ± ∆β̂j

ICβbj = β̂0 ± ttab · σ̂βj

Modélisation Statistique ENSGMM II

1.2 Régression Linéaire Multiple (RLM)

Ŷ = βˆ0 + βˆ1 X1 + βˆ2 X2 + · · · + βˆm Xm

ENSGMM II Modélisation Statistique

VÉRIFICATION DES HYPOTHÈSES

2.1 Hypothèse d’abscence de multicolinéarité

2.1.1 Méthode de détection de la multicolinéarité

2.1.1.2 Le VIF(Variance d’inflation)

2.1.2 Résolution de la multicolinéarité

2.1.2.1 Regression Ridge

β̂Ridge = (X 0 X + λΠp )−1 X 0 Y

où λ est une valeur positive qui vérifie :

On peut réécrire β̂Ridge comme suit :

ENSGMM II Modélisation Statistique

2.1.2.2 Regression LASSO

Modélisation Statistique ENSGMM II

2.1.2.3 Regression Elastic Net

C’est la combinaison des deux méthodes précédentes.

2.2 Hypothèse d’homoscédasticité

Après la représentation graphique, il faut évidemment effectuer les tests d’hétérosédasticité

ENSGMM II Modélisation Statistique

5. Si F > Ftab , on rejette l’hypothèse nulle d’homosédasticicté.

2.2.1 Correction de l’hétéroscédasticité

Y ∗ = β0 X3∗ + β1 X1∗ + β2 X2∗ + β3 + ε∗

Modélisation Statistique ENSGMM II

Y = 5226.44 + 12.45X1 + 0.06X2 + 0.01X3 + ε

X3 est à la base de l’hétéroscédasticité ; on a donc le modèle suivant :

Y ∗ = 524.15X3∗ + 8.018X1∗ + 0.058X2∗ + 0.723 + ε∗

Retour au modèle initial en conservant le coefficients du modèle transformé

Y = 524.15 + 8.018X1 + 0.058X2 + 0.723X3 + ε

2.3 Hypothèse de normalité des résidus

2.3.1 Test de Normalité

ENSGMM II Modélisation Statistique

2.3.2 Transformations avancées

2.3.3 Détection des valeurs anormales

2.3.4 Sélection des variables/modèles

• Critère AIC (Archaic Information Criteria)

• Critèr BIC (Basic Information Criteria)

ENSGMM II Modélisation Statistique

DUMMY VARIABLES IN MODELING

3.1.1 Regression Model specification with the dummy variables

Y = f (X1 , · · · , Xp , Z11 , · · · , Z12 , · · · , ) (3.1)

3.1.2 Regression Modelling with dummy variables(decallage)

Y = α0 + α1 X1 + γ11 Z11 +  (3.2)

Ŷ = 9404, 1 + 0, 098X1 + 37136Z11 (3.5)

3.1.2.2 Simple linear Regression Model considering each modality

Ŷ = 15794, 6 + 0, 073X1 ; CENTRAL REGION (3.6)

3.1.2.3 Regression Modelling with dummy variables(pente)

Ŷ = α0 + α11 X1 ; when Z12 = 0 (3.8)

ENSGMM II Modélisation Statistique

Ŷ = α0 + α1 X1 + φ111 X1 Z11 (3.10)

φ111 gathers two variables with one and two index.

The previous model can be set as :

Y = f (X1 , · · · , Xp , Z11 , · · · , Z12 , · · · , ) (3.1)

Y = α0 + α1 X1 + γ11 Z11 + (3.2)