0% ont trouvé ce document utile (0 vote)
121 vues88 pages

Modèles Linéaires 2

Le document traite des modèles de régression linéaire, en détaillant la régression linéaire simple et multiple, ainsi que les transformations de variables. Il aborde également des concepts tels que le coefficient de corrélation, l'estimation des paramètres, et les tests de significativité pour valider les modèles. Des exemples et des méthodes de validation, y compris les tests d'autocorrélation et de normalité des résidus, sont présentés pour assurer la robustesse des résultats.

Transféré par

Bernard Hounnouve
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
121 vues88 pages

Modèles Linéaires 2

Le document traite des modèles de régression linéaire, en détaillant la régression linéaire simple et multiple, ainsi que les transformations de variables. Il aborde également des concepts tels que le coefficient de corrélation, l'estimation des paramètres, et les tests de significativité pour valider les modèles. Des exemples et des méthodes de validation, y compris les tests d'autocorrélation et de normalité des résidus, sont présentés pour assurer la robustesse des résultats.

Transféré par

Bernard Hounnouve
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Modèles linéaires

R. Glèlè Kakaï
(FSA / UAC, Bénin)
PLAN

1. Régression linéaire simple


2. Régression linéaire multiple
3. Transformation de variables en régression
linéaire
4. Le modèle logit
Chapitre 1: Régression linéaire simple

Bibliographie
Cornillon P-A., Matzner-lober E. (2007). Régression:
Théorie et applications, Paris, Springer, 302p.

Drapper N., Smith H. (1981). Applied regression analysis,


New York, Wiley, 709p.

Dagnelie P. (1998). Statistique théorique et appliquée vol. 2.


Paris, De Boeck et Larcier, Paris, 659p.
Chapitre 1: Régression linéaire simple

Régression : technique statistique permettant


y de modéliser la relation
entre une variable à expliquer et une ou plusieurs variables
x , x 2 ,..., x p . y est encore appelé variable dépendante
explicatives 1
tandis que
x 1 , x 2 ,..., x p sont qualifiés de variables indépendantes.

On distingue les régressions linéaires (simple et multiple) et les


régressions non linéaires (simple et multiple).

Lorsqu’il s’agit d’une seule variable explicative, on parle de régression


linéaire simple.
Chapitre 1: Régression linéaire simple

Par contre, lorsque la variable dépendante est expliquée par plusieurs


variables indépendantes, on parle de régression multiple. Si de plus, la
relation entre la variable dépendante et les variables explicatives est
linéaire, on parle de régression linéaire multiple.

Note: D’autres types de régression dites non linéaires existent et


peuvent dans certaines conditions être transformées en régressions
linéaires.
Chapitre 1: Régression linéaire simple
Préalable et définition
La régression linéaire simple repose sur le principe que:

- une seule variable indépendante x affecte la variable dépendante y ;

- la relation entre y et x est linéaire, ou peut être supposée linéaire.


Dans ce dernier cas, une exploration peut être d’abord faite en réalisant
le nuage de points (Scatterplot).

Aussi, pour s’assurer qu’il existe une relation linéaire ou


approximativement linéaire entre x et y , on peut calculer le coefficient
de corrélation qui mesure le degré d’association ou de liaison linéaire
entre les deux variables.
Chapitre 1: Régression linéaire simple

Il prend des valeurs comprises entre -1 et +1; les valeurs


extrêmes indiquent une parfaite ou approxivement parfaite
relation linéaire entre les deux variables, tandis que les
valeurs voisines de 0 indiquent l’absence d’une liaison linéaire
entre les deux variables.

Le signe positif ou négatif de la valeur de r indique le sens de


variation de l’une des deux variables lorsque l’autre varie dans
un sens donné.
Chapitre 1: Régression linéaire simple

Analyse de la corrélation linéaire simple

L’analyse de la corrélation linéaire simple consiste à estimer et à


tester la significativité du coefficient de corrélation linéaire simple
généralement noté r .

Si r < 0 , une augmentation des valeurs de x implique une


diminution de celles de y et vice-versa. Par contre, si r > 0 , les
valeurs des deux variables varient dans le sens.

La procédure d’estimation et de réalisation du test de significativité


de r se présente comme suit:
Chapitre 1: Régression linéaire simple

Calcul du coefficient de corrélation linéaire simple:


r
r=
∑ i )( yi − y )
( x − x
=
cov( x, y )
(∑ ( x − x )² )(∑ ( y
i i − y )² ) sx s y

Test de significativité de r : H0 : r = 0 contre H1 : r ≠0

Ainsi, si r > rth ⇒ RH 0 et on conclue au niveau α fixé que le coefficient


de corrélation linéaire simple est significatif (donc non nul).
Chapitre 1: Régression linéaire simple

Ainsi, le modèle qui traduit une telle relation s’écrit:

y = a + bx + ε

a = ordonnée à l’origine (Intercept), b le coefficient de régression


linéaire et ε le terme d’erreur ou résidu.

b = encore appelé pente (slope) de la droite. Il exprime la quantité


dont y varie lorsque x varie d’une unité.
Chapitre 1: Régression linéaire simple
Exemple 1: Relation entre le revenu et la consommation d’un ménage.
Soit la relation suivante:
C = 1,5 + 0,4 R
C = Consommation (en unité monétaire) et R = le revenu (en unité
monétaire).
• Le signe positif du coefficient b = 0,4 indique qu’il existe une relation
positive entre le revenu et la consommation de ce ménage.
• Cette relation traduit que lorsque le revenu de ce ménage augmente
d’une unité, celui-ci alloue 0,4 unité soit 40 % de cette augmentation
à sa consommation.
• Par ailleurs, ce ménage consomme 1,5 (unité monétaire) en l’absence
d’un revenu.
Chapitre 1: Régression linéaire simple
Analyse de la régression linéaire simple

• L’analyse de la régression linéaire simple consiste à estimer et


tester la significativité des deux paramètres a et b de
l’équation:
y = a + bx

• Le nombre n de couples de valeurs ( x , y ) nécessaire est tel


que n > 2 .
Chapitre 1: Régression linéaire simple

Illustration
y
• L’écart entre une
εi
observation et la droite de ŷ i
régression, encore appelé
résidu est donné par la
relation: x

ε i = yi − yˆ i
Chapitre 1: Régression linéaire simple
Estimation des paramètres de régression a et b .

Le modèle de régression est:

y = a + bx + ε

Posons ŷ , la valeur estimée de y. Les estimateurs â et b̂ des


paramètres du modèle sont tels que:

∂Σ ε 2 ∂Σ ε 2
= =0
∂a ∂b
ou encore:

∂ Σ ( y − yˆ ) 2 ∂ Σ ( y − yˆ ) 2 (1)
= =0
∂a ∂b
Chapitre 1: Régression linéaire simple


∂a
∑ ( Y i − aˆ − bˆ X i ) 2 = 0
(1) ⇒

∂b
∑ (Y i − aˆ − bˆ X i ) 2 = 0

bˆ =
∑ ( x − x )( y − y ) = Cov ( x , y )
i i

∑ ( x − x )² i s 2
x

aˆ = y − bˆx

[ ]
1 n SCE y. x
= ∑ y i − y ( xi ) r = 1−
2 2 2
s y. x
n i =1 SCE y
Variance résiduelle Coefficient de détermination
Chapitre 1: Régression linéaire simple

Validation du modèle

Pour que le modèle soit validé il faut que:


• les résidus soient indépendants et normalement distribués de
moyenne nulle et de variance constante;
• la relation entre y et x est linéaire;
• il n’y a pas d’erreur de mesure sur x ;
• le modèle soit globalement significatif (significativité des
coefficients : a et b ≠ 0 .
Chapitre 1: Régression linéaire simple
• Test d’autocorrélation des résidus: test de Durbin-Waston
But: tester l’indépendance entre les résidus de régression
(présence d’autoccorélation entre les résidus)

n −1

∑ (e i +1 − ei ) 2
Calcul de la quantité: q= i =1
n

∑ (e
i =1
i −e )2

Calcul de Uobs: u obs = q − 2 ( n 2 −1 ) /[ 4 ( n − 2 )]

L’hypothèse d’indépendance des résidus est rejetée lorsque:


P ( U ≥ u obs ) ≤ α α = 0 , 05 .
Chapitre 1: Régression linéaire simple
Test de normalité des résidus

• On réalise le graphique des


probabilités normales (figure
ci-contre). On a en ordonnée,
les quantiles normaux ou Normal
scores normaux (NB: ces scores Pas normal
peuvent être obtenus de façon Résidus
automatique par la commande
Nscores du logiciel Minitab).
• On procède à la vérification
avec un test statistique
approprié comme celui de
Ryan-Joiner.
Chapitre 1: Régression linéaire simple
Test de normalité de Ryan-Joiner

• Etape 1: tri des observations xi dans l’ordre croissant et


affectation du rang r (r = 1,...,n ) aux n observations;
• Etape 2: calcul du paramètre z = r /(r + 1) ; z représente la
fonction de répartition empirique des observations;
• Etape 3: calcul des scores normaux: u i = Φ −1 ( z )
• Etape 4: corrélation entre les observations xi et les scores
normaux u i
Cov ( x,u )
ρ obs =
s x .s u
Chapitre 1: Régression linéaire simple
La détermination de la statistique ρ th de Ryan-Joiner dépend de
la taille n de l’échantillon considéré et est donnée pour un niveau
de confiance de 0,95 comme suit:

• Si n < 50 ρ th = 1,0063 − (0,1288 n ) − (0,6118 n) + (1,3505 n²)

• Si n ≥ 50 ρ th = 0,9995 + (0,0178 n ) − (1,7726 n) + (3,5582 n1,5 )

• L’hypothèse de normalité est rejetée lorsque ρ obs est inférieur à ρth


Chapitre 1: Régression linéaire simple
Homogénéité des résidus

• Observer s’il y a des


tendances sur le
Groupe 1

Résidus
graphique des résidus par Groupe 2
rapport aux valeurs Groupe 3
prédites

• Vérifier avec un test Valeurs prédites


approprié dont celui de

Résidus
Breusch-Pagan.

Valeurs prédites
Chapitre 1: Régression linéaire simple
Test de Breush-Pagan
• Pour Breusch-Pagan (1979), la variance résiduelle αi de
l’individu i de vecteur d’observations z i peut être écrite sous
la forme:
σ i2 = σ 2 (α 0 + α ' zi )

α0 est l’ordonnée à l’origine; α’ le transposé du vecteur de


coefficients de régression partiels et σ2 une constante réelle.
• L’hypothèse nulle du test s’écrit:
H0 : α’ = 0
Chapitre 1: Régression linéaire simple
• La statistique de ce test est:

1
bp = (u − u i)' z( z' z ) −1 z ' (u − u i) , où
v
[
u = ei2 , e 22 ,..., e n2 ]
avec ei le résidu de l’observation i. ui (de la formule) est le
vecteur-colonne unitaire ( n x 1), u est la moyenne du vecteur
u et z la matrice des observations. v est une constante
calculée à l’aide de la formule:
2
1  2 e' e 
n
v= ∑ ei −  avec e le vecteur de résidu de régression.
n i=1  n
Chapitre 1: Régression linéaire simple

• Notons que sous l’hypothèse nulle d’homogénéité des


variances résiduelles, bp suit une distribution Chi-carré à p
degrés de liberté.
• La probabilité associée à cette hypothèse est:
P (χ 2 ≥ bp )

• Lorsque la valeur de cette probabilité est inférieure à 0,05 (95


% de niveau/degré de confiance), on rejette l’hypothèse
d’homogénéité des résidus.
Chapitre 1: Régression linéaire simple
Linéarité de la relation
( yi − y ) 2
• Quand on mesure ( y ij − y i ) 2
plusieurs y pour chaque
x, on peut, dans ce cas, y
tester directement en yi
calculant le rapport
( yˆ i − y ) 2
entre CM causé par les
déviations à la linéarité ( yˆ i − y i ) 2
et CM intra-groupe.
SC régression
Test de linéarité (voir SC intra-groupe
manuscrit) SC erreur SC non-linéarité
SC groupe
Chapitre 1: Régression linéaire simple
Test de significativité de b
H0 : b = 0 contre H1 : b ≠ 0

• Calcul de la variance résiduelle:

s y2. x
1 n
[
= ∑ y i − y ( xi )
n i =1
2
]

• Calcul de la statistique tb de Student tel que:


bˆ bˆ
tb = =
Sb s ² y.x sb est appelé l’erreur-
∑ (x i − x )²
type de la pente b.
Chapitre 1: Régression linéaire simple

Décision:

P(t > t b ) ≤ 0,05 ⇒ RH 0

⇒ b≠0 et b = bˆ

S ² y. x
IC = b ± t1−α / 2
∑ ( x − x )²
Toute augmentation d’une unité de la variable x entraîne un
accroissement de y compris dans cet intervalle, et ce dans
(100-α) % des cas.
Chapitre 1: Régression linéaire simple
Test de significativité de a
H0 : a = 0 contre H1 : a ≠ 0
• a0 étant une constante. Sauf mention, elle prend la valeur zéro.
• Calcul de ta tel que:
aˆ aˆ
ta = =
Sa  1 X ² 
S ² y.x  + 
 n ∑ ( X i − X )² 


=
 1 X ² 
S  + 
y .x  n ∑ ( X i − X )² 

Sa est appelé l’erreur-type du coefficient a (ordonnée à l’origine).


Chapitre 1: Régression linéaire simple
• Le principe de décision reste le même que dans le cas du test
de significativité de b.

Test de signification globale du modèle

La signification globale du modèle est testée au moyen d’une


analyse de la variance:
SCEreg = b∑ ( yi − y )( xi − x ) ; F (1 , n − 2 )

SSV ddl SCE CM F


Regression 1 SCEreg CMreg F=CMreg/CMR
Erreur n-2 ≠ce CMr
Total n-1 SCEt
Chapitre 1: Régression linéaire simple
Analyse des valeurs extrêmes : résidus normalisés
• Calcul des résidus réduits: d i = d i / s y. x
'

• Faire un graphique des résidus normalisés en fonction des


valeurs prédites
• Attention aux résidus non normalisés > 3,0
• Ces résidus contribuent fortement au carré moyen des
résidus de la régression (variance résiduelle).
Leverage
• Le leverage mesure l’influence potentielle d’un point sur la
droite: hi = 1 / n + ( xi − x ) 2 / SCE x
• Attention aux valeurs de leverage plus grande que 4/n.
Chapitre 1: Régression linéaire simple
Distance de Cook
• La distance de Cook ci mesure le
leverage et la contribution au Y
carré moyen des résidus, c’est-à-
dire l’influence réelle d’un point.
X
• Attention aux valeurs de Cook plus
grandes que 1. Petit leverage
Grand leverage

[
ci = hi di2 / 2(1 − hi ) 2 s y2.x ] Petites distances de Cook
Grandes distances de Cook
Chapitre 2: Régression linéaire multiple

Bibliographie
Cornillon P-A., Matzner-lober E. (2007). Régression:
Théorie et applications, Paris, Springer, 302p.

Drapper N., Smith H. (1981). Applied regression analysis,


New York, Wiley, 709p.

Dagnelie P. (1998). Statistique théorique et appliquée vol. 2.


Paris, De Boeck et Larcier, Paris, 659p.
Chapitre 2: Régression linéaire multiple
Définition
• La régression linéaire simple présente des insuffisances. En
effet, pour une expérience factorielle où plusieurs facteurs
sont évalués à la fois, la régression linéaire simple ne peut
être appliquée.
• Dans ces conditions, la régression prenant en compte
plusieurs variables indépendantes, en mesurant leurs effets
sur une variable dépendante est appelée régression multiple.
• Lorsque toutes les variables indépendantes sont supposées
affecter la variable dépendante de façon linéaire et
indépendamment l’une de l’autre, on parle de régression
linéaire multiple.
Chapitre 2: Régression linéaire multiple
Modèle de régression linéaire multiple

• Le modèle s’écrit:
y = f ( x1 , x 2 ,..., x p )

y = variable dépendante et xi la ième variable indépendante.


Plus explicitement, on a:
y = β 0 + β1 x1 + ... + β p x p + ε

β 0 , β 1 , ..., β p sont les paramètres (ou coefficients) de régression


partiels.
Chapitre 2: Régression linéaire multiple
Notation matricielle
- y est le vecteur-colonne des n observations de la variable
réponse
- X(n, p) est la matrice des observations des p vecteurs x i ,
chacun de dimension ( n ,1).
• A cette matrice on ajoute en première colonne, un vecteur
constitué unitaire de 1. Il correspond à la constante x 0 . La
matrice X est alors de dimension (n, p + 1) . Cette représentation
permet de traiter la constante x 0 comme une variable
explicative.
Chapitre 2: Régression linéaire multiple
• β représente le vecteur-colonne de (p+1) coefficients de
régression ou paramètres inconnus β i .
• ε est le vecteur des erreurs
On a alors:

y1 1 x 11 x 12 ... x 1p β0 ε1
y2 1 x 21 x 22 ... x 2p β1 ε2
y3 1 x 31 x 32 ... x 3p β2 ε3
y = X = β= ε=
... ... ... ...

yn 1 x n1 x n2 ... x np βp εn
Chapitre 2: Régression linéaire multiple
• Ainsi, l’équation s’écrit comme suit :

y1 1 x 11 x 12 ... x 1p β0 ε1
y2 1 x 21 x 22 ... x 2p β1 ε2
y3 1 x 31 x 32 ... x 3p β2 ε3
= +
... ... ... ...

yn 1 x n1 x n2 ... x np β p εn

X β + ε
(n x 1) (n x p+1) (1xp + 1) (n x 1)
Chapitre 2: Régression linéaire multiple
• Le modèle s’écrit :
y = Xβ + ε

Le vecteur-colonne β̂ représente le vecteur des estimateurs β̂i


• Les notations matricielles permettent d’écrire plus simplement
le système à résoudre pour trouver les coefficients β̂i qui
minimisent le critère des moindres carrés:

y = Xβˆ ⇒ ( X ' X )βˆ = ( X ' y )

• Enfin, le vecteur β̂ des coefficients solutions s’obtient en


inversant la matrice (X' X) tel que:

βˆ = ( X ' X ) −1 ( X ' y )
Chapitre 2: Régression linéaire multiple
Conditions d’application: Mêmes conditions que régression linéaire
simple (normalité, homoscédasticité, résidus indépendants).
Test de significativité des coefficients du modèle:

H0: β = 0 vs H1: tous les β i ne sont pas nuls

Modèle d’analyse de la variance

Sources de Degrés Sommes des carrés Carrés


variation de des écarts moyens
liberté
CM rég
n
F =
βˆ ' X' y − (∑ y i ) 2 / n
Régression
p −1 CM rég σ̂ 2
i =1
Résidus n− p ε' ε σ̂ 2 SSR p
n =
y 'y − (∑ y i ) 2 / n SSE ( n − p − 1)
Totaux n −1
i =1
Chapitre 2: Régression linéaire multiple
R = 1−
2 ε' ε n −1
n Ra2 = 1 − (1 − R 2 )( )
y ' y − (∑ y i ) 2 / n n− p
i =1

SCE r SCE r
Cp = 2
−n+2 AIC = n ln + 2p
σr n

SCE r σ 2 = ε' ε /(n − p + 1)


BIC = n ln + p ln(n)
n
Taille p du modèle Meilleur critère de validation
Faible BIC
AIC
à
Cp
Forte Ra2
Chapitre 2: Régression linéaire multiple
Les types de résidus et observations influentes

βˆ = ( X ' X ) −1 X ' y = Hy. Les éléments diagonaux de la matrice sont égaux à:


hii = xi (X' X)−1 xi'

Résidus simples: εi ; sa variance: σ̂ 2 (1 − hii )

Résidus standardisés: ε i /(σ̂ 1 − hii )

Résidus stundentisés par validation croisée: ε i /(σ̂ 1 − hii )


Résidus de prédiction: ε pi = ε i /(1 − hii )
n
PRESS : (somme des carrés des erreurs de prédiction: ∑ pi
ε 2

i =1
ε h2
Distance de Cook, Di : Di =
i ii

p σ̂ 2 (1 − hii ) 2
Chapitre 2: Régression linéaire multiple
Etude de la colinéarité

Colinéarité: Existence d’une relation linéaire entre une variable


explicative et les autres.
Une colinéarité stricte rend impossible l’inversion de la
matrice X' X .
1
Mesure: Facteur d’inflation de la variance VIF = .
1 − R 2j
Le terme: 1 − R j est appelé tolérance.
2

VIF correspond à l’augmentation de variance due à la corrélation entre la


variable j et les autres variables explicatives.

VIF = 1 indique l’absence de relations entre les prédicteurs; VIF > 1 indique
que les prédicteurs sont correlés. Pour des valeurs de VIF > 5 ou 10, les
coefficients de régression sont alors mal estimés.
Chapitre 2: Régression linéaire multiple

Sélection des variables en régression linéaire multiple

But: Sélectionner seulement les variables explicatives qui


contribuent significativement à expliquer les variations
observées au niveau de la variable dépendante. Les variables
explicatives ainsi retenues ont donc des effets
complémentaires et non contraires dans le modèle.
Chapitre 2: Régression linéaire multiple

Ce but peut être atteint par trois différentes méthodes. On


distingue en effet:
La sélection ascendante (Forward selection) :
Etape 1: considération des modèles à 1e variable et choix de la
meilleure variable x à coefficient de régression le plus
significatif;
Etape2: considération des modèles à 2 variables avec la 1ère
variable sélectionnée parmi les (p-1) variables et sélection de
la meilleure variable qui donne le coefficient de regression le
plus significatif; ainsi de suite, etc.
Le niveau de significativité α peut varier entre 0,05 et 0,25.
Chapitre 2: Régression linéaire multiple

La sélection descendante (Backward elimination) :


Cette méthode est l’inverse de la selection ascendante. En effet, il
est retiré du modèle à chaque étape, la variable donnant le
coefficient de regression le moins significatif.
La sélection progressive (Forward and Backward) :
Il s’agit de la combinaison des deux précédantes méthodes à la
fois.
Chapitre 3: Transformation de variables
en régression linéaire

Fichier
Chapitre 3. Le modèle logit
Bibliographie
Agresti, A. (1990). Categorical Data Analysis, New York: John
Wiley & Sons, Inc.
Hosmer, D.W. & Lemeshow, S. (1989). Applied Logistic
Regression, New York: John Wiley & Sons, Inc.
P. McCullagh & J.A. Nelder (1989). Generalized Linear Models,
Chapman & Hall, London.

Collet D. (1999). Modelling binary data, Chapman & Hall/CRC, Londres

P. Allison (1999). Logistic Regression: Using the SAS System: theory and
Applications, Cary, NC: SAS Institute Inc.
Chapitre 3. Le modèle logit
PLAN

1. Les variables qualitatives

2. Les modèles à variable dépendante qualitative


1. La régression logistique binaire

2. La régression logistique multinomiale


Chapitre 3. Le modèle logit

PLAN (suite)

3. Les modèles de comptage


1. Le modèle de Poisson
2. Le modèle négatif binomial
Chapitre 3. Le modèle logit

Les variables qualitatives


• Il s’agit de variables qui donnent des informations sur des
caractéristiques discrètes.

• Le nombre de catégories prises par les variables qualitatives est en


général petit.

• Ces valeurs peuvent être numériques mais chaque nombre indique


une qualité; une caractéristique.

• Une variable discrète peut avoir plusieurs modalités


– Deux modalités : homme ou femme
– Trois modalités : niveau d’instruction (Primaire, Secondaire, Universitaire)
– Plus de trois modalités : ethnie (Adja, Peulh, Haoussa, Mina, etc.)
Chapitre 3. Le modèle logit
Modèle logit binaire
• Les données
y = variable à expliquer binaire
x1,…, xk = variables explicatives numériques
ou binaires (indicatrices de
modalités)
• Régression logistique simple (k = 1)

• Régression logistique multiple (k > 1)


Chapitre 3. Le modèle logit
Modèle logit binaire

• Variable dépendante : y = 0 / 1
• Variables indépendantes : x1,…, xk
• Objectif : Modéliser
π(x) = Prob(Y = 1/X = x1,…, xk)
• Le modèle linéaire π(x) = β0 + βx
convient mal lorsque X est continue.
• Le modèle logistique est plus naturel.
Chapitre 3. Le modèle logit
Modèle logit binaire
Exemple : Age and Coronary Heart Disease Status (CHD)

Les données

ID AGRP AGE CHD


1 1 20 0
2 1 23 0
3 1 24 0
4 1 25 0
5 1 25 1
M M M M
97 8 64 0
98 8 64 1
99 8 65 1
100 8 69 1
Chapitre 3. Le modèle logit
Modèle logit binaire
π(x)
Log( ) = β 0 + β1 x Probabilité d'une maladie cardiaque

1 − π(x) 1.0
en fonction de l'age

.8
ou
.6

β 0 +β x
e .4

π(x) = β 0 +β x Prob(Y=1 / X)
.2

1+ e 0.0
10 20 30 40 50 60 70

AGE

Fonction de lien : Logit


Chapitre 3. Le modèle logit
Modèle logit binaire
• Fonction logit
g(P) = log(P / (1 - P))
Notons deux caractéristiques importantes et désirées du
modèle :

1. Malgré le fait que P soit compris entre 0 et 1, le


logit est un réel compris entre -∞ et + ∞

2. La probabilité n’est pas linéaire en X


Chapitre 3. Le modèle logit
Modèle logit binaire
Estimation des paramètres du modèle logistique
Les données Le modèle

X Y π(x i ) = P(Y = 1 /X = x i )
x1 y1
e β 0 +βx
M M =
xi yi 1 + e β 0 +βx
M M
xn yn
yi = 1 si caractère présent,
0 sinon
Chapitre 3. Le modèle logit
Modèle logit binaire
Vraisemblance du modèle
Probabilité d’observer les données

P ( Y =1| x i ) = C1y i [ π ( x i )] y i [ 1− π ( x i )](1− y i )


n n

L(Y| x) = ∏P(Y=1/ xi ) C = Cste ⇒ maximiser L(Y | x) = ∏P(Y=1/ xi )


1
yi
i=1
i=1
n
revient à maximiser L ( Y | x ) = ∏ [ π ( x i )] y i [ 1− π ( x i )] ( 1 − y i )
i =1

n
 π(xi ) 
où à maximiser ln[L(Y| x)]=∑  yi ln[ ]+ln[1− π(xi )]
i =1  1− π(xi ) 
Chapitre 3. Le modèle logit
Modèle logit binaire
Méthode d’estimation des paramètres
e β 0 +βx
En remplaçant π(x) par: π(x) = dans Ln(L(Y |, x)) on a:
1 + e β 0 +βx
[ ]
n
ln[ L(β 0 , β; Y | x )] = ∑ y i (β 0 + βx i ) − ln[1 + exp(β 0 + βx i )]
i =1

Il faut maintenant trouver les valeurs des paramètres qui


maximisent le log de vraisemblance

⇒ Algorithme de Newton-Raphson
,...,

Chapitre 3. Le modèle logit


Modèle logit binaire
Algorithme de Newton-Raphson

Etape 1: On définit d’abord une pseudo-variable z par la relation:

z(xi )=η(xi )+[y(xi )− π(xi )] dη(xi )


dπ(xi )

 π (x i )  dη( x i ) 1
η(xi )=ln  ; =
1− π(xi )  dπ ( x i ) π (xi )[ 1− π (xi )]

y( xi ) = 0 si l’observation est du groupe 1

y( xi ) = 1 si l’observation est du groupe 2

Etape 2: On part d’une valeur initiale de chacun des paramètres, soient β 00 et

βˆ 0 = (β̂ 10 ,...,β̂ p 0 ).
Chapitre 3. Le modèle logit
Modèle logit binaire
Algorithme de Newton-Raphson
Etape 3: On calcule π̂0(xi ) et η̂0(xi ) ; la valeur zˆ0 (xi ) est aussi calculée

En écriture matricielle, le processus itératif d’estimation des coefficients


s’écrit:

β̂ 1+ = (X + WX + )−1(X + )'W Zˆ 0

X+ =(1,X) ; W est la matrice diagonale des poids π̂(xi )[1−π̂(xi )] des


observations x i . Ẑ 0 est la matrice des valeurs zˆ 0 ( x i ). ; βˆ + = (β̂0 , βˆ ).

Etape 4: par itérations successives, les coefficients βˆ + = (β̂0 , βˆ ) sont calculés


jusqu’à ce qu’un critère de convergence soit atteint par exemple un changement
inférieur à 10-9 dans les estimations des paramètres, un pourcentage de
changement inférieur à 0,01 % dans les valeurs du log de vraisemblance.
Chapitre 3. Le modèle logit
Modèle logit binaire
Test de significativité des coefficients

eβ0 +β1x1+...+βk x k
Le modèle π( x ) = P( Y = 1 / X = x ) =
1 + eβ0 +β1x1+...+βk x k

Test H 0 : β1 = … = βk = 0
H1 : au moins un βj ≠ 0

β̂ i2
Statistique utilisée Wald =
s 2 (β̂)

Décision de rejeter H0 au risque α


Rejet de H0 si Wald ≥ χ 1−α (1)
2
Chapitre 3. Le modèle logit
Modèle logit binaire
Test de Hosmer & Lemeshow (Goodness of fit test)
Etape 1: tri dans l’ordre croissant des n observations suivant
leurs probabilités estimées;

Etape 2: subdivision en 10 groupes (g=10) des n observations


triées avec le 1er groupe contenant les observations à
probabilités les plus faibles et le dernier groupe contenant les
observations à probabilités les plus élevées;

Etape 3: dans chaque groupe, on somme toutes les probabilités


des observations liées à y=0 et on fait de même pour y=1.

Etape 4: Calcul de la statistique Ĉ :


Chapitre 3. Le modèle logit
Modèle logit binaire
Test de Hosmer & Lemeshow (Goodness of fit test)
g (ok − nk' π k ) 2
Cˆ = ∑
k =1 nk' π k (1 − π k )

nk' = nombre d’observations dans le kième groupe;


nk
o k = ∑ y ik = nombre de cas dans le kième groupe;
i =1
nk
m j π̂ j
πk = ∑ = probabilité moyenne estimée;
j =1 nk'

La conclusion se fait de la même façon que le test


Chi2 sur un tableau de contingeance 2xg à g-2 ddl.
Chapitre 3. Le modèle logit
Modèle logit binaire
Analyse des résidus données individuelles
Résidu de Pearson (Standardized Residual)

yi − πˆ i
ri =
πˆ i (1 − πˆ i )

à comparer à 2 en valeur absolue


Chapitre 3. Le modèle logit
Modèle logit binaire
Autres statistiques pour l’analyse des résidus
Déviance : D = −2log l = ∑ di2
Résidu déviance (Deviance)

d i = signe(y i − π̂ i ) − 2 log(Prob estimée [Y = y i /X = x i ]

à comparer à 2 en valeur absolue


Influence de chaque observation sur la déviance (DifDev)

∆iD = D(toutes les obs.) - D(toutes les obs. sauf l’obs. i)

Studentized residual : signe( y i − πˆ i ) ∆D i


Chapitre 3. Le modèle logit
Modèle logit binaire
Ratio de probabilité
• Interpretation des coefficient β – Ratio de probabilité (Odds ratio)
– Le ratio de probabilité est une statistique qui mesure la probabilité d’un
évènement comparé à celle d’un autre.
– Soit π 1 la probabilité d’un évènement 1 et π 2 la probabilité de l’évènement
2. Le ratio de probabilité de l’évènement 1 par rapport à l’évènement 2 est:
π1
Odds( π 1 ) 1− π 1
Odds_Ratio = = π2
Odds( π 2 ) 1− π 2
– Le ratio de probabilité varie de 0 à l’infini
– Les valeurs comprises entre 0 et 1 indiquent que la probabilité de
l’évènement 2 est plus élevée;
– Les valeurs comprises entre 1 et l’infini indiquent le contraire;
– La valeur 1 indique que les deux évènement sont équiprobables.
Chapitre 3. Le modèle logit
Modèle logit binaire
Ratio de probabilité
• Interpretation of Coefficient β – Odds Ratio cont.
– Lien avec la régression logistique:

Log(Odds_ Ratio) = Log(1−ππ1 1 ) − Log(1−ππ2 2 ) = Logit(π1 ) − Logit(π 2 )

– Thus the odds ratio between two events is

Odds _ Ratio = exp{Logit (π 2 ) − Logit (π 1 )}


Chapitre 3. Le modèle logit
Modèle logit multinomial
Introduction
Exemple: prédiction de l’appartenance ethnique en fonction de
certaines variables sociologiques (nombre de femmes, nombres
d’enfants, réligion, nombre d’interdits, nombre de scarifications au
visage.

Soit Y la variable aléatoire à expliquer prenant les modalités


1,…,g, le groupe 1 étant le groupe de référence. Dans le cas d’un
modèle multinomial, on définit g-1 fonctions:
- une fonction pour Y=2 versus Y=1;
- une fonction pour Y=3 versus Y=1.
-…
- une fonction pour Y=g versus Y=1.
Chapitre 3. Le modèle logit
Modèle logit multinomial
Principes
Le modèle logistique de Y=k versus Y=1 est défini par:

P(Y=k| x) 
gk (x)=ln  = gk (x) = αk + β'k x 2≤k< g
 P(Y=1| x) 

Le modèle logistique de Y=k versus Y=l s’écrit:

P(Y=k| x)   P(Y=k| x) P(Y=1| x) 


gk,l (x)=ln  =ln  = gk (x)− gl (x) 2≤k< g
 P(Y =l | x)   P(Y =1| x) P(Y =l | x) 

Les probabilités π k et π1(x) ont pour expressions:


g
π k (x ) = P ( Y = k | x ) =
exp[ g k (x)]
g
π1 ( x ) = P ( Y =1| x ) =1− ∑ π k ( x )
1+ ∑exp[ g j (x)] k =2

j =2
Chapitre 3. Le modèle logit
Modèle logit multinomial
Principes
La probabilité associée au vecteur xi s’écrit:

P(Y = yi/ x i ) = [ π1 ( x i )] 1,i [ π 2 ( x i )]


y y2 ,i yk ,i
...[π k ( x i )]

Dans cette expression y i ,k est la fréquence du vecteur d’observation


xi dans le groupe k.

La vraisemblance de l’échantillon global a pour expression:

L(α; β) = ∏ P(Y = yi/ xi )


i
g n g
ln[L(α;β)]=∑∑yk,i ln[πk(xi )]=∑[y1,k ln[πk(x1 )]+ y2,k ln[πk(x2)]+...+ yn,k ln[πk(xn)]]
k =1 i =1 k =1
Chapitre 3. Le modèle logit
Modèle logit multinomial
Principes
La détermination des estimateurs α̂ et β̂ est faite à travers
la maximisation de l’expression ci-dessus, en fonction des
coefficients α̂ et β̂ .

Ces coefficients sont obtenus de la même manière que dans le


cas de deux groupes pour chaque modèle logistique par
l’algorithme de Newton-Raphson.
Chapitre 4. La régression de Poisson

Rappel
• La probabilité d’une variable aléatoire de distribution de
Poisson s’écrit:

e−λλy
Pr[Y= y]= , y = 0,1,2...
y!

où λ est le nombre moyen d’occurences dans un intervalle


donné.
Chapitre 4. La régression de Poisson

Propriété de la loi de Poisson :

E(Y) = Var(Y) = λ
 La moyenne est égale à la variance !
 Le seul paramètre λ permet de modifier la
forme de la distribution.

On a besoin d’estimer un λ qui permette à la


distribution théorique de coller à celle de nos
données
Chapitre 4. La régression de Poisson

Le modèle de Poisson
• La variable dépendante est une variable de comptage
prenant un petit nombre n de valeurs (n<100).
• On suppose que la variable de comptage suit une
distribution de Poisson dont le paramètre est déterminé
par des variables explicatives associés à des coefficients;
• Utilisation justifiée lorsque la variable d’occurrence donne
le nombre d’occurences dans un laps de temps ou de
surface (ex:nombre d’accidents au travail en fonction de
paramètres liés au travail).
Chapitre 4. La régression de Poisson
• L’équation liée au modèle s’écrit:
e− λi λiyi
Pr[Yi = yi ] = , yi = 0,1,2...
yi !
• La présentation la plus utilisée pour le modèle est sa
transformation logarithmique:
lnλ i = x i' β
• Le nombre attendu d’occurences par période est donné par:

E[yi | x i] = λi = e x'iβ
Chapitre 4. La régression de Poisson

Ainsi: ∂E [ yi | x i]
= λ iβ i
∂xi

La principale hypothèse du modèle de Poisson est:

E[yi | x i] = λ i = e xi' β
= Var[yi | x i]

Après l’ajustement du modèle, cette hypothèse devra


être testée. Le modèle sera dit de grande dispersion si
Var[y]>E[y] et de sous dispersion si Var[y]<E[y].
Chapitre 4. La régression de Poisson
Estimation du modèle
Le modèle est estimé en utilisant le MLE. La fonction de
vraisemblance est non-linéaire:
n
e − λ i λ iy i
L( y, λ ) = ∏
i=1 yi !

et donc

∑ (y x β − e − ln ( y i !) )
n
LL( y, x , β ) = i i
x iβ

i =1

Les paramètres de cette équation peuvent être estimés en


utilisant le MLE:
∂L n
gi = = − ∑ [ x i [e − y i ]] = 0
x'i β

∂β i =1
Chapitre 4. La régression de Poisson
Estimation du modèle

• Le Hessian de cette fonction est:


∂ L2 n
H= = −∑[ xi xi e ]
' xi' β

∂β∂β' i =1

• De cette fonction, on peut obtenir la matrice de variance-


covariance asymptotique de l’estimateur ML:
∧ n ∧

var asy (β̂) = [−∑ [ x x i e


'
i
xi' β
]]−1
i =1

• Finalement l’algorithme itératif de Newton-Raphson est


utilisé pour trouver les paramètres estimés:
β(i+1) = β(i) − H−1(i) g(i)
Chapitre 4. La régression de Poisson

Adéquation du modèle

Une fois que les coefficients du modèle sont estimés, on


peut calculer la moyenne:
∧ ∧

λi = e x i' β

qui donne le nombre moyen attendu de réalisation de


l’évènement par période.
Chapitre 4. La régression de Poisson
Adéquation du modèle
Comme mentionné ci-dessus, l’hypothèse du modèle de
Poisson est:
E[yi | x i] = λ i = e β ' xi = Var[yi | x i]
Test de Cameron and Trivedi (1990):

H0 : Var(yi ) = λi H1 : Var(yi ) = λi + α g(λi ) g(λi ) = λi

Test lié à l’étendue de la dispersion: H0 : α = 0


^ ^
(y i − λ i ) 2 − y i = α λ i + ε i
2

Test t de Student
Chapitre 4. La régression de Poisson
Insuffisances du modèle de Poisson
• Problème majeur du modèle de Poisson
• Hypothèse du modèle de Poisson :
E(Y) = Var(Y) = λ
• En réalité la variance est souvent plus élevée !
•  augmente significativité des tests!
• Des solutions existent:
– Introduire un terme de bruit qui correspond à la
variance de Y non expliqué par les variables
– Modèle de régression négative binomiale (extension
du modèle de Poisson).
Chapitre 4. La régression de Poisson
Sur dispersion

• Correction avec un terme de bruit :


– Dscale : Par le ratio Déviance/DF
– Pscale : Par le ratio Pearson X2/DF

Régression Binomiale négative


• Extension du modèle de Poisson pour palier le problème de
sur-dispersion
• Inclusion d’un terme de bruit

logλ i = β 0 + β1 x i1 + β 2 x i 2 + ... + β k x ik + σε i
Autres formes de régression

Régression pondérée

Régression sur composantes principales

Régression PLS (Partial least square)

Régressions non linéaires

Régression de type II
Chapitre 5. Modèle log-linéaire
Définition
• Le modèle log-linéaire analyse les données contenues dans
des tableaux de contingence. Il a pour principe, d’exprimer le
logarithme des fréquences attendues en fonction des
différentes composantes additives, comme dans le cas de
l’analyse de la variance. Pour les tableaux à deux dimensions,
ce modèle s’écrit:

ln(nPij ) = m + a i + b j + ( ab) ij

ai et bj sont de sommes nulles, et les quantités (ab)ij


également de sommes nulles, non seulement globalement,
mais aussi pour toute valeur de i et pour toute valeur de j; m
est la moyenne des logarithmes des fréquences attendues.
Chapitre 5. Modèle log-linéaire

• Les termes ai sont des mesures des différences entre les


fréquences attendues marginales nPi., et les termes bj sont
des mesures des différences entre les fréquences attendues
marginales nP.j . Quant aux termes (ab)ij , ils sont relatifs à la
non-indépendance des deux caractères considérés et
comparables aux termes d’interactions de l’ANOVA à deux
facteurs.
Chapitre 5. Modèle log-linéaire

Tous les termes autres que m sont de sommes nulles, pour toutes
les sommations possibles, sur un, deux, ou trois indices.

Principe
• La résolution de l’équation se fait en estimant les paramètres
du maximum de vraisemblance en utilisant la méthode de
Newton-Raphson.
• On estime les fréquences attendues nPij et on calcule ensuite la
vraisemblance G²obs relative au test du rapport de
vraisemblance:
Chapitre 5. Modèle log-linéaire
p q   nij 
G2
= 2∑∑ nij Ln 
obs
  nPˆ  
i =1 j =1
  ij

La vraisemblance Gobs2
permet de chiffrer l’importance des
différentes composantes, et donc des différentes relations de
dépendance ou d’interaction, et d’en tester la signification.

2
Gobs suit une distribution Chi-carré à (p-1)(q-1) ddl. Le rejet de
l’hypothèse d’indépendance intervient quand:

P(χ 2 ≥ G obs
2
)≤α
Chapitre 5. Modèle log-linéaire
Extension au cas de p facteurs

Modèle pour 3 facteurs

ln( nPij ) = m + a i + b j + c k + ( ab ) ij + ( ac ) ik + (bc ) jk + ( abc ) ijk

L’effet d’un facteur quelconque Q est testé en suivant les étapes


ci-dessous:

Etape 1: Calcul de ∆G Q2 = G 2S − G 2S − Q

G 2S : vraisemblance du modèle saturé


2
G S −Q : vraisemblance du modèle saturé duquel est enlevé le facteur Q

Etape 2: P(χ 2 ≥ ∆ GQ2 ) ≤ α ⇒ RH 0 ⇒ Effet significatif de Q.

Idem pour les interactions entre facteurs

Vous aimerez peut-être aussi