Modèles linéaires
R. Glèlè Kakaï
(FSA / UAC, Bénin)
PLAN
1. Régression linéaire simple
2. Régression linéaire multiple
3. Transformation de variables en régression
linéaire
4. Le modèle logit
Chapitre 1: Régression linéaire simple
Bibliographie
Cornillon P-A., Matzner-lober E. (2007). Régression:
Théorie et applications, Paris, Springer, 302p.
Drapper N., Smith H. (1981). Applied regression analysis,
New York, Wiley, 709p.
Dagnelie P. (1998). Statistique théorique et appliquée vol. 2.
Paris, De Boeck et Larcier, Paris, 659p.
Chapitre 1: Régression linéaire simple
Régression : technique statistique permettant
y de modéliser la relation
entre une variable à expliquer et une ou plusieurs variables
x , x 2 ,..., x p . y est encore appelé variable dépendante
explicatives 1
tandis que
x 1 , x 2 ,..., x p sont qualifiés de variables indépendantes.
On distingue les régressions linéaires (simple et multiple) et les
régressions non linéaires (simple et multiple).
Lorsqu’il s’agit d’une seule variable explicative, on parle de régression
linéaire simple.
Chapitre 1: Régression linéaire simple
Par contre, lorsque la variable dépendante est expliquée par plusieurs
variables indépendantes, on parle de régression multiple. Si de plus, la
relation entre la variable dépendante et les variables explicatives est
linéaire, on parle de régression linéaire multiple.
Note: D’autres types de régression dites non linéaires existent et
peuvent dans certaines conditions être transformées en régressions
linéaires.
Chapitre 1: Régression linéaire simple
Préalable et définition
La régression linéaire simple repose sur le principe que:
- une seule variable indépendante x affecte la variable dépendante y ;
- la relation entre y et x est linéaire, ou peut être supposée linéaire.
Dans ce dernier cas, une exploration peut être d’abord faite en réalisant
le nuage de points (Scatterplot).
Aussi, pour s’assurer qu’il existe une relation linéaire ou
approximativement linéaire entre x et y , on peut calculer le coefficient
de corrélation qui mesure le degré d’association ou de liaison linéaire
entre les deux variables.
Chapitre 1: Régression linéaire simple
Il prend des valeurs comprises entre -1 et +1; les valeurs
extrêmes indiquent une parfaite ou approxivement parfaite
relation linéaire entre les deux variables, tandis que les
valeurs voisines de 0 indiquent l’absence d’une liaison linéaire
entre les deux variables.
Le signe positif ou négatif de la valeur de r indique le sens de
variation de l’une des deux variables lorsque l’autre varie dans
un sens donné.
Chapitre 1: Régression linéaire simple
Analyse de la corrélation linéaire simple
L’analyse de la corrélation linéaire simple consiste à estimer et à
tester la significativité du coefficient de corrélation linéaire simple
généralement noté r .
Si r < 0 , une augmentation des valeurs de x implique une
diminution de celles de y et vice-versa. Par contre, si r > 0 , les
valeurs des deux variables varient dans le sens.
La procédure d’estimation et de réalisation du test de significativité
de r se présente comme suit:
Chapitre 1: Régression linéaire simple
Calcul du coefficient de corrélation linéaire simple:
r
r=
∑ i )( yi − y )
( x − x
=
cov( x, y )
(∑ ( x − x )² )(∑ ( y
i i − y )² ) sx s y
Test de significativité de r : H0 : r = 0 contre H1 : r ≠0
Ainsi, si r > rth ⇒ RH 0 et on conclue au niveau α fixé que le coefficient
de corrélation linéaire simple est significatif (donc non nul).
Chapitre 1: Régression linéaire simple
Ainsi, le modèle qui traduit une telle relation s’écrit:
y = a + bx + ε
a = ordonnée à l’origine (Intercept), b le coefficient de régression
linéaire et ε le terme d’erreur ou résidu.
b = encore appelé pente (slope) de la droite. Il exprime la quantité
dont y varie lorsque x varie d’une unité.
Chapitre 1: Régression linéaire simple
Exemple 1: Relation entre le revenu et la consommation d’un ménage.
Soit la relation suivante:
C = 1,5 + 0,4 R
C = Consommation (en unité monétaire) et R = le revenu (en unité
monétaire).
• Le signe positif du coefficient b = 0,4 indique qu’il existe une relation
positive entre le revenu et la consommation de ce ménage.
• Cette relation traduit que lorsque le revenu de ce ménage augmente
d’une unité, celui-ci alloue 0,4 unité soit 40 % de cette augmentation
à sa consommation.
• Par ailleurs, ce ménage consomme 1,5 (unité monétaire) en l’absence
d’un revenu.
Chapitre 1: Régression linéaire simple
Analyse de la régression linéaire simple
• L’analyse de la régression linéaire simple consiste à estimer et
tester la significativité des deux paramètres a et b de
l’équation:
y = a + bx
• Le nombre n de couples de valeurs ( x , y ) nécessaire est tel
que n > 2 .
Chapitre 1: Régression linéaire simple
Illustration
y
• L’écart entre une
εi
observation et la droite de ŷ i
régression, encore appelé
résidu est donné par la
relation: x
ε i = yi − yˆ i
Chapitre 1: Régression linéaire simple
Estimation des paramètres de régression a et b .
Le modèle de régression est:
y = a + bx + ε
Posons ŷ , la valeur estimée de y. Les estimateurs â et b̂ des
paramètres du modèle sont tels que:
∂Σ ε 2 ∂Σ ε 2
= =0
∂a ∂b
ou encore:
∂ Σ ( y − yˆ ) 2 ∂ Σ ( y − yˆ ) 2 (1)
= =0
∂a ∂b
Chapitre 1: Régression linéaire simple
∂
∂a
∑ ( Y i − aˆ − bˆ X i ) 2 = 0
(1) ⇒
∂
∂b
∑ (Y i − aˆ − bˆ X i ) 2 = 0
bˆ =
∑ ( x − x )( y − y ) = Cov ( x , y )
i i
∑ ( x − x )² i s 2
x
⇒
aˆ = y − bˆx
[ ]
1 n SCE y. x
= ∑ y i − y ( xi ) r = 1−
2 2 2
s y. x
n i =1 SCE y
Variance résiduelle Coefficient de détermination
Chapitre 1: Régression linéaire simple
Validation du modèle
Pour que le modèle soit validé il faut que:
• les résidus soient indépendants et normalement distribués de
moyenne nulle et de variance constante;
• la relation entre y et x est linéaire;
• il n’y a pas d’erreur de mesure sur x ;
• le modèle soit globalement significatif (significativité des
coefficients : a et b ≠ 0 .
Chapitre 1: Régression linéaire simple
• Test d’autocorrélation des résidus: test de Durbin-Waston
But: tester l’indépendance entre les résidus de régression
(présence d’autoccorélation entre les résidus)
n −1
∑ (e i +1 − ei ) 2
Calcul de la quantité: q= i =1
n
∑ (e
i =1
i −e )2
Calcul de Uobs: u obs = q − 2 ( n 2 −1 ) /[ 4 ( n − 2 )]
L’hypothèse d’indépendance des résidus est rejetée lorsque:
P ( U ≥ u obs ) ≤ α α = 0 , 05 .
Chapitre 1: Régression linéaire simple
Test de normalité des résidus
• On réalise le graphique des
probabilités normales (figure
ci-contre). On a en ordonnée,
les quantiles normaux ou Normal
scores normaux (NB: ces scores Pas normal
peuvent être obtenus de façon Résidus
automatique par la commande
Nscores du logiciel Minitab).
• On procède à la vérification
avec un test statistique
approprié comme celui de
Ryan-Joiner.
Chapitre 1: Régression linéaire simple
Test de normalité de Ryan-Joiner
• Etape 1: tri des observations xi dans l’ordre croissant et
affectation du rang r (r = 1,...,n ) aux n observations;
• Etape 2: calcul du paramètre z = r /(r + 1) ; z représente la
fonction de répartition empirique des observations;
• Etape 3: calcul des scores normaux: u i = Φ −1 ( z )
• Etape 4: corrélation entre les observations xi et les scores
normaux u i
Cov ( x,u )
ρ obs =
s x .s u
Chapitre 1: Régression linéaire simple
La détermination de la statistique ρ th de Ryan-Joiner dépend de
la taille n de l’échantillon considéré et est donnée pour un niveau
de confiance de 0,95 comme suit:
• Si n < 50 ρ th = 1,0063 − (0,1288 n ) − (0,6118 n) + (1,3505 n²)
• Si n ≥ 50 ρ th = 0,9995 + (0,0178 n ) − (1,7726 n) + (3,5582 n1,5 )
• L’hypothèse de normalité est rejetée lorsque ρ obs est inférieur à ρth
Chapitre 1: Régression linéaire simple
Homogénéité des résidus
• Observer s’il y a des
tendances sur le
Groupe 1
Résidus
graphique des résidus par Groupe 2
rapport aux valeurs Groupe 3
prédites
• Vérifier avec un test Valeurs prédites
approprié dont celui de
Résidus
Breusch-Pagan.
Valeurs prédites
Chapitre 1: Régression linéaire simple
Test de Breush-Pagan
• Pour Breusch-Pagan (1979), la variance résiduelle αi de
l’individu i de vecteur d’observations z i peut être écrite sous
la forme:
σ i2 = σ 2 (α 0 + α ' zi )
α0 est l’ordonnée à l’origine; α’ le transposé du vecteur de
coefficients de régression partiels et σ2 une constante réelle.
• L’hypothèse nulle du test s’écrit:
H0 : α’ = 0
Chapitre 1: Régression linéaire simple
• La statistique de ce test est:
1
bp = (u − u i)' z( z' z ) −1 z ' (u − u i) , où
v
[
u = ei2 , e 22 ,..., e n2 ]
avec ei le résidu de l’observation i. ui (de la formule) est le
vecteur-colonne unitaire ( n x 1), u est la moyenne du vecteur
u et z la matrice des observations. v est une constante
calculée à l’aide de la formule:
2
1 2 e' e
n
v= ∑ ei − avec e le vecteur de résidu de régression.
n i=1 n
Chapitre 1: Régression linéaire simple
• Notons que sous l’hypothèse nulle d’homogénéité des
variances résiduelles, bp suit une distribution Chi-carré à p
degrés de liberté.
• La probabilité associée à cette hypothèse est:
P (χ 2 ≥ bp )
• Lorsque la valeur de cette probabilité est inférieure à 0,05 (95
% de niveau/degré de confiance), on rejette l’hypothèse
d’homogénéité des résidus.
Chapitre 1: Régression linéaire simple
Linéarité de la relation
( yi − y ) 2
• Quand on mesure ( y ij − y i ) 2
plusieurs y pour chaque
x, on peut, dans ce cas, y
tester directement en yi
calculant le rapport
( yˆ i − y ) 2
entre CM causé par les
déviations à la linéarité ( yˆ i − y i ) 2
et CM intra-groupe.
SC régression
Test de linéarité (voir SC intra-groupe
manuscrit) SC erreur SC non-linéarité
SC groupe
Chapitre 1: Régression linéaire simple
Test de significativité de b
H0 : b = 0 contre H1 : b ≠ 0
• Calcul de la variance résiduelle:
s y2. x
1 n
[
= ∑ y i − y ( xi )
n i =1
2
]
• Calcul de la statistique tb de Student tel que:
bˆ bˆ
tb = =
Sb s ² y.x sb est appelé l’erreur-
∑ (x i − x )²
type de la pente b.
Chapitre 1: Régression linéaire simple
Décision:
P(t > t b ) ≤ 0,05 ⇒ RH 0
⇒ b≠0 et b = bˆ
S ² y. x
IC = b ± t1−α / 2
∑ ( x − x )²
Toute augmentation d’une unité de la variable x entraîne un
accroissement de y compris dans cet intervalle, et ce dans
(100-α) % des cas.
Chapitre 1: Régression linéaire simple
Test de significativité de a
H0 : a = 0 contre H1 : a ≠ 0
• a0 étant une constante. Sauf mention, elle prend la valeur zéro.
• Calcul de ta tel que:
aˆ aˆ
ta = =
Sa 1 X ²
S ² y.x +
n ∑ ( X i − X )²
aˆ
=
1 X ²
S +
y .x n ∑ ( X i − X )²
Sa est appelé l’erreur-type du coefficient a (ordonnée à l’origine).
Chapitre 1: Régression linéaire simple
• Le principe de décision reste le même que dans le cas du test
de significativité de b.
Test de signification globale du modèle
La signification globale du modèle est testée au moyen d’une
analyse de la variance:
SCEreg = b∑ ( yi − y )( xi − x ) ; F (1 , n − 2 )
SSV ddl SCE CM F
Regression 1 SCEreg CMreg F=CMreg/CMR
Erreur n-2 ≠ce CMr
Total n-1 SCEt
Chapitre 1: Régression linéaire simple
Analyse des valeurs extrêmes : résidus normalisés
• Calcul des résidus réduits: d i = d i / s y. x
'
• Faire un graphique des résidus normalisés en fonction des
valeurs prédites
• Attention aux résidus non normalisés > 3,0
• Ces résidus contribuent fortement au carré moyen des
résidus de la régression (variance résiduelle).
Leverage
• Le leverage mesure l’influence potentielle d’un point sur la
droite: hi = 1 / n + ( xi − x ) 2 / SCE x
• Attention aux valeurs de leverage plus grande que 4/n.
Chapitre 1: Régression linéaire simple
Distance de Cook
• La distance de Cook ci mesure le
leverage et la contribution au Y
carré moyen des résidus, c’est-à-
dire l’influence réelle d’un point.
X
• Attention aux valeurs de Cook plus
grandes que 1. Petit leverage
Grand leverage
[
ci = hi di2 / 2(1 − hi ) 2 s y2.x ] Petites distances de Cook
Grandes distances de Cook
Chapitre 2: Régression linéaire multiple
Bibliographie
Cornillon P-A., Matzner-lober E. (2007). Régression:
Théorie et applications, Paris, Springer, 302p.
Drapper N., Smith H. (1981). Applied regression analysis,
New York, Wiley, 709p.
Dagnelie P. (1998). Statistique théorique et appliquée vol. 2.
Paris, De Boeck et Larcier, Paris, 659p.
Chapitre 2: Régression linéaire multiple
Définition
• La régression linéaire simple présente des insuffisances. En
effet, pour une expérience factorielle où plusieurs facteurs
sont évalués à la fois, la régression linéaire simple ne peut
être appliquée.
• Dans ces conditions, la régression prenant en compte
plusieurs variables indépendantes, en mesurant leurs effets
sur une variable dépendante est appelée régression multiple.
• Lorsque toutes les variables indépendantes sont supposées
affecter la variable dépendante de façon linéaire et
indépendamment l’une de l’autre, on parle de régression
linéaire multiple.
Chapitre 2: Régression linéaire multiple
Modèle de régression linéaire multiple
• Le modèle s’écrit:
y = f ( x1 , x 2 ,..., x p )
y = variable dépendante et xi la ième variable indépendante.
Plus explicitement, on a:
y = β 0 + β1 x1 + ... + β p x p + ε
β 0 , β 1 , ..., β p sont les paramètres (ou coefficients) de régression
partiels.
Chapitre 2: Régression linéaire multiple
Notation matricielle
- y est le vecteur-colonne des n observations de la variable
réponse
- X(n, p) est la matrice des observations des p vecteurs x i ,
chacun de dimension ( n ,1).
• A cette matrice on ajoute en première colonne, un vecteur
constitué unitaire de 1. Il correspond à la constante x 0 . La
matrice X est alors de dimension (n, p + 1) . Cette représentation
permet de traiter la constante x 0 comme une variable
explicative.
Chapitre 2: Régression linéaire multiple
• β représente le vecteur-colonne de (p+1) coefficients de
régression ou paramètres inconnus β i .
• ε est le vecteur des erreurs
On a alors:
y1 1 x 11 x 12 ... x 1p β0 ε1
y2 1 x 21 x 22 ... x 2p β1 ε2
y3 1 x 31 x 32 ... x 3p β2 ε3
y = X = β= ε=
... ... ... ...
yn 1 x n1 x n2 ... x np βp εn
Chapitre 2: Régression linéaire multiple
• Ainsi, l’équation s’écrit comme suit :
y1 1 x 11 x 12 ... x 1p β0 ε1
y2 1 x 21 x 22 ... x 2p β1 ε2
y3 1 x 31 x 32 ... x 3p β2 ε3
= +
... ... ... ...
yn 1 x n1 x n2 ... x np β p εn
X β + ε
(n x 1) (n x p+1) (1xp + 1) (n x 1)
Chapitre 2: Régression linéaire multiple
• Le modèle s’écrit :
y = Xβ + ε
Le vecteur-colonne β̂ représente le vecteur des estimateurs β̂i
• Les notations matricielles permettent d’écrire plus simplement
le système à résoudre pour trouver les coefficients β̂i qui
minimisent le critère des moindres carrés:
y = Xβˆ ⇒ ( X ' X )βˆ = ( X ' y )
• Enfin, le vecteur β̂ des coefficients solutions s’obtient en
inversant la matrice (X' X) tel que:
βˆ = ( X ' X ) −1 ( X ' y )
Chapitre 2: Régression linéaire multiple
Conditions d’application: Mêmes conditions que régression linéaire
simple (normalité, homoscédasticité, résidus indépendants).
Test de significativité des coefficients du modèle:
H0: β = 0 vs H1: tous les β i ne sont pas nuls
Modèle d’analyse de la variance
Sources de Degrés Sommes des carrés Carrés
variation de des écarts moyens
liberté
CM rég
n
F =
βˆ ' X' y − (∑ y i ) 2 / n
Régression
p −1 CM rég σ̂ 2
i =1
Résidus n− p ε' ε σ̂ 2 SSR p
n =
y 'y − (∑ y i ) 2 / n SSE ( n − p − 1)
Totaux n −1
i =1
Chapitre 2: Régression linéaire multiple
R = 1−
2 ε' ε n −1
n Ra2 = 1 − (1 − R 2 )( )
y ' y − (∑ y i ) 2 / n n− p
i =1
SCE r SCE r
Cp = 2
−n+2 AIC = n ln + 2p
σr n
SCE r σ 2 = ε' ε /(n − p + 1)
BIC = n ln + p ln(n)
n
Taille p du modèle Meilleur critère de validation
Faible BIC
AIC
à
Cp
Forte Ra2
Chapitre 2: Régression linéaire multiple
Les types de résidus et observations influentes
βˆ = ( X ' X ) −1 X ' y = Hy. Les éléments diagonaux de la matrice sont égaux à:
hii = xi (X' X)−1 xi'
Résidus simples: εi ; sa variance: σ̂ 2 (1 − hii )
Résidus standardisés: ε i /(σ̂ 1 − hii )
Résidus stundentisés par validation croisée: ε i /(σ̂ 1 − hii )
Résidus de prédiction: ε pi = ε i /(1 − hii )
n
PRESS : (somme des carrés des erreurs de prédiction: ∑ pi
ε 2
i =1
ε h2
Distance de Cook, Di : Di =
i ii
p σ̂ 2 (1 − hii ) 2
Chapitre 2: Régression linéaire multiple
Etude de la colinéarité
Colinéarité: Existence d’une relation linéaire entre une variable
explicative et les autres.
Une colinéarité stricte rend impossible l’inversion de la
matrice X' X .
1
Mesure: Facteur d’inflation de la variance VIF = .
1 − R 2j
Le terme: 1 − R j est appelé tolérance.
2
VIF correspond à l’augmentation de variance due à la corrélation entre la
variable j et les autres variables explicatives.
VIF = 1 indique l’absence de relations entre les prédicteurs; VIF > 1 indique
que les prédicteurs sont correlés. Pour des valeurs de VIF > 5 ou 10, les
coefficients de régression sont alors mal estimés.
Chapitre 2: Régression linéaire multiple
Sélection des variables en régression linéaire multiple
But: Sélectionner seulement les variables explicatives qui
contribuent significativement à expliquer les variations
observées au niveau de la variable dépendante. Les variables
explicatives ainsi retenues ont donc des effets
complémentaires et non contraires dans le modèle.
Chapitre 2: Régression linéaire multiple
Ce but peut être atteint par trois différentes méthodes. On
distingue en effet:
La sélection ascendante (Forward selection) :
Etape 1: considération des modèles à 1e variable et choix de la
meilleure variable x à coefficient de régression le plus
significatif;
Etape2: considération des modèles à 2 variables avec la 1ère
variable sélectionnée parmi les (p-1) variables et sélection de
la meilleure variable qui donne le coefficient de regression le
plus significatif; ainsi de suite, etc.
Le niveau de significativité α peut varier entre 0,05 et 0,25.
Chapitre 2: Régression linéaire multiple
La sélection descendante (Backward elimination) :
Cette méthode est l’inverse de la selection ascendante. En effet, il
est retiré du modèle à chaque étape, la variable donnant le
coefficient de regression le moins significatif.
La sélection progressive (Forward and Backward) :
Il s’agit de la combinaison des deux précédantes méthodes à la
fois.
Chapitre 3: Transformation de variables
en régression linéaire
Fichier
Chapitre 3. Le modèle logit
Bibliographie
Agresti, A. (1990). Categorical Data Analysis, New York: John
Wiley & Sons, Inc.
Hosmer, D.W. & Lemeshow, S. (1989). Applied Logistic
Regression, New York: John Wiley & Sons, Inc.
P. McCullagh & J.A. Nelder (1989). Generalized Linear Models,
Chapman & Hall, London.
Collet D. (1999). Modelling binary data, Chapman & Hall/CRC, Londres
P. Allison (1999). Logistic Regression: Using the SAS System: theory and
Applications, Cary, NC: SAS Institute Inc.
Chapitre 3. Le modèle logit
PLAN
1. Les variables qualitatives
2. Les modèles à variable dépendante qualitative
1. La régression logistique binaire
2. La régression logistique multinomiale
Chapitre 3. Le modèle logit
PLAN (suite)
3. Les modèles de comptage
1. Le modèle de Poisson
2. Le modèle négatif binomial
Chapitre 3. Le modèle logit
Les variables qualitatives
• Il s’agit de variables qui donnent des informations sur des
caractéristiques discrètes.
• Le nombre de catégories prises par les variables qualitatives est en
général petit.
• Ces valeurs peuvent être numériques mais chaque nombre indique
une qualité; une caractéristique.
• Une variable discrète peut avoir plusieurs modalités
– Deux modalités : homme ou femme
– Trois modalités : niveau d’instruction (Primaire, Secondaire, Universitaire)
– Plus de trois modalités : ethnie (Adja, Peulh, Haoussa, Mina, etc.)
Chapitre 3. Le modèle logit
Modèle logit binaire
• Les données
y = variable à expliquer binaire
x1,…, xk = variables explicatives numériques
ou binaires (indicatrices de
modalités)
• Régression logistique simple (k = 1)
• Régression logistique multiple (k > 1)
Chapitre 3. Le modèle logit
Modèle logit binaire
• Variable dépendante : y = 0 / 1
• Variables indépendantes : x1,…, xk
• Objectif : Modéliser
π(x) = Prob(Y = 1/X = x1,…, xk)
• Le modèle linéaire π(x) = β0 + βx
convient mal lorsque X est continue.
• Le modèle logistique est plus naturel.
Chapitre 3. Le modèle logit
Modèle logit binaire
Exemple : Age and Coronary Heart Disease Status (CHD)
Les données
ID AGRP AGE CHD
1 1 20 0
2 1 23 0
3 1 24 0
4 1 25 0
5 1 25 1
M M M M
97 8 64 0
98 8 64 1
99 8 65 1
100 8 69 1
Chapitre 3. Le modèle logit
Modèle logit binaire
π(x)
Log( ) = β 0 + β1 x Probabilité d'une maladie cardiaque
1 − π(x) 1.0
en fonction de l'age
.8
ou
.6
β 0 +β x
e .4
π(x) = β 0 +β x Prob(Y=1 / X)
.2
1+ e 0.0
10 20 30 40 50 60 70
AGE
Fonction de lien : Logit
Chapitre 3. Le modèle logit
Modèle logit binaire
• Fonction logit
g(P) = log(P / (1 - P))
Notons deux caractéristiques importantes et désirées du
modèle :
1. Malgré le fait que P soit compris entre 0 et 1, le
logit est un réel compris entre -∞ et + ∞
2. La probabilité n’est pas linéaire en X
Chapitre 3. Le modèle logit
Modèle logit binaire
Estimation des paramètres du modèle logistique
Les données Le modèle
X Y π(x i ) = P(Y = 1 /X = x i )
x1 y1
e β 0 +βx
M M =
xi yi 1 + e β 0 +βx
M M
xn yn
yi = 1 si caractère présent,
0 sinon
Chapitre 3. Le modèle logit
Modèle logit binaire
Vraisemblance du modèle
Probabilité d’observer les données
P ( Y =1| x i ) = C1y i [ π ( x i )] y i [ 1− π ( x i )](1− y i )
n n
L(Y| x) = ∏P(Y=1/ xi ) C = Cste ⇒ maximiser L(Y | x) = ∏P(Y=1/ xi )
1
yi
i=1
i=1
n
revient à maximiser L ( Y | x ) = ∏ [ π ( x i )] y i [ 1− π ( x i )] ( 1 − y i )
i =1
n
π(xi )
où à maximiser ln[L(Y| x)]=∑ yi ln[ ]+ln[1− π(xi )]
i =1 1− π(xi )
Chapitre 3. Le modèle logit
Modèle logit binaire
Méthode d’estimation des paramètres
e β 0 +βx
En remplaçant π(x) par: π(x) = dans Ln(L(Y |, x)) on a:
1 + e β 0 +βx
[ ]
n
ln[ L(β 0 , β; Y | x )] = ∑ y i (β 0 + βx i ) − ln[1 + exp(β 0 + βx i )]
i =1
Il faut maintenant trouver les valeurs des paramètres qui
maximisent le log de vraisemblance
⇒ Algorithme de Newton-Raphson
,...,
Chapitre 3. Le modèle logit
Modèle logit binaire
Algorithme de Newton-Raphson
Etape 1: On définit d’abord une pseudo-variable z par la relation:
z(xi )=η(xi )+[y(xi )− π(xi )] dη(xi )
dπ(xi )
π (x i ) dη( x i ) 1
η(xi )=ln ; =
1− π(xi ) dπ ( x i ) π (xi )[ 1− π (xi )]
y( xi ) = 0 si l’observation est du groupe 1
y( xi ) = 1 si l’observation est du groupe 2
Etape 2: On part d’une valeur initiale de chacun des paramètres, soient β 00 et
βˆ 0 = (β̂ 10 ,...,β̂ p 0 ).
Chapitre 3. Le modèle logit
Modèle logit binaire
Algorithme de Newton-Raphson
Etape 3: On calcule π̂0(xi ) et η̂0(xi ) ; la valeur zˆ0 (xi ) est aussi calculée
En écriture matricielle, le processus itératif d’estimation des coefficients
s’écrit:
β̂ 1+ = (X + WX + )−1(X + )'W Zˆ 0
X+ =(1,X) ; W est la matrice diagonale des poids π̂(xi )[1−π̂(xi )] des
observations x i . Ẑ 0 est la matrice des valeurs zˆ 0 ( x i ). ; βˆ + = (β̂0 , βˆ ).
Etape 4: par itérations successives, les coefficients βˆ + = (β̂0 , βˆ ) sont calculés
jusqu’à ce qu’un critère de convergence soit atteint par exemple un changement
inférieur à 10-9 dans les estimations des paramètres, un pourcentage de
changement inférieur à 0,01 % dans les valeurs du log de vraisemblance.
Chapitre 3. Le modèle logit
Modèle logit binaire
Test de significativité des coefficients
eβ0 +β1x1+...+βk x k
Le modèle π( x ) = P( Y = 1 / X = x ) =
1 + eβ0 +β1x1+...+βk x k
Test H 0 : β1 = … = βk = 0
H1 : au moins un βj ≠ 0
β̂ i2
Statistique utilisée Wald =
s 2 (β̂)
Décision de rejeter H0 au risque α
Rejet de H0 si Wald ≥ χ 1−α (1)
2
Chapitre 3. Le modèle logit
Modèle logit binaire
Test de Hosmer & Lemeshow (Goodness of fit test)
Etape 1: tri dans l’ordre croissant des n observations suivant
leurs probabilités estimées;
Etape 2: subdivision en 10 groupes (g=10) des n observations
triées avec le 1er groupe contenant les observations à
probabilités les plus faibles et le dernier groupe contenant les
observations à probabilités les plus élevées;
Etape 3: dans chaque groupe, on somme toutes les probabilités
des observations liées à y=0 et on fait de même pour y=1.
Etape 4: Calcul de la statistique Ĉ :
Chapitre 3. Le modèle logit
Modèle logit binaire
Test de Hosmer & Lemeshow (Goodness of fit test)
g (ok − nk' π k ) 2
Cˆ = ∑
k =1 nk' π k (1 − π k )
nk' = nombre d’observations dans le kième groupe;
nk
o k = ∑ y ik = nombre de cas dans le kième groupe;
i =1
nk
m j π̂ j
πk = ∑ = probabilité moyenne estimée;
j =1 nk'
La conclusion se fait de la même façon que le test
Chi2 sur un tableau de contingeance 2xg à g-2 ddl.
Chapitre 3. Le modèle logit
Modèle logit binaire
Analyse des résidus données individuelles
Résidu de Pearson (Standardized Residual)
yi − πˆ i
ri =
πˆ i (1 − πˆ i )
à comparer à 2 en valeur absolue
Chapitre 3. Le modèle logit
Modèle logit binaire
Autres statistiques pour l’analyse des résidus
Déviance : D = −2log l = ∑ di2
Résidu déviance (Deviance)
d i = signe(y i − π̂ i ) − 2 log(Prob estimée [Y = y i /X = x i ]
à comparer à 2 en valeur absolue
Influence de chaque observation sur la déviance (DifDev)
∆iD = D(toutes les obs.) - D(toutes les obs. sauf l’obs. i)
Studentized residual : signe( y i − πˆ i ) ∆D i
Chapitre 3. Le modèle logit
Modèle logit binaire
Ratio de probabilité
• Interpretation des coefficient β – Ratio de probabilité (Odds ratio)
– Le ratio de probabilité est une statistique qui mesure la probabilité d’un
évènement comparé à celle d’un autre.
– Soit π 1 la probabilité d’un évènement 1 et π 2 la probabilité de l’évènement
2. Le ratio de probabilité de l’évènement 1 par rapport à l’évènement 2 est:
π1
Odds( π 1 ) 1− π 1
Odds_Ratio = = π2
Odds( π 2 ) 1− π 2
– Le ratio de probabilité varie de 0 à l’infini
– Les valeurs comprises entre 0 et 1 indiquent que la probabilité de
l’évènement 2 est plus élevée;
– Les valeurs comprises entre 1 et l’infini indiquent le contraire;
– La valeur 1 indique que les deux évènement sont équiprobables.
Chapitre 3. Le modèle logit
Modèle logit binaire
Ratio de probabilité
• Interpretation of Coefficient β – Odds Ratio cont.
– Lien avec la régression logistique:
Log(Odds_ Ratio) = Log(1−ππ1 1 ) − Log(1−ππ2 2 ) = Logit(π1 ) − Logit(π 2 )
– Thus the odds ratio between two events is
Odds _ Ratio = exp{Logit (π 2 ) − Logit (π 1 )}
Chapitre 3. Le modèle logit
Modèle logit multinomial
Introduction
Exemple: prédiction de l’appartenance ethnique en fonction de
certaines variables sociologiques (nombre de femmes, nombres
d’enfants, réligion, nombre d’interdits, nombre de scarifications au
visage.
Soit Y la variable aléatoire à expliquer prenant les modalités
1,…,g, le groupe 1 étant le groupe de référence. Dans le cas d’un
modèle multinomial, on définit g-1 fonctions:
- une fonction pour Y=2 versus Y=1;
- une fonction pour Y=3 versus Y=1.
-…
- une fonction pour Y=g versus Y=1.
Chapitre 3. Le modèle logit
Modèle logit multinomial
Principes
Le modèle logistique de Y=k versus Y=1 est défini par:
P(Y=k| x)
gk (x)=ln = gk (x) = αk + β'k x 2≤k< g
P(Y=1| x)
Le modèle logistique de Y=k versus Y=l s’écrit:
P(Y=k| x) P(Y=k| x) P(Y=1| x)
gk,l (x)=ln =ln = gk (x)− gl (x) 2≤k< g
P(Y =l | x) P(Y =1| x) P(Y =l | x)
Les probabilités π k et π1(x) ont pour expressions:
g
π k (x ) = P ( Y = k | x ) =
exp[ g k (x)]
g
π1 ( x ) = P ( Y =1| x ) =1− ∑ π k ( x )
1+ ∑exp[ g j (x)] k =2
j =2
Chapitre 3. Le modèle logit
Modèle logit multinomial
Principes
La probabilité associée au vecteur xi s’écrit:
P(Y = yi/ x i ) = [ π1 ( x i )] 1,i [ π 2 ( x i )]
y y2 ,i yk ,i
...[π k ( x i )]
Dans cette expression y i ,k est la fréquence du vecteur d’observation
xi dans le groupe k.
La vraisemblance de l’échantillon global a pour expression:
L(α; β) = ∏ P(Y = yi/ xi )
i
g n g
ln[L(α;β)]=∑∑yk,i ln[πk(xi )]=∑[y1,k ln[πk(x1 )]+ y2,k ln[πk(x2)]+...+ yn,k ln[πk(xn)]]
k =1 i =1 k =1
Chapitre 3. Le modèle logit
Modèle logit multinomial
Principes
La détermination des estimateurs α̂ et β̂ est faite à travers
la maximisation de l’expression ci-dessus, en fonction des
coefficients α̂ et β̂ .
Ces coefficients sont obtenus de la même manière que dans le
cas de deux groupes pour chaque modèle logistique par
l’algorithme de Newton-Raphson.
Chapitre 4. La régression de Poisson
Rappel
• La probabilité d’une variable aléatoire de distribution de
Poisson s’écrit:
e−λλy
Pr[Y= y]= , y = 0,1,2...
y!
où λ est le nombre moyen d’occurences dans un intervalle
donné.
Chapitre 4. La régression de Poisson
Propriété de la loi de Poisson :
E(Y) = Var(Y) = λ
La moyenne est égale à la variance !
Le seul paramètre λ permet de modifier la
forme de la distribution.
On a besoin d’estimer un λ qui permette à la
distribution théorique de coller à celle de nos
données
Chapitre 4. La régression de Poisson
Le modèle de Poisson
• La variable dépendante est une variable de comptage
prenant un petit nombre n de valeurs (n<100).
• On suppose que la variable de comptage suit une
distribution de Poisson dont le paramètre est déterminé
par des variables explicatives associés à des coefficients;
• Utilisation justifiée lorsque la variable d’occurrence donne
le nombre d’occurences dans un laps de temps ou de
surface (ex:nombre d’accidents au travail en fonction de
paramètres liés au travail).
Chapitre 4. La régression de Poisson
• L’équation liée au modèle s’écrit:
e− λi λiyi
Pr[Yi = yi ] = , yi = 0,1,2...
yi !
• La présentation la plus utilisée pour le modèle est sa
transformation logarithmique:
lnλ i = x i' β
• Le nombre attendu d’occurences par période est donné par:
E[yi | x i] = λi = e x'iβ
Chapitre 4. La régression de Poisson
Ainsi: ∂E [ yi | x i]
= λ iβ i
∂xi
La principale hypothèse du modèle de Poisson est:
E[yi | x i] = λ i = e xi' β
= Var[yi | x i]
Après l’ajustement du modèle, cette hypothèse devra
être testée. Le modèle sera dit de grande dispersion si
Var[y]>E[y] et de sous dispersion si Var[y]<E[y].
Chapitre 4. La régression de Poisson
Estimation du modèle
Le modèle est estimé en utilisant le MLE. La fonction de
vraisemblance est non-linéaire:
n
e − λ i λ iy i
L( y, λ ) = ∏
i=1 yi !
et donc
∑ (y x β − e − ln ( y i !) )
n
LL( y, x , β ) = i i
x iβ
i =1
Les paramètres de cette équation peuvent être estimés en
utilisant le MLE:
∂L n
gi = = − ∑ [ x i [e − y i ]] = 0
x'i β
∂β i =1
Chapitre 4. La régression de Poisson
Estimation du modèle
• Le Hessian de cette fonction est:
∂ L2 n
H= = −∑[ xi xi e ]
' xi' β
∂β∂β' i =1
• De cette fonction, on peut obtenir la matrice de variance-
covariance asymptotique de l’estimateur ML:
∧ n ∧
var asy (β̂) = [−∑ [ x x i e
'
i
xi' β
]]−1
i =1
• Finalement l’algorithme itératif de Newton-Raphson est
utilisé pour trouver les paramètres estimés:
β(i+1) = β(i) − H−1(i) g(i)
Chapitre 4. La régression de Poisson
Adéquation du modèle
Une fois que les coefficients du modèle sont estimés, on
peut calculer la moyenne:
∧ ∧
λi = e x i' β
qui donne le nombre moyen attendu de réalisation de
l’évènement par période.
Chapitre 4. La régression de Poisson
Adéquation du modèle
Comme mentionné ci-dessus, l’hypothèse du modèle de
Poisson est:
E[yi | x i] = λ i = e β ' xi = Var[yi | x i]
Test de Cameron and Trivedi (1990):
H0 : Var(yi ) = λi H1 : Var(yi ) = λi + α g(λi ) g(λi ) = λi
Test lié à l’étendue de la dispersion: H0 : α = 0
^ ^
(y i − λ i ) 2 − y i = α λ i + ε i
2
Test t de Student
Chapitre 4. La régression de Poisson
Insuffisances du modèle de Poisson
• Problème majeur du modèle de Poisson
• Hypothèse du modèle de Poisson :
E(Y) = Var(Y) = λ
• En réalité la variance est souvent plus élevée !
• augmente significativité des tests!
• Des solutions existent:
– Introduire un terme de bruit qui correspond à la
variance de Y non expliqué par les variables
– Modèle de régression négative binomiale (extension
du modèle de Poisson).
Chapitre 4. La régression de Poisson
Sur dispersion
• Correction avec un terme de bruit :
– Dscale : Par le ratio Déviance/DF
– Pscale : Par le ratio Pearson X2/DF
Régression Binomiale négative
• Extension du modèle de Poisson pour palier le problème de
sur-dispersion
• Inclusion d’un terme de bruit
logλ i = β 0 + β1 x i1 + β 2 x i 2 + ... + β k x ik + σε i
Autres formes de régression
Régression pondérée
Régression sur composantes principales
Régression PLS (Partial least square)
Régressions non linéaires
Régression de type II
Chapitre 5. Modèle log-linéaire
Définition
• Le modèle log-linéaire analyse les données contenues dans
des tableaux de contingence. Il a pour principe, d’exprimer le
logarithme des fréquences attendues en fonction des
différentes composantes additives, comme dans le cas de
l’analyse de la variance. Pour les tableaux à deux dimensions,
ce modèle s’écrit:
ln(nPij ) = m + a i + b j + ( ab) ij
ai et bj sont de sommes nulles, et les quantités (ab)ij
également de sommes nulles, non seulement globalement,
mais aussi pour toute valeur de i et pour toute valeur de j; m
est la moyenne des logarithmes des fréquences attendues.
Chapitre 5. Modèle log-linéaire
• Les termes ai sont des mesures des différences entre les
fréquences attendues marginales nPi., et les termes bj sont
des mesures des différences entre les fréquences attendues
marginales nP.j . Quant aux termes (ab)ij , ils sont relatifs à la
non-indépendance des deux caractères considérés et
comparables aux termes d’interactions de l’ANOVA à deux
facteurs.
Chapitre 5. Modèle log-linéaire
Tous les termes autres que m sont de sommes nulles, pour toutes
les sommations possibles, sur un, deux, ou trois indices.
Principe
• La résolution de l’équation se fait en estimant les paramètres
du maximum de vraisemblance en utilisant la méthode de
Newton-Raphson.
• On estime les fréquences attendues nPij et on calcule ensuite la
vraisemblance G²obs relative au test du rapport de
vraisemblance:
Chapitre 5. Modèle log-linéaire
p q nij
G2
= 2∑∑ nij Ln
obs
nPˆ
i =1 j =1
ij
La vraisemblance Gobs2
permet de chiffrer l’importance des
différentes composantes, et donc des différentes relations de
dépendance ou d’interaction, et d’en tester la signification.
2
Gobs suit une distribution Chi-carré à (p-1)(q-1) ddl. Le rejet de
l’hypothèse d’indépendance intervient quand:
P(χ 2 ≥ G obs
2
)≤α
Chapitre 5. Modèle log-linéaire
Extension au cas de p facteurs
Modèle pour 3 facteurs
ln( nPij ) = m + a i + b j + c k + ( ab ) ij + ( ac ) ik + (bc ) jk + ( abc ) ijk
L’effet d’un facteur quelconque Q est testé en suivant les étapes
ci-dessous:
Etape 1: Calcul de ∆G Q2 = G 2S − G 2S − Q
G 2S : vraisemblance du modèle saturé
2
G S −Q : vraisemblance du modèle saturé duquel est enlevé le facteur Q
Etape 2: P(χ 2 ≥ ∆ GQ2 ) ≤ α ⇒ RH 0 ⇒ Effet significatif de Q.
Idem pour les interactions entre facteurs