Modélisation Statistique et Inférence
Modélisation Statistique et Inférence
Bienvenue 1
Contenu du cours . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1 Introduction 5
1.1 Population et échantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Types de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Loi discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6 Graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.7 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.8 Théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Inférence statistique 29
2.1 Variabilité échantillonale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2 Tests d’hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3 Hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4 Statistique de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.5 Loi nulle et valeur-p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.6 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.8 Puissance statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.9 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4 Régression linéaire 79
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3
Table des matières
Bibliographie 157
4
Bienvenue
Ces notes sont l’oeuvre de Léo Belzile (HEC Montréal) et sont mises à disposition sous la
Licence publique Creative Commons Attribution - Utilisation non commerciale - Partage
dans les mêmes conditions 4.0 International.
Ce cours traite de modélisation des données. Une citation célèbre attribuée à George Box
dit que
Ce point de vue est réducteur; McCullagh et Nelder (1989) (traduction libre) expliquent
dans le préambule de leur livre
. . . il n’est pas utile de simplement énoncer que tout modèle est faux. L’idée
même de modèle sous-tend une notion de simplification et d’idéalisation. L’idée
qu’un système physique, biologique ou sociologique complexe puisse être décrit
de manière exacte par quelques formules est franchement absurde. La construc-
tion de représentations idéalisées qui capturent les aspects stables les plus
importants du système est néanmoins une partie essentielle de toute analyse
scientifique et les modèles statistiques ne diffèrent pas en cela d’autres types de
modèles.
Pourquoi utiliser des modèles? Paul Krugman écrivait en 2010 dans son blogue
La réponse que je donnerais est que les modèles sont un outil énormément
important pour clarifier ses pensées. Vous n’avez pas à avoir une foi aveugle en
votre modèle [. . . ] pour croire qu’en mettant sur pied une description simplifiée,
mais complète du fonctionnement du système [. . . ] vous permet de gagner
1
Bienvenue
Contenu du cours
L’inférence statistique a pour but de tirer des conclusions formelles à partir de données.
Dans le cadre de la recherche scientifique, le chercheur formule une hypothèse, collecte
des données et conclut quant à la plausibilité de son hypothèse.
On distingue deux types de jeux de données: les données expérimentales sont typiquement
collectées en milieu contrôlé suivant un protocole d’enquête et un plan d’expérience: elles
servent à répondre à une question prédéterminée. L’approche expérimentale est désirable
pour éviter le «jardin des embranchements» (une allégorie signifiant qu’un chercheur
peut raffiner son hypothèse à la lumière des données, sans ajustement pour des variables
confondantes), mais elle n’est pas toujours réalisable: par exemple, un économiste ne
peut pas modifier les taux d’intérêts pour observer les impacts sur le taux d’épargne des
consommateurs. Lorsque les données ont été collectées préalablement à d’autres fins, on
parle de données observationnelles.
Par modèle, on entendra la spécification d’une loi aléatoire pour les données et une équa-
tion reliant les paramètres ou l’espérance conditionnelle d’une variable réponse Y à un
ensemble de variables explicatives X. Ce modèle peut servir à des fins de prédiction (mo-
dèle prédictif) ou pour tester des hypothèses de recherche concernant les effets de ces
variables (modèle explicatif ). Ces deux objectifs ne sont pas mutuellement exclusifs même
si on fait parfois une distinction entre inférence et prédiction.
Un modèle prédictif permet d’obtenir des prédictions de la valeur de Y pour d’autres
combinaisons de variables explicatives ou des données futures. Par exemple, on peut
chercher à prédire la consommation énergétique d’une maison en fonction de la météo, du
nombre d’habitants de la maison et de sa taille. La plupart des boîtes noires utilisées en
apprentissage automatique tombent dans la catégorie des modèles prédictifs: ces modèles
ne sont pas interprétables et ignorent parfois la structure inhérente aux données.
Par contraste, les modèles explicatifs sont souvent simples et interprétables, et les modèles
de régressions sont fréquemment utilisés pour l’inférence. On se concentrera dans ce cours
sur les modèles explicatifs. Par exemple, on peut chercher à déterminer
• Est-ce que les décisions intégrées (décision combinée d’achat et de quantité) sont
préférables aux décisions séquentielles (décision d’acheter, puis choix de la quantité)
lors de l’achat d’un produit en ligne (Duke et Amir 2023)?
2
Contenu du cours
• Qu’est-ce qui est le plus distrayant pour les utilisateurs de la route: parler au cellulaire,
texter en conduisant, consulter sa montre intelligente (Brodeur et al. 2021)?
• Quel est l’impact de de l’inadéquation entre l’image d’un produit et sa description
(Lee et Choi 2019)?
• Qu’est-ce qui explique que les prix de l’essence soient plus élevés en Gaspésie
qu’ailleurs au Québec? Un rapport de surveillance des prix de l’essence en Gaspésie
par la Régie de l’énergie se penche sur la question.
• Est-ce que les examens pratiques de conduite en Grande-Bretagne sont plus faciles
dans les régions à faible densité de population? Une analyse du journal britannique
The Guardian laisse penser que c’est le cas.
• Quelle est la perception environnementale d’un emballage de carton (versus de
plastique) s’il englobe un contenant en plastique (Sokolova, Krishna, et Döring 2023).
• Quel est l’impact psychologique des suggestions sur le montant de dons (Moon et
VanEpps 2023)?
• Est-ce que la visioconférence réduit le nombre d’interactions et d’idée créatives
générées lors d’une réunion, par rapport à une rencontre en personne (Brucks et
Levav 2022)?
3
1 Introduction
Ce qui différencie la statistique des autres sciences est la prise en compte de l’incertitude
et de la notion d’aléatoire. Règle générale, on cherche à estimer une caractéristique d’une
population définie à l’aide d’un échantillon (un sous-groupe de la population) de taille
restreinte.
La population d’intérêt est un ensemble d’individus formant la matière première d’une
étude statistique. Par exemple, pour l’Enquête sur la population active (EPA) de Statistique
Canada, « la population cible comprend la population canadienne civile non institutionna-
lisée de 15 ans et plus ». Même si on faisait un recensement et qu’on interrogeait tous les
membres de la population cible, la caractéristique d’intérêt peut varier selon le moment de
la collecte; une personne peut trouver un emploi, quitter le marché du travail ou encore se
retrouver au chômage. Cela explique la variabilité intrinsèque.
En général, on se base sur un échantillon pour obtenir de l’information parce que l’acqui-
sition de données est coûteuse. L’inférence statistique vise à tirer des conclusions, pour
toute la population, en utilisant seulement l’information contenue dans l’échantillon et en
tenant compte des sources de variabilité. Le sondeur George Gallup (traduction libre) a fait
cette merveilleuse analogie entre échantillon et population:
«Il n’est pas nécessaire de manger un bol complet de soupe pour savoir si elle
est trop salé; pour autant qu’elle ait été bien brassée, une cuillère suffit.»
5
1 Introduction
Le résultat d’une collecte de données est un tableau, ou base de données, contenant sur
chaque ligne des observations et en colonne des variables. Le Tableau 1.1 donne un exemple
de structure.
6
1.2 Types de variables
Tableau 1.1: Premières lignes de la base de données renfe, qui contient les prix de 10K
billets de train entre Barcelone et Madrid. Les colonnes prix et duree sont des
variables numériques continues, les autres des variables catégorielles.
prix type classe tarif dest duree jour
143.4 AVE Preferente Promo Barcelone-Madrid 190 6
181.5 AVE Preferente Flexible Barcelone-Madrid 190 2
86.8 AVE Preferente Promo Barcelone-Madrid 165 7
86.8 AVE Preferente Promo Barcelone-Madrid 190 7
69.0 AVE-TGV Preferente Promo Barcelone-Madrid 175 4
La plupart des modèles avec lesquels nous interagirons sont des modèles dits de régression,
dans lesquelles on modélisation la moyenne d’une variable quantitative en fonction d’autres
variables dites explicatives. Il y a deux types de variables numériques:
• une variable discrète prend un nombre dénombrable de valeurs; ce sont souvent des
variables de dénombrement ou des variables dichotomiques.
• une variable continue peut prendre (en théorie) une infinité de valeurs, même si
les valeurs mesurées sont arrondies ou mesurées avec une précision limitée (temps,
taille, masse, vitesse, salaire). Dans bien des cas, nous pouvons considérer comme
continues des variables discrètes si elles prennent un assez grand nombre de valeurs.
• nominales s’il n’y a pas d’ordre entre les modalités (sexe, couleur, pays d’origine) ou
• ordinale (échelle de Likert, tranche salariale).
7
1 Introduction
On dénote les variables aléatoires par des lettres majuscules, et leurs réalisations par des
minuscules: par exemple, Y ∼ normale(µ, σ 2 ) indique que Y suit une loi normale de pa-
ramètres µ ∈ R et σ > 0. On parle de famille de lois si la valeur des paramètres ne sont
pas spécifiées; si on fixe plutôt ces dernière, on obtient une représentation qui encode les
probabilité.
Définition 1.2 (Moments). Soit Y une variable aléatoire de fonction de densité (ou de
masse) f (x). On définit l’espérance d’une variable aléatoire Y comme
Z
E(Y ) = yf (y)dy.
R
L’espérance est la « moyenne théorique», ou moment de premier ordre : dans le cas discret,
µ = E(Y ) = y∈† yPr(y = y), où Y représente le support de la loi, à savoir les valeurs qui
P
peuvent prendre Y . Plus généralement, l’espérance d’une fonction g(y) pour une variable
8
1.3 Variables aléatoires
aléatoire Y est simplement l’intégrale de g(y) pondérée par la densité f (y). De même, si
l’intégrale est convergente, la variance est
Z
Va(Y ) = (y − µ)2 f (y)dy
R
= E{Y − E(Y )}2
= E(Y 2 ) − {E(Y )}2 .
p
L’écart-type est défini comme la racine carrée de la variance, sd(Y ) = Va(Y ): elle est
exprimé dans les mêmes unités que celle de Y et donc plus facilement interprétable.
Exemple 1.2. Considérons une variable aléatoire discrète Y pour la somme de deux lancers
de dés à six faces. L’espérance de g(Y ) = Y 2 est
1 2
E(Y 2 ) = (22 + 122 ) × + (32 + 112 ) × + (42 + 102 )
36 36
3 4 5
× + (52 + 92 ) × + (62 + 82 ) ×
36 36 36
2 6 329
+7 × = .
36 6
9
1 Introduction
La notion de moments peut être généralisé à des vecteurs. Si Y est un n-vecteur, compre-
nant par exemple dans le cadre d’une régression des mesures d’un ensemble d’observations,
alors l’espérance est calculée composante par composante,
⊤
E(Y ) = µ = E(Y1 ) · · · E(Yn )
Le ie élément diagonal de Σ, σii = σi2 , est la variance de Yi , tandis que les éléments hors de
la diagonale, σij = σji (i ̸= j), sont les covariances des paires
Z
Co(Yi , Yj ) = (yi − µi )(yj − µj )fYi ,Yj (yi , yj )dyi dyj .
R2
Co(Yi , Yj ) σij
ρij = Cor(Yi , Yj ) = p q = .
Va(Yi ) Va(Yj ) σi σj
La matrice de corrélation de Y est une matrice symmétrique n × n avec des uns sur la
diagonale et les corrélations des pairs hors diagonale,
1 ρ12 ρ13 · · · ρ1n
ρ
21 1 ρ23 · · · ρ2n
..
Cor(Y ) = ρ31
ρ32 1 . ρ3n
.
.. .. .. .. ..
. . . . .
10
1.3 Variables aléatoires
Co(X
c j, X )
k
rj,k =
{Va(X
c j )Va(X 1/2
k )}
c
Les propriétés les plus importantes du coefficient de corrélation linéaire r sont les suivantes:
1) −1 ≤ r ≤ 1;
2) r = 1 (respectivement r = −1) si et seulement si les n observations sont exactement
alignées sur une droite de pente positive (négative). C’est-à-dire, s’il existe deux
constantes a et b > 0 (b < 0) telles que yi = a + bxi pour tout i = 1, . . . , n.
Règle générale,
La Figure 1.2 montre bien ce dernier point: ces jeux de données ont la même corrélation
linéaire (quasi-nulle) et donc la même droite de régression, mais ne sont clairement pas
indépendantes puisqu’elles permettent de dessiner un dinosaure ou une étoile.
biais(θ̂) = E(θ̂) − θ
Exemple 1.3 (Estimateurs sans biais). L’estimateur sans biais de l’espérance de Y pour un
échantillon aléatoire simple Y1 , . . . , Yn est la moyenne empirique Y n = n−1 ni=1 Yi et celui
P
11
1 Introduction
Figure 1.2: Trois jeux de données de datasauRus, avec une corrélation linéaire de -0.06 et
des statistiques descriptives moyenne, écart-type, etc. identiques pour chaque
jeu de données.
Un estimateur sans biais est souhaitable, mais pas toujours optimal. Quelquefois, il n’existe
pas d’estimateur non-biaisé pour un paramètre! Dans plusieurs cas, on cherche un estima-
teur qui minimise l’erreur quadratique moyenne.
Souvent, on cherche à balancer le biais et la variance: rappelez-vous qu’un estimateur est
une variable aléatoire (étant une fonction de variables aléatoires) et qu’il est lui-même
variable: même s’il est sans biais, la valeur numérique obtenue fluctuera d’un échantillon à
l’autre.
Définition 1.5 (Erreur quadratique moyenne). On peut chercher un estimateur qui mini-
mise l’erreur quadratique moyenne,
Cette fonction objective est donc un compromis entre le carré du biais et la variance de
l’estimateur.
La plupart des estimateurs que nous considérerons dans le cadre du cours sont des esti-
mateurs du maximum de vraisemblance. Ces derniers sont asymptotiquement efficaces,
12
1.4 Loi discrètes
c’est-à-dire qu’ils minimisent l’erreur quadratique moyenne parmi tous les estimateurs
possibles quand la taille de l’échantillon est suffisamment grande. Ils ont également d’autre
propriétés qui les rendent attractifs comme choix par défaut pour l’estimation. Il ne sont
pas nécessairement sans biais
Plusieurs lois aléatoires décrivent des phénomènes physiques simples et ont donc une
justification empirique; on revisite les distributions ou loi discrètes les plus fréquemment
couvertes.
Pr(Y = y) = py (1 − p)1−y , y = 0, 1.
E(Y ) = E(Y 2 ) = p · 1 + (1 − p) · 0 = p.
Exemple 1.4 (Loi binomiale). Si les données représentent la somme d’événements Bernoulli
indépendants, la loi du nombre de réussites Y pour un nombre d’essais donné m est dite
binomiale, dénotée Bin(m, p); sa fonction de masse est
!
m y
Pr(Y = y) = p (1 − p)m−y , y = 0, 1, . . . , m.
y
13
1 Introduction
On peut ainsi considérer le nombre de personnes qui ont obtenu leur permis de conduire
parmi m candidat(e)s ou le nombre de clients sur m qui ont passé une commande de plus
de 10$ dans un magasin.
Plus généralement, on peut considérer des variables de dénombrement qui prennent des
valeurs entières. Parmi les exemples de questions de recherches comprenant une variable
réponse de dénombrement:
Exemple 1.5 (Loi de Poisson). Si la probabilité d’un événement Bernoulli est petite et qu’il
est rare d’obtenir un succès dans le sens où mp → λ quand le nombre d’essais m augmente,
alors le nombre de succès suit approximateivement une loi de Poisson de fonction de masse
exp(−λ)λy
Pr(Y = y) = , y = 0, 1, 2, . . .
Γ(y + 1)
où Γ(·) dénote la fonction gamma, et Γ(y + 1) = y! si y est un entier. Le paramètre λ de la
loi de Poisson représente à la fois l’espérance et la variance de la variable, c’est-à-dire que
E(Y ) = Va(Y ) = λ.
Exemple 1.6 (Loi binomiale négative). On considère une série d’essais Bernoulli de pro-
babilité de succès p jusqu’à l’obtention de m succès. Soit Y , le nombre d’échecs: puisque
la dernière réalisation doit forcément être un succès, mais que l’ordre des succès/échecs
précédents n’importe pas, la fonction de masse de la loi binomiale négative est
!
m−1+y m
Pr(Y = y) = p (1 − p)y .
y
14
1.5 Lois continues
Définition 1.7 (Loi beta). La loi beta Beta(α, β) est une loi sur l’intervalle [0, 1] avec para-
mètres de forme α > 0 et β > 0. Sa densité est
Γ(α)Γ(β) α−1
f (x) = x (1 − x)1−β , x ∈ [0, 1].
Γ(α + β)
Définition 1.9 (Loi normale). De loin la plus continue des distributions, la loi normale in-
tervient dans le théorème central limite, qui dicte le comportement aléatoire de la moyenne
de grand échantillons. La loi normale est pleinement caractérisée par son espérance µ ∈ R
15
1 Introduction
0.75
f(x)
f(x)
4
0.5
0.25
0
0
0.0 0.4 0.8 0.0 0.4 0.8
x x
Figure 1.3: Fonctions de densité de lois uniformes et beta(2, 3/4) sur l’intervalle [0,1].
et son écart-type σ > 0. Loi symmétrique autour de µ, c’est une famille de localisation et
d’échelle. Sa fonction de densité,
( )
(x − µ)2
f (x) = (2πσ 2 )−1/2 exp − , x ∈ R.
2σ 2
en forme de cloche, est symmétrique autour de µ, qui est aussi le mode de la distribution.
The distribution function of the normal distribution is not available in closed-form. La loi
normale est une famille de localisation échelle: si Y ∼ normale(µ, σ 2 ), alors Z = (Y − µ)/σ ∼
normale(0, 1). Inversement, si Z ∼ normale(0, 1), alors Y = µ + σZ ∼ normale(µ, σ 2 ).
Nous verrons aussi l’extension multidimensionnelle de la loi normale: un d vecteur Y ∼
normald (µ, Σ) admet une fonction de densité égale à
1
f (x) = (2π)−d/2 |Σ|−1/2 exp − (x − µ)⊤ Σ−1 (x − µ)
2
16
1.5 Lois continues
0.4 0.8
0.3 0.6
f(x)
f(x)
0.2 0.4
0.1 0.2
0.0 0.0
−4 −2 0 2 4 −4 −2 0 2 4
x x
Figure 1.4: Densités de loi normales avec des paramètres de moyenne différents (gauche)
et des paramètres d’échelle différents (droite).
Les trois lois suivantes ne sont pas couvertes dans les cours d’introduction, mais elles inter-
viennent régulièrement dans les cours de mathématique statistique et serviront d’étalon de
mesure pour déterminer si les statistiques de test sont extrêmes sous l’hypothèse nulle.
Définition 1.10 (Loi khi-deux). La loi de khi-deux avec ν > 0 degrés de liberté, dénotée χ2ν
ou khi − deux(ν) joue un rôle important en statistique. Sa densité est
1
f (x; ν) = xν/2−1 exp(−x/2), x > 0.
2ν/2 Γ(ν/2)
Elle est obtenue pour ν entier en prenant la somme de variables normales centrées et
iid
réduites au carré: si Yi ∼ normale(0, 1) pour i = 1, . . . , k, alors ki=1 Yi2 ∼ χ2k . L’espérance de
P
Définition 1.11 (Loi Student-t). La loi Student-t avec ν > 0 degrés de liberté est une famille
de localisation et d’échelle de densité symmétrique. On la dénote Student(ν) dans le cas
centré réduit.
17
1 Introduction
Son nom provient d’un article de William Gosset sous le pseudonyme Student (Gosset
1908), qui a introduit la loi comme approximation au comportement de la statistique t. La
densité d’une loi Student standard avec ν degrés de liberté est
ν+1
!− ν+1
Γ 2 y2 2
f (y; ν) = ν √ 1+ .
Γ 2 νπ ν
La loi a des ailes à décroissance polynomiale, est symmétrique autour de zéro et unimodale.
Quand ν → ∞, on recouvre une loi normale, mais les ailes sont plus lourdes que la loi
normale. Effectivement, seuls les ν − 1 premiers moments de la distribution existent: la loi
Student(2) n’a pas de variance.
Si les n observations indépendantes et identiquement distribuées Yi ∼ normale(µ, σ 2 ), alors
la moyenne empirique centrée, divisée par la variance empirique, (Y − µ)/S 2 , suit une loi
Student-t avec n − 1 degrés de liberté.
0.4
0.3
densité
0.2
0.1
0.0
−5.0 −2.5 0.0 2.5 5.0
x
Figure 1.5: Comparaison de la densité Student-t versus normale pour différents degrés de
liberté avec ν = 2 (pointillé), ν = 10 (traitillé) et la loi normale (ν = ∞).
Définition 1.12 (Loi de Fisher). La loi de Fisher, ou loi F , sert à déterminer le comportement
en grand échantillon de statistiques de test pour la comparaison de plusieurs moyennes
(analyse de variance) sous un postulat de normalité des observations.
La loi F , dite de Fisher et dénotée Fisher(ν1 , ν2 ), est obtenue en divisant deux variables khi-
deux indépendantes de degrés de liberté ν1 et ν2 . Spécifiquement, si Y1 ∼ χ2ν1 et Y2 ∼ χ2ν2 ,
alors
Y1 /ν1
F = ∼ Fisher(ν1 , ν2 )
Y2 /ν2
18
1.6 Graphiques
1.6 Graphiques
Cette section sert à réviser les principales représentations graphiques de jeux de données
selon la catégorie des variables.
6000
7500
dénombrement
dénombrement
4000 5000
2000 2500
0 0
Figure 1.6: Diagramme en bâtons pour la classe des billets de trains du jeu de données
Renfe.
Puisque les variables continues peuvent prendre autant de valeurs distinctes qu’il y a
d’observations, on ne peut simplement compter le nombre d’occurrence par valeur unique.
On regroupera plutôt dans un certain nombre d’intervalle, en discrétisant l’ensemble
des valeurs en classes pour obtenir un histogramme. Le nombre de classes dépendra
du nombre d’observations si on veut que l’estimation ne soit pas impactée par le faible
nombre d’observations par classe: règle générale, le nombre de classes ne devrait pas
√
dépasser n, où n est le nombre d’observations de l’échantillon. On obtiendra la fréquence
19
1 Introduction
de chaque classe, mais si on normalise l’histogramme (de façon à ce que l’aire sous les
bandes verticales égale un), on obtient une approximation discrète de la fonction de densité.
Faire varier le nombre de classes permet parfois de faire apparaître des caractéristiques de
la variable (notamment la multimodalité, l’asymmétrie et les arrondis).
Puisque qu’on groupe les observations en classe pour tracer l’histogramme, il est difficile
de voir l’étendue des valeurs que prenne la variable: on peut rajouter des traits sous l’histo-
gramme pour représenter les valeurs uniques prises par la variable, tandis que la hauteur
de l’histogramme nous renseigne sur leur fréquence relative.
0.04
0.03
densité
0.02
0.01
0.00
50 100 150
prix de billets au tarif Promo (en euros)
Figure 1.7: Histogramme du prix des billets au tarif Promo de trains du jeu de données
Renfe
• La boîte donne les 1e, 2e et 3e quartiles q1 , q2 , q3 . Il y a donc 50% des observations sont
au-dessus/en-dessous de la médiane q2 qui sépare en deux la boîte.
• La longueur des moustaches est moins de 1.5 fois l’écart interquartile q3 − q1 (tracée
entre 3e quartile et le dernier point plus petit que q3 + 1.5(q3 − q1 ), etc.)
• Les observations au-delà des moustaches sont encerclées. Notez que plus le nombre
d’observations est élevé, plus le nombres de valeurs aberrantes augmente. C’est
un défaut de la boîte à moustache, qui a été conçue pour des jeux de données qui
passeraient pour petits selon les standards actuels.
20
1.6 Graphiques
écart interquartile
iqr = q3 − q1
médiane
q2
◦ ◦ ◦
q1 − 1.5iqr q3 + 1.5iqr
q1 q3
25 percentile 75 percentile
150
prix (en euros)
100
50
Figure 1.9: Boîte à moustaches du prix des billets au tarif Promo en fonction de la classe
pour le jeu de données Renfe.
21
1 Introduction
difficile de distinguer quoi que ce soit. On peut alors ajouter de la transparence ou regrou-
per des données en compartiments bidimensionnels (un histogramme bidimensionnel),
dont la couleur représente la fréquence de chaque compartiment. Le paneau gauche de
Figure 1.10 montre un nuage de points de 100 observations simulées, tandis que celui de
droite représente des compartiments hexagonaux contenant 10 000 points.
2.5
3
décompte
100
2.0
75
y
y
2 50
25
1.5
1
1.0 0
0 1 2 3 0 1 2 3 4
x x
Figure 1.10: Nuage de points (gauche) et diagramme hexagonal (droite) pour des données
simulées.
Les paramètres de la loi F sont inconnus, mais on peut obtenir un estimateur Fb et appli-
quer la transformation inverse pour obtenir une variable approximativement uniforme.
22
1.6 Graphiques
• sur l’axe des abscisses, les quantiles théoriques Fb −1 {rang(Yi )/(n + 1)}
• sur l’axe des ordonnées, les quantiles empiriques Yi
Si le modèle est adéquat, les valeurs ordonnées devraient suivre une droite de pente unitaire
qui passe par l’origine. Le diagramme probabilité-probabilité représente plutôt les données
à l’échelle uniforme {rang(Yi )/(n + 1), Fb (Yi )}.
1.00
2
0.75
quantiles empiriques
quantiles empiriques
0.50 0
0.25
−2
0.00
23
1 Introduction
Pour l’intervalle de confiance ponctuel, chaque valeur représente une statistique et donc
individuellement, la probabilité qu’une statistique d’ordre sorte de l’intervalle de confiance
est α. En revanche, les statistiques d’ordres ne sont pas indépendantes et sont qui est
plus ordonnées, ce qui fait qu’un point hors de l’intervalle risque de n’être pas isolé. Les
intervalles présentés dans la Figure 1.11 sont donc ponctuels. La variabilité des statistiques
d’ordre uniformes est plus grande autour de 1/2, mais celles des variables transformées
dépend de F .
Un estimateur est dit convergent si la valeur obtenue à mesure que la taille de l’échantillon
augmente s’approche de la vraie valeur que l’on cherche à estimer. Mathématiquement
Pr
parlant, un estimateur est dit convergent s’il converge en probabilité, ou θ̂ → θ: en langage
commun, la probabilité que la différence entre θ̂ et θ diffèrent est négligeable quand n est
grand.
La condition a minima pour le choix d’un estimateur est donc la convergence: plus on
récolte d’information, plus notre estimateur devrait s’approcher de la valeur qu’on tente
d’estimer.
La loi des grands nombres établit que la moyenne empirique de n observations indépen-
dantes de même espérance, Y n , tend vers l’espérance commune des variables µ, où Y n → µ.
En gros, ce résultat nous dit que l’on réussit à approximer de mieux en mieux la quantité
d’intérêt quand la taille de l’échantillon (et donc la quantité d’information disponible sur le
paramètre) augmente. La loi des grands nombres est très utile dans les expériences Monte
Carlo: on peut ainsi approximer par simulation la moyenne d’une fonction g(x) de variables
aléatoires en simulant de façon répétée des variables Y indépendantes et identiquement
distribuées et en prenant la moyenne empirique n−1 ni=1 g(Yi ).
P
24
1.8 Théorème central limite
Si la loi des grands nombres nous renseigne sur le comportement limite ponctuel, il ne nous
donne aucune information sur la variabilité de notre estimé de la moyenne et la vitesse à
laquelle on s’approche de la vraie valeur du paramètre.
Le théorème central limite dit que, pour un échantillon aléatoire de taille n dont les observa-
tions sont indépendantes et tirées d’une loi quelconque d’espérance µ et de variance finie
σ 2 , alors la moyenne empirique tend non seulement vers µ, mais à une vitesse précise:
25
1 Introduction
2000
fréquence
1000
Figure 1.12: Distribution empirique des temps de trajet en trains à grande vitesse.
moyenne; malgré le fait que nos données sont discrètes, la distribution des moyennes est
approximativement normale.
On a considéré une seule loi aléatoire inspirée de l’exemple, mais vous pouvez vous amuser
à regarder l’effet de la distribution sous-jacent et de la taille de l’échantillon nécessaire
pour que l’effet du théorème central limite prenne effet: il suffit pour cela de simulant
des observations d’une loi quelconque de variance finie, en utilisant par exemple cette
applette.
Les statistiques de test qui découlent d’une moyenne centrée-réduite (ou d’une quantité
équivalente pour laquelle un théorème central limite s’applique) ont souvent une loi nulle
standard normale, du moins asymptotiquement (quand n est grand, typiquement n > 30
est suffisant). C’est ce qui garantie la validité de notre inférence!
26
1.8 Théorème central limite
0.06
6
fréquence
0.04
densité
4
0.02
2
0 0.00
150 160 170 180 190 150 160 170 180 190
durée (en minutes) durée moyenne (en minutes)
0.25
0.09 0.20
densité
densité
0.15
0.06
0.10
0.03
0.05
0.00 0.00
160 165 170 175 180 185 140 160 180 200
durée moyenne (en minutes) durée moyenne (en minutes)
27
2 Inférence statistique
Dans la plupart des domaines scientifiques, les donnéese empiriques issues d’expériences
contribuent à l’édification de la science. Afin de tirer des conclusions en faveur ou à l’en-
contre d’une théorie, les chercheurs se tournent (souvent à contrecoeur) vers la statistique.
Cela a conduit à la prédominance de l’utilisation du cadre des tests statistiques et à la
prépondérance des valeurs-p dans les articles scientifiques, souvent employées de manière
abusive ou fautive dans les articles de journaux. La falsification d’une hypothèse nulle n’est
pas suffisante pour fournir des résultats substantiels pour une théorie.
Comme les cours d’introduction aux statistiques présentent généralement des tests d’hypo-
thèses sans accorder beaucoup d’attention aux principes de construction sous-jacents de
ces procédures, les utilisateurs ont souvent une vision réductrice des statistiques. Plusieurs
voient les statistiques comme un catalogue de procédures pré-établies. Pour faire une ana-
logie culinaire, les utilisateurs se concentrent sur l’apprentissage en vase clos des recettes
plutôt que d’essayer de comprendre les bases de la cuisine et de faire des liens. Ce chapitre
se concentre sur la compréhension des concepts-clés liées aux tests.
, Objectifs d’apprentissage
Avant d’entamer une collecte de données pour une expérience, il est nécessaire de formuler
une question de recherche. En général, cette hypothèse spécifie les différences potentielles
entre les caractéristiques de la population dues à une intervention (un traitement) que le
chercheur souhaite quantifier. C’est à cette étape que les chercheurs décident de la taille de
l’échantillon, du choix de la variable de réponse et de la méthode de mesure, qu’ils rédigent
le plan de l’étude, etc.
Il est important de noter que la plupart des questions de recherche ne peuvent être résolues
à l’aide d’outils simples. Les chercheurs qui souhaitent mener une recherche méthodolo-
29
2 Inférence statistique
gique innovante devraient contacter des experts et consulter des statisticien(ne)s avant de
collecter leurs données afin d’obtenir des informations sur la meilleure façon de procéder
pour ce qu’ils ont en tête, afin d’éviter le risque d’affirmations trompeuses basées sur une
analyse ou une collecte de données incorrectes.
Figure 2.1: Bande dessinée xkcd 2569 (Hypothesis generation) par Randall Munroe. Texte
alternatif: Frazzled scientists are requesting that everyone please stop generating
hypotheses for a little bit while they work through the backlog. Bande réimpri-
mée sous license CC BY-NC 2.5.
L’objectif de cette section est d’illustrer le fait que nous ne pouvons pas simplement utiliser
les différences brutes entre les groupes pour effectuer des comparaisons significatives: en
raison de la variabilité due à l’échantillonnage, les échantillons seront semblables même
s’ils sont générés de la même manière, mais il y aura toujours des différences entre les
statistiques récapitulatives calculées sur des échantillons différents. Ces différences ont
tendance à s’atténuer (ou à augmenter) au fur et à mesure que l’on collecte davantage d’ob-
servations. Plus nous recueillons de données (et donc d’informations) sur notre cible, plus
le portrait devient précis. C’est somme toute ce qui nous permet de tirer des conclusions
mais, pour ce faire, nous devons d’abord déterminer ce qui est probable ou plausible et
donc le fruit du hsard, de ce qui n’est pas ou peu susceptible de se produire.
30
2.1 Variabilité échantillonale
Nous appelons statistiques les résumés numériques des données. Il est important de faire
la distinction entre les procédures ou formules et leurs valeurs numériques. Un estimateur
est une règle ou une formule utilisée pour calculer une estimation d’un paramètre ou d’une
quantité d’intérêt sur la base de données observées (comme une recette de gâteau). Une
fois que nous disposons de données observées, nous pouvons calculer la moyenne de
l’échantillon, c’est-à-dire que nous disposons d’une estimation — d’une valeur réelle (le
gâteau), qui est une réalisation unique et non aléatoire. En d’autres termes,
(b) Estimateur
Figure 2.2: Les concepts d’estimand (gauche), estimateur (milieu) et estimaté (droite), illus-
trés à l’aide de gâteau, une variation d’un idée originale de Simon Grund. Les
photos de gâteau sont partagées sous licence CC BY-NC 2.0.
31
2 Inférence statistique
Figure 2.3: Bande dessinée xkcd 2581 (Health Stats) par Randall Munroe. Texte alternatif:
You will live on forever in our hearts, pushing a little extra blood toward our left
hands now and then to give them a squeeze. Bande réimprimée sous license CC
BY-NC 2.5.
des sous-groupes sont différentes même si elles proviennent de la même population. Vous
pouvez considérer la variabilité d’échantillonnage comme du bruit: notre objectif est d’ex-
traire le signal (typiquement les différences de moyennes) tout en tenant compte du bruit
de fond.
L’oeil avisé pourra remarquer que les moyennes des cinq échantillons (segments hori-
zontaux colorés) sont moins dispersées autour de la ligne horizontale noire représentant
la moyenne de la population µ que ne le sont les observations. Il s’agit là d’un principe
fondamental de la statistique: l’information s’accumule au fur et à mesure que l’on obtient
plus de données.
Les valeurs de la moyenne de l’échantillon ne donnent pas une image complète et l’étude
des différences de moyenne (entre les groupes ou par rapport à une valeur de référence
postulée) n’est pas suffisante pour tirer des conclusions. Dans la plupart des cas, rien ne
garantit que la moyenne de l’échantillon sera égale à sa valeur réelle, car elle varie d’un
échantillon à l’autre: la seule garantie que nous ayons est qu’elle sera en moyenne égale à la
moyenne de la population dans des échantillons répétés. Selon le choix de la mesure et la
variabilité de la population, il peut y avoir des différences considérables d’une observation
à l’autre, ce qui signifie que la différence observée peut être un coup de chance.
Pour avoir une idée du degré de certitude d’une chose, nous devons considérer la varia-
bilité d’une observation Yi . Cette variance d’une observation tirée de la population est
typiquement notée σ 2 et sa racine carrée, l’écart-type, par σ.
L’écart-type d’une statistique est appelé erreur-type; il ne doit pas être confondu avec
l’écart-type σ de la population dont sont tirées les observations de l’échantillon Y1 , . . . , Yn .
L’écart-type et l’erreur-type sont exprimés dans les mêmes unités que les données et sont
32
2.1 Variabilité échantillonale
10
8
observations
_ _ _
_ _
4
1 2 3 4 5
numéro d'échantillon
Figure 2.4: Cinq échantillons de taille n = 10 tirés d’une population commune de moyenne
µ (ligne horizontale). Les segments colorés représentent les moyennes empi-
riques de chaque groupe.
donc plus faciles à interpréter que la variance. L’erreur-type étant fonction de la taille de
l’échantillon, il est d’usage de rapporter plutôt l’écart-type dans les rapports.
Même s’ils sont tirés de la même population, les 10 échantillons de Figure 2.5 sont très
différents. La seule chose en jeu ici est la variabilité de l’échantillon: puisqu’il y a n = 20
d’observations au total, il devrait y avoir en moyenne 10% des observations dans chacun
des 10 bacs, mais certains bacs sont vides et d’autres ont plus d’effectifs que prévu. Cette
fluctuation est le fruit du hasard.
Comment pouvons-nous donc déterminer si ce que nous voyons est compatible avec le
modèle qui, selon nous, a généré les données ? Il suffit de collecter davantage d’observations:
la hauteur de la barre est la proportion de l’échantillon, une moyenne de valeurs 0/1, où la
valeur ‘un’ indique que l’observation se trouve dans la case, et ‘zéro’ dans le cas contraire.
33
2 Inférence statistique
1 2 3 4 5
0.3
0.2
0.1
sample proportion
0.0
6 7 8 9 10
0.3
0.2
0.1
0.0
0 5 10 0 5 10 0 5 10 0 5 10 0 5 10
1
La formule montre que l’erreur standard diminue d’un facteur 10 chaque fois que la taille de l’échantillon
augmente d’un facteur 100.
34
2.2 Tests d’hypothèse
proportion
0.2
0.1
0.0
0 5 10 0 5 10 0 5 10 0 5 10
0.2
0.1
0.0
0 5 10 0 5 10 0 5 10 0 5 10
Figure 2.6: Histogrammes de données tirées d’une loi uniforme (haut) et d’une loi non-
uniforme (bas) pour des tailles d’échantillons de 10, 100, 1000 and 10 000 (de
gauche à droite).
Un test d’hypothèse statistique est une façon d’évaluer la preuve statistique provenant
d’un échantillon afin de faire une décision quant à la population sous-jacente. Les étapes
principales sont:
Mon approche privilégiée pour présenter les tests d’hypothèse est de faire un parallèle avec
un procès pour meurtre où vous êtes nommé juré.
35
2 Inférence statistique
2.3 Hypothèse
Dans les test statistique il y a toujours deux hypothèse: l’hypothèse nulle (H0 ) et l’hypothèse
alternative (Ha ). Habituellement, l’hypothèse nulle est le « statu quo » et l’alternative est
l’hypothèse que l’on cherche à démontrer. On se fait l’avocat du Diable en défendant
l’hypothèse nulle et en analysant toutes les preuves sous l’angle: « est-ce que les données
entrent en contradiction avec H0 ? ». Un test d’hypothèse statistique nous permet de décider
si nos données nous fournissent assez de preuves pour rejeter H0 en faveur de Ha , selon
un risque d’erreur spécifié.
Généralement, les tests d’hypothèses sont exprimés en fonction de paramètres (de valeurs
inconnues) du modèle sous-jacent, par ex. θ. Un test d’hypothèse bilatéral concernant un
paramètre scalaire θ s’exprimerait la forme suivante:
H0 : θ = θ0 versus Ha : θ ̸= θ0 .
36
2.4 Statistique de test
Ces hypothèses permettent de tester si θ est égal à une valeur numérique précise θ0 .
Par exemple, pour un test bilatéral concernant le paramètre d’un modèle de régression βj
associé à une variable explicative d’intérêt Xj , les hypothèses sont
où βj0 est une valeur précise qui est reliée à la question de recherche. Par exemple, si βj0 = 0
la question de recherche sous-jacente est: est-ce que la covariable Xj impacte la variable
réponse d’intérêt Y une fois l’effet des autres variables pris en compte?
Il est possible d’imposer une direction dans les tests en considérant une hypothèse alterna-
tive de la forme Ha : θ > θ0 ou Ha : θ < θ0 .
Une statistique de test T est une fonction des données qui résume l’information contenue
dans les données pour θ. La forme de la statistique de test est choisie de façon à ce que son
comportement sous H0 , c’est-à-dire l’ensemble des valeurs que prend T si H0 est vraie et
leur probabilité relative, soit connu. En effet, T est une variable aléatoire et sa valeur va
changer selon l’échantillon. La loi nulle de la statistique de test nous permet de déterminer
quelles valeurs de T sont plausibles si H0 est vraie. Plusieurs statistiques que l’on couvrira
dans ce cours sont des statistiques de Wald, de la forme
θb − θ0
T =
se(θ)
b
où θb est l’estimateur du paramètre θ, θ0 la valeur numérique postulée (par ex., zéro) et se(θ)
b
est l’estimateur de l’écart-type de θ.
b
Par exemple, pour une hypothèse sur la moyenne d’une population de la forme
H0 : µ = 0, Ha : µ ̸= 0,
X −0
T = √
Sn / n
37
2 Inférence statistique
√
et l’erreur-type de la moyenne X est Sn / n; l’écart-type Sn est un estimateur de σ, où
n
1 X
Sn2 = (Xi − X)2 .
n − 1 i=1
p = 2 × Pr0 (T ≥ |t|).
La Figure 2.7 montre la loi des valeurs-p sous deux scénarios: à gauche, une loi nulle et à
droite, une loi alternative. La probabilité de rejetter H0 est obtenue en calculant l’aire sous
la courbe sous la courbe de densité et α = 0.1. Sous l’hypothèse nulle, le modèle est calibré
et la loi des valeurs-p est uniforme (un rectangle de hauteur 1), ce qui veut dire que toutes
les valeurs sont également plausibles. Sous l’alternative, l’obtention de petites valeurs−p
est plus plausible.
Il existe généralement trois façons d’obtenir des lois nulles pour évaluer le degré de preuve
contre l’hypothèse nulle
Bien que souhaitable, la première méthode n’est applicable que dans des cas simples
(comme le calcul de la probabilité d’obtenir deux six en lançant deux dés identiques). La
deuxième méthode est la plus couramment utilisée en raison de sa généralité et de sa
facilité d’utilisation (en particulier dans les temps anciens où la puissance de calcul était
rare), mais elle ne donne pas de bons résultats avec des échantillons de petite taille (où la
noti de « trop petit » dépend du contexte et du test). La dernière approche peut être utilisée
pour approcher la distribution nulle dans de nombreux scénarios, mais elle ajoute une
couche d’aléatoire et les coûts de calcul supplémentaires n’en valent parfois pas la peine.
38
2.6 Intervalle de confiance
5 5
4 4
3 3
density
density
2 2
1 1
Figure 2.7: Densité des valeurs-p sou l’hypothèse nulle (gauche) et une alternative avec un
ratio signal-bruit de 0.5 (droite).
X
T = √
S/ n
suit une loi de Student-t avec n−1 degrés de liberté, dénotée Studentn−1 . À partir de cette loi
nulle, on peut calculer la valeur-p (ou bien à partir d’une table ou d’un logiciel statistique).
Puisque la distribution Student-t est symétrique autour de 0, on peut calculer la valeur-p
comme P = 2 × Pr(T > |t|), où T ∼ Studentn−1 .
Un intervalle de confiance est une manière alternative de rapporter les conclusions d’un
test, en ce sens qu’on fournit une estimation ponctuelle de θ̂ avec une marge d’erreur.
L’intervalle de confiance donne donc une indication de la variabilité de la procédure d’esti-
39
2 Inférence statistique
θb − θ
T = ,
se(θ)
b
Par exemple, pour un échantillon aléatoire X1 , . . . , Xn provenant d’une loi normale(µ, σ),
l’intervalle de confiance à (1 − α) pour la moyenne (dans la population) µ est
S
X ± tn−1,α/2 √
n
où tn−1,α/2 est le quantile d’ordre 1 − α/2 de la loi Student-t avec n − 1 degrés de libertés.
Les bornes de l’intervalle de confiance sont aléatoires puisque θb et se(θ) b sont des variable
aléatoires: leurs valeurs observées changent d’un échantillon à un autre. Avant qu’on calcule
l’intervalle de confiance, il y a une probabilité de 1 − α que θ soit contenu dans l’intervalle
aléatoire symmétrique (θb− qα/2 se(θ),b θb + q
α/2 se(θ)), où θ dénote l’estimateur de θ. Une fois
b b
qu’on obtient un échantillon et qu’on calcule les bornes de l’intervalle de confiance, il n’y a
plus de notion de probabilité: la vraie valeur du paramètre θ (inconnue) est soit contenue
dans l’intervalle de confiance, soit pas. La seule interprétation de l’intervalle de confiance
qui soit valable alors est la suivante: si on répète l’expérience plusieurs fois et qu’à chaque
fois on calcule un intervalle de confiance à 1 − α, alors une proportion de (1 − α) de ces
intervalles devraient contenir la vraie valeur de θ (de la même manière, si vous lancez une
pièce de monnaie équilibrée, vous devriez obtenir grosso modo une fréquence de 50%
de pile et 50% de face, mais chaque lancer donnera un ou l’autre de ces choix). Notre «
confiance » est dans la procédure et non pas dans les valeurs numériques obtenues pour
un échantillon donné.
40
2.7 Conclusion
0 25 50 75 100
no de l'étude de réplication
Figure 2.8: Intervalles de confiance à 95% pour la moyenne d’une population normale
standard pour 100 échantillons aléatoires. En moyenne, 5% de ces intervalles
(en rouge) n’incluent pas la vraie valeur de la moyenne de zéro.
2.7 Conclusion
La valeur-p nous permet de faire une décision quant aux hypothèses du test. Si H0 est vraie,
la valeur-p suit une loi uniforme. Si la valeur-p est petite, ça veut dire que le fait d’observer
une statistique de test égal ou encore plus extrême que T = t est peu probable, et donc
nous aurons tendance de croire que H0 n’est pas vraie. Il y a pourtant toujours un risque
sous-jacent de commettre un erreur quand on prend une décision. En statistique, il y a
deux types d’erreurs:
Ces deux erreurs ne sont pas égales: on cherche souvent à contrôler l’erreur de type I
(une erreur judiciaire, condamner un innocent). Pour se prémunir face à ce risque, on fixe
préalablement un niveau de tolérance. Plus notre seuil de tolérance α est grand, plus on
rejette souvent l’hypothèse nulle même si cette dernière est vraie. La valeur de α ∈ (0, 1) est
la probabilité qu’on rejette H0 quand H0 est en fait vraie.
α = Pr0 ( rejeter H0 ) .
41
2 Inférence statistique
Pour prendre une décision, on doit comparer la valeur-p P avec le niveau du test α:
• si P < α on rejette H0 ,
• si P ≥ α on ne rejette pas H0 .
Attention à ne pas confondre niveau du test (probabilité fixée au préalable par l’expérimen-
tateur) et la valeur-p (qui dépend de l’échantillon). Si vous faites un test à un niveau 5%
la probabilité de faire une erreur de type I est de 5% par définition, quelque soit la valeur
de la valeur-p. La valeur-p s’interprète comme la probabilité d’obtenir une valeur de la
statistique de test égale ou même plus grande que celle qu’on a observée dans l’échantillon,
si H0 est vraie.
\ Mise en garde
L’American Statistical Association (ASA) a publié une liste de principes détaillant les
principales erreurs d’interprétation des valeurs-p, notamment
(2) Les valeurs-p ne mesurent pas la probabilité que l’hypothèse étudiée
est vrai
(3) Les décisions d’affaires et scientiques ne devraient pas seulement être
basées sur le fait qu’une valeur-p est inférieure à un seuil spécifié.
(4) Les analyses statistiques et les valeurs-p associées ne devraient pas
être rapportées de manière sélective.
(5) Les valeurs-p, ou la significativité statistiques, ne mesurent pas la taille
de l’effet ou l’importance d’un résultat.
42
2.8 Puissance statistique
Le but du test d’hypothèse est de prouver (hors de tout doute raisonnable) qu’une diffé-
rence ou un effet est significatif: par exemple, si une nouvelle configuration d’un site web
(hypothèse alternative) permet d’augmenter les ventes par rapport au statu quo. Notre
capacité à détecter cette amélioration dépend de la puissance du test: plus cette dernière
est élevée, plus grande est notre capacité à rejeter H0 quand ce dernier est faux.
Quand on ne rejette pas H0 et que Ha est en fait vraie, on commet une erreur de type
II: cette dernière survient avec probabilité 1 − γ. La puissance statistique d’un test est la
probabilité que le test rejette H0 alors que H0 est fausse, soit
γ = Pra (rejeter H0 )
Selon le choix de l’alternative, il est plus ou moins facile de rejeter l’hypothèse nulle en
faveur de l’alternative.
On veut qu’un test ait une puissance élevée, c’est-à-dire, le plus près de 1 possible. Minima-
lement, la puissance du test devrait être α si on rejette l’hypothèse nulle une fraction α du
temps quand cette dernière est vraie. La puissance dépend de plusieurs critères, à savoir:
• la taille de l’effet: plus la différence est grande entre la valeur postulée θ0 du paramètre
sous H0 et le comportement observé, plus il est facile de le détecter (panneau du
milieu de Figure 2.9);
• la variabilité: moins les observations sont variables, plus il est facile de déterminer
que la différence observée est significative (les grandes différences sont alors moins
plausibles, comme l’illustre le panneau de droite de Figure 2.9);
• la taille de l’échantillon: plus on a d’observations, plus notre capacité à détecter une
différence significative augmente parce que l’erreur-type décroît avec la taille de
l’échantillon à un rythme (ordinairement) de n−1/2 . La loi nulle devient aussi plus
concentrée quand la taille de l’échantillon augmente.
• le choix de la statistique de test: par exemple, les statistiques basées sur les rangs
n’utilisent pas les valeurs numériques qu’à travers le rang relatif. Ces tests sont donc
moins puissants parce qu’ils n’utilisent pas toute l’information dans l’échantillon; en
contrepartie, ils sont souvent plus robustes en présence de valeurs aberrantes et si
le modèle est mal spécifié. Les statistiques de test que nous choisirons sont souvent
standards et parmi les plus puissantes qui soient, aussi on ne traitera pas de ce point
davantage dans le cadre du cours.
Pour calculer la puissance d’un test, il faut choisir une alternative spécifique. Pour des
exemples simples de statistiques, on peut obtenir une formule explicite pour la puissance.
Généralement, on détermine la puissance à l’aide de méthodes de Monte Carlo en simulant
43
2 Inférence statistique
0.4 0.4
0.75
0.3 0.3
f(x)
f(x)
f(x)
0.50
0.2 0.2
0.25
0.1 0.1
Figure 2.9: Comparaison de la loi nulle (ligne pleine) et d’une alternative spécifique pour
un test-t (ligne traitillée). La puissance correspond à l’aire sous la courbe de la
densité de la loi alternative qui est dans la zone de rejet du test (en blanc). Le
panneau du milieu représente l’augmentation de la puissance suite à l’augmen-
tation de la taille d’effet (différence moyenne entre groupes plus élevée) sous
l’hypothèse alternative. Le panneau de droite correspond à un scénario alter-
natif avec la même taille d’effet, mais une taille d’échantillon ou une précision
plus grande.
des observations d’une alternative donnée, en calculant la statistique de test sur le nouvel
échantillon simulé et en calculant la valeur-p associée à notre hypothèse nulle de façon
répétée. On calcule par la suite la proportion de tests qui mènent au rejet de l’hypothèse
nulle à niveau α, ce qui correspond au pourcentage de valeurs-p inférieures à α.
2.9 Exemples
Exemple 2.2 (Inégalité de genre et tests de permutation). Nous examinons les données de
Rosen et Jerdee (1974), qui étudie les stéréotypes de genre et leur impact sur la promotion
44
2.9 Exemples
et les opportunités pour les femmes candidates. L’expérience s’est déroulée en 1972 et les
unités expérimentales, composées de 95 superviseurs bancaires masculins, ont reçu divers
mémorandums et ont été invitées à fournir des évaluations de candidatures pour un poste
de cadre. Ils devaient prendre des décisions sur la base des informations fournies.
Nous nous intéressons à l’expérience 1 relative à la promotion des employés: les respon-
sables devaient décider de promouvoir ou non un employé au poste de directeur de suc-
cursale sur la base de recommandations et d’évaluations du potentiel de relations avec les
clients et les employés. L’intervention des auteurs s’est concentrée sur la description de
la nature (complexité) du travail du gestionnaire (simple ou complexe) et sur le sexe du
candidat (homme ou femme): tous les dossiers étaient par ailleurs similaires.
Pour des raisons de simplicité, nous ne considérons que le facteur sexe et nous agrégeons
sur le poste pour les n = 93 réponses. La table Tableau 2.2 montre le décompte des recom-
mendations pour chaque possibilité.
L’hypothèse nulle qui nous intéresse ici est que le sexe n’a pas d’impact, de sorte que la
probabilité de promotion est la même pour les hommes et les femmes. Soit ph et pf ces
probabilités respectives; nous pouvons donc écrire mathématiquement l’hypothèse nulle
comme H0 : ph = pf contre l’alternative Ha : ph ̸= pf .
La statistique de test généralement employée pour les tableaux de contingence est un test
du chi carré2 , qui compare les proportions globales de promotion de chaque sous-groupe.
La proportion de l’échantillon pour les hommes est de 32/42 = ~76%, contre 19/49 =~49%
pour les femmes. Bien que cette différence de 16 % semble importante, elle pourrait être
trompeuse: l’erreur type pour les proportions de l’échantillon est d’environ 3.2 % pour les
hommes et 3.4 % pour les femmes.
S’il n’y avait pas de discrimination fondée sur le sexe, nous nous attendrions à ce que
la proportion de personnes promues soit la même dans l’ensemble; elle est de 51/93 ou
0.55 pour l’échantillon regroupé. Nous pourrions nous contenter de tester la différence
moyenne, mais nous nous appuyons plutôt sur le test de contingence Xp2 de Pearson
2
Si vous avez suivi des cours de modélisation avancés, il s’agit d’un test de score obtenu en ajustant une
régression de Poisson avec sexe et action comme covariables; l’hypothèse nulle correspondant à l’absence
de terme d’interaction entre les deux.
45
2 Inférence statistique
(également appelé test du khi-carré), qui compare les chiffres attendus (sur la base de taux
de promotion égaux) aux chiffres observés, convenablement normalisés. convenablement
normalisés. Si l’écart est important entre les chiffres attendus et les chiffres observés, cela
met en doute la véracité de l’hypothèse nulle.
Si les effectifs de chaque cellule sont importants, la distribution nulle du test du chi-deux
est bien approximée par une distribution de χ2 . La sortie du test comprend la valeur de la
statistique, 10.79, les degrés de liberté de l’approximation χ2 et la valeur p, qui donne la
probabilité qu’un tirage aléatoire d’une distribution χ21 soit plus grand que la statistique
de test observée en supposant que l’hypothèse nulle est vraie. La valeur p est très petite,
0.001, ce qui signifie qu’il est très peu probable qu’un tel résultat soit le fruit du hasard s’il
n’y a pas eu de discrimination fondée sur le sexe.
Une autre solution pour obtenir un point de référence permettant d’évaluer le caractère
exagéré du rapport de cotes observé consiste à utiliser des simulations: les tests de permu-
tation sont efficaces [illustrés par Jared Wilber] (https://www.jwilber.me/permutationtest/).
Considérons une base de données contenant les données brutes avec 93 lignes, une pour
chaque gestionnaie, avec pour chacune un indicateur d’action et le sexe de l’employé
hypothétique présenté dans la tâche.
Tableau 2.3: Les cinq premières lignes de la base de données en format long pour l’expé-
rience 1 de Rosen et Jerdee (1974).
action sexe
promouvoir homme
ne pas promouvoir femme
promouvoir homme
ne pas promouvoir femme
ne pas promouvoir homme
Sous l’hypothèse nulle, le sexe n’a aucune incidence sur l’action du gestionnaire. Cela signi-
fie que nous pourrions dresser un portrait du monde sans discrimination en mélangeant
les étiquettes de sexe de manière répétée. Ainsi, nous pourrions obtenir une référence en
répétant les étapes suivantes plusieurs fois :
Comme statistique de test, nous utilisons le rapport des cotes: la probabilité d’un événe-
ment est le rapport entre le nombre de succès et le nombre d’échecs. Dans notre exemple,
46
2.9 Exemples
1500
1000
décompte
500
0 2 4 6
rapport de cote
Figure 2.10: Histogramme de simulations de la loi nulle pour le rapport de cote, obtenu par
le biais d’un test de permutation; la ligne verticale rouge indique le rapport de
cote échantillonal.
Les résultats ont confirmé l’hypothèse selon laquelle les administrateurs mascu-
lins ont tendance à discriminer les employées dans les décisions concernant la
promotion, le développement et la supervision du personnel.
Récapitulatif
3
La valeur p obtenue pour le test de permutation changerait d’une exécution à l’autre puisque les intrants
sont aléatoires. Cependant, la précision de la statistique est suffisante pour la prise de décision
47
2 Inférence statistique
Exemple 2.3 (L’élément de surprise d’une prise de contact inattendue). Liu et al. (2023)
étudie les interactions sociales et l’impact de la surprise sur les personnes qui contactent
de vieilles connaissances de manière inattendue. L’expérience 1 se concentre sur des ques-
tionnaires où la condition expérimentale est l’appréciation perçue du fait d’envoyer une
communication à quelqu’un avec qui on n’a pas correspondu depuis longtemps (par oppo-
sition au fait de se faire contacter). L’étude a utilisé un questionnaire envoyé à 200 adultes
américains recrutés sur la plateforme Prolific Academic. L’indice de réponse consiste en la
moyenne de quatre questions mesurées sur une échelle de Likert allant de 1 à 7, les valeurs
les plus élevées indiquant une plus grande appréciation de la prise de contact.
Nous pouvons commencer par examiner les statistiques sommaires des variables sociodé-
mographiques (sexe et âge) afin d’évaluer si l’échantillon est représentatif de la population
générale dans son ensemble. La proportion d’« autres » (comprenant les personnes non
binaires) est beaucoup plus élevée que celle du recensement général, et la population est
plutôt jeune selon Tableau 2.4.
Tableau 2.4: Statistiques descriptives de l’âge des participants, et décompte par genre.
genre min max moyenne n
homme 18 78 32.0 105
femme 19 68 36.5 92
autre 24 30 27.7 3
48
2.9 Exemples
Comme il n’y a que deux groupes sans chevauchements (c’est à dire que les personnes ont
un seul rôle), soit initiateur ou destinataire, le test logique à utiliser est un test-t pour deux
échantillons indépendants, ou une variante de celui-ci. En utilisant la statistique du t-test
de Welch, la moyenne et l’écart-type de chaque groupe sont estimés à l’aide des données
fournies.
Le logiciel renvoie comme valeur du test , ce qui conduit au rejet de l’hypothèse nulle
d’absence de différence d’appréciation en fonction du rôle de l’individu (initiateur ou desti-
nataire). La différence moyenne estimée est ∆M = −0.37, 95% CI [−0.73, −0.01]; puisque 0
n’est pas inclus dans l’intervalle de confiance, nous rejetons également l’hypothèse nulle au
niveau 5%. L’estimation suggère que les initiateurs sous-estiment l’importance de contacter
de manière inattendue.4 .
Récapitulatif
Exemple 2.4 (Les communications virtuelles réduisent le nombre d’idées créatives). Une
étude de Nature a réalisé une expérience pour voir comment les communications virtuelles
impactent le travail d’équipe en comparant le nombre d’idées créatives générées par des
binômes au cours d’une tempête d’idée, ainsi que leur qualité telle que mesurée par des
arbitres externes. L’échantillon était composé de 301 paires de participants qui ont interagi
par vidéoconférence ou en face à face.
4
En supposant que la variance de chaque sous-groupe soit égale, nous aurions pu utiliser un t-test à deux
échantillons à la place. La différence dans la conclusion est insignifiante, avec une valeur p presque égale
49
2 Inférence statistique
Les auteurs ont comparé le nombre d’idées créatives, un sous-ensemble d’idées générées
avec un score de créativité supérieur à la moyenne. Le nombre moyen d’idées créatives
pour le face à face est 7.92 idées (écart-type 3.40), comparativement à 6.73 idées (écart-type¸
3.27) pour la vidéoconférence.
Brucks et Levav (2022) a utilisé un modèle de régression binomiale négative: dans leur
modèle, le nombre moyen d’idées créatives générées est
où video = 0 si la paire se trouve dans la même pièce et video = 1 si elle interagit plutôt
par vidéoconférence.
Le nombre moyen d’idées pour la vidéoconférence est donc exp(β1 ) multiplié par celui du
face à face: l’estimation du facteur multiplicatif est exp(β1 ) est 0.85 95% CI [0.77, 0.94].
L’absence de différence entre les conditions expérimentales se traduit par l’hypothèse nulle
H0 : β1 = 0 vs H0 : β1 ̸= 0 ou, de manière équivalente, H0 : exp(β1 ) = 1. Le test du rapport
de vraisemblance comparant le modèle de régression avec et sans video la statistique est
R = 9.89 (valeur-p basée sur χ21 de .002). Nous concluons que le nombre moyen d’idées
est différent, les statistiques sommaires suggérant que les paires virtuelles génèrent moins
d’idées.
Si nous avions eu recours à un test-t pour deux échantillons indépendants, nous aurions
trouvé une différence moyenne dans le nombre d’idées créatives de ∆M = 1.19, 95% CI
[0.43, 1.95], t(299) = 3.09, p = .002.
Les deux tests reposent sur des hypothèses légèrement différentes, mais aboutissent à des
conclusions similaires: il a de forts indices que le nombre d’idées créatives est plus faible
lorsque les personnes interagissent par vidéoconférence.
Exemple 2.5 (Prix de billets de trains à grande vitesse espagnols). La compagnie nationale
de chemin de fer Renfe gère les trains régionaux et les trains à haute vitesse dans toute
l’Espagne. Les prix des billets vendus par Renfe sont aggrégés par une compagnie. On s’in-
téresse ici à une seule ligne, Madrid–Barcelone. Notre question scientifique est la suivante:
est-ce que le prix des billets pour un aller (une direction) est plus chère pour un retour?
Pour ce faire, on considère un échantillon de 10000 billets entre les deux plus grandes villes
espagnoles. On s’intéresse au billets de TGV vendus (AVE) au tarif Promotionnel. Notre
statistique de test sera simplement la différence de moyenne entre les deux échantillons:
la différence entre le prix en euros d’un train Madrid–Barcelone (µ1 ) et le prix d’un billet
Barcelone–Madrid (µ2 ) est µ1 − µ2 et notre hypothèse nulle est qu’il n’y a aucune différence
de prix, soit H0 : µ1 − µ2 = 0.
50
2.9 Exemples
On utilise de nouveau le test de Welch pour deux échantillons en filtrant les données pour
ne conserver que les billets au tarif Promo: la moyenne des billets Barcelone-Madrid est
82.11 euros, ceux pour Madrid-Barcelone 82.56 euros et la valeur de la statistique de Welch
est -1.33. Si on utilise l’approximation normale, on obtient une valeur-p de 0.18.
Plutôt que d’utiliser la loi asymptotique (qui est valide pour de grands échantillons à cause
du théorème central limite), on peut considérer une approximation sous une hypothèse
moins restrictive en supposant que les données sont échangeables. Sous l’hypothèse nulle,
il n’y aucune différence entre les deux destinations et les étiquettes pour la destination (une
variable catégorielle binaire) sont arbitraires. On pourrait considérer les mêmes données,
mais avec une permutation des variables explicatives: c’est ce qu’on appelle un test de
permutation. On va recréer deux groupes de taille identique à notre échantillon original,
mais en changeant les observations. On recalcule la statistique de test sur ces nouvelle
données (si on a une poignée d’observations, il est possible de lister toutes les permutations
possibles; typiquement, il suffit de considérer un grand nombre de telles permutations,
disons 9999). Pour chaque nouveau jeu de données, on calculera la statistique de test et
on calculera le rang de notre statistique par rapport à cette référence. Si la valeur de notre
statistique observée sur l’échantillon original est extrême en comparaison, c’est autant de
preuves contre l’hypothèse nulle.
La valeur-p du test de permutation, 0.186, est la proportion de statistiques plus extrêmes
que celle observée. Cette valeur-p est quasi-identique à celle de l’approximation de Satter-
thwaite, à savoir 0.182 (la loi Student-t est numériquement équivalente à une loi standard
normale avec autant de degrés de liberté), tel que représenté dans la Figure 2.11. Malgré
que notre échantillon soit très grand, avec n = 8059 observations, la différence n’est pas
jugée significative. Avec un échantillon de deux millions de billets, on pourrait estimer
précisément la moyenne (au centime près): la différence de prix entre les deux destinations
et cette dernière deviendrait statistiquement significative. Elle n’est pas en revanche pas
pertinente en partique, car une différence de 0.28 euros sur un prix moyen de 82.56 euros
est quantité négligeable.
51
2 Inférence statistique
0.4
0.3
densité
0.2
0.1
0.0
−4 −2 0 2 4
statistique
52
3 Inférence basée sur la vraisemblance
, Important
Objectifs d’apprentissage
Nous considérons un exemple pour motiver les concepts présentés ci-après. Supposons
qu’on s’intéresse au temps qu’un usager doit attendre à la station Université de Montréal
s’il arrive à 17h59 précise tous les jours de la semaine, juste à temps pour la prochaine
rame de métro. La base de données attente consistent le temps en secondes avant que la
prochaine rame ne quitte la station. Les données ont été collectées pendant trois mois et
peuvent être traitées comme un échantillon indépendant. Le panneau gauche de Figure 3.1
montre un histogramme des observations n = 62 qui vont de 4 à 57 secondes. Les données
sont positives, notre modèle doit donc tenir compte de cette caractéristique.
Exemple 3.1 (Modèle exponentiel pour les temps d’attente). Pour modéliser les temps
d’attente, on considère une loi exponentielle avec paramètre d’échelle λ (Définition 1.8),
53
3 Inférence basée sur la vraisemblance
−270
15
−275
10
log−vraisemblance
décompte
−280
5 −285
−290
0 20 40 60 20 30 40 50
temps d'attente (en secondes) λ
Figure 3.1: Histogramme du temps d’attente avec des traits indiquant les temps observés
(gauche) et log-vraisemblance exponentielle, avec la valeur de l’estimation du
maximum de vraisemblance en traitillé (droite).
L’espace d’échantillonnage est Rn+ = [0, ∞)n , et l’espace des paramètres est (0, ∞).
Pour chaque valeur du paramètre θ, on obtient une fonction de densité ou de masse pour
les obserations qui varie en fonction de la compatibilité entre le modèle et les données
1
Si A et B sont des variables aléatoires indépendantes, leur probabilité conjointe est le produit des probabilités
des événements individuels, Pr(A ∪ B) = Pr(A) Pr(B). La même factorisation tient pour la fonction de
densité ou de masse, lesquelles sont les dérivées de la fonction de répartition.
54
3.1 Estimation par maximum de vraisemblance
recueillies. Cela nous permet d’obtenir une fonction objective pour l’estimation des para-
mètres
Définition 3.1 (Vraisemblance). La vraisemblance L(θ) est une fonction des paramètres θ
qui donne la probabilité (ou densité) d’observer un échantillon selon une loi postulée, en
traitant les observations comme fixes,
55
3 Inférence basée sur la vraisemblance
θ
b = argmax
θ∈Θ L(θ; y).
Le logarithme naturel ln est une transformation monotone, il est donc préférable de calculer
les EMV sur l’échelle logarithmique pour éviter les imprécisions numériques et maximiser
de manière équivalente la log-vraisemblance ℓ(θ; y) = ln L(θ; y).2
Si nous supposons que notre modèle est correct, nous nous attendons à observer ce qui
a été réalisé, et nous trouvons donc le vecteur de paramètres qui rend l’échantillon le
plus susceptible d’avoir été généré par notre modèle. Plusieurs propriétés de l’estimateur
du maximum de vraisemblance le rendent intéressant pour l’inférence. L’estimateur du
maximum de vraisemblance est efficace, c’est-à-dire qu’il présente l’erreur quadratique
moyenne asymptotique la plus faible de tous les estimateurs. L’estimateur du maximum de
vraisemblance est également convergent, c’est-à-dire qu’il approche de la vraie valeur du
paramètre inconnu à mesure que la taille de l’échantillon augmente (asymptotiquement
sans biais).
La plupart du temps, nous allons recourir à des routines d’optimisation numérique pour
trouver la valeur de l’estimation du maximum de vraisemblance, ou parfois dériver des
expressions explicites pour l’estimateur, à partir de la log-vraisemblance. Le panneau de
droite de Figure 3.1 montre la log-vraisemblance exponentielle, qui atteint un maximum à
b = 28.935 secondes, la moyenne de l’échantillon des observations. La fonction diminue
λ
de part et d’autre de ces valeurs à mesure que les données deviennent moins compatibles
avec le modèle. Compte tenu de l’échelle pour la log-vraisemblance, ici pour un petit
échantillon, il est facile de voir que l’optimisation directe de la fonction de vraisemblance
(plutôt que de son logarithme naturel) pourrait conduire à un débordement numérique,
puisque exp(−270) ≈ 5.5 × 10−118 , et que les valeurs logarithmiques inférieures à −746
seraient arrondies à zéro.
56
3.1 Estimation par maximum de vraisemblance
Si on calcule la dérivée première et que l’on fixe cette dernière à zéro, on obtient
n
dℓ(λ) n 1 X
=− + 2 yi = 0.
dλ λ λ i=1
En réarrangeant cette expression pour amener −n/λ à droite de l’égalité, et en multipliant
b = Pn yi /n. La
les deux côtés par λ2 > 0, on obtient que le point d’inflexion se situe à λ i=1
dérivée deuxième de la log vraisemblance est d2 ℓ(λ)/dλ2 = n(λ−2 − 2λ−3 y), et si on évalue
cette dernière à λ = y, on trouve une valeur négative, −n/y 2 . Cela confirme que λ b est la
valeur où la fonction atteint son maximum.
Exemple 3.4 (Échantillons de loi normale). Supposons que nous disposions de n observa-
tions de loi normale de paramètres de moyenne µ et de variance σ 2 , où Yi ∼ normale(µ, σ 2 )
sont indépendants. Rappelons que la densité de la loi normale est
1 1
2
f (y; µ, σ ) = 2 1/2
exp − 2 (x − µ)2 .
(2πσ ) 2σ
Pour une réalisation y1 , . . . , yn tirée d’un échantillon aléatoire simple, la vraisemblance est
n
1 1
Y
L(µ, σ 2 ; y) = 2 1/2
exp − 2 (yi − µ)2
i=1
(2πσ ) 2σ
n
( )
2 −n/2 1 X
=(2πσ ) exp − 2 (yi − µ)2 .
2σ i=1
et la log-vraisemblance s’écrit
n
n n 1 X
ℓ(µ, σ 2 ; y) = − ln(2π) − ln(σ 2 ) − 2 (yi − µ)2 .
2 2 2σ i=1
On peut montrer que les estimateurs du maximum de vraisemblance pour les deux para-
mètres sont
n n
1X 1X
µ
b=Y = Yi , b2 =
σ (Yi − Y )2 .
n i=1 n i=1
57
3 Inférence basée sur la vraisemblance
Exemple 3.5 (Moindres carrés ordinaires). Le cas des données normalement distribuées est
intimement lié à la régression linéaire et aux moindres carrés ordinaires: en supposant la
normalité des erreurs, les estimateurs des moindres carrés de β coïncident avec l’estimateur
du maximum de vraisemblance de β.
Le modèle de régression linéaire spécifie que Yi ∼ normale(Xi β, σ 2 ), ou de manière équiva-
lente
n n 1 n o2
ℓ(θ) = − ln(2π) − ln(σ 2 ) − 2 (y − Xβ)⊤ (y − Xβ) .
2 2 2σ
Maximiser la log-vraisemblance par rapport à β équivaut à minimiser la somme des erreurs
quadratiques ∥y − y b ∥2 . Cette fonction objective étant la même que celle des moindres
carrés, il s’ensuit que l’estimateur des moindres carrés βb pour les paramètres de la moyenne
est aussi l’estimateur du maximum de vraisemblance si les aléas ont la même variance σ 2 ,
quelle que soit la valeur de cette dernière. L’estimateur du maximum de vraisemblance σ b2
est donc
b 2 = max ℓ(β,
σ b σ 2 ).
σ2
La log-vraisemblance, en omettant tout terme ou constante qui n’est pas fonction de σ 2 , est
1 1
b σ2) ∝ −
ℓ(β, n ln σ 2 + 2 (y − Xβ̂)⊤ (y − Xβ̂) .
2 σ
où SSe est la somme des carrés des résidus. L’estimateur sans biais habituel de σ 2 calculé
par le logiciel est S 2 = SSe /(n − p − 1), où le dénominateur est la taille de l’échantillon n
moins le nombre de paramètres de la moyenne β, soit p + 1.
58
3.1 Estimation par maximum de vraisemblance
∂ 2 ℓ(θ; y)
j(θ; y) = − .
∂θ∂θ ⊤
La différence est qu’on prend l’espérance de chaque fonction des observations à l’intérieur
des entrées de la matrice. Quand elle évaluée au point θ,
b l’information de Fisher mesure
la variance du score, ou la courbure de ce dernier. La matrice de Fisher et la matrice
d’information sont toutes deux symmétriques.
59
3 Inférence basée sur la vraisemblance
puisque E(Yi ) = λ et que l’espérance est un opérateur linéaire. On trouve que i(λ)
b = j(λ)
b =
2
n/y , mais cette égalité ne tient qu’à l’EMV.
Le modèle exponentiel peut s’avérer restrictif pour adéquatement capturer nos données,
c’est pourquoi nous considérons une loi de Weibull comme généralisation.
Définition 3.4 (Loi de Weibull). La fonction de répartition d’une variable aléatoire de loi
Weibull, de paramètres d’échelle λ > 0 et de forme α > 0 est
Exemple 3.7 (Score et information d’une loi Weibull). La log-vraisemblance d’un échan-
tillon aléatoire simple de taille n dont la réalisation est dénotée y1 , . . . , yn , tirée d’une loi
Weibull(λ, α), est
n n
ln yi − λ−α
X X
ℓ(λ, α) = n ln(α) − nα ln(λ) + (α − 1) yiα .
i=1 i=1
3
Par exemple, en utilisant une calculatrice symbolique.
60
3.1 Estimation par maximum de vraisemblance
Proposition 3.2 (Optimisation basée sur le gradient). Pour obtenir l’estimateur du maxi-
mum de vraisemblance, nous trouverons généralement la valeur du vecteur θ qui résout le
vecteur de score, c’est-à-dire U (θ)
b = 0p . Cela revient à résoudre simultanément un système de
p équations en fixant à zéro la dérivée première par rapport à chaque élément de θ. Si j(θ)
b est
une matrice définie positive (c’est-à-dire que toutes ses valeurs propres sont positives), alors
le vecteur θ
b maximise la fonction de log-vraisemblance et est l’estimateur du maximum de
vraisemblance.
Nous pouvons utiliser une variante de l’algorithme de Newton–Raphson si la vraisemblance
est trois fois différentiable et si l’estimateur du maximum de vraisemblance ne se trouve pas
sur la frontière de l’espace des paramètres. Si nous considérons une valeur initiale θ † , alors
une expansion en série de Taylor du premier ordre de la vraisemblance du score dans un
voisinage θ † de l’EMV θ b donne
b ≃ · ∂ℓ(θ) ∂ 2 ℓ(θ) b − θ† )
0p = U (θ) + (θ
∂θ θ=θ † ∂θ∂θ ⊤ θ=θ †
= U (θ † ) − j(θ † )(θ
b − θ † ).
·
b ≃ θ † + j −1 (θ † )U (θ † ).
θ
Cela suggère l’utilisation d’une procédure itérative: à partir d’une valeur de départ θ † dans
le voisinage du mode, on applique le schéma de mise à jour jusqu’à ce que le gradient soit
approximativement nul. Si la valeur est éloignée du mode, l’algorithme peut diverger. Pour
éviter cela, nous pouvons multiplier le terme j −1 (θ † )U (θ † ) par un facteur d’amortissement
c < 1. Une variante de l’algorithme, appelée score de Fisher, utilise l’information de Fisher i(θ)
au lieu de l’information observée, j(θ), pour des raisons de stabilité numérique et pour éviter
les situations où cette dernière n’est pas définie positive. Il s’agit de la routine d’optimisation
utilisée dans la fonction glm de R.
61
3 Inférence basée sur la vraisemblance
vraisemblance de la loi de Weibull, en l’absence formule explicite pour les EMV. À cette fin, il
faut écrire une fonction qui encodent la log-vraisemblance, ici la somme des contributions
de la log-densité. La fonction nll_weibull ci-dessous prend comme premier argument le
vecteur de paramètres, pars, et renvoie la valeur négative de la log-vraisemblance que nous
souhaitons minimiser4 . Nous codons également le gradient, bien que nous puissions recou-
rir à la différenciation numérique. Nous utilisons ensuite optim, la routine d’optimisation
par défaut de R, pour minimiser nll_weibull. La fonction renvoie une liste contenant un
code de convergence (0 indiquant la convergence), les EMV dans par, la log-vraisemblance
b et la hessienne, qui est la matrice d’information observée évaluée à θ.
ℓ(θ) b La surface de
log-vraisemblance, pour les paires de vecteurs d’échelle et de forme θ = (λ, α), est repré-
sentée dans la Figure 3.3. Nous pouvons voir que l’algorithme a convergé vers le maximum
de vraisemblance et vérifier que le score satisfait U (θ)
b = 0 à la valeur optimale retournée.
4
La plupart des algorithmes d’optimisation minimisent les fonctions par rapport à leurs arguments, nous
minimisons donc la log-vraisemblance négative, ce qui équivaut à maximiser la log-vraisemblance
62
3.1 Estimation par maximum de vraisemblance
63
3 Inférence basée sur la vraisemblance
Supposons que nous disposons d’un échantillon aléatoire simple, de sorte que la log-
vraisemblance est constitutée d’une somme de n termes et que l’information s’accumule
linéairement avec la taille de l’échantillon. Nous dénotons la vraie valeur du vecteur de
paramètres inconnu θ 0 . Sous des conditions de régularité appropriées, cf. section 4.4.2
de Davison (2003), pour un échantillon de grande taille n, nous pouvons effectuer une
série de Taylor du score et appliquer le théorème de la limite centrale à la moyenne résul-
tante puisque U (θ) et i(θ) sont la somme de n variables aléatoires indépendantes, et que
E{U (θ)} = 0p , et Var{U (θ)} = i(θ), l’application du théorème de la limite centrale et de la
loi des grands nombres donne
·
i(θ 0 )−1/2 U (θ 0 ) ∼ normalep (0, Ip ).
On peut utiliser ce résultat pour obtenir une approximation à la loi d’échantillonnage des
estimateurs du maximum de vraisemblance de θ, b
·
b ∼ normalep {θ 0 , i−1 (θ)}
θ
64
3.2 Loi d’échantillonnage
Une fois que l’on a les estimations du maximum de vraisemblance et les erreurs-type, on
peut dériver des intervalles de confiance ponctuels de Wald pour les paramètres de θ. Si
la quantité d’intérêt est une transformation des paramètres du modèle, on peut utiliser le
résultat suivant pour procéder.
Exemple 3.10 (Probabilité d’attente pour un modèle exponentiel.). Considérons les don-
nées sur le temps d’attente dans le métro et la probabilité d’attendre plus d’une minute, ϕ =
g(λ) = exp(−60/λ). L’estimation du maximum de vraisemblance est, par invariance, 0.126
et le gradient de g par rapport au paramètre d’échelle est ∇ϕ = ∂ϕ/∂λ = 60 exp(−60/λ)/λ2 .
65
3 Inférence basée sur la vraisemblance
Nous considérons une hypothèse nulle H0 qui impose des restrictions sur les valeurs
possibles de θ, par rapport à une alternative sans contrainte H1 . Nous avons besoin de
deux modèles emboîtés : un modèle complet et un modèle réduit, pour lequel l’espace des
paramèteres est un sous-ensemble du modèle complet suite à l’imposition des q restrictions.
Par exemple, la loi exponentielle est un cas particulier de la loi de Weibull si α = 1.
L’hypothèse nulle H0 testée est “le modèle réduit est une simplification adéquate du
modèle complet”. Soit θ
b 0 les EMV contraints pour le modèle sous l’hypothèse nulle, et θ
b les
EMV du modèle complet. La vraisemblance fournit trois classes principales de statistiques
pour tester cette hypothèse, soit
Les trois principales classes de statistiques permettant de tester une hypothèse nulle simple
H0 : θ = θ 0 par rapport à l’hypothèse alternative Ha : θ ̸= θ 0 sont
b − θ 0 )⊤ j(θ)(
W (θ 0 ) = (θ b θ b − θ 0 ), (Wald)
n o
b − ℓ(θ 0 ) ,
R(θ 0 ) = 2 ℓ(θ) (rapport de vraisemblance)
S(θ 0 ) = U ⊤ (θ 0 )i−1 (θ 0 )U (θ 0 ), (score)
66
3.3 Tests dérivés de la vraisemblance
test de Wald
θ̂ θ0
θ
Figure 3.2: Fonction de log vraisemblance et illustrations des éléments des statistique du
score, de Wald et du rapport de vraisemblance.
Asymptotiquement, toutes les statistiques de test sont équivalentes (dans le sens où elles
conduisent aux mêmes conclusions sur H0 ), mais elles ne sont pas identiques. Sous H0 , les
trois statistiques de test suivent une loi asymptotique χ2q , où les degrés de liberté q indiquent
le nombre de restrictions.
Si θ est un scalaire (cas q = 1), des versions directionnelles de ces statistiques existent,
·
Sous cette forme, si l’hypothèse nulle H0 : θ = θ0 est vraie, alors w(θ0 ) ∼ normale(0, 1),
etc.
La statistique du test du rapport de vraisemblance est normalement la plus puissante
des trois tests (et donc préférable selon ce critère); la statistique est aussi invariante aux
reparamétrages. La statistique de score S, moins utilisée, nécessite le calcul du score et
de l’information de Fisher, mais n’est évaluée que sous H0 (car par définition U (θ) b = 0),
67
3 Inférence basée sur la vraisemblance
elle peut donc être utile dans les problèmes où les calculs de l’estimateur du maximum
de vraisemblance sous l’alternative sont coûteux ou impossibles. Le test de Wald est le
plus facile à dériver, mais son taux de couverture empirique peut laisser à désirer si la loi
d’échantillonnage de θ b est fortement asymétrique.
3.00
log−vraisemblance profilée
paramètre de forme α
−2
2.75
2.50
−4
2.25
2.00 −6
30 32 34 36 2.0 2.5 3.0 3.5
paramètre d'échelle λ paramètre de forme α
niveau de probabilité
0.25 0.50 0.75
Figure 3.3: Log-vraisemblance profilée pour α, représentée par un trait gris traitillé (gauche)
et par une coupe transversale (droite). Le panneau de gauche montre la sur-
face de log-vraisemblance pour le modèle de Weibull avec des régions de
confiance de 10%, 20%, . . . , 90% du rapport de vraisemblance (courbes de
contour blanches). Les valeurs de log vraisemblance les plus élevées sont indi-
quées par des couleurs plus foncées, et la valeur des estimations du maximum
de vraisemblance par une croix. La vraisemblance profilée du panneau de droite
a été décalée verticalement pour que sa valeur maximale soit zéro; les lignes
horizontales traitillées indiquent les valeurs pour les intervalles de confiance à
95% et 99%.
68
3.3 Tests dérivés de la vraisemblance
Exemple 3.11 (Test de Wald pour comparer les modèles Weibull et exponentiel). Nous
pouvons tester si la loi exponentielle est une simplification adéquate de la loi de Weibull
en imposant la restriction H0 : α = 1. Nous comparons les statistiques de Wald W à un χ21 .
Puisque α est un paramètre de la loi Weibull, nous avons les erreurs-type gratuitement.
Nous rejetons l’hypothèse nulle, ce qui signifie que le sous-modèle exponentiel n’est pas
une simplification adéquate du modèle de Weibull (α ̸= 1).
Nous pouvons également vérifier l’ajustement des deux modèles à l’aide d’un diagramme
quantile-quantile (cf. Définition 1.14). Il ressort de Figure 3.4 que le modèle exponentiel
surestime les temps d’attente les plus importants, dont la dispersion dans l’échantillon est
inférieure à celle impliquée par le modèle. En revanche, la ligne droite presque parfaite
pour le modèle de Weibull dans le panneau de droite de Figure 3.4 suggère que l’ajustement
du modèle est adéquat.
Remarque 3.1 (Absence d’invariance des intervalles de confiance de Wald). Puisque les
erreurs-types de paramètres dépendent de la paramétrisation, les intervalles de confiance
de Wald ne sont pas invariants à ces transformations. Par exemple, si on veut des intervalles
de confiance pour une fonction g(θ) qui n’est pas linéaire, alors en général. ICW {g(θ)} = ̸
g{ICW (θ)}.
Par exemple, considérons le modèle exponentiel. Nous pouvons inverser la statistique
du test de Wald pour obtenir un intervalle de confiance symétrique à 95% pour ϕ =
g(λ) = exp(−60/λ), $ [0.061,$ 0.191]. Si nous devions naïvement transformer l’intervalle
de confiance pour λ en un pour ϕ en appliquant la fonction g(·) à chaque borne, nous ob-
tiendrions plutôt [0.063, 0.19], Bien que la différence soit minime ici, cela met en évidence
l’invariance. L’approximation gaussienne qui sous-tend le test de Wald est fiable si la loi
d’échantillonnage de la vraisemblance est presque quadratique, ce qui se produit lorsque
la fonction de vraisemblance est à peu près symétrique de part et d’autre de l’estimateur du
maximum de vraisemblance.
69
3 Inférence basée sur la vraisemblance
exponentiel Weibull
50 50
40 40
quantiles observés
quantiles observés
30 30
20 20
10 10
Le test du rapport de vraisemblance est invariant par rapport aux reparamétrages préservant
les intérêts, de sorte que la statistique de test pour H0 : ϕ = ϕ0 et H0 : λ = −60/ ln(ϕ0 ) est
la même. Les intervalles de confiance de Wald peuvent être comparées à celles (meilleures)
obtenues à l’aide du test du rapport de vraisemblance. Ces dernières sont obtenues par une
recherche numérique des limites de
n o
b − ℓ(θ)} ≤ χ2 (1 − α) ,
θ : 2{ℓ(θ) p
70
3.4 Vraisemblance profilée
Parfois, nous pouvons vouloir effectuer des tests d’hypothèse ou dériver des intervalles de
confiance pour un sous-ensemble spécifique des paramètres du modèle, ou une transfor-
mation de ces derniers. Dans ce cas, l’hypothèse nulle ne restreint qu’une partie de l’espace
et les autres paramètres, dits de nuisance, ne sont pas spécifiés — la question est alors
de savoir quelles valeurs utiliser pour la comparaison avec le modèle complet. Il s’avère
que les valeurs qui maximisent la log-vraisemblance contrainte sont celles que l’on doit
utiliser pour le test, et la fonction particulière dans laquelle ces paramètres de nuisance
sont intégrés est appelée vraisemblance profilée.
71
3 Inférence basée sur la vraisemblance
Exemple 3.12 (Log-vraisemblance profilée pour le paramètre de forme d’une loi Wei-
bull). Considérons le paramètre de forme ψ ≡ α comme paramètre d’intérêt, et le pa-
ramètre d’échelle φ ≡ λ comme paramètre de nuisance. En utilisant le gradient dérivé dans
l’Exemple 3.7, nous constatons que la valeur de l’échelle qui maximise la log-vraisemblance
pour un α donné est
n
!1/α
1X
λ
bα = yα .
n i=1 i
72
3.4 Vraisemblance profilée
Exemple 3.13 (Log-vraisemblance profilée pour l’espérance d’une loi Weibull). Nous pou-
vons également utiliser l’optimisation numérique pour calculer la log-vraisemblance pro-
filée d’une fonction des paramètres. Supposons que nous soyons intéressés par le temps
moyen d’attente théorique. Selon le modèle Weibull, cette valeur est µ = E(Y ) = λΓ(1+1/α).
À cet effet, nous reparamétrons le modèle en termes de (µ, α), où λ = µ/Γ(1 + 1/α). Nous
créons ensuite une fonction qui optimise la log-vraisemblance pour une valeur fixe de µ,
puis renvoie α b µ , µ et ℓp (µ).
Pour obtenir les intervalles de confiance d’un paramètre scalaire, il existe une astuce qui
permet de s’en tirer avec une évaluation sommaire, pour autant que la log-vraisemblance
profilée soit relativement lisse. Nous calculons la racine directionnelle du rapport de vrai-
semblance, r(ψ) = sign(ψ − ψ){2ℓ 1/2 sur une grille fine de valeurs de ψ, puis
p (ψ) − 2ℓp (ψ)}
b b
nous ajustons une spline de lissage, une régression avec variable réponse y = ψ et variable
explicative x = r(ψ). Nous prédisons ensuite la courbe aux quantiles normaux zα/2 et
z1−α/2 , et renvoyons ces valeurs sous forme d’intervalle de confiance. La Figure 3.5 montre
comment ces valeurs correspondent aux points de coupure sur l’échelle du logarithme du
rapport de vraisemblance, où la ligne verticale est donnée par −c(1 − α)/2 où c représente
le quantile d’une variable aléatoire χ21 .
73
3 Inférence basée sur la vraisemblance
g1 + g2
74
3.4 Vraisemblance profilée
2.5
racine directionnelle de vraisemblance
−3
−6
−2.5
−9
−5.0
24 28 32 24 28 32
espérance µ espérance µ
75
3 Inférence basée sur la vraisemblance
La vraisemblance peut également servir d’élément de base pour la comparaison des mo-
dèles : plus ℓ(θ)
b est grand, meilleure est l’adéquation. Cependant, la vraisemblance ne
tient pas compte de la complexité du modèle dans le sens où des modèles plus complexes
avec plus de paramètres conduisent à une vraisemblance plus élevée. Cela ne pose pas
de problème pour la comparaison de modèles emboîtés à l’aide du test du rapport de
vraisemblance, car nous ne tenons compte que de l’amélioration relative de l’adéquation.
Il existe un risque de surajustement si l’on ne tient compte que de la vraisemblance d’un
modèle.
Les critères d’information combinent la log vraisemblance, qui mesure l’adéquation du
modèle aux données, avec une pénalité pour le nombre de paramètres. Les plus fréquents
sont les critères d’information d’Akaike (AIC) et bayésien (BIC),
AIC = −2ℓ(θ)
b + 2p
BIC = −2ℓ(θ)
b + p ln(n),
76
3.5 Critères d’information
pénalité augmente avec la taille de l’échantillon, ce qui permet de sélectionner des modèles
plus parsimonieux. Le BIC est un critère convergent, ce qui signifie qu’il choisira le vrai
modèle parmi un ensemble de modèles avec une probabilité de 1 lorsque n → ∞ si ce
dernier fait partie du catalogue de modèles à comparer. En pratique, cela présente peu
d’intérêt si l’on suppose que tous les modèles sont des approximations de la réalité (il est
peu probable que le vrai modèle soit inclus dans ceux que nous considérons). Pour sa part,
AIC sélectionne souvent des modèles trop compliqués dans les grands échantillons, alors
que BIC choisit des modèles trop simples.
Une mise en garde s’impose: s’il est possible de comparer des modèles de régression non
emboîtés à l’aide de critères d’information, ceux-ci ne peuvent être utilisés que lorsque la
variable de réponse est la même. Vous pouvez comparer une régression de Poisson avec une
régression linéaire pour une réponse Y en utilisant des critères d’information à condition
d’inclure toutes les constantes de normalisation dans votre modèle. Les logiciels omettent
souvent les termes constants; cela n’a pas d’impact lorsque vous comparez des modèles
avec les mêmes facteurs constants, mais cela a de l’importance lorsque ceux-ci diffèrent.
Cependant, on ne peut pas les comparer à un modèle log-linéaire avec une réponse ln(Y ).
Les comparaisons entre les modèles log-linéaires et linéaires ne sont valables que si vous
utilisez la vraisemblance de Box–Cox, car elle inclut le jacobien de la transformation.
77
4 Régression linéaire
4.1 Introduction
Le modèle de régression linéaire, ou modèle linéaire, est l’un des outils les plus polyvalents
pour l’inférence statistique. La régression linéaire est principalement utilisée pour évaluer
les effets des variables explicatives (souvent l’effet d’une manipulation ou d’un traitement
dans un cadre expérimental) sur la moyenne d’une variable réponse continue, ou pour la
prédiction. Un modèle linéaire est un modèle qui décrit la moyenne d’une variable réponse
continue Yi d’un échantillon aléatoire de taille n comme fonction linéaire des variables
explicatives (également appelés prédicteurs, régresseurs ou covariables) X1 , . . . , Xp .
Dénotons par Yi la valeur de Y pour le sujet i, et Xij la valeur de la je variable explicative
du sujet i.
où xi = (1, xi1 , . . . , xip ) est un vecteur ligne de taille (p + 1) contenant les variables expli-
catives de l’observation i et β = (β0 , . . . , βp )⊤ est un vecteur colonne de longueur p + 1
contenant les coefficients de la moyenne. Le fait que la moyenne est conditionnelle aux
valeurs de X implique simplement que l’on considère les régresseurs comme constant, ou
connus à l’avance. Les coefficients β sont les mêmes pour toutes les observations, mais le
vecteurs de variables explicatives xi peut différer d’une observation à l’autre. Le modèle est
linéaire en β0 , . . . , βp , pas nécessairement dans les variables explicatives.
Pour simplifier la notation, nous regroupons les observations dans un vecteur n Y et les
explications dans une matrice n × (p + 1) X en concaténant une colonne de uns et les
vecteurs de colonnes p X 1 , . . . , X p , chacun contenant les n observations des explications
respectives. La matrice X est appelée matrice du modèle (ou parfois matrice de devis dans
un contexte expérimental), et sa ième ligne est xi .
En supposant que la variable réponse provient d’une famille de localisation, nous pouvons
réécrire le modèle linéaire en termes de la moyenne plus un aléa,
Yi = xi β + εi ,
observation moyenne µi aléa
79
4 Régression linéaire
où εi est le terme spécifique à l’observation i. On assume que les aléas ε1 , . . . εn sont in-
dépendants et identiquement distribués, avec E(εi | xi ) = 0 et Var(εi | xi ) = σ 2 . On fixe
l’espérance de l’aléa à zéro car on postule qu’il n’y a pas d’erreur systématique. La variance
σ 2 sert à tenir compte du fait qu’aucune relation linéaire exacte ne lie xi et Yi , ou que les
mesures de Yi sont variables.
Le modèle linéaire normal ou gaussien spécifie que les réponses suivent une loi normale,
avec Yi | X i = xi ∼ normale(xi β, σ 2 ). La loi normale est une famille de localisation, de sorte
que Y ∼ normale(µ, σ 2 ) équivaut à la décomposition additive µ+ε pour ε ∼ normale(0, σ 2 ).
4.1.1 Exemples
Considérons quelques exemples de jeux de données qui serviront à illustrer les méthodes
par la suite.
Exemple 4.1 (Cohérence de descriptions de produits). L’étude 1 de Lee et Choi (2019) (base
de données LC19_S1, paquet hecedsm) considère l’impact sur la perception d’un produit de
la divergence entre la description textuelle et l’image. Dans leur première expérience, un
paquet de six brosses à dents est vendu, mais l’image montre soit un paquet de six, soit une
seule). Les auteurs ont également mesuré la familiarité préalable avec la marque de l’article.
Les n = 96 participants ont été recrutés à l’aide d’un panel en ligne. Nous pourrions
ajuster un modèle linéaire pour le score moyen d’évaluation du produit, prodeval, en
fonction de la familiarité de la marque familiarity, un nombre entier allant de 1 à 7, et
une variable binaire pour le facteur expérimental consistency, codé 0 pour des descriptions
d’image/texte cohérentes et 1 si elles sont incohérentes. La matrice du modèle qui en résulte
est alors de dimension 96 × 3. La réponse prodeval est fortement discrétisée.
80
4.1 Introduction
Soixante-six élèves de quatrième année ont été assignés au hasard à l’un des
trois groupes expérimentaux suivants : (a) un groupe « Think-Aloud » (TA), dans
lequel les élèves ont appris diverses stratégies de contrôle de la compréhension
pour la lecture d’histoires (par exemple : auto-questionnement, prédiction,
relecture) par le biais de la réflexion à haute voix; (b) un groupe lecture dirigée-
activité de réflexion (DRTA), dans lequel les élèves ont appris une stratégie de
prédiction-vérification pour lire et répondre aux histoires; ou (c) un groupe
activité de lecture dirigée (DRA), un groupe contrôle dans lequel les élèves se
sont engagés dans une lecture guidée non interactive d’histoires.
Les variables d’intérêt sont group, le facteur pour le groupe expérimental, soit DRTA, TA et
DR ainsi que les variables numériques pretest1 et posttest1, qui donnent le score (sur 16)
sur le test pré-expérience pour la tâche de détection des erreurs.
Les données sont balancées puisqu’il y a 22 observations dans chacun des trois sous-
groupes. Les chercheurs ont appliqué une série de trois évaluations: le test 1 de détection
d’erreurs, le test 2 consistant en un questionnaire de suivi de compréhension, et le test 3
standardisé Degrees of Reading Power). Les tests 1 et 2 ont été administrés à la fois avant
et après l’intervention: cela nous permet d’établir l’amélioration moyenne de l’élève en
ajoutant le résultat du test pré-intervention comme covariable. Les tests 1 étaient sur
16, mais celui administré après l’expérience a été rendu plus difficile pour éviter les cas
d’étudiants obtenant des scores presque complets. La corrélation entre le pré-test et le
post-test 1 est (ρb1 = 0.57), beaucoup plus forte que celle du second test (ρb2 = 0.21).
81
4 Régression linéaire
Exemple 4.5 (Un emballage en carton supplémentaire est-il considéré comme plus écolo-
gique ?). Sokolova, Krishna, et Döring (2023) tient compte des préjugés des consommateurs
lorsqu’il s’agit d’évaluer le caractère écologique des emballages. Des produits tels que les
céréales sont emballés dans des sacs en plastique, eux-mêmes recouverts d’une boîte.
Ils supposent (et constatent) que, paradoxalement, les consommateurs ont tendance à
considérer l’emballage comme plus écologique lorsque la quantité de carton ou de carton
entourant la boîte est plus importante, ce qui n’est pas le cas. Nous examinons dans la suite
les données de l’étude 2A, qui mesure la perception du respect de l’environnement (PEF,
variable pef) en fonction de la proportion d’emballage en carton (soit aucun, soit la moitié
de la surface du plastique, soit la même, soit le double).
L’analyse exploratoire des données est une procédure itérative par laquelle nous interro-
geons les données, en utilisant des informations auxiliaires, des statistiques descriptives et
des graphiques, afin de mieux informer notre modélisation.
Elle est utile pour mieux comprendre les caractéristiques des données (plan d’échantillon-
nage, valeurs manquantes, valeurs aberrantes), la nature des observations, qu’il s’agisse de
variables réponse ou explicatives et les interrelations entre variables.
Voir le Chapitre 11 de Alexander (2023) pour des exemples. En particulier, il convient de
vérifier
• que les variables catégorielles sont adéquatement traitées comme des facteurs
(factor).
• que les valeurs manquantes sont adéquatement déclarées comme telles (code d’erreur,
999, etc.)
82
4.1 Introduction
• s’il ne vaudrait mieux pas retirer certaines variables explicatives avec beaucoup de
valeurs manquantes.
• s’il ne vaudrait mieux pas fusionner des modalités de variables catégorielles si le
nombre d’observation par modalité est trop faible.
• qu’il n’y a pas de variable explicative dérivée de la variable réponse
• que le sous-ensemble des observations employé pour l’analyse statistique est adéquat.
• qu’il n’y a pas d’anomalies ou de valeurs aberrantes (par ex., 999 pour valeurs man-
quantes) qui viendraient fausser les résultats.
Exemple 4.6 (Analyse exploratoire des données college). Une analyse exploratoire des
données est de mise avant d’ébaucher un modèle. Si le salaire augmente au fil des ans,
on voit que l’hétérogénéité change en fonction de l’échelon et qu’il y a une relation claire
entre ce dernier et le nombre d’années de service (les professeurs n’étant éligibles à des
promotions qu’après un certain nombre d’années). Les professeurs adjoints qui ne sont
pas promus sont généralement mis à la porte, aussi il y a moins d’occasions pour que les
salaires varient sur cette échelle.
120
salaire (en milliers de dollars USD)
200 200
90
100
150 150
80
80
100 100
70
50 60 50
adjoint aggrege titulaire 0 2 4 6 0 20 40 0 20 40 60
échelon académique années de service
Figure 4.1: Analyse exploratoire des données college: répartition des salaires en fonction
de l’échelon et du nombre d’années de service
Ainsi, le salaire augmente avec les années, mais la variabilité croît également. Les pro-
fesseurs adjoints qui ne sont pas promus sont généralement mis à la porte, aussi il y a
moins d’occasions pour que les salaires varient sur cette échelle. Il y a peu de femmes dans
83
4 Régression linéaire
Tableau 4.1: Tableau de contingence donnant le nombre de professeurs du collège par sexe
et par échelon académique.
adjoint aggrege titulaire
femme 11 10 18
homme 56 54 248
Plusieurs des variables explicatives potentielles des données college sont cat/gorielles
(echelon, sexe, discipline), les deux dernières étant binaires. Les variables numériques
annees et service sont fortement corrélées, avec une corrélation linéaire de 0.91.
84
4.1 Introduction
Si nous incluons amount comme variable réponse dans un modèle de régression, les 235
observations manquantes seront supprimées par défaut. Cela ne pose pas de problème si
nous voulons comparer le montant moyen des personnes qui ont fait un don, mais dans le
cas contraire, nous devons transformer les NA en zéros. La variable donate ne doit pas être
incluse comme variable explicative dans le modèle, car elle permet de prédire exactement
les personnes qui n’ont pas donné.
La première étape d’une analyse consiste à décider quelles variables explicatives doivent
être ajoutées à l’équation de la moyenne, et sous quelle forme. Les modèles ne sont que des
approximations de la réalité; la section 2.1 de Venables (2000) affirme que, si nous pensons
que la véritable fonction moyenne reliant les variables explicatives X et la réponse Y est
de la forme E(Y | X) = f (X) pour f suffisamment lisse, alors le modèle linéaire est une
approximation du premier ordre. À des fins d’interprétation, il est logique de centrer sur la
moyenne toute variable explicative continue, car cela facilite l’interprétation.
Dans un contexte observationnel, les participants dans différents groupes ont des carac-
téristiques différentes et nous devons donc tenir compte de ces différences. Les modèles
linéaires utilisés en économie et en finance contiennent souvent des variables de contrôle
au modèle pour tenir compte des différences potentielles dues aux variables sociodémogra-
phiques (âge, revenu, etc.) qui seraient corrélées à l’appartenance aux groupes. Tout test
de coefficients ne prendrait en compte que la corrélation entre le résultat Y et le facteur
explicatif postulé d’intérêt.
85
4 Régression linéaire
L’ordonnée à l’origine β0 est la valeur moyenne de Y lorsque toutes les variables explica-
tives du modèles sont nulles, soit xi = 0p .
β0 = E(Y | X1 = 0, X2 = 0, . . . , Xp = 0)
= β0 + β1 × 0 + β2 × 0 + · · · + βp × 0
Bien sur, il se peut que cette interprétation n’ait aucun sens dans le contexte étudié. Centrer
les variables explicatives numériques (pour que leurs moyennes soit zéro) permet de rendre
l’ordonnée à l’origine plus interprétable.
En régression linéaire, le paramètre βj mesure l’effet de la variable Xj sur la variable Y
une fois que l’on tient compte des effets des autres variables explicatives. Pour chaque
augmentation d’une unité de Xj , la réponse Y augmente en moyenne de βj lorsque les
autres variables demeurent inchangées,
Définition 4.1 (Effet marginal). On définit l’effet marginal comme la dérivée première de la
moyenne conditionnelle par rapport à Xj , soit
∂E(Y | X)
effet marginal de Xj = .
∂Xj
Les variables indicatrices, qui prennent typiquement des valeurs de −1, 0 et 1, servent à
indiquer l’appartenance aux différentes modalités d’une variable catégorielle. Par exemple,
pour une variable indicatrice binaire, nous pouvons créer une colonne dont les entrées
sont 1 pour le groupe de traitement et 0 pour le groupe de contrôle.
Exemple 4.8 (Modèle linéaire avec une seule variable binaire). Considérons par exemple
un modèle linéaire pour les données de Moon et VanEpps (2023) qui inclut le montant
(amount) (en dollars, de 0 pour les personnes qui n’ont pas fait de don, jusqu’à 25 dollars).
86
4.2 Interprétation des coefficients
L’équation du modèle linéaire simple qui inclut la variable binaire condition est
Soit µ0 l’espérance du montant pour le groupe contrôle (open-ended) et µ1 celui des par-
ticipants du groupe de traitement (quantity). Un modèle linéaire qui ne contient qu’une
variable binaire X comme régresseur revient à spécifier une moyenne différente pour cha-
cun des deux groupes. L’ordonnée à l’origine β0 est la moyenne du groupe contrôle. La
moyenne du groupe traitement (quantity) est β0 + β1 = µ1 et donc β1 = µ1 − µ0 est la
différence du montant moyen de dons entre le groupe open-ended et le groupe quantity.
Cette paramétrisation est commode si on veut tester s’il y a une différence moyenne entre
les deux groupes, puisque cette hypothèse nulle correspond à H0 : β1 = 0.
25
condition
open−ended
quantity
20
montant (en dollars)
15
10
0 1
condition
Figure 4.2: Modèle linéaire simple pour les données MV23_S1 avec condition comme va-
riable explicative binaire, avec nuage de points décalés et un diagramme en
demi-violin. Les cercles indiquent les moyennes de l’échantillon.
Même si le modèle linéaire définit une droite, cette dernière ne peut être évaluée qu’à
0 ou 1; la Figure 4.2 montre cette droite avec en plus un nuage de points des montants,
décalés horizontalement, et de la densité pour chaque condition. Le point coloré indique la
moyenne empirique, qui correspond aux estimations.
87
4 Régression linéaire
Même s’il est clair que les données sont fortement discrétisées avec beaucoup de doublons
et de zéros, l’échantillon a une taille de 869 observations, donc les conclusions quant aux
moyennes de groupe seront fiables.
Considérons des variables catégorielles avec K > 2 niveaux, qui dans R sont de la classe
factor. La paramétrisation par défaut des facteurs se fait en termes de contraste de trai-
tement: le niveau de référence du facteur (par défaut, la première valeur dans l’ordre
alphanumérique) sera traité comme la catégorie de référence et assimilé à l’ordonnée à
l’origine. Le logiciel créera alors un ensemble de K − 1 variables indicatrices pour un facteur
à K niveaux, chacune d’entre elles ayant un pour la catégorie représentée et zéro dans le
cas contraire.
Exemple 4.9 (Codage binaire pour les variables catégorielles). Considérons l’étude de
Baumann, Seifert-Kessell, et Jones (1992) et la seule variable group. Les données sont
classées par groupe : les 22 premières observations concernent le groupe DR, les 22 suivantes
le groupe DRTA et les 22 dernières le groupe TA. Si nous ajustons un modèle avec groupe
comme variable catégorielle
88
4.2 Interprétation des coefficients
Puisque la variable group est catégorielle avec K = 3 niveaux, il nous faut mettre K − 1 = 2
variables indicatrices.
Avec la paramétrisation en termes de traitements (option par défaut), on obtient
Étant donné que le modèle comprend une ordonnée à l’origine et que le modèle décrit en
fin de compte trois moyennes de groupe, nous n’avons besoin que de deux variables sup-
plémentaires. Avec la paramétrisation en termes de traitements, la moyenne du groupe de
référence est l’ordonnée à l’origine. Si group=DR (référence), les deux variables indicatrices
binaires groupDRTA et groupTA sont nulles. La moyenne de chaque groupe est
• µDR = β0 ,
• µDRTA = β0 + β1 et
• µTA = β0 + β2 .
Ainsi, β1 est la différence de moyenne entre les groupes DRTA etDR, et de la même façon
β2 = µTA − µDR .
Remarque 4.1 (Contrainte de somme nulle). La paramétrisation discutée ci-dessus, qui est
la valeur par défaut de la fonction lm, n’est pas la seule disponible. Plutôt que de comparer
la moyenne de chaque groupe avec celle d’une catégorie de référence, la paramétrisation
par défaut pour les modèles d’analyse de la variance est en termes de contraintes de somme
nulle pour les coefficients, où l’ordonnée à l’origine est la moyenne équi-pondérée de
chaque groupe, et les paramètres β1 , . . . , βK−1 sont des différences par rapport à cette
moyenne.
model.matrix(
~ group,
data = BSJ92,
contrasts.arg = list(group = "contr.sum"))
Tableau 4.2: Paramétrisation des variables indicatrices pour la contrainte de somme nulle
pour une variable catégorielle.
(Intercept) group1 group2
DR 1 1 0
DRTA 1 0 1
89
4 Régression linéaire
Tableau 4.2: Paramétrisation des variables indicatrices pour la contrainte de somme nulle
pour une variable catégorielle.
(Intercept) group1 group2
TA 1 -1 -1
Dans la contrainte de somme nulle, nous obtenons à nouveau deux variables indicatrices,
group1 et group2, ainsi que l’ordonnée à l’origine. La valeur de group1 est 1 si group=DR, 0 si
group=DRTA et −1 si group=TA. ous trouvons µDR = β0 +β1 , µDRTA = β0 +β2 et µTA = β0 −β1 −β2 .
Quelques manipulations algébriques révèlent que β0 = (µDR + µDRTA + µTA )/3, l’espérance
équipondérée des différents niveaux. De manière générale, l’ordonnée à l’origine moins la
somme de tous les autres coefficients liés aux facteurs.
En supprimant l’ordonnée à l’origine, on pourrait inclure trois variables indicatrices pour
chaque niveau d’un facteur et chaque paramètre correspondrait alors à la moyenne. Ce n’est
pas recommandé dans R car le logiciel traite différemment les modèles sans ordonnée à
l’origine et certains résultats seront absurdes (par exemple, le coefficient de détermination
sera erroné).
Tableau 4.3: Estimations des coefficients du modèle linéaire pour les données college (en
dollars USD, arrondis à l’unité).
βb0 βb1 βb2 βb3 βb4 βb5
86596 -4771 -13473 14560 49160 -89
90
4.2 Interprétation des coefficients
Remarque 4.2 (Polynômes). Il n’est pas toujours possible de fixer la valeur des autres
colonnes de X si plusieurs colonnes contiennent des transformations ou des fonctions
d’une même variable explicative. Par exemple, on pourrait par exemple considérer un
polynôme d’ordre k (ordinairement, on va prendre k ≤ 3),
E(Y | X = x) = β0 + β1 x + β2 x2 + · · · + βk xk .
Si l’on inclut un terme d’ordre k, xk , il faut toujours inclure les termes d’ordre inférieur
1, x, . . . , xk−1 pour l’interprétabilité du modèle résultant (autrement, cela revient à choisir
un polynôme en imposant que certains coefficients soient zéros). L’interprétation des effets
des covariables nonlinéaires (même polynomiaux) est complexe parce qu’on ne peut pas «
fixer la valeur des autres variables »: l’effet d’une augmentation d’une unité de x dépend de
la valeur de cette dernière. L’effet marginal de x est β1 + k−1 j
P
j=1 jβj+1 x .
L’utilisation de polynôme, plus flexibles, n’est généralement pas recommendée car ces
derniers se généralisent mal hors de l’étendue observée des données. L’utilisation de splines
avec une pénalité sur les coefficients, avec des modèles additifs, offre plus de flexibilité.
Exemple 4.11 (Modèle quadratique pour les données automobile). Considérons un modèle
de régression linéaire pour l’autonomie d’essence en fonction de la puissance du moteur
pour différentes voitures dont les caractéristiques sont données dans le jeu de données
automobiles. Le modèle postulé incluant un terme quadratique est
91
4 Régression linéaire
40
autonomie d'essence
(en miles/US gallon)
30
20
10
Figure 4.3: Modèle de régression avec terme quadratique pour la puissance (gris), versus
spline cubique pénalisée (ligne traitillée).
À vue d’oeil, l’ajustement quadratique est bon: nous verrons plus tard à l’aide de test si
une simple droite aurait été suffisante. On voit aussi dans la Figure 4.3 que l’autonomie
d’essence décroît rapidement quand la puissance croît entre 0 et 189.35, mais semble
remonter légèrement par la suite pour les voitures qui un moteur de plus de 200 chevaux-
vapeurs, ce que le modèle quadratique capture. Prenez garde en revanche à l’extrapolation
là où vous n’avez pas de données (comme l’illustre remarquablement bien le modèle
cubique de Hassett pour le nombre de cas quotidiens de coronavirus).
92
4.3 Estimation des paramètres
Figure 4.4: Représentation graphique 3D du modèle de régression linéaire pour les données
automobile.
93
4 Régression linéaire
Soit une matrice de modèle X et une formulation pour la moyenne avec E(Yi ) = xi β.
Les estimateurs des moindres carrés ordinaires β
b = (βb0 , . . . , βbp ) sont les paramètres qui
minimisent simultanément la distance euclidienne entre les observations yi et les valeurs
ajustées ybi = xi β.
b
800
750
600
variable réponse
variable réponse
500
400
250
200
0
0
Figure 4.5: Résidus ordinaires ei (vecteurs verticaux) ajoutés à la droit de régression dans
l’espace (x, y) (gauche) et l’ajustement de la variable réponse yi en fonction des
valeurs ajustées ybi .
En d’autres mots, les estimateurs des moindres carrés sont la solution du problème d’opti-
mization convexe
n
X
β
b = min (Yi − Ybi )2 = min ∥Y − Xβ∥2
β∈Rp+1 β
i=1
Ce système d’équation a une solution explicite qui est plus facilement exprimée en notation
matricielle. Soit les matrices et vecteurs
Y1 1 x11 x12 · · · x1p β1
21 x22 · · · x2p
Y 1 x β
2 2
Y =
.. , X = ..
.. .. .. , β = .
.
. . . . .
.
Yn 1 xn1 xn2 · · · xnp βp
94
4.3 Estimation des paramètres
Proposition 4.1 (Moindres carrés ordinaires). L’estimateur des moindres carrés ordinaires
résoud le problème d’optimisation non-contraint
On peut calculer la dérivée première par rapport à β, égaler à zéro et isoler le maximum pour
obtenir une formule explicite pour β,
b
∂
0n = (y − Xβ)⊤ (y − Xβ)
∂β
= X⊤ (y − Xβ)
en utilisant la règle de dérivation en chaîne; on peut ainsi distribuer les termes pour obtenir
l’équation normale
X⊤ Xβ = X⊤ y.
Si X est une matrice de rang p, alors la forme quadratique X⊤ X est inversible et l’unique
solution du problème d’optimisation est
b = (X⊤ X)−1 X⊤ Y .
β
Cet estimateur dit des moindres carrés ordinaires (MCO) est explicite; il n’est donc pas
nécessaire de procéder à l’optimisation à l’aide d’algorithmes numériques.
95
4 Régression linéaire
On déduit que l’estimateur du maximum de vraisemblance est la moyenne des carrés des
résidus,
1
b 2 = (Y − Xβ̂)⊤ (Y − Xβ̂)
σ
n
n
=
1X b 2 = SCe ;
(yi − xi β)
n i=1 n
L’estimateur sans biais habituel de σ 2 calculé par le logiciel est
S 2 = SCe /(n − p − 1),
où le dénominateur est la taille de l’échantillon n moins le nombre de paramètres de la
moyenne β, soit p + 1.
Proposition 4.3 (Matrices d’information pour modèles linéaires normaux.). Les entrées de
la matrice d’information observée du modèle linéaire normal sont les suivantes
∂ 2 ℓ(β, σ 2 ) 1 ∂X⊤ (y − Xβ) X⊤ X
− = =
∂β∂β ⊤ σ2 ∂β ⊤ σ2
∂ 2 ℓ(β, σ 2 ) X⊤ (y − Xβ)
− = −
∂β∂σ 2 σ4
2
∂ ℓ(β, σ ) 2 n (y − Xβ)⊤ (y − Xβ)
− = − + .
∂(σ 2 )2 2σ 4 σ6
96
4.3 Estimation des paramètres
b 2 = SCe /n et que les résidus sont orthogonaux à la matrice du modèle. Sachant que
puisque σ
E(Y | X) = Xβ, la matrice d’information de Fisher est
!
X⊤ X
2 σ2
0p+1
i(β, σ ) =
0⊤
p+1
n
2σ 4
Puisque la loi asymptotique de l’estimateur est normale, les EMV de σ 2 et β sont asympto-
tiquement indépendants car leur corrélation asymptotique est nulle.Pourvu que la ma-
trice carrée (p + 1), X⊤ X soit inversible, la variance asymptotique des estimateurs est
b = σ 2 (X⊤ X)−1 et Var(σ
Var(β) b 2 ) = 2σ 4 /n.
Remarque 4.3. Si on suppose que les observations sont normales, alors on peut montrer
b ∼ normale{β, σ 2 (X⊤ X)−1 } sont indépendants et leurs lois sont
que SCe /σ 2 ∼ χ2n−p−1 et β
connues. Cela nous permettra de construire des tests d’hypothèse.
Bien que nous puissions construire la matrice du modèle nous-mêmes et utiliser la formule
des moindres carrés de l’Équation 4.2, les routines numériques implémentées dans les
logiciels sont préférables car plus stables. La fonction lm dans R ajuste les modèles linéaires,
tout comme glm avec les arguments par défaut. Les objets de la classe lm ont plusieurs
méthodes qui vous permettent d’extraire des objets spécifiques des objets lm. Par exemple,
les fonctions coef, resid, fitted, model.matrix renvoient les estimations des coefficients
b les résidus ordinaires e, les valeurs ajustées y
β, b et la matrice du modèle X.
97
4 Régression linéaire
La méthode summary est sans doute la plus utile: elle affiche les estimations des paramètres
de la moyenne ainsi que leurs erreurs type, les valeurs t pour le test de Wald de l’hypothèse
H0 : βi = 0 et les valeurs-p associées. D’autres statistiques descriptives, portant sur la taille
de l’échantillon, les degrés de liberté, etc. sont données au bas du tableau. Notez que la
fonction lm utilise l’estimateur sans biais de la variance σ 2 .
4.4 Prédictions
Une fois les estimations des coefficients obtenues, on peut calculer les valeurs ajustées y b
avec Xβ,b où X dénote la matrice du modèle n × (p + 1). On peut aussi généraliser cette
approche et obtenir une estimation de la moyenne pour n’importe quel vecteur lignes de
covariables x∗ = (1, x∗1 , . . . , x∗p ), sachant que E(Y | x∗ ) = x∗ β, en remplaçant les coefficients
inconnus β par leurs estimations β. b Pour le modèle postulé, c’est le meilleur prédicteur
linéaire non-biaisé de la moyenne.
Si l’on veut prédire la valeur d’une nouvelle observation, disons Y ∗ , dont le vecteur de
variables explicatives x∗ sont connues, la prédiction sera donc yb∗ = x∗ β
b parce que
E(Yb ∗ | X, x∗ ) = E(x∗ β
b | X, x∗ ) = x∗ β.
Cependant, les observations individuelles varient davantage que les moyennes (qui sont
elles-mêmes basées sur plusieurs observations). Intuitivement, cela est dû à l’incertitude
supplémentaire du terme d’erreur apparaissant dans l’équation du modèle: la variabilité
des prédictions est la somme de l’incertitude due aux estimateurs (basés sur des données
98
4.4 Prédictions
Va(Y ∗ − Yb ∗ | X, x∗ ) = Va(Y ∗ − x∗ β
b | X, x∗ )
= Va(Y ∗ | X, x∗ ) + Va(x∗ β
b | X, x∗ )
On peut baser les intervalles de prédictions sur la loi Student-t, à l’aide du pivot
Y ∗ − x∗ β
b
q ∼ Student(n − p − 1).
S 2 {1 + x∗ (X⊤ X)−1 x∗⊤ }
Des calculs similaires pour les intervalles de confiance ponctuels pour la moyenne x∗ β
donnent
q
x∗ β
b ± tn−p−1 (α/2) S 2 x∗ (X⊤ X)−1 x∗⊤ .
Exemple 4.12 (Prédiction pour une régression linéaire simple). Considérons les données
de l’Exemple 4.5. On ajuste un modèle de régression linéaire simple avec pef = β0 +
β1 proportion + ε, où ε ∼ normale(0, σ 2 ) et on suppose les observations indépendantes.
La Figure 4.6 montre les bandes d’incertitude ponctuelles pour une simple régression
linéaire des données de Sokolova, Krishna, et Döring (2023) en fonction de la proportion
de carton par rapport au plastique, les valeurs les plus élevées indiquant un emballage avec
plus de carton superflu. Le modèle ne tient pas compte du fait que notre réponse provient
d’une distribution discrète limitée avec des valeurs entières allant de 1 à 7, et que les ratios
testés dans l’expérience sont 0 (pas de carton), 0.5, 1 et 2 uniquement. La droite centrale
donne la prédiction des individus lorsque nous faisons varier la proportion carton/plastique.
En examinant les formules des intervalles de confiance et de prédiction, il est clair que les
bandes ne sont pas linéaires (nous considérons la racine carrée d’une fonction qui implique
les prédicteurs), mais il n’est pas évident visuellement que l’incertitude augmente au fur et
à mesure que l’on s’éloigne de la moyenne des prédicteurs.
Il est plus facile de s’en rendre compte en reproduisant les courbes potentielles qui auraient
pu se produire avec des données différentes: la Figure 4.6 montre les nouvelles pentes
99
4 Régression linéaire
Dans R, la fonction générique predict prend comme arguments un modèle et une nouvelle
base de données newdata contenant un tableau avec la même structure que les données
qui ont servi à l’ajustement du modèle (à minima, les colonnes de variables explicatives
utilisées dans le modèle).
100
4.5 Tests d’hypothèses
Les tests d’hypothèses dans les modèles linéaires et d’analyse de la variance suivent la
procédure usuelle: nous comparons deux modèles emboîtés, dont l’un (le modèle nul) est
une simplification d’un modèle plus complexe (modèle alternatif) obtenu en imposant des
restrictions sur les coefficients de la moyenne.
Les tests de restrictions pour les composantes de β sont particulièrement intéressants. Les
propriétés de l’estimateur du maximum de vraisemblance pour les grands échantillons
impliquent que
·
n o
b ∼ normalep+1 β, σ 2 (X⊤ X)−1
β
pour une taille d’échantillon suffisamment grande, et ce résultat est exact si les observations
sont normales. On peut aisément obtenir les erreurs-type des coefficients en remplaçant σ 2
101
4 Régression linéaire
par un estimé; avec des données normales, on peut montrer que la somme du carré des
erreurs SCe ∼ σ 2 χ2n−p−1 et SCe est indépendante de β.
b
Dans un contexte inférentiel, il est souvent important de tester si l’effet d’une variable
explicative est significatif : si xj est binaire ou continu, le test pour H0 : βj = 0 correspond à
un effet marginal nul pour xj . Le modèle nul est une régression linéaire dans laquelle nous
supprimons la (j + 1)ème colonne de X.
Proposition 4.4 (Tests de Wald en régression linéaire). Rappelons que la statistique du test
de Wald pour l’hypothèse H0 : βj = b est
βbj − b
W = .
se(βbj )
La statistique du test de Wald est rapportée par la plupart des logiciels pour l’hypothèse b = 0.
Puisque Var(βbj ) = σ 2 [(X⊤ X)−1 ]j,j , nous pouvons estimer l’erreur type à partir de S 2 et en
déduire que la distribution de W sous l’hypothèse nulle est Student(n − p − 1). Cela explique
la terminologie « t values » dans le tableau summary. Outre les estimations des coefficients,
il est possible d’obtenir des intervalles de confiance basés sur Wald pour βj , qui comme à
l’accoutumée sont de la forme βbj ± tn−p−1,α/2 se(βbj ), avec tn−p−1,α/2 le quantile de niveau
1 − α/2 d’une loi Student(n − p − 1).
Exemple 4.13. Considérons les données de Exemple 4.5. Si nous ajustons le modèle de
régression linéaire simple, nous pouvons extraire les valeurs -p pour les tests de Wald
ou tests-t. Le test pour l’ordonnée à l’origine est sans intérêt puisque les données sont
mesurées sur une échelle de 1 à 7, de sorte que la réponse moyenne lorsque proportion=0
ne peut être nulle. Le coefficient de proportion suggère une tendance de 0.5 point par unité
de ratio, et il est significativement différent de zéro, ce qui indique que le score pef change
avec le ratio carton/plastique.
102
4.5 Tests d’hypothèses
Pour les variables catégorielles à plus de deux niveaux, tester si βj = 0 n’est généralement
pas intéressant car le coefficient représente la différence entre la catégorie xj et la ligne de
base avec la paramétrisation du modèle en terme de contrastes (traitements): ces deux caté-
gories peuvent avoir une faible différence, mais la variable catégorielle dans son ensemble
peut toujours être un prédicteur utile compte tenu des autres explications. L’hypothèse
d’un contraste nul est spécifique car elle implique un modèle nul dans lequel les catégo-
ries sélectionnées sont fusionnées, ce qui dépend de la référence. Nous souhaitons plutôt
comparer un modèle dans lequel toutes les variables sont présentes avec un modèle dans
lequel la variable explicative catégorielle est omise.
M1 : Y = β0 + β1 x1 + · · · + βp xp + ε.
Supposons sans perte de généralité que nous voulions tester H0 : βk+1 = βk+2 = · · · = βp = 0
pour k < p (on pourrait permuter les colonnes de la matrice du modèle pour obtenir cette
configuration). L’hypothèse globale spécifie que (p − k) des paramètres β sont nuls. Le modèle
restreint correspondant à l’hypothèse nulle ne contient que les covariables pour lesquelles
βj ̸= 0,
M0 : Y = β0 + β1 x1 + · · · + βk xk + ε.
où ŶiM1 est la ie valeur ajustée du modèle M1 . On définit de la même façon la somme du carré
des résidus, SCe (M0 ), pour le modèle M0 . Logiquement, SCe (M0 ) ≥ SCe (M1 ).
La statistique F est
103
4 Régression linéaire
Quand la je variable explicative est continue ou binaire, le test F est équivalent au test t
pour βj = 0. En effet, la statistique F est le carré de la statistique de Wald, et ils mènent à la
même inférence — les valeurs-p sont identiques. Bien qu’il soit rapporté dans les tableaux,
le test pour β0 = 0 n’est pas intéressant; nous conservons l’ordonnée à l’origine uniquement
pour centrer les résidus.
Remarque 4.4 (Tests F versus test du rapport de vraisemblance). Pour la régression linéaire
normale, le test du rapport de vraisemblance pour comparer les modèles M1 et M0 est une
fonction de la somme des carrés des résidus: la formule habituelle se simplifie à
R = 2(ℓM1 − ℓM0 )
= n ln{SCe (M0 )/SCe (M1 )}
p−k
= n ln 1 + F
n−p−1
Le test du rapport de vraisemblance et les tests F sont liés par une transformation mono-
tone, et nous pouvons utiliser la distribution Fisher à des fins de comparaison, plutôt que
l’approximation χ2 pour grand échantillon. Les tests t et F présentés ci-dessus pourraient
donc tous deux être considérés comme des cas particuliers de tests de rapport de vraisem-
blance, mais en utilisant Student-t contre la distribution normale lorsque p − k = 1, et Fisher
contre χ2 lorsque p − k ≥ 1. Lorsque n est grand, les résultats sont à peu près les mêmes.
4.5.1 Contrastes
Supposons que nous effectuions une analyse de la variance et que le test F pour l’hypothèse
nulle (globale) selon laquelle les moyennes de tous les groupes sont égales soit très élevé:
nous rejetons l’hypothèse nulle en faveur de l’alternative, qui stipule qu’au moins une des
moyennes du groupe est différente. La question suivante sera de savoir où se situent ces
différences. En effet, dans un contexte expérimental, cela implique qu’une ou plusieurs
manipulations ont un effet différent des autres sur la réponse moyenne. Souvent, cela n’est
pas intéressant en soi: nous pourrions être intéressés par la comparaison de différentes
options par rapport à un groupe de contrôle ou déterminer si des combinaisons spécifiques
fonctionnent mieux que séparément, ou trouver le meilleur traitement en comparant toutes
les paires.
104
4.5 Tests d’hypothèses
permettent de mettre l’accent sur des aspects particuliers des différences entre les traite-
ments. Formellement, un contraste est une combinaison linéaire de moyennes: en clair,
cela signifie que nous attribuons un poids à chaque moyenne de groupe et que nous les
additionnons, puis que nous comparons ce résumé à une valeur postulée a, généralement
zéro.
Nous pouvons alors construire une statistique t comme d’habitude en examinant la dif-
férence entre notre valeur postulée et la moyenne pondérée observée, convenablement
normalisée. Si le test global F conduit au rejet de la valeur nulle, il existe au moins un
contraste significatif au même niveau. Lorsque les vecteurs de contraste sont orthogonaux,
les tests ne sont pas corrélés. Mathématiquement, si nous laissons ci et c∗i désigner les poids
attachés à la moyenne du groupe i comprenant ni observations, les contrastes sont ortho-
gonaux si c1 c∗1 /n1 + · · · + cK c∗K /nK = 0 ; si l’échantillon est équilibré avec le même nombre
d’observations dans chaque groupe, n/K = n1 = · · · = nK , nous pouvons considérer le
produit scalaire des deux vecteurs de contrastes et négliger la taille des sous-échantillons.
Exemple 4.14 (Test du montant des dons). Considérons l’Exemple 4.8, dans lequel nous
testons les différences entre les montants libres (open-ended) et les montants suggérés
(quantity). Le test qui nous intéresse est H0 : β1 = 0, où β1 = µoe − µqty est la différence
moyenne entre les groupes. Outre le fait que la différence est statistiquement significa-
tive au niveau de 5 %, nous voulons également rapporter les moyennes marginales, qui,
105
4 Régression linéaire
lorsque nous avons une seule variable explicative catégorielle dans le modèle linéaire, est la
moyenne empirique de chaque sous-groupe.
106
4.5 Tests d’hypothèses
Exemple 4.15 (Tests et contrastes pour les méthodes de compréhension de la lecture). Nous
examinons maintenant les tests pour l’Exemple 4.2 et l’Exemple 4.9, avec une covariable en
plus. L’objectif de Baumann, Seifert-Kessell, et Jones (1992) était de faire une comparaison
particulière entre des groupes de traitement. Selon le résumé de l’article:
Avec un modèle pré-post, nous allons comparer les moyennes pour une valeur commune
de pretest1, ci-dessous la moyenne globale du score pretest1.
107
4 Régression linéaire
Le résultat du tableau d’analyse de la variance montre qu’il y a bien des différences entre les
groupes. On peut donc s’intéresser aux moyennes marginales estimées, qui sont la moyenne
de chaque groupe.
Tableau 4.7: Moyennes estimées des groupes avec erreurs-types et intervalles de confiance
à 95 % pour le post-test 1 pour un score moyen au pré-test 1.
termes moyennes erreur-type ddl borne inf. borne sup.
DR 6.19 0.52 62 5.14 7.23
DRTA 9.81 0.52 62 8.78 10.85
TA 8.22 0.52 62 7.18 9.27
avec poids c1 = (−2, 1, 1); l’ordre des niveaux de traitement est (DRA, DRTA, TA) et ce der-
nier doit correspond à celui des poids pour les contrastes. Ces derniers donnent les mêmes
tests à multiple non-nul près, donc ac1 , a ̸= 0 donne un résultat équivalent, par exemple
(2, −1, −1) ou (1, −1/2, −1/2) fonctionnent. Si les estimations changent, les erreurs-types
sont ajustées d’autant. Un vecteur de contrastes pour H0 : µTA = µDRTA est (0, −1, 1): le
zéro apparaît parce que la première composante, DRA n’apparaît pas. Les deux contrastes
sont orthogonaux puisque (−2 × 0) + (1 × −1) + (1 × 1) = 0.
108
4.5 Tests d’hypothèses
Nous pouvons examiner ces différences: puisque DRTA contre TA est une différence par
paire, nous aurions pu obtenir la statistique t directement à partir des contrastes deux à
deux en utilisant pairs(emmeans_post).
Quelle est la conclusion de notre analyse des contrastes? Il semble que les méthodes
impliquant la réflexion à haute voix aient un impact important sur la compréhension de la
lecture par rapport à la seule lecture dirigée. Les preuves ne sont pas aussi solides lorsque
nous comparons la méthode qui combine la lecture dirigée, l’activité de réflexion et la
réflexion à haute voix, mais la différence est néanmoins significative à niveau 5%.
Exemple 4.16 (Tests et contrastes pour l’effet de l’emballage carton sur la perception).
Soit µ0 , µ0.5 , µ1 , µ2 la vraie moyenne du score PEF en fonction de la proportion de carton
pour les données de Exemple 4.5. Plusieurs tests pourraient être intéressants ici, mais nous
nous concentrons sur les contrastes effectués par les auteurs et sur un test d’hypothèse de
109
4 Régression linéaire
au modèle d’analyse de variance qui permet à chacun des quatre groupes d’avoir des
moyennes différentes.
Si on veut obtenir l’hypothèse nulle en terme de contraintes sur les paramètres α, on trouve
µ0 = β0 = α0
µ0.5 = β0 + 0.5β1 = α0 + α1
µ1 = β0 + β1 = α0 + α2
µ2 = β0 + 2β1 = α0 + α3 .
110
4.5 Tests d’hypothèses
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Test avec code alternatif (poids pour chaque coefficient)
car::linearHypothesis(model = anovamod,
hypothesis = rbind(c(0, -2, 1, 0),
c(0, 0, -2, 1)))
#> Linear hypothesis test
#>
#> Hypothesis:
#> - 2 factor(proportion)0.5 + factor(proportion)1 = 0
#> - 2 factor(proportion)1 + factor(proportion)2 = 0
#>
#> Model 1: restricted model
#> Model 2: pef ~ factor(proportion)
#>
#> Res.Df RSS Df Sum of Sq F Pr(>F)
#> 1 800 1373
#> 2 798 1343 2 29.3 8.69 0.00018 ***
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Le résultat montre que les tests F et les valeurs-p sont identiques, que l’on impose les
contraintes manuellement ou que l’on soumette simplement les deux modèles imbriqués à
la méthode anova.
Les auteurs souhaitaient comparer zéro carton avec d’autres choix: nous nous intéressons
aux différences par paire, mais uniquement par rapport à la référence µ0 :
Les vecteurs de poids pour les contrastes linéaires sont (1, −1, 0, 0), (1, 0, −1, 0) et (1, 0, 0, −1)
pour les moyennes marginales.
111
4 Régression linéaire
Les moyennes des groupes rapportées dans le Tableau 4.9 correspondent à celles indiquées
par les auteurs dans l’article. Elles suggèrent que la perception du respect de l’environ-
nement augmente avec la quantité de carton utilisée dans l’emballage. Nous avons pu
ajuster un modèle de régression simple pour évaluer le changement moyen, en traitant
la proportion comme une variable explicative continue. La pente estimée pour le change-
ment du score PEF, qui va de 1 à 7 par incréments de 0.25, est 0.53 point par rapport au
carton/plastique. Il y a cependant de fortes indications, compte tenu des données, que le
changement n’est pas tout à fait linéaire, puisque l’ajustement du modèle de régression
linéaire est significativement plus mauvais que le modèle linéaire correspondant.
Tableau 4.9: Moyennes estimées du DEP par proportion pour les groupes, avec erreurs-
types
proportion moyenne erreur-type ddl borne inf. borne sup.
0.0 2.16 0.093 798 1.98 2.34
0.5 2.91 0.093 798 2.73 3.09
1.0 3.06 0.092 798 2.88 3.24
2.0 3.34 0.089 798 3.17 3.52
Tableau 4.10: Estimations des contrastes pour les différences de PEF relativement à plas-
tique seulement.
contraste estimation erreur-type ddl stat valeur-p
refvshalf -0.75 0.13 798 -5.71 0
refvsone -0.90 0.13 798 -6.89 0
refvstwo -1.18 0.13 798 -9.20 0
112
4.5 Tests d’hypothèses
Toutes les différences dans le Tableau 4.10 sont significatives et positives, conformément à
l’hypothèse des chercheurs.
Le seul test qui nous intéresse ici est H0 : βsexe = 0 contre l’alternative bilatérale Ha :
βsexe ̸= 0. La statistique du test de Wald est 1.23, avec une valeur-p de 0.219 basée sur une
distribution Student-t avec 391 degrés de liberté. La valeur-p dans la sortie du test F est
la même, et celle obtenue par le test du rapport de vraisemblance est la même jusqu’à la
deuxième décimale.
Tableau 4.11: Tableau des estimations des coefficients de régression linéaire avec les erreurs-
type associées, les tests de Wald et les valeurs p basées sur la distribution
Student-t.
term estimation erreur-type stat de Wald valeur-p
(Intercept) 86.596 2.96 29.25 < 0.001
sexe [femme] -4.771 3.878 -1.23 0.22
domaine [théorique] -13.473 2.315 -5.82 < 0.001
échelon [agrégé] 14.56 4.098 3.55 < 0.001
échelon [titulaire] 49.16 3.834 12.82 < 0.001
service -0.089 0.112 -0.8 0.43
113
4 Régression linéaire
Le modèle additif pour la moyenne spécifie que l’effet marginal d’une variable ( y com-
pris pour les variables catégorielles) est indépendant des autres. Nous pouvons souhaiter
assouplir cette hypothèse en incluant des termes d’interaction.
60 K
40 K
non−fumeur
fumeur non−obèse
fumeur obèse
20 K
0K
20 30 40 50
indice de masse corporelle
Figure 4.7: Nuage de points des données assurance avec les frais en fonction de l’imc, selon
le status fumeur.
114
4.6 Plans factoriels et interactions
Exemple 4.19 (Intention d’achat). On considère un exemple avec des données bidons
interaction. Le modèle additif (sans interaction) a pour moyenne
15
10
intention d'achat
intention d'achat
10
0 2 4 6 0 2 4 6
temps de fixation (en secondes) temps de fixation (en secondes)
Figure 4.8: Nuages de points et droites ajustées pour un modèle sans interaction (gauche)
et avec interaction (droite).
Pour ajuster une pente différente par sexe, on crée une nouvelle variable égale au produit
fixation × sexe et on l’ajoute à notre modèle,
115
4 Régression linéaire
• β0 est l’intention d’achat moyenne lorsque le temps de fixation est nul pour les
hommes,
• β1 est la différence d’ordonnée à l’origine entre les femmes et les hommes (différence
d’intention d’achat moyenne entre femmes et hommes quand le temps de fixation est
nul),
• β2 est l’augmentation unitaire de l’intention d’achat par seconde de fixation pour les
hommes,
• β3 est la différence de pente entre les femmes et les hommes (différence d’intention
d’achat moyenne femmes vs hommes pour une augmentation d’une seconde de
fixation).
Le modèle avec interaction est significativement meilleur, ce qui signifie que l’effet du
temps de fixation sur l’intention d’achat varie en fonction du sexe.
Remarque 4.5 (Principe de marginalité). Tous les termes d’ordre inférieurs devraient être
inclus si l’interaction est présente.
116
4.6 Plans factoriels et interactions
cela implique que l’intention d’achat est constante pour les hommes, quel que soit le temps
de fixation.
Comme le choix de catégorie de référence est arbitraire, changer la variable indicatrice sexe
pour 0 pour les femmes, 1 pour les hommes, donnerait un autre modèle et potentiellement
des inférences différentes. De ce fait, on ne considère jamais le retrait d’un effet principal si
la variable est incluse dans une interaction. Le principe de marginalité suppose que tous
les termes d’ordre inférieurs devraient être inclus.
Le concept d’interaction se généralise à des variables catégorielles avec plus de deux ni-
veaux. Dans ce cas, on doit considérer la statistique F pour l’ajout/l’élimination afin de
vérifier la significativité de l’interaction dans son ensemble.
Définition 4.3 (Analyse de variance). Une analyse de variance est un modèle linéaire dans
lequel la moyenne est une fonction de variables explicatives catégorielles. Si nous disposons
de données pour toutes les combinaisons différentes de facteurs, les facteurs sont croisés
et nous pouvons envisager d’inclure leurs interactions.
où
Dans un devis factoriel complet avec interaction, on peut écrire l’espérance de la variable
réponse E(Y | A = ai , B = bj ) = µij . Ce modèle peut être vu comme une analyse de
variance à un facteur doté de na nb niveaux. Cette observation peut être utile pour spécifier
les poids de contrastes linéaires ou lorsqu’il existe un groupe de contrôle supplémentaire
dans un cadre expérimental. Toutefois, la structure permet de spécifier les hypothèses
d’intérêt.
117
4 Régression linéaire
E(Yij | A = ai , B = bj ) = µ + αi + βj .
:::
Bien que des tests formels soient nécessaires pour vérifier les interactions, le concept peut
être mieux compris en examinant des graphiques.
Définition 4.5 (Effets simples et effets principaux). Lorsqu’il n’y a pas d’interactions, il
est logique de faire abstraction d’une ou plusieurs variables et de considérer les effets
marginaux, obtenus en regroupant les données des facteurs omis, en calculant la moyenne
équipondérée des sous-groupes. Supposons, par exemple, que nous soyons intéressés par
la comparaison des niveaux de A. Lorsque les interactions entre A et B ne sont pas signifi-
catives, nous pouvons considérer des termes d’ordre inférieur et rapporter les moyennes
marginales estimées et les contrastes entre les moyennes de A. Si l’interaction avec B a
un impact, nous pouvons plutôt calculer la moyenne de la sous-cellule A | B = bj , et de la
même manière pour les contrastes. Nous distinguons donc les cas suivants :
• effets simples: différences entre les niveaux d’un élément dans une combinaison fixe
d’autres éléments. Les effets simples consistent à comparer les moyennes des cellules
dans une ligne ou une colonne donnée.
• effets principaux : différences par rapport à la moyenne pour chaque condition d’un
facteur. Les effets principaux sont des moyennes de lignes ou de colonnes.
118
4.6 Plans factoriels et interactions
moyenne de la réponse
aucun effet effet principal de A effet principal de B deux effets principaux
15
10
interaction seulement effet principal de A et interaction effet principal de B et interaction effets principaux et interaction
15
10
a1 a2 a1 a2 a1 a2 a1 a2
facteur A
facteur B b1 b2
Figure 4.9: Diagramme d’interactions pour un devis 2 par 2. Image adaptée de la Figure 10.2
de Crump, Navarro, et Suzuki (2019) par Matthew Crump (licence CC BY-SA 4.0).
119
4 Régression linéaire
120
4.6 Plans factoriels et interactions
#> debttype
#> purchase credit loan
#> discretionary 392 359
#> need 361 389
# Calcul de la moyenne globale/lignes/colonnes/cellules
moy_groupes <- model.tables(modlin_STC21, type = "means")
L’interaction n’étant pas significative, nous pouvons n’interpréter que l’effet principal de la
fixation.
Cette différence de moyenne conditionnelle est appelée effet marginal, car elle est obtenue
en calculant la moyenne de toutes les sous-catégories pour un même niveau du facteur.
Le modèle estime cependant la variance sur la base des résidus du modèle d’interaction
complet avec quatre moyennes de cellules, et diffère donc de celui obtenu en exécutant (à
tort) un modèle avec seulement purchase comme variable explicative.
Dans le tableau d’analyse de la variance, nous nous concentrons exclusivement sur la der-
nière ligne avec la somme des carrés pour l’interaction purchase:debttype. La statistique
F est 1.79; avec la loi de référence Fisher (1, 1497), on obtient une valeur-p de 0.18 alors il
n’y a pas de preuve que l’effet du libellé pour l’achat dépende du type de dette.
On peut donc regrouper les données et étudier uniquement l’effet du libellé (prêt loan ou
credit) en combinant les données pour les types d’achats, une des comparaisons planifiées
des annexes en ligne. Pour ce faire, on utilise la fonction emmeans du paquet éponyme
en spécifiant le nom du ou des facteurs d’intérêts (ceux que l’on veut conserver) avec
l’argument specs. Par défaut, on calcule les moyennes marginales estimées, l’argument
contr = "pairwise" indique que l’on veut en plus les différences deux à deux, ici le seul
contraste possible pour des différences entre deux facteurs.
121
4 Régression linéaire
122
4.6 Plans factoriels et interactions
6.0
5.5
Linear prediction
5.0
purchase
discretionary
need
4.5
4.0
3.5
credit loan
Levels of debttype
Figure 4.10: Diagramme d’interaction pour les données de l’étude S5 de Sharma, Tully, et
Cryder (2021).
Tableau 4.12: Décomposition de la somme des carrés dans les tableaux d’ANOVA (termes
de l’hypothèse nulle vs l’alternative).
type I type II type III
A intercept vs A B vs (A, B) (B, A : B) vs
(A, B, A : B)
B A vs (A, B) A vs (A, B) (A, A : B) vs
(A, B, A : B)
A:B (A, B) vs (A, B) vs (A, B) vs (A, B, A : B)
(A, B, A : B) (A, B, A : B)
Tableau 4.12 montre les différentes sommes des erreurs quadratiques des modèles, avec les
termes entre parenthèses indiquant quels termes sont inclus (A : B désigne l’interaction).
La décomposition de type I, la valeur par défaut du générique anova, utilise l’ordre dans
lequel les termes sont spécifiés, disons A, B, AB, et compare donc sur la première ligne
l’amélioration dans le modèle de la moyenne seule avec A, puis sur la deuxième ligne le test
pour B compare le modèle avec les deux effets principaux A et B avec seulement A. Étant
123
4 Régression linéaire
donné que l’ordre dans lequel les facteurs sont spécifiés est arbitraire, cette décomposition
est arbitraire et donc non pertinente.
La décomposition de type II considère les termes de même niveau dans la hiérarchie,
de sorte que les tests pour les effets principaux sont A + B vs A, A + B vs B et celui de
l’interaction est A × B vs A, B. Il s’agit de l’option par défaut si l’on souhaite considérer les
effets principaux lorsque l’interaction n’est pas significative.
La décomposition de type III, popularisée par SAS et souvent choisie par défaut dans les
logiciels, prend en compte tous les autres termes, et testerait donc les effets principaux
comme A+B +A×B vs B +A×B. Cette méthode ne respecte pas le principe de marginalité
et doit donc être évitée. Les tests pour A ou B ne doivent pas être utilisés.
Les trois méthodes donnent le même résultat et la même comparaison pour le dernier
niveau avec l’interaction.
Toutes les discussions relatives à une ANOVA à deux voies s’appliquent à des plans d’expé-
rience à K facteurs. Cependant, le fléau de la dimensionnalité rend plus difficile la collecte
d’observations dans chaque cellule. Toute ANOVA à plusieurs facteurs peut être ramenée à
une ANOVA à un facteur: ceci est particulièrement utile lorsqu’il y a un groupe de contrôle
qui n’est pas lié aux niveaux des facteurs, étant donné qu’il n’y a pas de manipulation.
L’utilisation des contrastes devient critique puisque nous pouvons écrire n’importe quel
test pour les effets principaux, les interactions, etc.
124
4.6 Plans factoriels et interactions
#> conservative 33 36
#> liberal 87 84
#>
#> , , brandaction = permission
#>
#> chefdax
#> politideo not black black
#> conservative 42 34
#> liberal 77 84
#>
#> , , brandaction = control
#>
#> chefdax
#> politideo not black black
#> conservative 38 32
#> liberal 79 85
# Les facteurs sont croisés et il y a des réplications
# On ajuste un modèle d'ANOVA à trois facteurs (avec toutes les interactions)
mod <- lm(appropriation ~ politideo * chefdax * brandaction,
data = LKUK24_S4)
# Calculer les estimations des moyennes marginales
# pour chacun des 12 sous-groupes
emm <- emmeans(mod,
specs = c("chefdax", "brandaction", "politideo"))
# Créer un diagramme d'interaction
emmip(object = emm,
formula = brandaction ~ chefdax | politideo,
CIs = TRUE) +
labs(y = "prédicteur linéaire",
x = "niveaux de chefdax")
# Tableau d'ANOVA (type 2)
anova_tab <- car::Anova(mod, type = 2)
125
4 Régression linéaire
conservative liberal
4
prédicteur linéaire
3 brandaction
peeking
permission
control
Pour l’ANOVA à K facteurs, nous commençons toujours par estimer le modèle complet
avec toutes les interactions (à condition qu’il y ait suffisamment de données pour estimer
ces dernières, ce qui implique qu’il y ait des répétitions). Si cette dernière est significative,
nous pouvons fixer un ou plusieurs niveaux de facteurs et comparer les autres.
Si on considère le Tableau 4.13, nous constatons qu’il n’y a pas d’interaction à trois voies et,
si l’on omet cette dernière et que l’on se concentre sur les niveaux inférieurs, une seule in-
teraction à deux voies entre l’idéologie politique et la race du chef Dax.Nous ne pouvons pas
126
4.6 Plans factoriels et interactions
interpréter la valeur p pour l’effet principal de brandaction, mais nous pouvons examiner
les moyennes marginales.
Sur la base des données, nous réduirons les données à une ANOVA à une voie comparant
les trois niveaux de brandaction et à une ANOVA à deux facteurs, 2 × 2 pour chefdax et
politideo. Les résultats sont obtenus en calculant la moyenne pour le facteur manquant,
mais en estimant l’écart-type du modèle complet.
Nous souhaitons comparer la perception de la race du chef Dax (noir ou non), car la cuisine
soul est plus susceptible d’être associée à l’appropriation culturelle si le chef Dax n’est pas
noir. Nous procédons avec emmeans en calculant les moyennes marginales séparément pour
chacune des quatre sous-catégories, mais nous comparons la race du chef Dax séparément
pour les libéraux et les conservateurs en raison de la présence de l’interaction.
Nous constatons que les libéraux sont beaucoup plus susceptibles de considérer le livre de
cuisine du chef Dax comme un exemple d’appropriation culturelle s’il n’est pas noir; il y a
127
4 Régression linéaire
peu de preuves d’une différence entre les conservateurs et les libéraux lorsque le chef Dax
est noir. On peut calculer les effets marginaux pour idéologie (afro-Américain ou pas). Les
deux différences sont statistiquement significatives, mais la différence est beaucoup plus
marquée pour les répondants de gauche.
Pour brandaction, nous supposons que les participants verront le fait de copier furtivement
moins favorablement que si le chef Dax demandait l’autorisation de publier la recette. Il
est difficile de connaître l’effet du groupe contrôle, car on ne mentionne pas comment la
recette a été acquise.
Un test F conjoint, obtenu en ramenant le devis à une ANOVA à un facteur, montre qu’il
existe effectivement des différences. C’est le groupe contrôle qui a la moyenne la plus basse.
Remarque 4.7.
128
4.7 Géométrie des moindres carrés
de simples manipulations algébriques montrent que le produit scalaire entre les résidus
ordinaires et les valeurs ajustées est nul, puisque
⊤
b ⊤e = β
y b X⊤ (y − Xβ)
b
Corollaire 4.1 (Orthogonalité des résidus et des valeurs ajustées). Une conséquence directe
de ces résultats est le fait que la corrélation linéaire entre e et y
b est nulle. Cette propriété
servira lors de l’élaboration de diagnostics graphiques.
100 100
50 50
résidus ordinaires
résidus ordinaires
0 0
−50 −50
80 100 120 0 20 40 60
valeurs ajustées années de service
Figure 4.11: Diagramme des résidus en fonction des valeurs ajustées (à gauche) et de la
variable explicative service (à droite) pour la régression linéaire des données
college. L’ordonnée à l’origine et la pente des régressions linéaires simples
sont nulles.
129
4 Régression linéaire
Corollaire 4.2 (Moyenne des résidus nulle). Puisque le produit scalaire est zéro, la moyenne
de e doit être zéro pour autant que 1n est dans l’espace linéaire engendré par X.
Puisque les aléas avaient moyenne théorique de zéro, on veut forcer les résidus ordinaires à
avoir une moyenne empirique de zéro en incluant l’ordonnée à l’origine.
130
4.7 Géométrie des moindres carrés
# Invariance du modèle
isTRUE(all.equal(fitted(modA), fitted(modB)))
#> [1] TRUE
La valeur de βb est telle qu’elle maximise la corrélation entre y et yb . Dans le cas d’une
variable catégorielle unique, nous obtiendrons des valeurs ajustées yb qui correspondent à
la moyenne de l’échantillon de chaque groupe.
4.7.1 Résidus
Les résidus sont les prédictions des aléas ε, et représentent la différence entre la valeur
observée de la réponse Yi et sa prédiction. Les résidus ordinaires sont définis comme
ei = Yi − Ybi , i = 1, . . . , n.
La somme des résidus ordinaire est toujours zéro par construction si on inclut une ordonnée
à l’origine, ce qui donne que e = 0.
Si les aléas sont indépendants et homoscédastiques, les résidus ordinaires ei ont une
variance de σ 2 (1 − hi ), où le terme de levier hi = (HX )ii = xi (X⊤ X)−1 xi est le ie élément
de la diagonale de la matrice de projection HX et xi est comme à l’accoutumée la ie ligne
de la matrice du modèle qui correspond à l’observation i.
Nous concluons donc que les résidus ordinaires n’ont pas tous le même écart-type et
qu’ils ne sont pas indépendants. Ceci est problématique, car nous ne pouvons pas faire de
comparaisons de leurs lois: les points ayant un faible effet de levier s’écartent davantage
du modèle ajusté que les autres. Pour pallier ce problème, nous pouvons normaliser les
résidus de façon à ce que chacun ait la même variance sous l’hypothèse nulle d’erreurs
homoscédastiques indépendantes — les termes d’effet de levier hi sont facilement calculés
à partir de la matrice du modèle X.
131
4 Régression linéaire
La seule question qui subsiste est celle de l’estimation de la variance. Si nous utilisons
la ie observation pour estimer à la fois le résidu et la variance, nous introduisons une
dépendance supplémentaire. Une meilleure solution consiste à supprimer la ie observation
et à réajuster le modèle avec les n − 1 observations restantes pour obtenir S(−i) 2 (il existe
des formules explicites qui font qu’il n’est pas nécessaire d’ajuster n modèles linéaires). Les
résidus studentisés externes ri = ei /{s(−i) (1 − hi )}, également appelés résidus studentisés
par la méthode du canif, ne sont pas indépendants, mais ils sont une loi marginale identique
de Student avec n−p−2 degrés de liberté. Ils peuvent être obtenus dans R avec la commande
rstudent.
Quand utiliser quels résidus? Par construction, le vecteur des résidus ordinaires e est or-
thogonal aux valeurs ajustées yb et également à chaque colonne de la matrice du modèle
X: cela signifie qu’une simple régression linéaire de e avec n’importe laquelle de ces cova-
riables donne une ordonnée à l’origine et une pente toutes deux nulles. Ainsi, les modèles
résiduels dus à des interactions oubliées, à des termes non linéaires, etc. pourraient être
détectés à partir de diagrammes de paires de résidus ordinaires en fonction des variables
explicatives.
Bien que les résidus studentisés externes ri ne soient pas orthogonaux, ils ne sont pas très
différents quand n est grand par rapport à p. On peut utiliser les résidus r pour vérifier l’éga-
lité de la variance et les hypothèses de distribution (par exemple, à l’aide d’un diagramme
quantile-quantile).
ensuite comparer la variance des données originales avec celle des résidus du modèle avec
la matrice de covariables X, définie comme SCe = ni=1 e2i avec ei = yi − βb0 − pj=1 βbj Xj .
P P
Une autre décomposition montre que R2 = cor2 (y, y b ), c’est-à-dire que le coefficient de
détermination peut être interprété comme le carré de la corrélation linéaire de Pearson
(Définition 1.3) entre la réponse y et les valeurs ajustées yb.
132
4.7 Géométrie des moindres carrés
Il est important de noter que le R2 n’est pas un critère de qualité de l’ajustement, tout
comme la log-vraisemblance. En effet, certain phénomènes sont intrinsèquement com-
plexes et même un bon modèle ne parviendra pas à rendre compte d’une grande partie de
la variabilité de la réponse. Ce n’est pas non plus parce que le R2 est faible que Y et et les
variables explicatives Xj sont indépendantes, comme l’illustre la Figure 1.2.
En outre, il est possible de gonfler la valeur de R2 en incluant davantage de variables
explicatives et en rendant le modèle plus complexe, ce qui améliore la vraisemblance et
R2 . En effet, le coefficient n’est pas décroissant dans la dimension de X, de sorte qu’un
modèle comportant p + 1 de covariables aura nécessairement des valeurs de R2 plus élevées
que si l’on n’incluait que p de ces variables explicatives. Pour comparer les modèles, il
est préférable d’utiliser des critères d’information ou de s’appuyer sur la performance
prédictive si tel est l’objectif de la régression. Enfin, un modèle avec un R2 élevé peut
impliquer une corrélation élevée, mais la relation peut être fallacieuse : la régression linéaire
ne produit pas de modèles causaux!
4.7.2 Colinéarité
Le postulat de linéarité peut être interprétée au sens large comme signifiant que toutes
les covariables pertinentes ont été incluses et que leur effet est correctement spécifié dans
l’équation de la moyenne. L’ajout de covariables superflues à un modèle a un impact limité:
si la corrélation (partielle) entre un vecteur colonne X k et la variable réponse Y est nulle,
alors βk = 0 et le coefficient estimé βbk ≈ 0 parce que les estimateurs des moindres carrés
sont sans biais. Si nous incluons de nombreuses variables inutiles, disons k, le manque
de parcimonie peut toutefois rendre l’interprétation plus difficile. Le prix à payer pour
inclure k de variables explicatives supplémentaires est une augmentation de la variance
des estimateurs β.b
133
4 Régression linéaire
pour laquelle des variables sociodémographiques (sexe, âge, niveau d’éducation, etc.) sont
collectées dans le cadre des études.
Un modèle linéaire n’est pas un [modèle causal] (https://xkcd.com/552/): il ne fait que
capturer la corrélation linéaire entre une variable explicative et la réponse. Lorsqu’il y a
plus d’une variable explicative, l’effet de Xj est fonction de ce qui n’a pas déjà été expliqué
par les autres variables explicatives, disons X −j . Ainsi, si nous ne parvenons pas à rejeter
H0 : βj = 0 en faveur de l’alternative H1 : βj ̸= 0, nous pouvons seulement dire qu’il n’y a
pas d’association linéaire significative entre Xj et Y une fois que l’effet des autres variables
incluses dans le modèle a été pris en compte. Il existe donc deux scénarios: soit la réponse
n’est pas corrélée à Xj (cas inintéressant, mais facile à repérer en traçant les deux ou en
calculant la corrélation linéaire), soit il existe une forte corrélation entre Xj et à la fois
la réponse Y et (certaines) des autres variables explicatives X1 , . . . , Xp . Ce problème est
appelé (multi)colinéarité.
L’un des inconvénients de la colinéarité est la diminution de la précision des estimateurs
de paramètres. En présence de variables explicatives colinéaires, de nombreuses combi-
naisons linéaires des covariables représentent presque aussi bien la réponse. En raison du
manque (ou presque) d’identifiabilité, les coefficients estimés deviennent numériquement
instables, ce qui entraîne une augmentation des erreurs-type des paramètres. Les valeurs
prédites ou ajustées ne sont pas affectées. En général, les coefficients de régression peuvent
changer radicalement lorsque de nouvelles observations sont incluses dans le modèle, ou
lorsque nous incluons ou supprimons des variables explicatives. Les coefficients β indi-
viduels peuvent ne pas être statistiquement significatifs, mais le test F global indiquera
que certaines covariables sont pertinentes pour expliquer la réponse. Toutefois, ce serait
également le cas s’il y avait des prédicteurs avec un signal fort, de sorte que ni l’un ni l’autre
n’est susceptible d’être utile pour détecter les problèmes.
Le diagramme de régression partielle montre à l’aide d’un nuage de points la relation
entre la réponse Y et une variable explicative Xj après la prise en compte de l’effet linéaire
des autres variables. Il est obtenu en faisant une régressant à tour de rôle Xj et Y sur les
autres colonnes de la matrice du modèle, et en calculant les résidus. Le théorème de Frisch–
Waugh–Lovell montre que la pente βbj de la régression linéaire simple entre les résidus e−j Y
et e−j
Xj est la même que celle du modèle complet. Si on ne voit pas de relation linéaire dans
le graphique (pente presque nulle) et que la corrélation entre Xj et Y était très forte, cela
est typiquement indicateur de colinéarité.
Une idée similaire peut être utilisée pour voir quelle part de Xj est déjà expliquée par les
autres variables. Nous définissons le facteur facteur d’inflation de la variance comme
FIV(j) = (1 − R2 (j))−1 , où R2 (j) est le coefficient de détermination du modèle obtenu en
régressant Xj sur toutes les autres variables explicatives, c’est-à-dire,
Xj = β0⋆ + β1⋆ X1 + · · · + βj−1
⋆ ⋆
Xj−1 + βj+1 Xj+1 + · · · + βp⋆ Xp + ε⋆
134
4.7 Géométrie des moindres carrés
Par définition, R2 (j) donne la proportion de la variance de Xj expliquée par les autres va-
riables explicatives. Un facteur d’inflation de la variance élevé est un indicateur de colinéa-
rité: typiquement les valeurs avec une corrélation de plus de 90%, ou FIV > 10, nécessitent
une attention particulière. Les valeurs dans les centaines ou les milliers représentent des
cas pathologiques. Pour les variables catégorielles, la définition du facteur d’inflation de la
variance donnerait normalement une valeur différente pour chaque niveau; une alternative
est le facteur d’inflation de la variance généralisée (Fox et Monette 1992).
Que doit-on faire s’il y a de la colinéarité ? Si l’objectif de l’étude est de développer un
modèle prédictif et que nous ne sommes pas intéressés par les paramètres eux-mêmes,
alors nous n’avons rien à faire. La colinéarité n’est pas un problème pour le modèle global:
c’est seulement un problème pour les effets individuels des variables. Leur effet conjoint
est toujours présent dans le modèle, quelle que soit la manière dont les effets individuels
sont combinés.
Si nous nous intéressons aux estimations des paramètres individuels, par exemple pour voir
comment (et dans quelle mesure) les variables prédictives expliquent le comportement de
Y , les choses se compliquent. La colinéarité n’affecte que les variables qui sont fortement
corrélées les unes aux autres, de sorte que nous ne nous préoccupons que si elle affecte une
ou plusieurs des variables qui nous intéressent. Il n’y a malheureusement pas de bonne
solution à ce problème. On pourrait
• essayer d’obtenir plus de données, afin de réduire les effets de colinéarité apparaissant
dans des échantillons spécifiques ou dus à la petite taille de l’échantillon.
• créer un score composite en combinant d’une manière ou d’une autre les variables
présentant une colinéarité.
• supprimer une ou plusieurs des variables colinéaires. Vous devez en revanche faire
attention à ne pas vous retrouver avec un modèle mal spécifié.
• utiliser la régression pénalisée si X⊤ X n’est (presque) pas inversible, cela peut restau-
rer l’unicité de la solution. Les pénalités introduisent un biais, mais peuvent réduire la
variance des estimateurs β. Les choix populaires incluent la régression en crête (avec
une pénalité de l2 ), lasso (pénalité de l1 ), mais ceux-ci requièrent un ajustement pour
l’inférence post-sélection
Quelle que soit la méthode utilisée, il est important de comprendre qu’il peut être très
difficile (et parfois impossible) d’isoler l’effet individuel d’une variable explicative fortement
corrélée avec d’autres.
Exemple 4.22 (Colinéarité des données de college). On considère l’analyse des données
sur l’inéquité salariale dans un college, en incluant cette fois annees, le nombre d’années
depuis l’obtiention du doctorat. On peut penser que, à moins qu’un(e) professeur(e) ait
entamé sa carrière dans une autre institution d’enseignement, le nombre d’années de
135
4 Régression linéaire
service sera fortement lié à ces derniers. De fait, la corrélation linéaire entre service et
annees est 0.91. Cette corrélation n’est pas problématique puisque le FIV pour sexe (voir le
Tableau 4.14) n’est pas élevé et l’inclusion sert à éviter les variables confondantes et réduire
l’incertitude.
100
100
50
50
salaire | reste
salaire | reste
0
0
−50
−50
Tableau 4.14: Facteur d’inflation de la variance généralisés pour les données college.
echelon domaine sexe service annees
2.01 1.06 1.03 5.92 7.52
L’effet de levier hi de l’observation i mesure son impact sur l’ajustement par les moindres
carrés, puisque nous pouvons écrire hi = ∂ ybi /∂yi . Les valeurs de l’effet de levier nous
indiquent l’impact de chaque point sur l’ajustement : elles sont strictement positives,
avec une borne inférieure de 1/n et une borne supérieure de 1. La somme des leviers
136
4.7 Géométrie des moindres carrés
Les points à fort effet de levier sont ceux qui présentent des combinaisons inhabituelles
de variables explicatives. Une observation influente (hi ≈ 1) tire l’hyperplan ajusté vers
elle-même de sorte que ŷi ≈ yi . En règle générale, les points avec hi > 2(p + 1)/n doivent
être examinés de près.
Il est important de faire la distinction entre les observations influentes (qui ont une valeur
x inhabituelle, c’est-à-dire éloignée de la moyenne générale) et les aberrances (valeur
inhabituelle de la réponse y). Si une observation est à la fois une valeur aberrante et a un
effet de levier élevé, elle est problématique.
0
10.0
7.5
−2
y
5.0
−4
2.5
Figure 4.13: Valeur aberrante (gauche) et observation influente (droite, valeur de x la plus à
droite).
137
4 Régression linéaire
On pourrait éventuellement tester si un résidu studentisé externe est une valeur aberrante
(en tenant compte du fait que nous ne prendrions en considération que les valeurs les plus
élevées). On peut également considérer la distance de Cook, Cj , une statistique donnant la
distance à l’échelle entre les valeurs ajustées ŷ et les valeurs ajustées pour le modèle avec
toutes les observations sauf la je, ŷ (−j) ,
n n
1 X (−j) 2
o
Cj = ŷ i − ŷ i
(p + 1)S 2 i=1
Des valeurs élevées de Cj indiquent que son résidu ordinaire ej est important par rapport
aux autres observations ou que son effet de levier hj est élevé. Une règle empirique consiste
à considérer les points pour lesquels Cj > 4/(n − p − 1). En pratique, si deux observations
sont aberrantes et se situent dans la même région, leur distance de Cook sera réduite de
moitié.
Les observations aberrantes et influentes ne doivent pas être négligées parce qu’elles ne
sont pas conformes au modèle, mais doivent faire l’objet d’un examen plus approfondi.
Elles peuvent motiver une modélisation plus poussée des caractéristiques non prises en
compte. Il est également utile de vérifier les erreurs d’enregistrement dans les données
(qui peuvent être écartées sans risque). Dans les très grands échantillons, l’impact d’une
seule valeur aberrante est, espérons-le, limité. Les transformations de la réponse peuvent
contribuer à réduire le caractère aberrant. Sinon, il est possible d’utiliser d’autres fonctions
objectives que le critère des moindres carrés ordinaires (telles que celles employées dans
la régression robuste); celles-ci pondèrent les observations extrêmes, au détriment de
l’efficacité.
Cette section passe en revue les postulats du modèle énoncés pour permettre l’inférence
statistique à l’aide du modèle linéaire et des différents résidus qui servent d’éléments de
base pour les diagnostics graphiques. Nous étudions les conséquences de la violation de
ces postulats et décrivons des stratégies d’atténuation potentielles, dont beaucoup sont
abordées dans d’autres chapitres.
Jusqu’à présent, nous avons ajusté des modèles et testé la significativité des coefficients
sans valider notre modèle. La fiabilité des valeurs p et des intervalles de confiance dépend
de la validité (approximative) des postulats du modèle, qui découlent toutes de l’hypothèse
·
sur les alés, supposée indépendantes et identiquement distribuées avec εi ∼ normale(0, σ 2 ).
Cette description mathématique compacte peut être décomposée en quatre postulats
principaux: Il y a quatre postulats principaux du modèle linéaire de la forme
Yi | xi ∼ normale(xi β, σ 2 )
138
4.8 Postulats du modèle et diagnostics
Lorsque nous effectuons un test d’hypothèse et que nous ne rejetons pas l’hypothèse nulle,
c’est soit parce qu’elle est vraie, soit par manque de preuves. Il en va de même pour la
vérification de la validité des postulats du modèle: le raisonnement scientifique veut que
nous ne puissions pas savoir avec certitude si ces derniers sont vrais. Notre stratégie consiste
donc à utiliser les implications des hypothèses du modèle linéaire pour créer des outils de
diagnostics graphiques, afin de s’assurer qu’il n’y a pas de violation flagrante des postulats.
Toutefois, il est important de se garder de surinterpréter les diagnostics graphiques: l’oeil
humain est très doué pour trouver des schémas inexistants.
Le postulat de linéarité signifie que le modèle moyen est correctement spécifié, que toutes
les covariables pertinentes ont été incluses et que leur effet est correctement spécifié (y
compris les effets non linéaires et les interactions). L’additivité sous-tend que le modèle peut
être exprimé comme la somme de moyenne plus aléa. Pour vérifier que la surface de réponse
du modèle linéaire est adéquate, nous dessinons un nuage de points de ei en fonction de ybi
ou xij (pour j = 1, . . . , p). Étant donné que la corrélation linéaire entre e et y
b (ou e et Xj )
est nulle par construction, les modèles (par exemple, tendance quadratique, cycles, points
de changement) sont indicatifs d’une mauvaise spécification du modèle pour la moyenne.
Il est possible d’ajouter une courbe de lissage de tels effets. La Figure 4.14 montre trois
diagrammes de résidus. On cherche une tendance locale dans l’axe des ordonnées y, pas
sur l’axe des abcisses.
S’il existe une structure résiduelle dans les graphiques des résidus ordinaires en fonction
(a) des valeurs ajustées ou (b) des variables explicatives, un modèle plus complexe peut
être ajusté, y compris un contenant des interactions, des fonctions non linéaires, etc. Si
l’effet d’une variable explicative est clairement non linéaire et compliqué, des termes de
lissage peuvent être ajoutés (nous ne couvrirons pas les modèles additifs généralisés dans
ce cours).
La représentation graphique des résidus en fonction des variables explicatives omises peut
également servir à vérifier que tout le pouvoir explicatif de la covariable omise est déjà
expliqué par les colonnes de X.
Si une variable importante a été omise et n’est pas disponible dans l’ensemble de données,
l’effet de cette variable est capturé à la fois par les erreurs (la partie orthogonale à la matrice
du modèle X, c’est-à-dire inexpliquée par les covariables incluses dans le modèle) et la
139
4 Régression linéaire
3
2
2
1
1
résidus
résidus
résidus
0
0
0
−1
−1
−1
−2
−2
−3
−2
−0.05 0.00 0.05 0.10 0.025 0.030 0.035 0.040 0.045 −1.0 −0.5 0.0 0.5 1.0
valeurs ajustées valeurs ajustées valeurs ajustées
Figure 4.14: Diagrammes des résidus par rapport aux valeurs ajustées. Les deux premiers
diagrammes ne montrent aucun écart par rapport à la linéarité (moyenne locale
nulle). Le troisième diagramme montre une tendance quadratique évidente, ce
qui suggère que le modèle moyen est mal spécifié. Notez que la distribution de
la valeur ajustée n’est pas nécessairement uniforme, comme dans le deuxième
panneau.
partie restante est capturée par d’autres variables explicatives du modèle qui sont corrélées
avec la variable omise. Ces variables peuvent agir comme des facteurs de confusion. Dans
les deux cas, il n’y a pas grand-chose à faire si les données relatives à la variable omise ne
sont pas disponibles, mais des connaissances spécifiques au sujet peuvent aider à donner
un sens aux résultats.
Si la variance des aléas est la même pour toutes les observations (homoscédasticité), celle
des observations Y est également constante. Les scénarios les plus courants d’hétéroscé-
dasticité sont des augmentations de la variance avec la réponse, ou bien une variance qui
dépend de variables explicatives X, notamment des variables catégorielles.
Si les aléas (ou variables réponses) sont hétéroscédastiques (variance non constante),
les effets estimés des variables (les paramètres β) sont toujours valables dans le sens où
140
4.8 Postulats du modèle et diagnostics
l’estimateur des moindres carrés ordinaires β b est sans biais. Cependant, les erreurs types
estimées des βb ne sont plus fiables et, par conséquent, les intervalles de confiance et les tests
d’hypothèse pour les paramètres du modèle seront incorrects. En effet, si la variance des
erreurs diffère d’une observation à l’autre, nous allons estimer une moyenne des différents
termes de variance. Les erreurs types de chaque terme sont incorrectes (trop petites ou
trop grandes) et les conclusions des tests (valeurs p) seront erronées car les formules des
statistiques des tests t et F incluent des estimations de hatσ 2 .
L’examen de nuages de points des résidus studentisés externes en fonction des régresseurs
(ou des valeurs ajustées), appelé diagrammes de niveau et de dispersion, est instructif —
par exemple, nous voyons souvent un modèle en entonnoir lorsqu’il y a une augmentation
de la variance dans le tracé des résidus studentisés externes en fonction de la valeur ajustée,
ou encore dans les boîtes à moustache pour une variable catégorielle comme dans la
Figure 4.15. Cependant, si nous voulons ajuster un lissage local pour observer les tendances,
il est préférable de tracer la valeur absolue des résidus r en fonction des régresseurs ou du
nombre d’observations.
4
3
2
2
3
|résidus studentisés externes|
résidus studentisés externes
0 −1
−2
−2
−4
−3
Figure 4.15: Diagrammes des résidus studentisés externes en fonction des valeurs ajustées
(gauche) et d’une variable catégorielle (droite).
141
4 Régression linéaire
Nous pouvons effectuer des tests d’hypothèse pour l’hypothèse d’homogénéité (égalité) de
la variance. Les tests les plus couramment utilisés sont le test de Bartlett, un test du rapport
de vraisemblance sous l’hypothèse que les données sont tirées d’une loi normale, avec une
correction de Bartlett pour améliorer l’approximation χ2 de la distribution nulle. Ce test
est cependant sensible aux écarts à la normalité, et tend à rejeter même quand la variance
est constante. Le deuxième test le plus répandu est le test de Levene (une alternative plus
robuste, moins sensible aux valeurs aberrantes). Pour les deux tests, la distribution nulle est
H0 : σ12 = · · · = σK
2 contre l’alternative qu’au moins deux diffèrent. La statistique du test de
Bartlett a une distribution nulle χ2 avec K − 1 degrés de liberté, alors que le test de Levene
a une distribution F avec (K − 1, n − K) degrés de liberté: il est équivalent au calcul de la
statistique F de l’ANOVA à un facteur avec la valeur absolue des résidus centrés, |yik − µ bk |,
comme observations. Un test populaire plus général est le test de Breusch et Pagan (1979),
qui est un test du score pour un modèle de régression linéaire pour le carré des résidus
ordinaires e2i . Comme les autres tests de score, ce dernier ne nécessite pas d’ajustement
du modèle avec des variances inégales, mais on doit choisir quelles variables explicatives
mettre dans le modèle.
Souvent, une variance inégale se produit parce que le modèle n’est pas additif. Vous pouvez
utiliser des transformations stabilisant la variance (par exemple, pour des effets multipli-
catifs) afin de garantir une variance à peu près égale dans chaque groupe. Dans ce cas de
figure, une transformation logarithmique (ou une transformation de Box–Cox) peut aider à
stabiliser la variance, mais il faut que la réponse soit positive. Une autre option consiste
à utiliser un modèle adapté au type de réponse que vous avez (y compris les données de
décompte et les données binaires). Enfin, il peut être nécessaire de modéliser explicitement
la variance dans des modèles plus complexes (y compris les mesures répétées) lorsqu’il
y a un effet d’apprentissage au fil du temps et que la variabilité diminue en conséquence.
Consultez un expert si nécessaire.
142
4.8 Postulats du modèle et diagnostics
0.5 0.5
0.4 0.4
0.3 0.3
taux de rejet
taux de rejet
0.2 0.2
0.1 0.1
0.0 0.0
0.0 0.5 1.0 0.0 0.5 1.0
valeur−p valeur−p
test−t de Wald (variances égales) test−t de Welch (variances inégales)
Figure 4.16: Histogramme de la loi nulle des valeurs-p obtenues par simulation à l’aide
du test-t à deux échantillons (à gauche) et du test-t de Welch (à droite), sur
la base de 10 000 simulations. Chaque échantillon simulé se compose de 50
observations provenant d’une distribution normale(0, 1) et de 10 observations
provenant d’une distribution normale(0, 9). La loi uniforme sous H0 aurait 5 %
dans chacune des 20 cases utilisées pour l’affichage.
Les économistes utilisent fréquemment des estimateurs sandwich (White 1980), en rempla-
b d’ordinaire S 2 (X⊤ X)−1 , par un
çant l’estimateur usuel de la matrice de covariance des β,
estimateur sandwich de la forme
⊤ −1 ⊤ ⊤ −1
Va
c
HCE (β) = (X X) X ΩX(X X)
b
avec Ω une matrice diagonale. Les choix populaires pour des matrices convergente en cas
d’hétéroscédasticité matrices (MacKinnon et White 1985), utilisent diag(Ω)i = e2i /(1 − hii )2 ,
dans le cas de la matrice HC3 .
143
4 Régression linéaire
longitudinales, qui contiennent des mesures répétées des mêmes individus au fil du temps.
De même, les séries temporelles ne sont pas constituées d’observations indépendantes. Si
nous voulons inclure tous les points temporels dans l’analyse, nous devons tenir compte de
l’éventuelle dépendance (corrélation) entre les observations.
Quel est l’impact de la dépendance entre les mesures? D’un point de vue heuristique,
les mesures corrélées contiennent moins d’informations que les mesures indépendantes.
Dans le cas le plus extrême, il n’y a pas d’information supplémentaire et les mesures
sont identiques, mais le fait de les ajouter plusieurs fois gonfle indûment la la taille de
l’échantillon. Si nous ignorons la corrélation, les erreurs-type estimées sont trop petites,
car la taille effective de l’échantillon est inférieure au nombre d’observations. Cela enfle la
statistique et conduit à des rejets plus fréquents des hypothèses nulles, par erreur.
1.00
0.75
niveau du test
0.50
0.25
0.00
0.0 0.2 0.4 0.6 0.8
corrélation intra−classe
nombre de groupes 2 3 5 10
Figure 4.17: Taux de rejet de l’hypothèse nulle pour le test F d’égalité des moyennes pour
une ANOVA à une voie avec des données générées en groupes de cinq avec une
moyenne et une variance constantes, à partir d’un modèle d’équicorrélation
(les observations à l’intérieur d’un groupe sont corrélées, les observations entre
les groupes sont indépendantes). Le niveau nominal du test est de 5%.
144
4.8 Postulats du modèle et diagnostics
que 5% du temps. Ici, comme les données sont générées à partir du modèle nul (moyenne
égale) avec une variance égale, l’inflation du nombre d’erreurs de type I est alarmante et
l’inflation du niveau du test est substantielle même avec une corrélation très limitée entre
les mesures.
La première source de dépendance est constituée par les données groupées, c’est-à-dire
les mesures prises sur des sujets qui ne sont pas indépendants les uns des autres (famille,
groupes, etc.) On distingue entre données longitudinales, qui sont des mesures répétées
sont effectuées sur les mêmes sujets (quelques points temporels) et séries chronologiques,
dont la longueur et la fréquence d’échantillonage est plus élevée. Les séries temporelles
nécessitent des modèles spécifiques qui ne sont pas abordés dans ce cours. En raison de
l’autocorrélation, les erreurs positives ont tendance à être suivies d’erreurs positives, etc.
Nous pouvons tracer les résidus en fonction du temps et un nuage de points des résidus
retardés ei par rapport à ei−1 (i = 2, . . . , n).
0.3
6
0.2
4
0.1
2
résidus
résidus
0.0
0
−0.1
−2
−0.2
−4
−0.3
Figure 4.18: Nuage de point de résidus versus les résidus décalés d’une observation: il n’y
a aucune preuve d’indépendance dans le panneau de gauche, alors que le
panneau de droite montre des résidus positivement corrélés.
145
4 Régression linéaire
Le postulat de normalité des aléas est commode, mais pas strictement nécessaire dans
la majorité des cas pour la validité des tests sur les coefficients ou les énoncés reliés à
la moyenne prédite. Si les aléas suivent une loi normale, les estimateurs des moindres
carrés et du maximum de vraisemblance de β coïncident. Les estimateurs du maximum
de vraisemblance de β sont asymptotiquement normaux sous de faibles conditions sur la
matrice du modèle et les t-tests sont étonnamment robustes et ne sont pas affectés par un
écart par rapport au postulat de normalité. Cela signifie que l’inférence est valable avec de
grands échantillons, quelle que soit la distribution des erreurs/résidus (même si la loi nulle
n’est pas exacte). L’inférence sera valable avec de grands échantillons même si les aléas
ne sont pas normaux à cause du théorème de la limite centrale. Il est important de garder
à l’esprit que, pour les variables explicatives catégorielles, la taille de l’échantillon dans
chaque sous-groupe doit être suffisamment importante pour que le théorème de la limite
centrale s’applique, puisque les coefficients représentent la moyenne du sous-groupe. En
146
4.8 Postulats du modèle et diagnostics
1.0 1.0
0.5 0.5
autocorrélation
autocorrélation
0.0 0.0
−0.5 −0.5
−1.0 −1.0
0 5 10 15 20 25 0 5 10 15 20 25
décalage décalage
revanche, les résultats et tests qui capitalisent sur la loi des aléas (par exemple, les tests
pour les aberrances basés sur le maximum des résidus studentisés, ou les intervalles de
prédictions) seront probablement trompeurs.
Parfois, des transformations peuvent améliorer la normalité : si les données sont asymé-
triques à droite et que la variable réponse est strictement positive, un modèle log-linéaire
peut être plus adéquat Section 4.8.5. Ceci peut être évalué en regardant le diagramme
quantile-quantile des résidus studentisés externes. Si la réponse Y n’est pas continue (y
compris les données binaires, proportionnelles ou de dénombrement), les modèles linéaires
généralisés sont plus appropriés.
Si l’aléa εi ∼ normale(0, σ 2 ), alors les résidus studentisés externes devraient suivre une
distribution de Student, avec ri ∼ Student(n − p − 2) (identiquement distribués, mais non
indépendants). Un diagramme quantile-quantile de Student peut donc être utilisé pour
vérifier le postulat. Gardez à l’esprit que si le modèle de la moyenne ou de la variance n’est
147
4 Régression linéaire
pas correctement spécifié, certains résidus peuvent incorporer les effets résiduels.
0.6
0.2
−2
0.0
−4
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
résidus studentisés externes quantiles théoriques
Figure 4.20: Histogramme et estimation de densité par lissage de noyau (gauche) et dia-
gramme quantile-quantile Student (droite). Le panneau de gauche montre
la loi théorique Student (en bleu) pour comparaison. Le panneau de droite
présente des intervalles de confiance ponctuels à 95% calculés à l’aide d’un
autoamorçage paramétrique.
Les graphiques quantile-quantile sont abordés dans la Définition 1.14, mais leur interpréta-
tion nécessite de la pratique. Par exemple, la Figure 4.21 montre de nombreux scénarios
courants qui peuvent être détectés à l’aide de diagrammes quantile-quantile. Les données
discrètes sont responsables des motifs en escalier, les données asymétriques à droite ont
des quantiles bas trop élevés et des quantiles hauts trop bas par rapport aux positions
de tracé, les données à ailes lourdes ont des observations élevées de part et d’autre et les
données bimodales conduisent à des sauts dans le tracé.
148
4.8 Postulats du modèle et diagnostics
4
quantiles empiriques
quantiles empiriques
3
2
2
−4 −2 0
0 1
−2 −1 0 1 2 −3 −2 −1 0 1 2 3
quantiles théoriques quantiles théoriques
1.5
3
quantiles empiriques
quantiles empiriques
2
0.5
1
−0.5
0 −1
−1.5
−2 −1 0 1 2 −3 −2 −1 0 1 2 3
quantiles théoriques quantiles théoriques
l’axe x pour la valeur ajustée (en raison de l’effet important du rang et du domaine, tous
deux variables catégorielles) avec les modèles dans les résidus (aucun n’est apparent). La
correction de l’hétéroscédasticité permettrait de corriger les résidus et d’améliorer l’aspect
du graphique quantile-quantile.
On effectue quelques tests avec les résidus studentisés externes pour les données college
pour valider ce que les diagnostics graphiques indiquent.
r <- rstudent(modlin1_college)
# Test F de Levene
car::leveneTest(r ~ echelon, center = "mean", data = college)
#> Levene's Test for Homogeneity of Variance (center = "mean")
#> Df F value Pr(>F)
#> group 2 50 <2e-16 ***
#> 394
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Test du score avec Breusch-Pagan
149
4 Régression linéaire
résidus ordinaires 50
3
2
0
1
−50
0
80 100 120 140 80 100 120 140
valeurs ajustées valeurs ajustées
résidus studentisés externes
empirical quantiles
2.5 2.5
0.0
0.0
−2.5
−2.5
Figure 4.22: Diagnostic plots for the college data example: ordinary residuals against fitted
values (top left), absolute value of the jacknnife studentized residuals against
fitted values (top right), box and whiskers plot of jacknnife studentized residuals
(bottom left) and detrended Student quantile-quantile plot (bottom right).
There is clear group heteroscedasticity.
2
Pour les données de collège, on spécifie donc plutôt Yi ∼ normale(xi β, σechelon ) avec un
i
paramètre de variance spécifique à l’échelon. Cela semble corriger l’hétéroscédasticité.
150
4.8 Postulats du modèle et diagnostics
car::Anova(modlin.college2)
#> Analysis of Deviance Table (Type II tests)
#>
#> Response: salaire
#> Df Chisq Pr(>Chisq)
#> echelon 2 363.50 <2e-16 ***
#> domaine 1 91.04 <2e-16 ***
#> sexe 1 1.80 0.180
#> service 1 2.97 0.085 .
#> ---
#> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
4
Standardized residuals
−2
80 100 120
Fitted values
Le modèle est ajusté par maximum de vraisemblance restreint avec la fonction gls du
paquet nlme. La modification semble suffisante pour capturer l’hétéroscédasticité dans le
diagramme des résidus standardisés vs valeurs ajustées.
151
4 Régression linéaire
Si la réponse est strictement positive, certaines options peuvent atténuer le manque d’addi-
tivité, plus particulièrement les relations multiplicatives entre la moyenne et la variance.
Si les données sont asymétriques et que la réponse est strictement positive, un modèle
log-linéaire peut être plus approprié et les paramètres peuvent être interprétés.
ln Y = β0 + β1 X1 + · · · + βp Xp + ε;
et donc
Si ε | x ∼ normale(µ, σ 2 ), alors E{exp(ε) | x} = exp(µ + σ 2 /2) et exp(ε) suit une loi lognor-
male. Une augmentation d’une unité de Xj mène à une augmentation moyenne de βj
de ln Y sans interaction ni terme nonlinéaire pour Xj , et cela se traduit par un facteur
multiplicatif de exp(βj ) à l’échelle de Y . Si βj = 0, exp(βj ) = 1 et il n’y a pas de changement,
si βj < 0, exp(βj ) < 1 et la moyenne décroît avec Xj , et si βj > 0, exp(βj ) > 1 et la moyenne
augmente avec Xj .
Comparez le rapport
152
4.8 Postulats du modèle et diagnostics
Parfois, on veut considérer une transformation à la fois de la réponse et d’une variable expli-
cative positive continue, un modèle log-log. Considérons le cas où on prend le logarithme
de Y et X1 , avec
Y = X1β1 exp(β0 + β2 X2 + · · · + βp Xp + ε)
En prenant la dérivée par rapport à X1 > 0, on obtient
∂Y
= β1 X1β1 −1 exp(β0 + β2 X2 + · · · + βp Xp + ε)
∂X1
β1 Y
=
X1
et réarranger cette expression nous donne
∂X1 ∂Y
β1 = ;
X1 Y
une mesure d’élasticité partielle: le coefficient β1 est un pourcentage de changement de Y
pour chaque pourcentage d’augmentation de X1 , ceteris paribus.
153
4 Régression linéaire
4.9 Profilage de λ
Nous ne pouvons pas comparer les modèles ajustés à Yi par rapport à ln Yi en utilisant, par
exemple, des critères d’information ou des tests, parce que les modèles ont des réponses diffé-
rentes. Nous pouvons toutefois utiliser la vraisemblance de Box–Cox, qui inclut le Jacobien
de la transformation, pour évaluer la qualité de l’ajustement et comparer le modèle avec
λ = 1 par rapport à λ = 0.
La transformation de Box-Cox n’est pas une panacée et doit être réservée aux cas où la trans-
formation réduit l’hétéroscédasticité (variance inégale) ou crée une relation linéaire entre
les explications et la réponse : la théorie fournit une explication convaincante des données.
Plutôt qu’un choix ad hoc de transformation, on pourrait prendre une transformation loga-
rithmique si la valeur 0$ est incluse dans l’intervalle de confiance à 95%, car cela améliore
l’interprétabilité.
Exemple 4.26 (Transformation de Box–Cox pour données sur les poisons). Box et Cox (1964)
modélisent le temps de survie de 48 animaux sur la base d’un essai aléatoire. Les données
sur les poisons sont équilibrées, 3 poisons ayant été administrés avec 4 traitements à 4
animaux chacun. Nous pourrions envisager une ANOVA à deux facteurs sans interaction,
étant donné le peu d’observations pour chaque combinaison. Le modèle s’écrit alors
Le tracé des valeurs ajustées par rapport aux résidus montre que le modèle n’est pas additif
(panneau du milieu de la Figure 4.23); il y a également des indications que la variance
augmente avec la réponse moyenne. Le modèle est inadéquat: les temps de survie les plus
faibles sont sous-estimés, ce qui signifie que les résidus sont positifs, de même que les
réponses moyennes. Un test formel de non-additivité indique également la non-additivité
(Davison 2003, Exemple 8.24). Dans l’ensemble, l’ajustement du modèle est médiocre et
toute conclusion tirée de celui-ci est douteuse.
On pourrait envisager d’utiliser un Box–Cox pour trouver une transformation appropriée
des résidus afin d’améliorer la normalité. Une analyse des résidus dans les quatre premiers
154
4.9 Profilage de λ
−14
−16
−18
−20
−22 −1.13 −0.75 −0.36
−1.5 −1.0 −0.5 0.0
λ
quantiles empiriques
0.50 4
2
0.25
0
0.00
−2
−0.25
0.2 0.4 0.6 0.8 −2 −1 0 1 2
valeurs ajustées quantiles empiriques quantiles théoriques
résidus ordinaires
1.0
2
0.5
0
0.0
−0.5 −2
1 2 3 4 −2 −1 0 1 2
valeurs ajustées quantiles théoriques
Figure 4.23: Diagnostics graphiques pour les données de poisons. Panneau du haut: vrai-
semblance profilée pour λ. Panneau du milieu: (λ = 1, temps de survie) et du
bas (λ = −1, vitesse d’absorption). Les diagnostics pour les modèles repré-
sentent les résidus ordinaires versus valeurs ajustées et diagramme quantile-
quantile des résidus studentisés.
155
Bibliographie
Baumann, James F., Nancy Seifert-Kessell, et Leah A. Jones. 1992. « Effect of Think-Aloud
Instruction on Elementary Students’ Comprehension Monitoring Abilities ». Journal of
Reading Behavior 24 (2): 143-72. https://doi.org/10.1080/10862969209547770.
Box, G. E. P., et D. R. Cox. 1964. « An Analysis of Transformations ». Journal of the Royal
Statistical Society: Series B (Methodological) 26 (2): 211-43. https://doi.org/10.1111/j.
2517-6161.1964.tb00553.x.
Breusch, T. S., et A. R. Pagan. 1979. « A Simple Test for Heteroscedasticity and Random Coef-
ficient Variation ». Econometrica 47 (5): 1287-94. http://www.jstor.org/stable/1911963.
Brockwell, P. J., et R. A. Davis. 2016. Introduction to Time Series and Forecasting. Springer
Texts in Statistics. Springer.
Brodeur, Mathieu, Perrine Ruer, Pierre-Majorique Léger, et Sylvain Sénécal. 2021. « Smart-
watches are more distracting than mobile phones while driving: Results from an experi-
mental study ». Accident Analysis & Prevention 149: 105846. https://doi.org/10.1016/j.
aap.2020.105846.
Brucks, Melanie S., et Jonathan Levav. 2022. « Virtual communication curbs creative idea
generation ». Nature 605 (7908): 108-12. https://doi.org/10.1038/s41586-022-04643-y.
Crump, M. J. C., D. J. Navarro, et J. Suzuki. 2019. Answering Questions with Data: Introductory
Statistics for Psychology Students. https://doi.org/10.17605/OSF.IO/JZE52.
Davison, A. C. 2003. Statistical Models. Cambridge University Press.
Douglas, Paul H. 1976. « The Cobb–Douglas Production Function Once Again: Its History, Its
Testing, and Some New Empirical Values ». Journal of Political Economy 84 (5): 903-15.
http://www.jstor.org/stable/1830435.
Duke, Kristen E., et On Amir. 2023. « The Importance of Selling Formats: When Integrating
Purchase and Quantity Decisions Increases Sales ». Marketing Science 42 (1): 87-109.
https://doi.org/10.1287/mksc.2022.1364.
Fox, John, et Georges Monette. 1992. « Generalized Collinearity Diagnostics ». Journal of
the American Statistical Association 87 (417): 178-83. https://doi.org/10.1080/01621459.
1992.10475190.
Gosset, William Sealy. 1908. « The probable error of a mean ». Biometrika 6 (1): 1-25. https:
//doi.org/10.1093/biomet/6.1.1.
Lee, Kiljae, et Jungsil Choi. 2019. « Image-text inconsistency effect on product evaluation
in online retailing ». Journal of Retailing and Consumer Services 49: 279-88. https://doi.
org/10.1016/j.jretconser.2019.03.015.
157
Bibliographie
Lin, Jason D, Nicole You Jeung Kim, Esther Uduehi, et Anat Keinan. 2024. « Culture for Sale:
Unpacking Consumer Perceptions of Cultural Appropriation ». Journal of Consumer
Research. https://doi.org/10.1093/jcr/ucad076.
Liu, Peggy J., SoYon Rim, Lauren Min, et Kate E. Min. 2023. « The surprise of reaching out:
Appreciated more than we think. » Journal of Personality and Social Psychology 124 (4):
754-71. https://doi.org/10.1037/pspi0000402.
MacKinnon, James G, et Halbert White. 1985. « Some heteroskedasticity-consistent cova-
riance matrix estimators with improved finite sample properties ». Journal of Econome-
trics 29 (3): 305-25. https://doi.org/10.1016/0304-4076(85)90158-7.
McCullagh, P., et J. A. Nelder. 1989. Generalized linear models. Second edition. London:
Chapman & Hall.
Moon, Alice, et Eric M VanEpps. 2023. « Giving Suggestions: Using Quantity Requests to
Increase Donations ». Journal of Consumer Research 50 (1): 190-210. https://doi.org/10.
1093/jcr/ucac047.
Rosen, B., et T. H. Jerdee. 1974. « Influence of sex role stereotypes on personnel decisions. »
Journal of Applied Psychology 59: 9-14.
Sharma, Eesha, Stephanie Tully, et Cynthia Cryder. 2021. « Psychological Ownership of
(Borrowed) Money ». Journal of Marketing Research 58 (3): 497-514. https://doi.org/10.
1177/0022243721993816.
Sokolova, Tatiana, Aradhna Krishna, et Tim Döring. 2023. « Paper Meets Plastic: The Percei-
ved Environmental Friendliness of Product Packaging ». Journal of Consumer Research
50 (3): 468-91. https://doi.org/10.1093/jcr/ucad008.
Venables, William N. 2000. « Exegeses on Linear Models ». In S-PLUS User’s Conference.
Washington, D.C. https://www.stats.ox.ac.uk/pub/MASS3/Exegeses.pdf.
White, Halbert. 1980. « A Heteroskedasticity-Consistent Covariance Matrix Estimator and
a Direct Test for Heteroskedasticity ». Econometrica 48 (4): 817-38. https://doi.org/10.
2307/1912934.
158