Mod Lin Hal
Mod Lin Hal
Sana Louhichi,
E.mail : [email protected]
Univ. Grenoble Alpes, CNRS, Grenoble INP, LJK Grenoble, France.
ii
Table des matières
Avant-propos 1
1 Mémento 3
1.1 Modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Mots clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Qualité du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 Mots clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Modèle linéaire gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1 Mots clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Vérification graphique des hypothèses de modélisation . . . . . . . . . . . . . . . . . . . 13
1.4.1 Mots clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.2 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Illustrations Graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Problématiques 19
2.1 Problématique I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Problématique II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
BIBLIOGRAPHIE 23
Index 23
Notations 27
iii
iv TABLE DES MATIÈRES
Avant-propos
Ce manuscrit est sous la forme d’un guide plutôt que d’un cours détaillé classique. Il s’adresse à
toute personne ayant une formation en mathématiques et souhaitant approfondir ses connaissances en
probabilités et statistique en rapport avec la modélisation.
Dans le même esprit que [5], ce guide se présente sous la forme d’un mémento qui rappelle les
résultats théoriques utiles, et parfois indispensables, à maîtriser pour la leçon de modélisation en
question. Les résultats sont énoncés sous la forme d’un résumé et donc sans démonstration mais souvent
accompagnés par des illustrations graphiques. L’auteur intéressé trouvera sans doute les démonstrations
des résultats de son intérêt. Des mots clés sont détaillés pour chaque section du mémento, orientant
ainsi vers le cœur du sujet. Des questions et des exercices sont posés au fur et à mesure de la progression
du texte. Le mémento sera utile pour la résolution des problèmes de modélisation du second chapitre.
Ce présent guide concerne un problème de régression et plus précisément un problème de régression
linéaire. On observe sur n individus les vecteurs (xi , yi )1≤i≤n avec yi des mesures quantitatives. Par
exemple :
— n étant le nombre de disques, xi est le rayon du ième disque et yi son périmètre. L’objectif est
d’étudier expérimentalement la relation mathématique,
Périmètre d’un disque = 2π· (son rayon).
— n étant le nombre de voitures, xi la vitesse de la ième voiture, yi sa distance de freinage. Étudier
la relation entre ces deux grandeurs permet de comprendre comment la vitesse influe sur la
distance de freinage et aussi de pouvoir prédire une distance de freinage pour une vitesse donnée,
ce qui permettra de donner des consignes pratiques aux conducteurs (voir Problématique I).
La modélisation linéaire suppose que cette relation est linéaire :
La distance de freinage ∼ b+ β · la vitesse,
(∼ pour dire à-peu-prés), il convient donc d’écrire ce modèle et d’estimer entre autres, en se
basant sur les observations (xi , yi )i , les paramètres b et β.
— n étant le nombre de patients. yi taux de de glycémie à jeun dans le sang du ième patient,
xi des mesures numériques en rapport avec ce patient, par exemple xi est le vecteur (âge,
poid, nombre d’heures de sports pratiqués par jour, mesure de l’hypertension artérielle) =
(1) (2) (3) (4)
(xi , xi , xi , xi ). Étudier la relation entre yi et xi permet de la comprendre, de prédire et
de donner des conseils préventifs. Supposer que la relation est linéaire, revient à dire :
taux de de glycémie ∼ b + β1 · âge + β2 · poid+ β3 · (nombre d’heures de sports pratiqués
par jour)+ β4 · hypertension artérielle.
Là aussi, il convient d’écrire ce modèle et d’estimer entre autres, en se basant sur les observations
(xi , yi )i , les paramètres b et β = (β1 , β2 , β3 , β4 ).
Aprés avoir observé et analysé descriptivement les données, l’étape serait de poser un modèle statistique
i.e. une formulation mathématique permettant d’expliquer les observations et de décrire le plus possible
la réalité. L’étude du modèle nécessite souvent des hypothèses de modélisation i.e. des conditions et des
suppositions utiles pour étudier le modèle. Les conclusions qu’on peut tirer du modèle dépendant de
ces hypothèses de modélisation. Il convient donc d’étudier la validité de ces hypothèses. Les simulations
1
2 TABLE DES MATIÈRES
ainsi que les outils graphiques permettent d’orienter vers la validité ou non d’une ou de telles hypothèses
de modélisation. C’est l’objectif de la section 1.4.
Les références, à ce sujet, sont nombreuses. Une liste non exhaustive est donnée à la fin de ce
manuscrit.
Chapitre 1
Mémento
1.1.2 Synthèse
Soient (Xi , Yi )1≤i≤n des v.a. i.i.d. de même loi que le couple (X, Y ) à valeurs dans Rp × R,
p ∈ N \ {0}.
Y = β t X + b + ϵ,
3
4 CHAPITRE 1. MÉMENTO
Figure 1.1 – Nuage de points et point moyen du nuage. La relation semble être linéaire. On
peut la modéliser par un modèle linéaire simple (ici p = 1) et étudier ensuite les pertinences
de ce modèle.
Notons que,
— (X, Y ) est de loi inconnue mais on dispose d’un échantillon aléatoire observable (Xi , Yi )1≤i≤n
de loi (X, Y ).
— β ∈ Rp et b ∈ R sont les paramètres inconnus et non aléatoire du modèle, β est le
vecteur poids, b est dit le biais (intercept en anglais).
— ϵ est une v.a. non observable qu’on appelle bruit, elle décrit l’erreur.
avec,
Y1 ϵ1
. .
.. .. !
b
Y = Yi ϵ = ϵi β̃ =
. . β
. .
. .
Yn ϵn
X1t
1
1 X2t
X=
· · · · · ·
1 Xnt
X est une matrice à n lignes et (p + 1) colonnes.
Question 1.1. Pourquoi l’hypothèse de modélisation E(ϵ|X) = 0 ps est-elle raisonnable pour
décrire un modèle linéaire ?
Exercice 1.1.
On suppose que E(|Y |) < ∞. On appelle la fonction de régression de Y sur X, la fonction
réelle r définie sur Rp , pour x ∈ Rp , par
r(x) = β t x + b,
et que p.s.,
Y = r(X) + ϵ.
La question qui se pose maintenant est : quel est le critère à utiliser afin d’estimer (à l’aide
des observations (Xi , Yi )1≤i≤n ), les paramètres du modèle linéaire introduit dans la définition
1.1 ?.
Définition 1.2. Le critère des moindres carrés ordinaires (MCO) est défini par,
n
X
C(β, b, (Xi , Yi )1≤i≤n ) = (Yi − β t Xi − b)2 .
i=1
Les estimateurs des moindres carrés ordinaires de β et b sont les minimiseurs (lorsqu’ils
existent) de la fonction :
(β, b) 7→ C(β, b, (Xi , Yi )1≤i≤n ),
en d’autres termes,
Question 1.2. Que représente intuitivement le critère des moindres carrés (on peut considérer
le cas p = 1 et représenter le nuage de points (xi , yi )1≤i≤n ).
6 CHAPITRE 1. MÉMENTO
Théorème 1.1. On suppose maintenant que p ∈ N \ {0}. Alors (b̂n , β̂n )t existe et est unique
si Xt X est inversible et dans ce cas,
−1
(b̂n , β̂n )t = Xt X Xt Y.
Exercice 1.3.
Montrer que pour tout x ∈ Rp ,
n
X
b̂n + β̂nt x = wn,i (x)Yi ,
i=1
wn,i (x) sont des poids à déterminer, ne dépendant que de (Xi )1≤i≤n , x, n. On dit que l’esti-
mateur (b̂n , β̂n )t est linéaire (à ne pas confondre avec la définition de modèle linéaire).
Remarque. Une prédiction de Ynew non observé, selon ce modèle, pour un Xnew donné
est donc,
Ŷnew = b̂n + β̂nt Xnew
Quelle est la différence entre Yi et Ŷi ?. Illustrer graphiquement la réponse. Que représente
Yi − Ŷi ?
Définition 1.3. On appelle les résidus, les v.a. ϵ̂i = Yi − Ŷi . Le vecteur des résidus est le
8 CHAPITRE 1. MÉMENTO
vecteur
ϵ̂1
.
..
ϵ̂ = ϵ̂i = Y − Ŷ = (In − H)Y,
.
.
.
ϵ̂n
−1
In est la matrice identité d’ordre n et H = X Xt X Xt . La matrice H est dite matrice
chapeau, elle transforme Y en Ŷ,
Ŷ = HY.
Théorème 1.2. Théorème de Gauss-Markov. Parmi tous les estimateurs linéaires non biai-
sés, l’estimateur des moindres carrés présente une variance minimale. (On dit que l’estimateur
des moindres carrés est BLUE (Best Linear Unbiaised Estimator)).
1.2.2 Synthèse
La Somme des Carrés Totale SCT est définie par :
n
X
SCT = (Yi − Yn )2
i=1
représente la variance expliquée par le modèle (donne la variation des valeurs ajustées
autour de la moyenne ).
Exercice 1.4.
1. Montrer que
n
X
(Yi − Ŷi )(Ŷi − Yn ) = 0, ps.
i=1
Théorème 1.3. Montrer, sous les notations précédentes, que SCT= SCE+ SCR
2. Montrer que |r̂| ≤ 1. Dans quels cas l’égalité est atteinte ? En déduire une interprétation
du r̂2 en rapport avec le modèle linéaire.
1.3.2 Synthèse
On considère le modèle linéaire ci-haut définit auquel on ajoute l’hypothèse suivante :
ϵ1 ∼ N (0, σ 2 )
Le modèle linéaire ainsi posé est dit Modèle linéaire gaussien.
Question 1.6. Lorsque le modèle linéaire est gaussien : quelle est la loi conditionnelle de
Yi /Xi = x, pour un x fixé. ?
Exercice 1.6.
1. Calculer la fonction de vraisemblance, (β, b) 7→ ni=1 fY1 |X1 =xi (yi ), fY1 |X1 =xi étant la
Q
ici zα/2 (resp. z1−α/2 ) désigne le quantile d’ordre α/2 (resp. d’ordre 1 − α/2) de la loi
de Khi-deux à n − p − 1 degrés de liberté.
Remarque. On rappelle que le modèle linéaire,
p
X (j)
Yi = b + β t Xi + ϵi = b + βj Xi + ϵi , 1 ≤ i ≤ n,
j=1
12 CHAPITRE 1. MÉMENTO
Pour voir si la variable explicative X (j) explique bien Y on peut faire le test
d’hypothèse suivant (dit test de Student) :
H0 : βj = 0
contre
H1 : βj ̸= 0.
La statistique du test est
((β̂n )j )
T = q ,
σ̂ [(Xt X)−1 ]j+1,j+1
dont la loi sous H0 est la loi de Student à n − p − 1 degrés de liberté. On note par Tcal La
valeur calculée de T sur les observations.
1. Si |Tcal | ≥ tn−p−1,1−α/2 alors on rejettera H0 au seuil α sinon H0 est conservée.
2. La p-paleur de ce test est 2(1 − FT (|Tcal |)), FT étant la fonction de répartition de la
loi de Student à n − p − 1 degrés de liberté.
H0 : β1 = · · · = βp = 0.
on note que b̂n et β̂n sont construits à partir des observations (Xi , Yi )1≤i≤n supposées indé-
pendantes de (Xnew , Ynew ) et que,
1. Montrer que la v.a. Ŷnew − Ynew suit une loi normale centrée et de variance
" !#
2 t −1 1
σ 1 + (1, Xnew )(X X)
Xnew
1.4.2 Synthèse
On a supposé, les hypothèses de modélisation, ci-dessous :
— la linéarité du modèle,
— l’homoscédasticité i.e. la variance du bruit est une constante qu’on a noté σ 2 ,
— la normalité du bruit (il suit la loi normale centrée et de variance σ 2 ),
— l’indépendance des v.a. (Xi , Yi )1≤i≤n
Sans ces hypothèses, les résultats mathématiques développés dans la section 1.3 ne seront pas
corrects. Il est très utile de s’assurer donc que ces hypothèses, sont réalistes sur les observations
(xi , yi )1≤i≤n . Le graphique des résidus est un outil important afin d’avoir une idée sur la
validité des hypothèses de modélisation. En principe, le graphe des résidus est la première
chose à faire une fois l’estimation du modèle linéaire est faite.
Non linéarité
Si le graphique des résidus (les résidus sont sur l’axe vertical des ordonnées et les valeurs
prédites sont sur l’axe horizontal des abscisses) montre un motif curviligne, cela peut indiquer
une relation non linéaire entre les variables, c’est-à-dire un modèle de régression non linéaire
pourrait être plus approprié. Le graphique doit être approximativement horizontal s’il y a
bien une relation linéaire.
14 CHAPITRE 1. MÉMENTO
Homoscédasticité
L’hypothèse d’homoscédasticité semble être vérifiée si le nuage de points n’a pas de forme
particulière, c’est-à-dire des résidus sont homogènes autour de zéro. Le nuage de points aura
une dispersion uniforme autour de la ligne horizontale des résidus nuls, indiquant l’homoscé-
dasticité. Sinon cela peut indiquer une hétéroscédasticité, violant l’hypothèse d’homoscédas-
ticité.
Normalité
La distribution des résidus peut être décrite graphiquement par un histogramme ou par un
diagramme quantile-quantile. Ce dernier représente les quantiles de la distribution empirique
des observations (yi − ŷi )1≤i≤n en fonction des quantiles de la distribution normale adéquate :
les points doivent être presque alignés.
L’analyse des graphiques donne des idées sur la validation des hypothèses de modélisation
qu’on devrait les approfondir avec des outils théoriques qui sortent de l’objectif de ce guide.
Par exemple, le test de Breuch et Pagan permet de tester si on peut conserver l’hypothèse
d’homoscédasticité ou non, le test de Rainbow permet de tester l’hypothèse de la linéarité du
modèle, le test de Shapiro-Wilk pour tester la normalité du bruit.
QQ plots
Le graphique QQ plots compare les quantiles (donc la distribution de probabilité) des
résidus du modèle à ceux (donc à une distribution de probabilité) d’une loi normale. Il permet
donc de vérifier graphiquement l’hypothèse de la normalité.
Échelle localisée
permet de vérifier si la dispersion des résidus augmente pour une valeur prédite donnée (i.e.
si la dispersion des résidus est causée par la variable explicative). Si la dispersion augmente,
la condition de base d’homoscédasticité n’est pas respectée.
1.4. VÉRIFICATION GRAPHIQUE DES HYPOTHÈSES DE MODÉLISATION 15
Figure 1.4 – Graphique des résidus : en abscisses les valeurs (ŷi )i et en ordonnées (ϵ̂i )i
Figure 1.5 – À gauche le modèle linéaire ne semble pas être adapté. À droite l’hypothèse
d’hétéroscédasticité semble plus raisonnable. Graphiques tirées de [2].
16 CHAPITRE 1. MÉMENTO
Figure 1.8 – Ces graphiques concernent le modèle linéaire gaussien Yi = Xi +ϵi , ϵi ∼ N (0, 1).
Figure 1.9 – Ces graphiques concernent le modèle linéaire gaussien mais dans un cas d’hé-
téroscédasticité : Yi = Xi + ϵi , ϵi ∼ N (0, Xi4 ).
18 CHAPITRE 1. MÉMENTO
Chapitre 2
Problématiques
2.1 Problématique I
Les observations, ci-dessous, donnent les vitesses (en mph) de 50 voitures (variable speed)
et les distances de freinage (variable dist.) (unité pieds). Source : ici. L’objectif est de com-
prendre, en se basant sur 50 observations, l’effet de la vitesse sur la distance de freinage. Cela
permettra d’avertir, entre autres, sur le danger des excès de vitesse.
19
20 CHAPITRE 2. PROBLÉMATIQUES
(EI) Conclure
Synthétiser vos résultats et donner une conclusion concrète (en rapport avec le problème
posé).
2.2. PROBLÉMATIQUE II 21
Figure 2.1 – Ici p = 2. Le graphique, tiré de [4], représente le nuage de points et l’hyperplan
obtenu par la méthode MCO. La modélisation linéaire est-elle bien adaptée ?
2.2 Problématique II
On cherche à comprendre la vente Y d’un produit à l’aide des investissements publicitaires
à la radio X (1) et à la télévision X (2) . Cela permettra de comprendre comment l’investisse-
ment publicitaire, par ces deux moyens, expliquera les ventes et aussi de pouvoir prendre des
décisions sur les montants à investir, en publicité, à la radio et à la télévision.
Les points rouges de la figure (2.1) représentent les nuages de points (xi , yi )1≤i≤n avec
(1) (2)
xi = (xi , xi )t , n étant le nombre d’entreprises sur lesquelles portent l’enquête.
Sur le graphique 2.1, les traits verticaux en noirs sont les résidus (yi − ŷi )1≤i≤n .
Question. Expliquer en se basant sur le graphique (2.1) qu’un modèle non linéaire semble
mieux expliquer les données.
Bibliographie
23
Index
Coefficient de détermination, 9
Corrélation empirique, 10
Covariance empirique, 6
Critère des moindres carrés ordinaires, 5
Estimateur linéaire, 7
Estimateurs des moindres carrés ordinaires, 5
Fonction de régression, 5
Homoscédasticité, 4
Hypothèses de modélisation, 1, 13
Intervalle de prédiction, 13
Matrice chapeau, 8
Modèle linéaire multiple, 3
Modèle linéaire simple, 3
Modèle statistique, 1
Modéliser, 3
Moyenne empirique, 6
Résidus, 7
Test de Fisher, 12
Test de Student, 12
Théorème de Gauss-Markov, 8
Variance empirique, 6
24
Table des figures
1.1 Nuage de points et point moyen du nuage. La relation semble être linéaire. On
peut la modéliser par un modèle linéaire simple (ici p = 1) et étudier ensuite
les pertinences de ce modèle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Nuage de points et droite MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Ici p = 2. On voudrait expliquer le revenu Y (Income) à l’aide du nombre
d’années d’études X (1) (Years of Education) et de l’ancienneté X (2) (seniority).
Les points rouges sont le nuage des points. L’hyperplan est celui obtenu, en
estimant les paramètres du modèle linéaire multiple par MCO. Il permet de
déduire des prédictions d’un revenu pour une ancienneté et un nombre d’années
d’études donnés Ŷ = b̂ + β̂1 X (1) + β̂2 X (2) . Les traits verticaux noirs sont les
résidus i.e. Yi − Ŷi . Cet exemple est tiré de [4]. . . . . . . . . . . . . . . . . . . 8
1.4 Graphique des résidus : en abscisses les valeurs (ŷi )i et en ordonnées (ϵ̂i )i . . . 15
1.5 À gauche le modèle linéaire ne semble pas être adapté. À droite l’hypothèse
d’hétéroscédasticité semble plus raisonnable. Graphiques tirées de [2]. . . . . . 15
1.6 QQplot : quantiles empiriques en fonction des quantiles théoriques. . . . . . . . 16
1.7 Ces graphiques concernent le modèle gaussien et non-linéaire Yi = Xi2 + ϵi ,
ϵi ∼ N (0, 1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.8 Ces graphiques concernent le modèle linéaire gaussien Yi = Xi + ϵi , ϵi ∼ N (0, 1). 17
1.9 Ces graphiques concernent le modèle linéaire gaussien mais dans un cas d’hé-
téroscédasticité : Yi = Xi + ϵi , ϵi ∼ N (0, Xi4 ). . . . . . . . . . . . . . . . . . . . 17
25
26 TABLE DES FIGURES
Notations
27