0% ont trouvé ce document utile (0 vote)
11 vues32 pages

Mod Lin Hal

Transféré par

patricktartarin92
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
11 vues32 pages

Mod Lin Hal

Transféré par

patricktartarin92
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Guide pour une leçon de modélisation stochastique.

Modèle linéaire et modèle linéaire gaussien : calculs par


moindres carrés et par maximum de vraisemblance.
Applications
Sana Louhichi

To cite this version:


Sana Louhichi. Guide pour une leçon de modélisation stochastique. Modèle linéaire et modèle linéaire
gaussien : calculs par moindres carrés et par maximum de vraisemblance. Applications. Master.
France. 2024. �hal-04520571�

HAL Id: hal-04520571


https://hal.science/hal-04520571v1
Submitted on 25 Mar 2024

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est


archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
De l’observation à la théorie..
De la pomme tombée à la loi de la gravitation universelle..

Guide pour une leçon de modélisation stochastique.

Modèle linéaire et modèle linéaire gaussien : calculs par


moindres carrés et par maximum de vraisemblance.
Applications.

Sana Louhichi,
E.mail : [email protected]
Univ. Grenoble Alpes, CNRS, Grenoble INP, LJK Grenoble, France.
ii
Table des matières

Avant-propos 1

1 Mémento 3
1.1 Modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Mots clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Qualité du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.1 Mots clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Modèle linéaire gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1 Mots clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Vérification graphique des hypothèses de modélisation . . . . . . . . . . . . . . . . . . . 13
1.4.1 Mots clés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.2 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.3 Illustrations Graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 Problématiques 19
2.1 Problématique I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Problématique II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

BIBLIOGRAPHIE 23

Index 23

Table des figures 25

Notations 27

iii
iv TABLE DES MATIÈRES
Avant-propos

Ce manuscrit est sous la forme d’un guide plutôt que d’un cours détaillé classique. Il s’adresse à
toute personne ayant une formation en mathématiques et souhaitant approfondir ses connaissances en
probabilités et statistique en rapport avec la modélisation.
Dans le même esprit que [5], ce guide se présente sous la forme d’un mémento qui rappelle les
résultats théoriques utiles, et parfois indispensables, à maîtriser pour la leçon de modélisation en
question. Les résultats sont énoncés sous la forme d’un résumé et donc sans démonstration mais souvent
accompagnés par des illustrations graphiques. L’auteur intéressé trouvera sans doute les démonstrations
des résultats de son intérêt. Des mots clés sont détaillés pour chaque section du mémento, orientant
ainsi vers le cœur du sujet. Des questions et des exercices sont posés au fur et à mesure de la progression
du texte. Le mémento sera utile pour la résolution des problèmes de modélisation du second chapitre.
Ce présent guide concerne un problème de régression et plus précisément un problème de régression
linéaire. On observe sur n individus les vecteurs (xi , yi )1≤i≤n avec yi des mesures quantitatives. Par
exemple :
— n étant le nombre de disques, xi est le rayon du ième disque et yi son périmètre. L’objectif est
d’étudier expérimentalement la relation mathématique,
Périmètre d’un disque = 2π· (son rayon).
— n étant le nombre de voitures, xi la vitesse de la ième voiture, yi sa distance de freinage. Étudier
la relation entre ces deux grandeurs permet de comprendre comment la vitesse influe sur la
distance de freinage et aussi de pouvoir prédire une distance de freinage pour une vitesse donnée,
ce qui permettra de donner des consignes pratiques aux conducteurs (voir Problématique I).
La modélisation linéaire suppose que cette relation est linéaire :
La distance de freinage ∼ b+ β · la vitesse,
(∼ pour dire à-peu-prés), il convient donc d’écrire ce modèle et d’estimer entre autres, en se
basant sur les observations (xi , yi )i , les paramètres b et β.
— n étant le nombre de patients. yi taux de de glycémie à jeun dans le sang du ième patient,
xi des mesures numériques en rapport avec ce patient, par exemple xi est le vecteur (âge,
poid, nombre d’heures de sports pratiqués par jour, mesure de l’hypertension artérielle) =
(1) (2) (3) (4)
(xi , xi , xi , xi ). Étudier la relation entre yi et xi permet de la comprendre, de prédire et
de donner des conseils préventifs. Supposer que la relation est linéaire, revient à dire :
taux de de glycémie ∼ b + β1 · âge + β2 · poid+ β3 · (nombre d’heures de sports pratiqués
par jour)+ β4 · hypertension artérielle.
Là aussi, il convient d’écrire ce modèle et d’estimer entre autres, en se basant sur les observations
(xi , yi )i , les paramètres b et β = (β1 , β2 , β3 , β4 ).
Aprés avoir observé et analysé descriptivement les données, l’étape serait de poser un modèle statistique
i.e. une formulation mathématique permettant d’expliquer les observations et de décrire le plus possible
la réalité. L’étude du modèle nécessite souvent des hypothèses de modélisation i.e. des conditions et des
suppositions utiles pour étudier le modèle. Les conclusions qu’on peut tirer du modèle dépendant de
ces hypothèses de modélisation. Il convient donc d’étudier la validité de ces hypothèses. Les simulations

1
2 TABLE DES MATIÈRES

ainsi que les outils graphiques permettent d’orienter vers la validité ou non d’une ou de telles hypothèses
de modélisation. C’est l’objectif de la section 1.4.
Les références, à ce sujet, sont nombreuses. Une liste non exhaustive est donnée à la fin de ce
manuscrit.
Chapitre 1

Mémento

1.1 Modèle linéaire


1.1.1 Mots clés
Fonction de régression, modèle linéaire simple, modèle linéaire multiple, variables ex-
plicatives, variable à expliquer, bruit, estimation des paramètres par la méthode des
moindres carrées, droite des moindres carrés, estimateurs des moindres carrés, estima-
teur BLUE (Best Linear Unbiased Estimator), résidus.

1.1.2 Synthèse
Soient (Xi , Yi )1≤i≤n des v.a. i.i.d. de même loi que le couple (X, Y ) à valeurs dans Rp × R,
p ∈ N \ {0}.

On cherche à modéliser la relation entre X et Y afin de comprendre et de prédire.


— Y est la variable à expliquer ou la variable réponse
— Les composantes du vecteur X sont les variables explicatives ou prédicteurs.
Un modèle linéaire est un modèle statistique paramétrique qui suppose que la relation entre
Y et X est linéaire. Afin de mieux s’approcher de la réalité, cette relation linéaire est supposée
imparfaite i.e. on ajoute à cette relation un « bruit »

Définition 1.1. On appelle modèle linéaire liant X à Y , le modèle

Y = β t X + b + ϵ,

avec E(ϵ2 ) < ∞,


E(ϵ|X) = 0, V ar(ϵ|X) = σ 2 , ps. 1
Le modèle linéaire est dit simple si p = 1 sinon il est dit multiple.
1. Noter que E(ϵ|X) et V ar(ϵ|X) sont deux v.a. σ(X)-mesurable.

3
4 CHAPITRE 1. MÉMENTO

Figure 1.1 – Nuage de points et point moyen du nuage. La relation semble être linéaire. On
peut la modéliser par un modèle linéaire simple (ici p = 1) et étudier ensuite les pertinences
de ce modèle.

Remarque. La régression linéaire se caractérise par des variables explicatives quantita-


tives. L’ANOVA, quant à elle, concerne des variables explicatives qualitatives.

Notons que,
— (X, Y ) est de loi inconnue mais on dispose d’un échantillon aléatoire observable (Xi , Yi )1≤i≤n
de loi (X, Y ).
— β ∈ Rp et b ∈ R sont les paramètres inconnus et non aléatoire du modèle, β est le
vecteur poids, b est dit le biais (intercept en anglais).
— ϵ est une v.a. non observable qu’on appelle bruit, elle décrit l’erreur.

Sur l’échantillon (Xi , Yi )1≤i≤n , le modèle linéaire s’écrit,


Yi = β t Xi + b + ϵi ,
et ϵ1 , · · · ϵn sont i.i.d. et vérifient E(ϵ21 ) < ∞,
E(ϵi |Xi ) = 0, Var(ϵi |Xi ) = σ 2 , ps.
L’hypothèse de modélisation Var(ϵi |Xi ) = σ 2 est dite d’homoscédasticité .

Remarque. Le modèle linéaire s’écrit, sous une forme matricielle,


Y = Xβ̃ + ϵ,
1.1. MODÈLE LINÉAIRE 5

avec,    
Y1 ϵ1
 .  .
 ..   ..  !
    b
Y =  Yi  ϵ =  ϵi  β̃ =
   
 .  . β
 .  .
 .  .
Yn ϵn
X1t
 
1
 1 X2t 
X=
 
· · · · · ·

1 Xnt
X est une matrice à n lignes et (p + 1) colonnes.
Question 1.1. Pourquoi l’hypothèse de modélisation E(ϵ|X) = 0 ps est-elle raisonnable pour
décrire un modèle linéaire ?
Exercice 1.1.
On suppose que E(|Y |) < ∞. On appelle la fonction de régression de Y sur X, la fonction
réelle r définie sur Rp , pour x ∈ Rp , par

r(x) = E(Y |X = x).

On considère le modèle introduit dans la définition (1.1). Montrer que

r(x) = β t x + b,

et que p.s.,
Y = r(X) + ϵ.
La question qui se pose maintenant est : quel est le critère à utiliser afin d’estimer (à l’aide
des observations (Xi , Yi )1≤i≤n ), les paramètres du modèle linéaire introduit dans la définition
1.1 ?.
Définition 1.2. Le critère des moindres carrés ordinaires (MCO) est défini par,
n
X
C(β, b, (Xi , Yi )1≤i≤n ) = (Yi − β t Xi − b)2 .
i=1

Les estimateurs des moindres carrés ordinaires de β et b sont les minimiseurs (lorsqu’ils
existent) de la fonction :
(β, b) 7→ C(β, b, (Xi , Yi )1≤i≤n ),
en d’autres termes,

(β̂n , b̂n ) ∈ argminβ∈Rp ,b∈R C(β, b, (Xi , Yi )1≤i≤n ). (1.1)

Question 1.2. Que représente intuitivement le critère des moindres carrés (on peut considérer
le cas p = 1 et représenter le nuage de points (xi , yi )1≤i≤n ).
6 CHAPITRE 1. MÉMENTO

Question 1.3. Discuter l’existence et l’unicité de la solution de (1.1).


Exercice 1.2.
On suppose, dans cet exercice, que p = 1 (i.e. cas du modèle linéaire simple).
1. Montrer que
Sx,y
β̂n = , b̂n = Y n − β̂n X n ,
Sx2
avec
n n
1X 1X
Sx,y = Xi Yi − X n Y n = (Xi − X n )(Yi − Y n )
n i=1 n i=1
n n
1X 2 1X
Sx2 = Xi2 − X n = (Xi − X n )2 .
n i=1 n i=1

On rappelle que X n (de même pour Y n ) est la moyenne empirique de l’échantillon


(X1 , · · · , Xn ), Sx2 est sa variance empirique, le point (X n , Y n ) est dit le point moyen
du nuage des points et Sx,y est la covariance empirique des deux échantillons.
2. La droite d’équation y = β̂n x + b̂n est appelée droite des moindres carrés . Vérifier que
cette droite passe par le point moyen (X n , Y n ) du nuage des points (Xi , Yi )1≤i≤n .
3. Montrer qu’un estimateur sans biais de σ 2 est donnée par
n
1 X
σ̂ 2 = ϵ̂2 ,
n − 2 i=1 i

avec ϵ̂i = Yi − Ŷi et Ŷi = β̂n Xi + b̂n .

Théorème 1.1. On suppose maintenant que p ∈ N \ {0}. Alors (b̂n , β̂n )t existe et est unique
si Xt X est inversible et dans ce cas,
 −1
(b̂n , β̂n )t = Xt X Xt Y.

La démonstration du théorème 1.1 est en exercice.


Question 1.4. 1. Montrer que Xt X est inversible si et seulement le rang de X est p + 1.
2. Vérifier que si p + 1 > n alors la matrice Xt X n’est pas inversible. Interpréter concrè-
tement la condition p + 1 > n.
Proposition 1.1. On suppose que la matrice X est déterministe. Alors,
" !# ! " !#
b̂n b b̂n  −1
E = , Var = σ 2 Xt X .
β̂n β β̂n

La démonstration de la proposition 1.1 est en exercice (pour rappel : l’espérance d’un


vecteur aléatoire est le vecteur des espérances. La variance d’un vecteur aléatoire est la matrice
de covariances (donc dont les termes diagonaux sont les variances des marginales du vecteur)).
1.1. MODÈLE LINÉAIRE 7

Figure 1.2 – Nuage de points et droite MCO

Exercice 1.3.
Montrer que pour tout x ∈ Rp ,

n
X
b̂n + β̂nt x = wn,i (x)Yi ,
i=1

wn,i (x) sont des poids à déterminer, ne dépendant que de (Xi )1≤i≤n , x, n. On dit que l’esti-
mateur (b̂n , β̂n )t est linéaire (à ne pas confondre avec la définition de modèle linéaire).

Remarque. Une prédiction de Ynew non observé, selon ce modèle, pour un Xnew donné
est donc,
Ŷnew = b̂n + β̂nt Xnew

Question 1.5. On pose,


Ŷi = b̂n + β̂nt Xi

Quelle est la différence entre Yi et Ŷi ?. Illustrer graphiquement la réponse. Que représente
Yi − Ŷi ?

Définition 1.3. On appelle les résidus, les v.a. ϵ̂i = Yi − Ŷi . Le vecteur des résidus est le
8 CHAPITRE 1. MÉMENTO

Figure 1.3 – Ici p = 2. On voudrait expliquer le revenu Y (Income) à l’aide du nombre


d’années d’études X (1) (Years of Education) et de l’ancienneté X (2) (seniority). Les points
rouges sont le nuage des points. L’hyperplan est celui obtenu, en estimant les paramètres du
modèle linéaire multiple par MCO. Il permet de déduire des prédictions d’un revenu pour
une ancienneté et un nombre d’années d’études donnés Ŷ = b̂ + β̂1 X (1) + β̂2 X (2) . Les traits
verticaux noirs sont les résidus i.e. Yi − Ŷi . Cet exemple est tiré de [4].

vecteur  
ϵ̂1
.
 .. 
 
ϵ̂ =  ϵ̂i  = Y − Ŷ = (In − H)Y,
 
.
.
.
ϵ̂n
−1
In est la matrice identité d’ordre n et H = X Xt X Xt . La matrice H est dite matrice
chapeau, elle transforme Y en Ŷ,
Ŷ = HY.

Proposition 1.2. Un estimateur sans biais de σ 2 est donné par,


n
1 X
σ̂n2 = (Yi − Ŷi )2 .
n − p − 1 i=1

Théorème 1.2. Théorème de Gauss-Markov. Parmi tous les estimateurs linéaires non biai-
sés, l’estimateur des moindres carrés présente une variance minimale. (On dit que l’estimateur
des moindres carrés est BLUE (Best Linear Unbiaised Estimator)).

La démonstration est en exercice.


1.2. QUALITÉ DU MODÈLE 9

1.2 Qualité du modèle


1.2.1 Mots clés
Décomposition de la variance, coefficient de détermination R2

1.2.2 Synthèse
La Somme des Carrés Totale SCT est définie par :
n
X
SCT = (Yi − Yn )2
i=1

c’est la variation totale des (Yi )1≤i≤n autour de leur moyenne Yn ,


La Somme des Carrés des Résidus est :
n
X
SCR = (Yi − Ŷi )2 ,
i=1

représente la variance résiduelle ou non expliquée.


La Somme des Carrés expliquées est :
n
X
SCE = (Ŷi − Yn )2
i=1

représente la variance expliquée par le modèle (donne la variation des valeurs ajustées
autour de la moyenne ).

Exercice 1.4.

1. Montrer que
n
X
(Yi − Ŷi )(Ŷi − Yn ) = 0, ps.
i=1

2. Vérifier que le vecteur Ŷ = (Ŷ1 , · · · , Ŷn )t est la projection orthogonale du vecteur Y


sur l’espace vectoriel engendré par (1, X (1) , · · · , X (p) ) avec 1 = (1, 1, · · · , 1)t .

Théorème 1.3. Montrer, sous les notations précédentes, que SCT= SCE+ SCR

Le coefficient de détermination R2 est défini par,


SCE
R2 =
SCT
1. 0 ≤ R2 ≤ 1
2. Lorsque R2 = 0, le modèle n’explique rien, les variables X et Y ne semblent pas être
linéairement corrélées.
10 CHAPITRE 1. MÉMENTO

3. Lorsque R2 = 1, les points sont alignés sur la droite.


4. Une valeur de R2 proche de 1 indique une forte corrélation linéaire.
Exercice 1.5.

1. Montrer que pour un modèle linéaire simple, le coefficient de détermination R2 n’est


autre que r̂2 le carré du coefficient de corrélation empirique, r̂, définit par :
Pn
i=1 (Xi − X n )(Yi − Y n )
r̂ = qP
n Pn
i=1 (Xi − X n )2 i=1 (Yi − Y n )2

2. Montrer que |r̂| ≤ 1. Dans quels cas l’égalité est atteinte ? En déduire une interprétation
du r̂2 en rapport avec le modèle linéaire.

1.3 Modèle linéaire gaussien


Afin de pouvoir construire des intervalles de confiance et de faire des tests d’hypothèse
sur les paramètres du modèle linéaire, on devrait avoir plus d’informations sur la loi du bruit
ϵ1 . C’est l’objectif de cette section.

1.3.1 Mots clés


Loi normale, estimation des paramètres par maximum de vraisemblance, intervalles de
confiance, intervalles de prédiction, tests d’hypothèse (tests de significativité, tests sur
les paramètres)

1.3.2 Synthèse
On considère le modèle linéaire ci-haut définit auquel on ajoute l’hypothèse suivante :

ϵ1 ∼ N (0, σ 2 )
Le modèle linéaire ainsi posé est dit Modèle linéaire gaussien.

Question 1.6. Lorsque le modèle linéaire est gaussien : quelle est la loi conditionnelle de
Yi /Xi = x, pour un x fixé. ?
Exercice 1.6.

1. Calculer la fonction de vraisemblance, (β, b) 7→ ni=1 fY1 |X1 =xi (yi ), fY1 |X1 =xi étant la
Q

densité conditionnelle de la loi de Y1 sachant X1 = xi .


2. Chercher son maximum et conclure.
Proposition 1.3. On suppose que le modèle linéaire et gaussien et que X est déterministe.
Alors,
1.3. MODÈLE LINÉAIRE GAUSSIEN 11
! !
b̂n b −1
1. Le vecteur est un vecteur gaussien d’espérance et de variance σ 2 Xt X
β̂n β
2. Le vecteur résidu ϵ̂ est un vecteur gaussien centré et de variance σ 2 (In − H).
!
b
3. Ŷ est un vecteur gaussien, d’espérance X et de variance σ 2 H.
β
4. Ŷ et ϵ̂ sont deux vecteurs aléatoires indépendants.
5. (n − p − 1)σ̂ 2 /σ 2 suit la loi de Khi-deux à (n − p − 1) degrés de libertés.
La démonstration de la proposition 1.3 est en exercice (elle repose beaucoup sur la défini-
tion et les propriétés d’un vecteur gaussien).
Les résultats ci-dessous sont une conséquence immédiate de la proposition 1.3 (démonstration
−1 −1
en exercice). On notera par [ Xt X ]i,i le ième terme diagonal de la matrice Xt X .
−1
Question 1.7. À quoi correspond le terme σ 2 [ Xt X ]i,i pour 1 ≤ i ≤ p + 1 ?
Proposition 1.4. On a, sous les hypothèses de la proposition 1.3,
q
1. (b̂n − b)/σ [(Xt X)−1 ]1,1 suit la loi normale centrée réduite sur R.
q
2. (b̂n − b)/σ̂ [(Xt X)−1 ]1,1 suit la loi de Student à (n − p − 1) degrés de liberté.
3. On note par (β̂n )j la j-ième composante du vecteur β̂n et par βj celle du vecteur β. On
a de même : q
((β̂n )j − βj )/σ [(Xt X)−1 ]j+1,j+1 suit la loi normale centrée réduite sur R.
q
((β̂n )j − βj )/σ̂ [(Xt X)−1 ]j+1,j+1 suit la loi de Student à (n − p − 1) degrés de
liberté.
Corollaire 1.1. 1. Un intervalle de confiance pour βj (lorsque σ est inconnu) au niveau
1 − α, est  q 
−1
(β̂n )j ± tn−p−1,1−α/2 σ̂ [(Xt X) ]j+1,j+1 ,

tn−p−1,1−α/2 est le quantile d’ordre 1 − α/2 de la loi de Student à n − p − 1 degrés de


liberté. Un intervalle est analogue pour la constante b du modèle.

2. Un intervalle de confiance pour σ 2 au niveau 1 − α, est


" #
(n − p − 1)σ̂ 2 (n − p − 1)σ̂ 2
, ,
z1−α/2 zα/2

ici zα/2 (resp. z1−α/2 ) désigne le quantile d’ordre α/2 (resp. d’ordre 1 − α/2) de la loi
de Khi-deux à n − p − 1 degrés de liberté.
Remarque. On rappelle que le modèle linéaire,
p
X (j)
Yi = b + β t Xi + ϵi = b + βj Xi + ϵi , 1 ≤ i ≤ n,
j=1
12 CHAPITRE 1. MÉMENTO

Pour voir si la variable explicative X (j) explique bien Y on peut faire le test
d’hypothèse suivant (dit test de Student) :

H0 : βj = 0

contre
H1 : βj ̸= 0.
La statistique du test est
((β̂n )j )
T = q ,
σ̂ [(Xt X)−1 ]j+1,j+1
dont la loi sous H0 est la loi de Student à n − p − 1 degrés de liberté. On note par Tcal La
valeur calculée de T sur les observations.
1. Si |Tcal | ≥ tn−p−1,1−α/2 alors on rejettera H0 au seuil α sinon H0 est conservée.
2. La p-paleur de ce test est 2(1 − FT (|Tcal |)), FT étant la fonction de répartition de la
loi de Student à n − p − 1 degrés de liberté.

Test global de significativité de la régression (test de Fisher) : l’objectif est de tester


si tous les coefficients sont nuls, excepté la constante b du modèle.

H0 : β1 = · · · = βp = 0.

La statistique du test est donnée par :


SCE/p R2 n − p − 1
F = = ,
SCR/(n − p − 1) 1 − R2 p
qui suit une loi de Fisher à p et n − p − 1 degrés de libertés. On rejettra H0 au seuil α (i.e.
on dira que les coefficients du modèle sont conjointement significatifs) si Fcal est supérieur au
quantile d’ordre 1 − α d’une loi de Fisher à p et n − p − 1 degrés de libertés. La p-valeur de
ce test est :
1 − Φp,n−p−1 (Fcalc ),
Φp,n−p−1 est la fonction de répartition de la loi de Fisher à p et n − p − 1 degrés de libertés.
Exercice 1.7.
Soit Xnew donné et observé, Ynew la variable réponse associée qui est non observée mais Ŷnew
est une prédiction de Ynew et est donc calculable. On a,

Ŷnew = b̂n + β̂nt Xnew ,

on note que b̂n et β̂n sont construits à partir des observations (Xi , Yi )1≤i≤n supposées indé-
pendantes de (Xnew , Ynew ) et que,

Ynew = b + β t Xnew + ϵnew .

On suppose que Xnew , X sont déterministes.


1.4. VÉRIFICATION GRAPHIQUE DES HYPOTHÈSES DE MODÉLISATION 13

1. Montrer que la v.a. Ŷnew − Ynew suit une loi normale centrée et de variance
" !#
2 t −1 1
σ 1 + (1, Xnew )(X X)
Xnew

2. En en déduire que l’intervalle


 v" !#
u
u 1
Ŷnew ± tn−p−1,1−α/2 σ̂ t 1 + (1, Xnew )(X
t X)−1 
Xnew

contient Ynew avec la probabilité 1 − α, tn−p−1,1−α/2 étant le quantile d’ordre 1 − α/2


de la loi de student à n − p − 1 degrés de libertés.
Il s’agit d’un intervalle de prédiction pour Ynew (à ne pas confondre avec un intervalle de
confiance).

1.4 Vérification graphique des hypothèses de modélisation


1.4.1 Mots clés
Hypothèses de modélisation, analyse des résidus, graphes des résidus, QQplot.

1.4.2 Synthèse
On a supposé, les hypothèses de modélisation, ci-dessous :
— la linéarité du modèle,
— l’homoscédasticité i.e. la variance du bruit est une constante qu’on a noté σ 2 ,
— la normalité du bruit (il suit la loi normale centrée et de variance σ 2 ),
— l’indépendance des v.a. (Xi , Yi )1≤i≤n
Sans ces hypothèses, les résultats mathématiques développés dans la section 1.3 ne seront pas
corrects. Il est très utile de s’assurer donc que ces hypothèses, sont réalistes sur les observations
(xi , yi )1≤i≤n . Le graphique des résidus est un outil important afin d’avoir une idée sur la
validité des hypothèses de modélisation. En principe, le graphe des résidus est la première
chose à faire une fois l’estimation du modèle linéaire est faite.

Non linéarité

Si le graphique des résidus (les résidus sont sur l’axe vertical des ordonnées et les valeurs
prédites sont sur l’axe horizontal des abscisses) montre un motif curviligne, cela peut indiquer
une relation non linéaire entre les variables, c’est-à-dire un modèle de régression non linéaire
pourrait être plus approprié. Le graphique doit être approximativement horizontal s’il y a
bien une relation linéaire.
14 CHAPITRE 1. MÉMENTO

Homoscédasticité
L’hypothèse d’homoscédasticité semble être vérifiée si le nuage de points n’a pas de forme
particulière, c’est-à-dire des résidus sont homogènes autour de zéro. Le nuage de points aura
une dispersion uniforme autour de la ligne horizontale des résidus nuls, indiquant l’homoscé-
dasticité. Sinon cela peut indiquer une hétéroscédasticité, violant l’hypothèse d’homoscédas-
ticité.

Normalité
La distribution des résidus peut être décrite graphiquement par un histogramme ou par un
diagramme quantile-quantile. Ce dernier représente les quantiles de la distribution empirique
des observations (yi − ŷi )1≤i≤n en fonction des quantiles de la distribution normale adéquate :
les points doivent être presque alignés.

L’analyse des graphiques donne des idées sur la validation des hypothèses de modélisation
qu’on devrait les approfondir avec des outils théoriques qui sortent de l’objectif de ce guide.
Par exemple, le test de Breuch et Pagan permet de tester si on peut conserver l’hypothèse
d’homoscédasticité ou non, le test de Rainbow permet de tester l’hypothèse de la linéarité du
modèle, le test de Shapiro-Wilk pour tester la normalité du bruit.

1.4.3 Illustrations Graphiques


Résidus VS Valeurs prédites
1. Si la relation est linéaire et le bruit est centré, les résidus seront dispersés de façon
aléatoire autour de la ligne de 0.
2. Dans le cas de l’homoscédasticité, les résidus forment une bande horizontale approxi-
mative autour de la ligne de 0 i.e. la variance des résidus est homogène .
3. Lorsque les résidus sont organisés en forme d’entonnoir, c’est qu’ils ne sont, probable-
ment, pas homoscédastiques.

QQ plots
Le graphique QQ plots compare les quantiles (donc la distribution de probabilité) des
résidus du modèle à ceux (donc à une distribution de probabilité) d’une loi normale. Il permet
donc de vérifier graphiquement l’hypothèse de la normalité.

Échelle localisée
permet de vérifier si la dispersion des résidus augmente pour une valeur prédite donnée (i.e.
si la dispersion des résidus est causée par la variable explicative). Si la dispersion augmente,
la condition de base d’homoscédasticité n’est pas respectée.
1.4. VÉRIFICATION GRAPHIQUE DES HYPOTHÈSES DE MODÉLISATION 15

Figure 1.4 – Graphique des résidus : en abscisses les valeurs (ŷi )i et en ordonnées (ϵ̂i )i

Figure 1.5 – À gauche le modèle linéaire ne semble pas être adapté. À droite l’hypothèse
d’hétéroscédasticité semble plus raisonnable. Graphiques tirées de [2].
16 CHAPITRE 1. MÉMENTO

Figure 1.6 – QQplot : quantiles empiriques en fonction des quantiles théoriques.

Figure 1.7 – Ces graphiques concernent le modèle gaussien et non-linéaire Yi = Xi2 + ϵi ,


ϵi ∼ N (0, 1).
1.4. VÉRIFICATION GRAPHIQUE DES HYPOTHÈSES DE MODÉLISATION 17

Figure 1.8 – Ces graphiques concernent le modèle linéaire gaussien Yi = Xi +ϵi , ϵi ∼ N (0, 1).

Figure 1.9 – Ces graphiques concernent le modèle linéaire gaussien mais dans un cas d’hé-
téroscédasticité : Yi = Xi + ϵi , ϵi ∼ N (0, Xi4 ).
18 CHAPITRE 1. MÉMENTO
Chapitre 2

Problématiques

2.1 Problématique I
Les observations, ci-dessous, donnent les vitesses (en mph) de 50 voitures (variable speed)
et les distances de freinage (variable dist.) (unité pieds). Source : ici. L’objectif est de com-
prendre, en se basant sur 50 observations, l’effet de la vitesse sur la distance de freinage. Cela
permettra d’avertir, entre autres, sur le danger des excès de vitesse.

(AI) Données et étude empirique


car speed dist car speed dist
1 4 2 21 14 36
2 4 10 22 14 60
3 7 4 23 14 80
4 7 22 24 15 20
5 8 16 25 15 26 car speed dist
6 9 10 26 15 54 41 20 52
7 10 18 27 16 32 42 20 56
8 10 26 28 16 40 43 20 64
9 10 34 29 17 32 44 22 66
10 11 17 30 17 40 45 23 54
11 11 28 31 17 50 46 24 70
12 12 14 32 18 42 47 24 92
13 12 20 33 18 56 48 24 93
14 12 24 34 18 76 49 24 120
15 12 28 35 18 84 50 25 85
16 13 26 36 19 36
17 13 34 37 19 46
18 13 34 38 19 68
19 13 46 39 20 32
20 14 26 40 20 48

19
20 CHAPITRE 2. PROBLÉMATIQUES

1. Quelle est la variable explicative ? Quelle est la variable à expliquer ?


2. Calculer, en utilisant un langage informatique de votre choix, les paramètres empiriques
de ces observations : les deux moyennes empiriques, les deux variances empiriques, la
covariance empirique..
3. Représenter graphiquement ce nuage de ces 50 points : en abscisses la variable speed,
en ordonnées la variable dist. Représenter sur ce même graphe le point moyen de ce
nuage de points. [Indication : voir la figure 1.1.]
4. Que constate-t-on ?

(BI) Hypothèses de modélisation et modèle linéaire


On dispose donc des observations (vi , di )1≤i≤n , n = 50. On suppose que ces 50 observations
sont des réalisations de v.a. (Vi , Di )1≤i≤n i.i.d. de loi inconnue. On introduit le modèle linéaire
suivant : pour 1 ≤ i ≤ n
Di = b + βVi + ϵi , E(ϵi |Vi ) = 0, Var(ϵ2i |Vi ) = σ 2 ps.
1. Écrire le critère des moindres carrés permettant d’estimer b et β à l’aide des observa-
tions (Vi , Di )1≤i≤n .
2. Écrire, en utilisant un logiciel informatique de votre choix, un programme permettant
de donner les estimations de b et β selon le critère des moindres carrés.
3. Exécuter le programme et donner l’équation de la droite des moindres carrés sur les
données ci-haut introduites. Représenter la graphiquement avec le nuage de points.
[indication : voir la figure 1.2.]

(CI) Analyse graphique et hypothèses de modélisations


1. Représenter graphiquement le nuage des points (ŷi , ϵ̂i ). Analyser ce graphique. [Indi-
cation : La figure 1.4 est un exemple de tel graphique.]
2. Faire un graphique donnant les quantiles des résidus standardisés aux quantiles de la
loi normale centrée réduite. Analyser le graphique obtenu.
3. Étudier graphiquement la validité du modèle linéaire gaussien ainsi que la validité des
différentes hypothèses de modélisation utilisées. [indication : voir le graphique 1.6].

(DI) Intervalles de confiance et tests d’hypothèse


On supposera que le modèle linéaire est gaussien.
1. Construire des intervalles de confiance des paramètres du modèle (en faisant les calculs
et aussi en utilisant le calcul d’un logiciel de votre choix).
2. Étudier la significativité du modèle.

(EI) Conclure
Synthétiser vos résultats et donner une conclusion concrète (en rapport avec le problème
posé).
2.2. PROBLÉMATIQUE II 21

Figure 2.1 – Ici p = 2. Le graphique, tiré de [4], représente le nuage de points et l’hyperplan
obtenu par la méthode MCO. La modélisation linéaire est-elle bien adaptée ?

2.2 Problématique II
On cherche à comprendre la vente Y d’un produit à l’aide des investissements publicitaires
à la radio X (1) et à la télévision X (2) . Cela permettra de comprendre comment l’investisse-
ment publicitaire, par ces deux moyens, expliquera les ventes et aussi de pouvoir prendre des
décisions sur les montants à investir, en publicité, à la radio et à la télévision.
Les points rouges de la figure (2.1) représentent les nuages de points (xi , yi )1≤i≤n avec
(1) (2)
xi = (xi , xi )t , n étant le nombre d’entreprises sur lesquelles portent l’enquête.

Si on suppose que le modèle est linéaire, il s’écrira


(1) (2)
Yi = b + β t Xi + ϵi = b + β1 Xi + β2 Xi + ϵi ,
avec,
E(ϵi |Xi ) = 0, Var(ϵi |Xi ) = σ 2 , ps.
Le critère des moindres carrés ordinaires de la définition 1.2 permet d’estimer les paramètres
b, β1 , β2 . Les expressions de ces estimateurs sont données par le théorème 1.1. L’équation de
l’hyperplan de la figure (2.1) est donc,
z = b̂ + β̂1 x + β̂2 y
et la prédiction,
Ŷ = b̂ + β̂1 X (1) + β̂2 X (2) .
22 CHAPITRE 2. PROBLÉMATIQUES

Sur le graphique 2.1, les traits verticaux en noirs sont les résidus (yi − ŷi )1≤i≤n .

Question. Expliquer en se basant sur le graphique (2.1) qu’un modèle non linéaire semble
mieux expliquer les données.
Bibliographie

[1] WikiStat cliquer ici et cliquer ici


[2] https://r.qcbs.ca/workshop04/book-fr/r%C3%A9gression-lin%C3%
A9aire-avec-r.html
[3] V. Rivoirard, G. Stoltz. Statistique mathématique en action, Master et Agrégation
externe de mathématiques (2e édition). Vuibert (2012).
[4] G. James, D. Witten, T. Hastie, R. Tibshirani. An Introduction to Statistical Learning
with Applications in R. Springer Texts in Statistics. (2021).
[5] S. Louhichi. Guide pour une leçon de modélisation stochastique. Fonctions de répar-
tition empiriques. Tests de Kolmogorov-Smirnov. Estimation des quantiles. Master.
France. Disponible https://hal.science/hal-04365615. (2023).

23
Index

Coefficient de détermination, 9
Corrélation empirique, 10
Covariance empirique, 6
Critère des moindres carrés ordinaires, 5

Droite des moindres carrés, 6

Estimateur linéaire, 7
Estimateurs des moindres carrés ordinaires, 5

Fonction de régression, 5

Graphique des résidus, 13

Homoscédasticité, 4
Hypothèses de modélisation, 1, 13

Intervalle de prédiction, 13

Matrice chapeau, 8
Modèle linéaire multiple, 3
Modèle linéaire simple, 3
Modèle statistique, 1
Modéliser, 3
Moyenne empirique, 6

Nuage des points, 6

Point moyen du nuage des points, 6


Prédiction, 7

Résidus, 7

Test de Fisher, 12
Test de Student, 12
Théorème de Gauss-Markov, 8

Variance empirique, 6

24
Table des figures

1.1 Nuage de points et point moyen du nuage. La relation semble être linéaire. On
peut la modéliser par un modèle linéaire simple (ici p = 1) et étudier ensuite
les pertinences de ce modèle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Nuage de points et droite MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Ici p = 2. On voudrait expliquer le revenu Y (Income) à l’aide du nombre
d’années d’études X (1) (Years of Education) et de l’ancienneté X (2) (seniority).
Les points rouges sont le nuage des points. L’hyperplan est celui obtenu, en
estimant les paramètres du modèle linéaire multiple par MCO. Il permet de
déduire des prédictions d’un revenu pour une ancienneté et un nombre d’années
d’études donnés Ŷ = b̂ + β̂1 X (1) + β̂2 X (2) . Les traits verticaux noirs sont les
résidus i.e. Yi − Ŷi . Cet exemple est tiré de [4]. . . . . . . . . . . . . . . . . . . 8
1.4 Graphique des résidus : en abscisses les valeurs (ŷi )i et en ordonnées (ϵ̂i )i . . . 15
1.5 À gauche le modèle linéaire ne semble pas être adapté. À droite l’hypothèse
d’hétéroscédasticité semble plus raisonnable. Graphiques tirées de [2]. . . . . . 15
1.6 QQplot : quantiles empiriques en fonction des quantiles théoriques. . . . . . . . 16
1.7 Ces graphiques concernent le modèle gaussien et non-linéaire Yi = Xi2 + ϵi ,
ϵi ∼ N (0, 1). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.8 Ces graphiques concernent le modèle linéaire gaussien Yi = Xi + ϵi , ϵi ∼ N (0, 1). 17
1.9 Ces graphiques concernent le modèle linéaire gaussien mais dans un cas d’hé-
téroscédasticité : Yi = Xi + ϵi , ϵi ∼ N (0, Xi4 ). . . . . . . . . . . . . . . . . . . . 17

2.1 Ici p = 2. Le graphique, tiré de [4], représente le nuage de points et l’hyperplan


obtenu par la méthode MCO. La modélisation linéaire est-elle bien adaptée ? . 21

25
26 TABLE DES FIGURES
Notations

BLUE Best Linear Unbiaised Estimator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8


I.I.D. indépendants et identiquements distribuées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
MCO Critère des moindres carrés ordinaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
P.S. Presque sûrement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
V.A. Variables ou vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

27

Vous aimerez peut-être aussi