0% ont trouvé ce document utile (0 vote)
22 vues67 pages

Resume Stat

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
22 vues67 pages

Resume Stat

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Résumé du cours de Statistiques

Inférentielles

I Echantillonage
1 Modèle statistique
On suppose que les variables aléatoires X1 , . . . , Xn sont indépendantes et identique-
ment distribuées (i.i.d.). tq Xi ∼ Pθ

On note le modèle statistique

(R, BR , (Pθ , θ ∈ Θ ⊂ Rp ))n .


En dehors de ce cadre, on parle de modèle non paramétrique ou semi-paramétrique
si Θ ⊂ Rk × U où U est non paramétrique.

a. Modèle dominé, vraisemblance


Considérons un modèle statistique (Rn , BRn , Q ∈ Q). Le modèle est dominé par
une mesure σ-finie µ sur (Rn , BRn ) si pour tout Q ∈ Q, Q est absolument continue
par rapport
Z à µ. Alors il existe une fonction de densité fQ telle que Q = fQ µ (i.e
Q(A) = fQ (x)dµ(x) pour tout A ∈ C). La fonction fQ est la vraisemblance (Like-
A
lihood en anglais) du modèle notée LQ (x) = fq (x). On note `Q (x) = log LQ (x) la
log vraisemblance.

Dans le cas d’un modèle d’échantillonage réel, la vraisemblance vaut

Lθ (x1 , . . . , xn ) = fθ (x1 ) × · · · × fθ (xn ).

1
2 Définition d’une statistique
• On appelle statistique toute variable aléatoire définie sur (Rn , BRn ) à valeurs
dans (Rk , BRk ).

• On utilisera la notation Tn pour une statistique. Elle ne dépend pas de la


famille de lois de probabilité Q. En particulier, dans un modèle paramétrique,
une statistique Tn ne dépend pas de θ. C’est la loi de probabilité de Tn qui
dépend de θ.

Remarque
On distingue :

• la statistique Tn qui est une variable aléatoire sur (Rn , B, Q). Dans l’exemple
précédent, c’est l’application moyenne empirique (on est ici au niveau con-
ceptuel, mathématique).

• la variable aléatoire Tn (X1 , . . . , Xn ) qui est une variable aléatoire sur (Ω, B).
Dans l’exemple précédent, c’est la variable aléatoire X n (on est ici au niveau
de la statistique inférentielle).

• la valeur observée de cette variable aléatoire : Tn (x1 , . . . , xn ) ∈ Rk . Dans


l’exemple précédent, c’est le nombre réel x̄n , moyenne empirique de la série
statistique x1 , . . . , xn (on est au niveau de la statistique descriptive).

3 Quelques notions de base sur les estimateurs


On considère dans cette section un modèle paramétrique réel d’échantillonage in-
dépendant :

(R, B, (Pθ , θ ∈ Θ ⊂ Rp ))n .

a. Définition d’un estimateur


Soit g une fonction définite sur Θ, à valeur dans Rp .

• On appelle estimateur d’un paramètre g(θ) toute statistique à valeur dans


(Rk , BRk ), il sera généralement noté Tn .

• On appelle estimation la valeur observée de Tn sur l’échantillon, elle sera notée


Tn (x1 , . . . , xn ).

2
b. Notion de biais
• On appelle biais de l’estimateur Tn pour le paramètre g(θ) la quantité

Bθ (Tn ) = IEθ [Tn ] − g(θ).

• On appelle estimateur sans biais de g(θ) un estimateur Tn tel que B(Tn ) = 0.

• Si B(Tn ) → 0 quand n → +∞, on dit que Tn est asymptotiquement sans biais


pour g(θ).

c. Convergence d’un estimateur


On dit que Tn est convergent pour g(θ) s’il converge en probabilité vers g(θ) :

∀ε > 0, P (|Tn − g(θ)| < ε) −→ 1 quand n → +∞.


Critères de convergence d’un estimateur

(i) Si Tn est un estimateur (asympt.) sans biais de g(θ) et si V(Tn ) −→ 0 quand


n → +∞, alors
Tn est un estimateur convergent pour g(θ).

d. Comparaisons des estimateurs


On utilise le risque quadratique pour comparer deux estimateurs du même paramètre
g(θ). Pour l’estimateur Tn de g(θ), il est défini par :

R(Tn , g(θ)) = IE[(Tn − g(θ))2 ].


Propriété : R(Tn , g(θ)) = (B(Tn ))2 + V(Tn ).

e. Moyenne aléatoire, variance aléatoire


Soit un modèle paramétrique réel d’échantillonage

(R, BR , (Pθ , θ ∈ Θ ⊂ Rp ))n


tel que la loi de probabilité Pθ admette pour espérance µ < ∞ et pour variance
0 < σ 2 < ∞.
Soit X = (X1 , . . . , Xn ) un vecteur aléatoire associé de ce modèle.

On appelle moyenne aléatoire la statistique


n
1X
Xn = Xi .
n i=1
On appelle variance aléatoire la statistique

3
n
1X
Vn = (Xi − X n )2 ,
n i=1
on verra ci-dessous que cet estimateur de la variance est biaisé, on lui préférera la
variance estimée :
n
1 X
Sn2 = (Xi − X n )2 .
n − 1 i=1

Proposition I.1 1. X n est un estimateur sans biais et convergent pour µ.

2. Vn est un estimateur biaisé mais asymptotiquement sans biais de σ 2 .


n
1 X
3. Sn2 = (Xi − X n )2 est un estimateur sans biais de σ 2 .
n − 1 i=1

4. Vn et Sn2 sont des estimateurs convergent de σ 2 .

II Estimation
• On reste dans le cadre du modèle :

(R, BR , (Pθ , θ ∈ Θ ⊂ R))n .

• Soit f (x, θ) la densité de la loi des Xi .

• Soit L la vraisemblance. On a :
L(x1 , . . . , xn , θ) = ni=1 f (xi , θ).
Q

• Soit X ⊂ R le support de f (x, θ) où

X = {x ∈ R | f (x, θ) > 0}.

1 Hypothèses fondamentales sur la densité f (x, θ)


(H1) X est indépendant de θ.

(H2) Θ est un ouvert.

∂ ∂2
(H3) ∂θ
f (x, θ) et ∂θ2
f (x, θ) sont définies ∀(x, θ) ∈ X × Θ.

4
(H4) On suppose que les dérivés et dérivés secondes de f par rapport à θ sont
dominées par des fonctions µ-intégrables sur tout compact inclu dans Θ : pour
tout compact K ⊂ Θ, il existe deux fonctions positive µ-intégrables φ(x) et
ψ(x) telles que pour tout θ ∈ K et presque tout x ∈ X ,

∂ ∂2
f (x, θ) ≤ φ(x) et f (x, θ) ≤ ψ(x).
∂θ ∂θ2

2 Information
a. Information de Fisher
Définition II.1 On appelle fonction score ou score la fonction S définie par :

S : X × Θ −→ R

(x, θ) 7−→ S(x, θ) = ∂θ
ln(f (x, θ))

Remarques.

• Le score n’est défini que si (H1), (H2) et (H3) sont vraies.

• On peut définir de même le score à partir de la vraisemblance.


Sn (x, θ) = ln(L(x, θ)) avec ici x ∈ Rn .
∂θ
Dans le modèle d’échantillonage, on a : Sn (x, θ) = ni=1 S(xi , θ).
P

Propriétés : Supposons (H4) vraie, on a alors :

IE[S(X, θ)] = 0 et IE[Sn (X, θ)] = 0.


Information au sens de Fisher

Définition II.2 On appelle information de Fisher la fonction I définie par :

I : Θ −→ R+
θ 7−→ I(θ) = IE (S(X, θ))2
 

Remarques. On peut aussi poser (en terme de vraisemblance) :

In (θ) = IE (Sn (X, θ))2 .


 

5
b. Propriétés.

Si (H4) est vraie, alors

∂2
 
I(θ) = V(S(X, θ)) = −IE ln(f (X, θ))
∂θ2
 2 

et In (θ) = V(Sn (X, θ)) = −IE ln(L(X, θ)) .
∂θ2
Dans le modèle d’échantillonage, on a donc :

In (θ) = nI(θ).

3 Inégalité de Cramer-Rao

a. Hypothèses supplémentaires
(H5) 0 < In (θ) < +∞ ou 0 < I(θ) < +∞.

Soit Tn un estimateur. Posons IEθ [Tn ] = g(θ).


Théorème II.1 (Inégalité de Cramer-Rao.) Si les hypothèses (H1), (H2), (H3),
(H4) et (H5) sont vérifiées, si de plus la fonction g est dérivable, alors on a :
2
[g 0 (θ)]
V(Tn ) ≥ .
In (θ)
La partie de droite est appelée borne inférieure de l’inégalité de Cramer-Rao. Nous
la noterons KTn (θ).
Définition II.3 • On dit que l’estimateur Tn est efficace s’il vérifie
V(Tn ) = KTn (θ).

KTn (θ)
• Si Tn n’est pas efficace mais que → 1 quand n → +∞, on dit que
V(Tn )
l’estimateur Tn est asymptotiquement efficace.

b. Relation entre estimateurs efficaces


Propriétés :

(P1) Si Tn est un estimateur efficace de θ, alors kTn + b est aussi un estimateur


efficace de θ, ∀k ∈ R∗ , ∀b ∈ R.
(P2) Soient T1n et T2n deux estimateurs sans biais du paramètre θ. S’ils sont tous
les deux efficaces, alors T1n = T2n presque sûrement.

6
c. Dégradation de l’information
Si h(t, θ) est la vraissemblance de T , on note IT (θ) l’information relative à T :

∂ ln h(t, θ)
IT (θ) = IE(S(T , θ)2 ) où S(T , θ) = .
∂θ
∂2
IT (θ) vérifie les mêmes propriétés (centrée, relation avec ∂θ2
h, inégalité de Cramer-
Rao) que I(θ).

Proposition II.1 Soit T une statistique, on a IT (θ) ≤ In (θ) avec égalité si et


seulement si la statistique T est exhaustive pour le paramètre θ.

4 Notion d’exhaustivité
Définition II.4 (Principe de factorisation) La statistique Tn est ici une vari-
able aléatoire définie sur (X , BX , (Pθ , θ ∈ Θ ⊂ R))n à valeurs dans (Θ, BΘ ).
On considère :

• la vraisemblance (fonction de densité ou probabilité) de Tn que l’on va noter


h(t, θ),

• la densité conjointe de l’échantillon (X1 , . . . , Xn ) notée L(x1 , . . . , xn , θ),

On dira que la statistique Tn est exhaustive pour θ s’il existe une fonction k sur X n
telle que

L(x1 , . . . , xn , θ) = h(t, θ)k(x1 , . . . , xn ).

Théorème II.2 (de factorisation) Pour qu’une statistique T soit exhaustive, il


suffit que la vraissemblance s’écrive :

L(x1 , . . . , xn , θ) = φ(t, θ)ψ(x1 , . . . , xn ).

5 Exhaustivité et estimateurs efficaces : la famille exponen-


tielle
Définition II.5 On appelle famille exponentielle à paramètre unidimensionnel θ
toute loi de probabilité (discrète ou continue) dont la vraissemblance peut se mettre
sous la forme :

exp[α(θ)β(x) + γ(θ) + δ(x)] si x ∈ X
f (x, θ) = ,
0 si x 6∈ X
avec, α et γ des fonctions deux fois différentiables.

Proposition
Pn II.2 Dans la famille exponentielle, toute statistique de la forme Tn =
k i=1 β(Xi ) est exhaustive pour θ.

7
Théorème II.3 (Théorème de Darmois) Lorsque X est indépendant de θ, le
modèle admet une statistique exhaustive ssi le modèle est exponentiel.

Théorème II.4 Si X ne dépend pas de θ et que le modèle admette un estimateur


efficace alors le modèle est exponentiel car l’estimateur est nécessairement exhaustif.

Dans un modèle exponentiel, alors à une transformation linéaire près, il existe un


unique estimateur efficace qui vérifie :
n
1X
T = β(Xi ),
n i=1
γ 0 (θ)
g(θ) = − ,
α0 (θ)
g 0 (θ)
g(θ) = IEθ (T ), et Vθ (T ) = nα0 (θ)
.

6 Quelques méthodes usuelles d’estimation


a. Méthode empirique
Si le paramètre θ considéré représente une quantité particulière pour le modèle (par
exemple, l’espérance ou la variance), on peut naturellement choisir comme estimateur
la quantité empirique correspondante pour l’échantillon X1 , . . . , Xn .

b. Méthode des moindres carrés


Définition II.6 On appelle estimateur des moindres carrés de θ la statistique
n
X
θ̂n = arg min (Xi − h(θ))2 .
θ∈Θ
i=1

c. Méthode des moments


On note

• Soit X une variable aléatoire réelle.

On appelle moment (théorique) d’ordre r : Mr = IE[X r ].

On appelle moment (théorique) centré d’ordre r : M r = IE[(X − IE[X])r ].


• Soit (x1 , . . . , xn ) les valeurs observées d’un échantillon de taille n.

1
Pn r
On appelle moment empirique d’ordre r : mr = n i=1 (xi ) .

1
Pn
On appelle moment empirique centré d’ordre r : mr = n i=1 (xi − x̄n )r .

8
Principe : Supposons le paramètre θ de dimension p. La méthode consiste à poser
un système d’équations en égalant moments théoriques (centrés ou non) et moments
empiriques :

 M1 (θ) = m1

..
 .
 M (θ) = m
p p

d. Méthode du maximum de vraisemblance : principe


Définition II.7 On appelle estimateur du maximum de vraisemblance (EMV) du
paramètre θ la statistique θ̂n rendant maximale, selon θ, la fonction de vraisemblance
du modèle L(X1 , . . . , Xn , θ), soit :

θ̂n = arg max L(X, θ).


θ∈Θ

Propriété :

Si le modèle vérifie les propriétés (H1), (H2) et (H3),


alors pour que θ̂n soit un EMV de θ il est nécessaire que

∂ ln L(X, θ)
• = 0 soit Sn (X, θ̂n ) = 0 (équation de vraisemblance),
∂θ θ=θ̂n
∂ 2 ln L(X, θ)
• < 0.
∂θ2 θ=θ̂n

Propriété (lien avec l’exhaustivité) :


S’il existe une statistique exhaustive Tn pour θ, alors l’EMV de θ ne dépend que de
Tn .

7 Exercices
Exercice 1. On considère la loi normale N (µ, σ 2 ).

a) On suppose σ 2 connue et l’on considère le modèle paramétrique réel d’échantillonnage


suivant

n
R, BR , (N (µ, σ 2 ), µ ∈ Θ = R) .

L’estimateur X n est-il un estimateur efficace de µ ?

b) Sans supposer µ connue, on pose θ = σ 2 et l’on considère le modèle paramétrique


réel d’échantillonnage suivant

n
R, BR , (N (µ, σ 2 ), σ 2 ∈ Θ = R∗+ ) .

L’estimateur Sn2 est-il un estimateur efficace de σ 2 ?

9
Exercice 2.

a) Montrer que la loi de Poisson appartient à la famille exponentielle.

b) Montrer que la loi de Cauchy n’appartient pas à la famille exponentielle.

Exercice 3. Déterminer l’EMV du paramètre λ d’une loi de Poisson. En étudier les


propriétés (biais, convergence, efficacité, exhaustivité).
Exercice 4. Ecrire la vraisemblance d’une loi de Bernoulli de paramètre p ∈]0, 1[.
Déterminer l’EMV de p. Etudier ses propriétés (biais, convergence, efficacité, ex-
haustivité).
Exercice 5.

a) Déterminer l’EMV θ̂n du paramètre θ de la loi uniforme sur [0, θ] avec θ ∈ R∗+ .

b) Déterminer la densité de probabilité de θ̂n .

c) Calculer IE[θ̂n ] et V(θ̂n ).

d) Etudier les propriétés de θ̂n (biais, convergence, efficacité).

e) Proposer un estimateur Tn de θ sans biais et convergent.

f) Choisir entre θ̂n et Tn au moyen du risque quadratique.

g) Montrer que l’estimateur de θ obtenu par la méthode des moindres carrés est
identique à l’estimateur des moments. On notera Un cet estimateur.

h) Etudier les propriétés de Un (biais et convergence) et le comparer à Tn .

i) Commenter.

8 Généralisation au cas d’un paramètre multidimensionnel


On considère dans ce chapitre un modèle paramétrique réel d’échantillonnage :

(R, BR , (Pθ , θ ∈ Θ ⊂ Rp ))n , avec p ≥ 2.

a. Généralisation des définitions sur les estimateurs


Estimateurs

Un estimateur est une statistique Tn définie sur (R, BR , (Pθ , θ ∈ Θ ⊂ Rp ))n à valeurs
dans (Θ, BΘ ). C’est donc un vecteur aléatoire de dimension p : Tn = (Tn,1 , . . . , Tn,p ).

Estimateur sans biais.

• Biais de Tn : B(Tn ) = IE(Tn ) − θ ∈ Rp .

10
• On dit que Tn est sans biais pour θ si B(Tn ) = 0p ,

• On dit que Tn est asymptotiquement sans biais pour θ si B(Tn ) −→ 0p pour


n → +∞,
autrement dit si ∀j = 1, . . . , p, IE[Tn,j ] −→ θj pour n → +∞.

Estimateur convergent.

• Tn est convergent pour θ si et seulement si Tn −→proba θ pour n → +∞,

c’est à dire : ∀j = 1, . . . , p, Tn,j −→proba θj .

• Conditions nécessaires et suffisantes de convergence :

||Tn − θ|| −→proba 0 pour n → +∞ ⇐⇒ Tn est convergent pour θ

où ||.|| désigne toute norme de Rp .

Risque quadratique.
p
X
0
IE (Tn,j − θj )2 .
 
• Il est défini par : R(Tn , θ) = IE [(Tn − θ) (Tn − θ)] =
j=1

• Propriété :
p
X
0
R(Tn , θ) = B(Tn ) B(Tn ) + V(Tn,j ).
j=1

On peut réécrire ceci sous la forme :

p p
X 2
X
R(Tn , θ) = (IE[Tn,j ] − θj ) + V(Tn,j ).
j=1 j=1

b. Généralisation de l’inégalité de Cramer-Rao


On continue de noter

• f (x, θ) la vraisemblance du modèle de dimension 1, ici x ∈ R et θ ∈ Rp ;

• L(x, θ) la vraisemblance du modèle de dimension n, ici x ∈ Rn et θ ∈ Rp ;

• X le support de f et X n celui de L.

11
Généralisation des hypothèses de régularité

Les hypothèses (H1) et (H2) ne sont pas modifiées mais seront ici notée (H10 ) et
(H20 ).

(H10 ) X est indépendant de θ.

(H20 ) Θ est un ouvert.


On a f (x, θ) > 0, ∀(x, θ) ∈ X × Θ.


(H30 ) ∀j = 1, . . . , p, f (x, θ) est définie ∀(x, θ) ∈ X × Θ.
∂θj
∂2
∀(j, k) ∈ {1, . . . , p}, f (x, θ) est définie ∀(x, θ) ∈ X × Θ.
∂θj ∂θk

(H40 ) ∀(j, k) ∈ {1, . . . , p}

∂ ∂2
f (x, θ) et f (x, θ)
∂θj ∂θj ∂θk

vérifient la propriété de domination sur tout compact de Θ (par des fonctions


de x µ-intégrables).

Fonction de score (ou score)

On suppose les hypothèses (H10 ), (H20 ) et (H30 ) vérifiées.

Définition. La fonction score est définie par :

S : X × Θ −→ Rp

 
∂θ1
ln(f (x, θ))
..
(x, θ) 7−→ S(x, θ) = gradθ ln(f (x, θ) = 
 
. 

∂θp
ln(f (x, θ))
Remarques et propriétés :

• On peut aussi définir le score du modèle de dimension n : Sn (x, θ) = gradθ ln(L(x, θ)).

• Sous (H40 ), on peut montrer que : IE[S(X, θ)] = 0p = IE[Sn (x, θ)].

12
Matrice d’information de Fisher

Définition. La matrice d’information de Fisher est une matrice carrée p × p définie


par :

I(θ) = IE [S(X, θ)(S(X, θ))0 ] ,


l’élément (j, k) de la matrice I(θ) est donnée par
 
∂ ∂
IE ln(f (x, θ)) ln(f (x, θ)) .
∂θj ∂θk

Remarques et propriétés.
• On peut aussi définir la matrice d’information de Fisher par rapport du modèle
de dimension n :

In (θ) = IE [Sn (X, θ)(Sn (X, θ))0 ] .


• Dans un modèle d’échantillonnage, on a :

In (θ) = nI(θ).
Généralisation de l’inégalité de Cramer-Rao

• Soit Tn un estimateur de θ. On pose IE[Tn ] = g(θ).

La fonction g définie sur Θ est à valeurs dans Rp , sa jème coordonnée est


gj (θ) = IE[Tn,j ].
• Soit Dg (θ) la matrice jacobienne de g.

• Notons VTn (θ) la matrice de variances-covariances de Tn .

Considérons l’hypothèse supplémentaire suivante :

(H50 ) In (θ) est une matrice définie positive.

Inégalité de Cramer-Rao : Sous les hypothèses (H10 ) à (H50 ), la matrice

VTn (θ) − Dg (θ) [In (θ)]−1 (Dg (θ))0


est semi-définie positive.

Définitions

13
• La matrice Dg (θ) [In (θ)]−1 (Dg (θ))0 s’appelle la borne inférieure de l’inégalité
de Cramer-Rao.

• On dit que Tn est efficace pour θ s’il vérifie VTn (θ) = Dg (θ) [In (θ)]−1 (Dg (θ))0 .

Forme générale de la famille exponentielle

Définition. On dit qu’une loi de probabilité appartient à la famille exponentielle (à


paramètre multidimensionnel) si sa vraisemblance peut s’écrire sous la forme :
 " p #
 X
 exp αj (θ)βj (x) + γ(θ) + δ(x) si x ∈ X ,
f (x, θ) = j=1

0 sinon,

avec X indépendant de θ. Les applications αj et γ vont de Rp dans R.

Les applications βj et δ vont de R dans R.

c. Généralisation de la méthode du maximum de vraisemblance


Définition. L’estimateur du maximum de vraisemblance (EMV) de θ est définie par :

θ̂n = arg max L(X1 , . . . , Xn , θ).


θ∈Θ

Caractérisation de l’EMV θ̂n : Si les hypothèses (H10 ), (H20 ) et (H30 ) sont véri-
fiées, alors pour déterminer θ̂n ,

i) on résoud Sn (X, θ̂n ) = 0 (équations de vraisemblance),

ii)) on vérifie que la matrice hessienne de ln L (matrice carrée d’ordre p de terme


2
général ∂θ∂j ∂θk ln(L(x, θ)) calculée en θ̂n est définie négative,

iii) on vérifie que le maximum local est un maximum.

III Comportement asymptotique des estimateurs


1 Propriétés asymptotiques de l’EMV
a. En dimension 1
Deux hypothèses supplémentaires sont nécessaires :

(H6) θ 6= θ0 =⇒ Pθ 6= Pθ0 .

14
∂2
(H7) ln f (x, θ) est continue en θ, uniformément en x.
∂θ2
Théorème III.1 Si les hypothèses (H1), (H2), (H3), (H4) et (H6)sont vérifiées,
alors il existe une suite θ̂n d’estimateurs du maximum de vraissemblance qui converge
presque sûrement vers θ.

Théorème III.2 Sous les hypothèses (H1) à (H7), on a :


√  
n θ̂n − θ −→loi N (0, I −1 (θ)) quand n → +∞.

b. En dimension supérieure
Les résultats de convergence pour l’EMV en dimension supérieure restent valables :

Théorème III.3 Si les hypothèses (H10 ) à (H70 ) sont toutes vérifiées, alors on a :

n(θ̂n − θ) −→loi Np (0n , I −1 (θ)).

2 Définitions / outils
a. Normalité et efficacité asymptotique
Soit Tn un estimateur de θ.

• Si n(Tn − θ) −→loi Np (0p , Σ),
alors on dit que Tn est asymptotiquement normal. La matrice Σ est appelée
matrice de variances-covariances aymptotique de Tn . (Cela n’implique pas que
nV(Tn ) → Σ.)

• Si n(Tn − θ) −→loi Np (0p , I −1 (θ)),
alors on dit que Tn est asymptotiquement efficace.

• L’EMV est asymptotiquement normal et efficace.

b. Méthode Delta
Soit g une fonction C 1 . On suppose que Tn est un estimateur de θ tel que
L
an (Tn − θ) −→ N (0, σ 2 (θ))
avec an → ∞. Alors, g(Tn ) converge en probabilité vers g(θ) et
L
an (g(Tn ) − g(θ)) −→ N (0, g 0 (θ)2 σ 2 (θ)).
En dimension supérieure, on considère Tn un vecteur aléatoire de Rk , Σ une matrice
de covariance. On suppose que
L
an (Tn − θ) −→ N (0, Σ)

15
avec an → ∞. Alors, pour toute fonction g de classe C 1 , g(Tn ) converge en proba-
bilité vers g(θ) et
L
an (g(Tn ) − g(θ)) −→ N (0, Dg ΣDgt )
où Dg est la matrice Jacobienne de g calculée en θ.

3 Exercices
Exercice 1. On considère le modèle d’échantillonnage normal avec Pθ = N (µ, σ 2 ).

a) Déterminer l’EMV de θ = (µ, σ 2 ).

b) Etudier ses propriétés (biais, convergence, efficacité).

c) Quelle fonction h(θ) peut-on estimer par un estimateur sans biais et efficace ?

Exercice 2. On considère le modèle d’échantillonnage multinomial à k ≥ 3 catégories :


k
!n
X
R, B(R), B(p1 , . . . , pk ), pi ∈ [0, 1], pi = 1
i=1

avec X B(p1 , . . . , pk ), P(X = ai ) = pi .

a) Déterminer l’EMV de θ = (p1 , . . . , pk−1 ).

b) Montrer qu’il est sans biais, convergent et efficace.

IV Estimation par intervalle de confiance


1 Introduction
On va considérer dans ce chapitre un modèle statistique réel paramétrique (avec un
paramètre unidimensionnel) :

(R, BR , (Pθ , θ ∈ Θ ⊂ R))n .


Définition :

Soit α ∈ [0, 1]. On appelle intervalle de confiance du paramètre θ de niveau (de


confiance) 1 − α la donnée de deux statistiques An et Bn vérifiant

P (An ≤ θ ≤ Bn ) = 1 − α.

16
2 Intervalles de confiance pour les paramètres de la loi nor-
male
On suppose ici que l’on dispose d’un échantillon (X1 , . . . , Xn ) où les Xi sont in-
dépendants et identiquement distribués selon la loi N (µ, σ 2 ).

Intervalle de confiance pour µ lorsque σ 2 est connue

L’intervalle de confiance pour µ de niveau de confiance 1 − α lorsque σ 2 est connue


est :
σ σ
X n − z1−α/2 √ ≤ µ ≤ X n + z1−α/2 √
n n
où z1−α/2 est le fractile d’ordre 1 − α/2 de la loi normale centrée réduite N (0, 1).

Intervalle de confiance pour µ lorsque σ 2 est inconnue

L’intervalle de confiance pour µ de niveau de confiance 1 − α lorsque σ 2 est inconnue


est :
Sn Sn
X n − t1−α/2 √ ≤ µ ≤ X n + t1−α/2 √
n n
p
où t1−α/2 est le fractile d’ordre 1 − α/2 de la loi de Student T (n − 1) et Sn = Sn2 .

Intervalle de confiance pour σ 2 lorsque µ est connue

On se donne ici α1 > 0 et α2 > 0 vérifiant α1 + α2 = α.


L’intervalle de confiance pour σ 2 de niveau de confiance 1 − α lorsque µ est connue
est :
Pn 2
Pn 2
i=1 (Xi − µ) 2 i=1 (Xi − µ)
≤σ ≤
k̃2 k̃1
où k̃1 (resp. k̃2 ) est le fractile d’ordre α1 (resp. 1 − α2 ) de la loi du chi-deux χ2 (n).

Intervalle de confiance pour σ 2 lorsque µ est inconnue

On se donne ici à nouveau α1 > 0 et α2 > 0 vérifiant α1 + α2 = α.


L’intervalle de confiance pour σ 2 de niveau de confiance 1 − α lorsque µ est inconnue
est :
Pn 2
Pn
i=1 (Xi − X n ) 2 (Xi − X n )2
≤ σ ≤ i=1
k2 k1
où k1 (resp. k2 ) est le fractile d’ordre α1 (resp. 1−α2 ) de la loi du chi-deux χ2 (n−1).

17
3 Construction d’intervalles de confiance asymptotiques

Définition IV.1 Un intervalle de confiance [An , Bn ] est de niveau asymptotique


1 − α si
n→∞
P(An ≤ θ ≤ Bn ) −→ 1 − α.

a. Utilisation de la convergence de l’EMV

Supposons vérifiées les hypothèses de régularité (H1) à (H7).

Soit In (θ) l’information de Fisher du modèle considéré. Soit θbn l’EMV de θ. On a


vu que :
p  
In (θ) θbn − θ −→Loi N (0, 1) pour n → +∞.
donc  p   
P −z1−α/2 ≤ In (θ) θn − θ ≤ z1−α/2 ' 1 − α.
b

4 Exercices
Exercice 1. Soient X1 , . . . , X10 dix variables aléatoires i.i.d. de loi N (µ, σ 2 ). On
dispose des observations suivantes :

6 8 1 5 6 7 6 6 5 9
Calculer les intervalles de confiance de niveau 95% suivants :
- pour µ, sachant que σ 2 = 4 ;
- pour µ, ne connaissant pas σ 2 ;
- pour σ 2 , puis pour σ, ne connaissant pas µ.
Exercice 2.
Dans une fabrication en série, on cherche à estimer le taux de pièces défectueuses.
Pour cela, on a réalisé, à quatre périodes différentes, quatre prélèvements. Les
résultats sont les suivants :
6 pièces défectueuses sur 30,
10 pièces défectueuses sur 50,
20 pièces défectueuses sur 100,
40 pièces défectueuses sur 200.
Déterminer, dans chaque cas, l’intervalle de confiance de niveau 95% de ce taux.
Exercice 3.
Déterminer l’intervalle de confiance de niveau 95% de la proportion p d’un événement
E, lorsque sur 80 expériences (indépendantes), l’événement s’est produit 45 fois.
Exercice 4.
En utilisant le théorème central limite, construire un intervalle de confiance de niveau
asymptotiquement égal à 1 − α pour le paramètre λ d’une loi de Poisson.

18
Application numérique : On compte le nombre de parasites par fruit dans un
lot de fruits parasités et on obtient :
xi : nombre de parasites par fruit 0 1 2 3 4 5
ni : nombre de fruits contenant xi parasites 11 29 27 19 10 4
Si l’on suppose que le nombre de parasites suit une loi de Poisson de paramètre λ,
donner l’intervalle de confiance de niveau asymptotiquement égal à 99% pour le
paramètre λ.
Exercice 5.
On considère une variable aléatoire réelle continue de densité :

0 si x < 2,
f (x) =
θ exp(−θ(x − 2)) si x ≥ 2,
avec θ > 0.
1. Vérifier que cette loi appartient à la famille exponentielle.
2. En utilisant les propriétés de l’EMV de θ, construire un intervalle de confiance
pour θ de niveau asymptotiquement égal à 1 − α.
3. Application numérique : Calculer cet intervalle de confiance pour n = 200,
x̄n = 6, 68 et α = 5%.

Exercice 6.
On considère n1 variables aléatoires réelles X1,1 , . . . , X1,n1 i.i.d. de loi N (µ1 , σ 2 ) et
n2 variables aléatoires réelles X2,1 , . . . , X2,n2 i.i.d. de loi N (µ2 , σ 2 ). On suppose de
plus les variables Xk,i (k = 1, 2 et i = 1, . . . , nk ) mutuellement indépendantes.
n1
1 X
1. Soient X 1 = X1,i et
n1 i=1
n2
1 X
X2 = X2,i . Quelle est la loi de X 1 − X 2 ?
n2 i=1
"n n2
#
1
1 X X
2. Soit S 2 = (X1,i − X 1 )2 + (X2,i − X 2 )2 .
n1 + n2 − 2 i=1 i=1

S2
Quelle est la loi de (n1 + n2 − 2) ?
σ2
3. En déduire un intervalle de confiance de niveau 1−α pour le paramètre µ1 −µ2 .
4. Application numérique : On a observé n1 = 10 et n2 = 8 observations
dans chacune des deux populations considérées. Les données obtenues sont les
suivantes :
x1,i : 1,36 2,66 2,05 1,85 2,28 1,71 0,75 1,97 1,70 1,68
x2,i : 1,91 2,03 1,31 1,33 2,68 2,04 0,40 3,31
Calculer l’intervalle de confiance de niveau 95% pour le paramètre µ1 − µ2 .

19
V Généralités sur les tests
1 Problèmes de test
Le but d’un test statistique est de donner un critère permettant de retenir l’hypothèse
H0 : θ ∈ Θ0 ou de retenir une hypothèse alternative H1 : θ ∈ Θ1 , avec Θ1 ⊂ Θc0 .

La mise en œuvre du critère du test détermine une zone de rejet ou zone critique
W , W c est la zone d’acceptation ou zone de confiance.

On appelle risque de première espèce, notée α, la probabilité de rejeter l’hypothèse


H0 alors qu’elle est vraie, α = P(W |H0 ).

La probabilité, notée 1−β, de retenir l’hypothèse H0 alors qu’elle est fausse s’appelle
risque de deuxième espèce, 1 − β = P(W c |H1 ).

La probabilité β s’appelle puissance du test.

Définition V.1 Un test est donné par une fonction Φ : E n −→ {0, 1}, on
retiendra H0 si Φ(X1 , . . . , Xn ) = 0, on rejette H0 si Φ(X1 , . . . , Xn ) = 1. On appelle
zone de rejet l’ensemble R = {Φ(X1 , . . . , Xn ) = 1}. Évidemment, étant donnée une
zone de rejet R ⊂ E n , on définit un test en posant Φ = 1IR .

Lorsque Θ0 = {θ0 } et Θ1 = {θ1 }, on parle d’hypothèses simples.

Définition V.2 Le niveau du test - ou sa sensibilité - est la probabilité de rejeter


H0 à tort :

α = sup Pθ ((X1 , . . . , Xn ) ∈ R)).


θ∈Θ0

La puissance du test est la fonction β : Θ1 −→ [0, 1] définie par β(θ) =


Pθ ((X1 , . . . , Xn ) ∈ R). Le test est dit sans biais si β(θ) ≥ α ∀θ ∈ Θ1 .

2 Tests uniformément plus puissants


Définition V.3 Étant donnés deux tests Φ1 et Φ2 de niveau ≤ α pour tester l’hypothèse
H0 : θ ∈ Θ0 contre H1 : θ ∈ Θ1 . Le test Φ1 est uniformément plus puissant (u.p.p.)
que Φ2 ssi ∀θ ∈ Θ1 , β1 (θ) ≥ β2 (θ). Dans le cas où Θ1 = {θ1 } et Θ0 = {θ0 }, on parle
de test plus puissant (p.p.).

Dans un premier temps, on supposera que H0 et H1 sont des hypothèses simples :

H0 : θ = θ0 , H1 : θ = θ1 .

Soit L(x1 , . . . , xn , θ) la fonction de vraisemblance de (X1 , . . . , Xn ).

20
Définition V.4 On considère des hypothèses simples Θ0 = {θ0 } et Θ1 = {θ1 }. Soit

L(x, θ1 )
Vθ0 ,θ1 (x) =
L(x, θ0 )
le rapport de vraissemblance. On considère la famille de tests Φk dont la région
critique Rk est de la forme :

Vθ0 ,θ1 (x) > k.


On appellera test de Neyman et Pearson tout test de cette forme.

Théorème V.1 (Lemme de Neyman-Pearson)

1. Soit α > 0, si Φk est un test de niveau α alors il est p.p. que tout autre test
de niveau ≤ α, de plus il est sans biais.

2. Si α ∈]0, 1[,si les lois Pθ sont absoluement continues, il existe kα ∈ R tel que
Φkα est de niveau α. Si les lois Pθ sont discrètes alors il existe un plus petit
kα tel que Φkα est de niveau ≤ α.

3. Soit Φ un test p.p. de niveau α alors ∀θ ∈ {θ0 , θ1 },

Pθ (Φ(X) 6= Φkα (X) et V (X) 6= k) = 0.

Proposition V.1 Si T est une statistique exhautive dont la fonction de vraissem-


blance g(t, θ) vérifie : pour θ > θ0 ,

g(t, θ)
est une fonction croissante de t.
g(t, θ0 )
fk = {T > k} est u.p.p. pour tester θ = θ0 contre
Alors le test de zone de rejet R
θ > θ0 .

3 Tests fondés sur le rapport du maximum de vraisemblance


Définition V.5 On appellera test du maximum de vraisemblance tout test fondé
sur la région critique
 
n supθ∈Θ1 L(x, θ)
W = x∈R / > kα ,
supθ∈Θ0 L(x, θ)
où kα est choisit tel que sup Pθ (W ) = α.
θ∈Θ0

Dans le cas où Θ1 = Θc0 ,


on considèrera le test de région critique :
 
n supθ∈Θ L(x, θ)
R = x ∈ R / λ(x) = > kα .
supθ∈Θ0 L(x, θ)

21
Décision et “p-value”
Lorsqu’on procède à un test, on fixe l’hypothèse H0 , par exemple θ = θ0 , on choisit
une hypothèse alternative H1 :

H1 : θ 6= θ0 hypothèse bilatérale

H1 : θ < θ0 ou H1 : θ > θ0 hyothèses unilatérale.

On se fixe un risque de première espèce α, on détermine la région critique (i.e. pour


un test basé sur le rapport de vraissemblance, la valeur de kα ), on calcule la valeur
expérimentale de la statistique du test Zexp , si Zexp est dans la région critique, on
rejette H0 (et on retient H1 ), sinon on retient H0 .

La plupart des logiciels de statistique permettent de calculer la valeur de kα mais


fournissent aussi un autre renseignement : la “p-value” p. Si le test est de région
critique f (Z) > k où Z est la statistique du test (f (x) = x ou f (x) = |x|), la
p-value est la probabilité : pvalue = supθ∈Θ0 Pθ (f (T ) > Zexp ), on remarque que
Zexp ≥ k ⇔ pvalue ≤ α.

Si p < α, on rejette H0 (et on retient H1 ), sinon, on retient H0 . On prendra garde que


certains logiciels ne fournissent la valeur de p que pour des hypothèses alternatives
bilatérales. Dans le cas de distributions symétriques (normale, Student), on passe
du pbilatéral au punilatéral en divisant par 2.

4 Tests asymptotiques
(N )
Définition V.6 On considére une suite (E (N ) , B (N ) , (Pθ )θ∈Θ ) de modèles d’échantillonages
paramétriques ayant le même espace de paramètres Θ. On note X (N ) le vecteur aléa-
toire correspondant.

Le niveau asymptotique d’une suite de tests de Θ0 contre Θ1 , de région de rejet R(N )


est la limite (lorsqu’elle existe)

α = lim sup Pθ (X (N ) ∈ R(N ) ).


N →∞ θ∈Θ0

On dit que la suite de tests est convergente si

∀θ ∈ Θ1 lim Pθ (X (N ) ∈ R(N ) ) = 1.
N →∞

a. Propriétés asymptotiques des tests du maximum de vraissemblance


On se place dans le cas où Θ0 = {θ0 } et Θ1 = {θ 6= θ0 }. On considère alors

supθ∈Θ Ln (X, θ)
λn (X) = .
Ln (X, θ0 )

22
Théorème V.2 On suppose que les hypothèses de régularité du modèle (H1)−(H7)
sont satisfaites et que Θ ⊂ R (paramètre de dimension 1). La suite de test de région
critique :

Rn = {2 ln λn > K},
où K est le 1 − α quantile d’une loi χ2 (1) est de sensibilité asymptotique α et con-
vergente.

b. Tests de Wald et du score


Proposition V.2 On considère θen une suite d’estimateurs asymptotiquement effi-

cace d’un paramètre θ ∈ Rd , on suppose de plus que I(θen ) −→ I(θ). Soit g : Θ −→ Rk
une fonction C 1 de matrice jacobienne D(θ) de rang k. On considère Θ0 = {θ ∈
Θ / g(θ) = 0}. Le test de Wald de région de rejet :
 −1
Rn : ξn > χ21−α (k) avec ξn = ng(θen )t D(θen )I(θen )−1 D(θen )t g(θen ).
est de sensibilité asymptotique α et convergent pour Θ1 = {θ ∈ Θ / g(θ) 6= 0}.

Lemme V.3 Soit X un vecteur aléatoire gaussien de Rd , d’espérance µ et de ma-


trice de covariance Σ. On suppose que Σ est inversible. Alors

D2 = (X − µ)t Σ−1 (X − µ)
suit une loi du χ2 (d).
L
Lemme V.4 Soit Xn une suite de vecteurs aléatoires de Rd telle que Xn −→ X et
A une matrice d × k. Alors la suite de vecteurs aléatoires de Rk AXn converge en
loi vers AX.

Les tests du score sont basés sur la région de rejet :


1
DLn (θb0,n )t I(θb0,n )−1 DLn (θb0,n ),
ξnS > χ21−α (k) avec ξnS =
n
où DLn est le gradient de la vraisemblance et θb0,n l’EMV de θ sur Θ0 .

VI Tests paramétriques classiques


Notations :

P : proportion sur un échantillon aléatoire pour une variable de Bernouilli : X prend


les valeurs 0 ou 1 avec probabilité 1 − π et π,

X1 +···+Xn
P = n
.

23
X : moyenne sur un échantillon aléatoire de taille d’espérance µ.

S 2 est la variance estimée définie par :


n
1 X
S2 = (Xi − X)2 .
n − 1 i=1
Lorsque IE(X) = µ est connue, on utilise aussi :
n
2 1X
D = (Xi − µ)2 .
n i=1

24
1 Tests gaussiens

Test Hypothèses Stat. du test (Z) et cond. Loi de Remarques


d’appl. Z sous
H0
X − µ0
conform. H0 : µ = µ0 , la variable Student Si σ est connu, on peut
√S
d’une H1 6 µ0
: µ = n à n − 1 utiliser directement X
moy. ou étudiée doit suivre une d.d.l. qui suit une loi normale
H1 : µ > µ0 loi normale de paramètre N (µ0 , σ)
ou sous H0 .
H1 : µ < µ0
X1 − X2
comp. de H0 : µ1 = q × Student Avant de faire ce test,
(n1 −1)S12 +(n2 −1)S22
deux moy. µ2 = µ0 n1 +n2 −2 à n1 + on doit tester l’égalité des
pour des H1 : µ1 6= µ2 1 n2 − 2 variances avec un test de
ech. in- ou
q , la variable d.d.l. Fisher-Snedecor. Si on
1
n1
+ n12
dép. H1 : µ1 < µ2 accepte l’hypothèse σ1 =
ou étudiée doit suivre une σ2 , on estime la valeur
H1 : µ1 > µ2 loi normale. Il faut que commune σ1 = σ2 = σ
les écart-types σ1 et σ2 (voir ci-dessous). Si on
soient les mêmes. refuse l’hypothèse σ1 =
σ2 , on ne peut pas faire
le test.
XY
comp. de H0 : µY = 0 SY
Student
, la variable étudiée

deux moy. H1 : µY =6 0 n à n − 1
pour des ou doit suivre une loi nor- d.d.l.
ech. ap- H1 : µY < 0 male.
pariés, on ou
pose Y = H1 : µY > 0
X1 − X 2
(n − 1)S 2
conf. H0 : σ = σ0 La variable χ2 à Il faut tester la normal-
σ02
d’une H1 6 σ0
: σ = étudiée doit suivre une (n − 1) ité. Si µ est connue,
variance ou loi normale d.d.l. on peut remplacer S 2 par
H1 : σ > σ0 D2 et on a une loi χ2 (n).
ou
H1 : σ < σ0
S12
comp de H0 : σ1 = σ2 . La variable Fisher Lorsqu’on accepte
S22
deux vari- H1 : σ1 6= σ2 étudiée doit suivre Snedecor H0 , on estime l’écart-
ances ou une loi normale à (n1 − type
s commun par σ =
H1 : σ1 > σ2 1, n2 − (n1 − 1)S12 + (n2 − 1)S22
ou 1) n1 + n2 − 2
H1 : σ1 < σ2 d.d.l.

25
2 Tests asymptotiques
Test Hypothèses Stat. du test (Z) et cond. Loi de Remarques
d’appl. Z sous
H0
P1 − P 2
comp. H0 : π1 = r  , N (0, 1) Il s’agit d’un test asymp-
de deux π2 = π0 1
π̂(π̂ − 1) × n1 + n2 1 totique.
prop. H1 : π1 6= π2
n1 ≥ 30 et n2 ≥ 30, avec
pour ou
π̂ = n1np11 +n
+n2 p2
des ech. H1 : π1 < π2 2

indep. ou
H1 : π1 > π2
X1 − X2
comp. de H0 : µ1 = q × N (0, 1) Pour les grands échantil-
(n1 −1)S12 +(n2 −1)S22
deux moy. µ2 = µ0 n1 +n2 −2 lons, il n’est pas néces-
pour des H1 : µ1 6= µ2 1 saire d’avoir l’égalité des
, n1 ≥ 30 et
ech. in- ou variances. Il s’agit d’un
q
1
n1
+ n12
dép. H1 : µ1 < µ2 test asymptotique.
ou n 2 ≥ 30
H1 : µ1 > µ2
mY
comp. de H0 : µY = 0 SY , n ≥ 30 N (0, 1) Il s’agit d’un test asymp-

deux moy. H1 : µY 6= 0 n totique.
pour des ou
ech. ap- H1 : µY < 0
pariés, on ou
pose Y = H1 : µY > 0
X1 − X 2
P − π0
conform. H0 : π = π0 q , n ≥ 30 N (0, 1) Il s’agit d’un test asymp-
π0 (1−π0 )
d’une H1 : π 6= π0 n totique
prop. ou
H1 : π > π0
ou
H1 : π < π0
X − µ0
conform. H0 : µ = µ0 Sn
, n ≥ 30 N (0, 1) Il s’agit d’un test asymp-

d’une H1 : µ 6= µ0 n totique
moy. ou
H1 : µ > µ0
ou
H1 : µ < µ0

26
VII Quelques tests non paramétriques
1 Tests du χ2 .
a. Loi multinômiale
On considère r évènements A1 , ..., Ar de probabilité p1 , ..., pr . On suppose que les
Ai forment un système
P complet d’évènement (i.e. ils sont disjoints et leur union est
Ω), en particulier, ri=1 pi = 1.

On répète n fois, de manière indépendante, l’expérience aléatoire dont le résultat est


l’un des Ai (penser à un tirage avec remise de n boules dans une urne qui contient
des boules de r couleurs différentes, pi est alors la proportion de boules de couleur i).

On note Ni la variable aléatoire qui donne le nombre de fois (parmi les n expériences)
où l’évènement Ai se produit.

Ni suit une loi Binômiale B(n, pi ).

La loi du vecteur (N1 , . . . , Nr ) est donnée par :


n!
P(N1 = n1 , . . . , Nr = nr ) = pn1 × · · · × pnr r ,
n1 ! · · · nr ! 1
pour (n1 , . . . , nr ) ∈ Nr avec ri=1 ni = n. En particulier, les Ni ne sont pas in-
P
dépendants.

b. Loi asymptotique
Théorème VII.1 Soit
r
X (Ni − npi )2
D2 = .
i=1
npi
Alors, D converge en loi (quand n → ∞) vers une loi du χ2 à r − 1 degrés de
2

liberté.

c. Test du χ2 d’adq́uation à une loi


On présente ici le test du χ2 d’adéquation à une loi théorique.

On se demande si une variable aléatoire Y suit une loi donnée notée P0 .


Soit Y1 ,..., Yn un échantillon aléatoire indépendant de la loi de Y . On fixe une par-
tition de R à r éléments R = C1 ∪ · · · ∪ Cr . On note N1 le nombre d’indices i tels
que Yi ∈ C1 , ... Nr le nombre d’indices i tels que Yi ∈ Cr . Soient p0i = P0 (Y ∈ Ci )
les probabilités théoriques, pour une loi P, on note pi = P(Y ∈ Ci ) et on teste :

H0 : pour tout i = 1, . . . , r, pi = p0i

27
H1 : il existe i tel que pi 6= p0i .

Si on retient H0 , on concluera que la loi de Y est P0 .

La statistique du test est


r
2
X (Ni − np0 )2 i
D = .
i=1
np0i
On rejette H0 si D2 > χ2r−1,1−α .
Si la loi P0 appartient à une famille paramétrique, P0 = Pθ0 , θ ∈ Rd , si on connait
θ0 , il n’y a pas de différence avec le cas considéré ci-dessus. Si on ne connait pas θ0
- par exemple, on se demande si la loi de Y est normale - on doit alors estimer θ0 .
Soit θ̂ un estimateur du maximum de vraissemblance de θ,

Théorème VII.2 Soit


r
e2 =
X (Ni − npi (θ̂))2
D .
i=1 npi (θ̂)

Alors, sous Pθ , D e 2 converge en loi (quand n → ∞) vers une loi du χ2 à r − d − 1


degrés de liberté.

e 2 > χ2
On rejette alors H0 si D r−d−1,1−α .

D’un point de vue pratique, on considère que l’approximation donnée par le théorème
limite ci-dessus est bonne si n ≥ 30 et que les effectifs théoriques npi (θ̂) sont
supérieures à 5, i = 1, . . . , r. Si cette dernière condition n’est pas vérifiée, on procède
à des regroupements de classes.

d. Test du χ2 d’indépendance
On considère X = (Y , Z), et Xi = (Yi , Zi ) i = 1, . . . , n, un échantillon aléatoire
de loi PX . Yi et Zi sont des variables discrètes prenant respectivement les valeurs :
{y1 , . . . , y` } et {z1 , . . . , zm }. On veut tester l’indépendance de Y et Z. Le test se
base sur le fait que Y et Z sont indépendants si et seulement si PX = PY ⊗ PZ .

Si l’hypothèse d’indépendance est satisfaite, pi,j = qi rj avec pi,j = P(X = (yi , zj )),
qi = P(Y = yi ), rj = P(Z = zj ). On est dans le cadre ci-dessus avec le paramètre
N
θ = (q1 , . . . , q`−1 , r1 , . . . rm−1 ) ∈ R`+m−2 . On estime qi par Nni· et rj par n·j . Soient
 2  2
Ni· N·j Ni· N·j
` X m Ni,j − ` X m Ni,j −
2
X n 2
X n
D1 = n D2 =
i=1 j=1
Ni· N·j i=1 j=1
Ni,j

D12 et D22 convergent en loi vers une loi χ2 (` − 1)(m − 1) ((` − 1)(m − 1) = ` × m −
1 − (` − 1) − (m − 1)). Les tests associés aux régions de rejet

28
{D12 > k} et {D22 > k}
avec k le 1 − α quantile d’une loi χ2 ((` − 1)(m − 1)) sont de sensibilité asymptotique
α et convergents pour les hypothèses

H0 : pi,j = qi rj pour tout (i, j)

H1 : il existe (i, j) tel que pi,j 6= qi rj .

Si on retient H0 , on retient l’hypothèse d’indépendance.

Exercice 1 On souhaite procéder à un test de conformité à une loi de Poisson.

1. On rapelle que X suit une loi de Poisson de paramètre λ > 0 si pour tout n ∈ N,
λn
P(X = n) = e−λ .
n!
Déterminer E(X) et V ar(X).

2. On considère un échantillon aléatoire X1 , ..., Xn , indépendant de loi de Poisson


de paramètre λ.

Quel est l’estimateur du maximum de vraissemblance de λ ?

3. Proposer un test pour tester :

H0 : X suit une loi de Poisson

H1 : X ne suit pas une loi de Poisson.

4. Application. Pendant 100 intervalles de 10 minutes, on a compté le nombre X


d’ouvriers se présentant à un magasin pour emprunter des outils. Le tableau suivant
donne les valeurs observées pour ces 100 mesures et les effectifs correspondants.

xi 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
ni 1 0 1 2 1 3 5 6 9 10 11 9 8 9 7 5 4 3 1 1 1
Peut-on conclure que X suit une loi de Poisson ?
Exercice 2 On procède à un sondage téléphonique, il est demandé aux sondés s’ils
sont optimistes ou non quant à leur capacité d’achat pour les années à venir. Les
résultats sont présentés par catégories d’âge.
Age Optimistes Pas optimistes
[20, 40[ 237 392
[40, 60[ 326 298
≥ 60 362 258

29
Peut-on considérer que le fait d’être optimiste quand à sa capacité d’achat est in-
dépendante de l’âge ?

Un des inconvénients du test d’adéquation du χ2 est le choix des classes. Cet incon-
vénient n’est plus présent pour le test de Kolmogorov-Smirnov.

2 Test de Kolmogorov-Smirnov
On considère X1 , ..., Xn un échantillon aléatoire indépendant de même loi que
X. Soit F la fonction de répartition de X. On défini la fonction de répartition
empirique :
n
1X
Fn (x) = 1I{Xi ≤x} ,
n i=1
Attention, c’est une variable aléatoire.

Soit

Dn = sup |Fn (x) − F (x)|


x∈R

Pour tout x ∈ R, Fn (x) s’écrit comme une somme de variables aléatoires indépen-
dentes de loi B(F (x)). On en déduit :

• Fn (x) converge presque sûrement (et en probabilité) vers F (x),


√ L
• n(Fn (t) − F (t)) −→ N (0, F (t)(1 − F (t))).

Théorème VII.3 (Théorème de Glivenko-Cantelli) Dn converge vers 0 presque


sûrement.

Proposition VII.1 La loi de Dn ne dépend pas de la loi de X. Plus présicément,


dans le cas où F est strictement croissante et continue, on a les égalités en loi :

L
Dn = sup |Hn (t) − t|
t∈[0,1]
 
L i
= max − t / U(i) ≤ t < U(i+1) ,
n

où Hn est la fonction de répartition empirique d’une suite (Ui )i=1,...,n de vaiid de
loi uniforme U([0, 1]) et (U(i) )i=1,...,n désigne les statistiques de l’ordre associées à
(Ui )i=1,...,n i.e. les U(i) vérifient

U(1) < U(2) · · · < U(n) et U(1) = min Ui , U(n) = max Ui .


i=1,...,n i=1,...,n

30

La loi de Kn = nDn (loi de Kolomogorov-Smirnov à 1 échantillon) est tabulée et
converge en loi vers une variable aléatoire K elle aussi tabulée. Ce résultat permet
de tester si un échantillon provient d’une loi théorique connue. Attention : le résul-
tat n’est pas valable si les paramètres de la loi sont estimés. Avec R : [Link].

Si Y1 , ..., Ym est un échantillon de la loi de Y . On note Gm (x) la fonction de


répartition empirique associée. Soit

Dn,m = sup |Fn (x) − Gm (x)|.


x∈R

Si la loi de X est la même que celle de Y , la loi de Dn,m est la même que la loi de
supt∈[0,1] |Hn (t) − Im (t)| où Hn et Im sont les fonction de répartition empiriques de
suites de variables aléatoires uniformes U([0, 1]), on a aussi l’égalité en loi :
 
L i j
Dn,m = max − , U(i) < V(j) < U(i+1) ,
n m
où (U(i) )i=1,...,n désigne les statistiques de l’ordre associées à (Ui )i=1,...,n , Ui U([0, 1])
et (V(j) )j=1,...,m désigne les statistiques de l’ordre associées à (Vj )j=1,...,m , Vj
U([0, 1]). Pour
 − 21
1 1
cn,m = + ,
n m
Kn,m = cn,m Dn,m suit une loi de Kolmogorov-Smirnov à deux échantillons et converge
en loi vers une variable aléatoire K2 elle aussi identifiée. On peut donc tester si deux
échantillons proviennent de la même loi (avec R : [Link]).

3 Test de Shapiro-Wilk
Le test de Shapiro-Wilk permet de tester la normalité d’un échantillon, quel que soit
sa taille et sans estimer les paramètres de la loi.

a. Droite de Henry
Il s’agit de représenter les quantiles théoriques d’une loi “connue”en fonction des
données xi .

Soit Fi les fréquences cumulées empiriques, on note u?i le quantile de la loi théorique
correspondant : P(Z ≤ u?i ) = Fi . Si le graphe (xi , u?i ) est quasiment une droite,
alors, la loi empirique est proche d’une transformation affine de la loi théorique. En
particulier, si la loi théorique condidérée est une loi N (0, 1) alors la loi empirique
est proche d’une loi normale (avec R : qqnorm, la commande qqline rajoute une
droite qui passe par les premiers et troisièmes quantiles, la commande qqplot trace
la droite de Henry pour deux échantillons).

Exemple : la distribution suivante qui donne des résultats d’essais de fatigue d’un
matériau (nombre de cycles avant rupture) :

31
225 31 400 62 850 39 89 580 115 442 270 125 342 251 140

b. Test de Shapiro-Wilk
Ce test est spécifique à la loi normale. Son principal avantage est qu’il ne requière
pas d’estimation préalable des paramètres. L’idée est de tester la proximité du
nuage de points des écarts inter-quartiles empiriques et des écarts inter-quartiles
d’une loi normale centrée réduite, à la droite des moindres carrés correspondante.
Si (U1 , . . . , Un ) est un échantillon aléatoire indépendant de loi N (0, 1), on note V =
(V1 , . . . , Vn ) l’échantillon ordonné : V1 = mini=1,...,n Ui , ...., Vn = maxi=1,...,n Ui (voir
ci-dessous pour les détails sur les satistiques de l’ordre). µ est le vecteur d’espérance
de V , Σ = IE[(V − µ)(V − µ)t ], enfin
1
at = µt Σ−1 (µt Σ−2 µ)− 2 ,
a = (a1 , . . . , an ).

Étant donné un échantillon aléatoire indépendant X = (X1 , . . . , Xn ) et Y = (Y1 , . . . , Yn )


sa statistique de l’ordre, on définit :
 n 2
[2]
1  X
Tn = an−i+1 (Yn−i+1 − Yi ) .
n − 1 i=1

Sous H0 : les Xi suivent des lois normales N (ν, σ), Tn est un estimateur asympto-
tiquement sans biais de σ 2 .

La statistique du test de Shapiro-Wilk est :


Tn
SW = .
Sn2
La loi de SW est indépendante de ν et σ, cette statistique est aussi indépendante
de Xn et de Sn2 .

Pour mettre en œuvre ce test, on dispose de tables qui donnent les ai et les valeurs
critiques de la statistique SW .

32
n
j 2 3 4 5 6 7 8 9 10 -
1 0,7071 0,7071 0,6872 0,6646 0,6431 0,6233 0,6052 0,5888 0,5739 -
2 0 0,1677 0,2413 0,2806 0,3031 0,3164 0,3244 0,3291 -
3 0 0,0875 0,1401 0,1743 0,1976 0,2141 -
4 0 0,0561 0,0947 0,1224 -
5 0 0,0399 -
n
j 11 12 13 14 15 16 17 18 19 20
1 0,5601 0,5475 0,5359 0,5251 0,515 0,5056 0,4963 0,4886 0,4808 0,4734
2 0,3315 0,3325 0,3325 0,3318 0,3306 0,329 0,3273 0,3253 0,3232 0,3211
3 0,226 0,2347 0,2412 0,246 0,2495 0,2521 0,254 0,2553 0,2561 0,2565
4 0,1429 0,1586 0,1707 0,1802 0,1878 0,1939 0,1988 0,2027 0,2059 0,2085
5 0,0695 0,0922 0,1099 0,124 0,1353 0,1447 0,1524 0,1587 0,1641 0,1686
6 0 0,0303 0,0539 0,0727 0,088 0,1005 0,1109 0,1197 0,1271 0,1334
7 0 0,024 0,0433 0,0593 0,0725 0,0837 0,0932 0,1013
8 0 0,0196 0,0359 0,0496 0,0612 0,0711
9 0 0,0163 0,0303 0,0422
10 0 0,014
n
j 21 22 23 24 25 26 27 28 29 30
1 0,4643 0,459 0,4542 0,4493 0,445 0,4407 0,4366 0,4328 0,4291 0,4254
2 0,3185 0,3156 0,3126 0,3098 0,3069 0,3043 0,3018 0,2992 0,2968 0,2944
3 0,2578 0,2571 0,2563 0,2554 0,2543 0,2533 0,2522 0,251 0,2499 0,2487
4 0,2119 0,2131 0,2139 0,2145 0,2148 0,2151 0,2152 0,2151 0,215 0,2148
5 0,1736 0,1764 0,1787 0,1807 0,1822 0,1836 0,1848 0,1857 0,1064 0,187
6 0,1399 0,1443 0,148 0,1512 0,1539 0,1563 0,1584 0,1601 0,1616 0,163
7 0,1092 0,115 0,1201 0,1245 0,1283 0,1316 0,1346 0,1372 0,1395 0,1415
8 0,0804 0,0878 0,0941 0,0997 0,1046 0,1089 0,1128 0,1162 0,1192 0,1219
9 0,053 0,0618 0,0696 0,0764 0,0823 0,0876 0,0923 0,0965 0,1002 0,1036
10 0,0263 0,0368 0,0459 0,0539 0,061 0,0672 0,0728 0,0778 0,0822 0,0862
11 0 0,0122 0,0228 0,0321 0,0403 0,0476 0,054 0,0598 0,065 0,0697
12 0 0,0107 0,02 0,0284 0,0358 0,0424 0,0483 0,0537
13 0 0,0094 0,0178 0,0253 0,032 0,0381
14 0 0,0084 0,0159 0,0227
15 0 0,0076

33
N 5% 1% N 5% 1%
3 0,767 0,753 25 0,918 0,888
4 0,748 0,687 26 0,92 0,891
5 0,762 0,686 27 0,923 0,894
6 0,788 0,713 28 0,924 0,896
7 0,803 0,73 29 0,926 0,898
8 0,818 0,749 30 0,927 0,9
9 0,829 0,764 31 0,929 0,902
10 0,842 0,781 32 0,93 0,904
11 0,85 0,792 33 0,931 0,906
12 0,859 0,805 34 0,933 0,908
13 0,856 0,814 35 0,934 0,91
14 0,874 0,825 36 0,935 0,912
15 0,881 0,835 37 0,936 0,914
16 0,837 0,844 38 0,938 0,916
17 0,892 0,851 39 0,939 0,917
18 0,897 0,858 40 0,94 0,919
19 0,901 0,863 41 0,941 0,92
20 0,905 0,868 42 0,942 0,922
21 0,908 0,873 43 0,943 0,923
22 0,911 0,878 44 0,944 0,924
23 0,914 0,881 45 0,945 0,926
24 0,916 0,884 46 0,945 0,927
47 0,946 0,928 48 0,947 0,929
49 0,947 0,929 50 0,947 0,93

Tester la normalité de la distribution suivante qui donne des résultats d’essais de


fatigue d’un matériau (nombre de cycles avant rupture) :

225 31 400 62 850 39 89 580 115 442 270 125 342 251 140

Quel autre ajustement pourrait-on proposer ?

4 Tests de rang
Il s’agit de tests non paramétriques de comparaison. De manière générale, on préfère
effectuer des tests paramétriques, en effet, les tests non paramétriques sont moins
sensibles ; c’est à dire que, pour un test non paramétrique, la probabilité d’accepter
H0 alors que H0 est fauusse est plus importante, par contre lorsque l’on rejette H0 ,
on peut être raisonablement confiant quand à cette conclusion).

Dans les tests du rang, les valeurs observées sont remplacées par leurs rangs au
sein des échantillons. L’idée du test est la suivante : on ordonne toutes les valeurs
observées (i.e. les valeurs de tous les échantillons concernés), si le facteur étudié a
une influence, les valeurs d’un des échantillons seront “dans les premiers” parmi les
valeurs ordonnées.

34
a. Statistiques de l’ordre, de rang
Si (X1 , . . . , Xn ) est un échantillon aléatoire indépendant i.d., on lui associe le vecteur
aléatoire Xo = (X(1) , . . . , X(n) ) : échantillon ordonné.

X(1) = min Xi ≤ X(2) ≤ · · · < X(n) = max Xi .


i=1,...,n i=1,...,n

La loi de X(1) a pour fonction de répartition :

F1 (t) = 1 − [1 − F (t)]n où F est la fonction de répartition de X.


La loi de X(n) a pour fonction de répartition :

Fn (t) = [F (t)]n .
Plus généralement, on obtient :
n
X
P(X(k) < t) = Cni [F (t)]i (1 − F (t))]n−i .
i=k

Définition VII.1 Le rang de Xi dans la liste X1 , . . . , Xn est :


X
Ri = 1 + 1IXj <Xi .
j6=i

C’est le rang occupé par Xi dans la suite ordonnée X(1) < · · · < X(n) .

b. Le test de Wilcoxon
Il s’agit de comparer deux échantillons (X1 , . . . , Xn ) et (Y1 , . . . , Ym ), indépendants.
Sont-ils issus de la même loi ? Soit N = n + m et

(Z1 , . . . , ZN ) = (X1 , . . . , Xn , Y1 , . . . , Ym )
l’échantillon concaténé. On considère les statistiques d’ordre et du rang attachées à
cet échantillon :
X
Z(1) < . . . < Z(N ) , RZ (i) = 1 + 1IZj <Zi .
j6=i

Si X et Y ont même loi, alors la variable aléatoire RZ , à valeur dans l’ensemble des
permutations de {1, . . . , N } est uniforme (P(RZ = σ) = N1 ! ), cette loi est indépen-
dante de la loi commune de X et Y .
n
X
On note WX la somme des rangs des Xi : WX = RZ (i). On montre que
i=1
n(N + 1) nm(N + 1)
IE(WX ) = et Var(WX ) = .
2 12
La loi de WX − n(n+1)
2
est tabulée et permet de construire un test de comparaison
de deux échantillons.

35
Exemple : on veut comparer les performances de deux groupes d’élèves à des tests
d’habilité manuelle. Les performances en minutes sont les suivantes :

Groupe I 22 31 14 19 24 28 27 29
Groupe II 25 13 20 11 23 16 21 18 17 26

On se demande s’il y a une différence significative entre les deux groupes (avec R :
[Link]).

VIII Exemples d’estimation non paramétrique


1 Estimation d’une densité de probabilité
On considère X1 , ..., Xn un échantillon aléatoire indépendant de même loi que X.

a. Histogramme empirique
Une première approximation de la densité est fournie par l’histogramme. Pour cela,
on choisit des classes : [x0 , x1 ], ]x1 , x2 ], ..., ]xk−1 , xk ], l’histogramme est constitué
Ni
pour chaque classe d’un rectangle de hauteur fbi = n(xi −x i−1 )
, où
n
X
Ni = 1I]xi−1 ,xi ] (Xj ).
j=1

<X≤xi )
Il s’agit d’une approximation de l’histogramme théorique (fbi converge vers P(xxi−1
i −xi−1
).
Si xi et xi−1 convergent vers x alors ce rapport converge vers f (x). Considérons des
Ni
classes toutes de même taille h. Alors on considère fbn (x) = nh si xi−1 < x ≤ xi . Le
problème est de choisir les xi .

b. Fenêtres mobiles
Une réponse à ce problème du choix des xi est donnée par les fenêtres mobiles : pour
x ∈ R, Ix = [x − h2 , x + h2 ], soit
n
X
Nx = 1I{Xj ∈Ix } ,
j=1

et
n  
1 1 X x − Xj
fbn (x) = Nx = 1II
nh nh j=1 h

avec I = [− 12 , 12 ]. On peut montrer que si h → 0 et nh → ∞ alors fbn (x) converge


vers f (x). On a aussi un théorème de la limite centrale fonctionnel.

36
c. Versions lisses
L’approximation ci-dessus est assez irrégulière (à cause de la fonction 1II ). Pour
obtenir un estimateur plus régulier, on peut remplacer 1II par une fonction régulière
K appelée noyau. Par exemple :
 
1 1 2
K(x) = √ exp − x (noyau gaussien),
2π 2
u2 √
 
3
K(x) = √ 1− si |u| < 5 (noyau d’Epanechnikov).
4× 5 5
n  
1 X x − X j
fbn (x) = K .
nh j=1 h

2 Estimation des quantiles


L’estimation des quantiles revêt un intérêt particulier. Par exemple, la VaR (Value
at Risk) utilisée comme indicateur de risque dans de nombreux domaines, n’est rien
d’autre qu’un quantile.

La fonction quantile d’une distribution de probabilités est l’inverse généralisé de la


fonction de distribution F :

F −1 (p) = inf{x ∈ R, F (x) ≥ p}.

a. Quantiles empiriques
On définit alors la fonction quantile empirique Fn−1 comme l’inverse généralisé de la
fonction de répartition empirique Fn .

On admettra que Fn−1 (p) converge vers F −1 (p) en tout point de continuité de F −1
si et seulement si Fn (t) converge vers F (t) en tout point de continuité de F .

b. Lien avec les statistiques d’ordre


Étant donné un échantillon aléatoire iid (X1 , . . . , Xn ), on note (X(1) , . . . , X(n) ) la
statistique d’ordre associée.

On a la relation suivante :
 
i−1 i
∀p ∈ , , Fn−1 (p) = X(i) .
n n

37
c. Résultats asymptotiques
On a le résultat asymptotique suivant dans le cas où la fonction de répartition F est
différentiable : pour tout p ∈]0, 1[,
√ L
n(Fn−1 (p) − F −1 (p)) −→ N (0, σ 2 (p))
avec

p(1 − p)
σ 2 (p) = .
f (F −1 (p))2
Ce résultat pose ainsi la question de l’estimation de la densité.

L’utilisation de la transformation par quantiles peut permettre de trouver des in-


tervalles de confiance pour les quantiles, sans passer par l’estimation de la densité,
dans le cas d’une fonction de répartition strictement croissante et continue. On note
U1 = F (X1 ), . . . , Un = F (Xn ). Les Ui sont i.i.d. de loi uniforme sur [0, 1]. On note
U(1) , ..., U(n) les statistiques d’ordre associées. On a alors

P(X(k) < F −1 (p) ≤ X(`) ) = P(U(k) < p ≤ U(`) ).


On admet que pour
r r
k p(1 − p) ` p(1 − p)
= p − z1− α2 = p + z1− α2
n n n n
on a :

P(U(k) < p ≤ U(l) ) −→ 1 − α.


On peut alors choisir X(k) et X(`) comme bornes d’un intervalle de confiance de
niveau asymptotique 1 − α pour F −1 (p).

38
IX TP
ISFA- M1
Statistique inférentielle

Fiche de TP no 1
Une introduction au logiciel R

* Important *
Vous enregistrerez toutes vos commandes dans un document que vous
nommerez ”TP1.R” et que vous sauverez dans un répertoire ”IntroR”.

1 Commandes et fonctions élémentaires

Commande description Commande Description


a+b addition x<-a assigner x à la valeur a
- soustraction ls() lister les objets du repertoire
* multiplication x afficher la valeur de x
/ division rm(x) supprimer l’objet x
∧ puissance pi valeur de π
log(a) logarithme népérien sin, cos, tan les fonctions circulaire
exp(a) exponentielle asin, acos, atan réciproques des fonctions circulaires
sqrt(a) racine carré ?commande obtenir de l’aide

2 Vecteurs et matrices
1. Taper les commandes de la colonne ”Commande”, du tableau suivant. Au vu
du résultat, essayez de comprendre chacune d’entre-elles (au besoin, utiliser
l’aide en ligne) et complétez la colonne ”Description” du tableau.

Commande Descri. Commande Descri


> x<-c(1,2,5) > t<-rep(T,4)
> y <- c("a","b","c") > S=array(1.2,5)
> z <- c(x,y) > A<-array(2,c(5,5))
> x<-seq(1,5,by=0.5) > A%*%T
> y<-rep(c(1,"abc"),4) > t(T)%*%S
> z<-sample(1 : 100,30) > max(abs(T-S))
> r<-sample(1 : 100,30,rep=T) > t<-matrix(t,nrow=5,byrow=T)
> T<-1:5

Notons que les opérations arithmétiques vues précédemment pour les scalaires
s’appliquent de la même manière sur des vecteurs. Par exemple, on peut
additionner deux vecteurs a et b, et effectuer les produits scalaires ou membre
à membre classiques :

39
2. • Créez un vecteur d’entiers allant de 1 à 10 de trois façons différentes
• Créez un vecteur caractère avec successivement les noms de 5 villes de
France, puis 5 des départements où elles appartiennent.
• Créez un vecteur numérique contenant dans l’ordre la population approx-
imatif des ces villes et départements.
• Créez un vecteur caractère contenant 5 fois ”homme” puis 5 fois ”femme”
en vous servant de la fonction rep().
• Gardez ces trois derniers vecteurs en mémoire, pensez à leur donner des
noms explicites.

3 Quelques fonctions R
Nous avons vu quelques fonctions comme rep(), seq(), sample() etc., d’autres
fonctions sont utiles pour manipuler des données. La composition des fonction est
valable sous R.

rev(): permet de renverser l’ordre d’une séquence


> X <- rep(seq(1:5),2)
> rev(X)
De nombreuses fonctions permettent également de classer les éléments (ou les in-
dices) d’un vecteur, de les sommer, calculer le max le min etc. Que vous renvoient
les commandes suivantes?
> a <- c(1,3,2,7,4) > sort(a) ; order(a) > sum(a);length(a) > min(a);max(a)

Les éléments d’un vecteur peuvent avoir des noms. La fonction names() permet
en effet d’associer une étiquette à chacun des éléments d’un vecteur. Taper le pro-
gramme suivant:
> x <- 1:5
> names(x) <- c("a","b","c","d","e")
> v=c(1,2,3,4)
> names(v)=c(’alpha’,’beta’,’gamma’,’delta’)
> v[’beta’]

Les fonctions cbind et rbind permettent de manipuler des vecteurs de manière à


former une matrice par concaténation sur les colonnes ou sur les lignes. Taper et
commenter le code suivant:
> x <- seq(1:5)
> y <- 2*x
> cbind(x,y)
> xy <- rbind(x,y)
> M<-matrix(1:20, nrow=5, byrow=T)
> M[1,]; M[,1]; M[1,1]
> M[1,]==1;M[1,]>=1;M[1,]<=1
> dim(M)
> M1<-M[,c(2,1,2)]

40
> M2<-M[-1,]
> d<-det(M[1:2,1:2]);D<-solve(M[1:2,1:2])

4 Graphiques
Reproduire et commenter les programmes suivants
1. > x=(1:100)/100
> [Link]()
> lines(x,x∧ 2)
> axis(1)
> axis(2)
> title("Fonction carré")
> z=(1:20)/20
> op<-par(col="red")
> points(z,z∧ 2)
> [Link]()
> plot(x,x∧ 2)
> plot(x,x∧ 3,’l’)
> par(op)

2. > T<-seq(-10,10,by=0.05)
> D1<-dnorm(T,mean=0,sd=sqrt(5))
> D2<-dexp(T,rate=0.15)
> par(mfrow=c(1,2))
> plot(T, D1, type="o", pch=3, xlab="x", ylab="Densité", col =
+ 3,lty=1, main="Normale-Exponentielle")
> lines(T,D2, type="o", pch=4,col ="red")
> legend(-10, 0.15, c( "norm", "expo"), col = c(3,"red"), pch=
+c(3,4), [Link]="green4", lty = c(1,2))
> plot(T,sin(T),type="l",col=5,lwd=0.5)
> abline(h=0.5)
> abline(h=0,lwd=3,lty=2)
> abline(0,0.1)
> abline(v=5)

5 Programmation et création de fonctions


Voici des programmes R, taper-les et comprendre ce qu’ils calculent.

1. > x<-array(0,5)
> for (i in 1:5)
+ x[i]=5-i
> x

2. f = function (x){
+ return(x∧ 2+1)}

41
> f(8)

3. > g<-function(x,y)
+ { z=matrix(ncol=length(x),nrow=length(y))
+ z[1,]=0
+ for(i in 2:length(y))
+ for(j in 1:length(x))
+ {
+ z[i,j]=z[(i-1),j]+1
+ }
+ return(z)
}
> g(1:3,rnorm(4,0,1))

• Ecrire deux fonctions appelées beta et Beta prenant deux arguments x et n


et calculant les valeurs:
x n  − x5
(ln ln n) 5 X k
beta(x, n) = x (n ∈ N fixé )
n1− 5 k=3 ln ln k

et
Beta(x, n) = beta(x, k), k = 3, . . . , n.
Calculer et représenter graphiquement sur la même fenêtre graphique les valeurs
:
Beta(−1, 100), Beta(0, 100), Beta(0.5, 100) et Beta(1, 100),
sur l’intervalle [1 : 100]. Mettre un titre sur chaque graphique.

• Écrire une fonction appelée MoyenneMobile5, qui prend en argument un vecteur


x de taille supérieur à 5 et qui calcule les moyennes empiriques de ses com-
posantes successives considérées par groupes de 5. Appliquer la à une suite de
50 nombres aléatoires simulés suivant une loi normale centrée réduite.

6 Étude de variables quantitatives discrètes


On appelle variable quantitative discrète une variable ne prenant que des valeurs
entières.

a. Les données
Nous considérerons comme données un échantillon aléatoire issu d’une loi de Poisson
de paramètre λ = 30. La taille de l’échantillon est 100. Ce échantillon étant aléatoire,
vous n’aurez pas le même que celui de votre voisin...
Créer le code suivant:

> x <- rpois(n=100, lambda=30); x

42
Une première approche consiste à classer la série statistique brute par valeurs crois-
santes. On obtient ainsi la série statistique ordonnée. Il apparaı̂t souvent que cer-
taines valeurs de la série se répètent. c’est en se basant sur ces occurences que le
tableau de representation appelé tableau statistique, et la ”representation tige-et-
feuille” sont construits.

Commenter les commandes suivantes et leurs sorties:

> n <- length(x)


> xl <- sort(unique(x))
> nl <- table(x)
> fl <- nl/n
> r <- length(xl)
> Nl=cumsum(nl); Nl
> Fl=cumsum(fl); Fl
> tabx <- cbind(xl,nl,Nl,fl,Fl)
> dimnames(tabx) <- list(1:r,c("xl","nl","Nl","fl","Fl"))
> tabx
> tabx <- [Link](tabx)
> stem(x)

b. Représentations graphiques
Les informations recueillies dans le tableau statistique peuvent être représentées sur
un graphique pour avoir une meilleure vue d’ensemble des données. Les deux princi-
paux graphiques pour une variable quantitative discrète sont le diagramme en bâton,
basé sur les effectifs (ou les fréquences ou les pourcentages de fréquences) et le dia-
gramme cumulatif, basé sur les effectifs cumulés (ou les fréquences cumulées ou les
pourcentages de fréquences cumulées).

Commenter les commandes suivantes du caractère et leurs sorties


> plot(nl,type=’h’)
> barplot(nl,main="Diagramme en colonnes")
> barplot(fl, main="Diagramme des fréquences")

c. Caractéristiques numériques
Les caractéristiques de tendance centrale Les caractéristiques numériques de
tendance centrale, dites aussi de position ou de localisation, ont pour objectif de
fournir un ordre de grandeur de la série statistique, d’en situer le centre, le milieu.

Commenter les commandes suivantes et leurs sorties :

> sum(x)/n
> mean(x)
> min(xl[Fl>=0.5])

43
> median(x)

Les caractéristiques de dispersion Les caractéristiques de dispersion servent à


préciser la variabilité de la série, i.e. à résumer l’éloignement de l’ensemble des ob-
servations par rapport à leur tendance centrale.

Commenter les commandes suivantes et leurs sorties :

> min(x)
> max(x)
> range(x)
> diff(range(x))
> sum((x-mean(x))^2)/n
> var(x)
> var(x)*(n-1)/n
> sd(x)
> summary(x)
> quantile(x)
> quantile(x,0.75)-quantile(x,0.25)
> sum(abs(x-mean(x)))/n
> sum(abs(x-median(x)))/n
> boxplot(x,range=0)

d. Autour de la loi de poisson de paramètre λ=30.


Une variable aléatoire X suit une loi de poisson de paramètre λ si:

λk −λ
Ω (X) = {1, 2, 3 . . .} et ∀k ∈ Ω (X) , P (X = k) = e .
k!
1. calculer l’espérance, la variance et l’écart-type de X.

2. pour λ = 30, comparer ces valeurs, respectivement, avec mean(x), var(x)


etsd(x) (trouvés dans la section c.)

3. comparer l’espérance et la variance avec sum(x)/n, sum((x-mean(x))2 /n.

e. Loi des grands nombres


1. L’idée est de représenter empiriquement la loi des grands nombres. Commencer
par simuler un échantillon de taille n = 200 de n’importe quelle loi (normale,
Poisson, exponentielle...)

44
2. Pour k = 1, ..., 200, calculer la moyenne partielle
k
1X
xk = xi
k i=1

et tracer la courbe (k, xk )k .

3. Recommencer l’opération 100 fois en traçant les courbes sur le même graphique.

f. Théorème Centrale Limite


1. Simuler un échantillon de taille de 1000 moyennes prises sur k réalisations
d’une loi de Poisson de paramètres λ.

2. Transformer l’échantillon en
√ xi − λ
k √ i = 1, ..., 1000
λ

3. tracer l’histogramme (en utilisant la commande hist(...,probability=T))


et superposer la densité d’une loi gaussienne centrée réduite.

4. Recommencer pour différentes valeurs de k et d’autres distributions en soustrayant


l’espérance et en divisant par la variance.

45
X TD 1
ISFA- 2ème année (M1)
Statistique inférentielle

Fiche de TD no 1

Exercice 1.
Dans le cadre d’un modèle paramétrique réel d’échantillonnage, on considère
un n-échantillon X = (X1 , . . . , Xn ), de loi de probabilité Pθ .

1. Pour un estimateur Tn de θ donné, montrer les propriétés suivantes:

a. R(Tn , θ) = B 2 (Tn ) + Var(Tn ).


b. Si Tn est un estimateur sans biais de θ et Var(Tn ) → 0 quand n → 0, alors
Tn est un estimateur convergent pour θ.

2. Si Pθ est une loi de poisson de paramètre θ > 0, écrire le modèle statistique


correspondant. On considère l’estimateur de θ:
n
1X
X= Xi .
n i=1

N.B: cette notation de la moyenne empirique sera utilisée dans l’ensemble du


TD.

Calculer la moyenne et la variance de X. Cet estimateur est-il sans biais?


Convergent?

3. Si Pθ est une loi de Bernoulli de paramètre θ ∈ [0, 1], écrire le modèle statis-
tique, puis vérifier que l’estimateur:

Tn = X 1 − X

de θ(1 − θ) est biaisé. Donner un estimateur sans biais de θ(1 − θ).

Exercice 2.
Soit X = (X1 , . . . , Xn ), un n-échantillon de loi uniforme sur [0, θ]. Écrire le modèle
statistique. On considère l’estimateur de θ:

Xmax := max Xi .
1≤i≤n

1. Déterminer la loi de Xmax et calculer son espérance et sa variance.

2. Comparer cet estimateur avec l’estimateur sans biais de θ construit avec X.

46
Exercice 3.
Soit un modèle paramétrique réel d’échantillonnage (R, BR , (Pθ , θ ∈ R))n , tel que la
loi de probabilité Pθ admette pour densité:
f (x, θ) = e−(x−θ) 1x≥θ , avec θ ∈ R.
Soit le vecteur aléatoire X = (X1 , . . . , Xn ), associé à ce modèle.
1. Vérifier que U1 = X1 − θ suit sous Pθ une loi exponentielle de paramètre 1.
2. Comparer les estimateurs:
n
1X
Yn = (Xi − 1) et Xmin = min Xi .
n i=1 1≤i≤n

Exercice 4.
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi normale N (m, σ 2 ). Pour estimer σ 2 ,
on pose:
n
X 2
Tn = c(n) Xi − X .
i=1

−2
Pn 2
1. Quelle est la loi de σ i=1 Xi − X ?
2. calculer B(Tn ), et donner un estimateur sans biais de σ 2 .
3. Quelle est la fonction c(n) qui minimise le risque quadratique de Tn ?
4. On suppose que σ = 1 et m ∈ [0, 1], et on définit l’estimateur:

 0 si X < 0
Un = X si 0 ≤ X ≤ 1 .
1 si X > 1

a. Montrer que Un est un estimateur de m, strictement meilleur que X, en


calculant la différence entre les risques quadratiques.
b. Montrer que

Z n(1−θ)  
1 t t2
e− 2 dt + P X > 1 .

E(Un ) = √ √
θ+√
2π − nθ n
c. En déduire que Em (Un ) → θ lorsque n → ∞.

Exercice 5.
Afin de diminuer les sinistres de ses clients, un assureur décide de financer la con-
struction d’une digue destinée à empêcher les inondations provoquées par les crues
d’une rivière. La construction d’une digue de hauteur h coûtera c1 h à la compagnie
d’assurance. En cas de crue, il n’y aura aucun sinistre si la hauteur H de la crue
est inférieure à h et un sinistre évalué à c2 (H − h) si H > h. La hauteur de la crue
H est une variable aléatoire de loi exponentielle de paramètre 1/θ. On suppose que
c2 > c1 > 0.

47
1. On choisit comme fonction de perte:

L(θ, h) = c1 h + c2 Eθ [(H − h) 1H>h ] .

Calculer L(θ, h) si θ est connu, quelle hauteur choisir?

2. Ayant observé n crues indépendantes de hauteurs H1 , . . . , Hn , l’assureur qui


ne connaı̂t pas θ, décide de fixer la hauteur de la digue à dn = kH

a. Évaluer la limite (quand n → 0) du risque de cette décision.


b. Quelle valeur donneriez-vous à k?

Exercice 6.
Soient X = (X1 , . . . , Xn ) un n-échantillon de loi de bernoulli de paramètre θ ∈ [0, 1],
a et b deux constantes positives. On considère les estimateurs de θ:

nX + a
Ta,b = .
n+a+b
1. Calculer R(Ta,b , θ).

2. Comparer à l’aide des risques quadratiques, les estimateurs T √n , √n et T0,0


2 2
selon les valeurs de θ. Le critère du risque quadratique est-il approprié pour
comparer ces estimateurs?

3. Quel est parmi ces deux estimateurs celui qui minimise le maximum du risque
quadratique? Cet estimateur est dit meilleur au sens mini-max.

4. On suppose maintenant que θ est une variable aléatoire suivant une loi uniforme
sur [0, 1]. Calculer r1 et r2 définis par:
 
r1 = E (R(T0,0 , θ)) et r2 = E R(T √n , √n , θ) .
2 2

48
XI TD 2
ISFA- 2ème année (M1)
Statistique inférentielle

Fiche de TD no 2

Exercice 1.
On considère un modèle d’échantillonnage avec n > 1 et pour lequel Pλ est une
loi de poisson de paramètre λ > 0. On a donc les Xi iid avec ∀i = 1, . . . , n, Xi ∼
Poisson(λ). On pose:
X n
Tn = Xi et Tn0 = X1 .
i=1

1. Montrer que la statistique Tn est exhaustive pour le paramètre λ et que Tn0 ne


l’est pas.

2. Soit k ∈ N. On veut estimer p(λ) = Pλ (Xi = k). Calculer la moyenne et la


variance de Nk /n où:
Xn
Nk = 1{Xi =k}
i=1

est le nombre de Xi égaux à k.

3. Calculer E Nnk /Tn . C’est l’unique estimateur sans biais de p(λ) fonction de


Nk /n.

Exercice 2. Soit X = (X1 , . . . , Xn ) un n-échantillon de loi Pθ . Donner la vraisem-


blance du modèle, vérifier sa régularité et calculer l’information de Fisher dans le
cas où:

1. Pθ est une loi de poisson de paramètre θ.

2. Pθ est une loi de Pareto de paramètre α > 1 et β > 0, fixé de densité


 θ
θ−1 β
f (x, θ, β) = 1x≥β
β x

3. Pθ est une loi exponentielle de paramètre θ > 0

4. Pθ est une loi uniforme sur [0, θ], θ > 0.

Exercice 3.
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi Pθ .

49
1. On suppose que Pθ est une loi de Poisson de paramètre |θ| si −1 ≤ θ < 0
et Pθ est une loi de Bernoulli de paramètre θ si 0 ≤ θ ≤ 1. Calculer la loi
conditionnelle de X sachant nX. En déduire que nX n’est pas exhaustive.

2. Vérifier que le modèle est dominé et en appliquant le théorème de factorisation,


donner une statistique exhaustive pour θ ∈ [0, 1].

3. On suppose maintenant que Pθ est une loi uniforme discrète sur {1, 2, . . . , θ},
où θ ∈ N∗ .

a. Vérifier que le modèle statistique est dominé et donner une vraisemblance


du modèle.
b. Déterminer l’estimateur du maximum de vraisemblance de θ.

Exercice 4.
L’organisateur d’une exposition s’intéresse au rythme d’arrivées de groupes de visi-
teurs à partir des observations faites au cours des premières journées. Il constate que
le temps séparant l’arrivée de deux groupes successifs peut être assimilé à une vari-
able X de loi uniforme sur [0, θ] et que ces temps inter-arrivées sont indépendantes
Il souhaite estimer θ à partir de l’observation d’un n-échantillon X = (X1 , . . . , Xn )
de ces inter-arrivées.

1. Vérifier que le modèle statistique est dominé et donner une vraisemblance du


modèle.

2. Déterminer l’estimateur du maximum de vraisemblance Tn de θ et en déduire


sa loi.

3. Déterminer β tel que Wn = βTn soit un estimateur sans biais de θ.

Exercice 5.
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi Pθ .

1. On suppose que Pθ est une loi de Poisson de paramètre θ. On veut estimer θ2 .

a. Vérifier que le modèle statistique est dominé et donner une vraisemblance


du modèle.
b. Déterminer l’estimateur du maximum de vraisemblance de θ2 . Est-il sans
biais?

2. On suppose que Pθ est une loi exponentielle de paramètre 1/θ.

a. Vérifier que le modèle statistique est dominé et donner une vraisemblance


du modèle.
b. Déterminer l’estimateur du maximum de vraisemblance de θ.

50
Exercice 6.
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi N (0, θ) , θ > 0.

1. On veut estimer θ par la méthode du maximum de vraisemblance. On pose


n
1X 2
Tn (X1 , . . . , Xn ) = X .
n i=1 i

a. Soit p(θ, x1 , . . . , xn ) la fonction de vraisemblance. Calculer:

2 (ln p(θ, x1 , . . . , xn ) − ln p(Tn (x1 , . . . , xn ), x1 , . . . , xn )) .

b. En utilisant l’inégalité ln x ≤ x − 1, montrer que Tn est l’estimateur du


maximum de vraisemblance de θ.
c. Montrer que Tn est sans biais et calculer R(Tn , θ).

2. Calculer l’information de Fisher pour l’estimation de θ

3. L’estimateur Tn est-il efficace de θ?

4. On veut maintenant estimer θ par la méthode de Bayes relatif à la loi à priori


ayant pour densité:

λa 1
 
λ
g(θ) = exp − 1{θ>0} ,
Γ(a) θa+1 θ

où λ > 0, a > 1 et Γ(a + 1) = aΓ(a). Les estimateurs de Bays sont définis par :

nTn + 2λ
Tλ,a = .
2a + n − 2
Montrer qu’ils sont asymptotiquement sans biais.

5. On veut maintenant comparer l’estimateur du maximum de vraisemblance avec


les estimateurs bayésiens.

a. Peut-on les comparer au sens minimax?


b. Montrer que la limite de R(Tλ,a , θ) − R(Tn , θ) lorsque θ → 0 est strictement
positive.
∗ ∗ ∗
c. Pour tous λ et a trouver un point θλ,a où R(Tλ,a , θλ,a ) < R(Tn , θλ,a ).
d. Conclure.

Exercice 7.

1. Montrer que si Tn est un estimateur efficace de θ, alors kTn + b est aussi un


estimateur efficace de θ, ∀k ∈ R∗ , ∀b ∈ R. On considère la loi normale N (µ, σ 2 ).

51
2. On suppose σ 2 connue et l’on considère le modèle paramétrique réel d’échantillonnage
suivant: n
R, BR , N µ, σ 2 , µ ∈ Θ = R .


L’estimateur X est-il un estimateur efficace de µ?

3. Sans supposer µ connue, on pose θ = σ 2 et l’on considère le modèle paramétrique


réel d’échantillonnage suivant:
n
R, BR , N µ, σ 2 , σ 2 ∈ Θ = R∗+ .


1
Pn 2
L’estimateur S 2 = n−1 i=1 Xi − X est-il un estimateur efficace de σ 2 ?

4. Écrire la vraisemblance du modèle. Vérifier que le couple (X, S 2 ) forment une


statistique exhaustive pour le paramètre (µ, σ 2 ).

52
XII TD 3
ISFA- M1SAFIR
Statistique inférentielle

Fiche de TD no 3

Exercice 1.
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi uniforme sur [0, θ].

1. Écrire la vraisemblance du modèle. Donner une statistique exhaustive pour θ.

2. Donner un estimateur sans biais de θ fonction de la statistique exhaustive.



3. En déduire sans faire de calcul, la valeur de E X/ max1≤i≤n Xi .

Exercice 2.
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi exponentielle décentrée sur [θ, +∞[.

1. Déterminer l’estimateur du maximum de vraisemblance de θ. Est-il biaisé?


Est-ce une statistique exhaustive?

2. En déduire un estimateur sans biais de θ fonction d’une statistique exhaustive.

Exercice 3.
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi uniforme sur [θ − 12 , θ + 12 ], θ ∈ R. On
pose:
Xmax = max Xi et Xmin = min Xi .
1≤i≤n 1≤i≤n

1. Écrire la vraisemblance du modèle et montrer que le couple (Xmin , Xmax ) est


exhaustif.

2. Calculer la loi de probabilité de Xmax − Xmin .

Exercice 4.
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi Fθ de densité:

xk
f (x, θ) = (k + 1) 1[0,θ] (x),
θk+1
où k ≥ 1 est connu et θ > 0 est le paramètre inconnu.

1. Calculer Eθ (X1 ).

2. Donner une statistique exhaustive pour θ.

53
3. On considère l’estimateur
n(k + 1) + 1
S= max (X1 , . . . , Xn ) .
n(k + 1)

Quelles sont ses propriétés? En déduire sans calcul Eθ (X1 / max1≤i≤n Xi ).

Exercice 5.
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi Fθ de densité:

f (x, θ) = (θ + 1)xθ 1[0,1] (x),

où θ > 0 est le paramètre inconnu.

1. Écrire la vraisemblance du modèle Donner une statistique exhaustive.

2. Quelle est la loi de − ln X1 et de −(θ + 1) ln X1 .

3. Donner un estimateur sans biais de −1/(θ + 1). On pose:

max1≤i≤n ln Xi
Sn = .
min1≤i≤n ln Xi
Qn
Montrer que la loi de Sn ne dépend pas de θ. En déduire que Sn et i=1 Xi
sont indépendantes.

54
XIII TD 4
ISFA- M1 2019/2020
Statistique inférentielle

Fiche de TD no 4

Exercice 1.
Soient Z et Y deux variables indépendantes suivant des lois exponentielles de paramètres
respectifs λ > 0 et µ > 0. On dispose d’un échantillon de variables aléatoires in-
dépendantes (Z1 , Y1 ), . . . , (Zn , Yn ) de même loi que (Z, Y ).

1. S’agit-il d’un modèle exponentiel? Si oui, peut-on exhiber une statistique


exhaustive?

2. Calculer l’estimateur du maximum de vraisemblance de (λ, µ).

3. Montrer qu’il est asymptotiquement normal et déterminer sa matrice de co-


variance asymptotique.

4. Quel est l’estimateur du maximum de vraisemblance de γ = λ + µ fondé sur


les observations (Z1 , Y1 ), . . . , (Zn , Yn ).

Exercice 2.

On s’interroge sur la comparaison des tailles moyennes des garçons et des filles de 6
ans dans une population, pour cela on a pris comme échantillon, jugé représentatif
de cette tranche d’âge, une classe d’école primaire (niveau CP en France), et on a
observé :

16 garçons : moyenne 126.5 cm, écart-type 12.9 cm

15 filles : moyenne 136.9 cm, écart-type 11.9 cm.

On admet que la distribution des tailles dans chacune des sous-populations (garçons,
filles) suit une loi gaussienne.

1. Donner des intervalles de confiance pour les tailles moyennes des garçons et
des filles.

2. Donner un intervalle de confiance pour l’écart-type de la taille des garçons.


Même question pour les filles.

3. Les écarts-types observés permettent-ils de déduire que les variances des deux
populations sont différentes ?

55
4. Sur la base de la réponse à la question précédente, on suppose que la variance
est la même dans les deux populations. Par ailleurs, au vu de cet échantillon,
un observateur avance l’opinion : dans la population, la taille moyenne des
filles dépasse de plus de 2 cm celle des garçons. Les données confirment-elles
significativement, au niveau α = 0.05, cette opinion ? (autrement dit quelle
est la conclusion, au niveau α = 0.05, du test de l’hypothèse nulle : dans la
population, la taille moyenne des filles dépasse de moins de 2 cm celle des
garçons ?).

Exercice 3.
 √ 
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi uniforme sur [0, θ], θ ∈ 0, 2 3 .

1. Calculer l’espérance et la variance de X, puis montrer que P X − 2θ > 0.1 ≤



100
n
.
 
2. Déterminer n pour que X − 0.1, X + 0.1 soit un intervalle de confiance pour
θ/2, avec un coefficient de confiance égal à 0.99.

3. Par quelle loi peut-on approcher celle de X 1000 ?


 √ 
4. Déterminer t pour que P −t ≤ 100θ 12 X − 2θ ≤ t > 0.99, et en déduire


un autre intervalle de confiance asymptotique de θ/2 avec un coefficient de


confiance égal à 0.99.

Exercice 4.

Soit X = (X1 , . . . , Xn ) un n-échantillon de loi exponentielle de paramètre 1/θ > 0.

1. Construire le test de niveau α: H0 = {θ = θ0 } contre H1 = {θ > θ0 }.

2. Construire le test de niveau α: H0 = {θ = θ0 } contre H1 = {θ 6= θ0 }.

Exercice 5.

Soit X = (X1 , . . . , Xn ) un n-échantillon de loi béta de paramètre 1/θ de densité:


1
(1 − x) θ −1
f (x, θ) = 1]0,1[ (x), θ > 0.
θ
1. Déterminer l’estimateur du maximum de vraisemblance Tn de θ. Est-il efficace?

2. Montrer que − ln(1 − Xi ) suit une loi exponentielle de paramètre 1/θ.



3. Étudier la limite en loi de n (Tn − θ) lorsque n → +∞.

4. Donner un intervalle de confiance asymptotique de θ au seuil 0.99.

56
Exercice 6.

On considère un n-échantillon gaussien 


(X, Y ) 
=  {(X1 , Y1 ), .
. . , (Xn , Yn )} de vari-
µ1 σ12 0
ables aléatoires indépendantes de loi N , , où σ1 et σ2 sont
µ2 0 σ22
inconnus.
1. Décrire la statistique de test pour tester si µ1 = µ2 et donner une région
critique de niveau asymptotique 0.05.
2. On suppose σ1 = σ2 . Donner une région critique de niveau exact 0.05, con-
struite à l’aide de la même statistique de test que celle utilisée dans la question
précédente. Faire l’application numérique pour n = 15.

Exercice 7.
Soit X = (X1 , . . . , Xn ) un n-échantillon de loi géométrique de paramètre q ∈]0, 1[.
1. Vérifier qu’il s’agit d’un modèle exponentiel. Donner une statistique exhaus-
tive.
2. Déterminer I(q), l’information de Fisher sur q d’un échantillon de taille 1.
3. Déterminer l’estimateur du maximum de vraisemblance de q et montrer qu’il
est asymptotiquement normal.
4. Donner un intervalle de confiance asymptotique pour q de niveau 1 − α.
5. Une société de transport en commun par bus veut estimer le nombre de pas-
sagers ne validant pas leur titre de transport sur une ligne de bus déterminée.
Elle dispose pour cela, pour un jour de semaine moyen, du nombre n0 de tick-
ets compostés sur la ligne et des résultats de l’enquête suivante : à chacun
des arrêts de bus de la ligne, des contrôleurs comptent le nombre de passagers
sortant des bus et ayant validé leur ticket jusqu’à la sortie du premier fraudeur.
Celui-ci étant inclus on a les données suivantes :
44 09 11 59 81 44 19 89 10 24
07 21 90 38 01 15 22 29 19 37
26 219 02 57 11 34 69 12 21 28
34 05 07 15 06 129 14 18 02 156.
Estimer la probabilité de fraude. Donner un intervalle de confiance asympto-
tique de niveau 0.95. Estimer le nombre de fraudeur nf si n0 = 20000.

Exercice 8.

Une agence de voyage souhaite cibler sa clientèle. Elle sait que les coordonnées
du lieu de vie d’un client (X, Y ) rapportées au lieu de naissance (0, 0) sont une
information significative pour connaı̂tre le goût de ce client. Elle distingue :
• La population 1 (Hypothèse H0 ) dont la loi de répartition a pour densité:
1 −(x2 +y2 )/2
p1 (x, y) = e dxdy.

57
• La population 2 (Hypothèse H1 ) dont la loi de répartition a pour densité :
1
p2 (x, y) = 1[−2;2] (x)1[−2;2] (y)dxdy.
16

L’agence souhaite tester l’hypothèse qu’un nouveau client vivant en (x, y) appartient
à la population 1 plutôt qu’à la population 2.

1. Proposer un test de niveau inférieur à α = 0.05 et de puissance maximale,


construit à partir du rapport de vraisemblance.

2. Donner une statistique de test et caractériser graphiquement la région critique


dans R2 .

Exercice 9.
Soit X = (X1 , . . . , Xn ) un n-échantillon, de loi N (θ, θ), θ > 0. On note Vn =
1
Pn 2
n−1 i=1 Xi − X .

1. Pour chacun des variables aléatoires X et Vn , déterminer la loi, l’espérance, la


variance et la limite lorsque n → +∞

2. Donner la loi du couple (X, Vn ). Déterminer sa limite.

3. On considère la classe des variables aléatoires Tnλ de la forme: Tnλ = λX +


(1 − λ)Vn . Calculer leur espérance, leur variance, et montrer leur convergence
presque sûre.
√ √ √
Étudier la convergence en loi de n(X − θ), n(Vn − θ), n(X − θ, Vn − θ),
4. √
n(Tnλ − θ).
p
5. On pose: σ = λ2 θ + 2(1 − λ)2 θ2 . Construire, à partir de Tnλ , σ et n, un
intervalle de confiance asymptotique In de θ de niveau asymptotique 0.95.
p
6. Comme σ est inconnu on l’estime par σ b = λ2 Tnλ + 2(1 − λ)2 (Tnλ )2 , et on le
remplace dans l’expression de In . Montrer que l’intervalle obtenu est encore
un intervalle de confiance de niveau 0.95. Donner un tel intervalle pour λ =
0.5, n = 100, x = 4.18 et vn = 3.84.

7. Vérifier qu’il existe un unique λ∗ ∈ [0, 1] fonction de θ qui minimise la longueur


de l’intervalle In . On considère maintenant les variables aléatoires λ∗n = 1+2V
2Vn
n
.

Montrer que ces variables convergent presque sûrement vers λ .
√ λ∗
8. Étudier la convergence en loi de n(Tn n − θ) . En déduire un intervalle de
confiance asymptotique de θ de niveau 0.95. Donner un tel intervalle avec les
valeurs numériques de la question 6.

58
XIV TD 5
Fiche de TD no 5

Exercice 1.
On dispose de 10000 automobilistes observés 4 fois par un radar, pour lesquelles on
connaı̂t le nombre de fois (entre 0 et 4) où ils n’ont pas respecté la limitation de
vitesse:

Nombre d’excès de vitesse 0 1 2 3 4


Nombre d’autmobilistes 572 2329 3758 2632 709
On souhaite savoir si les observations sont compatibles avec l’hypothèse que les
comportements des automobilistes ( {respect de la vitesse} et {non respect de la
vitesse}) sont équiprobables.

1. Formuler l’hypothèse nulle H0 que l’on cherche à tester.

2. Mettre en place un test du χ2 pour répondre à la question posée.

3. Calculer la valeur de la statistique de test et la p-valeur correspondante, puis


conclure. On vérifiera d’abord que les conditions d’application du résultat
asymptotique lié à ce test sont satisfaites.

4. On suppose maintenant que les événements {respect de la vitesse} et {non


respect de la vitesse} ne sont pas équiprobables, soit p la probabilité de non
respect de la vitesse. On cherche toujours à tester l’hypothèse H0 .

a. Determiner pb, l’estimateur du maximum de vraisemblance de p.


b. Mettre en place le test du χ2 , et conclure.

Exercice 2.

On génère par simulation n = 10 nombres pseudo-aléatoires suivant une loi uniforme


sur [0, 1] :
0.2113249, 0.7560439, 0.0002211, 0.3303271, 0.6653811, 0.6283918, 0.8497452, 0.6857310,
0.8782165, 0.0683740

1. Quelle est la fonction de répartition F0 de la loi uniforme sur [0, 1]? Déterminer
la fonction de répartition empirique Fbn (t) associée aux observations et tracer
F0 et Fbn sur un même graphique.

2. On définit:
Tn = sup F0 (t) − Fbn (t) .
t∈R

Que pouvez-vous dire à propos de la variable Tn ? Pour les observations que


nous avons, que vaut-elle ?

59
3. Construire le test de Kolmogorov-Smirnov de niveau 5% de l’hypothèse H0 :
”les nombres sont indépendants et de loi uniforme sur [0, 1]”, contre H1 : ”ils
ne le sont pas”. On donne: P (D10 ≤ 0.4092) ' 0.95, appliquez votre test aux
observations.

Exercice 3.

Soient X = (X1 , . . . , Xn ) un n-échantillon de loi, de densité de probabilité f in-


connue. Soit h un réel positif. L’histogramme des observations X1 , ..., Xn au point
x0 ∈ R peut être défini par:
n
1X jx k
0
Hn (x0 ) 1[jh,(j+1)h] (Xi ), avec j = .
n i=1 h

1. Donner la loi de la variable aléatoire nHn (x0 ).

2. Calculer l’espérance et la variance de Hn (x0 ) et en déduire la valeur du risque


quadratique
E[(h−1 Hn (x0 ) − f (x0 ))2 ].

3. On suppose que la densité f est une fonction Lipshitzienne dans un voisinage


de x0 . Montrer que pour h = hn = n−1/3 le risque quadratique est de l’ordre
de n−2/3 .

4. l’estimateur à noyau de f au point x0 ∈ R est défini par:


n  
1 X x0 − X i
fb(x0 ) = K ,
nh i=1 h

où K est une densité de probabilité et h = hn une suite qui tend vers 0 et
R →2 +∞, lorsque n → 0. Montrer que si f est majorée par fmax sur R et
nh
R
K (x)dx < ∞, alors
R
f max K 2 (x)dx
V ar(fb) ≤ R
.
nh

60
XV TD CC
Statistique Inférentielle
Contrôle continu
Mercredi 7 Novembre

Durée 2h, documents, téléphone, calculatrice interdits

Le barême (indicatif) prévu est le suivant : 10-10 (on tiendra compte (grave) de la
présentation et de la clareté des explications):

Rappel : La densité d’une loi Gamma (a,b) est :

xa−1 ba −bx a a
f (x) = e d’espérance et de variance 2
Γ(a) b b

Exercice 1 (vu en cours) :

On considère un échantillon (X1 , ..., Xn ) de loi normale N (µ, σ 2 ) de densité


 
1 1 2
f (x) = √ exp − 2 (x − µ)
2πσ 2σ

avec θ = (µ, σ 2 ).

1. On suppose dans un premier temps que µ est connu. Calculer l’estimateur du


maximum de vraisemblance σ̂ 2 de σ 2

2. Calculer l’information de Fisher pour σ 2 du modèle.

3. L’estimateur σ̂ 2 est-il exhautif ?

4. Calculer le biais de σ̂ 2 .

5. σ̂ 2 est-il convergent? Efficace?

6. Calculer la loi limite de σ̂ 2 .

7. On suppose maintenant que µ et σ 2 sont inconnus. Calculer l’estimateur du


maximum de vraisemblance (µ̂, σ̂ 2 ) de (µ, σ 2 )

8. Calculer la matrice d’information de Fisher du modèle pour (µ, σ 2 )

9. L’estimateur (µ̂, σ̂ 2 ) est-il exhautif ?

10. L’estimateur (µ̂, σ̂ 2 ) est-il sans biais ?

61
11. Calculer la loi limite de (µ̂, σ̂ 2 ).
2 2
12. Calculer l’estimateur des moments (µ̂M M , σ̂M M ) de (µ, σ )

2
13. Calculer la loi limite de (µ̂M M , σ̂M M ).

Exercice 2

Soit X une variable aléatoire continue de fonction de répartition :

Fθ (x) = (1 − exp (−θxc ))

pour x > 0, avec c > 0 une constante connue. Le paramètre de la loi est θ > 0.
Considérons un échantillon X1 , ..., Xn de même loi que X.

1. Calculer la densité X.

2. Calculer la loi de θX c .

3. Calculer l’estimateur du maximum de vraisemblance θ̂ de θ.

4. Calculer l’Information de Fisher pour θ du modèle.

5. θ̂ est-il exhaustif ?

6. θ̂ est-il sans biais ?

7. Calculer la variance de θ̂. Est-il efficace ?

8. Calculer la loi limite de θ̂.

9. Calculer l’estimateur des moments θ̂M M de θ.

10. Calculer l’estimateur par moindre carrés θ̂M C de θ.

62
M1 Actuariat, économétrie et statistiques, année 2019–2020.

Statistique Inférentielle
Contrôle continu
Mercredi 7 Novembre

Durée 2h, documents, téléphone, calculatrice interdits

Le barême (indicatif) prévu est le suivant : 7-7-7 (on tiendra compte (grave) de la
présentation et de la clareté des explications):

On rappelle que la densité d’une loi Γ(α, β) vaut :

β α α−1 −βx
f (x) = x e 1IR+ (x).
Γ(α)
Exercice 1

Soit X1 , X2 , ..., Xn un échantillon de variables aléatoires de même loi que X, où X


admet pour densité de probabilité :
 
−(p+1) θ
fθ (x) = kx exp − 1Ix>0
x
avec θ ∈]0, ∞[ un paramètre réel inconnu et p > 0 un nombre connu.

1
On pose U = X
.

1. Montrer que U suit une loi Gamma dont on précisera les paramètres et en
déduire la constante k.

2. On pose
n
1X 1
T1 = −
n i=1 Xi
Montrer que T1 est une statistique exhaustive pour θ.

3. Déterminer θ̂ l’estimateur du maximum de vraisemblance de θ.


P 1
4. Déterminer la loi de Z = Xi
.

5. En déduire l’espérance et la variance de θ̂.

6. Calculer l’information de Fisher du modèle.

63
7. L’estimateur est-il convergent? Efficace?

Exercice 2

Soit X1 , X2 , ..., Xn un échantillon de variables aléatoires de même loi X, où X suit


une loi de Pareto de paramètre α > 1 et β > 0, de densité
 α
α−1 β
f (x, α, β) = 1x≥β
β x

1. On suppose que β est fixé et connu. Calculer l’estimateur α


b du maximum de
vraisemblance de α.

2. Calculer la loi de ln X

3. Calculer le biais de α
b pour α.

4. L’estimateur est-il efficace?

5. On suppose maintenant que β est le paramètre inconnu et que α est fixé et


connu. Calculer l’estimateur βb du maximum de vraisemblance de β.

6. Calculer le biais de βb pour β.

7. On suppose maintenant que α et β sont inconnus. Montrer que l’estimateur


(b
α, β)
b du maximum de vraisemblance de (α, β) existe.

Exercice 3 :

Soit X1 , ..., Xn un échantillon de variables aléaoires indṕendantes et identiquement


distribuées de densité

(α − 1)λα−1
f (x) = 1I{x≥λ}

avec α > 1 connu et λ > 0

1. Calculer l’estimateur du maximum de vraisemblance λ̂.

2. Cet estimateur est-il sans biais?

3. Calculer l’estimateur λ̂M M de λ par la méthode des moments.

4. Cet estimateur est-il sans biais ?

5. Cet estimateur est-il convergent ?

6. Donner la normalité asymptotique de λM M ?

7. Donner un Intervalle de confiance asymptotique de niveau 1 − α pour λ.

64
XVI CT 2019-2020
M1 Actuariat & Econométrie et Statistiques, année 2019–2020.

Statistique Inférentielle
Contrôle terminal
Vendredi 10 janvier

Durée 2h, documents, téléphone, calculatrice interdits

Rappel 1 : densité d’une loi Γ(α, β)


β α α−1 −βx
f (x) = x e 1IR+ (x).
Γ(α)
Rappel 2 : densité d’une loi Beta(α, β) vaut

Γ(α + β) α−1
f (x) = x (1 − x)β−1 1I[0, 1](x)
Γ(α)Γ(β)
1
= xα−1 (1 − x)β−1 1I[0, 1](x)
B(α, β)
et

Γ(x) = (x − 1)Γ(x)
Rappel 3 : Méthode Delta

On considère Tn un vecteur aléatoire de Rk , Σ une matrice de covariance. On suppose


que
L
an (Tn − θ) −→ N (0, Σ)
avec an → ∞. Alors, pour toute fonction g de classe C 1 , g(Tn ) converge en proba-
bilité vers g(θ) et
L
an (g(Tn ) − g(θ)) −→ N (0, Dg ΣDgt )
où Dg est la matrice Jacobienne de g calculée en θ.
Exercice 1 :

On considère un échantillon X1 , ..., Xn de v.a.i.i.d. de loi Beta(1, θ) i.e. de densité

fθ (x) = θ(1 − x)θ−1 1I[0,1] (θ)

65
1. Donner θ̂M l’estimateur de θ par la méthode des moments.

2. Donner l’estimateur du maximum de vraisemblance θ̂n de θ.

3. Cet estimateur est-il exhaustif ?

4. calculer la loi de la v.a. Y = − log(1 − X).

5. L’estimateur θ̂n est-il sans biais ? Donner un estimateur sans biais de θ.

6. L’estimateur θ̂n est-il convergent ?

7. Calculer l’information de Fisher du modèle.

8. L’estimateur θ̂n est-il efficace ?

9. Donner la normalité asymptotique de θ̂n .

10. Donner la normalité asymptotique de θ̂M (estimateur des moments).

11. Donner un intervalle de confiance de niveau asymptotique 1 − α pour θ.

12. Construire un text de niveau asymptotique α pour tester H0 : θ = θ0 contre


H1 : θ = θ1 > θ0 .

13. Construire un text de niveau asymptotique α pour tester H0 : θ = θ0 contre


H1 : θ < θ0 .
Exercice 2 :

On considère un échantillon X1 , ..., Xn de v.a.i.i.d. de loi Γ(α, β) (cf page 1).

1. Calculer IE(Xik ) pour k = 1, ..., 4.

2. Calculer (α̂, β̂) l’estimateur des moments de (α, β).

3. Ecrire le Théorème Centrale Limite pour (X n , X 2 n ).

4. Donner la normalité asymptotique de (α̂, β̂).

Exercice 3 :

On considère un échantillon X1 , ..., Xn de v.a.i.i.d. de densité


 1−θ

 2
si x ∈] − 1, 0]



1+θ
f (x) = 2
si x ∈]0, 1]




0 sinon

On pose
n
X
K= 1I{Xi > 0}
i=1

66
1. Montrer que K est une statistique exhaustive.

2. Calculer θ̂n l’estimateur du maximum de vraisemblance de θ.

3. Donner la loi de K.

4. Calculer le biais de θ̂n .

5. θ̂n est-il convergent ?

6. Donner la normalité asymptotique de θ̂n .

7. Déterminer un intervalle de confiance de θ de niveau asymptotique 1 − α.

8. Construire un test de niveau asymptotique α pour tester H0 : θ = θ0 contre


H1 : θ = θ1 > θ0 .

67

Vous aimerez peut-être aussi