A.U.
2017-2018
Peg : Estimation ponctuelle - Estimation par intervalle de confiance
1 Estimation ponctuelle
1.1 Introduction
L’objectif principal de cette partie est d’estimer certaines caractéristiques statistiques d’une
certaine loi (moyenne, variance, proportion) ou un certain paramètre à travers une série d’observa-
tions. L’estimation consiste à donner des valeurs approximatives aux paramètres d’une population
à l’aide d’un échantillon de n observations issues de cette population.
1.2 Exemple introductif
Avant de choisir un véhicule automobile, on se fixe un critère de choix basé sur le nombre X de
pannes par an que l’on est susceptible d’avoir avec un modèle donné. Ayant la possibilité de faire
une étude statistique chez un concessionnaire donné, on prélève au hasard n dossiers de véhicules
et l’on note x1 , x2 ,..., xn le nombre de pannes subies la première année de mise en circulation de ces
véhicules. La loi de Poisson {P(λ); λ > 0} est bien adaptée à la modélisation du nombre de pannes.
λ est l’unique paramètre déterminant de cette loi. Or on sait que λ est l’espérance de cette loi, on
estime donc la valeur de ce paramètre par la moyenne des valeurs observées sur l’´échantillon :
n
1X
xn := xi .
n
i=1
On utilise donc comme estimateur la moyenne d’éechantillon :
n
1X
X n := Xi .
n
i=1
où X1 , X2 ,..., Xn sont les variables aléatoires donnant respectivement les nombres de pannes x1 ,
x2 ,..., xn de l’échantillon aléatoire de taille n.
1.3 Définitions et exemples
Définition 1 : Un estimateur Tn est une statistique permettant d’évaluer un paramètre inconnu θ
relatif à la loi de probabilité parente.
On appelle estimation de θ associée à cet estimateur la valeur observée lors de l’expérience, c’est-
à-dire la valeur prise par la fonction au points observés (x1 , ..., xn ).
Exemple 1 : L’expression d’un estimateur découle souvent de l’interprétation que l’on peut donner
du paramètre θ. Par exemple, si θ = E[X], alors on retient logiquement comme estimateur la
moyenne de l’échantillon :
n
1X
X n := Xi .
n
i=1
De même, si θ = V ar[X], alors on retient logiquement comme estimateur la variance d’échantillon
n
1X
Sn2 := (Xi − X)2 .
n
i=1
1
1.4 Qualité des estimateurs
1.4.1 Estimateurs sans biais
Définition 2 : Soit Tn un estimateur du paramètre θ. Le biais de Tn est la valeur
bθ (Tn ) := E[Tn ] − θ.
Un estimateur est dit sans biais si bθ (Tn ) = 0, c’est à dire
E[Tn ] = θ.
On dit que Tn est un estimateur asymptotiquement sans biais de θ si limn→∞ bθ (Tn ) = 0.
Exemple 2 : Vérifier que X n est un estimateur sans biais de la moyenne et que Sn2 est un esti-
mateur asymptotiquement sans biais de la variance.
1.4.2 Erreur quadratique moyenne
Définition 3 : L’erreur quadratique moyenne d’un estimateur Tn est
EQM (Tn ) := E (Tn − θ)2 .
Remarque 1 : Si Tn est un estimateur sans biais, EQM (Tn ) = V ar(Tn ). On a donc intérêt à ce
qu’un estimateur soit sans biais et de faible variance. Par ailleurs, on en déduit immédiatement
que de deux estimateurs sans biais, le meilleur est celui qui a la plus petite variance.
Définition 4 : Un estimateur asymptotiquement sans biais dont la variance tend vers 0 est convergent.
Définition 5 : Un estimateur θb1 de θ est plus efficace qu’un autre estimateur θb2 de θ si
V ar(θb1 ) ≤ V ar(θb2 ).
Exemple 3 : Vérifier que X n est un estimateur convergent de la moyenne.
1.5 Estimation par la méthode des moments
L’idée de base de cette méthode est d’estimer une espérance mathématique par une moyenne
empirique, une variance par une variance empirique,...,etc.
Si le paramètre à estimer est l’espérance de la loi des Xi , alors on peut l’estimer par la moyenne
empirique de l’échantillon. Autrement
P dit, si θ = E(X), alors l’estimateur de θ par la méthode des
moments (EMM) est θb = X n = n1 ni=1 Xi .
Plus généralement, pour θ ∈ R, si E(X) = φ(θ), ou φ est une fonction inversible, alors l’estimateur
de θ par la méthode des moments est θbn = φ−1 (X n ).
Exemple 4 : Si X1 ,..., Xn sont indépendantes et de même loi de Bernoulli B(p), E(X) = p. Donc
l’estimateur de paramètre p par la méthode des moments est pbn = X n .
Exemple 5 : Soint X1 ,..., Xn un échantillon de X qui sont indépendantes et de même loi de
Exponentielle de paramètre λ.Déterminer l’EMM du paramètre λ.
1.6 Estimation par la méthode du maximum de vraisemblance
1.6.1 Principe de la méthode
Soit X une variable aléatoire réelle de loi paramétrique (discrète ou continue), dont on veut
estimer le paramètre θ. Alors, on définit une fonction f telle que
f (x, θ) := fθ (x), (1)
si X est continue.
f (x, θ) := Pθ (X = x), (2)
si X est discrète.
2
Définition 6 : On appelle fonction de vraisemblance de θ pour une réalisation (x1 , ..., xn ) d’un
échantillon, la fonction :
n
Y
L(x1 , x2 , ..., xn ; θ) = f (xi , θ). (3)
i=1
Exemple 6 (Exemple introductif ) : On considère un échantillon {X1 } de taille n = 1. On
suppose que X1 est de loi Binomiale B(15, p), avec p inconnu. On observe x1 = 5 et on cherche à
estimer p.
1. Déterminer la fonction de vraisemblace L(5; p).
2. Donner les valeurs particulières de L pour p ∈ {0.1; 0.2, 0.3, ..., 0.9}.
3. Déterminer la valeur la plus vraisemblable de p.
On peut en déduire que la valeur la plus vraisemblable de p est celle pour laquelle la probabilité
d’observer un 5 est maximale. C’est donc la valeur de p qui maximise la fonction de vraisemblance.
Pour la calculer, on peut annuler la dérivée de la vraisemblance. Mais on remarque que la vrai-
semblance est un produit. Comme il est plus commode de maximiser (ou de dériver) une somme
qu’un produit, on utilise le fait que la valeur qui rend maximale une fonction rend aussi maximal
son logarithme. On va donc plutôt maximiser le logarithme de la fonction de vraisemblance, qu’on
appelle la log-vraisemblance. Pour notre exemple, la log-vraisemblance vaut
lnL(x1 , p) = ....
Sa dérivée est
lnL(x1 , p) = ....
x1 5
qui s’annule pour p = 15 = 15 = 31 . Donc la valeur la plus vraisemblable de p est 1/3.
1.6.2 Estimateur de Maximum de Vraisemblance (EMV)
Définition 7 : L’estimation de maximum de vraisemblance de θ est la valeur θbn qui rend maximale
la fonction de vraisemblance L(x1 , ..., xn ; θ). L’estimateur de maximum de vraisemblance (EMV)
de θ est la variable aléatoire correspondante.
Alors θbn l’estimateur du maximum de vraisemblance de θ est solution du système
∂L ∂lnL
∂θ = 0, ∂θ = 0,
⇔
∂2L ∂ 2 lnL
∂θ2
= 0. ∂θ2
= 0.
Exemple 7 1. Soit (X1 , ..., Xn ) un échantillon de loi exponentielle E(λ). Déterminer un EMV
de λ.
2. Soit (X1 , ..., Xn ) un échantillon de loi Normale N (µ, σ 2 ). Déterminer un EMV de µ.
2 Estimation par intervalle de confiance
2.1 Problématique et définition
Jusqu’à présent, on a estimé un paramètre θ par une unique valeur θbn (estimation ponctuelle).
Si l’estimateur θbn possède de bonnes propriétés (sans biais, variance minimale, effcacité), on peut
3
s’attendre à ce que θbn soit proche de la vraie valeur de θ. Cependant, il est très peu probable
que θbn soit exactement égal à θ. En particulier, si la loi de θbn est continue, on est certains que
P (θbn = θ) = 0.
Par conséquent, plutôt que d’estimer θ par la seule valeur θbn , il semble raisonnable de proposer un
ensemble de valeurs vraisemblables pour θ, qu’il est logique de prendre proches de θbn . Cet ensemble
de valeurs est appelé estimation ensembliste ou région de confiance. Dire que toutes les valeurs de
cet ensemble sont vraisemblables pour θ, c’est dire qu’il y a une forte probabilité que θ appartienne
à cet ensemble.
Définition 8 : Un intervalle de confiance de seuil (ou niveau de signification) α ∈ [0, 1] pour
un paramètre θ, est un intervalle aléatoire I tel que P (θ ∈ I) = 1 − α.
α est la probabilité que le paramètre θ n’appartienne pas à l’intervalle I, c’est à dire la probabilité
que l’on se trompe en affirmant que θ ∈ I. C’est donc une probabilité d’erreur, qui doit être assez
petite. Les valeurs usuelles de α sont 10%, 5%, 1%,..., etc.
Le problème à régler est donc de trouver un procédé pour déterminer un intervalle de confiance
pour un paramètre θ. Il semble logique de proposer un intervalle de confiance centré sur un esti-
mateur performant θbn , c’est-à-dire de la forme I = [θbn − , θbn + ]. Il reste alors à déterminer de
sorte que :
P (θ ∈ I) = P (θbn − ≤ θ ≤ θbn + ) = 1 − α.
2.2 Intervalle de confiance pour les paramètres de la loi Normale
2.2.1 Intervalle de confiance pour la moyenne
Si X1 , ..., Xn sont indépendantes et de même loi normale N (µ, σ 2 ), on sait que X n est un estima-
teur sans biais et convergent de la moyenne µ. La première idée est donc de chercher un intervalle
de confiance pour µ de la forme [X n − , X n + ]. Conformément à ce qui précède, le problème
revient, pour α fixé, à chercher tel que P (|X n − µ| ≤ ) = 1 − α.
Les propriétés élémentaires de la loi normale permettent d’établir que X n est de loi Normale
2 X n −µ √
N (µ, σn ). Par conséquent , Z = √ 2
= n X nσ−µ est de loi N (0, 1).
σ /n
Alors :
√ √ √
n n n
P (X n − ≤ µ ≤ X n + ) = P (− ≤ X n − µ ≤ ) = P (− ≤Z≤ ) = 2FZ ( )−1
σ σ σ
Nous rappelons que nous somme entrain de chercher tel que P (X n − ≤ µ ≤ X n + ) = 1 − α,
donc
√
n
2FZ ( ) − 1 = 1 − α.
σ
Par la suite
√
n α
FZ ( )=1− .
σ 2
√
On pose zα/2 = σn qu’on peut le déterminer à partir de la table de la loi N(0,1) telle que
FZ (zα/2 ) = 1 − α2 . Par conséquent = zα/2 √σn . D’où le résultat :
Théorème 1 : Un intervalle de confiance de seuil α pour le paramètre µ de la loi N (µ, σ 2 ) lorsque
σ 2 est connue est :
σ σ
IC(µ) = [X n − zα/2 √ , X n + zα/2 √ ].
n n
4
En R, zα/2 est obtenu par la commande qnorm(1 − α/2).
Explication graphique
Figure 1 – Intervalle de confiance de la moyenne µ de la loi N (µ, σ 2 ) pour un niveau de confiance
de 95%.
Le problème est que cet intervalle n’est utilisable que si on connaı̂t la valeur de σ. Or, dans la
pratique, on ne connaı̂t jamais les vraies valeurs des paramètres. Une idée naturelle est alors de
remplacer σ par un estimateur, par exemple Sn2 . Dans ce tableau, on donne les différent cas pour
l’estimation de la moyenne de la N (µ, σ 2 par l’intervalle de confiance.
5
Exemple 8 : Des tests sur la conductivité thermique d’un métal ont permis d’obtenir les données
suivantes pour un échantillon de taille n = 10
41.60 41.48 42.34 41.95 41.86
42.18 41.71 42.26 41.81 42.04
Soit X la conductivité thermique du métal. On suppose que X suit une loi Normale d’écart type
σ = 0.1.
1. Donner une estimation ponctuelle de µ = E(X).
2. Donner un intervalle de confiance de µ de niveau 95%.
3. Quelle est la taille de l’échantillon nécessaire pour construire un intervalle de confiance à
95% avec une erreur inférieure 0.05 ?
2.2.2 Intervalle de confiance pour la variance
Contrairement à l’intervalle de confiance de la moyenne, l’intervalle de confiance de la variace
est de la forme [1 Sn2 ; 2 Sn2 ] avec 1 < 1 et 2 > 1 et non pas de la forme [Sn2 − , Sn2 + ]. En fait, si
on cherche un intervalle de confiance pour σ 2 de la forme [Sn2 − , Sn2 + ], la démarche ne va pas
aboutir, et on ne peut pas le savoir à l’avance.
Dans ce tableau on donne les différents intervalles de confiance pour les différentes situations pos-
sibles.
6
avec la notation χ2n est la loi Chi-deux à n degrés de liberté. χ2(α ),n est déterminé à partir de la
2
table de la loi χ2n .
Exercice :
Le service du personnel d’une entreprise choisit au hasard 25 employés et trouve que le salaire
moyen est de 1500 Dinars par mois. On suppose que les salaires suivent une distribution normale.
On sait par ailleurs que l’écart-type de cette distribution est de 100 Dinars.
1. Estimer le salaire moyen des employés de l’entreprise à l’aide d’un intervalle de confiance à
90%.
2. Supposons qu’on ignore l’écart type de la distribution alors qu’on sait que l’écart-type de
l’échantillon de 25 personnes est de 100 Dinars. Estimer le salaire moyen des employés de
l’entreprise à l’aide d’un intervalle de confiance à 90%.
3. On se replace dans le cas où l’écart-type de la population est connu (σ = 100 Dinars).
Quelle taille minimale d’échantillon devra-t-on choisir si l’on veut être certain, à un niveau
de confiance de 90%, que l’erreur en utilisant X̄n comme estimateur de µ, ne dépassera pas
10 Dinars ?
2.2.3 Intervalle de confiance d’une proportion
Le problème connu sous le nom d’intervalle de confiance pour une proportion est en fait le
problème de la détermination d’un intervalle de confiance pour le paramètre p de la loi de Bernoulli,
au vu d’un échantillon X1 , ..., Xn de cette loi. On a montré qu’un estimateur de p est pb = X n .On
admet donc le résultat suivant :
Théorème 2 :Si np > 5 et n(1 − p) > 5 (ou n grand), alors l’intervalle de confiance pour une
proportion p se présente comme suit
r r
pb(1 − pb) pb(1 − pb)
p − zα/2
[b , pb + zα/2 ]
n n
où zα/2 est déterminé à partir de la table de la loi N (0, 1) tel que F (zα/2 ) = 1 − α2 .
Exemple 9 Douze des 75 arbres d’un échantillon aléatoire présentent une surface trop rugueuse
selon les normes définies.
1. Déterminer un intervalle de confiance à 95% pour la proportion d’arbres hors norme.
2. Combien d’arbres faut-t-il considérer si on veut une erreur d’au plus 5% ?