Introduction Est. ponc. Est. interv.
IC moyenne IC proportion
Statistique inférentielle
Pr. Nicolas MEYER
———————
Laboratoire de Biostatistique et Informatique Médicale
Fac. de Médecine de Strasbourg
———————
Janvier 2011
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Plan
1 Introduction
2 Estimation ponctuelle
3 Estimation par intervalle
4 Intervalle de confiance d’une moyenne
5 Intervalle de confiance d’une proportion
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Plan
1 Introduction
2 Estimation ponctuelle
3 Estimation par intervalle
4 Intervalle de confiance d’une moyenne
5 Intervalle de confiance d’une proportion
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Statistique inductive
Statistique : domaine inductif et non déductif → l’observation
(( remonte )) vers la loi
• statistique inductive
à partir d’observations sur un échantillon
permet d’induire la valeur des paramètres de la loi de
distribution de la population (∼ parente)
induction faite avec une certaine incertitude
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Exemple
extraction avec remise de 100 boules dans une urne (très
grande)
comptabilisation du nombre de boules blanches
• soit 40% de blanches
peut-on conclure qu’il y a 40% boules blanches dans la
population ?
autres valeurs possibles ? 41% ? 38% ?
certaines valeurs sont peu compatibles avec la valeur
observée : par exemple 1%, 89% etc
observation → estimation ponctuelle qui doit être entourée d’un
intervalle de confiance
Calcul de probabilités Statistique inféren-
tielle
Données n et nB sont connus, p = p est inconnue. On effectue
nB /n est connu n tirages et on obtient nB
boules blanches
Problème
- Caractériser la loi de probabilité - Affecter à p une valeur
du nombre de boules blanches vraisemblable (= estimation
obtenues en n tirages. ponctuelle)
- Calculer E (X ), Var (X ) - Trouver un intervalle de valeurs
compatible avec p (estimation par
- Calculer Pr(D|θ) etc.
intervalle)
- Décider si la vraie valeur de p est
différente, inférieure ou supérieure
à une valeur donnée (test
statistique)
Conclusion Déduction des probabilités des évènements Inférence des paramètres à partir de l’obser-
à partir des paramètres avec une précision vation des évènements. Le risque d’erreur
arbitraire augmente avec la précision des estimations
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Statistique inductive
Remarque 1
Lorsque l’on peut admettre qu’un phénomène suit une loi de
probabilité connue (cas le plus fréquent), le problème : l’étude des
paramètres de cette loi.
si un phénomène ∼ loi de Gauss → le problème : estimer les
valeurs de µ et σ
Remarque 2
⇒ il faut d’abord faire une hypothèse sur la loi de distribution des
données puis en estimer les paramètres.
Remarque 3
Lorsque la loi est inconnue, il faut soit essayer de la déterminer
(méthodes non vues dans ce cours) puis en estimer les paramètres,
soit recourir aux méthodes non paramétriques.
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Rappel
notion d’échantillon et de population
en recherche clinique, obtenir des résultats présentant un
caractère général (universel) afin de pouvoir utiliser cette
connaissance sur l’ensemble d’une population
→ étude sur un échantillon issu de la population
à partir des connaissances obtenues sur l’échantillon
→ induction des connaissances sur la population
on établit certaines grandeurs à partir de l’échantillon,
grandeurs qui constituent des estimations des grandeurs
correspondantes de la population.
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Plan
1 Introduction
2 Estimation ponctuelle
3 Estimation par intervalle
4 Intervalle de confiance d’une moyenne
5 Intervalle de confiance d’une proportion
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Estimation ponctuelle
Soit une V.A. X , d’espérance mathématique et de variance E (X )
2
et σX
on effectue n tirages non exhaustifs : chaque tirage peut être
associé à une variable Xi prenant la valeur xi
effectuer n tirages dans une population revient à observer les
valeurs {x1 , x2 , . . . , xi , . . . , xn } prises par les n variables
aléatoires {X1 , X2 , . . . , Xi , . . . ,Xn }
L’échantillon est caractérisé par les valeurs prises par les n
variables Xi .
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Estimation ponctuelle
On définit alors deux nouvelles variables aléatoires appelées
moyenne d’échantillon et variance d’échantillon
Moyenne d’échantillon :
X1 + X2 + · · · + Xi + · · · + Xn
X̄ =
n
Variance d’échantillon :
n
0 1X
σ2= (xi − x̄ )2
n
i=1
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Estimation ponctuelle de la moyenne
La moyenne d’échantillon est caractérisée par son espérance
mathématique E (X̄ ) et sa variance Var (X̄ )
E (X1 +X2 +···+Xn )
E (X̄ ) = n
E (X1 )+E (X2 )+···+E (Xn ) n·E (X )
= n = n
car E (Xi ) = E (X )
d’où E (X̄ ) = E (X )
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Estimation ponctuelle de la moyenne
Calcul de la variance de la moyenne :
2 X1 + X2 + · · · + Xn
σX̄ = Var
n
2 n · Var (X ) σ 2 (X )
σX̄ = =
n2 n
car les variables aléatoires Xi sont indépendantes entre elles
(tirages non exhaustifs dans une même population)
σX
• donc : σX̄ = √ n
→ ne pas confondre la variance des données et la variance de la
moyenne de l’échantillon, encore appelée erreur standard de la
moyenne
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Exemple
Soit les données suivantes :
dosage de la glycémie, µ = 0,95 et σ = 0,1, d’une gaussienne
N (µ = 0,95, σ = 0,1)
alors la distribution de la moyenne suit une loi de Gauss
√
N (µ, σ/ n)
on réalise un échantillon de taille n = 25
la moyenne = 0,95
√
on obtient pour e.s.m. : σX̄ = 0,1/ 25 = 0,02
√
soit N (µ = 0,95, σ/ n = 0,02)
Remarque : ici, valeurs théoriques mais même principe sur des
données observées
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Estimation ponctuelle de la variance
0
Variance d’échantillon σ 2 :
• espérance mathématique de la variance d’échantillon :
n
" #
02 1X n −1 2
E (σ ) = E (xi − x̄ )2 = σ
n n
i=1
0
• σ 2 est un estimateur biaisé de la variance de la population
• d’où la nécessité de corriger la variance pour obtenir un
estimateur sans biais
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Estimation ponctuelle de la variance
On définit alors S 2 :
n
" #
1 X n 0
S2 = E (xi − x̄ )2 = σ2
n −1 n −1
i=1
E (S 2 ) = σX
2
• S 2 est un estimateur sans biais de la variance σ 2 de la
population parente
Remarque : on peut calculer la variance de la variance d’échantillon
mais peu d’intérêt pratique.
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Conclusions
la moyenne de l’échantillon est un estimateur sans biais de
l’espérance mathématique de X
ce qui ne signifie pas que la moyenne estimée sur un
échantillon donné est numériquement égale à la moyenne de la
population
S 2 est un estimateur sans biais de la variance de la population
0
parente σ 2 contrairement à σ 2
ce qui ne signifie pas que la variance estimée sur un échantillon
donné est numériquement égale à la variance de la population
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Plan
1 Introduction
2 Estimation ponctuelle
3 Estimation par intervalle
4 Intervalle de confiance d’une moyenne
5 Intervalle de confiance d’une proportion
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Notions générales
• l’estimation ponctuelle d’un paramètre tend vers la vraie valeur
du paramètre quand la taille de l’échantillon tend vers l’infini
• en pratique, échantillon de taille limité
• estimation d’une zone de valeurs compatibles avec la vraie valeur
• cette zone : intervalle de confiance (IC), défini avec un risque
d’erreur sur l’affirmation que la vraie valeur du paramètre est
contenue dans l’IC
• IC à (100 − α)% (95% le plus souvent)
• notion de balance entre précision de l’estimation et risque
d’erreur : si IC très large, erreur très faible mais précision très faible
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Plan
1 Introduction
2 Estimation ponctuelle
3 Estimation par intervalle
4 Intervalle de confiance d’une moyenne
5 Intervalle de confiance d’une proportion
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Intervalle de confiance d’une moyenne : grands échantillons
premier cas :
si n > 30
et/ou si la population parente est gaussienne
alors la distribution de la moyenne est gaussienne
on constitue un échantillon de taille n et de moyenne observée
m
En supposant que σ 2 est connue, on défini alors l’IC de µ par :
√ √
IC = m − z1−α/2 (σ/ n) ; m + z1−α/2 (σ/ n)
si α = 0,05, alors z1−α/2 = 1,96
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Intervalle de confiance d’une moyenne : grands échantillons
Interprétation de cet IC :
Un IC à (100 − α)% est un intervalle tel que (100 − α)% des
échantillons construits de la même manière contiennent la vraie
valeur µ de la moyenne
Ne pas confondre avec la définition suivante, très fréquente mais
FAUSSE
Un IC à (100 − α)% est un intervalle qui a (100 − α)% de chance
de contenir la vraie valeur µ
Pour utiliser cette définition, il faut utiliser la théorie bayésienne.
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Intervalle de confiance d’une moyenne : grands échantillons
Si l’on ne connaı̂t pas σ 2 (cas le plus fréquent), alors on remplace
σ 2 par son estimation S 2 (et donc σ par S ) :
√ √
IC = m − z1−α/2 (S / n) ; m + z1−α/2 (S / n)
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Intervalle de confiance d’une moyenne : petits échantillons
second cas : Si n petit, i.e. n < 30, la loi de Gauss n’est plus valide
(car approximation non fiable)
on utilise alors la loi de Student
tenir compte des degrés de liberté : si taille n → ddl = n − 1
l’IC de µ devient :
√ √
IC = m − tddl;1−α/2 (S / n) ; m + tddl;1−α/2 (S / n)
Plus large qu’avec la loi de Gauss pour tenir compte de
l’incertitude plus grande sur la variance
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Intervalle de confiance d’une moyenne : petits échantillons
Exemple : Un échantillon aléatoire de n = 10 prélèvements
(tirages) indépendants est effectué dans une population parente
quelconque. Les valeurs obtenues sont les suivantes :
• 1,19 ; 1,08 ; 1,18 ; 1,13 ; 1,16 ; 1,20 ; 1,15 ; 1,13 ; 1,10 ; 1,14
→ Déterminer une estimation et un intervalle de confiance à 95%
pour la moyenne µ de la population
• On trouve :
m = 1,146, s 2 = 1,4711.10−3 , s = 0,03836,
n = 9, ddl = 9, donc t1−α/2 = 2,262
√s
n
= 1,2129.10−2
√
IC : [1,119 ; 1,173] (soit 1,146 ± 2,262 × 0,03836/ 10)
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Remarques
• quelle que soit la taille de l’échantillon, le plus souvent, la
variance n’est pas connue : on utilise s 2 , l’estimation de la variance
obtenue sur l’échantillon
• on peut également définir l’IC d’une variance, basé sur une loi du
χ2 mais rarement utilisé
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Plan
1 Introduction
2 Estimation ponctuelle
3 Estimation par intervalle
4 Intervalle de confiance d’une moyenne
5 Intervalle de confiance d’une proportion
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
IC d’une proportion
On souhaite estimer la fréquence (ou proportion) π à laquelle est
présente une caractéristique donnée dans une population
(tabagisme, ATCD d’IDM, etc) à partir d’un échantillon :
on observe un nombre no de sujets parmi les n ayant la
caractéristique recherchée
no
on définit la proportion observé po = n estimant la vraie
proportion π dans la population
et q = 1 − p
lorsque n > 30 (toujours dans ce cours) : n grand
condition de validité de l’estimation : np > 5, nq > 5, i.e. p et
q ne sont pas trop proches ni de 0 ni de 1.
Alors :
.../...
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
IC d’une proportion
.../...
no
la variable aléatoire n suit une loi de Gauss
d’espérance mathématique E ( nno ) = E (po ) = π
et de variance σ 2 nno = pq
n
On définit alors l’IC de π suivant :
r r
pq pq
IC = po − z1−α/2 ; po + z1−α/2
n n
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
IC d’une proportion
Exemple :
• soit un échantillon de taille n = 41, avec no = 23
• : po = 0,561 et IC : [0,409 ; 0,713],
q
• i.e. 0,561 ± 1,96 × 0,561×(1−0,561)
41
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Remarques divers sur les IC
Retour sur la notion de risque et de précision de l’IC
(( si IC très large, erreur très faible mais précision très faible ))
sur l’exemple de la proportion :
pour un IC à 95% : [0,409 ; 0,713]
pour un IC à 90% : z1−α/2 = 1,645
d’où un IC : [0,434 ; 0,688]
Donc,
si précision plus grande, risque d’erreur plus important
si risque d’erreur plus faible (donc IC plus large), précision
plus faible
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Remarques divers sur les IC
on calcul l’intervalle de confiance du paramètre de la
population
à partir des données observées
donc les paramètres de la population n’interviennent pas dans
le calcul
il existe aussi un intervalle de prédiction : calcul, à partir des
données connues de la population, de l’intervalle dans lequel
se trouve la valeur observée sur un échantillon donné
peu utile en pratique
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Intervalle de fluctuation
Soit une population et une V.A. X → N (µ,σ 2 )
On tire un échantillon de taille n, de moyenne observée m
|m−µ|
la loi de Gauss : Pr √ 2 > zα/2 , probabilité d’un écart
σ /n
|δ| = |m − µ| au seuil α
sur un échantillon aléatoire, l’intervalle deqfluctuation de m,
2
valeur observée de la moyenne : µ ± zα/2 σn
p (( proche )) de µ :
le plus souvent m sera
Pr (|m − µ| < 1,96 σ 2 /n) = 0,95
parfois m sera éloignée
p de µ :
Pr (|m − µ| > 1,96 σ 2 /n) = 0,05
ici : de la population → l’échantillon
Introduction Est. ponc. Est. interv. IC moyenne IC proportion
Remarques divers sur les IC
Retour sur la notion de risque et de précision de l’IC
IC doivent être très largement utilisés
moyenne, proportion, différence de moyennes et de proportions
risque relatif, odds-ratio, différence de risque,
coefficient de corrélation, etc.
l’IC englobe l’estimation ponctuelle
en tenant compte de la variabilité et de l’incertitude sur
l’estimation
donc en tenant compte de la taille de l’échantillon
équivalence avec le test statistique