0% ont trouvé ce document utile (0 vote)
84 vues56 pages

Biostatistique Cours 3: Estimation Intervalle de Confiance

Transféré par

Latifa Arkoub
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
84 vues56 pages

Biostatistique Cours 3: Estimation Intervalle de Confiance

Transféré par

Latifa Arkoub
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Biostatistique

Cours 3
Estimation
Intervalle de confiance
14 octobre 2021
Master 1 Santé Publique

[email protected]
Rappels
→ A quoi sert un intervalle de fluctuation ?

Biostatistique – M1 SP 2
Fluctuations d’échantillonnage

Intervalle de fluctuation
Valeur théorique
Observations
(ou vraie)

Population Echantillon

Intervalle de confiance

Biostatistique – M1 SP 3
Estimation
Prédiction
Valeur attendue
Intervalle de fluctuation
Valeur théorique
Observations
(ou vraie)

Population Echantillon

Estimation
Estimation ponctuelle
Intervalle de confiance

Biostatistique – M1 SP 4
Estimation

Valeur théorique
Observations
(ou vraie)

Population Echantillon
Estimation
µ–σ–π m – s – p0

π = % vrai dans la population p0 = % observé dans l’échantillon

µ = moyenne vraie dans la population m = moyenne observée dans l’échantillon

σ = écart-type vrai dans la population s = écart-type observé dans l’échantillon

σ2 = variance vraie dans la population s2 = variance observée dans l’échantillon

Biostatistique – M1 SP 5
Estimation

Valeur théorique
Observations
(ou vraie)

Population Echantillon
Estimation
µ–σ–π m – s – p0

Estimation ponctuelle : valeur unique calculée à partir des observations faites sur l’échantillon
→ Estimateur = formule ou procédure mathématique utilisée pour l’obtenir

Estimation par intervalle : intervalle dans lequel il est vraisemblable que la vraie valeur se trouve

Biostatistique – M1 SP 6
Qualités d’un estimateur
• Pas de biais
• Variance minimum

Vraie valeur

Estimation

Biostatistique – M1 SP 7
Qualités d’un estimateur
• Pas de biais
• Variance minimum

Vraie valeur
Choix
entre 2 et 3?
Estimation

Biostatistique – M1 SP 8
Biais d’un estimateur
• Formule utilisée pour le calcul
Repose sur des développements mathématiques + ou - complexes
𝑛
1
Exemple de la variance : 2
𝑠 =
𝑛−1
෍ 𝑥𝑖 − 𝑚 2

𝑖=1

Biostatistique – M1 SP 9
Biais d’un estimateur
• Formule utilisée pour le calcul
Repose sur des développements mathématiques + ou - complexes

• Facon dont a été constitué l’échantillon


• Echantillonnage complexe (pondération, grappes, …)
→ Adaptation des formules
• Biais de sélection (non réponses, perdus de vue, …)
→ Problématique +++ car très difficiles à corriger

Biostatistique – M1 SP 10
Estimateurs courants
• Estimation d’un pourcentage π : p0=k/n

• Estimation d’une moyenne μ 𝑛


1
m = ෍ 𝑥𝑖
𝑛
𝑖=1

• Estimation d’une variance σ2


𝑛
1
𝑠2 = ෍ 𝑥𝑖 − 𝑚 2
𝑛−1
𝑖=1

Biostatistique – M1 SP 11
Estimateurs courants
• Estimation d’un pourcentage π : p0=k/n

• Estimation d’une moyenne μ 𝑛


1
m = ෍ 𝑥𝑖
𝑛
𝑖=1

• Estimation d’une variance σ2


1 2
1
𝑛
σ𝑛𝑖=1 𝑥𝑖2− (𝑛𝑚2 ) σ𝑛𝑖=1 𝑥𝑖2 − σ𝑛𝑖=1 𝑥𝑖
𝑛
𝑠2 = ෍ 𝑥𝑖 − 𝑚 2 = =
𝑛−1 𝑛−1 𝑛−1
𝑖=1

Biostatistique – M1 SP 12
Données groupées

Biostatistique – M1 SP 13
Données groupées

𝑛
1 1 1745
m= ෍ 𝑥𝑖 = × 4 × 2 + 6 × 7 + ⋯ + 2 × 37 = = 17,45
100 100 100
𝑖=1

෍ 𝑥 2 = 4 × 22 + 6 × 72 + ⋯ + 2 × 372

Biostatistique – M1 SP 14
Données groupées

m = 17,45
෍ 𝑥 2 = 4 × 22 + 6 × 72 + ⋯ + 2 × 372 = 35 355
1 2 1
σ𝑛𝑖=1 𝑥𝑖2 − σ𝑛𝑖=1 𝑥𝑖 35355 − × 17452
𝑛 100
𝑠2 = = = 49,5
𝑛−1 99

Biostatistique – M1 SP 15
Méthode du maximum de vraisemblance
• Principale méthode d’estimation

• Vraisemblance d’un échantillon = probabilité d’observer cet


échantillon connaissant les vrais paramètres dans la population

Calcul de cette probabilité pour ≠ valeurs des paramètres

Choix des estimateurs qui rendent la vraisemblance maximale

Biostatistique – M1 SP 16
Méthode du maximum de vraisemblance
• Principale méthode d’estimation

• Estimateurs précédents de π et μ : estimateurs du maximum de


vraisemblance
𝑛
1
• Estimateur de σ2 : 𝑛
෍ 𝑥𝑖 − 𝜇 2

𝑖=1

Asymptotiquement sans biais et de distribution normale


De variance minimum parmi tous les estimateurs sans biais

Biostatistique – M1 SP 17
Estimation
Prédiction
Valeur attendue
Intervalle de fluctuation
Valeur théorique
Observations
(ou vraie)

Population Echantillon

Estimation
Estimation ponctuelle
Intervalle de confiance

Biostatistique – M1 SP 18
Intervalle de confiance
• (1-α)% = niveau de confiance

• Intervalle de confiance à 1-α ou au risque α → niveau de confiance


associé au fait que la vraie valeur (inconnue) du paramètre
appartienne à cet intervalle est de (1-α) chances sur 100

• Autre formulation : si on réitérait l’expérience 100 fois (si on tirait au


sort 100 échantillons), on peut espérer que 95% des intervalles de
confiance contiennent la vraie valeur du paramètre

Biostatistique – M1 SP 19
Intervalle de confiance d’une moyenne
• Grands échantillons (n≥30)
X variable quanti ~ loi de moyenne µ et de variance σ2
n la taille de l’échantillon observé et m la moyenne observée

Si n ≥ 30 : M ~ loi normale de moyenne µ et de variance σ2/n

Intervalle de confiance à 1-α (μ) = 𝑚 ± 𝑧𝛼/2 𝑠 2 /𝑛

Biostatistique – M1 SP 20
Intervalle de confiance d’une moyenne
• Grands échantillons (n≥30)
Exemple : tension artérielle de 41 hommes de plus de 65 ans

- Cas 1 : m = 14,97 et s2 = 85,91


𝐼𝐶95% 𝜇 = ?

- Cas 2 : m = 15,24 et s2 = 78,12


𝐼𝐶95% 𝜇 = ?

Biostatistique – M1 SP 21
Intervalle de confiance d’une moyenne
• Grands échantillons (n≥30)
Exemple : tension artérielle de 41 hommes de plus de 65 ans

- Cas 1 : m = 14,97 et s2 = 85,91


𝐼𝐶95% 𝜇 = 𝑚 ± 𝑧𝛼/2 𝑠 2 /𝑛 = 14,97 ± 1,96 85,91/41 = [12,13; 17,81]

- Cas 2 : m = 15,24 et s2 = 78,12


𝐼𝐶95% 𝜇 = 𝑚 ± 𝑧𝛼/2 𝑠 2 /𝑛 = 15,24 ± 1,96 78,12/41 = [12,53; 17,95]

Biostatistique – M1 SP 22
Intervalle de confiance d’une moyenne
• Petits échantillons (n<30)
X variable quanti ~ loi normale de moyenne µ et de variance σ2
n la taille de l’échantillon observé et m la moyenne observée

Si n < 30 : M ~ ?

Biostatistique – M1 SP 23
Intervalle de confiance d’une moyenne
• Petits échantillons (n<30)
X variable quanti ~ loi normale de moyenne µ et de variance σ2
n la taille de l’échantillon observé et m la moyenne observée

𝑀−𝜇
Si n < 30 : M ~ ? mais ~𝑇(𝑛−1)𝑑𝑑𝑙
𝜎 2 /𝑛

Intervalle de confiance à 1-α (μ) = 𝑚 ± 𝑡𝑛−1,𝛼/2 𝑠 2 /𝑛

Biostatistique – M1 SP 24
Loi de Student
• Z une variable ~ loi normale centrée réduite

• Y une variable ~ loi du χ2 à k degrés de liberté (ddl), indépendante de Z


𝑍
𝑇= ~loi de Student à k ddl
𝑌/𝑘

→ Loi centrée autour de 0

Biostatistique – M1 SP 25
Loi de Student
• Z une variable ~ loi normale centrée réduite

• Y une variable ~ loi du χ2 à k degrés de liberté (ddl), indépendante de Z


𝑍
𝑇= ~loi de Student à k ddl
𝑌/𝑘

→ Loi centrée autour de 0

• P(T2>22,327) = 0,001
• P(T60>a)=0,01 a=2,390

Biostatistique – M1 SP 26
Loi de Student
• Z une variable ~ loi normale centrée réduite

• Y une variable ~ loi du χ2 à k degrés de liberté (ddl), indépendante de Z


𝑍
𝑇= ~loi de Student à k ddl
𝑌/𝑘

→ Loi centrée autour de 0

• P(T2>22,327) = 0,001
• P(T60>a)=0,01 a=2,390

Si k grand : T≈N(0,1)
Biostatistique – M1 SP 27
Intervalle de confiance d’une moyenne
• Exemple 1 : tension artérielle de 12 hommes de plus de 65 ans
m = 12,58 et s2 = 60,08

Intervalle de confiance à 95% (μ) = ?

Biostatistique – M1 SP 28
Intervalle de confiance d’une moyenne
• Exemple 1 : tension arterielle de 12 hommes de plus de 65 ans
m = 12,58 et s2 = 60,08

60,08
Intervalle de confiance à 95% (μ) = 12,58 ± 2,201 = [7,66 ; 17,52]
12
Conditions d’application : distribution de la tension artérielle normale chez les
hommes de plus de 65 ans

Biostatistique – M1 SP 29
Intervalle de confiance d’une moyenne
• Exemple 2 : tension artérielle de 41 hommes de plus de 65 ans
m = 14,97 et s2 = 85,91

Intervalle de confiance à 95% (μ) = ?

Biostatistique – M1 SP 30
Intervalle de confiance d’une moyenne
• Exemple 2 : tension artérielle de 41 hommes de plus de 65 ans
m = 14,97 et s2 = 85,91
Intervalle de confiance à 95% (μ) = ?

- Avec la loi de Student


H de distribution de la tension artérielle normale chez les hommes de plus de 65 ans
𝐼𝐶95% 𝜇 = 𝑚 ± 𝑡40,𝛼/2 𝑠 2 /𝑛 = 14,97 ± 2,021 85,91/41 = [12,06; 17,88]

- Avec approximation par la loi normale


𝐼𝐶95% 𝜇 = 𝑚 ± 𝑧𝛼/2 𝑠 2 /𝑛 = 14,97 ± 1,96 85,91/41 = [12,13; 17,81]

Biostatistique – M1 SP 31
Intervalle de confiance d’un pourcentage
• Grands échantillons (n𝜋 et n(1-𝜋)≥ 5)
𝜋(1−𝜋)
Si n grand : 𝑃0 ~𝑁 𝜋,
𝑛

𝑝0 (1−𝑝0 )
Intervalle de confiance à 95% (π) = 𝑝0 ± 𝑧𝛼/2 = [𝑝𝑖 ; 𝑝𝑠 ]
𝑛

Conditions d’application → 𝑛𝜋 et 𝑛(1 − 𝜋) ≥ 5


En pratique npi, n(1-pi), nps, n(1-ps) ≥ 5

Biostatistique – M1 SP 32
Intervalle de confiance d’un pourcentage
• Exemple 1 : n=60 sujets, 18 malades
IC95%(π) = ?
• Exemple 2 : n=40 sujets, 8 malades
IC95%(π) = ?

Biostatistique – M1 SP 33
Intervalle de confiance d’un pourcentage
• Exemple 1 : n=60 sujets, 18 malades
0,3×0,7
IC95%(π) = 0,30 ± 1,96 = [0,18 ; 0,42]
60

npi=60x0,18=10,8 ; n(1-pi)=60x0,82=49,2 ; nps=25,2 ; n(1-ps)=34,8 ≥ 5

• Exemple 2 : n=40 sujets, 8 malades


0,2×0,8
IC95%(π) = 0,20 ± 1,96 = [0,08 ; 0,32]
40
npi=40x0,08=3,2 → conditions non respectées : intervalle non valide

Biostatistique – M1 SP 34
Intervalle de confiance d’un pourcentage
• Petits échantillons (n𝜋 ou n(1-𝜋)< 5)
𝜋(1−𝜋)
Si n grand : 𝑃0 ~𝑁 𝜋, → utilisation de la loi binomiale
𝑛

Pour chaque valeur du nombre de sujets N, les colonnes


de la table donnent successivement le nombre
d’évènements, le % correspondant (x100) et les deux
bornes de l’intervalle de confiance à 95% (x100)

Biostatistique – M1 SP 35
Intervalle de confiance d’un pourcentage
• Petits échantillons (n𝜋 ou n(1-𝜋)< 5)
𝜋(1−𝜋)
Si n grand : 𝑃0 ~𝑁 𝜋, → utilisation de la loi binomiale
𝑛

Pour chaque valeur du nombre de sujets N, les colonnes


de la table donnent successivement le nombre
d’évènements, le % correspondant (x100) et les deux
bornes de l’intervalle de confiance à 95% (x100)

n=40 sujets, 8 malades


IC95%(π) = [9,05 ; 35,65]

Biostatistique – M1 SP 36
Intervalle de confiance d’un pourcentage
• Petits échantillons (n𝜋 ou n(1-𝜋)< 5)
𝜋(1−𝜋)
Si n grand : 𝑃0 ~𝑁 𝜋, → utilisation de la loi binomiale
𝑛

Pour chaque valeur du nombre de sujets N, les colonnes de la table


donnent successivement le nombre d’évènements, le % correspondant
(x100) et les deux bornes de l’intervalle de confiance à 95% (x100)

n=60 sujets, 18 malades


IC95%(π) = [0,18 ; 0,42]
IC95%(π) = [18,85 ; 43,21]

Biostatistique – M1 SP 37
Intervalle de confiance d’une variance

Intervalle de confiance à 95% (σ2) = ?

Biostatistique – M1 SP 38
Intervalle de confiance d’une variance

𝑛−1 2 𝑛−1 2
Intervalle de confiance à 1-α (σ2) = 𝑠 ; 𝑠
𝑏 𝑎

Biostatistique – M1 SP 39
Intervalle de confiance d’une variance
• Si grand échantillon (n≥30) et X ~ loi normale
→ approximation par la loi normale

2𝑠4
Intervalle de confiance à 1-α (σ2) = 𝑠2 ± 𝑧𝛼/2
𝑛−1

Biostatistique – M1 SP 40
Intervalle de confiance d’une variance
• Exemple : tension artérielle de 41 hommes de plus de 65 ans
𝑛−1 2 𝑛−1 2
m = 14,97 et s2 = 85,91 Intervalle de confiance à 1-α (σ2) =
𝑏
𝑠 ;
𝑎
𝑠

Pour 40 ddl : a = ? et b = ?

Biostatistique – M1 SP 41
Intervalle de confiance d’une variance
• Exemple : tension arterielle de 41 hommes de plus de 65 ans
𝑛−1 2 𝑛−1 2
m = 14,97 et s2 = 85,91 Intervalle de confiance à 1-α (σ2) =
𝑏
𝑠 ;
𝑎
𝑠

Pour 40 ddl : a = 24,43 (pour α=0,975) et b = 59,34 (pour α=0,025)

Biostatistique – M1 SP 42
Intervalle de confiance d’une variance
• Exemple : tension arterielle de 41 hommes de plus de 65 ans
𝑛−1 2 𝑛−1 2
m = 14,97 et s2 = 85,91 Intervalle de confiance à 1-α (σ2) =
𝑏
𝑠 ;
𝑎
𝑠

Pour 40 ddl : a = 24,43 (pour α=0,975) et b = 59,34 (pour α=0,025)

41−1 41−1
Intervalle de confiance à 95% (σ2) = × 85,91; × 85,91
59,34 24,43

= [57,91 ; 140,66]
Conditions d’application : distribution de la TA normale chez les hommes de plus de 65 ans

Biostatistique – M1 SP 43
Intervalle de confiance d’une variance
• Exemple : tension arterielle de 41 hommes de plus de 65 ans
m = 14,97 et s2 = 85,91 Intervalle de confiance à 1-α (σ2) = 𝑠 2 ± 𝑧𝛼/2
2𝑠 4
𝑛−1

Approximation par la loi normale

2×85,912
Intervalle de confiance à 95% (σ2) = 85,91 ± 1,96
40

= [48,26 ; 123,56]
Conditions d’application : distribution de la TA normale chez les hommes de plus de 65 ans et n≥30

Biostatistique – M1 SP 44
Résumé
Grands échantillons Petits échantillons

𝑝0 (1 − 𝑝0 )
Pourcentage 𝑝0 ± 𝑧𝛼/2 Tables
𝑛
npi, nqi, nps, nqs ≥ 5

Moyenne 𝑚 ± 𝑧𝛼/2 𝑠 2 /𝑛 𝑚 ± 𝑡𝑛−1,𝛼/2 𝑠 2 /𝑛


n≥30 X ~ loi normale

2𝑠 4 𝑛−1 2 𝑛−1 2
𝑠 2 ± 𝑧𝛼/2 𝑠 ; 𝑠
Variance 𝑛−1 𝑏 𝑎
n≥30 X ~ loi normale
X ~ loi normale

Biostatistique – M1 SP 45
Résumé
• Intervalle de fluctuation et intervalle de confiance
→ Formules semblables mais fondamentalement ≠

Intervalle de fluctuation Intervalle de confiance


• Calcul à partir des valeurs vraies • Calcul à partir des valeurs observées
• Fixe • Aléatoire
• IF du paramètre observé • IC du paramètre vrai

Biostatistique – M1 SP 46
Nombre de sujets nécessaires et précision
↘ longueur IC

↗ précision ↗n

Précision = demi-longueur de l’intervalle de confiance

Biostatistique – M1 SP 47
Nombre de sujets nécessaires et précision
↘ longueur IC

↗ précision ↗n

(Im-)précision = demi-longueur de l’intervalle de confiance


• Dépend du choix du risque d’erreur α (α ↘ : zα/2 ↗ : imprécision ↗)
• Dépend de la valeur du paramètre
• Dépend de la taille de l’échantillon

Biostatistique – M1 SP 48
Nombre de sujets nécessaires et précision
Pourcentage Moyenne
i i
𝑝0 𝑞0
𝐼𝐶 = 𝑝0 ± 𝑧𝛼/2 𝑠2
𝑛 𝐼𝐶 = 𝑚 ± 𝑧𝛼/2
𝑛
2
𝑧𝛼/2 𝑝0 𝑞0
𝑛= 2
𝑧𝛼/2 𝑠2
𝑖2 𝑛=
𝑖2

Conditions d’application du calcul de l’IC doivent être respectées

Biostatistique – M1 SP 49
Nombre de sujets nécessaires et précision
Estimation de la prévalence de l’insuffisance rénale chez les hommes
• Autour de 10%
• Précision souhaitée de 0,01
2
𝑧𝛼/2 𝑝0 𝑞0 1,962 × 0,10 × 0,90
𝑛= = = 3457
𝑖2 0,01 2

• Autour de 12%
2
𝑧𝛼/2 𝑝0 𝑞0 1,962 × 0,12 × 0,88
𝑛= = = 4057
𝑖2 0,01 2

• Si on ne réussit à recruter que 3457 sujets avec p0=12% : i devient 0,011

Conditions d’application du calcul de l’IC doivent être respectées

Biostatistique – M1 SP 50
Intervalle de confiance d’une différence
• 2 populations : mesure de la même variable X
• X1 dans la population 1, moyenne μ1
• X2 dans la population 2, moyenne μ2
→ D = X1 - X2, moyenne μD

Biostatistique – M1 SP 51
Intervalle de confiance d’une différence
• 2 populations : mesure de la même variable X
• X1 dans la population 1, moyenne μ1
• X2 dans la population 2, moyenne μ2 Echantillon 1 de taille n1
m1, 𝑠12
→ D = X1 - X2, moyenne μD Echantillon 2 de taille n2
m2, 𝑠22

Si n1 et n2 ≥ 30 : distribution de M1 et M2 normales
𝐼𝐶 1−𝛼 𝜇𝐷 = (𝑚1 − 𝑚2 ) ± 𝑧𝛼/2 𝑣𝑎𝑟 𝑚1 − 𝑚2
Echantillons indépendants

𝑠12 𝑠22
𝐼𝐶 1−𝛼 𝜇𝐷 = (𝑚1 − 𝑚2 ) ± 𝑧𝛼/2 𝑣𝑎𝑟 𝑚1 + 𝑣𝑎𝑟(𝑚2 ) = (𝑚1 − 𝑚2 ) ± 𝑧𝛼/2 +
𝑛1 𝑛2

Biostatistique – M1 SP 52
Intervalle de confiance d’une différence
• Exemple : 100 sujets hypertendus répartis en 2 groupes de 50 par
tirage au sort
• Groupe 1 : médicament de référence, m1=14,0 et 𝑠12 = 1,5
• Groupe 2 : nouveau médicament, m2=13,2 et 𝑠22 = 0,8
• Pas de lien entre les sujets : données indépendantes

𝐼𝐶95% 𝜇𝐷 = ?
Conclusion ?

Biostatistique – M1 SP 53
Intervalle de confiance d’une différence
• Exemple : 100 sujets hypertendus répartis en 2 groupes de 50 par
tirage au sort
• Groupe 1 : médicament de référence, m1=14,0 et 𝑠12 = 1,5
• Groupe 2 : nouveau médicament, m2=13,2 et 𝑠22 = 0,8
• Pas de lien entre les sujets : données indépendantes
• n1 et n2 ≥ 30
1,5 0,8
𝐼𝐶95% 𝜇𝐷 = 0,8 ± 1,96 + = [0,38 ; 1,22]
50 50
Conclusion ?

Biostatistique – M1 SP 54
Intervalle de confiance d’une différence
• Exemple : 100 sujets hypertendus répartis en 2 groupes de 50 par
tirage au sort
• Groupe 1 : médicament de référence, m1=14,0 et 𝑠12 = 1,5
• Groupe 2 : nouveau médicament, m2=13,2 et 𝑠22 = 0,8
• Pas de lien entre les sujets : données indépendantes
• n1 et n2 ≥ 30
1,5 0,8
𝐼𝐶95% 𝜇𝐷 = 0,8 ± 1,96 + = [0,38 ; 1,22]
50 50
0 n’appartient pas à l’intervalle de confiance
0 = valeur non vraisemblable de la différence vraie
Egalité entre les traitements = non compatible avec observations
Biostatistique – M1 SP 55
Récap

Biostatistique – M1 SP 56

Vous aimerez peut-être aussi