2024-2025
Prof Bram Vanhoutte
Méthodes Session 10
Quantitatives
en Santé
Publique
SAPU L-4012
1
l’inférence statistique
des proportions
Plan
de
session
• Si la variable d’intérêt (variable dépendante) est
une variable qualitative (catégorielle), on peut
vouloir comparer :
• 1 proportion obtenue à partir d’un échantillon à une
proportion connue dans une population de référence.
• 2 proportions obtenues à partir de 2 groupes
(échantillons) indépendants (variable indépendante)
• + de 2 proportions obtenues à partir de + de 2 groupes
indépendants
• 2 proportions obtenues à partir de 2 groupes
(échantillons) appariés
3
p=19/30
1 proportion π0 = 48.3%
• Au niveau mondial, la proportion de filles à la naissance
est de 48,3%. Un chercheur soupçonne que cette
proportion pourrait être plus élevée dans son pays.
Dans un échantillon aléatoire de 30 naissances
survenues dans son pays, 19 étaient des filles.
• 1) Quelle est la valeur vraie de la proportion de filles
dans ce pays?
• 2) La proportion de filles à la naissance dans ce pays
est-elle significativement différente de la proportion
mondiale?
4
p=19/30
1. Intervalle de confiance 95% π0 = 48.3%
• Proportion observée dans l’échantillon (p)
𝑝(1−𝑝)
• IC95%= p ± 1.96
𝑛
Valeur de distribution
normale centrée réduite
qui délimite un intervalle
central de 95%
Écart-type du pourcentage p
5
p=19/30
1. Intervalle de confiance 95% π0 = 48.3%
• Proportion observée dans l’échantillon (p): 19/30 = 63.3%
𝑝(1−𝑝) 0.633(1−0.633)
• IC95%= p ± 1.96 = 0.633 ± 1.96
𝑛 30
Valeur de distribution IC95%= [46.1,80.6]%
normale centrée réduite
qui délimite un intervalle
central de 95%
Écart-type du pourcentage p
6
2. Test de conformité
• La proportion de filles à la naissance dans ce pays
est-elle significativement différente de la proportion
mondiale (=48.3%)?
• H0: 𝝅pays étudié = 𝝅0niveau mondial
• H1: 𝝅pays étudié ≠ 𝝅0niveau mondial
• Utilisation d’un test de Chi-carré (χ2 )
7
2
Logique du χ
Chi-carré
C’est une distance de la fréquence à attendue
• L’idée du test est de comparer la distribution de
fréquence observée dans l'échantillon à la
distribution de fréquence attendue sous
l'hypothèse nulle (𝝅=𝝅𝟎)
• S’il n’y avait aucune différence (et H0 est vrai),
quelle serait la fréquence observé?
8
2
𝑂𝑖𝑗 − 𝐸𝑖𝑗
𝐶ℎ𝑖 2 =
𝐸𝑖𝑗
• Oij: effectifs observés
• Eij: effectifs théoriques attendus
• dl=1 (pour une table 2 x 2)
• dl= (c-1)(l-1)
Proportion = tableau
9
2
Logique du χ
• S’il n’y avait aucune différence (et H0 est vrai),
quelle serait la fréquence observé?
Fréquence Fréquence
observée attendue
Evénement 𝑂1 𝐸1
Complement 𝑂2 𝐸2
Total n n
𝐸1 =n* 𝝅0
10
𝐸2 =n* (1 − 𝝅0)
2
Distribution de référence: χ (Chi2)
Avec k
degrées de
liberté
11
• La proportion de filles à la naissance dans ce pays
est-elle significativement différente de la
proportion mondiale?
• H0: 𝝅pays étudié = 𝝅0niveau mondial
• H1: 𝝅pays étudié ≠ 𝝅0niveau mondial
Risque d’erreur : 5%
12
Calculation du valeur χ2
p=19/30 Fréquence Fréquence attendue
π0 = 48.3% observée
Evénement 𝑂1 =19 𝐸1 =(30*0.483)=14.5
(filles)
Complement 𝑂2 = 11 𝐸2 = 30 ∗ 1 − 0.483
(garçons) = 𝟏𝟓. 𝟓
Total 30 30
• Quelle ‘distance’ est la distribution observée de la
distribution attendue?
• Cette distance est le Chi2 avec (ddl=nombre de lignes -1)
13
Calculation du valeur χ2
2 (𝑂1 −𝐸1 )2 (𝑂2 −𝐸2 )2
• χ1𝑑𝑑𝑙 = +
𝐸1 𝐸2
• Condition: E>4
(19−14.5)2 (11−15.5)2
• => + =2.71
14.5 15.5
• =>p=0.1
14
Conclusion
• => p > α (5%) => non rejet de H0
• →La proportion de filles à la naissance dans le pays
étudié ne diffère pas statistiquement significative
de la proportion observée au niveau mondial.
15
2 proportions, échantillons
indépendants
• Sur base d’un échantillon de 70 enfants hospitalisés
pour malnutrition, on souhaite étudier l’association
entre la présence (ou non) d’œdèmes et la
présence (ou non) de malaria.
1) La prévalence de malaria varie t’elle significativement selon
que l’enfant présente des œdèmes ou non?
2) Quelle est la différence vraie entre les deux proportions?16
Test de homogeneité
(ici aussi test d’association entre 2 var)
• 1) La prévalence de malaria varie t’elle
significativement selon que l’enfant présente des
œdèmes ou non?
• H0: 𝝅𝑴𝒂𝒍𝒂𝒓𝒊𝒂+|𝑶𝒆𝒅è𝒎𝒆𝒔+ = 𝝅𝑴𝒂𝒍𝒂𝒓𝒊𝒂+|𝑶𝒆𝒅è𝒎𝒆𝒔−
• H1: 𝝅𝑴𝒂𝒍𝒂𝒓𝒊𝒂+|𝑶𝒆𝒅è𝒎𝒆𝒔+ ≠ 𝝅𝑴𝒂𝒍𝒂𝒓𝒊𝒂+|𝑶𝒆𝒅è𝒎𝒆𝒔−
• Risque d’erreur : 5%
17
Calculation du valeur χ2
Total ligne ∗ Total colonne
• Avec pour le calcul des attendus, E=
Total table
• Ddl= (nombre de lignes-1)*( nombre de colonnes-1)
Observés Malaria - Malaria + Total Attendus Malaria - Malaria + Total
(sous H0)
Oed - 30 16 46 Oed - 33.5 12.5 46
Oed + 21 3 24 Oed + 17.5 6.5 24
Total 51 19 70 Total 51 19 70
18
Calculation du valeur χ2
Total ligne ∗ Total colonne
• Avec pour le calcul des attendus, E=
Total table
• Ddl= (nombre de lignes-1)*( nombre de colonnes-1)
Observés Malaria - Malaria + Total Attendus Malaria - Malaria Total
(sous H0) +
Oed - 30 16 46 Oed - 51*46/n=33.5 46
Oed + 21 3 24 Oed + 24
Total 51 19 70 Total 51 19 70
19
Calculation du valeur χ2
(30−33.5)2 (16−12.5)2 (21−17.5)2 (3−6.5)2
χ2 = + + + =3.96
33.5 12.5 17.5 6.5
=>p=0.047
Observés Malaria - Malaria + Total Attendus Malaria - Malaria + Total
(sous H0)
Oed - 30 16 46 Oed - 33.5 12.5 46
Oed + 21 3 24 Oed + 17.5 6.5 24
Total 51 19 70 Total 51 19 70
20
Conclusion
• P=0.047 < risque d’erreur α
• => Rejet de H0 et acceptance de H1
H1: 𝝅𝑴𝒂𝒍𝒂𝒓𝒊𝒂+|𝑶𝒆𝒅è𝒎𝒆𝒔+ ≠ 𝝅𝑴𝒂𝒍𝒂𝒓𝒊𝒂+|𝑶𝒆𝒅è𝒎𝒆𝒔−
• I l y a une association (statistiquement) significative
entre la présence (ou non) d ’oedèmes et la présence
(ou non) de malaria. La prévalence de malaria est plus
élevée chez les enfants (malnutris) ne présentant pas
d’oedèmes
21
2. Intervalle de confiance sur la
différence entre deux proportions
• Quelle est la difference “vraie” entre les deux groups?
Malaria - Malaria + Total
• => p1=16/46=34.8% Oed - 30 16 46
p2=3/24=12.5% Oed + 21 3 24
Total 51 19 70
22
2. Intervalle de confiance sur la
différence entre deux proportions
• Quelle est la difference “vraie” entre les deux groups?
0.348(0.652) 0.125(0.875)
• => |0.348-0.125|±1.96 +
46 24
• => 0.223±0.191
• => [0.032, 0.414]
• La différence vraie de la prévalence de la malaria selon la
présence (ou non) d’œdèmes est comprise entre 3.2 et 41.4%
23
2 proportions, échantillons
appariés
• Le tableau ci-dessus présente l’absence (ou la
présence) de déficience en protéines chez 263
enfants à l'admission dans un centre de
rééducation et après 6 mois de traitement.
24
Test sur séries appariées
• Y a-t-il une différence significative (des proportions
d’absence de déficience) entre ces deux moments?
• H0: π𝑎𝑏𝑠𝑒𝑛𝑐𝑒 𝑑é𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑒 𝑡0 = π𝑎𝑏𝑠𝑒𝑛𝑐𝑒 𝑑é𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑒 𝑡1
• H1: π𝑎𝑏𝑠𝑒𝑛𝑐𝑒 𝑑é𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑒 𝑡0 ≠π𝑎𝑏𝑠𝑒𝑛𝑐𝑒 𝑑é𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑒 𝑡1
• Risque d’erreur = 5 %
25
Calculation 2
χ de McNemar
a b
c d
(𝑏−𝑐) 2
• χ2 = (1 ddl)
𝑏+𝑐
Condition – valeurs >4 , (b+c) > 9
26
Calculation 2
χ de McNemar
a b
c d
(𝑏−𝑐) 2 (76−28)2
• χ2 = (1 ddl) = = 22.15
𝑏+𝑐 76+28
=> P<0.001
27
Conclusion
• p < α → Rejet de H0
• H0: π𝑎𝑏𝑠𝑒𝑛𝑐𝑒 𝑑é𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑒 𝑡0 = π𝑎𝑏𝑠𝑒𝑛𝑐𝑒 𝑑é𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑒 𝑡1
• H1: π𝑎𝑏𝑠𝑒𝑛𝑐𝑒 𝑑é𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑒 𝑡0 ≠π𝑎𝑏𝑠𝑒𝑛𝑐𝑒 𝑑é𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑒 𝑡1
• Il y a une différence (statistiquement) significative
des proportions de non-déficience mesurée à
l’admission et à 6 mois. La proportion de non-
déficience est plus élevée à l’admission
comparativement à ce qui est observé à 6 mois.
28
Intervalle de confiance 95% d’une
difference pour series appariées
• Proportion de non-déficience (admission): 205/263=77.9%
• Proportion de non-déficience (6 mois): 157/263=59.7%
• Différence = 0.779-0.597=0.182
29
Intervalle de confiance 95% d’une
difference pour series appariées
76−28 1 (76−28)2
• IC95% : ± 1.96 76 + 28 −
263 263 263
⇒ 0.182 ± 0.073
→ La différence vraie entre les deux proportions de
non-déficience en protéine est comprise entre 10.9
et 25.5 %
30
Exceptions
• Quoi si E =<5?
• => Fischer’s exact test
31
test pour comparer ou tester conditions
Z de l’écart
moyenne observée à une valeur théorique n>=30, normalité
réduit
2 moyennes, échantillons indépendants n1 et n2 >=30 , normalité
2 moyennes, échantillons appariés nombre de paires>=30 , normalité
T de student moyenne observée à une valeur théorique normalité
2 moyennes, échantillons indépendants homoscédasticité des variances, normalité
2 moyennes, échantillons appariés normalité
T de Welch 2 moyennes, échantillons indépendants normalité, variances différentes
Chi 2 distribution observée / théorique effectifs théoriques minimum 5
2 proportions ou plus, échantillons effectifs théoriques minimum 5 dans chaque
indépendants case
Chi 2 McNemar 2 proportions ou plus, échantillons appariées nombre de paires discordantes minimum 10
Fischer Exact proportions /distributions aucune
32