Les tests statistiques de
comparaison
Partie 2
Dr CHARIF Faïza
Professeure Assistante en Médecine Communautaire
Laboratoire d’épidémiologie et de santé publique
Faculté de Médecine et de Pharmacie de Tanger
8/11/2024
Comparaison de deux
moyennes
Objectifs
• Appliquer le principe de test statistique
• Comparer deux moyennes dans différentes situations de comparaison
Plan
• Rappel du principe du test statistique
• Comparaison de deux moyennes
Comparaison d’une moyenne à une valeur théorique
Comparaison de deux moyennes observés sur séries indépendantes
Comparaison de deux moyennes observés sur séries appariées
Plan
• Rappel du principe du test statistique
• Comparaison de deux moyennes
Comparaison d’une moyenne à une valeur théorique
Comparaison de deux moyennes observés sur séries indépendantes
Comparaison de deux moyennes observés sur séries appariées
Principe du test statistique
1- Formuler les hypothèses à tester
2- Choisir le test statistique adapté
3- Calculer la statistique adéquate
4- Interpréter le résultat du test
Plan
• Rappel du principe du test statistique
• Comparaison de deux moyennes
Comparaison d’une moyenne à une valeur théorique
Comparaison de deux moyennes observés sur séries indépendantes
Comparaison de deux moyennes observés sur séries appariées
Comparaison de deux moyennes
Comparer 2 moyennes : tester l’association entre:
• 1 variable quantitative continue
• 1 variable qualitative binaire
Exemple : comparaison de la moyenne de la glycémie entre les patients
HTA+ et HTA-
• Glycémie : variable quantitative continue
• Patient hypertendu: variable qualitative binaire (HTA+ / HTA-)
Plan
• Rappel du principe du test statistique
• Comparaison de deux moyennes
Comparaison d’une moyenne à une valeur théorique
Comparaison de deux moyennes observés sur séries indépendantes
Comparaison de deux moyennes observés sur séries appariées
Comparaison d’une moyenne à une valeur
théorique
• Problème : déterminer si une moyenne observée m sur un
échantillon de taille n est différente d’une valeur théorique µH0
• Comparer m à µH0
Comparaison d’une moyenne à une valeur
théorique
1- Formuler les hypothèses : Pour un test bilatéral :
• L’hypothèse nulle H0 : µ = µH0
• L’hypothèse alternative H1 : µ ≠ µH0
Comparaison d’une moyenne à une valeur
théorique
2- Fixer le risque α.
• Risque déterminé a priori
• Fixé généralement à 5%
Comparaison d’une moyenne à une valeur
théorique
3- Choisir le test statistique
Comparaison d’une moyenne à une valeur
théorique
• Cas général : Test T de student :
Le test consiste à calculer
m− µH0
t0=
s2
n
Et la comparer à la valeur seuil au risque α de la loi de Student à (n-1)
ddl
Comparaison d’une moyenne à une valeur
théorique
• Cas général : Test T de student :
• La règle de décision du test :
On rejette H0 au risque α si |t0| ≥ tn-1 ; α
Comparaison d’une moyenne à une valeur
théorique
• Cas général : Test T de student :
• Le degré de signification p : se lit dans la table de la loi de Student
Comparaison d’une moyenne à une valeur
théorique
• Cas général : Test T de student :
• Condition d’application : La condition de ce test est que la distribution
de X soit normale dans la population.
Comparaison d’une moyenne à une valeur
théorique
• Approximation dans le cas d’un grand échantillon : Effectif n ≥ 30
Le test de Student est utilisable quelle que soit la taille de l’échantillon
à condition que la distribution de X soit normale.
Quand l’échantillon est grand, l’utilisation de l’approximation par la loi
normale permet d’éviter cette hypothèse de normalité.
Comparaison d’une moyenne à une valeur
théorique
• Approximation dans le cas d’un grand échantillon : Effectif n ≥ 30
• Le test consiste à calculer
m− µH0
z0=
s2
n
et à la comparer à la valeur seuil au risque α de la loi normale centrée réduite.
Comparaison d’une moyenne à une valeur
théorique
• Approximation dans le cas d’un grand échantillon : Effectif n ≥ 30
Comparaison d’une moyenne à une valeur
théorique
• Approximation dans le cas d’un grand échantillon : Effectif n ≥ 30
Comparaison d’une moyenne à une valeur
théorique
• Approximation dans le cas d’un grand échantillon : Effectif n ≥ 30
Comparaison d’une moyenne à une valeur
théorique
• Approximation dans le cas d’un grand échantillon : Effectif n ≥ 30
• La règle de décision du test : On rejette H0 au risque α si |z0| ≥ zα/2
Comparaison d’une moyenne à une valeur
théorique
• Approximation dans le cas d’un grand échantillon : Effectif n ≥ 30
• Le degré de signification se lit dans la table de la loi normale centrée
réduite
Comparaison d’une moyenne à une valeur
théorique
• Approximation dans le cas d’un grand échantillon : Effectif n ≥ 30
• Conditions d’application : n ≥ 30.
NB : Sur un grand échantillon, les deux tests peuvent être utilisés et
aboutissent à des règles de décision pratiquement identiques.
Comparaison d’une moyenne à une valeur
théorique
Règle pratique :
Effectif Quantité à Seuil de Conditions
calculer signification d’application
(test bilatéral)
n ≥ 30 z0=
m− µH0 Rejet de H0 si : Aucune
s2
n
|z0| ≥ zα
n < 30 m− µH0 Rejet de H0 si : Distribution de
t0=
s2
n
|t0| ≥ tn-1 ; α X normale
Comparaison d’une moyenne à une valeur
théorique
• Exemple
Une firme de produits pharmaceutiques veut savoir si le procédé de
fabrication qu’elle utilise fournit effectivement des flacons de
désinfectant de 250ml. Le volume de 200 flacons est mesuré; on trouve
en moyenne m = 249,8 ml, la variance étant de 3,5. Doit-on considérer
que le volume des flacons fabriqués s’écarte de la valeur théorique
250?
Comparaison d’une moyenne à une valeur
théorique
• Exemple
n = 200 , m = 249,8 et s² = 3,5.
1- Formuler les hypothèses:
H0 : µ = 250 H1 : µ ≠ 250
2- Fixer le risque α : α = 5%
3- Choix du test statistique :
Effectif de l’échantillon > 30 → approximation par la loi normale
Comparaison d’une moyenne à une valeur
théorique
m− µH0 249,8 −250
• Exemple z0= = = -1,51
s2 3,5
n 200
Comparaison d’une moyenne à une valeur
théorique
• Exemple
m− µH0 249,8 −250
z0= = = -1,51
s2 3,5
n 200
| z0 | = 1,51 < 1,96 → non rejet de H0 : différence non significative.
Plan
• Rappel du principe du test statistique
• Comparaison de deux moyennes
Comparaison d’une moyenne à une valeur théorique
Comparaison de deux moyennes observés sur séries indépendantes
Comparaison de deux moyennes observés sur séries appariées
Comparaison de deux moyennes
observées sur séries indépendantes
• Problème : comparer 2 moyennes (m1 et m2) dans 2 échantillons
indépendants de tailles n1 et n2
• Comparer µ1 à µ2
Comparaison de deux moyennes
observées sur séries indépendantes
1- Formuler les hypothèses :
• Pour un test bilatéral :
• Hypothèse nulle : H0 : µ1 = µ2
• Hypothèse alternative : H1 : µ1 ≠ µ2
Comparaison de deux moyennes
observées sur séries indépendantes
2- Fixer le risque α
Risque déterminé a priori
Fixé généralement à 5%
Comparaison de deux moyennes
observées sur séries indépendantes
3- Choisir le test statistique
• Utilisation du test Z de l’écart réduit : Tailles des échantillons n ≥ 30
• Utilisation du test t de student : quels que soient les tailles des
échantillons avec des conditions d’application :
• distributions de X normales dans les deux populations,
• et variances vraies égales (σ²1 = σ²2) dans les deux populations
Comparaison de deux moyennes
observées sur séries indépendantes
• Cas de deux grands échantillons :
• Le test consiste à calculer
m1−m2
z0=
s2 s2
1+ 2
n1 n2
et à la comparer à la valeur seuil au risque α de la loi normale centrée
réduite.
Comparaison de deux moyennes
observées sur séries indépendantes
• Cas de deux grands échantillons :
• La règle de décision du test : On rejette H0 au risque α si |z0| ≥ zα
Comparaison de deux moyennes
observées sur séries indépendantes
• Cas de deux grands échantillons :
• Le degré de signification se lit dans la table de la loi normale centrée
réduite
Comparaison de deux moyennes
observées sur séries indépendantes
• Cas de deux grands échantillons :
• Conditions d’application : n1 et n2 ≥ 30.
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple :
• Pour étudier les facteurs de risque du cancer du colon, un échantillon
de 112 malades atteints de cancer du côlon a été comparé à un
échantillon de 185 témoins non malades quant à leur consommation
moyenne de caféine.
• Pour les malades, elle est égale à m1 = 147,2 mg/j et pour les témoins
à m2 = 132,9 mg/j. La consommation de caféine est-elle différente
chez les malades et les non-malades?
• Ajoutons que les écarts-types sont s1 = 101,8 mg/j chez les malades
et s2 = 115,7 mg/j chez les témoins.
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple
• n1 = 112 ; m1 = 147,2 mg/j ; s1 = 101,8 mg/j
• n2 = 185 ; m2 = 132,9 mg/j ; s2 = 115,7 mg/j
1- Formuler les hypothèses:
H0 : µ1 = µ2 H1 : µ1 ≠ µ2
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple
2- Fixer le risque α : α = 5%
3- Choix du test statistique :
Effectifs des deux échantillons > 30 → approximation par la loi normale
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple :
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple :
• < 1,96 → Non rejet de H0
• On ne met pas en évidence d’association entre la consommation de
caféine et le cancer du côlon
Comparaison de deux moyennes
observées sur séries indépendantes
• Cas d’un des échantillons < 30 :
Lorsque les effectifs des échantillons ne sont pas assez grands (n1 < 30
ou n2 < 30), le test précédent n’est plus applicable. Il faut utiliser le test
de Student basé sur le calcul de t0 après vérification des conditions
d’application
Comparaison de deux moyennes
observées sur séries indépendantes
• Cas d’un des échantillons < 30 :
• Test lorsque les distributions sont normales et les variances égales :
m1−m2
• Le test consiste à calculer t0=
1 1
𝑠²( + )
n1 n2
(𝑛1 −1)𝑠12 + 𝑛2 −1 𝑠22
avec s²=
𝑛1 +𝑛2 −2
et à la comparer à la valeur seuil de la loi de Student à (n1 + n2 -2) ddl.
Comparaison de deux moyennes
observées sur séries indépendantes
• Cas d’un des échantillons < 30 :
• La règle de décision du test :
• On rejette H0 au risque α si |t0| ≥ tn1+n2 -2 ; α
Comparaison de deux moyennes
observées sur séries indépendantes
• Cas d’un des échantillons < 30 :
• Le degré de signification se lit dans la table de la loi de Student
Comparaison de deux moyennes
observées sur séries indépendantes
• Cas d’un des échantillons < 30 :
• Les conditions d’application de ce test sont :
• distributions de X normales dans les deux populations,
• et variances vraies égales (σ²1 = σ²2) dans les deux populations
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple :
• On s’intéresse à la santé cardio-vasculaire d’une population et au rôle du
tabac. On a tiré au sort 32 sujets dont on a mesuré la tension artérielle (en
mmHg). Les sujets se répartissent en 17 fumeurs dont la tension artérielle
moyenne est m1 = 148,8 et 15 non fumeurs dont la tension artérielle
moyenne est m2 = 139,8.
• Doit-on considérer que la tension artérielle des fumeurs diffère de celle des
non-fumeurs ?
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple :
1- Formuler les hypothèses:
H0 : µ1 = µ2 H1 : µ1 ≠ µ2
µ1 et µ2 sont les moyennes vraies de la tension artérielle chez les
fumeurs et chez les non fumeurs.
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple :
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple :
2- Fixer le risque α : α = 5%
3- Choix du test statistique :
Les effectifs des deux échantillons < 30 → test de student pour comparer les
moyennes.
Nous supposons que les distributions de tension artérielle sont normales et
de mêmes variances dans les populations de fumeurs et de non fumeurs.
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple :
Comparaison de deux moyennes
observées sur séries indépendantes
• Exemple :
• Le seuil de signification au risque α = 5% de la loi de student à 30 ddl
est de 2,042.
• 2,08 > 2,042 → on rejette H0 et on retient H1
• On conclut à un lien entre le tabac et la tension artérielle, avec un
degré de signification p < 0,05.
Plan
• Rappel du principe du test statistique
• Comparaison de deux moyennes
Comparaison d’une moyenne à une valeur théorique
Comparaison de deux moyennes observés sur séries indépendantes
Comparaison de deux moyennes observés sur séries appariées
Comparaison de deux moyennes
observées sur séries appariées
• Principe
Comparaison de deux moyennes
observées sur séries appariées
Comparaison de deux moyennes
observées sur séries appariées
• Les hypothèses testées sont les mêmes que pour comparer deux
moyennes sur des échantillons indépendants :
H0 : µ1 = µ2 et H1 : µ1 ≠ µ2
Comparaison de deux moyennes
observées sur séries appariées
• Soit X la variable dont on veut comparer les moyennes m1 et m2 sur
deux échantillons appariés de taille n.
• Pour la paire ni, notons xi1 la valeur de X pour le sujet i de l’échantillon
1 et xi2 la valeur de X pour le sujet i de l’échantillon 2.
• Soit enfin di = xi1 – xi2.
Comparaison de deux moyennes
observées sur séries appariées
• L’hypothèse testée H0 : µ1 = µ2
peut être remplacée par : H0 : µd = µ1 - µ2 = 0 càd H0 : µd = 0
• On transforme donc le problème initial de comparaison de 2
moyennes en un problème de comparaison d’une moyenne à la
valeur théorique 0.
Comparaison de deux moyennes
observées sur séries appariées
1- Formuler les hypothèses :
• Les hypothèses testées s’écrivent donc :
• H0 : µd = 0
• H1 : µd ≠ 0
Comparaison de deux moyennes
observées sur séries appariées
2- Fixer le risque α
Risque déterminé a priori
Fixé généralement à 5%
• Le test lui-même prend des formes différentes selon la taille des
échantillons : md
Comparaison de deux moyennes
observées sur séries appariées
3- Choisir le test statistique
• Le choix du test dépend de la taille des échantillons : md
• Utilisation du test Z: si n ≥ 30 paires
• Utilisation du test t de student: si n < 30 paires avec condition d’application (la
distribution des différences doit être normale)
Comparaison de deux moyennes
observées sur séries appariées
• Grands échantillons (n ≥ 30) :
• Le test consiste à calculer
md
z0 =
Sd2
n
où sd² est la variance des di ,
et à comparer la valeur obtenue à la valeur seuil pour le risque α de la
loi normale centrée réduite.
• Ce test ne requiert aucune condition d’application particulière.
Comparaison de deux moyennes
observées sur séries appariées
• Petits échantillons (n < 30) :
• Le test consiste à calculer
md
t0 =
Sd2
n
où sd² est la variance des di ,
et à comparer la valeur obtenue à la valeur seuil pour le risque α de la
loi de Student à (n-1) ddl.
• La condition d’application de ce test est que la distribution des di soit
normale.
MERCI DE VOTRE ATTENTION