Tests statistiques
Docteur Edgard Brice NGOUNGOU
Département de Parasitologie-Mycologie et Médecine Tropicale
(Unité d’Epidémiologie Clinique et Biostatistiques)
L’inférence
L’inférence est le processus par lequel on induit la valeur d’un paramètre à
partir de la statistique correspondante mesurée dans un échantillon
représentatif de la population.
L’inférence statistique peut être effectuée selon deux méthodes basées sur la
théorie des probabilités: le test d’hypothèse et l’estimation des paramètres.
L’estimation des paramètres
Comme l’étude de l’ensemble de la population est souvent impossible, le
paramètre demeure inconnu. L’estimation de ce paramètre consiste à
supposer que sa valeur s’apparente à la valeur de la statistique
correspondante mesurée dans un échantillon.
Le test d’hypothèse
Le test d’hypothèse constitue une première approche permettant d’effectuer une
inférence statistique.
Le but est d’en arriver à appliquer à l’ensemble de la population à l’étude les
résultats obtenus à partir d’un échantillon de cette population. Cette approche
consiste à soupeser deux hypothèses en comparant la statistique et le paramètre
présumé.
Le test d’hypothèse permet de conclure, avec une certaine marge d’erreur, quant
à la valeur réelle de la moyenne dans la population (soit le paramètre) à partir de
l’analyse de l’échantillon.
Statistiques, science de l’incertain
Hypothèse nulle H0 : il n’y a pas de différence significative
Hypothèse alternative H1 : il y a une différence significative
Pour toute décision, on prend un risque de se tromper
Ce risque doit être faible pour être acceptable
• Risque a (risque de 1ère espèce)
• Risque 1 - b (risque de 2ème espèce)
Risques d'erreur de première et de seconde espèce
Comme toute décision statistique, chacune des conclusions comporte un
risque d’erreur :
• le premier risque lié à la première décision est que le biostatisticien
conclue à une différence significative alors que dans la réalité il n’y en a pas.
Ce risque est appelé risque de 1ère espèce et souvent noté risque α (du grec
alpha). Le biostatisticien tient à contrôler ce risque et n’acceptera jamais de
prendre un risque α supérieur à 0,05.
• le second risque lié à la seconde conclusion est celui de ne pas conclure à
une différence significative alors que dans la réalité il y en a une. Ce risque
appelé risque de seconde espèce est souvent noté β (beta en grec).
Conclusions possibles à la suite de la confrontation, des résultats d’hypothèse (jugement
statistique) et de la vérité
Ces deux risques ne sont pas symétriques et le biostatisticien va privilégier le premier en
n’acceptant jamais de prendre un risque de 1ère espèce supérieur à 0,05.
Ainsi le biostatisticien tient à contrôler et annoncer le risque qu’il prend de se tromper en concluant à
une différence statistiquement significative.
Il est plus difficile (puissance d’un test) de contrôler le risque β car celui-ci dépend de la réalité que l’on
ne connaît pas. Aussi ce dernier est souvent inconnu.
C’est pourquoi on ne formulera pas de la même manière les deux conclusions possibles d’un test.
Exemple de la différence de fréquence de l’artérielle dans deux groupes (IMC), les deux conclusions
possibles sont :
− la fréquence de l’hypertensions artérielle dans la population des personnes dont
l’indice de masse corporelle (IMC) est supérieur à 30 est significativement supérieure
à la fréquence de l’hypertension artérielle dans la population des personnes dont l'IMC
est inférieur à 30 (risque d’erreur α < 0,05).
− la fréquence de l’hypertension artérielle dans la population des personnes dont
l’indice de masse corporelle (IMC) est supérieur à 30 n’est pas significativement
différente de la fréquence de l’hypertension artérielle dans la population des personnes
dont le IMC est inférieur à 30 (risque d’erreur β inconnu).
Dans le premier cas, la phrase est affirmative et le biostatisticien donne une mesure de la
confiance qu’il accorde à son résultat (confiance supérieure ici à 95%). On verra plus loin
le moyen d’affiner la valeur de cette confiance (voir degré de signification).
Dans le second cas, la phrase n’est pas à l’affirmative et le résultat du test est que l’on ne
peut pas conclure à une différence significative. On ne pourrait pas clamer par exemple
que la fréquence est la même dans les deux groupes car on ne mesure pas le risque
d’erreur (ici β) que l’on prend en faisant cette affirmation.
Dans un test, lorsque l'on ne rejette pas H0, cela ne signifie pas que H0 est vraie, cela
signifie juste que l'on n'a pas pu mettre en évidence une différence qui est peut-être réelle.
Il faut voir un test comme un instrument qui est capable de mettre en évidence des
différences mais qui n'est pas capable de mettre en évidence des égalités.
« Les tests statistiques »
Raisonnement par l’absurde
On suppose que Ho est vérifiée
On cherche à infirmer cette hypothèse Ho
La conclusion n’est pas une certitude car elle est toujours
associée à un risque d’erreur
Les 6 étapes d’un test statistique
1 - Définir l’hypothèse nulle Ho
2 - Définir le paramètre et les conditions d’application
3 - Définir un seuil a appelé également seuil de signification
(risque d’erreur a )
4 - Définir une région critique associée au risque a
si a = 5 %
- 1,96 0 + 1,96
Les 6 étapes d’un test statistique
5 - Calculer la valeur du paramètre X
6 - Décider
Si X appartient à la région critique : on rejette Ho
il existe une significative
Si X n’appartient pas à la région critique : on accepte Ho
il n’existe pas de significative
Liaison de 2 variables qualitatives : (comparaison de 2 fréquences)
Séries indépendantes
Tests paramétriques Conditions d’application
(Pa Pb ) na pa nb pb
ou t avec p et q 1 p
pq pq n n
a b
n n
a b
nP , nP , nQ , nQ 5
a b a b
Tests non-paramétriques Conditions d’application
Test du Chi2 2
(Oi Ci)2
Si Ci ≥ 5
Ci ddl = (L - 1) (C - 1)
Test du Chi2 corrigé de Yates si Ci ≥ 3 ou < 5
Sinon, test exact de Fisher
Liaison de 2 variables qualitatives : (comparaison de 2 fréquences)
Séries appariées
Tests paramétriques Conditions d’application
a b
a + b ≥ 10
a b a et b : paires discordantes
Tests non-paramétriques Conditions d’application
Test du chi2 de Mac Némar
a b2
MN 2 a et b : paires discordantes
a b Si a + b ≥ 10 (ddl = 1)
Liaison entre 1 variable qualitative à 2 classes et 1 variable quantitative
(comparaison de 2 moyennes) :
2 échantillons indépendants
Tests paramétriques Conditions d’application
ma mb
2 2
na et nb ≥ 30
sa sb
na nb
Test t de Student
ma mb na s a nb s b
2 2
t s
2
1 1 na nb 2
s2
na nb ddl = (na + nb – 2) ; na ou nb ≥ 30
Loi normale ; égalité des variances
Test non-paramétrique
Test de Mann-Whitney
Liaison entre 1 variable qualitative à 2 classes et 1 variable quantitative
(comparaison de 2 moyennes) :
2 échantillons appariés
Tests paramétriques Conditions d’application
d
sd
Si n ≥ 30
n 1 Distribution normale des di
ddl = nd - 1
d
t
sd Si n < 30
n 1
Test non-paramétrique
Test de Wilcoxon sur séries appariées
Liaison de 1 variable qualitative à n > 2 classes à 1 variable quantitative
(comparaison de n (> 2) moyennes)
Echantillons indépendants
Tests paramétriques Conditions d’application
A.N.O.V.A. Variances égales (test de Bartlett)
Analyse de variance Loi normale
Test non-paramétrique
Test de Kruskal Wallis
Liaison de 1 variable qualitative à n > 2 classes à 1 variable quantitative
(comparaison de n (> 2) moyennes)
Echantillons appariés
Tests paramétriques Conditions d’application
A.N.O.V.A. Variances égales (test de Bartlett)
Analyse de variance Loi normale
1 facteur contrôlé
1 facteur aléatoire
Test non-paramétrique
Test de Friedman
Liaison entre 2 variables quantitatives
Tests paramétriques Conditions d’application
Coefficient de corrélation (r) Distribution liée normale
et variance constante ; ddl = n – 2
Régression (si 1 variable est contrôlée)
Modèle linéaire
Test non-paramétrique
Test de Spearman rs ()
Exemple
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans
1 - Définir l’hypothèse nulle Ho
Ho : l’âge moyen n’est pas significativement différent
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans
2 - Définir le paramètre et les conditions d’application
Sous Ho, effectif > 30, paramètre suit une loi normale,
les conditions d’application respectées
Comparaison de moyenne, test de Student
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans
3 - Définir un seuil a
a=5%
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans
4 - Définir une région critique associée au risque a
- 1,96 0 + 1,96
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans
5 - Calculer la valeur du paramètre X
40 38
X 1
16
64
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans
6 - Décider
- 1,96 0 1 + 1,96
X = 1, p = 0,32
valeur en dehors de la zone critique
On accepte Ho : l’âge moyen des sujets tirés dans
l’échantillon n’est pas significativement
Exemple
Influence du tabac sur le cancer pulmonaire
Cancer Pas de cancer Total
Fumeur 80 50 130
Non fumeur 80 190 270
Total 160 240 400
Influence du tabac sur le cancer pulmonaire
1 - Définir l’hypothèse nulle Ho
Ho : le tabac n’a pas d’influence sur le cancer pulmonaire
Influence du tabac sur le cancer pulmonaire
2 - Définir le paramètre et les conditions d’application
e o et 2
2
et
Influence du tabac sur le cancer pulmonaire
2 - Définir le paramètre et les conditions d’application
Effectifs calculés ou théoriques > 5
Cancer Pas de cancer Total
Fumeur 52 78 130
Non fumeur 108 162 270
Total 160 240 400
Influence du tabac sur le cancer pulmonaire
3 - Définir un seuil a
a=5%
Influence du tabac sur le cancer pulmonaire
4 - Définir une région critique associée au risque a
Si a = 5 %
0 + 3,84
Influence du tabac sur le cancer pulmonaire
5 - Calculer la valeur du paramètre X
80 52 2 50 78 2 80 108 2 190 162 2
2
37
52 78 108 162
Influence du tabac sur le cancer pulmonaire
6 - Décider
37
0 + 3,84
2 = 37, ddl = 1 ; p < 0,001
valeur dans la zone critique
On rejette Ho : la fréquence du cancer pulmonaire est
significativement plus élevée chez les fumeurs