0% ont trouvé ce document utile (0 vote)
67 vues33 pages

Teste Statistique

Ce document décrit les principes des tests statistiques, notamment le test d'hypothèse, l'estimation des paramètres, les risques d'erreur de première et de seconde espèce, et les étapes d'un test statistique.

Transféré par

Emile Hans Obame
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
67 vues33 pages

Teste Statistique

Ce document décrit les principes des tests statistiques, notamment le test d'hypothèse, l'estimation des paramètres, les risques d'erreur de première et de seconde espèce, et les étapes d'un test statistique.

Transféré par

Emile Hans Obame
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Tests statistiques

Docteur Edgard Brice NGOUNGOU


Département de Parasitologie-Mycologie et Médecine Tropicale
(Unité d’Epidémiologie Clinique et Biostatistiques)
L’inférence

L’inférence est le processus par lequel on induit la valeur d’un paramètre à


partir de la statistique correspondante mesurée dans un échantillon
représentatif de la population.

L’inférence statistique peut être effectuée selon deux méthodes basées sur la
théorie des probabilités: le test d’hypothèse et l’estimation des paramètres.
L’estimation des paramètres

Comme l’étude de l’ensemble de la population est souvent impossible, le


paramètre demeure inconnu. L’estimation de ce paramètre consiste à
supposer que sa valeur s’apparente à la valeur de la statistique
correspondante mesurée dans un échantillon.
Le test d’hypothèse

Le test d’hypothèse constitue une première approche permettant d’effectuer une


inférence statistique.

Le but est d’en arriver à appliquer à l’ensemble de la population à l’étude les


résultats obtenus à partir d’un échantillon de cette population. Cette approche
consiste à soupeser deux hypothèses en comparant la statistique et le paramètre
présumé.

Le test d’hypothèse permet de conclure, avec une certaine marge d’erreur, quant
à la valeur réelle de la moyenne dans la population (soit le paramètre) à partir de
l’analyse de l’échantillon.
Statistiques, science de l’incertain

Hypothèse nulle H0 : il n’y a pas de différence significative

Hypothèse alternative H1 : il y a une différence significative

Pour toute décision, on prend un risque de se tromper

Ce risque doit être faible pour être acceptable

• Risque a (risque de 1ère espèce)

• Risque 1 - b (risque de 2ème espèce)


Risques d'erreur de première et de seconde espèce

Comme toute décision statistique, chacune des conclusions comporte un


risque d’erreur :

• le premier risque lié à la première décision est que le biostatisticien


conclue à une différence significative alors que dans la réalité il n’y en a pas.
Ce risque est appelé risque de 1ère espèce et souvent noté risque α (du grec
alpha). Le biostatisticien tient à contrôler ce risque et n’acceptera jamais de
prendre un risque α supérieur à 0,05.

• le second risque lié à la seconde conclusion est celui de ne pas conclure à


une différence significative alors que dans la réalité il y en a une. Ce risque
appelé risque de seconde espèce est souvent noté β (beta en grec).
Conclusions possibles à la suite de la confrontation, des résultats d’hypothèse (jugement
statistique) et de la vérité
Ces deux risques ne sont pas symétriques et le biostatisticien va privilégier le premier en
n’acceptant jamais de prendre un risque de 1ère espèce supérieur à 0,05.

Ainsi le biostatisticien tient à contrôler et annoncer le risque qu’il prend de se tromper en concluant à
une différence statistiquement significative.

Il est plus difficile (puissance d’un test) de contrôler le risque β car celui-ci dépend de la réalité que l’on
ne connaît pas. Aussi ce dernier est souvent inconnu.

C’est pourquoi on ne formulera pas de la même manière les deux conclusions possibles d’un test.

Exemple de la différence de fréquence de l’artérielle dans deux groupes (IMC), les deux conclusions
possibles sont :

− la fréquence de l’hypertensions artérielle dans la population des personnes dont


l’indice de masse corporelle (IMC) est supérieur à 30 est significativement supérieure
à la fréquence de l’hypertension artérielle dans la population des personnes dont l'IMC
est inférieur à 30 (risque d’erreur α < 0,05).

− la fréquence de l’hypertension artérielle dans la population des personnes dont


l’indice de masse corporelle (IMC) est supérieur à 30 n’est pas significativement
différente de la fréquence de l’hypertension artérielle dans la population des personnes
dont le IMC est inférieur à 30 (risque d’erreur β inconnu).
Dans le premier cas, la phrase est affirmative et le biostatisticien donne une mesure de la
confiance qu’il accorde à son résultat (confiance supérieure ici à 95%). On verra plus loin
le moyen d’affiner la valeur de cette confiance (voir degré de signification).

Dans le second cas, la phrase n’est pas à l’affirmative et le résultat du test est que l’on ne
peut pas conclure à une différence significative. On ne pourrait pas clamer par exemple
que la fréquence est la même dans les deux groupes car on ne mesure pas le risque
d’erreur (ici β) que l’on prend en faisant cette affirmation.

Dans un test, lorsque l'on ne rejette pas H0, cela ne signifie pas que H0 est vraie, cela
signifie juste que l'on n'a pas pu mettre en évidence une différence qui est peut-être réelle.
Il faut voir un test comme un instrument qui est capable de mettre en évidence des
différences mais qui n'est pas capable de mettre en évidence des égalités.
« Les tests statistiques »

 Raisonnement par l’absurde

 On suppose que Ho est vérifiée

 On cherche à infirmer cette hypothèse Ho

 La conclusion n’est pas une certitude car elle est toujours


associée à un risque d’erreur
Les 6 étapes d’un test statistique

1 - Définir l’hypothèse nulle Ho

2 - Définir le paramètre et les conditions d’application

3 - Définir un seuil a appelé également seuil de signification


(risque d’erreur a )

4 - Définir une région critique associée au risque a


si a = 5 %

- 1,96 0 + 1,96
Les 6 étapes d’un test statistique

5 - Calculer la valeur du paramètre X

6 - Décider

 Si X appartient à la région critique : on rejette Ho

il existe une  significative

 Si X n’appartient pas à la région critique : on accepte Ho

il n’existe pas de  significative


 Liaison de 2 variables qualitatives : (comparaison de 2 fréquences)
Séries indépendantes
 Tests paramétriques Conditions d’application
(Pa  Pb ) na pa  nb pb
 ou t  avec p et q  1  p
pq pq n n
 a b
n n
a b
nP , nP , nQ , nQ  5
a b a b
 Tests non-paramétriques Conditions d’application

Test du Chi2 2 
 (Oi  Ci)2
Si Ci ≥ 5
Ci ddl = (L - 1) (C - 1)

Test du Chi2 corrigé de Yates si Ci ≥ 3 ou < 5


Sinon, test exact de Fisher
 Liaison de 2 variables qualitatives : (comparaison de 2 fréquences)
Séries appariées
 Tests paramétriques Conditions d’application

a b
 a + b ≥ 10
a b a et b : paires discordantes

 Tests non-paramétriques Conditions d’application

Test du chi2 de Mac Némar


a  b2
 MN 2  a et b : paires discordantes
a  b Si a + b ≥ 10 (ddl = 1)
 Liaison entre 1 variable qualitative à 2 classes et 1 variable quantitative
(comparaison de 2 moyennes) :
2 échantillons indépendants
 Tests paramétriques Conditions d’application
ma  mb
 2 2
na et nb ≥ 30
sa sb

na nb
Test t de Student
ma mb na s a nb s b
2 2

t s 
2

1 1 na  nb  2
s2  
 na nb  ddl = (na + nb – 2) ; na ou nb ≥ 30
Loi normale ; égalité des variances
 Test non-paramétrique

Test de Mann-Whitney
 Liaison entre 1 variable qualitative à 2 classes et 1 variable quantitative
(comparaison de 2 moyennes) :
2 échantillons appariés
 Tests paramétriques Conditions d’application
d
  sd
Si n ≥ 30

n  1 Distribution normale des di


ddl = nd - 1
d
t 
sd Si n < 30
n  1

 Test non-paramétrique

Test de Wilcoxon sur séries appariées


 Liaison de 1 variable qualitative à n > 2 classes à 1 variable quantitative
(comparaison de n (> 2) moyennes)

Echantillons indépendants

 Tests paramétriques Conditions d’application

A.N.O.V.A. Variances égales (test de Bartlett)


Analyse de variance Loi normale

 Test non-paramétrique

Test de Kruskal Wallis


 Liaison de 1 variable qualitative à n > 2 classes à 1 variable quantitative
(comparaison de n (> 2) moyennes)

Echantillons appariés

 Tests paramétriques Conditions d’application

A.N.O.V.A. Variances égales (test de Bartlett)


Analyse de variance Loi normale

1 facteur contrôlé
1 facteur aléatoire

 Test non-paramétrique

Test de Friedman
 Liaison entre 2 variables quantitatives

 Tests paramétriques Conditions d’application

Coefficient de corrélation (r) Distribution liée normale


et variance constante ; ddl = n – 2

Régression (si 1 variable est contrôlée)


Modèle linéaire

 Test non-paramétrique

Test de Spearman rs ()


Exemple
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans

1 - Définir l’hypothèse nulle Ho

Ho : l’âge moyen n’est pas significativement différent


N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans

2 - Définir le paramètre et les conditions d’application

Sous Ho, effectif > 30, paramètre suit une loi normale,
les conditions d’application respectées
Comparaison de moyenne, test de Student
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans

3 - Définir un seuil a

a=5%
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans

4 - Définir une région critique associée au risque a

- 1,96 0 + 1,96
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans

5 - Calculer la valeur du paramètre X

40  38
X 1
16
64
N = 64
m = 40 ans ?
m = 38 ans
s = 16 ans

6 - Décider

- 1,96 0 1 + 1,96

X = 1, p = 0,32
valeur en dehors de la zone critique
On accepte Ho : l’âge moyen des sujets tirés dans
l’échantillon n’est pas significativement 
Exemple

Influence du tabac sur le cancer pulmonaire

Cancer Pas de cancer Total

Fumeur 80 50 130

Non fumeur 80 190 270

Total 160 240 400


Influence du tabac sur le cancer pulmonaire

1 - Définir l’hypothèse nulle Ho

Ho : le tabac n’a pas d’influence sur le cancer pulmonaire


Influence du tabac sur le cancer pulmonaire

2 - Définir le paramètre et les conditions d’application

e o  et 2
2  
et
Influence du tabac sur le cancer pulmonaire

2 - Définir le paramètre et les conditions d’application

Effectifs calculés ou théoriques > 5

Cancer Pas de cancer Total

Fumeur 52 78 130

Non fumeur 108 162 270

Total 160 240 400


Influence du tabac sur le cancer pulmonaire

3 - Définir un seuil a

a=5%
Influence du tabac sur le cancer pulmonaire

4 - Définir une région critique associée au risque a

Si a = 5 %

0 + 3,84
Influence du tabac sur le cancer pulmonaire

5 - Calculer la valeur du paramètre X

80  52 2 50  78 2 80 108 2 190 162  2


 
2
    37
52 78 108 162
Influence du tabac sur le cancer pulmonaire

6 - Décider

37

0 + 3,84

2 = 37, ddl = 1 ; p < 0,001


valeur dans la zone critique
On rejette Ho : la fréquence du cancer pulmonaire est
significativement plus élevée chez les fumeurs

Vous aimerez peut-être aussi