Tests D'hypothèse
Tests D'hypothèse
d'hypothèse
Louis Paluku SABUNI, BSc, MSc, PhD & Post-Doc.
Introduction
• Une hypothèse est une supposition, une croyance ou une opinion qui peut être vraie ou
non. Par exemple, on peut penser qu'un médicament donné guérit 90% des patients qui le
prennent ou que la taille moyenne des soldats dans l'armée est de 168 cm.
• Le test d'une hypothèse statistique est le processus par lequel cette croyance ou opinion
est testée par des moyens statistiques. Cela signifie que le test d'une hypothèse est une
procédure qui permet de décider, sur la base d'informations obtenues à partir de données
d'échantillonnage, d'accepter ou de rejeter une déclaration ou une hypothèse sur la valeur
d'un paramètre de population.
• Nous acceptons l'hypothèse comme étant vraie, lorsqu'elle est appuyée par un échantillon de données.
Nous rejetons l'hypothèse lorsque les données de l'échantillon ne la soutiennent pas.
• Le test d'hypothèse est la technique la plus importante dans l'inférence statistique. Ces tests sont
largement utilisés en santé publique et en médecine pour prendre des décisions.
• Il est important de comprendre ce que nous entendons par les termes rejeter et accepter
dans le test d'hypothèse.
• Le rejet d'une hypothèse est de la déclarer fausse.
• L'acceptation d'une hypothèse revient à conclure qu'il n'y a pas suffisamment de preuves à rejeter.
• N.B. L'acceptation ne signifie pas nécessairement que l'hypothèse est vraie.
• Les concepts de base associés aux tests d'hypothèses sont discutés ci-dessous.
Hypothèse nulle et alternative
• Une hypothèse nulle, généralement désignée par le symbole Ho, est
toute hypothèse qui doit être testée pour un rejet ou une annulation
possible sous l'hypothèse qu'elle est vraie. Une hypothèse nulle doit
toujours être précise, comme «la pièce donnée est impartiale» ou «un
médicament est inefficace pour guérir une maladie particulière» ou «il n'y
a pas de différence entre les deux méthodes d'enseignement».
• L'hypothèse NULLE reçoit généralement une valeur numérique. Par exemple,
supposons que nous pensons que la taille moyenne des étudiants dans tous les
collèges est de 150 cm. Cette affirmation est prise comme hypothèse et s'écrit
symboliquement comme Ho: µ = 150 cm. En termes d'ordre, nous émettons
l'hypothèse que µ = 150 cm.
• L'hypothèse alternative est toute autre hypothèse que nous acceptons
l'hypothèse nulle Ho est rejetée. Il est désigné par H1 ou HA. Une hypothèse
nulle est ainsi testée par rapport à une autre hypothèse. Par exemple, si
notre hypothèse nulle est Ho: µ = 150 cm, alors notre alternative peut être:
• H1: µ ≠150 cm ou H1: µ > 150 cm ou H1: µ < 150 cm.
Hypothèse simple et composite
• Une hypothèse statistique est dite simple si elle spécifie
complètement les valeurs des paramètres. Par exemple, si nous
émettons l'hypothèse que µ = 150 cm ou p = 0,4, nous avons alors
émis une hypothèse simple.
• La même hypothèse nulle testée contre H1: µ ≠100 est un deux test réduit car
µ peut être de chaque côté de 100. Les schémas suivants le rendraient plus
clair.
Qu'est-ce qu'un test bilatéral?
• Tout d'abord, commençons par la signification d'un test
bilatéral. Si vous utilisez un niveau de signification de
0,05, un test bilatéral attribue la moitié de votre alpha
pour tester la signification statistique dans une direction
et la moitié de votre alpha pour tester la signification
statistique dans l'autre direction. Cela signifie que 0,025
se trouve dans chaque queue de la distribution de votre
statistique de test. Lorsque vous utilisez un test bilatéral,
quelle que soit la direction de la relation que vous
supposez, vous testez la possibilité de la relation dans les
deux directions. Par exemple, nous pouvons souhaiter
comparer la moyenne d'un échantillon à une valeur
donnée x en utilisant un test t. Notre hypothèse nulle est
que la moyenne est égale à x. Un test bilatéral testera à
la fois si la moyenne est significativement supérieure à x
et si la moyenne est significativement inférieure à x. La
moyenne est considérée comme significativement
différente de x si la statistique de test se situe dans les
2,5% supérieurs ou 2,5% inférieurs de sa distribution de
probabilité, ce qui donne une valeur de p inférieure à
0,05.
Qu'est-ce qu'un test unilatéral?
• Ensuite, discutons de la signification d'un test unilatéral:
• Si vous utilisez un niveau de signification de 0,05, un test
unilatéral alloue tout votre alpha pour tester la
signification statistique dans la seule direction qui vous
intéresse. Cela signifie que 0,05 se trouve dans une queue
de la distribution de votre statistique de test. Lorsque vous
utilisez un test unilatéral, vous testez la possibilité d'une
relation dans une direction et vous ignorez complètement
la possibilité d'une relation dans l'autre direction.
Revenons à notre exemple comparant la moyenne d'un
échantillon à une valeur donnée x à l'aide d'un test t.
Notre hypothèse nulle est que la moyenne est égale à x.
Un test unilatéral testera si la moyenne est
significativement supérieure à x ou si la moyenne est
significativement inférieure à x, mais pas les deux. Ensuite,
selon la queue choisie, la moyenne est significativement
supérieure ou inférieure à x si la statistique de test se situe
dans les 5% supérieurs de sa distribution de probabilité ou
dans les 5% inférieurs de sa distribution de probabilité, ce
qui donne une valeur de p inférieure à 0,05. Le test
unilatéral fournit plus de puissance pour détecter un effet
dans une direction en ne testant pas l'effet dans l'autre
direction. Une discussion de quand cela est une option
appropriée suit.
Qu'est-ce qu'un test unilatéral?
• Quand un test unilatéral est-il approprié?
• Étant donné que le test unilatéral fournit plus de puissance pour
détecter un effet, vous pouvez être tenté d'utiliser un test unilatéral
chaque fois que vous avez une hypothèse sur la direction d'un effet.
Avant de le faire, considérez les conséquences de manquer un effet
dans l'autre sens. Imaginez que vous avez développé un nouveau
médicament qui, selon vous, est une amélioration par rapport à un
médicament existant. Vous souhaitez maximiser votre capacité à
détecter l'amélioration, vous optez donc pour un test unilatéral. Ce
faisant, vous ne testez pas la possibilité que le nouveau médicament
soit moins efficace que le médicament existant. Les conséquences dans
cet exemple sont extrêmes, mais elles illustrent le danger d'une
utilisation inappropriée d'un test unilatéral.
• Alors, quand un test unilatéral est-il approprié? Si vous considérez les
conséquences de manquer un effet dans la direction non testée et
concluez qu'elles sont négligeables et nullement irresponsables ou
contraires à l'éthique, alors vous pouvez procéder à un test unilatéral.
Par exemple, imaginez à nouveau que vous avez développé un nouveau
médicament. Il est moins cher que le médicament existant et, selon
vous, non moins efficace. En testant ce médicament, vous n'êtes
intéressé par le test que s'il est moins efficace que le médicament
existant. Vous ne vous souciez pas si c'est beaucoup plus efficace. Vous
souhaitez seulement montrer qu'elle n'est pas moins efficace. Dans ce
scénario, un test unilatéral serait approprié.
• Quand un test unilatéral n'est-il PAS approprié?
• Le choix d'un test unilatéral dans le seul but d'atteindre la signification
n'est pas approprié. Le choix d'un test unilatéral après avoir exécuté un
test bilatéral qui n'a pas rejeté l'hypothèse nulle n'est pas approprié,
quelle que soit la «proximité» de l'importance du test bilatéral.
L'utilisation inappropriée de tests statistiques peut conduire à des
résultats invalides qui ne sont pas reproductibles et très discutables -
un prix élevé à payer pour une étoile d'importance dans votre tableau
de résultats!
Tests unilatéraux et bilatéraux.
• Le tableau suivant donne les
valeurs critiques de Z pour les Niveau de signification 0.10 0.05 0.01 0.005 0.0002
tests unilatéraux et bilatéraux Valeur critique de Z -1.28 -1.650 -2.33 -2.58 -2.88
à divers degrés de pour test unilatéral ou
1.28
ou
1.650
ou
2.33
ou
2.58
Ou
2.88
signification. Valeur critique de Z -1.645 -1.96 2.58 -2.81 -3.08
pour test bilatéral ou ou ou ou ou
1.645 1.96 2.58 2.81 3.08
• Remarque:
• Pour les valeurs critiques de Z
pour les autres niveaux de
signification, consultez le
tableau des courbes normales.
Tests d'hypothèse concernant les
grands échantillons
• Bien qu'il soit difficile de tracer une ligne de démarcation claire entre les
grands et les petits échantillons, il est généralement admis que si la taille
de l'échantillon dépasse 30, il doit être considéré comme un grand
échantillon. Les tests de signification utilisés pour les grands échantillons
sont différents de ceux utilisés pour les petits échantillons, car les
hypothèses que nous faisons dans le cas de gros échantillons ne sont pas
valables pour les petits échantillons. Les tests d'hypothèse impliquant de
grands échantillons sont basés sur les hypothèses suivantes:
• La distribution d'échantillonnage des statistiques est approximativement normale,
• Les valeurs données par les échantillons sont suffisamment proches de la valeur de la
population et peuvent être utilisées à sa place pour l'erreur type de l'estimation.
• Ainsi, nous avons vu que la distribution normale joue un rôle vital dans les
tests d'hypothèse basés sur de grands échantillons (théorème central
limite).
Test de l'hypothèse sur la
moyenne de la population
• Pour tester les hypothèses sur la moyenne de la population, la
procédure suivante est adoptée:
• Énoncer l'hypothèse nulle selon laquelle il n'y a pas de contradiction entre la
moyenne de l'échantillon et la moyenne de la population.
• Trouver l'erreur standard de la moyenne en utilisant la formule: σẍ = σx/ 𝑛.
• Calculer les limites dans lesquelles la moyenne de l'échantillon tombera à des
niveaux de confiance de 95% ou 99% si la moyenne de la population est vraie.
• Découvrez si la moyenne de l'échantillon se situe ou non dans ces limites. Si la
moyenne de l'échantillon se situe dans ces limites, l'hypothèse nulle est
acceptée sinon, elle est rejetée.
Exemple 1.
• La durée de vie moyenne d'un échantillon de 100 tubes lumineux produits par
une entreprise est de 1 570 heures avec un écart type de 80 heures. Testez
l'hypothèse que la durée de vie moyenne des tubes produits par l'entreprise est
de 1 600 heures.
• Solution:
• Ho: µ = 1600
• H1: µ ≠ 1600
• À un niveau de confiance de 95%:
• Moyenne de la population = moyenne de l'échantillon +/- 1,96 (σẍ).
• σẍ = σẍ / 𝑛 = 80 / 100 = 8.
• La population doit se situer entre la fourchette suivante:
• 1570 +/- 1,96 (8)
• 1570 +/- 15,7
• 1554,3 à 1585,7
• Comme la population moyenne de 1600 se situe en dehors de ces limites,
l'hypothèse nulle est rejetée.
Méthode alternative
• L'approche suivante peut également être utilisée pour arriver à la même
conclusion. L'hypothèse nulle est qu'il n'y a pas de différence entre la moyenne
de l'échantillon et la moyenne hypothétique de la population, c'est-à-dire Ho: µ =
µo et H1: µ ≠ µo.
• z = ẍ-µ / σẍ, où σẍ = s / 𝑛 [puisque σ est inconnu pour les grands échantillons].
• Z = ẍ1-ẍ2/σ(ẍ1-ẍ2)
• Étant donné que les écarts-types de la population ne sont pas indiqués dans la plupart
des cas, utilisez donc les d'écarts-types d’échantillons.
• À un niveau de signification de 5%, la valeur critique de Z pour bilatéral = ±1,96. Si la
valeur calculée de z est supérieure à +1,96 ou inférieure à -1,96, alors rejetez Ho.
Exemple 5
• Vous travaillez en tant que responsable des achats pour une entreprise. Les
informations suivantes vous ont été fournies par deux fabricants d'ampoules
électriques.
• Entreprise A Entreprise B
• Durée de vie moyenne (en heures) 1.300 1.248
• Écart type (en heures) 82 93
• Taille de l'échantillon 100 100
• Quelle marque d'ampoules allez-vous acheter si vous souhaitez prendre un risque
de 5%?
• Solution:
• Prenons l'hypothèse qu'il n'y a pas de différence significative dans la qualité des ampoules,
c'est-à-dire Ho: µ1 = µ2.
!² !² $%&&'$()* +( +(
• Z = ẍ1-ẍ2/ # #
= = =
,-.()/*,.)0 $(.%00
= 4.19
!"² &'²
$%%$%%
• Puisque notre calcul de z = 4,19 est supérieur à la valeur critique de z = 1,96 (5%), nous
rejetons l'hypothèse nulle. Par conséquent, la qualité de deux marques d'ampoules diffère
considérablement.
Exemple 6
• Un échantillon de 100 pneus de voiture a une moyenne de 20 000 milles et un écart type de 800 milles. Un
deuxième échantillon de 150 pneus a une durée de vie moyenne de 22 000 miles et un écart type de 900
miles.
• Solution:
• X1 = 20,000 n1 = 100 S1 = 800
• X2 = 22,000 n2 = 150 S2 = 900
• Hypothèse nulle (Ho): µ1 - µ2 = 0, c'est-à-dire que des échantillons ont été prélevés dans la même population.
• Alternative:
• Hypothèse (H1): u1 # u2, c'est-à-dire que les échantillons n'ont pas été prélevés dans la même population. Erreur standard
de différence entre les moyennes:
!! " !² '((² )((²
• σ(ẍ1-ẍ2) = #$ #&
= $(( $*(
= 11,800 = 108,6
• Sous Ho et au niveau de signification de 0,05 avec un test bilatéral, valeurs Z critiques = +/- 1,96
• Conclusion: Ho est rejeté, c'est-à-dire que les échantillons n'auraient pas pu être prélevés de la même
manière puisque la valeur Z calculée tombe dans la région de rejet.
Test de l'hypothèse sur la différence
entre deux proportions
• De manière similaire, la différence entre les proportions d'un attribut donné trouvées
dans deux échantillons aléatoires peut également être testée.
• L'hypothèse nulle est qu'il n'y a pas de différence entre les proportions de la population.
Cela signifie que deux échantillons proviennent de la même population.
• D'où: Ho = π1 = π2.
• La meilleure estimation de l'erreur standard de la différence de P1 et P2 est donnée en
regroupant les échantillons et en trouvant la proportion d'échantillon regroupée (p),
ainsi:
!"#"$!%#%
• p=
#"$#%
• Erreur standard de différence entre les proportions:
!& !&
• [(p1 - p2)] = +
#" #%
(#$%#!)('$%'!)
• et z = .
((#$%#!)
• Mais là où l'hypothèse nulle est y1 = y2, la deuxième partie du numérateur disparaît.
Exemple 7
• Sur un échantillon aléatoire de 100 personnes prélevées dans le village A, 60 sont en train de consommer du thé. Dans un autre
échantillon de 200 personnes prélevées dans le village B, 100 personnes consomment du thé. Les données révèlent-elles une
différence significative entre les deux villages en ce qui concerne l'habitude de prendre le thé?
• Solution:
• Prenons l'hypothèse qu'il n'y a pas de différence significative entre les deux villages en ce qui concerne l'habitude de prendre le thé, c'est-à-
dire π1 = π2.
• On nous donne:
!" $%
• p1 = = = 0,6. n1 = 100.
#" "%%
!& "%%
• p2 = = = 0,5. n2 = 200
#& &%%
• Le test statistique appropriée à utiliser est donnée par:
'"#"('&#& %.$ "%% ((%.+)(&%%) $%("%%
• p= = = = 0,53
#"(#& "%%(&%% -%%
• q = 1-0,53 = 0,47
• Puisque la valeur calculée de z est inférieure à la valeur critique de z = 1,96 à un niveau de signification de 5%, nous acceptons donc
l'hypothèse. Par conséquent, nous concluons qu'il n'y a pas de différence significative dans l'habitude de prendre du thé dans les deux villages
A et B.
Exemple 8
• Avant une augmentation des accises sur le thé, 400 personnes sur un échantillon de 500
personnes étaient des buveurs de thé. Après une augmentation des droits, 400
personnes étaient des buveurs de thé dans un échantillon de 600 personnes. En utilisant
l'erreur type de proportion, indiquez s'il y a une diminution significative de la
consommation de thé.
• Solution:
• Prenons l'hypothèse qu'il n'y a pas eu de diminution significative de la consommation de thé après
l'augmentation des droits, c'est-à-dire Y1 = Y2.
• On nous donne:
1$ )&&
• p1 = #$ = +&& = 0.8, n1 = 500
1( )&&
• p2 = #( = ,&& = 0.667, n2 = 600
• La statistique appropriée à utiliser ici est donnée par:
2$#$/2(#( &.* +&& /(&.,,-)(,&&)
• p= = = 0.73; q = 1 – 0.73 = 0.27
#$/#( +&&/,&&
• Par conséquent, nous pouvons affirmer avec une confiance de 95% que la moyenne de la
population se situe entre 44,28 et 55,72 grammes.
• À un niveau de confiance de 99%:
"
• µ = 50 ± 3,25 { #$
} = 50 ± 8,07 grammes.
• Par conséquent, nous pouvons affirmer que la confiance à 99% que la moyenne de sa population
se situe entre 41,93 et 58,07 grammes.
• Remarque:
• Pour utiliser les tableaux de distribution t, il est nécessaire de trouver le degré de liberté (v = n-1). Si la taille
de l'échantillon est 12-1, alors v = 12-1 = 11.
• À partir des tableaux, nous pouvons constater qu'à un niveau de confiance de 95% contre 11 et moins de
0,05, la valeur de t = 2.201. De même, à 99% de confiance contre 11 sous 0,01 la valeur de t = 3,106
Test d'hypothèse sur la
population Moyenne
• Lorsque l'écart-type de la population (σ) est inconnu, la statistique «t» est
définie comme suit:
ẍ"#
• t= "
#
• suivre la distribution-t de Student avec (n-1) d.l. où ẍ = moyenne de
l'échantillon, µ = moyenne de la population hypothétique, n = taille de
l'échantillon et s est l'écart type de l'échantillon calculé par la formule:
$(&"ẍ)
• s=
(")
• L'hypothèse nulle à tester est de savoir s'il existe une différence
significative entre x et u.
• Si la valeur calculée de t dépasse la valeur de table de t au niveau de
signification spécifié, l'hypothèse nulle est rejetée et la différence entre x et
u est considérée comme significative. Si la valeur calculée de t est
inférieure à la valeur du tableau, la différence entre x et u n'est pas
considérée comme significative. On peut noter que ce test est basé sur n-1
degrés de liberté.
Exemple 2
• Dix bidons d'huile sont pris au hasard dans une machine de remplissage
automatique. Le poids moyen des boîtes est de 15,8 kg et l'écart type est
de 0,50 kg. La moyenne de l'échantillon diffère-t-elle significativement du
poids prévu de 16 kg?
• Solution:
• Soit l'hypothèse nulle que le poids moyen de l'échantillon n'est pas différent du
poids prévu.
• Étant donné que n = 10; x = 15,8; s = 0,50; u = 16. En utilisant le test t, nous avons:
ẍ'8 $+.* $, &.(
• t= ( = %.+% = &.$, = -1.25
) $%
• La valeur de table t pour 0 degré de liberté à un niveau de signification de 5% est de 1,833. Puisque la valeur calculée de t =
2,81 est supérieure à la valeur du tableau, nous rejetons l'hypothèse. Le prix moyen de l'action au cours du mois n'est donc
pas 65.
Test d'hypothèse sur la différence
•
entre deux moyennes.
Pour tester une hypothèse concernant la différence entre les moyennes de deux populations normalement réparties lorsque les variances de
population sont inconnues, le test t peut être utilisé dans deux types de cas:
• Le cas où les variances sont égales, c'est-à-dire σ²1 = σ²2
• Le cas où les variances ne sont pas égales et c'est-à-dire σ²1 ≠ σ²2
7 𝒙𝟏,ẍ𝟐 ! "7(𝒙𝟐,ẍ𝟐)²
• Par conséquent, alternativement s peut être calculé à partir de: s =
𝒏𝟏,𝒏𝟐,𝟐
• L'hypothèse nulle est qu'il n'y a pas de différence entre les deux moyennes.
• Si la valeur calculée de t est inférieure à la valeur de table de t à un niveau de signification spécifié, l'hypothèse nulle est
acceptée et la différence entre les deux moyennes est considérée comme insignifiante. Si la valeur calculée de t est supérieure à
la valeur de table de t, l'hypothèse nulle est rejetée et la différence entre les moyennes de l'échantillon est considérée comme
significative.
Cas de variances inégales
• Lorsque les variances de population ne sont pas égales, c'est-à-dire
σ ² ≠ σ ² , nous utilisons les estimateurs sans biais S ² et S ² pour
1 2 1 2
remplacer σ ²et σ ².
1 2
• Solution:
• Hypothèse nulle Ho: µ1= µ2, c'est-à-dire qu'il n'y a pas de différence dans l'efficacité des
deux médicaments.
ẍ%(ẍ) +%+)
• Appliquer le test t=
* +%&+)
Solution de l’exemple 4:
• Calcul pour ẍ1, ẍ2 et s.
• x1 (x1-x2) (x1-x1)² x2 (x2-x2) (x2-x2)²
x1=9 x2=10
• 8 -1 1 10 0 0
• 12 +3 9 8 -2 4
• 13 +4 16 12 +2 4
• 9 0 0 15 +5 25
• 3 -6 36 6 -4 16
• 8 -2 16
• 11 +1 1
• Σx1=45Σ(x1-x2)=0Σ(x1-x1)² =62Σx2=70Σ(x2-x2)=0Σ(x2-x2)²=54
%𝒙𝟏 𝟒𝟓 𝚺𝒙𝟐 𝟕𝟎
• X1= 𝒏𝟏
= 𝟓 = 9; x2= 𝒏𝟐 = 𝟕
= 𝟏𝟎
𝚺𝒙𝟏/ẍ 4 1%(𝒙𝟐.ẍ𝟐)² 𝟔𝟐1𝟓𝟒 𝟏𝟏𝟔
• S= 𝒏𝟏1𝒏𝟐 /𝟐
= 𝟓1𝟕 /𝟐
= 𝟏𝟎
= 3.406
ẍ𝟏/ẍ𝟐 𝒏𝟏𝒏𝟐 𝟗/𝟏𝟎 𝟓𝒙𝟕 𝟏
• ∴𝒕= = =- x 1.708 = -0.5
𝒔 𝒏𝟏1𝒏𝟐 𝟑.𝟒𝟎𝟔 𝟓1𝟕 𝟑.𝟒𝟎𝟔
• v= n1 + n2 – 2 = 5 + 7 – 2 = 10. For v= 10, t0.05 = 2.23.
• La valeur calculée de t est inférieure à la valeur du tableau. Notre hypothèse est acceptée. Par conséquent, nous
concluons qu'il n'y a pas de différence significative dans l'efficacité des deux médicaments en matière
d'augmentation de poids.
Exemple 5
• Deux vendeurs A et B travaillent dans un certain quartier. À partir d'un sondage mené par le siège social, les
résultats suivants ont été obtenus. Indiquez s'il existe une différence significative dans les ventes moyennes
entre les deux vendeurs.
• A B
• Nombre de ventes 20 18
• Vente moyenne en $ 170 205
• Ecart-type en $ 20 20
• Solution:
• Hypothèse nulle Ho: u1 = u2, c'est-à-dire qu'il n'y a pas de différence dans les ventes moyennes entre les deux vendeurs.
ẍ$,ẍ& #$#& #$,$ !$! " #&,$ !&²
• En appliquant le test t: t = ! #$"#&
ou s = #$"#& ,&
• t=
$:(,&(*
&&.*
&(+$'
&("$'
=
,;*
&&.*
;2(
;'
-
= -1.56 x 3.08 = 4.8
• La valeur de table de t au niveau de signification de 5% pour 36 d.l. (lorsque d.l. est supérieur à 30, alors la
distribution t est la même que la distribution normale) est de 1,9. Puisque la valeur calculée de t est
beaucoup plus que la valeur du tableau, nous rejetons l'hypothèse nulle. Ainsi, nous concluons qu'il existe
une différence significative dans les ventes moyennes entre deux vendeurs.
MERCI
Prof Louis SABUNI