0% ont trouvé ce document utile (0 vote)
107 vues9 pages

Valeur-p : enjeux et interprétations

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
107 vues9 pages

Valeur-p : enjeux et interprétations

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Association

mathématique
du Québec

L’Association Mathématique du Québec regroupe des personnes, des socié-


tés, écoles, commissions scolaires, collèges, universités, instituts de recherche,
sociétés industrielles, ou commerciales qui s’intéressent à l’enseignement, à la
La statistique
recherche, au développement, à la diffusion ou la vulgarisation des mathéma-
tiques.
Elle vise à aider les éducateurs, du primaire à l’Université, dans leur travail
en mettant à leur disposition divers services et ressources.
Elle favorise les échanges entre les différents ordres d’enseignement des mathématiques et collabore
aux initiatives du Ministère de l’éducation qui s’inscrivent dans ce sens.
La valeur-p sous surveillance
Elle favorise une mise à jour continue de l’enseignement des mathématiques, et pour ce faire elle
collabore avec les institutions d’enseignement, les éditeurs et divers mathématiciens qui oeuvrent en
dehors des milieux académiques.
Elle suscite par ses activités et ses publications
Christian Léger,un Département
intérêt plus grand pour
delesmathématiques
mathématiques. et de statistique,
www.mat.ulaval.ca/amq/
Université de Montréal
[email protected]
L’Association Mathématique du Québec publie le Bulletin AMQ 4 fois par année, soit les 15 mars,
15 mai, 15 octobre et 15 décembre.
Les numéros des années antérieures sont déposés sur le site de l’AMQ un an après leur parution en
version sur papier.
Le les
Tous seuil de signification
membres de l’Associationempirique,
Mathématiquemieuxdu Québec connu sous
reçoivent uneleversion
nom sur de papier
valeur-p,
du est un des concepts
Bulletin AMQ. Pour devenir membre, remplir et envoyer à l’adresse indiquée le formulaire d’adhésion
statistiques les plus utilisés dans la littérature scientifique. En fait,
disponible sur le site. En consultant sur le site la Politique de rédaction du Bulletin AMQ, on trouve la présence d’une valeur-
lapstructure de contenu du bulletin ainsi que les thèmes abordés par celui-ci. On
statistiquement significative est souvent une condition sine qua non sans laquelle il seray trouve aussi la
manière dont sont gérés les droits de reproduction, d’adaptation et de traduction des textes publiés
trèsle bulletin.
dans difficile de publier les résultats d’une recherche comparant, par exemple, un nouveau
Les auteurs potentiels y trouveront aussi l’adresse à laquelle envoyer leurs propositions de textes
traitement au traitement
ainsi que la description usuel. Sauf que le concept est souvent galvaudé et mal interprété.
du processus d’arbitrage.
IlsPlusieurs
devraient derésultats
plus consulter les Normes de présentation en vigueur
pourtant statistiquement au bulletin.ne réussissent pas à être reproduits
significatifs
Enfin, c’est dans la section Gabarits que les auteurs potentiels trouveront deux gabarits TeX, l’un
et des
pour scientifiques
débutants remettent
(GabaritAMQ101) enpour
et l’autre question
les initiésle(GabaritAMQpro).
rôle de la valeur-p. En fait
Ils trouveront des les éditeurs de Basic
consignes d’ordre typographique dans les Normes de présentation.
and Applied Social Psychology ont banni les valeurs-p de leur revue ! L’American Statistical
Association
Merci (ASA) al’Association
de faire connaı̂tre jugé bon de préparer etdu
Mathématique deQuébec
publieret un énoncé
sa revue de politique
autour de sur le sujet. Les
vous et d’y proposer
associations ou susciter des
professionnelles articles (indications
élaborent rarement despourénoncés
les soumissions sur le Mais en préparer un
de politique.
site de l’association)
sur un aspect méthodologique est rarissime.

Après un rappel du concept de la valeur-p dans le contexte de la comparaison de deux moyennes,


nous allons présenter et discuter des six points soulevés dans l’énoncé de politique de l’ASA.
Nous allons compléter cette chronique en revenant brièvement sur le dernier recensement.

Comparaison de deux moyennes


1
La valeur-p se calcule dans un contexte de test d’hypothèses. Supposons que nous souhaitions
comparer un nouveau traitement au traitement habituel. Le chercheur souhaite démontrer que
le nouveau traitement donne, en moyenne, de meilleurs résultats que le traitement habituel.
Introduisons un peu de notation. Soit µN et µH la moyenne de la mesure de l’impact du
traitement sur une caractéristique de la maladie pour le nouveau traitement et le traitement
habituel, respectivement. Le chercheur pense que µN > µH où l’on suppose qu’une valeur plus
élevée de la mesure est une amélioration de la condition. Afin de déterminer si c’est effectivement
le cas, le chercheur va planifier une expérience où il recrutera un certain nombre de patients

c Association mathématique du Québec Bulletin AMQ, Vol. LVI, no 4, décembre 2016 – 77


ayant cette condition, les assignera au hasard à l’un ou l’autre des deux traitements et mesurera
l’impact du traitement sur chacun d’entre eux. Pour simplifier la discussion, nous allons prendre
la même taille d’échantillon pour chaque traitement. Soit X1 , . . . , Xn les mesures des n patients
recevant le nouveau traitement et Y1 , . . . , Yn celles du traitement habituel. Le chercheur s’attend
Pn
donc à ce que X̄ > Ȳ où X̄ = n−1 i=1 Xi est la moyenne des Xi et Ȳ est défini de la même
façon.

Mais le fait que X̄ > Ȳ pourrait arriver même si ce n’est pas le cas que µN > µH . Pour
répondre au questionnement du chercheur, les statisticiens vont procéder à un test d’hypothèses
où l’on procède essentiellement par contradiction. En effet, on fait l’hypothèse qu’il n’y a pas de
différence entre les deux moyennes et on cherche à pouvoir rejeter cette hypothèse afin de conclure
qu’il y a une différence. Ainsi on définit l’hypothèse nulle, H0 : µN = µH , qu’on va confronter
à la contre-hypothèse, H1 : µN 6= µH . Cette contre-hypothèse peut surprendre : en effet le
chercheur pense que µN > µH et on pourrait penser que ça devrait être la contre-hypothèse
dans ce cas-ci. Sauf que la littérature scientifique exige plus de prudence. S’il est nécessaire de
procéder à une expérience pour déterminer lequel des deux traitements est supérieur à l’autre,
c’est donc que nous ne sommes pas en mesure de conclure à l’avance que s’il n’y a pas égalité
(c’est-à dire qu’on rejette H0 ), alors il est clair qu’il faut que ce soit le nouveau traitement
qui soit supérieur au traitement habituel plutôt que l’inverse. Bien que l’on enseigne les tests
unilatéraux (où la contre-hypothèse est soit µN > µH ou encore l’inverse µN < µH ) et les
tests bilatéraux (où la contre-hypothèse est µN = 6 µH ), en pratique les tests unilatéraux sont
rarement utilisés.

Pour tester l’hypothèse H0 contre l’hypothèse H1 , on rejette H0 en faveur de H1 lorsque X̄


est suffisamment éloigné de Ȳ . Pour la suite, nous faisons l’hypothèse que les observations de
chaque traitement sont indépendantes et identiquement distribuées selon une loi normale de
moyenne µN pour le nouveau traitement et de moyenne µH pour le traitement habituel et de
variance commune σ 2 pour toutes les observations, soit Xi ∼ N (µN , σ 2 ) et Yi ∼ N (µH , σ 2 ).
Pour être plus précis, on rejette H0 pour de grandes valeurs de |t| où

X̄ − Ȳ
t= p ,
sc 2/n
Pn Pn 
et où s2c = 2
i=1 (Xi − X̄) +
2
i=1 (Yi − Ȳ ) /[2(n−1)] est l’estimateur combiné de la variance
commune σ 2 . Lorsque H0 est vraie, µN = µH = µ et tous les Xi et les Yi sont indépendants et
identiquement distribués selon une loi N (µ, σ 2 ). Il en découle que sous H0 la statistique t suit
une distribution t à 2(n − 1) degrés de liberté.

78 –Bulletin AMQ, Vol. LVI, no 4, décembre 2016


Qu’est-ce qu’une valeur-p ?

La valeur-p est la probabilité, calculée en faisant l’hypothèse que H0 soit vraie, d’obtenir un
résultat aussi extrême ou encore plus extrême que celui observé. Soit tobs la valeur observée de
la statistique t, c’est-à-dire la statistique t calculée sur les données observées. Étant donné la
symétrie de la distribution t par rapport à 0, la valeur-p est P (|T | > |tobs |) = 2P (T > |tobs |) où
T suit une distribution t à 2(n − 1) degrés de liberté et tobs est traité comme une constante
dans ce calcul de probabilité alors que T est aléatoire. Plus la valeur de |tobs | est grande, plus la
valeur-p est petite et vice-versa. Mais il faut noter que puisque la valeur-p dépend de la valeur
observée tobs , la valeur-p est une variable aléatoire.

En fait, on peut facilement démontrer que si H0 est vraie, alors la distribution de la valeur-p
est la distribution uniforme sur l’intervalle [0, 1]. La démonstration repose sur la transformation
intégrale de probabilité. Soit V une variable aléatoire de fonction de répartition F (x) = P (V ≤
x), alors la variable aléatoire U telle que U = F (V ) est distribuée selon la loi uniforme sur
l’intervalle [0, 1]. Ainsi, si l’hypothèse nulle est vraie, c’est-à-dire qu’il n’y a pas de différence
entre les deux moyennes, la valeur-p sera inférieure à α avec probabilité α.

Besoin d’un énoncé politique

Dans les dernières années, un certain nombre d’articles parus dans des organes de presse
scientifique ont remis en cause les fondements des tests d’hypothèses, les blâmant pour plusieurs
maux, notamment la « crise de reproductibilité » qui fait en sorte qu’il est souvent de plus en
plus difficile de refaire des expériences scientifiques et de déclarer statistiquement significatifs des
résultats qui l’avaient précédemment été. De la même manière, plusieurs nouveaux médicaments
qui semblaient prometteurs n’arrivent pas à démontrer leur efficacité une fois les dernières
études cliniques faites. Le Conseil d’administration de l’ASA a décidé de relever le défi de
préparer un énoncé de politique afin d’éclaircir une méthodologie importante de la statistique
qui est toutefois souvent mal comprise ou mal utilisée dans la communauté scientifique élargie.
Comme vous pouvez vous en douter, ce ne fut pas un exercice simple, mais il a été possible
de s’entendre sur de grandes idées qui sont regroupées dans l’énoncé de politique qu’on peut
retrouver dans Wasserstein et Lazar (2016)[2]. Voyons les six éléments qui ont été mis de l’avant.

Bulletin AMQ, Vol. LVI, no 4, décembre 2016 – 79


Une valeur-p donne une indication de l’incompatibilité des données envers un modèle
statistique spécifique

Plus la valeur-p est petite, plus l’hypothèse nulle est remise en cause. Par exemple, si la valeur-p
est de 0,01, ceci veut dire que si H0 est vraie, une valeur de la statistique de test t aussi
extrême ou encore plus extrême que celle qui a été observée, tobs , n’arriverait que 1% des fois.
Donc, ou bien l’hypothèse nulle est vraie et nous avons observé un tel résultat parce que nous
avons été très malchanceux, ou bien l’hypothèse nulle est fausse et |tobs | est grande parce que
justement X̄ − Ȳ est centrée à µN − µH qui est différent de 0. Nous ne saurons jamais laquelle
des deux explications est la bonne. Mais si la valeur-p est trop petite, nous rejetterons H0 en
faveur de la contre-hypothèse H1 . Par convention, on rejette généralement l’hypothèse nulle
lorsque la valeur-p est inférieure à 5% ou, dans certains cas, inférieure à 1%. En procédant
ainsi, on s’assure que si H0 est vraie, on ne fera l’erreur de rejeter H0 alors qu’on ne devrait
pas seulement 5% des fois (ou 1% des fois si l’on utilise la borne de 1%).

Que peut-on conclure si la valeur-p n’est pas suffisamment petite, par exemple supérieure à 5% ?
Disons qu’elle soit de 25%. Alors si les deux moyennes sont identiques, on pourrait observer une
différence aussi importante ou encore plus importante que celle qu’on a observée dans 25% des
cas. C’est beaucoup. Il n’y a donc pas suffisamment d’évidence pour rejeter l’hypothèse nulle.
Comme vous pouvez le constater, les deux hypothèses ne sont pas traitées de la même façon
lorsqu’on effectue un test d’hypothèses. En effet, lorsqu’on rejette l’hypothèse nulle, on le fait
avec une erreur bien précise. Par exemple, si on a rejeté l’hypothèse nulle parce que la valeur-p
était inférieure à 5%, c’est que nous acceptons que lorsque l’hypothèse nulle est vraie nous la
rejetterons erronément avec une probabilité de 5%. Par contre, lorsqu’on ne rejette pas H0 ,
nous ne sommes pas en mesure de quantifier la probabilité de se tromper en ne la rejetant pas.
Ainsi, si la valeur-p est très petite on rejette l’hypothèse nulle avec une très grande confiance,
sinon nous n’avons pas assez d’évidence à l’encontre de celle-ci pour la rejeter.

Une valeur-p ne mesure pas la probabilité que l’hypothèse étudiée soit vraie ou la probabilité
que les données soient le résultat du hasard seulement

Tel qu’indiqué précédemment, la valeur-p est la probabilité, calculée sous H0 , d’obtenir un


résultat aussi extrême ou encore plus extrême que celui observé. Dans notre exemple, il s’agit de
PH0 (|T | > |tobs |). Il va sans dire que ceci n’est pas P (H0 est vraie), c’est-à-dire la probabilité
que l’hypothèse nulle soit vraie. En fait, ou bien H0 est vraie ou bien elle est fausse. Il n’y
a strictement rien d’aléatoire dans cet énoncé et donc la probabilité, si on souhaitait en
assigner une, est soit 0, soit 1. Donc, bien que plusieurs personnes souhaiteraient avoir une telle
probabilité, ce n’est pas ce que calcule la valeur-p. Ce n’est que dans le cadre de la statistique

80 –Bulletin AMQ, Vol. LVI, no 4, décembre 2016


bayésienne, où les paramètres inconnus sont vus comme des variables aléatoires plutôt que des
valeurs fixes mais inconnues, et où la distribution de ces paramètres est supposée représenter
les connaissances a priori concernant ces paramètres, qu’il pourrait être possible de calculer
une telle probabilité.

Des conclusions scientifiques et des décisions d’affaires ou de politique ne devraient pas


être basées uniquement sur le fait qu’une valeur-p dépasse un seuil donné

L’habitude qui consiste à mécaniquement rejeter H0 si la valeur-p atteint un seuil magique (par
exemple « p < 0, 05 ») et ne pas la rejeter si le seuil n’est pas atteint peut mener à des croyances
erronées et à une mauvaise prise de décision. L’égalité de deux moyennes n’est pas vraie d’un
côté de la frontière et soudainement fausse de l’autre côté. Tel qu’expliqué précédemment, une
valeur-p de 0,049 veut dire qu’on obtiendrait un résultat aussi extrême ou encore plus extrême
que celui observé dans 4,9% des cas où H0 est vraie. En rejetant l’hypothèse d’égalité des deux
moyennes dans ce cas, nous sommes confortables avec le fait de se tromper 4,9% des fois en
rejetant l’égalité des moyennes lorsqu’en fait les moyennes sont égales. Si nous sommes prêts à
le faire lorsqu’on a 4,9% des chances de se tromper, pourquoi ne serions-nous pas prêts à le faire
lorsqu’on aurait 5,1% des chances de se tromper ? Il faut tenir compte du contexte dans lequel
les données ont été recueillies et d’autres facteurs afin de faire une inférence éclairée. Considérer
un résultat « statistiquement significatif » (souvent équivalent à avoir une valeur-p inférieure
à 5%) comme étant une reconnaissance permettant une conclusion scientifique interprétable
comme une vérité peut mener à des distorsions considérables du processus scientifique.

Une inférence adéquate nécessite de la transparence et qu’on fasse pleinement rapport


des différentes étapes

Dans l’exemple qui nous intéresse, j’ai parlé d’une seule mesure de l’impact du traitement sur
la maladie. Il est bien sûr possible que plusieurs mesures de cet impact soient prises et qu’ainsi
plusieurs tests soient effectués. Soit Di l’événement consistant à prendre la décision que la
moyenne des mesures est différente dans les deux traitements pour la mesure i sur la base
que la valeur-p calculée est inférieure à 5%, c’est-à-dire prendre la décision de rejeter H0 pour
cette mesure. Sous l’hypothèse que les deux moyennes soient identiques (H0 est vraie), alors
PH0 (Di ) = 0,05, c’est-à-dire qu’on va erronément décider que les moyennes sont différentes alors
qu’elles ne le sont pas seulement 5% des fois. Mais si nous avons I mesures, que les moyennes
pour les deux traitements sont identiques pour chacune d’entre elles et que nous faisons un
test-t pour chaque mesure, alors la probabilité d’erronément rejeter l’hypothèse de l’égalité des
PI
moyennes pour au moins une des mesures est PH0 (∪Ii=1 Di ) ≤ i=1 PH0 (Di ) = 0,05I. Ainsi le
risque de faire une erreur augmente avec le nombre de tests effectués. Il y a des méthodes pour

Bulletin AMQ, Vol. LVI, no 4, décembre 2016 – 81


tenir compte de la multiplicité des tests. Mais le point crucial pour bien interpréter les résultats
et éviter les problèmes de (non) reproductibilité est d’être transparent quant à tous les tests qui
ont été effectués. Si on ne rapporte que les tests des mesures qui ont été déclarées statistiquement
significatives sans mentionner les autres qui ont été faits mais non rapportés, les résultats vont
sembler plus spectaculaires qu’on ne le pense et les chances diminuent considérablement qu’on
puisse les reproduire dans une autre expérience.

Par exemple, supposons qu’on fasse les I tests-t et qu’on ne rapporte que celui qui mène à la
plus petite valeur-p, celle-ci laissera sous-entendre qu’elle est bien plus significative qu’elle ne
l’est en réalité. Soit ti pour i = 1, . . . , I et soit max l’indice correspondant à la mesure dont
on rejette le plus l’hypothèse d’égalité des moyennes, c’est-à-dire que |tmax | = maxi |ti |. La
valeur-p rapportée est PH0 (|T | > |tmax |) alors que le calcul qui serait approprié pour le fait
qu’on ait choisi la statistique t la plus extrême devrait être PH0 (maxi |Ti | > |tmax |) qui serait
beaucoup plus grande. Ainsi, une valeur-p de 0,03, qui suggérerait qu’il y a une différence entre
les moyennes des deux traitements pour la mesure max, risque d’induire en erreur le lecteur si
on ne mentionne pas qu’on l’a choisie parce que c’était la plus significative parmi I tests. En
réalité, selon la taille de I et d’autres facteurs, les chances sont fortes qu’un calcul approprié
aurait mené à une valeur bien supérieure à 5%, de telle sorte que la conclusion tirée de ce
qui est rapporté risque d’induire les lecteurs en erreur quant à l’importance de l’évidence à
l’encontre d’une égalité des deux traitements.

D’autres décisions prises lors de l’analyse des données pourraient également avoir un impact
sur la force de l’évidence contre l’hypothèse nulle. Par exemple, est-ce que le modèle avait été
choisi avant de regarder les données sur la base d’études ou de connaissances antérieures ou
de considérations théoriques, ou a-t-il été choisi parce que les données l’ont suggéré ? C’est
pourquoi il est important de bien rapporter les différentes étapes de l’analyse statistique qui a
été effectuée.

Une valeur-p ou un résultat statistiquement significatif ne mesure pas une taille d’effet ou
ne reflète pas l’importance du résultat

Lorsque la valeur-p est suffisamment petite, il est très invraisemblable, statistiquement, que
l’hypothèse nulle soit vraie ; dans notre cas que les moyennes des deux traitements soient
identiques. Rappelons que le chercheur souhaite démontrer que µN > µH . Mais en fait, le
chercheur est sans doute intéressé à démontrer que la différence entre les deux traitements est
« suffisamment importante » et non pas seulement une différence inintéressante d’un point de
vue scientifique ou pratique. Pour les fins de la discussion, il est possible qu’étant donné la
différence de coût et d’effets secondaires entre les deux traitements, que toute différence de

82 –Bulletin AMQ, Vol. LVI, no 4, décembre 2016


moins de, disons, 5 unités entre les deux traitements fasse en sorte qu’on ne préférera pas le
nouveau traitement au traitement habituel. Que nous dit alors la petitesse de la valeur-p sur
la taille de la différence entre les deux moyennes ? Si je vous dis que la valeur-p dans cette
étude est de 0,01 alors qu’une autre étude a comparé le même traitement habituel à un second
nouveau traitement et que sa valeur-p est de 0,001, dois-je conclure que la moyenne du second
nouveau traitement est bien supérieure à celle du traitement habituel que ne l’est celle du
(premier) nouveau traitement ? Malheureusement, nous ne sommes pas en mesure de conclure
quoi que ce soit qui irait dans ce sens. Tout ce que l’on peut dire est que nous sommes plus
convaincus que la moyenne du second nouveau traitement diffère du premier que ce n’est le cas
pour le premier nouveau traitement.

La valeur-p sera petite lorsque |tobs | sera grande. Or tobs est la différence entre les deux moyennes
divisée par la racine carrée d’une estimation de sa variance. Ainsi |tobs | sera grande si 1) la
différence entre les deux moyennes est grande ; 2) la variabilité des observations autour de
leur moyenne dans chaque groupe s2c , qui estime la variance σ 2 , est petite ; ou 3) la taille des
échantillons n est grande. Et bien sûr, ça pourrait être une combinaison des trois. Ainsi, pour
une variance σ 2 donnée, même si la moyenne du nouveau traitement µN est très proche mais
différente de µH , en autant que la taille des échantillons soit suffisamment grande, la probabilité
que les données soient incompatibles avec l’hypothèse d’égalité des moyennes sera de plus en
plus grande et tendra vers 1 lorsque n convergera vers l’infini. En d’autres mots, la valeur-p
sera inférieure à, disons, 5% avec une probabilité qui tendra vers 1. Donc, si dans deux études
la variance des observations σ 2 et la différence entre les deux moyennes µ1 − µ2 sont identiques,
si la taille d’échantillon est beaucoup plus grande dans une étude que dans l’autre, la valeur-p
de l’étude plus grande devrait être beaucoup plus petite que celle de la plus petite étude, sans
toutefois que la quantité d’intérêt, soit la différence entre les deux moyennes, soit différente.

La taille d’effet dans notre problème est la différence de moyennes µN − µH . La meilleure


façon de faire de l’inférence sur cette différence est de rapporter un intervalle de confiance
pour celle-ci. Un intervalle de confiance est un intervalle aléatoire tel que la probabilité
qu’il contienne la vraie différence µN − µH est le niveau de l’intervalle de confiance, par
exemple 95%. Pour notre problème, l’intervalle de confiance de niveau 95% serait donné par
p p
[X̄ − Ȳ − t2n−2;0,975 sc 2/n; X̄ − Ȳ + t2n−2;0,975 sc 2/n] où P (T > t2n−2;0,975 ) = 0,025 lorsque
T suit une distribution t à 2n − 2 degrés de liberté. Le centre de l’intervalle est l’estimation
de la différence entre les deux moyennes X̄ − Ȳ . La largeur de l’intervalle de confiance reflète
l’incertitude quant à cette estimation. Ainsi, si l’intervalle est court, la vraie différence entre les
moyennes µN − µH ne sera sans doute pas égale à X̄ − Ȳ , mais elle ne pourra pas en dévier
beaucoup. Par contre, si l’intervalle est large, la vraie différence pourrait être très différente de
celle estimée.

Bulletin AMQ, Vol. LVI, no 4, décembre 2016 – 83


Il est facile de démontrer qu’il y a une équivalence entre une valeur-p du test d’hypothèse
inférieure à 5% et le fait que la valeur 0 soit à l’extérieur de l’intervalle de confiance de niveau
95%. Ainsi, la valeur 0 (pas de différence entre les deux moyennes) sera dans l’intervalle de
confiance de niveau 95% si et seulement si la valeur-p du test est supérieure à 5%. Comme on
peut le constater, le fait d’avoir un résultat statistiquement significatif (au niveau 5%) peut tout
aussi bien être déterminé en calculant une valeur-p qu’en calculant un intervalle de confiance de
niveau 95%. Toutefois, l’avantage de l’intervalle de confiance est indéniable. Non seulement on
sait si le résultat est statistiquement significatif (en regardant si 0 est à l’extérieur de l’intervalle
de confiance ou non), mais en plus l’intervalle de confiance contient les différences de moyennes
compatibles avec les données.

Par exemple, supposons que l’intervalle de confiance est [1; 4]. Comme il ne contient pas la
valeur 0, il y a une différence statistiquement significative au niveau 5% entre les deux moyennes.
Par contre, comme l’intervalle au complet est inférieur à 5 (la différence minimale pour être
intéressante), on conclut que bien que la différence soit statistiquement significative, elle n’est
pas scientifiquement ou cliniquement significative. Si l’intervalle est [6; 25], le résultat est
statistiquement significatif et également cliniquement significatif (puisque la borne inférieure
est supérieure à 5), bien qu’il reste beaucoup d’incertitude quant à la différence entre les
deux moyennes. Si l’intervalle est [4; 6], le résultat est statistiquement significatif, mais il n’est
pas clair que la différence soit vraiment importante. À l’inverse, si l’intervalle est [−2; 15], la
différence entre les deux traitements n’est pas statistiquement significative, mais il reste tellement
d’incertitude que la différence pourrait être importante. Finalement, si l’intervalle est [−2; 4], la
différence n’est pas statistiquement significative et, comme l’incertitude est relativement petite
(la borne supérieure est inférieure à 5), même s’il y a une différence entre les deux moyennes,
celle-ci ne serait pas suffisamment importante pour être cliniquement significative. L’intervalle
de confiance révèle donc beaucoup plus d’information que la valeur-p.

En soi, une valeur-p n’est pas une bonne mesure d’évidence concernant un modèle ou une
hypothèse

En conclusion, les chercheurs doivent comprendre que sans contexte ou sans autre évidence,
l’information contenue dans une valeur-p est limitée. Par exemple, une valeur-p proche de 0,05
n’offre en soi qu’une évidence limitée à l’encontre de l’hypothèse nulle. De la même façon, une
valeur-p relativement grande n’implique pas d’évidence supportant l’hypothèse nulle puisque
plusieurs autres hypothèses pourraient tout aussi bien être cohérentes avec ces données. Par
exemple, si X̄ − Ȳ = 1 et que la valeur-p est supérieure à 0,05 de telle sorte que le résultat
n’est pas statistiquement significatif, alors on ne rejette pas H0 (que les deux moyennes sont
identiques). Mais on rejetterait encore moins l’hypothèse que µN − µH = 1 ! L’analyse des

84 –Bulletin AMQ, Vol. LVI, no 4, décembre 2016


données ne devrait donc pas se terminer par le calcul d’une valeur-p lorsqu’on peut aller plus
loin, comme c’est le cas ici avec un intervalle de confiance.

Le recensement de 2016

Ma dernière chronique a abordé les difficultés reliées au caractère volontaire de l’Enquête


nationale des ménages qui a remplacé le formulaire détaillé du recensement à réponse obligatoire
en 2011, dues à une grande diminution du taux de réponse et de sérieux problèmes de biais.
Le gouvernement Trudeau a ramené le formulaire détaillé obligatoire pour le recensement de
2016 qui s’est déroulé au printemps dernier. Le 29 août 2016, Statistique Canada a annoncé
que les taux de réponse pour le recensement de 2016 étaient les plus élevés jamais enregistrés
au Canada, soit 98,4% pour le formulaire court et 97,8% pour le formulaire détaillé ! Le taux
de réponse de l’Enquête nationale des ménages en 2011 n’était que de 68,9% alors que le taux
pour le formulaire court était de 97,1%. De toute évidence, les méthodologistes de Statistique
Canada n’auront pas à se préoccuper de problèmes de biais comme ils ont eu à le faire en
2011. Et toute la société canadienne bénéficiera de l’amélioration de la qualité de l’information
recueillie.

Références

[1] Dasylva, A., Titus, R.-C. et Thibault, C. (2015). Surdénombrement dans le Recensement
de 2011 au Canada. Recueil du Symposium international sur les questions de méthodologie.
Ottawa : Statistique Canada.
[2] Wasserstein, R. et Lazar, N. (2016). The ASA’s Statement on p-Values : Context, Process,
and Purpose, The American Statistician, Vol. 70, No 2, p. 129–133.

Bulletin AMQ, Vol. LVI, no 4, décembre 2016 – 85

Vous aimerez peut-être aussi