0% ont trouvé ce document utile (0 vote)

107 vues9 pages

Valeur-p : enjeux et interprétations

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

107 vues9 pages

Valeur-p : enjeux et interprétations

Transféré par

Xavier Herman MANANJARA ANDRIMAHAFALY

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Association

mathématique
du Québec

L’Association Mathématique du Québec regroupe des personnes, des socié-

tés, écoles, commissions scolaires, collèges, universités, instituts de recherche,
sociétés industrielles, ou commerciales qui s’intéressent à l’enseignement, à la
La statistique
recherche, au développement, à la diﬀusion ou la vulgarisation des mathéma-
tiques.
Elle vise à aider les éducateurs, du primaire à l’Université, dans leur travail
en mettant à leur disposition divers services et ressources.
Elle favorise les échanges entre les diﬀérents ordres d’enseignement des mathématiques et collabore
aux initiatives du Ministère de l’éducation qui s’inscrivent dans ce sens.
La valeur-p sous surveillance
Elle favorise une mise à jour continue de l’enseignement des mathématiques, et pour ce faire elle
collabore avec les institutions d’enseignement, les éditeurs et divers mathématiciens qui oeuvrent en
dehors des milieux académiques.
Elle suscite par ses activités et ses publications
Christian Léger,un Département
intérêt plus grand pour
delesmathématiques
mathématiques. et de statistique,
www.mat.ulaval.ca/amq/
Université de Montréal
[email protected]
L’Association Mathématique du Québec publie le Bulletin AMQ 4 fois par année, soit les 15 mars,
15 mai, 15 octobre et 15 décembre.
Les numéros des années antérieures sont déposés sur le site de l’AMQ un an après leur parution en
version sur papier.
Le les
Tous seuil de signification
membres de l’Associationempirique,
Mathématiquemieuxdu Québec connu sous
reçoivent uneleversion
nom sur de papier
valeur-p,
du est un des concepts
Bulletin AMQ. Pour devenir membre, remplir et envoyer à l’adresse indiquée le formulaire d’adhésion
statistiques les plus utilisés dans la littérature scientifique. En fait,
disponible sur le site. En consultant sur le site la Politique de rédaction du Bulletin AMQ, on trouve la présence d’une valeur-
lapstructure de contenu du bulletin ainsi que les thèmes abordés par celui-ci. On
statistiquement significative est souvent une condition sine qua non sans laquelle il seray trouve aussi la
manière dont sont gérés les droits de reproduction, d’adaptation et de traduction des textes publiés
trèsle bulletin.
dans difficile de publier les résultats d’une recherche comparant, par exemple, un nouveau
Les auteurs potentiels y trouveront aussi l’adresse à laquelle envoyer leurs propositions de textes
traitement au traitement
ainsi que la description usuel. Sauf que le concept est souvent galvaudé et mal interprété.
du processus d’arbitrage.
IlsPlusieurs
devraient derésultats
plus consulter les Normes de présentation en vigueur
pourtant statistiquement au bulletin.ne réussissent pas à être reproduits
significatifs
Enfin, c’est dans la section Gabarits que les auteurs potentiels trouveront deux gabarits TeX, l’un
et des
pour scientifiques
débutants remettent
(GabaritAMQ101) enpour
et l’autre question
les initiésle(GabaritAMQpro).
rôle de la valeur-p. En fait
Ils trouveront des les éditeurs de Basic
consignes d’ordre typographique dans les Normes de présentation.
and Applied Social Psychology ont banni les valeurs-p de leur revue ! L’American Statistical
Association
Merci (ASA) al’Association
de faire connaı̂tre jugé bon de préparer etdu
Mathématique deQuébec
publieret un énoncé
sa revue de politique
autour de sur le sujet. Les
vous et d’y proposer
associations ou susciter des
professionnelles articles (indications
élaborent rarement despourénoncés
les soumissions sur le Mais en préparer un
de politique.
site de l’association)
sur un aspect méthodologique est rarissime.

Après un rappel du concept de la valeur-p dans le contexte de la comparaison de deux moyennes,

nous allons présenter et discuter des six points soulevés dans l’énoncé de politique de l’ASA.
Nous allons compléter cette chronique en revenant brièvement sur le dernier recensement.

Comparaison de deux moyennes

1
La valeur-p se calcule dans un contexte de test d’hypothèses. Supposons que nous souhaitions
comparer un nouveau traitement au traitement habituel. Le chercheur souhaite démontrer que
le nouveau traitement donne, en moyenne, de meilleurs résultats que le traitement habituel.
Introduisons un peu de notation. Soit µN et µH la moyenne de la mesure de l’impact du
traitement sur une caractéristique de la maladie pour le nouveau traitement et le traitement
habituel, respectivement. Le chercheur pense que µN > µH où l’on suppose qu’une valeur plus
élevée de la mesure est une amélioration de la condition. Afin de déterminer si c’est effectivement
le cas, le chercheur va planifier une expérience où il recrutera un certain nombre de patients

c Association mathématique du Québec Bulletin AMQ, Vol. LVI, no 4, décembre 2016 – 77

ayant cette condition, les assignera au hasard à l’un ou l’autre des deux traitements et mesurera
l’impact du traitement sur chacun d’entre eux. Pour simplifier la discussion, nous allons prendre
la même taille d’échantillon pour chaque traitement. Soit X1 , . . . , Xn les mesures des n patients
recevant le nouveau traitement et Y1 , . . . , Yn celles du traitement habituel. Le chercheur s’attend
Pn
donc à ce que X̄ > Ȳ où X̄ = n−1 i=1 Xi est la moyenne des Xi et Ȳ est défini de la même
façon.

Mais le fait que X̄ > Ȳ pourrait arriver même si ce n’est pas le cas que µN > µH . Pour
répondre au questionnement du chercheur, les statisticiens vont procéder à un test d’hypothèses
où l’on procède essentiellement par contradiction. En effet, on fait l’hypothèse qu’il n’y a pas de
différence entre les deux moyennes et on cherche à pouvoir rejeter cette hypothèse afin de conclure
qu’il y a une différence. Ainsi on définit l’hypothèse nulle, H0 : µN = µH , qu’on va confronter
à la contre-hypothèse, H1 : µN 6= µH . Cette contre-hypothèse peut surprendre : en effet le
chercheur pense que µN > µH et on pourrait penser que ça devrait être la contre-hypothèse
dans ce cas-ci. Sauf que la littérature scientifique exige plus de prudence. S’il est nécessaire de
procéder à une expérience pour déterminer lequel des deux traitements est supérieur à l’autre,
c’est donc que nous ne sommes pas en mesure de conclure à l’avance que s’il n’y a pas égalité
(c’est-à dire qu’on rejette H0 ), alors il est clair qu’il faut que ce soit le nouveau traitement
qui soit supérieur au traitement habituel plutôt que l’inverse. Bien que l’on enseigne les tests
unilatéraux (où la contre-hypothèse est soit µN > µH ou encore l’inverse µN < µH ) et les
tests bilatéraux (où la contre-hypothèse est µN = 6 µH ), en pratique les tests unilatéraux sont
rarement utilisés.

Pour tester l’hypothèse H0 contre l’hypothèse H1 , on rejette H0 en faveur de H1 lorsque X̄

est suffisamment éloigné de Ȳ . Pour la suite, nous faisons l’hypothèse que les observations de
chaque traitement sont indépendantes et identiquement distribuées selon une loi normale de
moyenne µN pour le nouveau traitement et de moyenne µH pour le traitement habituel et de
variance commune σ 2 pour toutes les observations, soit Xi ∼ N (µN , σ 2 ) et Yi ∼ N (µH , σ 2 ).
Pour être plus précis, on rejette H0 pour de grandes valeurs de |t| où

X̄ − Ȳ
t= p ,
sc 2/n
Pn Pn
et où s2c = 2
i=1 (Xi − X̄) +
2
i=1 (Yi − Ȳ ) /[2(n−1)] est l’estimateur combiné de la variance
commune σ 2 . Lorsque H0 est vraie, µN = µH = µ et tous les Xi et les Yi sont indépendants et
identiquement distribués selon une loi N (µ, σ 2 ). Il en découle que sous H0 la statistique t suit
une distribution t à 2(n − 1) degrés de liberté.

78 –Bulletin AMQ, Vol. LVI, no 4, décembre 2016

Qu’est-ce qu’une valeur-p ?

La valeur-p est la probabilité, calculée en faisant l’hypothèse que H0 soit vraie, d’obtenir un
résultat aussi extrême ou encore plus extrême que celui observé. Soit tobs la valeur observée de
la statistique t, c’est-à-dire la statistique t calculée sur les données observées. Étant donné la
symétrie de la distribution t par rapport à 0, la valeur-p est P (|T | > |tobs |) = 2P (T > |tobs |) où
T suit une distribution t à 2(n − 1) degrés de liberté et tobs est traité comme une constante
dans ce calcul de probabilité alors que T est aléatoire. Plus la valeur de |tobs | est grande, plus la
valeur-p est petite et vice-versa. Mais il faut noter que puisque la valeur-p dépend de la valeur
observée tobs , la valeur-p est une variable aléatoire.

En fait, on peut facilement démontrer que si H0 est vraie, alors la distribution de la valeur-p
est la distribution uniforme sur l’intervalle [0, 1]. La démonstration repose sur la transformation
intégrale de probabilité. Soit V une variable aléatoire de fonction de répartition F (x) = P (V ≤
x), alors la variable aléatoire U telle que U = F (V ) est distribuée selon la loi uniforme sur
l’intervalle [0, 1]. Ainsi, si l’hypothèse nulle est vraie, c’est-à-dire qu’il n’y a pas de différence
entre les deux moyennes, la valeur-p sera inférieure à α avec probabilité α.

Besoin d’un énoncé politique

Dans les dernières années, un certain nombre d’articles parus dans des organes de presse
scientifique ont remis en cause les fondements des tests d’hypothèses, les blâmant pour plusieurs
maux, notamment la « crise de reproductibilité » qui fait en sorte qu’il est souvent de plus en
plus difficile de refaire des expériences scientifiques et de déclarer statistiquement significatifs des
résultats qui l’avaient précédemment été. De la même manière, plusieurs nouveaux médicaments
qui semblaient prometteurs n’arrivent pas à démontrer leur efficacité une fois les dernières
études cliniques faites. Le Conseil d’administration de l’ASA a décidé de relever le défi de
préparer un énoncé de politique afin d’éclaircir une méthodologie importante de la statistique
qui est toutefois souvent mal comprise ou mal utilisée dans la communauté scientifique élargie.
Comme vous pouvez vous en douter, ce ne fut pas un exercice simple, mais il a été possible
de s’entendre sur de grandes idées qui sont regroupées dans l’énoncé de politique qu’on peut
retrouver dans Wasserstein et Lazar (2016)[2]. Voyons les six éléments qui ont été mis de l’avant.

Bulletin AMQ, Vol. LVI, no 4, décembre 2016 – 79

Une valeur-p donne une indication de l’incompatibilité des données envers un modèle
statistique spécifique

Plus la valeur-p est petite, plus l’hypothèse nulle est remise en cause. Par exemple, si la valeur-p
est de 0,01, ceci veut dire que si H0 est vraie, une valeur de la statistique de test t aussi
extrême ou encore plus extrême que celle qui a été observée, tobs , n’arriverait que 1% des fois.
Donc, ou bien l’hypothèse nulle est vraie et nous avons observé un tel résultat parce que nous
avons été très malchanceux, ou bien l’hypothèse nulle est fausse et |tobs | est grande parce que
justement X̄ − Ȳ est centrée à µN − µH qui est différent de 0. Nous ne saurons jamais laquelle
des deux explications est la bonne. Mais si la valeur-p est trop petite, nous rejetterons H0 en
faveur de la contre-hypothèse H1 . Par convention, on rejette généralement l’hypothèse nulle
lorsque la valeur-p est inférieure à 5% ou, dans certains cas, inférieure à 1%. En procédant
ainsi, on s’assure que si H0 est vraie, on ne fera l’erreur de rejeter H0 alors qu’on ne devrait
pas seulement 5% des fois (ou 1% des fois si l’on utilise la borne de 1%).

Que peut-on conclure si la valeur-p n’est pas suffisamment petite, par exemple supérieure à 5% ?
Disons qu’elle soit de 25%. Alors si les deux moyennes sont identiques, on pourrait observer une
différence aussi importante ou encore plus importante que celle qu’on a observée dans 25% des
cas. C’est beaucoup. Il n’y a donc pas suffisamment d’évidence pour rejeter l’hypothèse nulle.
Comme vous pouvez le constater, les deux hypothèses ne sont pas traitées de la même façon
lorsqu’on effectue un test d’hypothèses. En effet, lorsqu’on rejette l’hypothèse nulle, on le fait
avec une erreur bien précise. Par exemple, si on a rejeté l’hypothèse nulle parce que la valeur-p
était inférieure à 5%, c’est que nous acceptons que lorsque l’hypothèse nulle est vraie nous la
rejetterons erronément avec une probabilité de 5%. Par contre, lorsqu’on ne rejette pas H0 ,
nous ne sommes pas en mesure de quantifier la probabilité de se tromper en ne la rejetant pas.
Ainsi, si la valeur-p est très petite on rejette l’hypothèse nulle avec une très grande confiance,
sinon nous n’avons pas assez d’évidence à l’encontre de celle-ci pour la rejeter.

Une valeur-p ne mesure pas la probabilité que l’hypothèse étudiée soit vraie ou la probabilité
que les données soient le résultat du hasard seulement

Tel qu’indiqué précédemment, la valeur-p est la probabilité, calculée sous H0 , d’obtenir un

résultat aussi extrême ou encore plus extrême que celui observé. Dans notre exemple, il s’agit de
PH0 (|T | > |tobs |). Il va sans dire que ceci n’est pas P (H0 est vraie), c’est-à-dire la probabilité
que l’hypothèse nulle soit vraie. En fait, ou bien H0 est vraie ou bien elle est fausse. Il n’y
a strictement rien d’aléatoire dans cet énoncé et donc la probabilité, si on souhaitait en
assigner une, est soit 0, soit 1. Donc, bien que plusieurs personnes souhaiteraient avoir une telle
probabilité, ce n’est pas ce que calcule la valeur-p. Ce n’est que dans le cadre de la statistique

80 –Bulletin AMQ, Vol. LVI, no 4, décembre 2016

bayésienne, où les paramètres inconnus sont vus comme des variables aléatoires plutôt que des
valeurs fixes mais inconnues, et où la distribution de ces paramètres est supposée représenter
les connaissances a priori concernant ces paramètres, qu’il pourrait être possible de calculer
une telle probabilité.

Des conclusions scientifiques et des décisions d’affaires ou de politique ne devraient pas

être basées uniquement sur le fait qu’une valeur-p dépasse un seuil donné

L’habitude qui consiste à mécaniquement rejeter H0 si la valeur-p atteint un seuil magique (par
exemple « p < 0, 05 ») et ne pas la rejeter si le seuil n’est pas atteint peut mener à des croyances
erronées et à une mauvaise prise de décision. L’égalité de deux moyennes n’est pas vraie d’un
côté de la frontière et soudainement fausse de l’autre côté. Tel qu’expliqué précédemment, une
valeur-p de 0,049 veut dire qu’on obtiendrait un résultat aussi extrême ou encore plus extrême
que celui observé dans 4,9% des cas où H0 est vraie. En rejetant l’hypothèse d’égalité des deux
moyennes dans ce cas, nous sommes confortables avec le fait de se tromper 4,9% des fois en
rejetant l’égalité des moyennes lorsqu’en fait les moyennes sont égales. Si nous sommes prêts à
le faire lorsqu’on a 4,9% des chances de se tromper, pourquoi ne serions-nous pas prêts à le faire
lorsqu’on aurait 5,1% des chances de se tromper ? Il faut tenir compte du contexte dans lequel
les données ont été recueillies et d’autres facteurs afin de faire une inférence éclairée. Considérer
un résultat « statistiquement significatif » (souvent équivalent à avoir une valeur-p inférieure
à 5%) comme étant une reconnaissance permettant une conclusion scientifique interprétable
comme une vérité peut mener à des distorsions considérables du processus scientifique.

Une inférence adéquate nécessite de la transparence et qu’on fasse pleinement rapport

des différentes étapes

Dans l’exemple qui nous intéresse, j’ai parlé d’une seule mesure de l’impact du traitement sur
la maladie. Il est bien sûr possible que plusieurs mesures de cet impact soient prises et qu’ainsi
plusieurs tests soient effectués. Soit Di l’événement consistant à prendre la décision que la
moyenne des mesures est différente dans les deux traitements pour la mesure i sur la base
que la valeur-p calculée est inférieure à 5%, c’est-à-dire prendre la décision de rejeter H0 pour
cette mesure. Sous l’hypothèse que les deux moyennes soient identiques (H0 est vraie), alors
PH0 (Di ) = 0,05, c’est-à-dire qu’on va erronément décider que les moyennes sont différentes alors
qu’elles ne le sont pas seulement 5% des fois. Mais si nous avons I mesures, que les moyennes
pour les deux traitements sont identiques pour chacune d’entre elles et que nous faisons un
test-t pour chaque mesure, alors la probabilité d’erronément rejeter l’hypothèse de l’égalité des
PI
moyennes pour au moins une des mesures est PH0 (∪Ii=1 Di ) ≤ i=1 PH0 (Di ) = 0,05I. Ainsi le
risque de faire une erreur augmente avec le nombre de tests effectués. Il y a des méthodes pour

Bulletin AMQ, Vol. LVI, no 4, décembre 2016 – 81

tenir compte de la multiplicité des tests. Mais le point crucial pour bien interpréter les résultats
et éviter les problèmes de (non) reproductibilité est d’être transparent quant à tous les tests qui
ont été effectués. Si on ne rapporte que les tests des mesures qui ont été déclarées statistiquement
significatives sans mentionner les autres qui ont été faits mais non rapportés, les résultats vont
sembler plus spectaculaires qu’on ne le pense et les chances diminuent considérablement qu’on
puisse les reproduire dans une autre expérience.

Par exemple, supposons qu’on fasse les I tests-t et qu’on ne rapporte que celui qui mène à la
plus petite valeur-p, celle-ci laissera sous-entendre qu’elle est bien plus significative qu’elle ne
l’est en réalité. Soit ti pour i = 1, . . . , I et soit max l’indice correspondant à la mesure dont
on rejette le plus l’hypothèse d’égalité des moyennes, c’est-à-dire que |tmax | = maxi |ti |. La
valeur-p rapportée est PH0 (|T | > |tmax |) alors que le calcul qui serait approprié pour le fait
qu’on ait choisi la statistique t la plus extrême devrait être PH0 (maxi |Ti | > |tmax |) qui serait
beaucoup plus grande. Ainsi, une valeur-p de 0,03, qui suggérerait qu’il y a une différence entre
les moyennes des deux traitements pour la mesure max, risque d’induire en erreur le lecteur si
on ne mentionne pas qu’on l’a choisie parce que c’était la plus significative parmi I tests. En
réalité, selon la taille de I et d’autres facteurs, les chances sont fortes qu’un calcul approprié
aurait mené à une valeur bien supérieure à 5%, de telle sorte que la conclusion tirée de ce
qui est rapporté risque d’induire les lecteurs en erreur quant à l’importance de l’évidence à
l’encontre d’une égalité des deux traitements.

D’autres décisions prises lors de l’analyse des données pourraient également avoir un impact
sur la force de l’évidence contre l’hypothèse nulle. Par exemple, est-ce que le modèle avait été
choisi avant de regarder les données sur la base d’études ou de connaissances antérieures ou
de considérations théoriques, ou a-t-il été choisi parce que les données l’ont suggéré ? C’est
pourquoi il est important de bien rapporter les différentes étapes de l’analyse statistique qui a
été effectuée.

Une valeur-p ou un résultat statistiquement significatif ne mesure pas une taille d’effet ou
ne reflète pas l’importance du résultat

Lorsque la valeur-p est suffisamment petite, il est très invraisemblable, statistiquement, que
l’hypothèse nulle soit vraie ; dans notre cas que les moyennes des deux traitements soient
identiques. Rappelons que le chercheur souhaite démontrer que µN > µH . Mais en fait, le
chercheur est sans doute intéressé à démontrer que la différence entre les deux traitements est
« suffisamment importante » et non pas seulement une différence inintéressante d’un point de
vue scientifique ou pratique. Pour les fins de la discussion, il est possible qu’étant donné la
différence de coût et d’effets secondaires entre les deux traitements, que toute différence de

82 –Bulletin AMQ, Vol. LVI, no 4, décembre 2016

moins de, disons, 5 unités entre les deux traitements fasse en sorte qu’on ne préférera pas le
nouveau traitement au traitement habituel. Que nous dit alors la petitesse de la valeur-p sur
la taille de la différence entre les deux moyennes ? Si je vous dis que la valeur-p dans cette
étude est de 0,01 alors qu’une autre étude a comparé le même traitement habituel à un second
nouveau traitement et que sa valeur-p est de 0,001, dois-je conclure que la moyenne du second
nouveau traitement est bien supérieure à celle du traitement habituel que ne l’est celle du
(premier) nouveau traitement ? Malheureusement, nous ne sommes pas en mesure de conclure
quoi que ce soit qui irait dans ce sens. Tout ce que l’on peut dire est que nous sommes plus
convaincus que la moyenne du second nouveau traitement diffère du premier que ce n’est le cas
pour le premier nouveau traitement.

La valeur-p sera petite lorsque |tobs | sera grande. Or tobs est la différence entre les deux moyennes
divisée par la racine carrée d’une estimation de sa variance. Ainsi |tobs | sera grande si 1) la
différence entre les deux moyennes est grande ; 2) la variabilité des observations autour de
leur moyenne dans chaque groupe s2c , qui estime la variance σ 2 , est petite ; ou 3) la taille des
échantillons n est grande. Et bien sûr, ça pourrait être une combinaison des trois. Ainsi, pour
une variance σ 2 donnée, même si la moyenne du nouveau traitement µN est très proche mais
différente de µH , en autant que la taille des échantillons soit suffisamment grande, la probabilité
que les données soient incompatibles avec l’hypothèse d’égalité des moyennes sera de plus en
plus grande et tendra vers 1 lorsque n convergera vers l’infini. En d’autres mots, la valeur-p
sera inférieure à, disons, 5% avec une probabilité qui tendra vers 1. Donc, si dans deux études
la variance des observations σ 2 et la différence entre les deux moyennes µ1 − µ2 sont identiques,
si la taille d’échantillon est beaucoup plus grande dans une étude que dans l’autre, la valeur-p
de l’étude plus grande devrait être beaucoup plus petite que celle de la plus petite étude, sans
toutefois que la quantité d’intérêt, soit la différence entre les deux moyennes, soit différente.

La taille d’effet dans notre problème est la différence de moyennes µN − µH . La meilleure

façon de faire de l’inférence sur cette différence est de rapporter un intervalle de confiance
pour celle-ci. Un intervalle de confiance est un intervalle aléatoire tel que la probabilité
qu’il contienne la vraie différence µN − µH est le niveau de l’intervalle de confiance, par
exemple 95%. Pour notre problème, l’intervalle de confiance de niveau 95% serait donné par
p p
[X̄ − Ȳ − t2n−2;0,975 sc 2/n; X̄ − Ȳ + t2n−2;0,975 sc 2/n] où P (T > t2n−2;0,975 ) = 0,025 lorsque
T suit une distribution t à 2n − 2 degrés de liberté. Le centre de l’intervalle est l’estimation
de la différence entre les deux moyennes X̄ − Ȳ . La largeur de l’intervalle de confiance reflète
l’incertitude quant à cette estimation. Ainsi, si l’intervalle est court, la vraie différence entre les
moyennes µN − µH ne sera sans doute pas égale à X̄ − Ȳ , mais elle ne pourra pas en dévier
beaucoup. Par contre, si l’intervalle est large, la vraie différence pourrait être très différente de
celle estimée.

Bulletin AMQ, Vol. LVI, no 4, décembre 2016 – 83

Il est facile de démontrer qu’il y a une équivalence entre une valeur-p du test d’hypothèse
inférieure à 5% et le fait que la valeur 0 soit à l’extérieur de l’intervalle de confiance de niveau
95%. Ainsi, la valeur 0 (pas de différence entre les deux moyennes) sera dans l’intervalle de
confiance de niveau 95% si et seulement si la valeur-p du test est supérieure à 5%. Comme on
peut le constater, le fait d’avoir un résultat statistiquement significatif (au niveau 5%) peut tout
aussi bien être déterminé en calculant une valeur-p qu’en calculant un intervalle de confiance de
niveau 95%. Toutefois, l’avantage de l’intervalle de confiance est indéniable. Non seulement on
sait si le résultat est statistiquement significatif (en regardant si 0 est à l’extérieur de l’intervalle
de confiance ou non), mais en plus l’intervalle de confiance contient les différences de moyennes
compatibles avec les données.

Par exemple, supposons que l’intervalle de confiance est [1; 4]. Comme il ne contient pas la
valeur 0, il y a une différence statistiquement significative au niveau 5% entre les deux moyennes.
Par contre, comme l’intervalle au complet est inférieur à 5 (la différence minimale pour être
intéressante), on conclut que bien que la différence soit statistiquement significative, elle n’est
pas scientifiquement ou cliniquement significative. Si l’intervalle est [6; 25], le résultat est
statistiquement significatif et également cliniquement significatif (puisque la borne inférieure
est supérieure à 5), bien qu’il reste beaucoup d’incertitude quant à la différence entre les
deux moyennes. Si l’intervalle est [4; 6], le résultat est statistiquement significatif, mais il n’est
pas clair que la différence soit vraiment importante. À l’inverse, si l’intervalle est [−2; 15], la
différence entre les deux traitements n’est pas statistiquement significative, mais il reste tellement
d’incertitude que la différence pourrait être importante. Finalement, si l’intervalle est [−2; 4], la
différence n’est pas statistiquement significative et, comme l’incertitude est relativement petite
(la borne supérieure est inférieure à 5), même s’il y a une différence entre les deux moyennes,
celle-ci ne serait pas suffisamment importante pour être cliniquement significative. L’intervalle
de confiance révèle donc beaucoup plus d’information que la valeur-p.

En soi, une valeur-p n’est pas une bonne mesure d’évidence concernant un modèle ou une
hypothèse

En conclusion, les chercheurs doivent comprendre que sans contexte ou sans autre évidence,
l’information contenue dans une valeur-p est limitée. Par exemple, une valeur-p proche de 0,05
n’offre en soi qu’une évidence limitée à l’encontre de l’hypothèse nulle. De la même façon, une
valeur-p relativement grande n’implique pas d’évidence supportant l’hypothèse nulle puisque
plusieurs autres hypothèses pourraient tout aussi bien être cohérentes avec ces données. Par
exemple, si X̄ − Ȳ = 1 et que la valeur-p est supérieure à 0,05 de telle sorte que le résultat
n’est pas statistiquement significatif, alors on ne rejette pas H0 (que les deux moyennes sont
identiques). Mais on rejetterait encore moins l’hypothèse que µN − µH = 1 ! L’analyse des

84 –Bulletin AMQ, Vol. LVI, no 4, décembre 2016

données ne devrait donc pas se terminer par le calcul d’une valeur-p lorsqu’on peut aller plus
loin, comme c’est le cas ici avec un intervalle de confiance.

Le recensement de 2016

Ma dernière chronique a abordé les difficultés reliées au caractère volontaire de l’Enquête

nationale des ménages qui a remplacé le formulaire détaillé du recensement à réponse obligatoire
en 2011, dues à une grande diminution du taux de réponse et de sérieux problèmes de biais.
Le gouvernement Trudeau a ramené le formulaire détaillé obligatoire pour le recensement de
2016 qui s’est déroulé au printemps dernier. Le 29 août 2016, Statistique Canada a annoncé
que les taux de réponse pour le recensement de 2016 étaient les plus élevés jamais enregistrés
au Canada, soit 98,4% pour le formulaire court et 97,8% pour le formulaire détaillé ! Le taux
de réponse de l’Enquête nationale des ménages en 2011 n’était que de 68,9% alors que le taux
pour le formulaire court était de 97,1%. De toute évidence, les méthodologistes de Statistique
Canada n’auront pas à se préoccuper de problèmes de biais comme ils ont eu à le faire en
2011. Et toute la société canadienne bénéficiera de l’amélioration de la qualité de l’information
recueillie.

Références

[1] Dasylva, A., Titus, R.-C. et Thibault, C. (2015). Surdénombrement dans le Recensement
de 2011 au Canada. Recueil du Symposium international sur les questions de méthodologie.
Ottawa : Statistique Canada.
[2] Wasserstein, R. et Lazar, N. (2016). The ASA’s Statement on p-Values : Context, Process,
and Purpose, The American Statistician, Vol. 70, No 2, p. 129–133.

Bulletin AMQ, Vol. LVI, no 4, décembre 2016 – 85

Vous aimerez peut-être aussi

Principes des tests statistiques en recherche
Pas encore d'évaluation
Principes des tests statistiques en recherche
50 pages
Principe Des Tests Statistiques PR M Amine
Pas encore d'évaluation
Principe Des Tests Statistiques PR M Amine
29 pages
Tests de Proportions et Moyennes en Biostatistique
Pas encore d'évaluation
Tests de Proportions et Moyennes en Biostatistique
51 pages
Tests D'hypothèse
Pas encore d'évaluation
Tests D'hypothèse
36 pages
Risque de seconde espèce en statistique
Pas encore d'évaluation
Risque de seconde espèce en statistique
6 pages
Tests statistiques : principes et applications
Pas encore d'évaluation
Tests statistiques : principes et applications
48 pages
Tests d'hypothèses : Méthodes et Exemples
Pas encore d'évaluation
Tests d'hypothèses : Méthodes et Exemples
13 pages
Introduction aux statistiques inférentielles
Pas encore d'évaluation
Introduction aux statistiques inférentielles
13 pages
Tests Statistiques : Risques et Intervalles
Pas encore d'évaluation
Tests Statistiques : Risques et Intervalles
21 pages
Introduction à l'Économétrie Moderne
Pas encore d'évaluation
Introduction à l'Économétrie Moderne
187 pages
Grand Oral Maths
Pas encore d'évaluation
Grand Oral Maths
3 pages
Tests Statistiques et Inférence
Pas encore d'évaluation
Tests Statistiques et Inférence
60 pages
Introduction Aux Tests D'équivalence - Statistiques Et Logiciel R
Pas encore d'évaluation
Introduction Aux Tests D'équivalence - Statistiques Et Logiciel R
14 pages
L2 - Chapitre 4 - Test - 2
Pas encore d'évaluation
L2 - Chapitre 4 - Test - 2
17 pages
Propriétés et Tests de la Loi Normale
Pas encore d'évaluation
Propriétés et Tests de la Loi Normale
30 pages
Chapitre 4-1
Pas encore d'évaluation
Chapitre 4-1
51 pages
Tests d'Hypothèses en Statistique IV
100% (1)
Tests d'Hypothèses en Statistique IV
177 pages
Introduction à l'Économétrie et Estimation
Pas encore d'évaluation
Introduction à l'Économétrie et Estimation
27 pages
Tests d'hypothèses en statistique
Pas encore d'évaluation
Tests d'hypothèses en statistique
13 pages
Principes Des Tests Statistiques Master UCAD 2024
Pas encore d'évaluation
Principes Des Tests Statistiques Master UCAD 2024
23 pages
Tests Statistiques de Comparaison
100% (1)
Tests Statistiques de Comparaison
90 pages
Polycope de Cours Biostatistique
Pas encore d'évaluation
Polycope de Cours Biostatistique
83 pages
STATISTIQUES L2 Cours en Ligne
100% (1)
STATISTIQUES L2 Cours en Ligne
17 pages
Tests d'hypothèse en épidémiologie
Pas encore d'évaluation
Tests d'hypothèse en épidémiologie
9 pages
Vérification d'Hypothèse Statistique
Pas encore d'évaluation
Vérification d'Hypothèse Statistique
24 pages
Analyse statistique des traitements médicaux
Pas encore d'évaluation
Analyse statistique des traitements médicaux
11 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
18 pages
Formulaire
Pas encore d'évaluation
Formulaire
5 pages
Méthodes d'Économétrie en Cours S6
Pas encore d'évaluation
Méthodes d'Économétrie en Cours S6
197 pages
Calcul NSN
Pas encore d'évaluation
Calcul NSN
45 pages
Tests D'hypothèses
Pas encore d'évaluation
Tests D'hypothèses
43 pages
06.les Tests D'hypothese
Pas encore d'évaluation
06.les Tests D'hypothese
56 pages
Statistique Partie 2
Pas encore d'évaluation
Statistique Partie 2
96 pages
Tests d'hypothèses statistiques
Pas encore d'évaluation
Tests d'hypothèses statistiques
19 pages
P4 Cours BIOSTAT S3
Pas encore d'évaluation
P4 Cours BIOSTAT S3
42 pages
Analyse Statistique en Recherche Clinique
Pas encore d'évaluation
Analyse Statistique en Recherche Clinique
26 pages
Niveau de Signification en Statistiques
Pas encore d'évaluation
Niveau de Signification en Statistiques
3 pages
TestsHypotheses 17112020
Pas encore d'évaluation
TestsHypotheses 17112020
15 pages
Test d'hypothèses en statistiques
Pas encore d'évaluation
Test d'hypothèses en statistiques
14 pages
ANOVA et Mesures Répétées en Statistiques
Pas encore d'évaluation
ANOVA et Mesures Répétées en Statistiques
36 pages
Module 8 1
Pas encore d'évaluation
Module 8 1
34 pages
Résumé Cours
Pas encore d'évaluation
Résumé Cours
4 pages
Introduction À L'économétrie Appliquée: Benoit Dostie
Pas encore d'évaluation
Introduction À L'économétrie Appliquée: Benoit Dostie
35 pages
Principes des Tests Statistiques en Santé
Pas encore d'évaluation
Principes des Tests Statistiques en Santé
170 pages
Introduction aux Tests d'Hypothèse
Pas encore d'évaluation
Introduction aux Tests d'Hypothèse
8 pages
Unité 4 Statistique Inférentielle
Pas encore d'évaluation
Unité 4 Statistique Inférentielle
6 pages
Introduction aux Tests d'Hypothèses
Pas encore d'évaluation
Introduction aux Tests d'Hypothèses
41 pages
Tests D'hypothèses
Pas encore d'évaluation
Tests D'hypothèses
19 pages
Février 2015
Pas encore d'évaluation
Février 2015
18 pages
Tests d'hypothèses en statistique
Pas encore d'évaluation
Tests d'hypothèses en statistique
10 pages
principes des tests statistiques et: risque d'erreur α
Pas encore d'évaluation
principes des tests statistiques et: risque d'erreur α
19 pages
Fichier Produit 2525
Pas encore d'évaluation
Fichier Produit 2525
3 pages
Rattrapage Statistique Inférentielle
Pas encore d'évaluation
Rattrapage Statistique Inférentielle
7 pages
Statm1 20231019 1
Pas encore d'évaluation
Statm1 20231019 1
65 pages
MGMT 222 Chap. V-1
Pas encore d'évaluation
MGMT 222 Chap. V-1
30 pages
Tests d'hypothèses en statistiques
Pas encore d'évaluation
Tests d'hypothèses en statistiques
6 pages
Chap4 Tests Statistiques
Pas encore d'évaluation
Chap4 Tests Statistiques
22 pages
Philosant 9008
Pas encore d'évaluation
Philosant 9008
256 pages
Cours - 8 Perceptron SVM
Pas encore d'évaluation
Cours - 8 Perceptron SVM
52 pages
Poly Apprauto FSur
Pas encore d'évaluation
Poly Apprauto FSur
178 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
130 pages
Statistiques essentielles pour thèse médicale
Pas encore d'évaluation
Statistiques essentielles pour thèse médicale
33 pages
Statistique et IA : Liens et Différences
Pas encore d'évaluation
Statistique et IA : Liens et Différences
50 pages
Pfe GC 0296
Pas encore d'évaluation
Pfe GC 0296
88 pages
Chapitre 3 20222023
Pas encore d'évaluation
Chapitre 3 20222023
18 pages
Analyse de la Variance en Statistique
Pas encore d'évaluation
Analyse de la Variance en Statistique
8 pages
Économétrie: Modèles de Régression
Pas encore d'évaluation
Économétrie: Modèles de Régression
3 pages
ECS2-05-Corrigé de La Série D'exercices N°3 - Estimation Paramétrique
100% (1)
ECS2-05-Corrigé de La Série D'exercices N°3 - Estimation Paramétrique
11 pages
Estimation et intervalles de confiance en statistiques
Pas encore d'évaluation
Estimation et intervalles de confiance en statistiques
10 pages
TD Sas25
Pas encore d'évaluation
TD Sas25
3 pages
Presentation Oumar Seydi
Pas encore d'évaluation
Presentation Oumar Seydi
158 pages
Courbes d'étalonnage du Pb2+ en TD#1
Pas encore d'évaluation
Courbes d'étalonnage du Pb2+ en TD#1
5 pages
Concepts Clés en Épidémiologie et Statistiques
Pas encore d'évaluation
Concepts Clés en Épidémiologie et Statistiques
8 pages
Estimation et tests en économétrie
Pas encore d'évaluation
Estimation et tests en économétrie
4 pages
Ds Métho Stat Mars 2024
Pas encore d'évaluation
Ds Métho Stat Mars 2024
4 pages
6 Méthodologie de Box Et Jenkins
Pas encore d'évaluation
6 Méthodologie de Box Et Jenkins
24 pages
Exercices Corrigés de Corrélation et Régression
Pas encore d'évaluation
Exercices Corrigés de Corrélation et Régression
8 pages
Statistiques Terminale : Ajustements Linéaires
Pas encore d'évaluation
Statistiques Terminale : Ajustements Linéaires
17 pages
Statistiques et R : Analyse de sommeil
Pas encore d'évaluation
Statistiques et R : Analyse de sommeil
16 pages
Contrôle Final en Échantillonnage et Estimation
Pas encore d'évaluation
Contrôle Final en Échantillonnage et Estimation
3 pages
Régressions linéaires et logarithmiques Excel
Pas encore d'évaluation
Régressions linéaires et logarithmiques Excel
21 pages
TP 4.a - ANOVA
Pas encore d'évaluation
TP 4.a - ANOVA
17 pages
T-test pour échantillon unique en STAPS
Pas encore d'évaluation
T-test pour échantillon unique en STAPS
10 pages
TP Excel
Pas encore d'évaluation
TP Excel
8 pages
Régression Linéaire Simple Et Multiple
Pas encore d'évaluation
Régression Linéaire Simple Et Multiple
13 pages
Karim Panel
Pas encore d'évaluation
Karim Panel
38 pages
Multiples
Pas encore d'évaluation
Multiples
20 pages
Laboratoire Résolu-Converti
Pas encore d'évaluation
Laboratoire Résolu-Converti
52 pages
Estimation Paramétrique et Estimateurs
Pas encore d'évaluation
Estimation Paramétrique et Estimateurs
125 pages
Statistiques de Survie avec R
Pas encore d'évaluation
Statistiques de Survie avec R
27 pages
Régression Linéaire Simple
100% (1)
Régression Linéaire Simple
19 pages
TD 5
Pas encore d'évaluation
TD 5
3 pages
Série 1 TD Econométrie 3LSG FIN 2021 2020
100% (1)
Série 1 TD Econométrie 3LSG FIN 2021 2020
1 page