Statistique Inférentielle et Tests: Concepts Clés
Statistique Inférentielle et Tests: Concepts Clés
Statistique inférentielle
1) Notions de probabilités
Le communiqué du kangourou
nouvelle tirée du recueil L’éléphant s’évapore
Haruki Murakami
2
Points-clés
● Statistique inférentielle
● Test statistique
Statistique inférentielle
● Tirer des conclusions à l'échelle d'une
population à partir d'informations recueillies
sur un échantillon.
Statistique inférentielle
Dans un fabrique de pain d'épice, le procédé mis en œuvre pour vérifier l’aspect
moelleux du produit fini consiste à plier une tranche et à mesurer l’angle
d’inclinaison nécessaire pour la casser (un tel test est dit destructif). La règle étant
qu’un bon pain d'épice doit avoir un angle de rupture de 50° (valeur fictive) : si
l'angle est inférieur, le pain est trop sec, s'il est supérieur, le pain est trop moelleux.
Statistique inférentielle
●Test statistique : ce qui est observé sur un échantillon permet-il d'invalider une
hypothèse faite sur la population ?
6
1.0
0.4
=1 – 0.5 - 2
N(0,1)
0.4
0.8
0.3
N(1,1)
0.4
0.2
0.1
0.2
0.1
0.0
0.0
-4 -2 0 2 4
k=1 - 2 - 5 - 10 0 1 2 3 4 5
0.0
-3 -2 -1 0 1 2 3
Loi du chi2
Loi de Fisher
1.2
k=1 - 5 - 10 - 20
F(1,1)
1.0
2.0
F(1,5)
0.8
F(5,1)
1.5
0.6
F(5,5)
1.0
F(10,10)
0.4
0.5
0.2
0.0
0.0
La conclusion du test
porte sur les moyennes
théoriques
Observations
Hypothèses nécessaires
à la réalisation du test
Faux positif ?
2 échantillons indépendants tirés de la même population
peuvent conduire à une conclusion erronée
Welch Two Sample t-test
data: matrice[indice, 1:10] and matrice[indice, 11:20]
t = 3.6523, df = 17.61, p-value = 0.001878
alternative hypothesis: true difference in means is not equal to 0
Test statistique
Exemple : Fabrication industrielle de pain d’épice dont l’angle de rupture d’une
tranche doit être de 50°. Des facteurs incontrôlés font que cet angle est aléatoire.
Question : comment décider qu’un lot est conforme ?
H1 Bonne décision
Calculs
Xi N(,2) X N(,2/n)
Données pour les Données simulées avec =5
échantillons de
longueur 3 Données pour les échantillons de longueur 10
Moyennes Moyennes
Ech_1 172 171 166 170 Ech_1 167 162 170 176 167 170 167 169 168 169 169
Ech_2 172 166 179 173 Ech_2 168 171 170 173 155 171 166 168 166 172 168
Ech_3 164 169 165 166 Ech_3 163 175 169 182 170 169 168 173 172 176 172
0 .2
0 .1
0 .0
47 48 49 50 51 52 53
21
=0.18
0 .2
0 .1
0 .0
47 48 49 50 51 52 53
=0.0076
0 .2
0 .1
0 .0
47 48 49 50 51 52 53
23
c = 1.47
0 .3
D e n s ité
0 .2
0 .1
0 .0
47 48 49 50 51 52 53
*
P-value
"The proportion of papers that use p-values is going up over time, and the
Though statisticians have long been pointing out problems with "significance
doping" and "P-dolatory" (the "worship of false significance") journals have
increasingly relied on p-values to determine whether a study should be
published.
"It's this number that looks like you could use it to make a decision that might
otherwise be difficult to make or require a whole lot more effort to make,"
“The p-value was never intended to be a substitute for scientific reasoning,”
Ron Wasserstein, Executive director of the American Statistical Association
P-value
Article qui pourrait être ré-intitulé d'après le premier article cité en "Une
obsession malsaine pour les sondages ruine le journalisme (politique)" ou
d'après le second "Même les sondeurs (ceux que l'on voit à la télé, pas les
"vrais") ne savent pas expliquer facilement les résultats d'un sondage"
Digression
Le Parisien abandonne les sondages politiques pendant la campagne
P-value
● La p-value n’est pas facile à définir simplement :
● Not Even Scientists Can Easily Explain P-values, C. Aschwanden 24/11/2015,
[Link]
P-value et *
Une histoire vraie, retour d’un referee
p-value < 5% *
p-value
Roman de E.L.
JAMES sorti en 2011
There is a reason that the speedometer in your car doesn't just Album de Jean-
read "slow" and "fast" -- Frank Harrell (warning about the use of Jacques Goldman
cutoffs after logistic regression) R-help (February 2011) sorti en 1987
32
P-value (exemple)
Cas 1) : Angle moyen pour 16 tranches : 49.3
Cette valeur n’est pas dans la région critique (![48.53 ;
51.47]), on ne peut pas rejeter H0, la production du jour
est probablement conforme. La p-value associée à la
valeur 49.3 est environ 0.17 ce qui est supérieur au seuil
de 5%. Elle indique qu’en supposant que l’hypothèse
Et le risque β ?
β = P[Accepter H0 // H1 vraie] = P[X [50-c ; 50+c] // =???]
β(45)=4.10-8 β(45)=3.10-5
1 .0
β(46)=3.10-5 β(46)=0.0038
c = 1
β(47)=0.0038 c = 2 β(47)=0.091
0 .8
β(48)=0.091 β(48)=0.5
β(49)=0.496 β(49)=0.91
β(50)=0.818 β(50)=0.99
0 .6
R is q u e B e ta
β(51)=0.496 β(51)=0.91
β(52)=0.091 β(52)=0.5
0 .4
β(53)=0.0038 β(53)=0.091
β(54)=3.10-5 β(54)=0.0038
0 .2
β(55)=4.10-8 β(55)=3.10-5
0 .0
46 48 50 52 54
34
0 .4
Représentation
de la fonction
0 .2
c = 1
c = 2
puissance
0 .0
46 48 50 52 54
35
Représentation graphique de α et β
H0: μ=50 Rappel : pour α=5%, la région critique est ]- ; 48.53] [51.47 ; + [
H1: μ=48 Dans ces conditions, β = 0.24 R> 1- pnorm(48.53,48,0.75)
0 .4
0 .3
D e n s ité
0 .2
0 .1
0 .0
46 48 50 52
36
Représentation graphique de α et β
Variations de α de 0.01 à 0.1
0 .5
00 . 4123. 2 6578241
0 .3
D e n s ité
0 .2
0 .1
0 .0
46 48 50 52
37
Test « significatif »
● Si le test conduit à rejeter H0, le risque de se tromper
(α) est faible. La conclusion en faveur de H1 est
solide. Le test est dit significatif.
Statistical significance
[Link]/wiki/Statistical_hypothesis_testing
It is important to note the difference between accepting the null hypothesis
and simply failing to reject it. The "fail to reject" terminology highlights the
fact that the null hypothesis is assumed to be true from the start of the test; if
Diminuer α et β
Le seul moyen de diminuer simultanément les risques α et β consiste à
augmenter la taille de l'échantillon (ce qui implique une diminution de la
variance de X et donc diminue le recouvrement des 2 courbes). /n2
Représentation graphique de α et β
Variations de la taille de l'échantillon
n 21 2086
1 .0
0 .4
0 .2
0 .0
46 48 50 52
41
Description
Compute power of test, or determine parameters to obtain target power.
Usage
Arguments
n Number of observations (per group)
delta True difference in means
sd Standard deviation
[Link] Significance level (Type I error probability)
power Power of test (1 minus Type II error probability)
type Type of t test alternative One- or two-sided test
strict Use strict interpretation in two-sided case
Details
Exactly one of the parameters n, delta, power, sd, and [Link] must be
passed as NULL, and that parameter is determined from the others.
...
43
n = 22.02110
delta = 1
sd = 1 R> [Link](n = 30, delta = NULL, sig = 0.05 ,power= 0.9)
[Link] = 0.05
power = 0.9
alternative = [Link] n = 30
delta = 0.8511743
NOTE: n is number in *each* group sd = 1
[Link] = 0.05
power = 0.9
En pratique
Garçon Fille
● Données
X 1.31 1.46 1.85 1.58 1.64
x < c(1.31,1.46,1.85,1.58,1.64)
y < c(1.49,1.32,2.01,1.59,1.76,1.86)
[Link](x,y, paired=TRUE)
Erreur dans [Link](x, y) :
les arguments n'ont pas tous la même
taille
Données indépendantes !
STATISTICIAN
X 18 21 16 22 19 24 17 20 23 12
Y 22 25 17 24 18 29 20 23 21 16
?
Le fait d’avoir 2 échantillons de tailles égales est une
condition nécessaire mais pas […]
[…] = suffisante
Ce sont des données appariées
Avant Après
Louise 18 22
Léo 21 25
data: x and y
V = 5, p-value = 0.02428
data: x and y
W = 35, p-value = 0.2716
alternative hypothesis: true location shift is
data: x and y
t = -1.3529, df = 18, p-value = 0.1928
alternative hypothesis: true difference in means
is not equal to 0
95 percent confidence interval: Les 2 tests seraient d’accord pour décider que le
-5.871567 1.271567 décalage n’est pas significatif ou que la différence
sample estimates: des moyennes est nulle. Ce qui serait une
mean of x mean of y conclusion fausse si j’ai des données effectivement
19.2 21.5 appariées (mais ce n’est pas de la faute des tests...)
60
Cas de 2 échantillons
« Comparaison de moyennes »
Le test de Wilcoxon-Mann-Whitney
Exemple : la concentration d'un produit est mesurée sur 2 échantillons indépendants de
taille respective n1=5 et n2=6. Voici les mesures :
Ech 1 : 1.31 1.46 1.85 1.58 1.64
Ech 2 : 1.49 1.32 2.01 1.59 1.76 1.86
1) 1.31 1.32 1.46 1.49 1.58 1.59 1.64 1.76 1.85 1.86 2.01
2) 1 2 3 4 5 6 7 8 9 10 11
3) Somme des rangs en bleu : W = 25 > x<c(1.31,1.46,1.85,1.58,1.64)
> y<c(1.49,1.32,2.01,1.59,1.76,1.86)
> [Link](x,y)
Wilcoxon rank sum test
La p-value obtenue ici (0.4286) indique qu'il n'y a pas data: x and y
de décalage (shift) entre les positions des 2 séries W = 10, pvalue = 0.4286
d'observations. alternative hypothesis: true location
shift is not equal to 0
62
Le test de Student
On considère le même problème que précédemment et on applique un test de Student pour
comparer la moyenne des 2 échantillons même si les conditions d'application sont plus que
discutables.
Formules Sous H0, hypothèse d'égalité
Calculs 1.31 1.49 des moyennes, on a :
1.46 1.32 ̄x − ̄y ∼Student (n +n −2)
1.85 2.01
t = 0.738
> [Link](x,y,[Link]=T)
Two Sample ttest
data: x and y
t = 0.7381, df = 9, pvalue = 0.4792
alternative hypothesis: true difference
Densité de la in means is not equal to 0
loi de Student à 95 percent confidence interval:
9 ddl 0.4213783 0.2140450
sample estimates:
mean of x mean of y
1.568000 1.671667
63
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
64
0 .4
Aire bleue
=
On ne peut pas rejeter
0 .3
p-value
H0, la moyenne est
One Sample t-test
0 .2
probablement nulle.
0 .1
0 .0
t = -0.1175, df = 99, p-value = 0.9067 -3 -2 -1 0 1 2 3
0.6291375 1.0599157
0 .1
sample estimates:
mean of x
0 .0
-5 0 5
7.78 0.8445266
65
30
sample estimates: suppose les 2 variances
20
mean of x mean of y égales. Cela peut être
10
contrôlé par un test de Fisher
-0.01252230 0.84452662
0
d’égalité des variances.
-10
Dans le cas ci-contre, la
comparaison des moyennes
-20
On rejette H0, les 2 moyennes sont très n’a pas vraiment de sens. x y
probablement différentes.
3
t = 0.5464, df = 98, p-value = 0.586
2
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
1
-0.1428544 0.2488346
0
sample estimates: cor = 0.05511005
0.3206572 0.6233025
-2
-3 -2 -1 0 1
3
data: x and z2
t = 22.3231, df = 98, p-value < 2.2e-16
2
alternative hypothesis: true correlation is not equal to 0
1
z
95 percent confidence interval:
0
0.8748002 0.9415099
-1
sample estimates: cor = 0.914144
-2
-3
-2 -1 0 1 2 3
x
68
X1 X2
genotype 2.44e-10 *** genotype 1
treatment 5.17e-15 *** treatment 7.42e-13 ***
genotype:treatment 0.835 genotype:treatment 1
Planification expérimentale
2 conditions à l'étude : Contrôle / Traitement
Jour 1
*
Effet
traitement !
Effet jour ? Jour 2
Randomisation
To call in the statistician after the experiment is done
may be no more than asking him to perform a post-
mortem examination: he may be able to say what the
experiment died of.
R.A. Fisher
Conclusion
Lorsqu’on invoque les mathématiques pour garantir des résultats qui ne dépendent
que des choix faits au départ, on trompe le lecteur et d’une certaine façon, on
contraint cette discipline scientifique à blanchir des hypothèses douteuses. Les
mathématiques sont alors prises en otage, ni plus ni moins. […] L’outil mathématique
fait son travail, que l’hypothèse soit plausible ou non, qu’elle soit légitime ou non. En
aucun cas, il n’assume la garantie des hypothèses sur lesquelles on le fait travailler.
Un outil reste un outil.