0% ont trouvé ce document utile (0 vote)
37 vues12 pages

Poly

Ce document traite des tests d'hypothèses à travers une approche expérimentale des probabilités, en se concentrant sur l'estimation de paramètres tels que la moyenne et la variance à partir d'échantillons. Il aborde les cadres d'estimation à un et deux échantillons, ainsi que les méthodes de comparaison de moyennes et de variances. Enfin, il présente une rédaction standard pour les tests d'hypothèses paramétriques, incluant les hypothèses de test et les règles de décision.

Transféré par

adrien29042005
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
37 vues12 pages

Poly

Ce document traite des tests d'hypothèses à travers une approche expérimentale des probabilités, en se concentrant sur l'estimation de paramètres tels que la moyenne et la variance à partir d'échantillons. Il aborde les cadres d'estimation à un et deux échantillons, ainsi que les méthodes de comparaison de moyennes et de variances. Enfin, il présente une rédaction standard pour les tests d'hypothèses paramétriques, incluant les hypothèses de test et les règles de décision.

Transféré par

adrien29042005
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Tests d’hypothèses via une Approche Expérimentale des

Probabilités
CQLS : cqls@[Link]
[Link]

1 Introduction et généralités
1.1 Cadre d’estimation à un échantillon
Dans ce cadre, tout problème pratique doit se ramener à l’étude d’une unique variable d’intérêt
notée ici Y (pouvant aussi être vue comme une future unique donnée). En pratique, nous disposerons
d’un jeu de n données y = (y1 , . . . , yn ) (i.e. un vecteur ou “paquet” de n observations “indépendantes”
de Y ) qui peut par conséquent être vu comme un résultat possible d’un futur jeu de n données
Y = (Y1 , . . . , Yn ). Afin d’expliciter le paramètre d’intérêt intimement lié dans les problématiques
du cours à la variable d’intérêt Y , nous imaginerons disposer d’une infinité de données virtuelles
y[1] , . . . , y[m] , . . . dont la notation en indice entre crochet (i.e. “[·] ”) nous rappelle qu’il ne faut pas les
confondre avec le jeu des n données y1 , . . . , yn qui seront bien réelles. Rappelons aussi que dans ce
cours les tailles n des données réelles et m des données virtuelles ont a priori des ordres de grandeur
complètement différents, à savoir n plutôt raisonnablement grand et m aussi grand que possible voire
infini.

1.1.1 Paramètres proportion et moyenne


La moyenne notée µY ou plus simplement µ (plutôt appelée espérance de Y dans l’Approche
Mathématique des Probabilités et notée E(Y )) s’exprime via l’Approche Expérimentale des Probabilités
par :
m
 1 X 
y[·] m = y[k] ' y[·] ∞ = µY = E (Y ) .
m
k=1
Soulignons toutefois que si les données sont exclusivement à valeurs 0 ou 1, la moyenne devient
une proportion (ou probabilité) et sera notée p plutôt que µ. Rappelons qu’une future estimation
n
1X
µc
Y (Y ) de µY est tout simplement Y n = Yi (notée aussi Y ).
n i=1

1.1.2 Paramètre variance


La variance notée σ 2Y ou plus simplement σ 2 (conservant la même dénomination dans l’A.M.P.
et notée Var(Y )) s’exprime via l’A.E.P. par :
←−→ 2 m
1 X  2 ←−→ 2
y[·] m = y[k] − y[·] m ' y[·] ∞ = σ 2Y = Var (Y ) = σ(Y )2 .
m
k=1
Dans le cadre de grands échantillons (voir plus loin), il est plus qu’intéressant de noter que
la variance est aussi une moyenne. En effet, nous pouvons écrire σ 2Y = µŸ puisque Var(Y ) =
E((Y − µY )2 ) = E(Ÿ ) où Ÿ = (Y − µY )2 est le carré de la variable aléatoire Y préalablement
centrée. Le vecteur des futures données ((Y1 − µY )2 , . . . , (Yn − µY )2 ) étant inaccessible puisque µY
2 2
est inconnu,   le remplacerons par Ÿ = ((Y1 − Y ) , . . . , (Yn − Y ) ). Ainsi, nous pourrions aussi
nous
proposer µc
Ÿ Ÿ comme future estimation de σ 2Y = µŸ (plutôt lorsque la taille n des données sera
suffisamment grande).

1
1.2 Cadre d’estimation à deux échantillons (indépendants)
ll y a dans ce cadre deux variables d’intérêts Y (1) et Y (2) (“indépendantes”) dont on cherche soit
(1) (1)
à comparer les moyennes soit les variances à partir de deux échantillons, l’un y(1) = (y1 , . . . , yn(1) )
(2) (2)
de taille n(1) et l’autre y(2) = (y1 , . . . , yn(2) ) de taille n(2) . Il en découle deux futurs jeux de données
(1) (1) (2) (2)
Y(1) = et Y(2) =
(Y1 , . . . , Yn(1) ) (Y1 , . . . , Yn(2) ).
Pour homogénéiser ce cas avec celui à un seul
échantillon, nous noterons Y, le vecteur aggrégé de toutes les futures données Y = (Y(1) , Y(2) ) de
taille n = n(1) + n(2) . De manière analogue au cas d’un seul échantillon, nous imaginons disposer de
(1) (1) (2) (2)
deux infinités de données virtuelles, l’une y[1] , . . . , y[m] , . . . relative à Y (1) et l’autre y[1] , . . . , y[m] , . . .
relative à Y (2) . Pour j = 1 ou j = 2, on peut alors exprimer :
   
(j) (j)
— la moyenne µY (j) ou plus simplement µ(j) par y[·] ' y[·] = µ(j) .
m ∞
←−−→
 ←−−→
 2   2
(j) (j)
— la variance σ 2Y (j) ou plus simplement σ 2(j) définie par y[·] m ' y[·] ∞ = σ 2(j)

Nous sommes alors en mesure d’introduire les paramètres servant à comparer respectivement les
moyennes et les variances.
— comparaison de moyennes s’étudiant soit à partir de la différence de moyennes dµ =
µ(1) − µ(2) soit à partir du rapport de moyennes rµ = µ(1) /µ(2) (si µ(2) 6= 0).
— comparaison de variances s’étudiant soit à partir de la différence de variances dσ2 =
σ 2(1) − σ 2(2) soit à partir du rapport de variances rσ2 = σ 2(1) /σ 2(2) (si σ 2(2) 6= 0).
Insistons sur le fait que les utilisations d’une différence ou d’un rapport ne sont pas anodines puis-
qu’elles permettent de traiter des assertions d’intérêt différentes.

1.3 Les deux cadres usuels : asymptotique et gaussien


→ Cadre asymptotique ou grand(s) échantillon(s) : par grand échantillon, on entend dans
ce cours une taille de données n ≥ 30 pour le cas un seul échantillon et des tailles n(1) ≥ 30 et
n(2) ≥ 30 pour celui de deux échantillons.
→ Cadre gaussien : si une variable d’intérêt est supposée suivre une loi Normale on dit que
l’échantillon associé est gaussien. Ce cadre d’étude n’est a priori intéressant que s’il est pos-
sible de vérifier (éventuellement à partir d’un outil statistique) cette hypothèse de Normalité
de la variable d’intérêt. Alors qu’il faudrait disposer d’un grand échantillon pour cette vérifica-
tion, l’usage dans la littérature statistique est d’utiliser ce cadre d’étude même pour des petits
échantillons. Les résultats reposent alors sur la validité de l’a priori que la variable d’intérêt
suit une loi Normale. Cependant, certains phénomènes étudiés peuvent laisser penser que cette
hypothèse sur la (ou les) variable(s) d’intérêt ne doit pas être aberrante.

1.4 Comparaison entre A.M.P., A.E.P. et Pratique


Dans le tableau suivant, le jour J désigne le jour où les données sont réellement récoltées (Indic :
voir fin de document pour les différentes notations).

2
Avant le jour J
(θ fixé éventuellement à une valeur arbitraire pour l’expérimentation)
Mathématique Y  Y θ(Y ) ou Θ
b b t(Y ) ou T

 y [1]
y[1] .. θ(y[1] ) ou b
θ[1] t(y[1] ) ou t[1]
.
b

y

 [n]

 y[n+1]
Expérimental y[2] .. θ(y[2] ) ou b
θ[2] t(y[2] ) ou t[2]
.
b

y[2n]

.. .. .. ..
.  . . .
 y[(m−1)×n+1]

y[m] .. θ(y[m] ) ou bθ[m] t(y[m] ) ou t[m]
.
b

y[m×n]

.. .. .. ..
. . . .
       
Moyenne = µ := y[·] ∞ = E (Y ) bθ y[·] =E b θ (Y ) t(y [·] ) = E (t(Y ))
∞ ∞

←−−−−−→
 
←−→ σbθ := bθ y[·] ∞ ←
 −−−−→
σ := y[·] ∞ 
Ecart-Type = t(y [·] ) ∞ = σ(t(Y ))
= σ(Y ) = σ(b
θ (Y ))
r p
= Var (t(Y ))
p  
= Var (Y ) = Var b θ (Y )

    
θ y[·] ∈ [a, b[

Proportion dans [a, b[ = y[·] ∈ [a, b[ ∞ b t(y [·] ) ∈ [a, b[
∞ ∞
P ∈ [a, b[)
= P(Y = P(
Pb θ (Y ) ∈ [a, b[) = P(t(Y
P ) ∈ [a, b[)
Histogramme à pas “zéro” = fY fbθ(Y ) ou fΘ b ft(Y ) ou fT
1 1 1
Surface brique (m fini) = mn m m
Après le jour J
(θest égal à θ• qui est toujours inconnu)

 y1
Pratique y .. θ(y) ou b
θ t(y) ou t
.
b

yn

Le jour J (θ = θ• ), si on essaye d’associer des temps de conjugaison aux différents concepts, nous
pouvons dire :
→ le jeu de données réel y représente le présent.
→ le jeu de données aléatoire Y représente le futur (on pourra alors aussi l’appeler futur jeu
de données)
→ les jeux de données virtuels y[j] représentent le conditionnel (ils représentent une infinité
de jeux de données que l’on aurait pu avoir à la place de y)

3
2 Test d’hypothèses
De manière générale, la rédaction standard d’un test d’hypothèses s’écrit toujours de la même
façon. Elle est décrite ci-dessous pour un paramètre θ qui devra être remplacé par p pour une pro-
portion, µ pour une moyenne, σ 2 pour une variance, dµ (resp. rµ ) pour une différence (resp. rapport)
de moyennes et enfin dσ2 (resp. rσ2 ) pour une différence (resp. rapport) de variances. La valeur de
référence θ0 et la loi L0 devront être adaptée selon la problématique.

Rédaction standard d’un test d’hypothèses paramétrique


Hypothèses de test :

 θ > θ0 (cas (a) : test unilatéral droit)
H0 : θ = θ0 contre H1 : θ < θ0 (cas (b) : test unilatéral gauche)
θ 6= θ0 (cas (c) : test bilatéral)

Statistique de test sous H0 :


θ,θ 0 (Y ) ; L0
δd
où L0 est une loi standard à préciser (selon la problématique envisagée).

Règle de décision
 :


 p − valeur < α
ou de manière équivalente




  +
on accepte H1 si  δ θ,θ0 (y) > δ lim,α (a)
 d
 −



 δdθ,θ 0 (y) < δ lim,α (b)
  δd (y) < δ −
 +
lim,α/2 ou δ θ,θ 0 (y) > δ lim,α/2 (c)

θ,θ 0
 d

où δ − +
lim,α = qα et δ lim,α = q1−α désignent respectivement les quantiles d’ordre α et 1 − α associés
à la loi L0 et où la p−valeur est définie mathématiquement par :
  
 Pθ=θ0 δ θ,θ0 (Y ) > δ θ,θ0 (y) (a) : p-valeur droite

 d d
p-valeur =
 Pθ=θ0 δ θ,θ0 (Y ) < δ θ,θ0 (y) (b) : p-valeur gauche
d d

θ,θ 0 (Y )<δ θ,θ 0 (y )),Pθ=θ 0 (δ θ,θ 0 (Y )>δ θ,θ 0 (y )))
2×min(Pθ=θ0 (δd (c) : p-valeur bilatérale
 d d d

Conclusion : Application de la règle de décision au vu des données y.

Propriétés :

1. La somme des p-valeur gauche et p-valeur droite est égale à 1


2. La p-valeur bilatérale est égale à deux fois la plus petite des p-valeurs gauche
et droite

Tableaux récapitulatifs :
Il sera aussi supposé que les données ont été saisies dans le logiciel R soit sous le nom y (pour un
unique échantillon) soit sous les noms y1 et y2 (pour deux échantillons indépendants).

4
θ θ (Y )
b θ (y) en R
b σ
cbθ (Y ) σ
cbθ (y) en R
n
rσbθ r
1X p(1 − p) pb (Y ) (1 − pb (Y ))
p pb (Y ) = Y = Yi mean(y) σ pb = seMean(y)
n i=1 n n
s
n
r
1X σ2 σ
c2 (Y )
µ µ
b (Y ) = Y = Yi mean(y) σ µb = seMean(y)
n i=1 n n
v  
s u
n u σc 2
1 X σ 2Ÿ t Ÿ Ÿ
σ2 σ
c2 (Y ) = (Yi − Y )2 var(y) σ σc2 = seVar(y)
n − 1 i=1 n n
s s
(1) (2)
2 2
 2

σ (1) σ 2(2) σd
(1) Y σd
(2) Y
 σ dcµ = + + seDMean(y1,y2)
dµ = µ(1) −µ(2) d(1) Y (1) − µ(2) Y (2) mean(y1)-mean(y2) n(1) n(2) n(1) n(2)
 d
µ (Y ) = µ
dc    
(1) 2 (1) (2) 2 (2)
(n −1)σd (1)
Y +(n −1)σd (2)
Y
Cas Gaussien et σ 2(1) = σ 2(2) = σ 2 : σ c2 (Y ) =
n(1) +n(2) −2
seDMeanG(y1,y2)
v    
s u
2 (1) 2 (2)
σ 2Ÿ (1) σ 2Ÿ (2)
u σ[
t Ÿ (1) Ÿ σ[ Ÿ (2)

(1)
2

d d var(y1)-var(y2) + seDVar(y1,y2)
 d
dσ2 = σ 2(1) −σ 2(2) d σ 2 (Y ) = σ (1) Y − σ 2(2) Y (2) σ dd2 = + (2)
σ n(1) n n(1) n(2)
s s    
 2 (1) 2
µ(1) µd(1) Y (1)
1 σ 2(1) σ 2(2) σd(1)
Y σd (2)
Y (2)
1 2
rµ = rbµ (Y ) =  mean(y1)/mean(y2) σ rcµ = (2) + rµ2 × (2)  
n(1)
+ rbµ (Y ) × n(2)
seRMean(y1,y2)
µ(2) µd(2) Y (2) µ n(1) n µd
(2) Y (2)

s s    
(1) 2 2
2

σd \
σ Ÿ (1) \
σ Ÿ (1)
σ 2(1) (1) Y 1 σ 2Ÿ (1) σ 2Ÿ (2) Ÿ (1) 2 Ÿ (1)
rσ2 = σ 2 (Y ) = var(y1)/var(y2) = 2 1  σ 2 (Y ) seRVar(y1,y2)
σ2 n(1) n(1)
rc σ rd +rσ2 2 (2) + rc
(2) 2
2

σ 2(2) σd σ (2) n(1) n σd(2)
Y (2)
(2) Y

5
Cadre Asymptotique Cadre Gaussien
θ θ0 σbθ sous H0
r δ θ,θ0 = (θ − θ0 )/σbθ δd
θ,θ 0 (Y ) et sa loi sous H0 δ θ,θ0 δd
θ,θ 0 (Y ) et sa loi sous H0
p0 (1 − p0 ) p − p0 pb (Y ) − p0 approx.
p p0 δ p,p0 = q δd
p,p0 (Y ) = q ; N (0, 1)
n p0 (1−p0 ) p0 (1−p0 )
n n
µ − µ0 µ
b (Y ) − µ0 approx. µ − µ0 µ
b (Y ) − µ0
µ µ0 σ µb δ µ,µ0 = δ[µ,µ0 (Y ) = ; N (0, 1) δ µ,µ0 = δ[µ,µ0 (Y ) = ; St(n − 1)
σ µb σcµb (Y ) σ µb σcµb (Y )
σ 2 − σ 20 σc2 (Y ) − σ 2 approx.
0 σ2 σ
c2 (Y )
σ2 σ 20 σ σc2 δ σ2 ,σ20 = δ\ σ 2 ,σ 20 (Y ) = ; N (0, 1) δ σ2 ,σ20 = (n − 1) 2 δ\
σ 2 ,σ 20 (Y ) = (n − 1) ; χ2 (n − 1)
σ σc2 σd σ
c2 (Y ) σ0 σ 20
dµ − d0 dcµ (Y ) − d0 approx. dµ − d0 d
c µ (Y )−d0
dµ = µ(1) −µ(2) d0 σ dcµ δ dµ ,d0 = δ\ dµ ,d0 (Y ) = ; N (0, 1) δ dµ ,d0 = δ\ ; St(n(1) +n(2) −2)
σ d
(Y )
dµ ,d0 (Y ) = σd Y
d
d µ
( )
µ
σ dcµ d c σ dcµ
dσ2 − d0 d
d σ 2 (Y ) − d0 approx.
dσ2 = σ 2(1) −σ 2(2) d0 σ dd2 δ dσ2 ,d0 = δ\ dσ2 ,d0 (Y ) = ; N (0, 1)
σ (Y )
2
σ dd2 σddd
σ σ
µ(1) rµ − r0 rbµ (Y ) − r0 approx.
rµ = (2) r0 σ rcµ δ rµ ,r0 = δ\rµ ,r0 (Y ) = ; N (0, 1)
µ σ rcµ σ
d rcµ
(Y )
σ 2(1) rσ2 − r0 rcσ 2 (Y ) − r0 approx. rσ2 σ 2 (Y )
rc
rσ2 = 2 r0 σ2
σ rd δ rσ2 ,r0 = δ\rσ2 ,r0 (Y ) = ; N (0, 1) δ rσ2 ,r0 = δ\
rσ2 ,r0 (Y ) = ; F(n(1) − 1, n(2) − 1)
σ (2) σ rdσ2
σdrdσ2
(Y ) r0 r0
3 Intervalle de confiance
3.1 Généralités
Le concept d’intervalle de confiance d’un paramètre quelconque θ consiste à proposer
h un encadre-i
ment (ou une “fourchette”) représenté par un intervalle de variables aléatoires e θinf (Y ) , e
θsup (Y )
de sorte que le paramètre d’intérêt θ inconnu ait un niveau de confiance 1 − α (plutôt élevé si α
raisonnablement petit) d’être à l’intérieur de cet intervalle. Mathématiquement cela s’exprime par :
 h i
P θ∈ e θsup (Y ) = 1 − α
θinf (Y ) , e

Par l’approche expérimentale, si hnous pouvions imaginer répéter autant de fois que ipossible la
 i h  
conception d’intervalles de confiance e θinf y[1] , e
θsup y[1] , . . . , eθinf y[m] , e θsup y[m] , . . . obte-
nus respectivement sur une infinité de jeux de données virtuels y[1] , . . . , y[m] , . . ., nous constaterions
alors qu’il n’y en aurait qu’une proportion 1 − α qui contiendraient le paramètre d’intérêt θ inconnu.
La construction de ces intervalles dépend en général de la caractérisation du comportement aléatoire
de la mesure d’écart standardisée δbθ,θ (Y) proposée dans toutes les problématiques dans le tableau
suivant :

Cadre Asymptotique Cadre Gaussien


θ δbθ,θ (Y ) δbθ,θ (Y )
pb (Y ) − p approx.
p δ pb,p (Y ) = ; N (0, 1)
σ
cpb (Y )
b (Y ) − µ approx.
µ b (Y ) − µ
µ
µ δ µb,µ (Y ) = ; N (0, 1) δ µb,µ (Y ) = ; St(n − 1)
σcµb (Y ) σcµb (Y )
σc2 (Y ) − σ 2 approx. c2 (Y )
σ
σ2 δ σc2 ,σ2 (Y ) = ; N (0, 1) δ σc2 ,σ2 (Y ) = (n − 1) ; χ2 (n − 1)
σ
d c2 (Y )
σ
σ2
dc µ (Y ) − dµ approx. dc
µ (Y )−dµ
dµ = µ(1) −µ(2) δ dcµ ,dµ (Y ) = ; N (0, 1) δ dcµ ,dµ (Y ) = ; St(n(1) +n(2) −2)
σddcµ
(Y ) σ
d dµ
c (Y )
d2 (Y ) − dσ2 approx.
d
dσ2 = σ 2(1) −σ 2(2) δ dd2 ,d 2 (Y ) = σ ; N (0, 1)
σ σ σddd 2
(Y )
σ
µ(1) rbµ (Y ) − rµ approx.
rµ = (2) δ rcµ ,rµ (Y ) = ; N (0, 1)
µ σ
d rcµ
(Y )
σ 2(1) rc2 (Y ) − rσ2 approx. rc
σ 2 (Y )
rσ2 = 2 δ rd
σ 2 ,rσ 2
(Y ) = σ ; N (0, 1) δ rd
σ 2 ,rσ 2
(Y ) = ; F(n(1) − 1, n(2) − 1)
σ (2) σd rd
σ2
(Y ) rσ2

3.2 Cadre asymptotique


Tous les intervalles de confiance relatifs à toutes les problématiques du cours s’obtiennent dans
le cadre de grands échantillons par la même méthode. Après substitution du paramètre d’intérêt
de votre problématique (au choix parmi p, µ, σ 2 , dµ , dσ2 , rµ et rσ2 ) notée ici de manière générale θ,
nous allons naturellement utiliser la caractérisation du comportement aléatoire de l’écart entre b θ (Y )
et θ exprimée via la mesure d’écart standardisée δbθ,θ (Y ) suivant approximativement une loi Normale
N (0, 1). Très facilement, nous pouvons affirmer que :
   
1 − α ' P δbθ,θ (Y ) < δ + lim, α =P bθ (Y ) − δ +
lim, α × σ θ (Y ) + δ +
cbθ (Y ) < θ < b lim, α × σ
cbθ (Y )
2
| {z 2 } | {z 2 }
θ inf (Y )
e θ sup (Y )
e

où δ +
lim, α est le quantile d’ordre 1 −
α
2 de la loi N (0, 1)
2

3.3 Cadre gaussien


Pour construire un intervalle de confiance dans un cadre gaussien du paramètre θ (au choix µ,
σ 2 , dµ ou rσ2 ), nous allons naturellement utiliser la caractérisation du comportement aléatoire de

6
l’écart entre b
θ (Y ) et θ exprimée via la mesure d’écart standardisée δbθ,θ (Y ). Il s’agit alors de trouver
θinf (Y ) et θsup (Y ) tels que
e e
   
1−α = P e θinf (Y ) < θ < e
θsup (Y ) en utilisant le fait que 1−α = P q α2 < δbθ,θ (Y ) < q1− α2

où q1− α2 est le quantile d’ordre 1 − α2 de la loi de la mesure d’écart standardisée δbθ,θ (Y ). L’exercice
est plus difficile que dans le cadre asymptotique d’une part parce que la mesure d’écart standardisée
δbθ,θ (Y ) (θ étant au choix µ, σ 2 , dµ ou rσ2 ) ne se décline pas toujours sur le même schéma de
construction et d’autre part parce que la loi de δbθ,θ (Y ) n’est plus une loi Normale standard. Sans
trop nous attarder, voici les différents intervalles de confiance pour les différents choix de θ :
• θ=µ:
s s
c2 (Y )
σ c2 (Y )
σ
µ b (Y ) − q1− α2 ×
einf (Y ) = µ et µesup (Y ) = µb (Y ) + q1− α2 ×
n n
α
où q1− α2 est le quantile d’ordre 1 − 2 de la loi St(n − 1).
2
• θ=σ :
σ c2 (Y ) × n − 1
f2 inf (Y ) = σ et c2 (Y ) × n − 1
f2 sup (Y ) = σ
σ
q1− α2 q α2
α α
où q1− α2 (resp. q α2 ) est le quantile d’ordre 1 − 2 (resp. 2) de la loi χ2 (n − 1).
• θ = dµ : s  
c2 (Y ) 1 1
µ inf (Y ) = dµ (Y ) − q1− α
df × σ + (2)
c
2
n(1) n
et s  
c2 (Y ) 1 1
df
µ sup (Y ) = dµ (Y ) + q1− α
c × σ + (2)
2
n(1) n

où q1− α2 est le quantile d’ordre 1 − α2 de la loi St(n(1) + n(2) − 2). La quantité σ c2 (Y ) est définie
comme dans le tableau récapitulatif des tests d’hypothèses (partie cadre gaussien).
• θ = rσ2 :
1 1
rf σ 2 (Y ) ×
σ 2 inf (Y ) = rc et rf σ 2 sup (Y ) = rcσ 2 (Y ) ×
q1− α2 q α2
où q1− α2 (resp. q α2 ) est le quantile d’ordre 1 − α2 (resp. α2 ) de la loi F n(1) − 1, n(2) − 1 .


4 Langage mathématique et Systèmes de notation


— Dans ce cours, deux systèmes de notation sont utilisés pour décrire des expressions mathéma-
tiques dédiées à la statistique. Le premier, appelé Norme CQLS (ou Norme CQLS Standard )
consiste en un système de notation riche (et peut-être un peu lourde) dont le principal avan-
tage est qu’il est taillé sur mesure pour être traduisible dans le langage littéral. Le deuxième
système, appelé Norme SSE (ou Norme CQLS Simplifié), a pour vocation à être Simple,
Synthétique et Explicite (ou du moins le plus possible). Il demande cependant dans son uti-
lisation un meilleur niveau d’expertise essentiellement dû au fait que sa traduction dans le
langage littéral est moins explicite que celle pour la Norme CQLS.
— Notre conseil est de commencer par l’utilisation de la Norme CQLS pour, au fur et à mesure
du cours, passer à la Norme SSE.
— Conventions communes aux deux Normes CQLS et SSE :
1. Majuscule versus Minuscule : une variable aléatoire (ou susceptible de l’être) est notée en
majuscule quand une variable dont on sait qu’elle est déterministe (i.e. non aléatoire) est
noté en minuscule.
2. Le Chapeau au dessus d’une quantité (par exemple, b θ) désigne généralement un remplaçant
appelé plus communément estimation dans le cas où la quantité est un paramètre (ici θ).
3. Un vecteur est noté en caractères gras.
Remarque : une expression écrite sur un document imprimé en caractères gras (ex :
“expression en gras”) est subtituée sur un tableau ou sur une feuille papier par sa version
soulignée (ex : “expression en gras”).

7
4. “Delta” (δ en minuscule et ∆ en majuscule) est utilisé pour désigner un écart le plus souvent
additif (i.e. une soustraction) mais parfois multiplicatif (i.e. une division).
— La Norme CQLS a été introduite pour décrire le plus précisément possible l’Approche Ex-
périmentale des Probabilités (A.E.P.). L’A.E.P. s’articulant sur une distinction des différents
jeux de données, la Norme CQLS repose sur la convention suivante : Toute statistique (i.e.
v.a. dépendant d’un jeu de données) s’écrit comme une fonction du jeu de données.
— Il n’y a pas vraiment de convention propre à la Norme SSE. Son objectif est cependant de ne
pas respecter la convention spécifique (ci-dessus) à la Norme CQLS dans le but de rendre plus
synthétique les notations mathématiques.
— Le tableau ci-dessous exprime plus clairement la spécificité des Normes CQLS et SSE en
proposant les principales expressions utilisées en statistique dans les 2 normes.
Statistique Aléatoire ou futur Réalisé ou présent Réalisable ou conditionnel
(v.a. fonction de l’échantillon) CQLS SSE CQLS SSE CQLS SSE
• •
 
• • • •
Estimation de θ θ (Y )
b Θb θ (y)
b θ
b θ y [k]
b θ[k]
b
 
Estimation de p• pb• (Y ) Pb• pb• (y) pb• pb• y [k] pb•[k]
 
Estimation de µ• c• (Y )
µ Mc• c• (y)
µ b•
µ c• y [k]
µ b•[k]
µ
 
Estimation de σ 2• c2 (Y )
σ • Σb2

c2 (y)
σ • b2•
σ c2 y
σ • b2•,[k]
σ
 [k] 
Erreur standard de θb• σ
d θc• (Y ) Σ
b θ• σ
d θc• (y) σ
bθ• σ
d θ
c • y [k] σ
bθ• ,[k]
Ecart entre θb• et θ• δ θc• ,θ• (Y ) ∆θ • δ θc• ,θ• (y) δ θ• δ θc• ,θ• (y [k] ) δ θ• ,[k]
 
Estimation de δ θ• ,θ0 (ou δ θ0 ) δ\θ • ,θ 0 (Y ) ∆

0
δ\θ • ,θ 0 (y)
bδ θ0 δ\
θ • ,θ 0 y [k] δ θ0 ,[k]
b

— Le tableau ci-dessous illustre comment convertir une notation en sa définition littérale ou ma-
thématique pour des concepts de base de la statistique. La conversion dans le langage R y est
aussi proposée permettant à l’utilisateur de savoir comment obtenir ces quantités en Pratique :
Notation Définition littérale Définition mathématique
y Vecteur des réels y1 , · · · , yn (y1 , · · · , yn )
ou (y· )n (yi est la ième composante de y) (en R : y <- c(y1 ,· · · ,yn ))
R
#(y) Nombre de composantes de y n = length(y)
n
1X R
y ou (y· )n Moyenne (empirique) de y yi = mean(y)
n i=1
n
y=a Proportion des y1 , · · · , yn 1X R
ou (y· = a)n égaux à a 1yi =a = mean(y==a)
n i=1
n
a≤y≤b Proportion des y1 , · · · , yn 1X R
ou (a ≤ y· ≤ b)n dans [a, b] avec (a ≤ b) 1[a,b] (yi ) = mean(a<= y & y<= b)
n i=1
v
u n

→ ←−→ u 1 X R
y ou (y· )n Ecart-type (empirique) de y t (yi − y)2 = sd(y)
n − 1 i=1
n
←−→2 1 X
(←
→ R
y )2 ou (y· )n Variance (empirique) de y (yi − y)2 = var(y)
n − 1 i=1
y +y
qα (y) Quantile d’ordre α de y y[αn]+1 (n impair) et [αn]+1 2 [αn]+1 (n pair)
 R
ou qα (y· )n (0 < α < 1) = quantile(y,alpha)

5 Quelques instructions R
Instructions de base par l’exemple : des exemples (commentés) valent (peut-être) mieux que de
longs discours !

1 > c(-1,1) # Création du vecteur (-1,1)


2 [1] -1 1
3 > 4+2*c(-1,0,1) # Transformation 4+2*x appliqué pour chaque composante de y
4 [1] 2 4 6
5 > y<-c(1,3,2,4,7,6)

8
6 > y
7 [1] 1 3 2 4 7 6
8 > 4+2*y
9 [1] 6 10 8 12 18 16
10 > mean(y) # Moyenne de y
11 [1] 3.833333
12 > sd(y) # Ecart-type de y
13 [1] 2.316607
14 > yc <- y-mean(y) # yc correspond au vecteur y centré
15 > yc
16 [1] -2.8333333 -0.8333333 -1.8333333 0.1666667 3.1666667 2.1666667
17 > mean(yc) # Moyenne nulle
18 [1] -1.480297e-16
19 > sd(yc) # Idem que l’écart-type de y
20 [1] 2.316607
21 > ycr <- (y-mean(y))/sd(y) # ycr correspond au vecteur y centré et réduit
22 > mean(ycr) # Moyenne nulle
23 [1] -7.40239e-17
24 > sd(ycr) # Ecart-type à 1
25 [1] 1
26 > var(y) # Variance de y
27 [1] 5.366667
28 > sqrt(var(y)) # Ecart-type = racine carrée de variance
29 [1] 2.316607
30 > sd(y)^2 # Variance = carré de l’écart-type
31 [1] 5.366667
Quantiles et fonctions de répartition avec R : Soit p un réel appartenant à ]0, 1[, on définit le
quantile d’ordre p associée à une loi de probabilité le réel qui via l’approche expérimentale peut être
vu comme le réel qui sépare l’infinité des observations (associée à la loi de probabilité) en deux, une
proportion p à gauche et une proportion 1−p à droite. On définit également la fonction de répartition
en un réel q, la proportion parmi l’infinité des observations qui se situent avant q. Ces deux notions
sont illustrées dans la figure 1.

R
Figure 1 – Si X ; loi(. . .) (v.a. continue), alors f (x) = dloi (x, . . .) représente sa densité de
R R
probabilité, p = F (q) = P (X ≤ q) = ploi (q, . . .) sa fonction de répartition et q = F −1 (p) =
qloi (p, . . .) son quantile d’ordre p.

Le tableau suivant résume les différentes lois de probabilités considérées dans ce cours de deuxième
année ainsi que les instructions R permettant d’évaluer les quantiles et fonctions de répartitions
associés à ces lois de probabilités.

9
lois de probabilités loi R quantile d’ordre p fonction de répartition en q
Normale N (µ, σ) norm qnorm(p, µ, σ) pnorm(q,µ, σ)
Normale N (0, 1) norm qnorm(p) pnorm(q)
Chisquare χ2 (n) chisq qchisq(p, n) pchisq(q, n)
Fisher F(n1 , n2 ) f qf(p, n1 , n2 ) pf(q, n1 , n2 )
Student St(n) t qt(p, n) pt(q, n)

Application :
1 > pnorm(1.6449) # proba N(0,1) plus petit que 1.6449
2 [1] 0.9500048
3 > qnorm(0.95) # quantile N(0,1) d’ordre 95% proche de 1.6449
4 [1] 1.644854
5 > 1-pnorm(1.96) # proba N(0,1) plus grand que 1.96 proche de 2.5%
6 [1] 0.0249979
7 > qnorm(c(.95,.975,.99)) # quantiles N(0,1) d’ordre 95%, 97.5% et 99%
8 [1] 1.644854 1.959964 2.326348
9 > qt(c(.95,.975,.99),10) # quantiles St(10) d’ordre 95%, 97.5% et 99%
10 [1] 1.812461 2.228139 2.763769
11 > pt(c(1.812461,2.228139,2.763769),10) # les probas correspondantes
12 [1] 0.950 0.975 0.990
13 > qchisq(c(.95,.975,.99),10) # quantiles Khi2(10) d’ordre 95%, 97.5% et 99%
14 [1] 18.30704 20.48318 23.20925
15 > pchisq(c(18.30704,20.48318,23.20925),10) # les probas correspondantes
16 [1] 0.950 0.975 0.990
17 > qf(c(.95,.975,.99),10,20) # quantiles F(10,20) d’ordre 95%, 97.5% et 99%
18 [1] 2.347878 2.773671 3.368186
19 > pf(c(2.347878,2.773671,3.368186),10,20) # les probas correspondantes
20 [1] 0.950 0.975 0.990
Illustration du lien entre A.E.P. et A.M.P. : Une instruction rloi(n,...) (du même type que
les intructions ploi(q,...) et qloi(p,...) présentées précédemment) permet de générer simulta-
nément n réalisations y := (y1 , · · · , yn ) d’une v.a. Y ayant pour loi loi(...). Illustrons-le sur une
vérification expérimentale (A.E.P.) d’obtention de probabilité, quantile, moyenne et variance relatifs
à une loi N (1, 2).
1 > yy<-rnorm(10000,1,2) # les m=10000 réalisations ont stockées dans le vecteur yy
2 > yy # les 10 premières et 10 dernières composantes de yy
3 [1] -1.9244056433 2.2470105383 1.4959577111 -0.6281167629 0.7748889208
4 [6] 2.8418626055 -0.3823280944 1.8507022286 -0.0011450527 2.8635135780
5 ...
6 [9991] 0.2425250359 1.3251613864 2.0719073633 1.3248159207 -0.0456224746
7 [9996] -0.1919508046 -2.5780901555 -0.2746202274 1.0971032366 -1.6129234106
8 > mean(yy<0.5) # proportion des m=10000 composantes strictement inférieur à 0.5
9 [1] 0.4091
10 > pnorm(0.5,1,2) # idem si m=infini
11 [1] 0.4012937
12 > mean(yy==0.5) # proportion des m=10000 composantes égale à 0.5 (=0 si m=infini)
13 [1] 0
14 > mean(0.5<=yy && yy<=3) # proportion des m=10000 composantes compris entre 0.5 et 3
15 [1] 0
16 > pnorm(3,1,2)-pnorm(.5,1,2) # idem si m=infini
17 [1] 0.4400511
18 > quantile(yy,.95) # quantile d’ordre 95% des m=10000 composantes
19 95%
20 4.230095
21 > qnorm(.95,1,2) # idem si m=infini
22 [1] 4.289707
23 > mean(yy) # moyenne des m=10000 composantes (=1 si m=infini)
24 [1] 0.9764282

10
25 > var(yy) # variance des m=10000 composantes (=2^2=4 si m=infini)
26 [1] 3.865375

11
Tables de lois usuelles de variables aléatoires continues (pour la statistique)
Nom Graphe Densité de probabilité Espérance et Variance Remarques

a+b
Uniforme  E (X) =
 1 2
si x ∈ [a, b] et La densité de probabilité d’une loi uniforme est
X ; U ([a, b]) f (x) = b − a
(b − a)2 un histogramme à 1 classe.
a<b  0 sinon V ar (X) =
12

U ([0, 1]) et U ([2, 4]).


X−µ
1) Si X ; N (µ, σ) alors ; N (0, 1)
σ
Normale
1 x − µ !2 E (X) = µ 2) Si X ; N (µX , σ X ) et Y ; N (µY , σ Y ) sont
1 − des v.a. indépendantes alors
X ; N (µ, σ) σ et
f (x) = √ e 2
µ réel et σ réel > 0 σ 2π V ar (X) = σ 2  
q
X+Y ;N µX + µY , σ 2X + σ 2Y .

N (−2, 0.5), N (0, 1) puis N (4, 2).

Chisquare Si X1 , · · · , Xn sont n lois N (0, 1) indépendantes


x (ν−2)

 E (X) = ν alors
2
 e− 2 x 2
et n
X ; χ (ν) f (x) = ν  si x > 0 X 2 2
 2 2 Γ ν2 V ar (X) = 2ν Y = Xi ; χ (n)
ν entier > 0 
0 sinon i=1

ν = 3, ν = 6 puis ν = 9.

Si X ; N (0, 1) et Y ; χ2 (ν) sont indépen-


dantes alors
Student  − 1 (ν+1)
x2 2 E (X) = 0 si ν ≥ 2
1+ ν
X ; St (ν) et X
f (x) = 1 ν √
 ν Z= r ; St (ν)
ν entier > 0 β 2, 2 ν V ar (X) = si ν ≥ 3 Y
ν−2
ν

ν = 2 et ν = 30.

 ( ν2

1

2
ν1
−1 E (X) = Si X1 ; χ2 (ν 1 ) et X2 ; χ2 (ν 2 ) sont indépen-
2
 ν2 − 2
Fisher 
 ν 12 ν 22 x dantes alors
f (x) = 1 si ν 2 ≥ 3
ν1 ν2
X ; F (ν 1 , ν 2 ) 
 (ν 1x+ν 2) 2(ν 1+ν 2)β 2 , 2 et

si x > 0
 X1 /ν 1
ν 1 , ν 2 entiers > 0  2ν 22 (ν 1 +ν 2 −2) Y = ; F (ν 1 , ν 2 )
V ar (X) = X2 /ν 2
ν 1 (ν 2 −2)2 (ν 2 −4)
f (x) = 0 sinon 
si ν 2 ≥ 5
F (5, 200), F (200, 5) puis F (30, 30).

Vous aimerez peut-être aussi