0% ont trouvé ce document utile (0 vote)

37 vues12 pages

Poly

Ce document traite des tests d'hypothèses à travers une approche expérimentale des probabilités, en se concentrant sur l'estimation de paramètres tels que la moyenne et la variance à partir d'échantillons. Il aborde les cadres d'estimation à un et deux échantillons, ainsi que les méthodes de comparaison de moyennes et de variances. Enfin, il présente une rédaction standard pour les tests d'hypothèses paramétriques, incluant les hypothèses de test et les règles de décision.

Transféré par

adrien29042005

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

37 vues12 pages

Poly

Transféré par

adrien29042005

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Tests d’hypothèses via une Approche Expérimentale des

Probabilités
CQLS : cqls@[Link]
[Link]

1 Introduction et généralités
1.1 Cadre d’estimation à un échantillon
Dans ce cadre, tout problème pratique doit se ramener à l’étude d’une unique variable d’intérêt
notée ici Y (pouvant aussi être vue comme une future unique donnée). En pratique, nous disposerons
d’un jeu de n données y = (y1 , . . . , yn ) (i.e. un vecteur ou “paquet” de n observations “indépendantes”
de Y ) qui peut par conséquent être vu comme un résultat possible d’un futur jeu de n données
Y = (Y1 , . . . , Yn ). Afin d’expliciter le paramètre d’intérêt intimement lié dans les problématiques
du cours à la variable d’intérêt Y , nous imaginerons disposer d’une infinité de données virtuelles
y[1] , . . . , y[m] , . . . dont la notation en indice entre crochet (i.e. “[·] ”) nous rappelle qu’il ne faut pas les
confondre avec le jeu des n données y1 , . . . , yn qui seront bien réelles. Rappelons aussi que dans ce
cours les tailles n des données réelles et m des données virtuelles ont a priori des ordres de grandeur
complètement différents, à savoir n plutôt raisonnablement grand et m aussi grand que possible voire
infini.

1.1.1 Paramètres proportion et moyenne

La moyenne notée µY ou plus simplement µ (plutôt appelée espérance de Y dans l’Approche
Mathématique des Probabilités et notée E(Y )) s’exprime via l’Approche Expérimentale des Probabilités
par :
m
1 X
y[·] m = y[k] ' y[·] ∞ = µY = E (Y ) .
m
k=1
Soulignons toutefois que si les données sont exclusivement à valeurs 0 ou 1, la moyenne devient
une proportion (ou probabilité) et sera notée p plutôt que µ. Rappelons qu’une future estimation
n
1X
µc
Y (Y ) de µY est tout simplement Y n = Yi (notée aussi Y ).
n i=1

1.1.2 Paramètre variance

La variance notée σ 2Y ou plus simplement σ 2 (conservant la même dénomination dans l’A.M.P.
et notée Var(Y )) s’exprime via l’A.E.P. par :
←−→ 2 m
1 X 2 ←−→ 2
y[·] m = y[k] − y[·] m ' y[·] ∞ = σ 2Y = Var (Y ) = σ(Y )2 .
m
k=1
Dans le cadre de grands échantillons (voir plus loin), il est plus qu’intéressant de noter que
la variance est aussi une moyenne. En effet, nous pouvons écrire σ 2Y = µŸ puisque Var(Y ) =
E((Y − µY )2 ) = E(Ÿ ) où Ÿ = (Y − µY )2 est le carré de la variable aléatoire Y préalablement
centrée. Le vecteur des futures données ((Y1 − µY )2 , . . . , (Yn − µY )2 ) étant inaccessible puisque µY
2 2
est inconnu, le remplacerons par Ÿ = ((Y1 − Y ) , . . . , (Yn − Y ) ). Ainsi, nous pourrions aussi
nous
proposer µc
Ÿ Ÿ comme future estimation de σ 2Y = µŸ (plutôt lorsque la taille n des données sera
suffisamment grande).

1
1.2 Cadre d’estimation à deux échantillons (indépendants)
ll y a dans ce cadre deux variables d’intérêts Y (1) et Y (2) (“indépendantes”) dont on cherche soit
(1) (1)
à comparer les moyennes soit les variances à partir de deux échantillons, l’un y(1) = (y1 , . . . , yn(1) )
(2) (2)
de taille n(1) et l’autre y(2) = (y1 , . . . , yn(2) ) de taille n(2) . Il en découle deux futurs jeux de données
(1) (1) (2) (2)
Y(1) = et Y(2) =
(Y1 , . . . , Yn(1) ) (Y1 , . . . , Yn(2) ).
Pour homogénéiser ce cas avec celui à un seul
échantillon, nous noterons Y, le vecteur aggrégé de toutes les futures données Y = (Y(1) , Y(2) ) de
taille n = n(1) + n(2) . De manière analogue au cas d’un seul échantillon, nous imaginons disposer de
(1) (1) (2) (2)
deux infinités de données virtuelles, l’une y[1] , . . . , y[m] , . . . relative à Y (1) et l’autre y[1] , . . . , y[m] , . . .
relative à Y (2) . Pour j = 1 ou j = 2, on peut alors exprimer :

(j) (j)
— la moyenne µY (j) ou plus simplement µ(j) par y[·] ' y[·] = µ(j) .
m ∞
←−−→
←−−→
2 2
(j) (j)
— la variance σ 2Y (j) ou plus simplement σ 2(j) définie par y[·] m ' y[·] ∞ = σ 2(j)

Nous sommes alors en mesure d’introduire les paramètres servant à comparer respectivement les
moyennes et les variances.
— comparaison de moyennes s’étudiant soit à partir de la différence de moyennes dµ =
µ(1) − µ(2) soit à partir du rapport de moyennes rµ = µ(1) /µ(2) (si µ(2) 6= 0).
— comparaison de variances s’étudiant soit à partir de la différence de variances dσ2 =
σ 2(1) − σ 2(2) soit à partir du rapport de variances rσ2 = σ 2(1) /σ 2(2) (si σ 2(2) 6= 0).
Insistons sur le fait que les utilisations d’une différence ou d’un rapport ne sont pas anodines puis-
qu’elles permettent de traiter des assertions d’intérêt différentes.

1.3 Les deux cadres usuels : asymptotique et gaussien

→ Cadre asymptotique ou grand(s) échantillon(s) : par grand échantillon, on entend dans
ce cours une taille de données n ≥ 30 pour le cas un seul échantillon et des tailles n(1) ≥ 30 et
n(2) ≥ 30 pour celui de deux échantillons.
→ Cadre gaussien : si une variable d’intérêt est supposée suivre une loi Normale on dit que
l’échantillon associé est gaussien. Ce cadre d’étude n’est a priori intéressant que s’il est pos-
sible de vérifier (éventuellement à partir d’un outil statistique) cette hypothèse de Normalité
de la variable d’intérêt. Alors qu’il faudrait disposer d’un grand échantillon pour cette vérifica-
tion, l’usage dans la littérature statistique est d’utiliser ce cadre d’étude même pour des petits
échantillons. Les résultats reposent alors sur la validité de l’a priori que la variable d’intérêt
suit une loi Normale. Cependant, certains phénomènes étudiés peuvent laisser penser que cette
hypothèse sur la (ou les) variable(s) d’intérêt ne doit pas être aberrante.

1.4 Comparaison entre A.M.P., A.E.P. et Pratique

Dans le tableau suivant, le jour J désigne le jour où les données sont réellement récoltées (Indic :
voir fin de document pour les différentes notations).

2
Avant le jour J
(θ fixé éventuellement à une valeur arbitraire pour l’expérimentation)
Mathématique Y  Y θ(Y ) ou Θ
b b t(Y ) ou T

 y [1]
y[1] .. θ(y[1] ) ou b
θ[1] t(y[1] ) ou t[1]
.
b

y

 [n]

 y[n+1]
Expérimental y[2] .. θ(y[2] ) ou b
θ[2] t(y[2] ) ou t[2]
.
b

y[2n]

.. .. .. ..
.  . . .
 y[(m−1)×n+1]

y[m] .. θ(y[m] ) ou bθ[m] t(y[m] ) ou t[m]
.
b

y[m×n]

.. .. .. ..
. . . .

Moyenne = µ := y[·] ∞ = E (Y ) bθ y[·] =E b θ (Y ) t(y [·] ) = E (t(Y ))
∞ ∞

←−−−−−→

←−→ σbθ := bθ y[·] ∞ ←
−−−−→
σ := y[·] ∞
Ecart-Type = t(y [·] ) ∞ = σ(t(Y ))
= σ(Y ) = σ(b
θ (Y ))
r p
= Var (t(Y ))
p
= Var (Y ) = Var b θ (Y )

θ y[·] ∈ [a, b[

Proportion dans [a, b[ = y[·] ∈ [a, b[ ∞ b t(y [·] ) ∈ [a, b[
∞ ∞
P ∈ [a, b[)
= P(Y = P(
Pb θ (Y ) ∈ [a, b[) = P(t(Y
P ) ∈ [a, b[)
Histogramme à pas “zéro” = fY fbθ(Y ) ou fΘ b ft(Y ) ou fT
1 1 1
Surface brique (m fini) = mn m m
Après le jour J
(θest égal à θ• qui est toujours inconnu)

 y1
Pratique y .. θ(y) ou b
θ t(y) ou t
.
b

yn

Le jour J (θ = θ• ), si on essaye d’associer des temps de conjugaison aux différents concepts, nous
pouvons dire :
→ le jeu de données réel y représente le présent.
→ le jeu de données aléatoire Y représente le futur (on pourra alors aussi l’appeler futur jeu
de données)
→ les jeux de données virtuels y[j] représentent le conditionnel (ils représentent une infinité
de jeux de données que l’on aurait pu avoir à la place de y)

3
2 Test d’hypothèses
De manière générale, la rédaction standard d’un test d’hypothèses s’écrit toujours de la même
façon. Elle est décrite ci-dessous pour un paramètre θ qui devra être remplacé par p pour une pro-
portion, µ pour une moyenne, σ 2 pour une variance, dµ (resp. rµ ) pour une différence (resp. rapport)
de moyennes et enfin dσ2 (resp. rσ2 ) pour une différence (resp. rapport) de variances. La valeur de
référence θ0 et la loi L0 devront être adaptée selon la problématique.

Rédaction standard d’un test d’hypothèses paramétrique

Hypothèses de test :

 θ > θ0 (cas (a) : test unilatéral droit)
H0 : θ = θ0 contre H1 : θ < θ0 (cas (b) : test unilatéral gauche)
θ 6= θ0 (cas (c) : test bilatéral)


Statistique de test sous H0 :

θ,θ 0 (Y ) ; L0
δd
où L0 est une loi standard à préciser (selon la problématique envisagée).

Règle de décision
 :


 p − valeur < α
ou de manière équivalente




  +
on accepte H1 si  δ θ,θ0 (y) > δ lim,α (a)
 d
 −



 δdθ,θ 0 (y) < δ lim,α (b)
  δd (y) < δ −
 +
lim,α/2 ou δ θ,θ 0 (y) > δ lim,α/2 (c)

θ,θ 0
 d

où δ − +
lim,α = qα et δ lim,α = q1−α désignent respectivement les quantiles d’ordre α et 1 − α associés
à la loi L0 et où la p−valeur est définie mathématiquement par :

 Pθ=θ0 δ θ,θ0 (Y ) > δ θ,θ0 (y) (a) : p-valeur droite

 d d
p-valeur =
 Pθ=θ0 δ θ,θ0 (Y ) < δ θ,θ0 (y) (b) : p-valeur gauche
d d

θ,θ 0 (Y )<δ θ,θ 0 (y )),Pθ=θ 0 (δ θ,θ 0 (Y )>δ θ,θ 0 (y )))
2×min(Pθ=θ0 (δd (c) : p-valeur bilatérale
 d d d

Conclusion : Application de la règle de décision au vu des données y.

Propriétés :

1. La somme des p-valeur gauche et p-valeur droite est égale à 1

2. La p-valeur bilatérale est égale à deux fois la plus petite des p-valeurs gauche
et droite

Tableaux récapitulatifs :
Il sera aussi supposé que les données ont été saisies dans le logiciel R soit sous le nom y (pour un
unique échantillon) soit sous les noms y1 et y2 (pour deux échantillons indépendants).

4
θ θ (Y )
b θ (y) en R
b σ
cbθ (Y ) σ
cbθ (y) en R
n
rσbθ r
1X p(1 − p) pb (Y ) (1 − pb (Y ))
p pb (Y ) = Y = Yi mean(y) σ pb = seMean(y)
n i=1 n n
s
n
r
1X σ2 σ
c2 (Y )
µ µ
b (Y ) = Y = Yi mean(y) σ µb = seMean(y)
n i=1 n n
v
s u
n u σc 2
1 X σ 2Ÿ t Ÿ Ÿ
σ2 σ
c2 (Y ) = (Yi − Y )2 var(y) σ σc2 = seVar(y)
n − 1 i=1 n n
s s
(1) (2)
2 2
2

σ (1) σ 2(2) σd
(1) Y σd
(2) Y
σ dcµ = + + seDMean(y1,y2)
dµ = µ(1) −µ(2) d(1) Y (1) − µ(2) Y (2) mean(y1)-mean(y2) n(1) n(2) n(1) n(2)
d
µ (Y ) = µ
dc
(1) 2 (1) (2) 2 (2)
(n −1)σd (1)
Y +(n −1)σd (2)
Y
Cas Gaussien et σ 2(1) = σ 2(2) = σ 2 : σ c2 (Y ) =
n(1) +n(2) −2
seDMeanG(y1,y2)
v
s u
2 (1) 2 (2)
σ 2Ÿ (1) σ 2Ÿ (2)
u σ[
t Ÿ (1) Ÿ σ[ Ÿ (2)
Ÿ
(1)
2

d d var(y1)-var(y2) + seDVar(y1,y2)
d
dσ2 = σ 2(1) −σ 2(2) d σ 2 (Y ) = σ (1) Y − σ 2(2) Y (2) σ dd2 = + (2)
σ n(1) n n(1) n(2)
s s
2 (1) 2
µ(1) µd(1) Y (1)
1 σ 2(1) σ 2(2) σd(1)
Y σd (2)
Y (2)
1 2
rµ = rbµ (Y ) = mean(y1)/mean(y2) σ rcµ = (2) + rµ2 × (2)
n(1)
+ rbµ (Y ) × n(2)
seRMean(y1,y2)
µ(2) µd(2) Y (2) µ n(1) n µd
(2) Y (2)

s s
(1) 2 2
2

σd \
σ Ÿ (1) \
σ Ÿ (1)
σ 2(1) (1) Y 1 σ 2Ÿ (1) σ 2Ÿ (2) Ÿ (1) 2 Ÿ (1)
rσ2 = σ 2 (Y ) = var(y1)/var(y2) = 2 1 σ 2 (Y ) seRVar(y1,y2)
σ2 n(1) n(1)
rc σ rd +rσ2 2 (2) + rc
(2) 2
2

σ 2(2) σd σ (2) n(1) n σd(2)
Y (2)
(2) Y

5
Cadre Asymptotique Cadre Gaussien
θ θ0 σbθ sous H0
r δ θ,θ0 = (θ − θ0 )/σbθ δd
θ,θ 0 (Y ) et sa loi sous H0 δ θ,θ0 δd
θ,θ 0 (Y ) et sa loi sous H0
p0 (1 − p0 ) p − p0 pb (Y ) − p0 approx.
p p0 δ p,p0 = q δd
p,p0 (Y ) = q ; N (0, 1)
n p0 (1−p0 ) p0 (1−p0 )
n n
µ − µ0 µ
b (Y ) − µ0 approx. µ − µ0 µ
b (Y ) − µ0
µ µ0 σ µb δ µ,µ0 = δ[µ,µ0 (Y ) = ; N (0, 1) δ µ,µ0 = δ[µ,µ0 (Y ) = ; St(n − 1)
σ µb σcµb (Y ) σ µb σcµb (Y )
σ 2 − σ 20 σc2 (Y ) − σ 2 approx.
0 σ2 σ
c2 (Y )
σ2 σ 20 σ σc2 δ σ2 ,σ20 = δ\ σ 2 ,σ 20 (Y ) = ; N (0, 1) δ σ2 ,σ20 = (n − 1) 2 δ\
σ 2 ,σ 20 (Y ) = (n − 1) ; χ2 (n − 1)
σ σc2 σd σ
c2 (Y ) σ0 σ 20
dµ − d0 dcµ (Y ) − d0 approx. dµ − d0 d
c µ (Y )−d0
dµ = µ(1) −µ(2) d0 σ dcµ δ dµ ,d0 = δ\ dµ ,d0 (Y ) = ; N (0, 1) δ dµ ,d0 = δ\ ; St(n(1) +n(2) −2)
σ d
(Y )
dµ ,d0 (Y ) = σd Y
d
d µ
( )
µ
σ dcµ d c σ dcµ
dσ2 − d0 d
d σ 2 (Y ) − d0 approx.
dσ2 = σ 2(1) −σ 2(2) d0 σ dd2 δ dσ2 ,d0 = δ\ dσ2 ,d0 (Y ) = ; N (0, 1)
σ (Y )
2
σ dd2 σddd
σ σ
µ(1) rµ − r0 rbµ (Y ) − r0 approx.
rµ = (2) r0 σ rcµ δ rµ ,r0 = δ\rµ ,r0 (Y ) = ; N (0, 1)
µ σ rcµ σ
d rcµ
(Y )
σ 2(1) rσ2 − r0 rcσ 2 (Y ) − r0 approx. rσ2 σ 2 (Y )
rc
rσ2 = 2 r0 σ2
σ rd δ rσ2 ,r0 = δ\rσ2 ,r0 (Y ) = ; N (0, 1) δ rσ2 ,r0 = δ\
rσ2 ,r0 (Y ) = ; F(n(1) − 1, n(2) − 1)
σ (2) σ rdσ2
σdrdσ2
(Y ) r0 r0
3 Intervalle de confiance
3.1 Généralités
Le concept d’intervalle de confiance d’un paramètre quelconque θ consiste à proposer
h un encadre-i
ment (ou une “fourchette”) représenté par un intervalle de variables aléatoires e θinf (Y ) , e
θsup (Y )
de sorte que le paramètre d’intérêt θ inconnu ait un niveau de confiance 1 − α (plutôt élevé si α
raisonnablement petit) d’être à l’intérieur de cet intervalle. Mathématiquement cela s’exprime par :
h i
P θ∈ e θsup (Y ) = 1 − α
θinf (Y ) , e

Par l’approche expérimentale, si hnous pouvions imaginer répéter autant de fois que ipossible la
i h
conception d’intervalles de confiance e θinf y[1] , e
θsup y[1] , . . . , eθinf y[m] , e θsup y[m] , . . . obte-
nus respectivement sur une infinité de jeux de données virtuels y[1] , . . . , y[m] , . . ., nous constaterions
alors qu’il n’y en aurait qu’une proportion 1 − α qui contiendraient le paramètre d’intérêt θ inconnu.
La construction de ces intervalles dépend en général de la caractérisation du comportement aléatoire
de la mesure d’écart standardisée δbθ,θ (Y) proposée dans toutes les problématiques dans le tableau
suivant :

Cadre Asymptotique Cadre Gaussien

θ δbθ,θ (Y ) δbθ,θ (Y )
pb (Y ) − p approx.
p δ pb,p (Y ) = ; N (0, 1)
σ
cpb (Y )
b (Y ) − µ approx.
µ b (Y ) − µ
µ
µ δ µb,µ (Y ) = ; N (0, 1) δ µb,µ (Y ) = ; St(n − 1)
σcµb (Y ) σcµb (Y )
σc2 (Y ) − σ 2 approx. c2 (Y )
σ
σ2 δ σc2 ,σ2 (Y ) = ; N (0, 1) δ σc2 ,σ2 (Y ) = (n − 1) ; χ2 (n − 1)
σ
d c2 (Y )
σ
σ2
dc µ (Y ) − dµ approx. dc
µ (Y )−dµ
dµ = µ(1) −µ(2) δ dcµ ,dµ (Y ) = ; N (0, 1) δ dcµ ,dµ (Y ) = ; St(n(1) +n(2) −2)
σddcµ
(Y ) σ
d dµ
c (Y )
d2 (Y ) − dσ2 approx.
d
dσ2 = σ 2(1) −σ 2(2) δ dd2 ,d 2 (Y ) = σ ; N (0, 1)
σ σ σddd 2
(Y )
σ
µ(1) rbµ (Y ) − rµ approx.
rµ = (2) δ rcµ ,rµ (Y ) = ; N (0, 1)
µ σ
d rcµ
(Y )
σ 2(1) rc2 (Y ) − rσ2 approx. rc
σ 2 (Y )
rσ2 = 2 δ rd
σ 2 ,rσ 2
(Y ) = σ ; N (0, 1) δ rd
σ 2 ,rσ 2
(Y ) = ; F(n(1) − 1, n(2) − 1)
σ (2) σd rd
σ2
(Y ) rσ2

3.2 Cadre asymptotique

Tous les intervalles de confiance relatifs à toutes les problématiques du cours s’obtiennent dans
le cadre de grands échantillons par la même méthode. Après substitution du paramètre d’intérêt
de votre problématique (au choix parmi p, µ, σ 2 , dµ , dσ2 , rµ et rσ2 ) notée ici de manière générale θ,
nous allons naturellement utiliser la caractérisation du comportement aléatoire de l’écart entre b θ (Y )
et θ exprimée via la mesure d’écart standardisée δbθ,θ (Y ) suivant approximativement une loi Normale
N (0, 1). Très facilement, nous pouvons affirmer que :

1 − α ' P δbθ,θ (Y ) < δ + lim, α =P bθ (Y ) − δ +
lim, α × σ θ (Y ) + δ +
cbθ (Y ) < θ < b lim, α × σ
cbθ (Y )
2
| {z 2 } | {z 2 }
θ inf (Y )
e θ sup (Y )
e

où δ +
lim, α est le quantile d’ordre 1 −
α
2 de la loi N (0, 1)
2

3.3 Cadre gaussien

Pour construire un intervalle de confiance dans un cadre gaussien du paramètre θ (au choix µ,
σ 2 , dµ ou rσ2 ), nous allons naturellement utiliser la caractérisation du comportement aléatoire de

6
l’écart entre b
θ (Y ) et θ exprimée via la mesure d’écart standardisée δbθ,θ (Y ). Il s’agit alors de trouver
θinf (Y ) et θsup (Y ) tels que
e e

1−α = P e θinf (Y ) < θ < e
θsup (Y ) en utilisant le fait que 1−α = P q α2 < δbθ,θ (Y ) < q1− α2

où q1− α2 est le quantile d’ordre 1 − α2 de la loi de la mesure d’écart standardisée δbθ,θ (Y ). L’exercice
est plus difficile que dans le cadre asymptotique d’une part parce que la mesure d’écart standardisée
δbθ,θ (Y ) (θ étant au choix µ, σ 2 , dµ ou rσ2 ) ne se décline pas toujours sur le même schéma de
construction et d’autre part parce que la loi de δbθ,θ (Y ) n’est plus une loi Normale standard. Sans
trop nous attarder, voici les différents intervalles de confiance pour les différents choix de θ :
• θ=µ:
s s
c2 (Y )
σ c2 (Y )
σ
µ b (Y ) − q1− α2 ×
einf (Y ) = µ et µesup (Y ) = µb (Y ) + q1− α2 ×
n n
α
où q1− α2 est le quantile d’ordre 1 − 2 de la loi St(n − 1).
2
• θ=σ :
σ c2 (Y ) × n − 1
f2 inf (Y ) = σ et c2 (Y ) × n − 1
f2 sup (Y ) = σ
σ
q1− α2 q α2
α α
où q1− α2 (resp. q α2 ) est le quantile d’ordre 1 − 2 (resp. 2) de la loi χ2 (n − 1).
• θ = dµ : s
c2 (Y ) 1 1
µ inf (Y ) = dµ (Y ) − q1− α
df × σ + (2)
c
2
n(1) n
et s
c2 (Y ) 1 1
df
µ sup (Y ) = dµ (Y ) + q1− α
c × σ + (2)
2
n(1) n

où q1− α2 est le quantile d’ordre 1 − α2 de la loi St(n(1) + n(2) − 2). La quantité σ c2 (Y ) est définie
comme dans le tableau récapitulatif des tests d’hypothèses (partie cadre gaussien).
• θ = rσ2 :
1 1
rf σ 2 (Y ) ×
σ 2 inf (Y ) = rc et rf σ 2 sup (Y ) = rcσ 2 (Y ) ×
q1− α2 q α2
où q1− α2 (resp. q α2 ) est le quantile d’ordre 1 − α2 (resp. α2 ) de la loi F n(1) − 1, n(2) − 1 .

4 Langage mathématique et Systèmes de notation

— Dans ce cours, deux systèmes de notation sont utilisés pour décrire des expressions mathéma-
tiques dédiées à la statistique. Le premier, appelé Norme CQLS (ou Norme CQLS Standard )
consiste en un système de notation riche (et peut-être un peu lourde) dont le principal avan-
tage est qu’il est taillé sur mesure pour être traduisible dans le langage littéral. Le deuxième
système, appelé Norme SSE (ou Norme CQLS Simplifié), a pour vocation à être Simple,
Synthétique et Explicite (ou du moins le plus possible). Il demande cependant dans son uti-
lisation un meilleur niveau d’expertise essentiellement dû au fait que sa traduction dans le
langage littéral est moins explicite que celle pour la Norme CQLS.
— Notre conseil est de commencer par l’utilisation de la Norme CQLS pour, au fur et à mesure
du cours, passer à la Norme SSE.
— Conventions communes aux deux Normes CQLS et SSE :
1. Majuscule versus Minuscule : une variable aléatoire (ou susceptible de l’être) est notée en
majuscule quand une variable dont on sait qu’elle est déterministe (i.e. non aléatoire) est
noté en minuscule.
2. Le Chapeau au dessus d’une quantité (par exemple, b θ) désigne généralement un remplaçant
appelé plus communément estimation dans le cas où la quantité est un paramètre (ici θ).
3. Un vecteur est noté en caractères gras.
Remarque : une expression écrite sur un document imprimé en caractères gras (ex :
“expression en gras”) est subtituée sur un tableau ou sur une feuille papier par sa version
soulignée (ex : “expression en gras”).

7
4. “Delta” (δ en minuscule et ∆ en majuscule) est utilisé pour désigner un écart le plus souvent
additif (i.e. une soustraction) mais parfois multiplicatif (i.e. une division).
— La Norme CQLS a été introduite pour décrire le plus précisément possible l’Approche Ex-
périmentale des Probabilités (A.E.P.). L’A.E.P. s’articulant sur une distinction des différents
jeux de données, la Norme CQLS repose sur la convention suivante : Toute statistique (i.e.
v.a. dépendant d’un jeu de données) s’écrit comme une fonction du jeu de données.
— Il n’y a pas vraiment de convention propre à la Norme SSE. Son objectif est cependant de ne
pas respecter la convention spécifique (ci-dessus) à la Norme CQLS dans le but de rendre plus
synthétique les notations mathématiques.
— Le tableau ci-dessous exprime plus clairement la spécificité des Normes CQLS et SSE en
proposant les principales expressions utilisées en statistique dans les 2 normes.
Statistique Aléatoire ou futur Réalisé ou présent Réalisable ou conditionnel
(v.a. fonction de l’échantillon) CQLS SSE CQLS SSE CQLS SSE
• •

• • • •
Estimation de θ θ (Y )
b Θb θ (y)
b θ
b θ y [k]
b θ[k]
b

Estimation de p• pb• (Y ) Pb• pb• (y) pb• pb• y [k] pb•[k]

Estimation de µ• c• (Y )
µ Mc• c• (y)
µ b•
µ c• y [k]
µ b•[k]
µ

Estimation de σ 2• c2 (Y )
σ • Σb2
•
c2 (y)
σ • b2•
σ c2 y
σ • b2•,[k]
σ
[k]
Erreur standard de θb• σ
d θc• (Y ) Σ
b θ• σ
d θc• (y) σ
bθ• σ
d θ
c • y [k] σ
bθ• ,[k]
Ecart entre θb• et θ• δ θc• ,θ• (Y ) ∆θ • δ θc• ,θ• (y) δ θ• δ θc• ,θ• (y [k] ) δ θ• ,[k]

Estimation de δ θ• ,θ0 (ou δ θ0 ) δ\θ • ,θ 0 (Y ) ∆
bθ
0
δ\θ • ,θ 0 (y)
bδ θ0 δ\
θ • ,θ 0 y [k] δ θ0 ,[k]
b

— Le tableau ci-dessous illustre comment convertir une notation en sa définition littérale ou ma-
thématique pour des concepts de base de la statistique. La conversion dans le langage R y est
aussi proposée permettant à l’utilisateur de savoir comment obtenir ces quantités en Pratique :
Notation Définition littérale Définition mathématique
y Vecteur des réels y1 , · · · , yn (y1 , · · · , yn )
ou (y· )n (yi est la ième composante de y) (en R : y <- c(y1 ,· · · ,yn ))
R
#(y) Nombre de composantes de y n = length(y)
n
1X R
y ou (y· )n Moyenne (empirique) de y yi = mean(y)
n i=1
n
y=a Proportion des y1 , · · · , yn 1X R
ou (y· = a)n égaux à a 1yi =a = mean(y==a)
n i=1
n
a≤y≤b Proportion des y1 , · · · , yn 1X R
ou (a ≤ y· ≤ b)n dans [a, b] avec (a ≤ b) 1[a,b] (yi ) = mean(a<= y & y<= b)
n i=1
v
u n
←
→ ←−→ u 1 X R
y ou (y· )n Ecart-type (empirique) de y t (yi − y)2 = sd(y)
n − 1 i=1
n
←−→2 1 X
(←
→ R
y )2 ou (y· )n Variance (empirique) de y (yi − y)2 = var(y)
n − 1 i=1
y +y
qα (y) Quantile d’ordre α de y y[αn]+1 (n impair) et [αn]+1 2 [αn]+1 (n pair)
R
ou qα (y· )n (0 < α < 1) = quantile(y,alpha)

5 Quelques instructions R
Instructions de base par l’exemple : des exemples (commentés) valent (peut-être) mieux que de
longs discours !

1 > c(-1,1) # Création du vecteur (-1,1)

2 [1] -1 1
3 > 4+2*c(-1,0,1) # Transformation 4+2*x appliqué pour chaque composante de y
4 [1] 2 4 6
5 > y<-c(1,3,2,4,7,6)

8
6 > y
7 [1] 1 3 2 4 7 6
8 > 4+2*y
9 [1] 6 10 8 12 18 16
10 > mean(y) # Moyenne de y
11 [1] 3.833333
12 > sd(y) # Ecart-type de y
13 [1] 2.316607
14 > yc <- y-mean(y) # yc correspond au vecteur y centré
15 > yc
16 [1] -2.8333333 -0.8333333 -1.8333333 0.1666667 3.1666667 2.1666667
17 > mean(yc) # Moyenne nulle
18 [1] -1.480297e-16
19 > sd(yc) # Idem que l’écart-type de y
20 [1] 2.316607
21 > ycr <- (y-mean(y))/sd(y) # ycr correspond au vecteur y centré et réduit
22 > mean(ycr) # Moyenne nulle
23 [1] -7.40239e-17
24 > sd(ycr) # Ecart-type à 1
25 [1] 1
26 > var(y) # Variance de y
27 [1] 5.366667
28 > sqrt(var(y)) # Ecart-type = racine carrée de variance
29 [1] 2.316607
30 > sd(y)^2 # Variance = carré de l’écart-type
31 [1] 5.366667
Quantiles et fonctions de répartition avec R : Soit p un réel appartenant à ]0, 1[, on définit le
quantile d’ordre p associée à une loi de probabilité le réel qui via l’approche expérimentale peut être
vu comme le réel qui sépare l’infinité des observations (associée à la loi de probabilité) en deux, une
proportion p à gauche et une proportion 1−p à droite. On définit également la fonction de répartition
en un réel q, la proportion parmi l’infinité des observations qui se situent avant q. Ces deux notions
sont illustrées dans la figure 1.

R
Figure 1 – Si X ; loi(. . .) (v.a. continue), alors f (x) = dloi (x, . . .) représente sa densité de
R R
probabilité, p = F (q) = P (X ≤ q) = ploi (q, . . .) sa fonction de répartition et q = F −1 (p) =
qloi (p, . . .) son quantile d’ordre p.

Le tableau suivant résume les différentes lois de probabilités considérées dans ce cours de deuxième
année ainsi que les instructions R permettant d’évaluer les quantiles et fonctions de répartitions
associés à ces lois de probabilités.

9
lois de probabilités loi R quantile d’ordre p fonction de répartition en q
Normale N (µ, σ) norm qnorm(p, µ, σ) pnorm(q,µ, σ)
Normale N (0, 1) norm qnorm(p) pnorm(q)
Chisquare χ2 (n) chisq qchisq(p, n) pchisq(q, n)
Fisher F(n1 , n2 ) f qf(p, n1 , n2 ) pf(q, n1 , n2 )
Student St(n) t qt(p, n) pt(q, n)

Application :
1 > pnorm(1.6449) # proba N(0,1) plus petit que 1.6449
2 [1] 0.9500048
3 > qnorm(0.95) # quantile N(0,1) d’ordre 95% proche de 1.6449
4 [1] 1.644854
5 > 1-pnorm(1.96) # proba N(0,1) plus grand que 1.96 proche de 2.5%
6 [1] 0.0249979
7 > qnorm(c(.95,.975,.99)) # quantiles N(0,1) d’ordre 95%, 97.5% et 99%
8 [1] 1.644854 1.959964 2.326348
9 > qt(c(.95,.975,.99),10) # quantiles St(10) d’ordre 95%, 97.5% et 99%
10 [1] 1.812461 2.228139 2.763769
11 > pt(c(1.812461,2.228139,2.763769),10) # les probas correspondantes
12 [1] 0.950 0.975 0.990
13 > qchisq(c(.95,.975,.99),10) # quantiles Khi2(10) d’ordre 95%, 97.5% et 99%
14 [1] 18.30704 20.48318 23.20925
15 > pchisq(c(18.30704,20.48318,23.20925),10) # les probas correspondantes
16 [1] 0.950 0.975 0.990
17 > qf(c(.95,.975,.99),10,20) # quantiles F(10,20) d’ordre 95%, 97.5% et 99%
18 [1] 2.347878 2.773671 3.368186
19 > pf(c(2.347878,2.773671,3.368186),10,20) # les probas correspondantes
20 [1] 0.950 0.975 0.990
Illustration du lien entre A.E.P. et A.M.P. : Une instruction rloi(n,...) (du même type que
les intructions ploi(q,...) et qloi(p,...) présentées précédemment) permet de générer simulta-
nément n réalisations y := (y1 , · · · , yn ) d’une v.a. Y ayant pour loi loi(...). Illustrons-le sur une
vérification expérimentale (A.E.P.) d’obtention de probabilité, quantile, moyenne et variance relatifs
à une loi N (1, 2).
1 > yy<-rnorm(10000,1,2) # les m=10000 réalisations ont stockées dans le vecteur yy
2 > yy # les 10 premières et 10 dernières composantes de yy
3 [1] -1.9244056433 2.2470105383 1.4959577111 -0.6281167629 0.7748889208
4 [6] 2.8418626055 -0.3823280944 1.8507022286 -0.0011450527 2.8635135780
5 ...
6 [9991] 0.2425250359 1.3251613864 2.0719073633 1.3248159207 -0.0456224746
7 [9996] -0.1919508046 -2.5780901555 -0.2746202274 1.0971032366 -1.6129234106
8 > mean(yy<0.5) # proportion des m=10000 composantes strictement inférieur à 0.5
9 [1] 0.4091
10 > pnorm(0.5,1,2) # idem si m=infini
11 [1] 0.4012937
12 > mean(yy==0.5) # proportion des m=10000 composantes égale à 0.5 (=0 si m=infini)
13 [1] 0
14 > mean(0.5<=yy && yy<=3) # proportion des m=10000 composantes compris entre 0.5 et 3
15 [1] 0
16 > pnorm(3,1,2)-pnorm(.5,1,2) # idem si m=infini
17 [1] 0.4400511
18 > quantile(yy,.95) # quantile d’ordre 95% des m=10000 composantes
19 95%
20 4.230095
21 > qnorm(.95,1,2) # idem si m=infini
22 [1] 4.289707
23 > mean(yy) # moyenne des m=10000 composantes (=1 si m=infini)
24 [1] 0.9764282

10
25 > var(yy) # variance des m=10000 composantes (=2^2=4 si m=infini)
26 [1] 3.865375

11
Tables de lois usuelles de variables aléatoires continues (pour la statistique)
Nom Graphe Densité de probabilité Espérance et Variance Remarques

a+b
Uniforme  E (X) =
 1 2
si x ∈ [a, b] et La densité de probabilité d’une loi uniforme est
X ; U ([a, b]) f (x) = b − a
(b − a)2 un histogramme à 1 classe.
a<b  0 sinon V ar (X) =
12

U ([0, 1]) et U ([2, 4]).

X−µ
1) Si X ; N (µ, σ) alors ; N (0, 1)
σ
Normale
1 x − µ !2 E (X) = µ 2) Si X ; N (µX , σ X ) et Y ; N (µY , σ Y ) sont
1 − des v.a. indépendantes alors
X ; N (µ, σ) σ et
f (x) = √ e 2
µ réel et σ réel > 0 σ 2π V ar (X) = σ 2
q
X+Y ;N µX + µY , σ 2X + σ 2Y .

N (−2, 0.5), N (0, 1) puis N (4, 2).

Chisquare Si X1 , · · · , Xn sont n lois N (0, 1) indépendantes

x (ν−2)

 E (X) = ν alors
2
 e− 2 x 2
et n
X ; χ (ν) f (x) = ν si x > 0 X 2 2
 2 2 Γ ν2 V ar (X) = 2ν Y = Xi ; χ (n)
ν entier > 0 
0 sinon i=1

ν = 3, ν = 6 puis ν = 9.

Si X ; N (0, 1) et Y ; χ2 (ν) sont indépen-

dantes alors
Student − 1 (ν+1)
x2 2 E (X) = 0 si ν ≥ 2
1+ ν
X ; St (ν) et X
f (x) = 1 ν √
ν Z= r ; St (ν)
ν entier > 0 β 2, 2 ν V ar (X) = si ν ≥ 3 Y
ν−2
ν

ν = 2 et ν = 30.

 ( ν2
1ν
1
1ν
2
ν1
−1 E (X) = Si X1 ; χ2 (ν 1 ) et X2 ; χ2 (ν 2 ) sont indépen-
2
 ν2 − 2
Fisher 
 ν 12 ν 22 x dantes alors
f (x) = 1 si ν 2 ≥ 3
ν1 ν2
X ; F (ν 1 , ν 2 ) 
 (ν 1x+ν 2) 2(ν 1+ν 2)β 2 , 2 et

si x > 0
 X1 /ν 1
ν 1 , ν 2 entiers > 0  2ν 22 (ν 1 +ν 2 −2) Y = ; F (ν 1 , ν 2 )
V ar (X) = X2 /ν 2
ν 1 (ν 2 −2)2 (ν 2 −4)
f (x) = 0 sinon 
si ν 2 ≥ 5
F (5, 200), F (200, 5) puis F (30, 30).

Vous aimerez peut-être aussi

Statistislidesb
Pas encore d'évaluation
Statistislidesb
27 pages
Mini Poly
Pas encore d'évaluation
Mini Poly
2 pages
Statistique Inférentielle Avancée
Pas encore d'évaluation
Statistique Inférentielle Avancée
63 pages
Statistique Inferentielle Licence 2
Pas encore d'évaluation
Statistique Inferentielle Licence 2
75 pages
Cours Pierre Ribereau
100% (1)
Cours Pierre Ribereau
100 pages
Statistique Inferentielle L 2
Pas encore d'évaluation
Statistique Inferentielle L 2
55 pages
Formulaire Statistique
Pas encore d'évaluation
Formulaire Statistique
15 pages
STAT 4 LICENCE Yode
Pas encore d'évaluation
STAT 4 LICENCE Yode
75 pages
Principes de Statistique Inférentielle
Pas encore d'évaluation
Principes de Statistique Inférentielle
145 pages
Statistique Mathematique Applications Commentes by Jean-Pierre Boulay
100% (1)
Statistique Mathematique Applications Commentes by Jean-Pierre Boulay
361 pages
Stat Licence 2
Pas encore d'évaluation
Stat Licence 2
75 pages
Cours de Statistique Inférentielle
100% (1)
Cours de Statistique Inférentielle
131 pages
Poly Stat Inf
Pas encore d'évaluation
Poly Stat Inf
69 pages
Statistique Inférentielle DataScience
Pas encore d'évaluation
Statistique Inférentielle DataScience
58 pages
Test Hypothese Bouake
Pas encore d'évaluation
Test Hypothese Bouake
9 pages
Chap2 2024 2025
Pas encore d'évaluation
Chap2 2024 2025
14 pages
Test d'hypothèse statistique
Pas encore d'évaluation
Test d'hypothèse statistique
54 pages
Introduction aux Probabilités et Statistiques
Pas encore d'évaluation
Introduction aux Probabilités et Statistiques
150 pages
SNP MH
Pas encore d'évaluation
SNP MH
77 pages
Proba5 PDF
0% (1)
Proba5 PDF
8 pages
Cours Stat NP Ensiie
Pas encore d'évaluation
Cours Stat NP Ensiie
286 pages
4) Tests Statistiques
Pas encore d'évaluation
4) Tests Statistiques
9 pages
Statistiques Avancées pour Économistes
Pas encore d'évaluation
Statistiques Avancées pour Économistes
80 pages
Introduction aux Tests Statistiques
Pas encore d'évaluation
Introduction aux Tests Statistiques
18 pages
Introduction à l'inférence statistique
Pas encore d'évaluation
Introduction à l'inférence statistique
43 pages
Cours Tests
Pas encore d'évaluation
Cours Tests
8 pages
Chap7 Statistique Inferentielle
Pas encore d'évaluation
Chap7 Statistique Inferentielle
8 pages
Complement de Cours Sur L'estimation
Pas encore d'évaluation
Complement de Cours Sur L'estimation
64 pages
Statistique Non Paramétrique 101
Pas encore d'évaluation
Statistique Non Paramétrique 101
35 pages
Fomulaire Examen
Pas encore d'évaluation
Fomulaire Examen
11 pages
Stats 2
Pas encore d'évaluation
Stats 2
191 pages
Polycope Cours Echant
Pas encore d'évaluation
Polycope Cours Echant
64 pages
Poly. Stat Inferentielle
Pas encore d'évaluation
Poly. Stat Inferentielle
107 pages
Introduction à la Statistique Mathématique
Pas encore d'évaluation
Introduction à la Statistique Mathématique
87 pages
4 Regression
Pas encore d'évaluation
4 Regression
78 pages
Tests Non Paramétriques en Économétrie
100% (2)
Tests Non Paramétriques en Économétrie
110 pages
Cours 3
Pas encore d'évaluation
Cours 3
38 pages
A7 Cours Non Param PDF
Pas encore d'évaluation
A7 Cours Non Param PDF
69 pages
Analyse de La Variance - Pour Fusion
Pas encore d'évaluation
Analyse de La Variance - Pour Fusion
16 pages
Introduction à la Statistique Mathématique
Pas encore d'évaluation
Introduction à la Statistique Mathématique
107 pages
Moyenne Variance3
Pas encore d'évaluation
Moyenne Variance3
31 pages
Introduction à la Statistique Inférentielle
Pas encore d'évaluation
Introduction à la Statistique Inférentielle
26 pages
Gilbert CoursNP
Pas encore d'évaluation
Gilbert CoursNP
114 pages
Révision Echantillonnage Estimation Test
Pas encore d'évaluation
Révision Echantillonnage Estimation Test
16 pages
TestsStudent Sept2020
Pas encore d'évaluation
TestsStudent Sept2020
47 pages
M1 Stat
Pas encore d'évaluation
M1 Stat
100 pages
Stat Nonp P20 Annotations
Pas encore d'évaluation
Stat Nonp P20 Annotations
132 pages
Stat Nonp P20 v2 1
Pas encore d'évaluation
Stat Nonp P20 v2 1
142 pages
Cours de Statistique GIL
Pas encore d'évaluation
Cours de Statistique GIL
53 pages
Formulaire de Statistique Inférentielle
100% (3)
Formulaire de Statistique Inférentielle
8 pages
STATinf L2
Pas encore d'évaluation
STATinf L2
28 pages
Stat Math Poly 2013
Pas encore d'évaluation
Stat Math Poly 2013
108 pages
Cours de Statistique Mathématique
Pas encore d'évaluation
Cours de Statistique Mathématique
119 pages
Unité 4 Statistique Inférentielle
Pas encore d'évaluation
Unité 4 Statistique Inférentielle
6 pages
Guide du Recrutement et GPEC
100% (1)
Guide du Recrutement et GPEC
1 page
Probat Ad-2025 Physique Pdti
Pas encore d'évaluation
Probat Ad-2025 Physique Pdti
3 pages
Optimisation Matricielle et Calculs de Gradients
Pas encore d'évaluation
Optimisation Matricielle et Calculs de Gradients
1 page
Principales Méthodes d'Enseignement
Pas encore d'évaluation
Principales Méthodes d'Enseignement
3 pages
Principe de Gilbreath
100% (1)
Principe de Gilbreath
43 pages
Ansys Etape 3
Pas encore d'évaluation
Ansys Etape 3
40 pages
s01 td2 2 Les Scripts Shell
Pas encore d'évaluation
s01 td2 2 Les Scripts Shell
4 pages
10 Principes Fondamentaux de Comptabilité
Pas encore d'évaluation
10 Principes Fondamentaux de Comptabilité
8 pages
Développer la Communication Orale
Pas encore d'évaluation
Développer la Communication Orale
6 pages
Processus Polyblocs
100% (1)
Processus Polyblocs
125 pages
La Derive Des Continents PDF
Pas encore d'évaluation
La Derive Des Continents PDF
38 pages
Comparaison des volcans effusifs et explosifs
100% (2)
Comparaison des volcans effusifs et explosifs
2 pages
Candidats Convoques Epreuve Ecrite MMSD - 24 - 25
Pas encore d'évaluation
Candidats Convoques Epreuve Ecrite MMSD - 24 - 25
7 pages
Composant PDF
Pas encore d'évaluation
Composant PDF
13 pages
Gestion des Risques en Entreprise
Pas encore d'évaluation
Gestion des Risques en Entreprise
2 pages
Semestre 1 Devoir 1
Pas encore d'évaluation
Semestre 1 Devoir 1
1 page
Cours Premiere D Angles Orientes Et Trigonometrie: Ministère de L'enseignement Supérieur Et de La Recherche Scientifique
100% (1)
Cours Premiere D Angles Orientes Et Trigonometrie: Ministère de L'enseignement Supérieur Et de La Recherche Scientifique
43 pages
Examen Routes UM 2021-2022 Sess1 AN
Pas encore d'évaluation
Examen Routes UM 2021-2022 Sess1 AN
4 pages
Exercices 7a
Pas encore d'évaluation
Exercices 7a
2 pages
Rapport de Stage de Fin D'études (AZNAD Basma)
Pas encore d'évaluation
Rapport de Stage de Fin D'études (AZNAD Basma)
41 pages
Guide du fonds documentaire de la bibliothèque
Pas encore d'évaluation
Guide du fonds documentaire de la bibliothèque
2 pages
Chapitre I - SNL - Introduction - 2020
Pas encore d'évaluation
Chapitre I - SNL - Introduction - 2020
17 pages
Explicite PC 1AC-5-9
Pas encore d'évaluation
Explicite PC 1AC-5-9
5 pages
Ctrls Hydrogéologie
Pas encore d'évaluation
Ctrls Hydrogéologie
4 pages
CC1-24-25-corrigé (Mise À Jour 271025)
Pas encore d'évaluation
CC1-24-25-corrigé (Mise À Jour 271025)
6 pages
Synthese Chapitre 7
Pas encore d'évaluation
Synthese Chapitre 7
6 pages
Explication de Texte Guide Méthodologique
Pas encore d'évaluation
Explication de Texte Guide Méthodologique
1 page
Les Séances de Travaux Pratiques en PH2
Pas encore d'évaluation
Les Séances de Travaux Pratiques en PH2
8 pages
Types d'aquifères et caractéristiques hydrogéologiques
Pas encore d'évaluation
Types d'aquifères et caractéristiques hydrogéologiques
2 pages
Synthèse Bilan de Competences
Pas encore d'évaluation
Synthèse Bilan de Competences
19 pages