Poly
Poly
Probabilités
CQLS : cqls@[Link]
[Link]
1 Introduction et généralités
1.1 Cadre d’estimation à un échantillon
Dans ce cadre, tout problème pratique doit se ramener à l’étude d’une unique variable d’intérêt
notée ici Y (pouvant aussi être vue comme une future unique donnée). En pratique, nous disposerons
d’un jeu de n données y = (y1 , . . . , yn ) (i.e. un vecteur ou “paquet” de n observations “indépendantes”
de Y ) qui peut par conséquent être vu comme un résultat possible d’un futur jeu de n données
Y = (Y1 , . . . , Yn ). Afin d’expliciter le paramètre d’intérêt intimement lié dans les problématiques
du cours à la variable d’intérêt Y , nous imaginerons disposer d’une infinité de données virtuelles
y[1] , . . . , y[m] , . . . dont la notation en indice entre crochet (i.e. “[·] ”) nous rappelle qu’il ne faut pas les
confondre avec le jeu des n données y1 , . . . , yn qui seront bien réelles. Rappelons aussi que dans ce
cours les tailles n des données réelles et m des données virtuelles ont a priori des ordres de grandeur
complètement différents, à savoir n plutôt raisonnablement grand et m aussi grand que possible voire
infini.
1
1.2 Cadre d’estimation à deux échantillons (indépendants)
ll y a dans ce cadre deux variables d’intérêts Y (1) et Y (2) (“indépendantes”) dont on cherche soit
(1) (1)
à comparer les moyennes soit les variances à partir de deux échantillons, l’un y(1) = (y1 , . . . , yn(1) )
(2) (2)
de taille n(1) et l’autre y(2) = (y1 , . . . , yn(2) ) de taille n(2) . Il en découle deux futurs jeux de données
(1) (1) (2) (2)
Y(1) = et Y(2) =
(Y1 , . . . , Yn(1) ) (Y1 , . . . , Yn(2) ).
Pour homogénéiser ce cas avec celui à un seul
échantillon, nous noterons Y, le vecteur aggrégé de toutes les futures données Y = (Y(1) , Y(2) ) de
taille n = n(1) + n(2) . De manière analogue au cas d’un seul échantillon, nous imaginons disposer de
(1) (1) (2) (2)
deux infinités de données virtuelles, l’une y[1] , . . . , y[m] , . . . relative à Y (1) et l’autre y[1] , . . . , y[m] , . . .
relative à Y (2) . Pour j = 1 ou j = 2, on peut alors exprimer :
(j) (j)
— la moyenne µY (j) ou plus simplement µ(j) par y[·] ' y[·] = µ(j) .
m ∞
←−−→
←−−→
2 2
(j) (j)
— la variance σ 2Y (j) ou plus simplement σ 2(j) définie par y[·] m ' y[·] ∞ = σ 2(j)
Nous sommes alors en mesure d’introduire les paramètres servant à comparer respectivement les
moyennes et les variances.
— comparaison de moyennes s’étudiant soit à partir de la différence de moyennes dµ =
µ(1) − µ(2) soit à partir du rapport de moyennes rµ = µ(1) /µ(2) (si µ(2) 6= 0).
— comparaison de variances s’étudiant soit à partir de la différence de variances dσ2 =
σ 2(1) − σ 2(2) soit à partir du rapport de variances rσ2 = σ 2(1) /σ 2(2) (si σ 2(2) 6= 0).
Insistons sur le fait que les utilisations d’une différence ou d’un rapport ne sont pas anodines puis-
qu’elles permettent de traiter des assertions d’intérêt différentes.
2
Avant le jour J
(θ fixé éventuellement à une valeur arbitraire pour l’expérimentation)
Mathématique Y Y θ(Y ) ou Θ
b b t(Y ) ou T
y [1]
y[1] .. θ(y[1] ) ou b
θ[1] t(y[1] ) ou t[1]
.
b
y
[n]
y[n+1]
Expérimental y[2] .. θ(y[2] ) ou b
θ[2] t(y[2] ) ou t[2]
.
b
y[2n]
.. .. .. ..
. . . .
y[(m−1)×n+1]
y[m] .. θ(y[m] ) ou bθ[m] t(y[m] ) ou t[m]
.
b
y[m×n]
.. .. .. ..
. . . .
Moyenne = µ := y[·] ∞ = E (Y ) bθ y[·] =E b θ (Y ) t(y [·] ) = E (t(Y ))
∞ ∞
←−−−−−→
←−→ σbθ := bθ y[·] ∞ ←
−−−−→
σ := y[·] ∞
Ecart-Type = t(y [·] ) ∞ = σ(t(Y ))
= σ(Y ) = σ(b
θ (Y ))
r p
= Var (t(Y ))
p
= Var (Y ) = Var b θ (Y )
θ y[·] ∈ [a, b[
Proportion dans [a, b[ = y[·] ∈ [a, b[ ∞ b t(y [·] ) ∈ [a, b[
∞ ∞
P ∈ [a, b[)
= P(Y = P(
Pb θ (Y ) ∈ [a, b[) = P(t(Y
P ) ∈ [a, b[)
Histogramme à pas “zéro” = fY fbθ(Y ) ou fΘ b ft(Y ) ou fT
1 1 1
Surface brique (m fini) = mn m m
Après le jour J
(θest égal à θ• qui est toujours inconnu)
y1
Pratique y .. θ(y) ou b
θ t(y) ou t
.
b
yn
Le jour J (θ = θ• ), si on essaye d’associer des temps de conjugaison aux différents concepts, nous
pouvons dire :
→ le jeu de données réel y représente le présent.
→ le jeu de données aléatoire Y représente le futur (on pourra alors aussi l’appeler futur jeu
de données)
→ les jeux de données virtuels y[j] représentent le conditionnel (ils représentent une infinité
de jeux de données que l’on aurait pu avoir à la place de y)
3
2 Test d’hypothèses
De manière générale, la rédaction standard d’un test d’hypothèses s’écrit toujours de la même
façon. Elle est décrite ci-dessous pour un paramètre θ qui devra être remplacé par p pour une pro-
portion, µ pour une moyenne, σ 2 pour une variance, dµ (resp. rµ ) pour une différence (resp. rapport)
de moyennes et enfin dσ2 (resp. rσ2 ) pour une différence (resp. rapport) de variances. La valeur de
référence θ0 et la loi L0 devront être adaptée selon la problématique.
Règle de décision
:
p − valeur < α
ou de manière équivalente
+
on accepte H1 si δ θ,θ0 (y) > δ lim,α (a)
d
−
δdθ,θ 0 (y) < δ lim,α (b)
δd (y) < δ −
+
lim,α/2 ou δ θ,θ 0 (y) > δ lim,α/2 (c)
θ,θ 0
d
où δ − +
lim,α = qα et δ lim,α = q1−α désignent respectivement les quantiles d’ordre α et 1 − α associés
à la loi L0 et où la p−valeur est définie mathématiquement par :
Pθ=θ0 δ θ,θ0 (Y ) > δ θ,θ0 (y) (a) : p-valeur droite
d d
p-valeur =
Pθ=θ0 δ θ,θ0 (Y ) < δ θ,θ0 (y) (b) : p-valeur gauche
d d
θ,θ 0 (Y )<δ θ,θ 0 (y )),Pθ=θ 0 (δ θ,θ 0 (Y )>δ θ,θ 0 (y )))
2×min(Pθ=θ0 (δd (c) : p-valeur bilatérale
d d d
Propriétés :
Tableaux récapitulatifs :
Il sera aussi supposé que les données ont été saisies dans le logiciel R soit sous le nom y (pour un
unique échantillon) soit sous les noms y1 et y2 (pour deux échantillons indépendants).
4
θ θ (Y )
b θ (y) en R
b σ
cbθ (Y ) σ
cbθ (y) en R
n
rσbθ r
1X p(1 − p) pb (Y ) (1 − pb (Y ))
p pb (Y ) = Y = Yi mean(y) σ pb = seMean(y)
n i=1 n n
s
n
r
1X σ2 σ
c2 (Y )
µ µ
b (Y ) = Y = Yi mean(y) σ µb = seMean(y)
n i=1 n n
v
s u
n u σc 2
1 X σ 2Ÿ t Ÿ Ÿ
σ2 σ
c2 (Y ) = (Yi − Y )2 var(y) σ σc2 = seVar(y)
n − 1 i=1 n n
s s
(1) (2)
2 2
2
σ (1) σ 2(2) σd
(1) Y σd
(2) Y
σ dcµ = + + seDMean(y1,y2)
dµ = µ(1) −µ(2) d(1) Y (1) − µ(2) Y (2) mean(y1)-mean(y2) n(1) n(2) n(1) n(2)
d
µ (Y ) = µ
dc
(1) 2 (1) (2) 2 (2)
(n −1)σd (1)
Y +(n −1)σd (2)
Y
Cas Gaussien et σ 2(1) = σ 2(2) = σ 2 : σ c2 (Y ) =
n(1) +n(2) −2
seDMeanG(y1,y2)
v
s u
2 (1) 2 (2)
σ 2Ÿ (1) σ 2Ÿ (2)
u σ[
t Ÿ (1) Ÿ σ[ Ÿ (2)
Ÿ
(1)
2
d d var(y1)-var(y2) + seDVar(y1,y2)
d
dσ2 = σ 2(1) −σ 2(2) d σ 2 (Y ) = σ (1) Y − σ 2(2) Y (2) σ dd2 = + (2)
σ n(1) n n(1) n(2)
s s
2 (1) 2
µ(1) µd(1) Y (1)
1 σ 2(1) σ 2(2) σd(1)
Y σd (2)
Y (2)
1 2
rµ = rbµ (Y ) = mean(y1)/mean(y2) σ rcµ = (2) + rµ2 × (2)
n(1)
+ rbµ (Y ) × n(2)
seRMean(y1,y2)
µ(2) µd(2) Y (2) µ n(1) n µd
(2) Y (2)
s s
(1) 2 2
2
σd \
σ Ÿ (1) \
σ Ÿ (1)
σ 2(1) (1) Y 1 σ 2Ÿ (1) σ 2Ÿ (2) Ÿ (1) 2 Ÿ (1)
rσ2 = σ 2 (Y ) = var(y1)/var(y2) = 2 1 σ 2 (Y ) seRVar(y1,y2)
σ2 n(1) n(1)
rc σ rd +rσ2 2 (2) + rc
(2) 2
2
σ 2(2) σd σ (2) n(1) n σd(2)
Y (2)
(2) Y
5
Cadre Asymptotique Cadre Gaussien
θ θ0 σbθ sous H0
r δ θ,θ0 = (θ − θ0 )/σbθ δd
θ,θ 0 (Y ) et sa loi sous H0 δ θ,θ0 δd
θ,θ 0 (Y ) et sa loi sous H0
p0 (1 − p0 ) p − p0 pb (Y ) − p0 approx.
p p0 δ p,p0 = q δd
p,p0 (Y ) = q ; N (0, 1)
n p0 (1−p0 ) p0 (1−p0 )
n n
µ − µ0 µ
b (Y ) − µ0 approx. µ − µ0 µ
b (Y ) − µ0
µ µ0 σ µb δ µ,µ0 = δ[µ,µ0 (Y ) = ; N (0, 1) δ µ,µ0 = δ[µ,µ0 (Y ) = ; St(n − 1)
σ µb σcµb (Y ) σ µb σcµb (Y )
σ 2 − σ 20 σc2 (Y ) − σ 2 approx.
0 σ2 σ
c2 (Y )
σ2 σ 20 σ σc2 δ σ2 ,σ20 = δ\ σ 2 ,σ 20 (Y ) = ; N (0, 1) δ σ2 ,σ20 = (n − 1) 2 δ\
σ 2 ,σ 20 (Y ) = (n − 1) ; χ2 (n − 1)
σ σc2 σd σ
c2 (Y ) σ0 σ 20
dµ − d0 dcµ (Y ) − d0 approx. dµ − d0 d
c µ (Y )−d0
dµ = µ(1) −µ(2) d0 σ dcµ δ dµ ,d0 = δ\ dµ ,d0 (Y ) = ; N (0, 1) δ dµ ,d0 = δ\ ; St(n(1) +n(2) −2)
σ d
(Y )
dµ ,d0 (Y ) = σd Y
d
d µ
( )
µ
σ dcµ d c σ dcµ
dσ2 − d0 d
d σ 2 (Y ) − d0 approx.
dσ2 = σ 2(1) −σ 2(2) d0 σ dd2 δ dσ2 ,d0 = δ\ dσ2 ,d0 (Y ) = ; N (0, 1)
σ (Y )
2
σ dd2 σddd
σ σ
µ(1) rµ − r0 rbµ (Y ) − r0 approx.
rµ = (2) r0 σ rcµ δ rµ ,r0 = δ\rµ ,r0 (Y ) = ; N (0, 1)
µ σ rcµ σ
d rcµ
(Y )
σ 2(1) rσ2 − r0 rcσ 2 (Y ) − r0 approx. rσ2 σ 2 (Y )
rc
rσ2 = 2 r0 σ2
σ rd δ rσ2 ,r0 = δ\rσ2 ,r0 (Y ) = ; N (0, 1) δ rσ2 ,r0 = δ\
rσ2 ,r0 (Y ) = ; F(n(1) − 1, n(2) − 1)
σ (2) σ rdσ2
σdrdσ2
(Y ) r0 r0
3 Intervalle de confiance
3.1 Généralités
Le concept d’intervalle de confiance d’un paramètre quelconque θ consiste à proposer
h un encadre-i
ment (ou une “fourchette”) représenté par un intervalle de variables aléatoires e θinf (Y ) , e
θsup (Y )
de sorte que le paramètre d’intérêt θ inconnu ait un niveau de confiance 1 − α (plutôt élevé si α
raisonnablement petit) d’être à l’intérieur de cet intervalle. Mathématiquement cela s’exprime par :
h i
P θ∈ e θsup (Y ) = 1 − α
θinf (Y ) , e
Par l’approche expérimentale, si hnous pouvions imaginer répéter autant de fois que ipossible la
i h
conception d’intervalles de confiance e θinf y[1] , e
θsup y[1] , . . . , eθinf y[m] , e θsup y[m] , . . . obte-
nus respectivement sur une infinité de jeux de données virtuels y[1] , . . . , y[m] , . . ., nous constaterions
alors qu’il n’y en aurait qu’une proportion 1 − α qui contiendraient le paramètre d’intérêt θ inconnu.
La construction de ces intervalles dépend en général de la caractérisation du comportement aléatoire
de la mesure d’écart standardisée δbθ,θ (Y) proposée dans toutes les problématiques dans le tableau
suivant :
où δ +
lim, α est le quantile d’ordre 1 −
α
2 de la loi N (0, 1)
2
6
l’écart entre b
θ (Y ) et θ exprimée via la mesure d’écart standardisée δbθ,θ (Y ). Il s’agit alors de trouver
θinf (Y ) et θsup (Y ) tels que
e e
1−α = P e θinf (Y ) < θ < e
θsup (Y ) en utilisant le fait que 1−α = P q α2 < δbθ,θ (Y ) < q1− α2
où q1− α2 est le quantile d’ordre 1 − α2 de la loi de la mesure d’écart standardisée δbθ,θ (Y ). L’exercice
est plus difficile que dans le cadre asymptotique d’une part parce que la mesure d’écart standardisée
δbθ,θ (Y ) (θ étant au choix µ, σ 2 , dµ ou rσ2 ) ne se décline pas toujours sur le même schéma de
construction et d’autre part parce que la loi de δbθ,θ (Y ) n’est plus une loi Normale standard. Sans
trop nous attarder, voici les différents intervalles de confiance pour les différents choix de θ :
• θ=µ:
s s
c2 (Y )
σ c2 (Y )
σ
µ b (Y ) − q1− α2 ×
einf (Y ) = µ et µesup (Y ) = µb (Y ) + q1− α2 ×
n n
α
où q1− α2 est le quantile d’ordre 1 − 2 de la loi St(n − 1).
2
• θ=σ :
σ c2 (Y ) × n − 1
f2 inf (Y ) = σ et c2 (Y ) × n − 1
f2 sup (Y ) = σ
σ
q1− α2 q α2
α α
où q1− α2 (resp. q α2 ) est le quantile d’ordre 1 − 2 (resp. 2) de la loi χ2 (n − 1).
• θ = dµ : s
c2 (Y ) 1 1
µ inf (Y ) = dµ (Y ) − q1− α
df × σ + (2)
c
2
n(1) n
et s
c2 (Y ) 1 1
df
µ sup (Y ) = dµ (Y ) + q1− α
c × σ + (2)
2
n(1) n
où q1− α2 est le quantile d’ordre 1 − α2 de la loi St(n(1) + n(2) − 2). La quantité σ c2 (Y ) est définie
comme dans le tableau récapitulatif des tests d’hypothèses (partie cadre gaussien).
• θ = rσ2 :
1 1
rf σ 2 (Y ) ×
σ 2 inf (Y ) = rc et rf σ 2 sup (Y ) = rcσ 2 (Y ) ×
q1− α2 q α2
où q1− α2 (resp. q α2 ) est le quantile d’ordre 1 − α2 (resp. α2 ) de la loi F n(1) − 1, n(2) − 1 .
7
4. “Delta” (δ en minuscule et ∆ en majuscule) est utilisé pour désigner un écart le plus souvent
additif (i.e. une soustraction) mais parfois multiplicatif (i.e. une division).
— La Norme CQLS a été introduite pour décrire le plus précisément possible l’Approche Ex-
périmentale des Probabilités (A.E.P.). L’A.E.P. s’articulant sur une distinction des différents
jeux de données, la Norme CQLS repose sur la convention suivante : Toute statistique (i.e.
v.a. dépendant d’un jeu de données) s’écrit comme une fonction du jeu de données.
— Il n’y a pas vraiment de convention propre à la Norme SSE. Son objectif est cependant de ne
pas respecter la convention spécifique (ci-dessus) à la Norme CQLS dans le but de rendre plus
synthétique les notations mathématiques.
— Le tableau ci-dessous exprime plus clairement la spécificité des Normes CQLS et SSE en
proposant les principales expressions utilisées en statistique dans les 2 normes.
Statistique Aléatoire ou futur Réalisé ou présent Réalisable ou conditionnel
(v.a. fonction de l’échantillon) CQLS SSE CQLS SSE CQLS SSE
• •
• • • •
Estimation de θ θ (Y )
b Θb θ (y)
b θ
b θ y [k]
b θ[k]
b
Estimation de p• pb• (Y ) Pb• pb• (y) pb• pb• y [k] pb•[k]
Estimation de µ• c• (Y )
µ Mc• c• (y)
µ b•
µ c• y [k]
µ b•[k]
µ
Estimation de σ 2• c2 (Y )
σ • Σb2
•
c2 (y)
σ • b2•
σ c2 y
σ • b2•,[k]
σ
[k]
Erreur standard de θb• σ
d θc• (Y ) Σ
b θ• σ
d θc• (y) σ
bθ• σ
d θ
c • y [k] σ
bθ• ,[k]
Ecart entre θb• et θ• δ θc• ,θ• (Y ) ∆θ • δ θc• ,θ• (y) δ θ• δ θc• ,θ• (y [k] ) δ θ• ,[k]
Estimation de δ θ• ,θ0 (ou δ θ0 ) δ\θ • ,θ 0 (Y ) ∆
bθ
0
δ\θ • ,θ 0 (y)
bδ θ0 δ\
θ • ,θ 0 y [k] δ θ0 ,[k]
b
— Le tableau ci-dessous illustre comment convertir une notation en sa définition littérale ou ma-
thématique pour des concepts de base de la statistique. La conversion dans le langage R y est
aussi proposée permettant à l’utilisateur de savoir comment obtenir ces quantités en Pratique :
Notation Définition littérale Définition mathématique
y Vecteur des réels y1 , · · · , yn (y1 , · · · , yn )
ou (y· )n (yi est la ième composante de y) (en R : y <- c(y1 ,· · · ,yn ))
R
#(y) Nombre de composantes de y n = length(y)
n
1X R
y ou (y· )n Moyenne (empirique) de y yi = mean(y)
n i=1
n
y=a Proportion des y1 , · · · , yn 1X R
ou (y· = a)n égaux à a 1yi =a = mean(y==a)
n i=1
n
a≤y≤b Proportion des y1 , · · · , yn 1X R
ou (a ≤ y· ≤ b)n dans [a, b] avec (a ≤ b) 1[a,b] (yi ) = mean(a<= y & y<= b)
n i=1
v
u n
←
→ ←−→ u 1 X R
y ou (y· )n Ecart-type (empirique) de y t (yi − y)2 = sd(y)
n − 1 i=1
n
←−→2 1 X
(←
→ R
y )2 ou (y· )n Variance (empirique) de y (yi − y)2 = var(y)
n − 1 i=1
y +y
qα (y) Quantile d’ordre α de y y[αn]+1 (n impair) et [αn]+1 2 [αn]+1 (n pair)
R
ou qα (y· )n (0 < α < 1) = quantile(y,alpha)
5 Quelques instructions R
Instructions de base par l’exemple : des exemples (commentés) valent (peut-être) mieux que de
longs discours !
8
6 > y
7 [1] 1 3 2 4 7 6
8 > 4+2*y
9 [1] 6 10 8 12 18 16
10 > mean(y) # Moyenne de y
11 [1] 3.833333
12 > sd(y) # Ecart-type de y
13 [1] 2.316607
14 > yc <- y-mean(y) # yc correspond au vecteur y centré
15 > yc
16 [1] -2.8333333 -0.8333333 -1.8333333 0.1666667 3.1666667 2.1666667
17 > mean(yc) # Moyenne nulle
18 [1] -1.480297e-16
19 > sd(yc) # Idem que l’écart-type de y
20 [1] 2.316607
21 > ycr <- (y-mean(y))/sd(y) # ycr correspond au vecteur y centré et réduit
22 > mean(ycr) # Moyenne nulle
23 [1] -7.40239e-17
24 > sd(ycr) # Ecart-type à 1
25 [1] 1
26 > var(y) # Variance de y
27 [1] 5.366667
28 > sqrt(var(y)) # Ecart-type = racine carrée de variance
29 [1] 2.316607
30 > sd(y)^2 # Variance = carré de l’écart-type
31 [1] 5.366667
Quantiles et fonctions de répartition avec R : Soit p un réel appartenant à ]0, 1[, on définit le
quantile d’ordre p associée à une loi de probabilité le réel qui via l’approche expérimentale peut être
vu comme le réel qui sépare l’infinité des observations (associée à la loi de probabilité) en deux, une
proportion p à gauche et une proportion 1−p à droite. On définit également la fonction de répartition
en un réel q, la proportion parmi l’infinité des observations qui se situent avant q. Ces deux notions
sont illustrées dans la figure 1.
R
Figure 1 – Si X ; loi(. . .) (v.a. continue), alors f (x) = dloi (x, . . .) représente sa densité de
R R
probabilité, p = F (q) = P (X ≤ q) = ploi (q, . . .) sa fonction de répartition et q = F −1 (p) =
qloi (p, . . .) son quantile d’ordre p.
Le tableau suivant résume les différentes lois de probabilités considérées dans ce cours de deuxième
année ainsi que les instructions R permettant d’évaluer les quantiles et fonctions de répartitions
associés à ces lois de probabilités.
9
lois de probabilités loi R quantile d’ordre p fonction de répartition en q
Normale N (µ, σ) norm qnorm(p, µ, σ) pnorm(q,µ, σ)
Normale N (0, 1) norm qnorm(p) pnorm(q)
Chisquare χ2 (n) chisq qchisq(p, n) pchisq(q, n)
Fisher F(n1 , n2 ) f qf(p, n1 , n2 ) pf(q, n1 , n2 )
Student St(n) t qt(p, n) pt(q, n)
Application :
1 > pnorm(1.6449) # proba N(0,1) plus petit que 1.6449
2 [1] 0.9500048
3 > qnorm(0.95) # quantile N(0,1) d’ordre 95% proche de 1.6449
4 [1] 1.644854
5 > 1-pnorm(1.96) # proba N(0,1) plus grand que 1.96 proche de 2.5%
6 [1] 0.0249979
7 > qnorm(c(.95,.975,.99)) # quantiles N(0,1) d’ordre 95%, 97.5% et 99%
8 [1] 1.644854 1.959964 2.326348
9 > qt(c(.95,.975,.99),10) # quantiles St(10) d’ordre 95%, 97.5% et 99%
10 [1] 1.812461 2.228139 2.763769
11 > pt(c(1.812461,2.228139,2.763769),10) # les probas correspondantes
12 [1] 0.950 0.975 0.990
13 > qchisq(c(.95,.975,.99),10) # quantiles Khi2(10) d’ordre 95%, 97.5% et 99%
14 [1] 18.30704 20.48318 23.20925
15 > pchisq(c(18.30704,20.48318,23.20925),10) # les probas correspondantes
16 [1] 0.950 0.975 0.990
17 > qf(c(.95,.975,.99),10,20) # quantiles F(10,20) d’ordre 95%, 97.5% et 99%
18 [1] 2.347878 2.773671 3.368186
19 > pf(c(2.347878,2.773671,3.368186),10,20) # les probas correspondantes
20 [1] 0.950 0.975 0.990
Illustration du lien entre A.E.P. et A.M.P. : Une instruction rloi(n,...) (du même type que
les intructions ploi(q,...) et qloi(p,...) présentées précédemment) permet de générer simulta-
nément n réalisations y := (y1 , · · · , yn ) d’une v.a. Y ayant pour loi loi(...). Illustrons-le sur une
vérification expérimentale (A.E.P.) d’obtention de probabilité, quantile, moyenne et variance relatifs
à une loi N (1, 2).
1 > yy<-rnorm(10000,1,2) # les m=10000 réalisations ont stockées dans le vecteur yy
2 > yy # les 10 premières et 10 dernières composantes de yy
3 [1] -1.9244056433 2.2470105383 1.4959577111 -0.6281167629 0.7748889208
4 [6] 2.8418626055 -0.3823280944 1.8507022286 -0.0011450527 2.8635135780
5 ...
6 [9991] 0.2425250359 1.3251613864 2.0719073633 1.3248159207 -0.0456224746
7 [9996] -0.1919508046 -2.5780901555 -0.2746202274 1.0971032366 -1.6129234106
8 > mean(yy<0.5) # proportion des m=10000 composantes strictement inférieur à 0.5
9 [1] 0.4091
10 > pnorm(0.5,1,2) # idem si m=infini
11 [1] 0.4012937
12 > mean(yy==0.5) # proportion des m=10000 composantes égale à 0.5 (=0 si m=infini)
13 [1] 0
14 > mean(0.5<=yy && yy<=3) # proportion des m=10000 composantes compris entre 0.5 et 3
15 [1] 0
16 > pnorm(3,1,2)-pnorm(.5,1,2) # idem si m=infini
17 [1] 0.4400511
18 > quantile(yy,.95) # quantile d’ordre 95% des m=10000 composantes
19 95%
20 4.230095
21 > qnorm(.95,1,2) # idem si m=infini
22 [1] 4.289707
23 > mean(yy) # moyenne des m=10000 composantes (=1 si m=infini)
24 [1] 0.9764282
10
25 > var(yy) # variance des m=10000 composantes (=2^2=4 si m=infini)
26 [1] 3.865375
11
Tables de lois usuelles de variables aléatoires continues (pour la statistique)
Nom Graphe Densité de probabilité Espérance et Variance Remarques
a+b
Uniforme E (X) =
1 2
si x ∈ [a, b] et La densité de probabilité d’une loi uniforme est
X ; U ([a, b]) f (x) = b − a
(b − a)2 un histogramme à 1 classe.
a<b 0 sinon V ar (X) =
12
ν = 3, ν = 6 puis ν = 9.
ν = 2 et ν = 30.
( ν2
1ν
1
1ν
2
ν1
−1 E (X) = Si X1 ; χ2 (ν 1 ) et X2 ; χ2 (ν 2 ) sont indépen-
2
ν2 − 2
Fisher
ν 12 ν 22 x dantes alors
f (x) = 1 si ν 2 ≥ 3
ν1 ν2
X ; F (ν 1 , ν 2 )
(ν 1x+ν 2) 2(ν 1+ν 2)β 2 , 2 et
si x > 0
X1 /ν 1
ν 1 , ν 2 entiers > 0 2ν 22 (ν 1 +ν 2 −2) Y = ; F (ν 1 , ν 2 )
V ar (X) = X2 /ν 2
ν 1 (ν 2 −2)2 (ν 2 −4)
f (x) = 0 sinon
si ν 2 ≥ 5
F (5, 200), F (200, 5) puis F (30, 30).