Université IBN Tofail
École Nationale des Sciences Appliquées de Kénitra
Monsieur DRISS GRETETE
Cours de probabilité
Pré-requis, révisions et vocabulaire
Probabilités:
Formules et lois usuelles
Descriptives: étude de l’échantillion d’une population et données d’ensemble
Statistiques:
Inférentielles: analyser et interpreter ces données, faire des estimations et des
prévisions
Mise en pratique : logiciel R
Pour une expérience aléatoire, on dé�init l’univers Ω l’ensemble des résultats
possibles. Les éventualités sont les résultats élémentaires et les évènements un en-
semble d’éventualités(union, intersection...)
Rappel élémentaire sur une tribu � d’un univers Ω:
Ω ∈�
� est stable par union et intersection dénombrable
� est stable par complémentaire
Chapitre I: Introduction et Rappels
I- Vocabulaire
Ω un ensemble appelé univers
Dé�inition: Une tribu sur Ω est un ensemble T de parties de Ω tel que
1. Ω ∈ T
2. ∀ A ∈ T, A ∈ T : stable par complémentaire
3. ∀ Ai ∈ T, ‘‘ ∀ I ⊂ IN ∀ (Ai)i ∈ I ∈ Tcard(I), (⋃i ∈ I Ai ) ∈ T ’’ (⋂i ∈ I ∈ T aussi)
⦁ Les éléments de T sont appelés ‘‘ évènements ’
⦁ Les éléments de Ω sont appelés ‘‘ éventualités ’’
⦁ A, B ∈ T sont incompatibles si A∩B = ∅
⦁ (Ai)i ∈ I forme un système complet d’évènements (s.c.e) si:
∀i ∈ I , Ai ≠ ∅
Ai ∩Aj = ∅ pour i ≠ j
⋃i ∈ I (Ai ) = Ω
II-Probabilité
T une tribu sur Ω
(Ω, T) un espace probabilisable : auquel on peut appliquer une probabilité
Définition: Une probabilité sur (Ω, T) est une application p : T → [0,1] vérifiant
⦁ p (Ω) = 1
⦁ ∀ I ⊂ IN, ∀(Ai)i ∈ I ∈ T ( famille d’évènements ∈ T ) 2 à 2 disjoints :
p (⋃i ∈ I Ai ) = ∑ p (Ai)
i∈I
Propriétés :
(Ω, T) un espace probabilisable
(Ω, T, p) un espace probabilisé.
On a les propriétés suivantes:
1. p(∅) = 0
2. p(A) = 1 - p(A)
3. A ⊂ B � p( B-A ) = P(B/A)
= p(B) - p(A)
4. A, B ∈ T p(B-A) = p(B) - p(A∩B)
5. p(A∪B) = p(A) + p(B) - p(A∩B)
6. A ⊂ B � p( A ) ≤ P(B)
7. (Ai)i ∈ I ∈ T , I ⊂ IN
p(⋃i ∈ I Ai ) ≤ ∑ p (Ai)
i∈I
8. (Ai)i ∈ I ∈ T une suite croissante d’évènements de T ( An ⊂ An+1 )
alors p(⋃i ∈ I Ai ) = lim p(An)
n→+∞
9. (Ai)i ∈ I ∈ T une suite décroissante d’évènements de T ( An+1 ⊂ An)
alors p(⋂i ∈ I Ai ) = lim p(An)
n→+∞
III- Probabilité conditionnelle
Définition: Soit A ∈ T tel que p(A) ≠ 0
La probabilité conditionnelle sachant A est
p(A∩B)
p : B ⟼ p (B) =
A A p(A)
Remarque:
⦁ On note aussi p(B|A)
⦁ Si A≠ ∅ et p(A) = 0, on dit ‘‘A est presque impossible’’
⦁ Si A ≠ Ω et p(A) = 1, on dit que ‘‘A est presque certain ou presque sûr ’’
Formule des probabilités totales:
Soit (Ai)i ∈ I un s.c.e
∀ B ∈ T , p(B) = ∑ p (B∩Ai)
i∈I
Si de plus p(Ai) ≠ 0 ∀ i ∈ I alors p(B) = ∑ pA (B) . p (Ai)
i∈I i
Formule de Bayes
Soient A et B deux évènements non négligeables (de probabilité non nulle)
pB(A) . p(B) p(A∩B)
pA(B) = = avec le s.c.e (B,B)
pB(A) .p(B)+pB(A).p(B) p(A∩B)+p(A∩B)
Pour un s.c.e (Ai)i ∈ I et B un évènement quelconque de T
pA (B) . p(Ak) p(Ak∩B)
k
pB(Ak) = =
∑ pA (B) .p(Ai) ∑ p(Ai∩B)
i∈I i
i∈I
Exemple:
On considère un lot de 100 pièces dont 40 de type A et 60 de type B.
1e pièce de type A est défectueuse et 2 de type B.
On choisit au hasard une pièce et elle est défectueuse.
Calculer la probabilité qu’elle soit de type A.
Réponse:
Soit Ω l’ensemble des pièces du lot
A: ‘‘La pièce est de type A’’
B: ‘‘La pièce est de type B’’
D: ‘‘La pièce est défectueuse’’
p(A) = 0.4
p(B) = 0.6
pD(A) = 1/40
pD(B) = 2/60
On recherche pD(A).
Formule de Bayes pour D au s.c.e (A,B)
pA(D) · p(A)
pD(A) =
pA(D) · p(A)+pB(D) · p(B)
0.4 · 1/40
=
0.4 · 1/40 + 0.6 · 2/60
= 1/3 (parmi les 3 pièces défectueuses une provient de A)
Exemple 2:
On dispose de n clés donc une seule ouvre la porte. On les essaye une après l’autre
sans remise.
Calculer la probabilité de l’évènement A: ‘‘Ouvrir au k-ème essaie et non pas avant’’
Réponse:
Ci: ‘‘la clé au i-ème essaie ouvre la porte et non pas avant’’
A = C1∩C2∩......∩Ck-1∩Ck
p(A) = p(C1) · p(C2) · ......· p(Ck-1) · p(Ck)
n-1 n-2 n-(k-1) 1
= ··········
n n-1 n-(k-2) n-(k-1)
p(A)=1/n
Chapitre II: Généralités sur les variables aléatoires
Soit (Ω, T, p) un espace probabilisé.
Définition: Une variable aléatoire sur (Ω, T, p) est une application
X: Ω → IR telle que
X-1( ]-∞, x] ) ∈ T.
X-1( ]-∞, x] ) = { ω ∈ Ω / X(ω) ∈ ]-∞, x] }
Remarque
Soit X une v.a. sur (Ω, T, p);
⦁ X-1 ( ]x, +∞[ ) = X-1 ( ]-∞, x] ) ∈ T
⦁ X-1( ]a,b[ ) = X-1( ]-∞, b] ) - X-1( ]-∞, a] ) ∈ T
⦁ X-1( ]-∞, x] ) = ⋃n ∈ IN* X-1 ( ]-∞, x- -n1 ] ) ∈ T
⦁ Si X1, X2, ..........., Xnsont des v.a. sur IR, alors ∀ g continue par morceau sur IRn
g( X1, X2, ............, Xn ) est une v.a.r
I- Loi de probabilité d’une variable aléatoire:
La loi de probabilité ou loi d’une v.a.r est la donnée de l’application
pX : ℬ(IR) → [0,1]
A ↦ pX(A) = p( X-1(A) )
p( X-1(A) ) = p ( { ω ∈ Ω / X(ω) ∈ A } )
La probabilité d’avoir un évènement dont la valeur par X est dans l’ouvert A.
ℬ(IR) : la tribu borélienne de IR, ensemble des ouverts ]a,b[ de IR avec
a, b ∈ IR ∪ {-∞ , +∞}
Notations
Soit X une variable aléatoire réelle (v.a.r.)
⦁ [ X∈A ] = X-1 (A) = { ω ∈ Ω / X(ω) ∈ A }
⦁ [ X=k ] = X-1 ( {k} ) = { ω ∈ Ω / X(ω) = k }
⦁ [ X≤a ] = X-1 ( ]-∞, a] )
Remarques:
Si X(Ω) IN
⦁ [ X=k ] = [ X≤k ] - [ X≤k-1 ]
⦁ [ X=k ] = [ X≥k ] - [ X≥k+1 ]
k
⦁ [ X≤k ] = ⋃
i=0
[ X=i ]
+∞
⦁ [ X≥k ] = i=k
⋃ [ X=i ]
Soient X et Y deux v.a.r
⦁ X et Y sont indépendantes si ∀ x, y ∈IR
[ X≤x ] et [ X≤y ] sont indépendants.
⦁ (Xi)i∈I une famille de v.a.r est indépedante si
∀ famille (xi)i ∈ I de réels ( [Xi ≤xi ] )i ∈ I sont des évènements indépendants
II- Variable aléatoire discrète:
Définition:
Soit X une v.a.r
X est discrète si il existe une suite (xn)n ∈ IN telle que
X(Ω) = { xn / n ∈ IN }
X(Ω) finie, dénombrable et à valeurs dans IN.
Propriétés:
(Xi)i∈I une famille de v.a.r discrètes est indépendante si ∀ (ki)i∈I famille
d’élémets de X(Ω), la famille des évènements ([ Xi=ki ] )i∈I est indépendante.
Remarque: X discrète
La loi de X est donnée par
• X(Ω) : l’ensemble des éventualités
• p ( X=k) ; k ∈ X(Ω) : la probabilité ces éventualités
III- Moments d’une v.a.r discrète
Dé�inition: Soit X une v.a.r discrète
X admet un moment d’ordre k, k ∈ IN* si ( xk p(X=x) )x∈X(Ω) est sommable.
Propriété:
Si X admet un moment d’ordre k, alors ∀ j ≤k ,X admet un moment d' ordre k
Démonstration:
Si X admet un moment d’ordre k, alors ∑
xn p(X=n) converge absolument
n ∈ IN
1 si |xn| ≤ 1
Si j ≤ k |xnj| ≤
|xnk| si |xn| ≥ 1
Donc ∀ j ≤k , | xnj | ≤ 1 + | xnk |
| xnj p( X=xn ) | ≤ p( X=xn ) + | xnk p( X=xn ) |
∑ p(X=x ) n
= p( ⋃(X=xn) ) = p( Ω ) = 1
n
xn ∈ X(Ω)
D’où ∑ ( p(X=x ) + | xn n
k
p( X=xn ) | ) converge
xn ∈ X(Ω)
et donc ∑|x n
j
p( X=xn ) | converge
xn ∈ X(Ω)
Notation:
Si X admet un moment d’ordre 1, on notera E(X) = ∑ x � p( X=x )
l’espérance ou moyenne de X n ∈ X(Ω)
Exemple:
Les résultats d’un étudiant en S6 : {18, 12, 14, 12, 14, 14, 14, 12}
X : v.a. qui donne le résultat de cet étudiant à un module quelconque.
p( X=18) = 1/8
p( X= 14) = 4/8
p( X=12 ) = 3/8
Sa moyenne?
E(X) = ∑x � p( X=x )
n ∈ X(Ω)
= 18�1/8 + 14�4/8 + 3�12/8
= 13.75
Cet étudiant est presque certain d’avoir 13.75
Propriétés:
Sous réserve d’existence
• E( αX+βY ) = αE(X) + βE(Y)
• Si X ≥ 0 alors E(X) ≥ 0
• X ≤ Y ⇒ E(X) ≤ E(Y)
• X≥0 X = 0 presque sûrement
E(X) = 0
• Si X, Y sont indépendants, alors E(XY) = E(X)�E(Y)
• Inégalité de Cauchy - Schwarz
| E(XY) | ≤ E(X²)1/2 � E(Y²)1/2
IV- Fonction génératrice
Dé�inition:
Soit X une v.a.r discrète à valeur dans IN, la fonction génératrice de X est:
+∞
GX(t) = ∑t k
�p(X=k)
k=0
Théorème:
Si g(X) admet une espérance, alors E(g(X)) = ∑
g(x) �p(X=x)
x ∈ X(Ω)
Théorème de Transfert:
Si GX est n fois dérivable sur [0,1], alors X admet un moment d’ordre n et
E( X(X-1)(X-2)����(X-n+1) ) = GX(n) (1)
Démonstration:
+∞ est une série entière avec une convergence
GX(t) = ∑ t k
�p(X=k)
garantie sur ]-1,1[
k=0
+∞
GX’(t) = ∑ k t k-1
�p(X=k)
k=1
+∞
GX (t) = ∑ k(k-1) t
(2) k-2
�p(X=k)
k=2
+∞
GX (t) = ∑ k(k-1)���(k-n+1) t
(n) k-n
�p(X=k)
k=n
GX(n)(0)
GX(n)(0) = n!�p(X=n) ⇒ p(X=n) =
n!
+∞
GX(n)(1) = ∑ k(k-1)���(k-n+1) �p(X=k) = E ( X(X-1)������(X-n+1) )
k=n
En particulier
E(X) = GX’(1)
E(X(X-1)) = GX’’(1)
Propriété: (Loi d’une somme)
Soient X, Y deux v.a.r. discrrètes indépendantes
∀ z ∈ X+Y(Ω) , p( X+Y=z ) = ∑ p( X=x ) � p( Y=z-x )
x ∈ X(Ω)
z-x ∈ Y(Ω)
Démonstration
{ [ X=x ] }x∈X(Ω) est un s.c.e
Donc d’après la formule des probabilités totales
p( X+Y = z ) = ∑ p( X+Y=z | X=x ) � p( X=x )
x ∈ X(Ω)
= ∑ p( Y=z-x | X=x ) � p( X=x )
x ∈ X(Ω)
= ∑ p( Y=z-x ) � p( X=x ) X et Y indépendants
x ∈ X(Ω)
= ∑ p( Y=z-x ) � p( X=x )
x ∈ X(Ω)
Soit p( X+Y = z ) = ∑ p( X=x ) � p( Y=y )
x ∈ X(Ω)
y ∈ Y(Ω)
Théorème
Si X et Y sont indépendantes alors GX+Y= GX�GY
VI- Lois discrètes usuelles
1. La loi uniforme
Soit X une v.a.r qui prend n valeurs x1, x2, ... , xn de façon équiprobable.
X(Ω) = { x1, x2, ... , xn } et p( X=xi ) = 1/n
On dit que X suit la loi uniforme sur l’ensemble { x1, x2, ... , xn } et on note:
X ↪ 𝒰{ x1, x2, ... , xn }
n
1
E(X) =
n
∑ xi (Moyenne arithmétique)
i=1
Exemple: X ↪ 𝒰{ 1, 2, ... , n }
E(X) = (n+1)/2
n
1 1
E(X²) =
n
∑ xi² =
n
n(n+1)(2n+1)
6
=
(n+1)(2n+1)
6
i=1
2. La loi de Bernoulli
1 en cas de succes
Dans une expérience qui mène à 2 issus : échec ou succes. X =
0 sinon
X suit la loi de Bernoulli de paramètre p où p = p( X=1 )
On écit X ↪ ℬ(p)
Loi de X: p( X=1 )=p
p( X=0) = 1-p
Espérance: E(X) = 0 p( X=0 ) + 1 p( X=1 ) = p
Génératrice : GX(t) = t0 �p( X =0 ) + t� p( X=1 )
= 1-p + tp
3. Loi binomiale
On repète n fois un schéma de Bernoulli de paramètre p de façon indépendante.
La v.a.r X représente le nombre de succes parmi les n expériences.
X suit la loi binomiale de paramètres n et p et on note X ↪ ℬ (n, p)
n
On note Xi le résultat de la i-ème expérience, X = ∑ Xi GX = ?
k=0
GX(t) = GX1+X2+...+Xn(t) ( n v.a.r indépendantes )
= GX1(t) � GX2(t) ���� GXn(t)
= (1-p+tp)n
n
= ∑ Cnk (1-p)n-k�(tp)k
k=0
n n
k k n-k k
GX(t) = ∑ t C (1-p) �p
n
=∑t
k
� p( X=k )
k=0 k=0
p( X=k ) = Cnk (1-p)n-k�pk
Si X ↪ ℬ (n, p) alors E(X) =GX’(1) = np
4. La loi géométrique
On repète indé�iniment un schéma de Bernoulli de paramètre p de façon indépendante.
La v.a.r X représente le temps d’attente du 1er succès.
On dit que X suit la loi géométrique de paramètre p et on note X ↪ ℊ (p)
X(Ω) = IN*
On note Ei: ‘‘echec au i-ème essai’’.
Si: ‘’succes au i-ème essai’’
[ X=n ] = E1 ∩ E2 ∩ ���� ∩En-1 ∩Sn
p ( X=n ) = (1-p)n-1p
+∞ +∞
1
Son Espérance: E(X) = ∑ k�p( X=k ) = ∑ k�(1-p)k-1p = p = 1/p
k=0 k=1
(1-(1-p))²
Exercice: Calculer sa fonction génératrice GX
5. Loi de poisson:
Soit un phénomène rare de valeur moyenne λ
X: le nombre de réalisation de ce phénomène
X suit la loi de poisson de paraamètre λ et on note X ↪ 𝒫 (λ)
Loi de X:
Soit (Xn) une suite de v.a.r. qui ↪ ℬ(n, pn) avec pn ~ λ/n
en loi
Xn → X où X X ↪ 𝒫 (λ)
n→+∞
lim p( Xn=k )
p ( X=k ) = n→+∞
p ( Xn=k ) = Cnk pnk (1-pn)n-k
= n(n-1)����(n-k+1) pnk enln(1-pn) (1-pn)n-k
k!
= nk 1 2 ���� k-1 k -λln(1-pn)
(1- )(1- ) (1- )pn e -λ/n (1-pn)n-k
k! n n n
~
n→+∞
nk
k!
( nλ ) k
e-λ
= λk e-λ
k!
X ↪ 𝒫 (λ) : ∀ k ∈IN , p( X=k ) =
λk e-λ
k!
+∞
Sa fonction génératrice: GX(t) = ∑t k
�p(X=k)
k=0
+∞
λk e-λ
= ∑t � k
k=0 k!
+∞
=e -λ
∑ (λt)k
k=0 k!
GX(t)= e-λeλt = e λ(t-1) GX’(t)= λ eλ(t-1) E(X) = GX’(1) = λ
Remarque:
• La fontion génératrice permet de caractériser la loi
• Soient X et Y deux v.a.r indépendantes X ↪ 𝒫 (α)
et Y ↪ 𝒫 (β)
Alors X+Y ↪ 𝒫 (α+β) (preuve : Utiliser GX+Y = GX�GY )
• X ↪ ℬ(m, p) et Y ↪ ℬ(n, p) deux v.a. indépendantes
Alors X+Y ↪ ℬ(m+n, p)
6. La loi hypergéométrique:
Soit une population de N=a+b individus donc a présentent le succes
pour une expérience aléatoire et b l’echec.
On prélève un échantillon de n individus de cette population.
X la v.a. qui donne le nombre de succes parmi ces n individus.
k ≤ n et k≤a
Soit k ∈ X(Ω) :
n-k ≥ 0 et n-k ≤ b
D’où X(Ω) = [ |max(0, n-b), min(n, a) | ]
n-k
Cka C b
p( X=k ) =
CnN
7. La loi de Pascal:
On repète indéfiniment un schéma de Bernoulli de paramètre p de façcon
indépendante.
X représente le temps d’attente du k-ième succes.
X suit la loi de Pascal de paramètres k et p : X ↪ 𝒫(k, p)
X(Ω) = { n ∈IN / n ≥ k }
p( X=n ) = Ck-1 (1-p)n-1-(k-1) p(k-1) p = Ck-1 pk (1-p)n-k
n-1 n-1
1 2 n-1 n
k-1 succes parmi n-1 k-ième succes
M����� �’����� 2:
Le moment d’ordre1 permet d’avoir une tendance centrale ( par rapport à la
moyenne, ce qu’on espère).
Lors d’une expérience aléatoire, cela ne permet pas d’évaluer les risques éventuels.
Le risque est modélisé par le moment d’ordre 2.
Un exemple:
Un usine à besoin de 3 pièces de diamètre 10mm (espérance).
Elle dispose de 2 séries {10.1, 10, 9.9} et {5, 10,15}
Les 2 présentent une même espérance 10 = (10.1+10+9.9)/3 = (5+10+15)/3
Il est évident que la première série est plus adaptée car les diamètres ne s’écartent
pas beaucoup de celui désiré.
Dé�inition:
Si X admet un moment d’ordre 2, on dé�init
la variance de X par V(X) = E( ( X - E(X) )² ) et
l’écart type σ(X) = V(X)
Propriétés:
Si X, Y sont indépendants:
• V(X+Y) = V(X) + V(Y)
• V( aX+b ) = a² V(X)
• V(X) = E(X²) - ( E(X) )²
• V(X) = 0 X ⟹ est constant presque surement
1. X ↪ ℬ(p)
V(X) = E(X²) - (E(X) )²
= p - p²
=p(1-p)
2. X ↪ ℬ(n, p)
V(X) = E(X²) - (E(X))²
X = X1+X2+ ������� + Xn; les Xi indépendants qui suivent ℬ(p).
V(X) = V(X1) + V(X2) + ������� + V(Xn)
= np(1-p)
3. X ↪ g(p)
1
E(X) =
p
+∞
E(X²) = ∑ k² p( X=k)
k=1
+∞
= ∑ k² (1-p) k-1
p
k=1
+∞
E( X(X-1) ) = ∑ k(k-1) (1-p) k-1
p = E( X² - X ) = E(X²) - E(X)
k=1
+∞
= p(1-p) ∑ k(k-1) (1-p) k-2
k=2
2
= p(1-p)
(1-(1-p))3
2(1-p)
=
p²
Rappel sur les séries entières: dérivée
Pour x ∈ ]-1, 1[
+∞
+∞
1 1 +∞
2
∑x = k ∑k·x k-1
= ∑ k(k-1) · xk-2 =
1-x k=1
(1-x)² (1-x)3
k=0 k=2
E(X²) = E( X(X-1) ) + E(X)
2(1-p) 1
= +
p² p
Et V(X) = E(X²) - ( E(X) )²
2(1-p) 1 1
= + -
p² p p²
1-p
V(X) =
p²
4. X ↪ 𝒫( λ )
E(X) = λ +∞
E( X(X-1) ) = ∑ k(k-1) p(X=k)
k=1
+∞
n
= ∑ k(k-1) e-λ λ
n!
k=1
+∞ n-2
λ
= λ²e -λ
∑ (n-2)!
k=2
= λ²e- λ eλ
E( X(X-1) ) = λ² = E(X²) - E(X)
V(X) = E(X²) - (E(X))²
= E(X²) - E(X) + E(X) - (E(X))²
= λ² + λ - λ²
V(X) = λ = E(X)
Interprétation:
Si lors de l'analyse descriptive d'une expérience aléatoire, V(X) = E(X),
on peut supposer qu'elle suit une loi de poisson.
On dispose de X et Y. On cherche une dépendance ou une correlation entre
les v.a.r. ( poids et taille d'une population par exemple)
Comment s'y prendre?
Définition:
La covariance de X, Y si elle existe ( X et Y admettent des moments
d'ordre 2) est le nombre
Cov (X,Y) = E ( (X-E(X)) · (Y-E(Y) )
Propriétés:
• Cov(X, Y) = E(XY) - E(X) � E(Y)
• Si X et Y sont indépendants alors Cov(X,Y) = 0
• Le choix de l'unité de mesure impacte grandement Cov(X,Y)
(Poids-taille : kg - cm , g - m , g - cm, kg - m )
Pour résoudre ce problème lors d'une étude, on introduit la notion de
coéfficient de corrélation pour normaliser les mésures.
Définition:
Le coefficient de corrélation de X, Y si X et Y admettent des moments
d'ordre 2 est le nombre:
𝜕 Cov(X,Y)
(X,Y) =
σ(X)∙σ(Y)
𝜕
Propriéte: -1 ≤ (X,Y) ≤ 1
Remarques:
• La covariance est bilinéaire et symétrique
Cov(X, Y) = Cov(Y, X)
• Cov(X,X) = E(X²) - E(X)² = V(X)
• V(X+Y) = V(X) + 2Cov(X,Y) + V(Y)
𝜕 𝜕
Démonstration: -1 ≤ (X,Y) ≤ 1 c-a-d | (X,Y)| ≤ 1
V(tX+Y) ≥ 0 (Variance toujours positive)
V(tX+Y) = V(tX) + 2Cov(tX,Y) + V(Y)
= t²V(X) + 2tCov(X,Y) + V(Y)
t²V(X) + 2tCov(X,Y) + V(Y) ≥ 0
∆ = 4Cov(X,Y)² - 4V(X)V(Y) ≤ 0
Cov(X,Y)² ≤ V(X)V(Y)
|Cov(X,Y)| ≤ σ(X)∙σ(Y)
|Cov(X,Y)| 𝜕
D'où = | (X,Y)| ≤ 1
σ(X)∙σ(Y)
Interprétation:
𝜕
𝜕
• Si (X,Y) > 0, on dit que X et Y sont dépendants dans le même sens
𝜕
• Si (X,Y) < 0, on dit que X et Y sont dépendants dans le sens opposé
• Si (X,Y) = 0, on dit que X et Y sont statistiquement indépendants
Illustration:
X ↪ 𝒰( {-1, 0, 1} et Y = X²
Cov(X,Y) = E(XY) - E(X)E(Y)
= E(X3) - E(X)3
= (-1+0+1)/3 - ((-1 + 0+ 1)/3 )3
= 0 - 0
=0
Pourtant Y dépend de X par définition.
X et Y sont dépendants.
La preuve:
p(X=1) = 1/3
p(Y=1) = 2/3
p( (X=1) ∩ (Y=1) ) = 1/3
p(X=1) � p(Y=1) = 2/9
Propriétes:
n n
V(∑ Xk ) = ∑ V(Xk) + 2 ∑ Cov(Xi, Xj)
k=1 k=1 1≤i,j≤n
Si M = (Cov(Xi, Xj)1≤i,j≤n et U = t(t1,t2, ... , tn)
n
V(∑ Xk ) = tU M U
k=1
Chapitre III: Variablies à densité
I-Dé�inition
X : Ω→IR une v.a.r
La fonction de répartition de X est FX (x) = p (X ≼ x)
X est dite à densité f si en tout point de continuité de FX ,
x
FX (x) = � -∞ f(t) dt c-a-d il existe une fonction f c.p.m telle que FX’ = f
Une fontion f : IR → IR est une densité si
• f>0
• f est intégrable sur IR
• � IR f = 1
Exemple
On considère l’expérience aléatoire du tir à l’arc sur un disque de rayon R.
On supponse l’évènement ‘‘la �lèche n’atteint pas le disque’’ presque impossible.
On note r la distance de la �lèche au centre du disque:
r<0
On distinque 3 cas : r ∈ [ 0,R ]
r>R
On désigne par X la variable aléatoire qui mesure
la distance r d’un tir au centre.
R
Loi de X:
X(Ω) =[0,R]
p( X< 0 ) = 0
p( X ∈ [0,R] ) = r/R
p( X > R ) = 1
II- Variables à densité classiques
a) La loi uniforme
X prend les valeurs d’un intervalle [a, b] de manière équiprobable
Loi de X:
Ω=[a, b]
x-a
si x ∈ [a,b]
b-a
p (X ) = = FX (x) = 0 si x < 0
1 si x > b
1
si x ∈ [a,b]
X est à densité fX (x) = F’X (X ) = b-a
0 sinon
b) Variable aléatoire sans mémoire et loi exponentielle
Une v.a.r X est dite sans mémoire si
∀ x ∈IR , p ( X>x+h | X>x )=p ( X>h)
h x x+h
Si X discrète à valeurs dans IN*,
X sans mémoire ⇒ ∀ n, k ∈ IN* p ( x>n+k | X>n )=p (X>k)
p ( X>n+k ∩ X>n)
p (X>n)
= p ( X>k )
Théorème:
X une v.a.r. à valeur dans IR*+ et à densité fX continue sur ]0,+∞[
est sans mémoire ssi ∃ λ>0 tel que
λe-λx si x>0
fX (x) =
0 sinon
X suit donc la loi exponentielle de paramètre λ : X ↪ exp(λ)
c) La loi gamma
La fonction Gamma d’Euler est définie sur ]0, +∞[ par
+∞ x-1
Γ(x) = � t e-t dt
0
Remarque
• Γ(x+1) = x·Γ(x)
• Γ(n) = (n-1)! n ∈ IN*
• Γ(1/2) = √π
1 x-1 y-1
• β(x,y) = � (1-t) t dt avec x, y > 0
0
Γ(x)·Γ(y)
β(x,y) =
Γ(x+y)
β est la fonction de Bessel
+∞ ta-1 e-t
Soit a>0 : 1 =� dt
0 Γ(a) x-1
t e-t Si x >0
X suit la loi γ(a) si X>0 et à densité fX(x) = Γ(a)
0 Sinon
Remarque:
+∞ a-1
• Γ(a) = �0 t e-t dt
En posant t = λx
+∞ a-1 a-1
Γ(a) = �0 λ t e-λt λ dt
a a-1
• 1 = �0
+∞
λ t e-λt dt
Γ(a)
Dé�inition
a a-1
λ x e-λx Si x >0
X ↪ γ(a, λ) si X > 0 et à densité fX(x) = Γ(a)
0 Sinon
a le paramètre de forme et λ celui d’ echelle
d) La loi gaussienne ou loi normale
X suit la loi gaussienne 𝒩(m, σ) si X est à densité
1
1 e- (x-m)²
fX(x) = σ 2π
σ²
X suit la loi normale centrée réduite si X ↪ 𝒩(0, 1)
Remarque:
Si X ↪ 𝒩(m, σ) et Y = x - m alors Y ↪𝒩(0, 1)
σ
Démonstration:
FY(x) = p ( Y≤x ) La fonction de répartition de Y
=p( x-m≤x)
σ
= p ( x ≤ σx+m)
= FX(σx+m)
La dérivée de FY donne :
1
fY’ (x) = σ fX(σx+m) =σ 1 e- σ²
(σx+m-m)² = 1 e- x²
σ 2π 2π
Dans toute la suite, on note 𝜑 la fonction de repartition de 𝒩(0,1)
x
1 t²
𝜑(x) = ∫ 2π e 2 dt
-∞
Propriétés:
• 𝜑(-x) = 1- 𝜑(x) (la courbe est symétrique)
• 𝜑(0) = 1/2
Fonction de répartition de la loi normale centré réduite 𝒩(0,1)
Dé�inition:
Le quartile d’ordre α ( α ∈ [0,1] ) est tα tel que p( X ≤ tα ) = α
Exemple:
Si X ↪ 𝒩(0,1) , t0.5 = 0
Moments pour les variables à densité:
Soit X a densité fX .X admet une espérance si xfX(x) est intégrable sur IR.
Théorème de transfert:
g(X) admet une espérance ssi g�fX(x) est intégrable sur IR et on a:
E(g(X)) = � g�fX(x) dx
IR
Chapitre IV: Convergence d’une variable
aléatoire réelle
(Ω, T, p) un espace probabilisé
(Xn)n une suite de v.a.r
Définition:
Convergence en probabilité
(Xn) converge en probabilité vers X si ∀ ε > 0
lim p( |Xn - X| > ε ) = 0
n→+∞
p
On écrit Xn n→+∞
→ X
Convergence en loi
(Xn) converge en loi vers X si en tout point x de continuité de FX (fonction
de répartition de X)
lim FXn(x) = FX (x)
n→+∞
loi
On écrit Xn n→+∞
→ X
Remarque: Dans le cas discrèt:
loi
→ X ⇔ ∀ k ∈ X(Ω)
Xn n→+∞ lim pn( Xn = k ) = p ( X=k )
n→+∞
Théorème:
Si Xn ↪ ℬ(n, pn) → λ
où n·pn n→+∞
loi
Alors Xn →
n→+∞
X où X ↪ 𝒫(λ)
Démonstration: Voir la loi de poisson(chapitre I)
Inégalité de Bienaymé Chebychev
X une v.a.r. qui admet une espérance et une variance. Alors ∀ ε > 0
V(X)
p( | X - E(X) | ≥ ε ) ≤ _______
ε²
Démonstration:
p( | X - E(X) | ≥ε ) = p( (X - E(X) )² ≥ ε² )
E( (X - E(X) )² )
il faut montrer ≤
ε²
Théorème: Loi faible des grands nombres
(Xn) une suite de v.a.r. indépendantes, de même loi qui admet une espérance m
et une variance σ²
n
Xn = 1 ∑ Xk ( Moyenne empirique )
n k=1
Alors (Xn) converge en probabilité vers m.
Démonstration:
n
E(X) = E( 1
n ∑X ) k
k=1
n
= 1
n
∑ E( X ) k
k=1
=m
n
V( X ) = V ( 1
n ∑X k
)
k=1
n
=
1
n²
∑ V( X ) k
k=1
1
= nσ²
n²
= σ²/n
V(Xn)
Soit ε > 0 : p( | Xn - E(Xn) | ≥ ε ) ≤ inégalité de Bienaymé Chebychev
ε
Donc p( | Xn - E(Xn) | ≥ ε ) ≤ σ² → 0
nε n→+∞
___
lim p( |Xn - m | ≥ε ) =0
n→+∞
p loi
Xn → X ⇒ Xn → X mais la réciproque est fausse
n→+∞ n→+∞
L’échantillon approche autant mieux la valeur réelle que son effectif est grand.
Théorème central-limite
Soit (Xn) une suite de v.a.r. indépendantes de même loi qui admet une
espérance m et une variance σ².
n
Xn = n1 ∑X Xn - m √n converge en loi vers
k alors σ 𝒩(0,1)
k=1
c-a-d pour n assez grand : p( Xn - m √n ≤ x ) = 𝜑(x) fonction de répartition de
σ
la loi normale centrée réduite
Inégalité de Markov
Soit X une v.a.r positive qui admet une espérance.
E(X)
Alors ∀ ε>0 p( X ≥ε ) ≤
ε
Démonstration:
• Si X discrète:
E(X) = ∑ k · p( X=k )
k ϵ X(Ω)
p(X≥ε)= ∑ p( X=k )
k≥ε
E(X) = ∑ k · p( X=k ) + ∑ k · p( X=k )
k ϵ X(Ω) k ϵ X(Ω)
k≥ε k<ε
≥ ∑ k · p( X=k )
k ϵ X(Ω)
k≥ε
≥ ∑ ε · p( X=k )
k ϵ X(Ω)
k≥ε
= ε · p( X ≥ε ) d’où l’inégalité
• Si X admet une densité fX
E(X) = � x·fX(x) dx
IR
+∞ +∞
= � x·fX(x) dx ≥ � x·fX(x) dx
0 ε
+∞
≥ ε � fX(x) dx = ε·p(X≥ε)
ε
Chapitre V: Statistiques Inférentielles
I-Définition:
Soit X une v.a.r
Un échantillon de X est une suite (Xn)n�1 de v.a.r indépendantes de même loi que
X. Dans ce cas (X1, X2, ..., Xn) est un n-échantillon ou échantillon de taille n de X.
Si 𝛳 est un paramètre de X,
Un estimateur de 𝛳 (associé à l’échantillon(Xn)n , est une v.a.r. définie par
Tn = f (X1, X2, ...., Xn) c-a-d une fonction de cet échantillion.
Si (x1,x2, ..., xn) est une valeur de (X1, X2, ...., Xn), alors f (x1,x2, ..., xn) est une
estimation de 𝛳.
Un estimateur peut avoir plusieurs estimations bonnes ou mauvaises. Pour en
juger, on fait appel à la notion de classification.
II- Classification des estimateurs
Définition
Le biais d’estimation de 𝛳 pour Tn est bTn(𝛳) = E(Tn) - 𝛳
• Tn est un estimateur sans biais de 𝛳 si E(Tn) = 𝛳
• Tn est asymptotiquement sans biais si bTn(𝛳) → 0
n→+∞
Le risque de l’estimateur Tn pour 𝛳 est rTn = E( (Tn-𝛳 )² )
Propriété:
rTn(𝛳 ) = V(Tn) - (bTn(𝛳) ) ²
Démonstration:
rTn(𝛳) = E( Tn² - 2𝛳 Tn + 𝛳 ²)
= E(Tn²) -2𝛳 E(Tn) + 𝛳 ²
V(Tn) = E(Tn²) - ( E(Tn) )²
= V(Tn) + E(Tn)² -2𝛳 E(Tn) + 𝛳 ²
= V(Tn)² + ( E( Tn) -𝛳 )²
= V(Tn)² + bTn(𝛳)²
(À suivre)
III- Estimateur efficace:
IV- Estimateur de maximum de vraissemblance
V- Intérvalle de confiance
Chapitre VI: Statistiques descriptives
Chapitre VII: Chaine de Markov