Introduction au Big Data et Statistiques
Introduction au Big Data et Statistiques
5
A chaque évènement élémentaire ω� de Ω correspond un
nombre réel x� associé à la variable aléatoire X .
La valeur x� correspond à la réalisation de la
variable X� pour l’évènement élémentaire ω
Définition : On appelle variable aléatoire discrète une variable
aléatoire qui ne prend que des valeurs ponctuelles ("isolées")
(dénombrables), par exemple des entiers.
Exemple
Si l’on considère la constitution d’une fratrie de deux enfants,
l’espace fondamental est constitué des évènements
élémentaires suivant : Ω={GG,GF,FG,FF}
Les valeurs possibles prises par la variable aléatoire
X�, « nombres de fille dans la famille » sont : X(Ω)={0,1,2}
X: Ω →R
(w1, w2) → min (w1, w2)
pi .
On peut noté par
Fonction de répartition
La fonction de répartition correspond à la distribution cumulée
9
Variables aléatoires discrètes
Espérance:
Variance, V(X):
10
Variables aléatoires continues
Fonction de densité ( Loi de X)
C’est la même chose que pour les variables aléatoires discrètes,
excepté que x appartient à R. Il s’agit de f(x) dans la formule
précédente.
f : s’appelle ici la fonction densité de X
Propriétés de f
11
Variables aléatoires continues
Fonction de répartition
C’est la même chose que pour les variables aléatoires discrètes, excepté que
x appartient à R cette fois.
12
Remarque . on a
Pour a <b,
Variables aléatoires continues
Espérance
En suivant exactement la même démarche que pour les
variables aléatoires discrètes, on définit l’espérance:
14
14
Graphes de F
Variable continue
Variable discrète (escalier)
15
Covariance de deux variables définies sur un même univers
Lois discrètes
Loi de Bernoulli
Loi Binomiale
Loi de Poisson
Loi géométrique et hypergéométrique
Lois continues
Loi uniforme
Loi normale, loi normale centrée réduite
Loi de khi-deux
Loi de Student
20
Loi de Bernoulli, B (p), avec p Є]0, 1[.
La loi binomiale:
C’est une distribution discontinue qui donne les
probabilités d’apparaître un événement de probabilité p
(succés) respectivement 0,1,2,3,…k,… n fois au cours
de n épreuves de Bernoulli.
Si X le nombre de succès obtenus à l’issue des n
épreuves de Bernoulli (indépendantes).
La loi de X s’appelle loi Binomiale de paramètres n et
p.
Propriétés:
24
La loi binomiale: B(n,p)
Remarques:
Proposition:
Soient X et Y telles que X suit B(n; p) et Y suit B(m; p),
X et Y étant supposées indépendantes.
Alors, la variable Z = X+ Y suit une loi binomiale B(n+ m; p).
La loi binomiale: B(n,p)
Exemple:
Dans une famille de n enfants, quelle est la probabilité d’avoir k
garçons?
B(2,0.5)?
B(7,0.5)?
26
La loi binomiale: B(n,p)
27
La loi binomiale: B(n,p)
Symétrique!!
28
La loi binomiale: B(n,p)
Dissymétrique!!!!
La loi binomiale symétrique lorsque p=q =1/2 29
La loi binomiale: B(n,p)
Exemple:
Quelle est l’espérance mathématique et la variance du
nombre de garçons dans une famille de 7 enfants?
30
Loi de poisson
Définition:
On dit que la variable aléatoire X suit une loi de Poisson de
paramètre 𝛌 (𝛌 >0) si et seulement si l’univers image de X
est N et
On note
Valeurs caractéristiques:
𝐸(𝑋)= 𝜆
𝑉(𝑋)=𝜆
𝜎(𝑋)=√𝜆
Remarque: on a
P( X k 1) e k 1 (k)!
k
P( X k ) e (k 1)! k 1
ce qui signifie que P( X k 1) P( X k )
k 1
Propriétés
Loi hypergéométrique
Remarques:
Généralement n > 1 donc ρ < 1. La variance d’une variable
hypergéométrique (tirages sans remise) est inférieure à la
variance de la variable binomiale (tirages avec remise).
Limite d’une loi hypergéométrique
1
E( X )
p
q
V (X ) 2
p
Exercice d’application:
Une urne contient 6 boules blanches et 4 boules noires.
1. On tire dans cette urne trois fois 1 boule avec remise de cette
boule après chaque tirage. On note X le nombre de boules
blanches obtenues.
Déterminez la loi de X puis donner les valeurs de E(X) et V (X).
On note Y la variable aléatoire égale le nombre de tirages pour
avoir la première boule blanche. Donner loi de Y ainsi que E(Y) et
V(Y)
2. On tire dans cette urne trois fois une boule sans remise de cette
boule après chaque tirage. On note Z le nombre de boules
blanches obtenues.
Déterminez la loi de Z puis donner les valeurs de E(Z ) et V (Z ).
Lois de probabilités continues usuelles
Loi uniforme
On dit que la loi de probabilité d’une variable aléatoire réelle
est uniforme sur un segment [a; b], avec 0 ≤ a < b, si sa densité
de probabilité f est définie par:
1
b a si x [ a, b]
f ( x)
0 sinon
On note alors X → U([a; b]). f admet la représentation
graphique suivante:
Espérance et variance d’une variable uniforme
3
(b a ) 2
V (X )
12
Mini exercice: On considère la fonction f définie par :
1 si x [0,1]
f ( x)
0 sinon
1) Montrer que f est une densité d’une v.a X .
2) Déterminer FX (x), E(X), et V(X).
La loi normale ( Laplace-Gauss): N(m,)
On appelle variable aléatoire normale ou gaussienne toute
variable aléatoire absolument continue dont la densité de
probabilité f est définie par:
( xm )2
1
f ( x) e 2 2
2 2
Espérance : E(X) = m
Variance : Var(X) = 2
45
La loi normale: N(m,)
47
La loi normale centrée: N(0,)
50
Caractéristiques de la courbe normale
• f(Z) devient de + en + faible quand Z croit en valeur absolue.
51
La loi normale centrée réduite: N(0,1)
L’aire totale comprise entre la courbe et l’axe des abscisses est
égale à 1.
Z2
1
e 2 dZ 1
2
Si on note ϕ la fonction de répartition de la loi normale centrée
réduite Z associée à X,
t 2
z 1
( z) e 2
dt P ( Z z )
2
Propriétés:
Pour z > 0 on a la relation ϕ(z) + ϕ(-z) = 1
Soit z dans R, on a la relation P(Z>z)= 1- P(Z≤z) = 1-ϕ(z)
Soient z1, z2 dans R avec z1 < z2 alors P( z1 ≤Z ≤z2) = ϕ(z2)- ϕ(z1)
Pour z>0, P(-z ≤Z ≤z) = 2ϕ(z)- 1
52
Remarque:
Soit un intervalle centré en 0 de probabilité 1-α , on note
-Zα et Zα ses bornes. Alors
P(Z Z Z ) 1 2 ( Z ) 1
Par conséquent
( Z ) 1 P ( Z Z ) P ( Z Z )
2 2
La loi normale centrée réduite: N(0,1)
54
La loi normale centrée réduite: N(0,1)
55
56
La loi normale centrée réduite: N(0,1)
57
La loi normale centrée réduite: N(0,1)
58
Exercices:
Si X →N(30, 3),
P( X =28 )?, P(X≤ 33)?, P(X≤ 27)?, P(27≤ X ≤ 33)
59
Propriétés: Soit X suit N(m; 𝜎 ) et k une constante. On
a les résultats suivants :
𝑛≤30
Exemple : Loi de Khi-deux à 10 degrés de liberté
Pour 𝛼=0,05 on lit sur la table =18,30 .
2
Comportement asymptotique
𝑇𝑛 ↝ 𝒩(0,1), 𝑞𝑢𝑎𝑛𝑑 𝑛>30
𝑷(−𝒕𝜶≤𝑻𝒏≤𝒕𝜶)=𝟏−𝜶
Si les valeurs 𝑛 𝑒𝑡 𝛼 sont données, on lit alors 𝑡𝛼 sur la table.
Exemple: la loi de Student à 15 degrés de liberté pour 𝛼=5%
𝑒𝑡 𝛼=90%
Pour 𝑛=15 au seuil 𝛼=5%, on lit 𝑡𝛼 =2,13 et 𝑡𝛼 = 0,128
pour 𝛼=90%
Loi de Fischer–Snedecor
Définition:
Soient 𝑋 𝑒𝑡 𝑌 deux variables indépendantes suivant
les lois de khi-deux respectivement à 𝑛 degrés de liberté [ n ]
2
X
n
Y
m
suit une loi de Fischer–Snedecor à n et m degré de liberté,
notée 𝐹(𝑛,𝑚).
Sa fonction de densité est :
nm n
1
(n m)
n m ( ) Cn ,m .x 2 (m nx) 2 si x 0
Cn ,m n2m 2 2 f ( x)
n m
( ) ( ) 0 sinon
2 2
L’espérance de la variable de Fisher-Snédecor est :
m
E(F ) si m 2
m2
La variance de la variable de Fisher-Snédecor est :
2m (n m 2)
2
V( F ) si m 4
n(m 2)2 (m 4)
Introduction et définition
•La statistique descriptive: Ensemble de méthodes
scientifiques dont le but est de collecter, classer, décrire,
analyser, et interpréter les données relatives à des
phénomènes réels de taille importante afin de prendre
des décisions d’une façon rationnelle.
Général Général
(principes)
Particulier Particulier
(applications)
Vocabulaire
Population = ensemble sur lequel porte l'étude
statistique.
Échantillon = Sous-ensemble de la population
dans lequel seront collectées les éléments de
l'étude.
individu (unité statistique): tout élément de la
population (sur lequel porte l’étude statistique.
x2 n 2 f2 N2 F 2
Fi est la fréquence cumulée de
… … … …. … xi c’est à dire la fréquence des
observations ayant des valeurs
xp n p f p Np F p inférieures ou égales à xi :
S1p
i
Fi f j
n 1 j1
Exemple : Données qualitatives (nominales)
Diagramme sectoriel
Exemple : qualitatives ordinales
35 32
30
25
25 23
20
15
10
10 Diagramme à bâtons
5
0
A B C D E
Exemple : Données quantitatives discrètes
nombre nombre de 25
0 10
1 20 15
2 15
3 5 10
4 3
5
>4 0
0
0 1 2 3 4 >4
400
x xi ni Ni N(x) N’i N ’(x)
360
350
0 300
0 0 103 103 360
103 257 250
1 1 115 218 257
218 142 200
2 2 95 313 142
313 47 150
35 348 47
3 3 348 12 100
10 358 12
4 4 358 2 50
2 360 2 0
5 5 360 0
-2 0-1 1 2 3 4 5 6
On appelle courbe cumulative croissante le tracé de la fonction N (ou F pour les fréquences)
qui à tout réel x associe N( x ) = nombre d'observations inférieur ou égal à x.
On appelle courbe cumulative décroissante le tracé de la fonction N' (ou F’ pour les fréquences)
qui a tout réel x associe N'( x ) = nombre d'observations supérieur strictement à x.
Les courbes cumulatives F(x) et F’(x) sont symétriques par rapport à 0,5 : F(x) + F’(x) = 1
Données groupées: variables quantitatives continues
Exemple: augmentation du salaire
Classes Effectifs des employés d’une entreprise.
[e1 – e2[ n1
Augmentation Effectifs
[e2 – e3[ n2 [0 – 3[ 830
…. …. [3 – 5[ 615
[ek – ek+1[ nk [5 – 10[ 510
[10 – 20[ 92
[20 – 30[ 63
[30 – 50[ 15
E
ai
k
VARIABLES CONTINUES
REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES
Classes Effectifs
[0 – 3[ 830
[3 – 5[ 615
[5 – 10[ 510 900 effectif
[10 – 20 [ 92 800
0
3
30
50
proportionnelles aux effectifs.
350
Effectif rectifié
Classes Effectifs Amplitude Effectifs
300
ni ai rectifiés
ni /ai 250
[0 – 3[ 830 3 276,7
200
HISTOGRAMME
[3 – 5[ 615 2 307,5
[5 – 10[ 510 5 102,0 150
30
50
Variables quantitatives continues: courbes cumulatives
F (ai 1 ) F (ai ) f i 1
tan( ) a
ai 1 ai h
F (ai 1 )
F (ai )
ai ai 1
5 0,680 0,6
0,5
[ 5 - 10 [ 0,920 0,4
10 0,920 0,3
30 0,993
[30 - 50 [ 1
50 1
17 10
17 - 10 p - 0,92 D'où p 0,92 0,963 0,920 95%
20 10
20 - 10 0,963-0,920
RESUME
VARIABLE QUALITATIVE VARIABLE QUANTITATIVE
Dans l'ordre :
(1) Position
(2) Dispersion
(3) Symétrie
(4) Aplatissement
PARAMETRES DE TENDANCE CENTRALE
LE MODE
Une distribution est unimodale si elle présente un maximum
marqué, et pas d'autres maxima relatifs.
100
140 90
80
120
70
100
60
80 50
60 40
30
40
20
20
10
0 0
0 1 2 3 4 5 6
900 1400 1900 2400 2900 3500 ou plus...
80
140 70
120 60
100 50
80 40
30
60
20
40
10
20
0
0 900 1400 1900 2400 2900 3500 4000 4500 ou
0 1 2 3 4 5 6 plus...
i
Mo ei ai
s i
i
∆s
∆i
ei
PARAMETRES DE TENDANCE CENTRALE
LA MEDIANE d’une distribution discrète (brutes)
Les valeurs observées doivent être rangées par ordre croissant.
F(x) F(x)
xi ni Fi xi ni Fi
0 103 0,286 0 0
0 103 0,286
1 115 0,606
0,286 0,286
M 2 95 0,869
0,606
0,5 Intervalle médian 1 77 0,500
0,500 0,5
M = milieu = 1,5 2 95 0,764
3 35 0,967 0,869 0,764
3 35 0,861
0,967 0,861
4 10 0,994 4 10 0,889
0,994 0,889
5 2 1 5 40 1
1 1
1 1
0,5 0,5
0 0
-2 -1 0 1 2 3 4 5 6 -2 -1 0 1 2 3 4 5 6
Intervalle médian
M M = milieu = 1,5
PARAMETRES DE TENDANCE CENTRALE
LA MEDIANE à partir d’une distribution continue
(0,5 Fi )
Me ei ai .
f i 1
[ei – ei+1[ Fi F(x)
x [ei , ei+1 [ est la classe médiane
0 0
[0-3[ 0,391
3 0,391 1
20 0,963 0,2
1 k k
x = n i x i fi x i
n i=1 i=1
PARAMETRES DE POSITION
LES FRACTILES OU QUANTILES
On appelle fractiles ou quantiles d'ordre k les (k-1) valeurs qui
divisent les observations en k parties d'effectifs égaux.
0,9 0,9
1 0,8
0,75 0,7
0,75 0,6
0,5 0,5
0,5 0,4
0,3
0,2
0,2 0,1
0
0
-2 -1 0 1 2 3 4 5 6 -10 0 MQ3D
10 20 30 40 50 60
9
D2 M Q3
PARAMETRES DE DISPERSION
Intervalle interquartile : IQ = Q3 - Q1
1 k
V = n i x i2 x 2 = Moyenne des carrés - Carré de la moyenne
n i=1
Ecart- σ= V
type :
PROPRIETES IMPORTANTES DE LA MOYENNE ET DE LA VARIANCE
xi yi = a xi + b
Moment d'ordre 3
n
i
( X X ) 3
M 3 i 1
n
Moment d'ordre 4
n
i
( X X ) 4
M 4 i 1
n
Coefficient d'asymétrie
M3
3
3
α3<0 0 α3>0 α3
α3=0
Moyenne=Médiane=Mode
Courbe asymétrique à droite
α3>0
Mo Me x
Moyenne>Médiane>Mode
Courbe asymétrique à gauche
α3<0
x Me Mo
Moyenne<Médiane<Mode
Aplatissement
Coefficient d'aplatissement
M4
4
4
Compare l'aplatissement
de la courbe à une loi normale
α4=3
SÉRIES STATISTIQUES À 2 VARIABLES
Ahmed 175 73 90
Poids
Ali 168 56 85
Mariam 165 58 75
70
65
60
55
50
Taille
150 160 170 180 190 200
1 x1 y1
2 x2 y2
.
.
.
n xn yn
La covariance
1 n
cov(X, Y) xi yi xy
n i 1
Cas de valeurs groupées ( tableau de contingence)
1
cov(X, Y) n i , j ( xi x )( y j y )
n i, j
Propriétés :
90
y = Poids
85
80
75
70
65
60
55
50
x = Taille
150 160 170 180 190 200
cov(x,y)
Corrélation linéaire: ρ=
σ(x) σ(y)
Propriétés :
1 ρ 1
ρ = 1 si a > 0
y=ax+b
ρ = -1 si a < 0
ρ 1 Il existe une relation fonctionnelle linéaire entre x et y
ρ 0 x et y sont indépendantes
0 ρ 1 Il existe une dépendance linéaire d’autant plus forte
que |r| est grand
AJUSTEMENT LINEAIRE
95
90
y = Poids
85
80
75
70
65
60
55
50
x = Taille
150 160 170 180 190 200
95 95
90
y = Poids 90
y = Poids
85 85
80 80
e'i
75
70
ei 75
70
65 65
60 60
55 55
50
x = Taille 50
x = Taille
150 160 170 180 190 200 150 160 170 180 190 200
90
y = Poids
Droite de 85
f(x) = y = ax+b
régression yi 80
75
linéaire de y en x axi+b 70
ei = |yi-axi-b|
65
y = f(x) = ax + b 60
55
50
x = Taille
150 160 170 180 190 200
xi
y=ax+b définit un modèle affine
ŷi = a xi + b valeur de y prévue par le modèle
i
ri = yi - yˆ i
= résidu de la ième
observation
ei = ri = yi - a x i - b = erreur due au modèle
AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE Y EN X
95
90
y = Poids
85
60
55
50
x = Taille
xi 150 160 170 180 190 200
yi -ax i -b
2 2
S= e =
i
Dy/x , minimise i=1 i=1
x -x y -y
i i
Cov x,y
b = y - ax
x , y
i=1
a= n
=
x -x
2 V(x) Dy/x passe par le point moyen
i
i=1
(6) AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE X EN Y
95 ei’ = |xi-a’yi-b’|
90
y = Poids
Droite de 85
f(y) = x =
a’y+b’
80
régression linéaire yi 75
de x en y 70
x = f(y) = a’y + b’
65
60
55
50
x = Taille
a’yi+b’
150 160 170 180 190 200
xi
La droite de régression linéaire de x en y, notée n n
S' = e'i = x i -a'yi -b'
2 2
x -x y -y
i i
Cov x,y
a' = i=1
n
= b' = x - a' y
y -y
2 V(y)
i=1
i
Dx/y passe par le point moyen x , y
LIENS ENTRE CORRELATION ET DROITES DE REGRESSION
Cov x,y
Dy/x : y = ax + b a= b = y - ax
σ(x) σ(y)
V(x) r² = a a’ ρ=a
σ(y)
= a'
σ(x)
Cov x,y
Dx/y : x = a’y + b’ a' =
V(y)
b' = x - a' y
1 b'
y= x
a' a'
x, y x, y
x, y
r² = a a’ r² = a a’ = 1
0 r² = a a’ < 1
=0
Indépendance linéaire Liaison fonctionnelle linéaire
Le degré de dépendance linéaire se mesure à la proximité des droites de régression
Exercice:
Soit la série à deux variables poids (X) et taille (Y) de 9 sujets, comme
le montre le tableau suivant:
bleus 20 30 40
marrons 60 50 40
verts 10 20 30
Calcul des marges
bleus 20 30 40 90
marrons 60 50 40 150
verts 10 20 30 60
bleus 90
27
90x90 30
90x100 33
90x110
marrons
Ndroite
45
/300
50
Nbas
150x9055
/300 /300
150x100 150x110 150
/300 /300 /300
verts 18Total
20
60x90 22 60x100 60x110 60
/300 /300 /300
total 90 100 110 300
Calcul des valeurs du Khi-2
(Ti j Oij )2
d 2cal
i, j Tij
Yeux/cheveux brun chatain blond Total
bleus (27-20)
1,8
2 (30-30)
0
2 (40-33)
1,5
2
3,3
Eff .théo Eff .obs
/27 /30 /33 2
marrons (45-60)2
5 (50-50)2
0 (55-40)2
4,1 9,1
/45 /50 /55
Eff .théo
verts (18-10)2
3,6 (20-20)
0 (22-30)
2
2,9
2
6,5
/18 /20 /22
bleus
marrons 3-1=2
verts
Etudier un caractère
d’une population
Méthode Recenser
Méthode tous les
des par choix
raisonnés individus
sondages de la
aléatoires « méthode population
des quotas
»
l’enquête partielle (sondage) offre une série d’avantages
:
Méthode de Méthode non
recensement exhaustive
Cout
Cout élève raisonnable
réduit
Plus Erreurs
d’Erreurs réduites
METHODES D’ECHANTILLONNAGE
Méthodes probabilistes (aléatoires)
1. Sondage Aléatoire Simple:
Un échantillonnage est aléatoire si tous les individus de la population
ont la même chance de faire partie de l’échantillon; il est simple si les
individus sont tirés avec indépendance. Si la population est finie,
cette définition correspond au tirage aléatoire avec remise, qui permet
de traiter les populations finies comme des populations infinies.
Loi normale
Distribution d’échantillonnage:
Population Echantillon
Taille: N Taille: n
Moyenne: m Moyenne: X
Variance : 2 Variance :
S2
Écart-type: Écart-type: s
Proportion: p fréquence: F
Distribution d’échantillonnage:
P(N,m, )
E1, E2 ,......, Ek,
Ek ( X k , Sk )
E ( X )? V ( X )?......
NB. On parle d’une distribution d’échantillonnage de la
moyenne lorsqu’on est dans le cas de la moyenne ; d’une
distribution d’échantillonnage de la variance dans le cas de la
variance. Et même chose pour d’autres caractéristiques.
E (S2 ) ? V (S2 ) ?...
Théorème CENTRAL LIMITE
(T.C.L.)
X m X m L
n N (0,1) (Converge en loi)
n
Cas d’E.A.S (tirages non exhaustifs)
E( X )=E(X)=m
V (X ) 2
V( X )= n
= n
De même S 2 la variable aléatoire qui à chaque
échantillon de taille n, associe sa variance.
Alors on montre que:
n 1 2 n
E (S )
2
donc E( S2 ) 2
n n 1
2(n 1) 4
V(S )
2
2
n
X 1 X 2 ...... X n
F
n
On montre que :
np npq pq
E(F ) p Et que V( F ) 2
n n n
Cas des tirages exhaustifs
Dans le cas des tirages exhaustifs ( sans remise), si l’on désigne
par N la taille de la population et par n la taille de l’échantillon,
on obtient les résultats suivants, en faisant intervenir le
coefficient d’exhaustivité :
N n 2
E( X ) m et V (X ) .
N 1 n
N n 1 2 n 2
S )
N
. 2
E(S )
2
. E(
N 1 n n 1 N 1
N n pq
E(F) p et V (F ) .
N 1 n
ESTIMATION
Population de
taille N
Estimation:
Consiste à chercher les paramètres P(N,m,𝜎, p)
d’une population à partir des ceux
obtenus sur un échantillon tiré au
hasard de la même population mère.
Echantillon
de taille n
ESTIMATION PONCTUELLE
Notion de biais:
L’estimation consiste à évaluer un
paramètre inconnu à l’aide de la
valeur de ce paramètre calculée à
partir d’un échantillon.
La valeur estimée du paramètre est
souvent notée .
=valeur réelle du paramètre.
=valeur estimée de .
Soit ε= = l’erreur commise
puisque θ dépend de l’échantillon choisi, alors ε est
une variable aléatoire.
Définition:
θ est dit sans biais si E( )=0
Remarque:
Le biais d’un estimateur est en général E( ).
Estimation ponctuelle de la moyenne et de la variance:
E( X ) m
n 2
S
2
S est un estimateur sans biais de 2
n 1
e
n
E( S2 ) 2
n 1
2 2
S est un estimateur biaisé de
n 1 2
E ( S 2 2 ) E( S 2 ) 2 2 2
n n
Estimation ponctuelle d’une proportion
Puisque E(F ) p
Donc Fest estimateur sans biais de la proportion p .
Estimateurs convergents
Définition: un estimateur Convergent du paramètre
toute statistique T=T(X1, X2, …, Xn) telle que:
T P (Converge en proba)
•Remarque : La loi des grands nombres implique que X
est un estimateur convergent de m. De même que F est un
E.C. de p
•Définition: On appelle estimateur asymptotiquement
sans biais, du paramètre , toute statistique
T=T(X1, X2, …, Xn) telle que:
lim E(T)=
Exemple:
Quelle est la probabilité que la moyenne inconnue m se trouve pas trop loin de x observée ?
précision fiabilité
1- et u sont liés par la relation P[-u < n X-m < u] = 1-
Fiablité augmente
u augmente
1-
Précision diminue
-u 0 u
Intervalle de confiance d’une moyenne:
X désigne la variable aléatoire qui à
chaque échantillon de taille n associe sa
moyenne.
LOI( X ) N(m,
)
; n 30
n
X m
LOI( Z ) N(0,1)
n
Dans le des tirages exhaustifs n
N n
est remplacé par N 1
n
Cas ou est connu:
On fixe un seuil de risque et donc
un seuil de confiance 1 .
Soit t tel que P( Z t ) 1
Et donc:
P( X t m X t ) 1
n n
or P( Z t ) 2 (t ) 1 (t ) 1
2
d’où :
t ϕ 1 (1 )
2
X t , X t
n n
Applications:
5% X 1, 96
n
, X 1, 96
n
1% X 2,58 , X 2,58
n n
Avec une population mère de plus de 500
personnes, nous avons calculé à partir d’un
échantillon la moyenne d’âge qui est de 25
ans:
Exemple1: Exemple 2:
Remarque:
L’intervalle se resserre au fur et à mesure
lorsque la taille de l’échantillon augmente.
Cas ou est inconnu:
On remplaçant par son estimateur S e
X m
la v.a Se
suit une loi de Student Tn1.
n
Écart-type
LOI DE LA TAILLE DE
POPULATION L’ECHANTILLON connu inconnu
NORMALE STUDENT
NORMALE n 30
NORMALE NORMALE
n 30
NORMALE NORMALE
N O N NORMALE n 30
INCONNU INCONNU
n 30
Exemple 1
⚫ Un fabricant reçoit de son fournisseur une
livraison de pièces dont il veut contrôler la
longueur. La dimension X d’une pièce suit une
loi normale de moyenne m et d’écart-type
inconnus. Il extrait un échantillon de six pièces
qui donnent les dimensions suivantes (en cm):
50, 40, 45, 43, 47, 45
pq
loi( F ) N ( p , ) , pour n 30
n
l o i ( F ) N ( 0 ,1) o u F F p
pq
n
Ce qui implique:
1 1
f , f n
n
est un intervalle de confiance de p au
seuil de confiance 95%
Exemple
⚫ L’entreprise XX, spécialisée dans la
commercialisation de pommes de qualité,
adresse à l’un de ses clients un envoi massif de
fruits. Au préalable, un contrôle de qualité
portant sur un échantillon de 1000 pommes a
permis de dénombrer 80 fruits défectueux. On
se propose de calculer au seuil de confiance
90% et 95% entre quelles limites est compris le
pourcentage de fruits défectueux dans l’envoi.
⚫ n étant supérieur à 30. Donc l’intervalle de
confiance du pourcentage p de fruits
défectueux dans l’envoi est :
f (1 f ) f (1 f )
f t , f t
n n
ou f pourcentage de fruits défectueux dans l 'échantillon
8% 0, 08
10% t =1,64 p 0.08 0.014, 0.08 0.014
donc p 0.066, 0.094
5% t 1,96 p 0.08 0.017 , 0.08 0.017
donc p 0.063, 0.097
Intervalle de confiance de la variance :
Si on note S 2 la variable aléatoire qui à
chaque échantillon de taille n, associe sa
variance. Alors :
n 1 n
S
2
e
n 1
S
2
i
n 1 i 1
( X X ) 2
1 xi ! i 1 i 1
ln L( x1 ,....., xn , ) xi
n 1 s’annule pour
La dérivée seconde n
ln L( x1 ,....., xn , )
2 x
i
1
0
( ) 2
2
X i
1
X
n
conduit à un estimateur du maximum de vraisemblance
. Il est normal de retrouver la moyenne empirique qui est
le meilleur estimateur possible pour le paramètre λ (qui
représente aussi l’espérance d’une loi de Poisson)
Exemple : Avec une loi continue
On souhaite estimer les paramètres µ et σ d’une loi normale à partir
d’un n-échantillon. La loi normale N (µ, σ) a pour fonction densité
( x m )2
1
f ( x, m, ) f ( m, ) ( x) e 2 2
2
La fonction de vraisemblance pour une réalisation d’un échantillon
de n variables indépendantes :
n
( xi m )2
n
1 n2 i 1
f ( x1 ,...., x n , m, ) f ( xi , m, ) ( ) e 2 2
i 1 2 2
i i
Donc
( x x ) 2
n ( x x ) 2
( x x ) 2
S
2 i 1
i 1
n n
TESTS D’HYPOTHESES
GENERALITES
◦ Tests d’hypothèses :Un test statistique est une méthode qui permet de
prendre une décision à partir d’informations fournies par un échantillon.
Le but des tests d`hypothèses est de vérifier, à partir de données observées
dans un ou plusieurs échantillons, la validité de certaines hypothèses
relatives à une ou plusieurs populations.
Test
d’hypothèses
Hypothèse Hypothèse
nulle H0 alternative H1
On peut distinguer,
Les tests d’ajustement sont destinés à vérifier si un échantillon
observé peut être extrait d’une population donnée.
Réalité
H0 est vraie
Rejet de H0
N on rejet de H0
H0 est fausse
Rejet de H0
Erreur de 2éme
Accepter Décision correcte espèce (risque
de l’acheteur)
Erreur de 1ére
refuser espèce Décision correcte
(risque du vendeur)
METHO D OLO GIE
Première étape :
Avant l’expérimentation, il est recommandé de
choisir :
- l’hypothèse nulle H0
- le risque d’erreur à priori
Deuxième étape :
• On définit un écart entre la valeur observée
0 et la valeur théorique qu’on note tobs
• On compare cet écart à une valeur critique
t lu à partir d’une table spécifique à la loi
du test choisi.
Troisième étape:
On conclue en distinguant trois éventualités :
à n degré de liberté.
Test d'ajustement :
La méthode consiste à ajuster (comparer) les
observations sur un échantillon avec un modèle
théorique (binomiale, Poisson, normale...).
Pour cela, on va découper l'intervalle d'observation en
k classes, on construit une distance mesurant
l'écart constaté entre les effectifs réels et les
effectifs théoriques.
⚫Position du problème:
On connait une distribution observée (résultat
d’une expérience)
Valeurs du
C1 C2 Ci Cn
caractère …………….. …………………….
Effectifs
O1 O2 Oi On
observés …………….. …………………….
i 1 npi
α= P [rejeter Ho / Ho vraie]
=0,05
11,07
effectif 15 7 7 11 6 14
Et on a s2 11, 07
Puisque 11,07 7,6
2
s
2
cal
Décision: on accepte H0, donc seuil de risque 5%, nous
acceptons que le dé n’est pas truqué.
Exemple ( loi continue)
On suppose que le rendement X (quintaux par hectares d’une
parcelle de blé) suit une loi normale N (m, σ). L’observation du
rendement de 1000 parcelles a donné les résultats suivants :
rendement [0, 10[ [10, 20[ [20,30[ [30, 40[ [40,50[ [50,60[ [60,70 [70, 80[ [80,90
[ [
Nombre de 5 6 40 168 288 277 165 49 2
parcelles
ii
n x 2
S2 i 1
( x)2 164,5424 S 12,827 Se 12,833
1000
Vérifier pour un test du χ 2 avec un risque de 0, 05 si l’ajustement
de la distribution observée à une loi normale N (m = 50, σ = 13) est
acceptable.
Les hypothèses du test du χ 2 sont les suivantes :
• H0 : X suit N (50, 13)
• H1 : X ne suit pas N (50, 13)
On désigne par [a0; a1[, [a1; a2[,. . . ,[a8; a9[ les classes et
par x1, x2,. . . ,x9 les centres de ces classes.
X 50
Sous H0, X N (50,13), Z N (0,1)
13
Et on a
1 np
2
v
i
Classe ni zi φ(zi) pi npi npi ni
[ai−1; ai[ corrigé corrigé (ni − npi)2
/npi
[0; 10[ 5 −3, 0769 0, 001 0, 0009 0, 9 10, 4 11 0, 0346
[30; 40[ 168 −0, 7692 0, 2209 0, 1589 158, 9 158, 9 168 0, 5211
[50; 60[ 277 0, 7692 0, 7791 0, 2791 279, 1 279, 1 277 0, 0158
[60; 70[ 165 1, 5385 0, 9380 0, 1589 158, 9 158, 9 165 0, 234
Par suite
obs2 9,7 7,0,95
2
14,07
t t
donc : tobs t
2
⚫Donc, on ne rejette pas H0 et on
conclut que le pourcentage de
conducteur utilisant le cellulaire
au volant n’est pas
significativement différent de 10%.