IUT Digne DUT QLIO 2
2014-2015 Statistiques
Échantillonnage
1 Principe de l'échantillonnage
La théorie de l'échantillonnage consiste à déterminer des propriétés sur des échan-
tillons tirés au hasard parmi une population dont on connait les propriétés.
On considérera dans la suite uniquement des tirages aléatoires d'échantillons. Le
tirage d'éléments dans une population peut-être fait de façon exhaustive ( c'est-à-
dire sans remise) ou de façon non-exhaustive (avec remise). Dans ce dernier cas, les
tirages sont indépendants.
En pratique, lorsque la population a un grand eectif, on tire seulement un faible
nombre d'éléments et l'on assimile un tirage sans remise à un tirage avec remise.
2 Échantillonnage de variables aléatoires
Soit X une variable aléatoire dénie sur la population mère Ω de taille N et E
un échantillon de taille n ≤ N issu de cette population, on note cet échantillon
E = (ω1 , . . . , ωn ).
A chaque individu ωi de cet échantillon, on associe une valeur: xi = X(ωi ) et on
note Xi la variable aléatoire qui à E associe xi .
Exemple 1.
Ω=les étudiants de la classe;
X= cette variable aléatoire associe à chaque étudiant sa note au contrôle;
E =une suite de trois étudiants tirés au hasard;
n=3;
X1 est la variable aléatoire qui donne la note de contrôle du premier étudiant de
l'échantillon;
x1 est la note du premier étudiant de l'échantillon;
Si l'échantillonnage est non-exhaustif (avec remise), les variables aléatoires Xi
sont indépendantes et suivent la même loi que la variable aléatoire X.
On appelle statistique toute variable aléatoire Y qui est uniquement dépendante
de X1 , . . . , X n . Le but de l'échantillonnage est de déterminer la loi de la statistique
Y en fonction de la loi de X qui est connue.
Exemple 2. On peut s'intéresser à la moyenne de X sur l'échantillon:
X 1 + . . . + Xn
Y := Mn = .
n
1
C'est une statistique qui à chaque échantillon associe la moyenne de X sur l'échantillon
( dans notre exemple précédent X représentait des notes).
Exemple 3. On peut aussi bien s'intéresser à la variance de X sur un échantillon:
2 2
X1 − Xn + . . . + Xn − Xn
Y := Sn2 = .
n
2.1 Quelques rappels de probabilités
Dénition 1. Deux variables aléatoires X et Y sont dites indépendantes si pour
tous évènements A et B, on a:
P(A et B) = P(A) × P(B).
Proposition 1. Si X et Y sont deux variables aléatoires et si a et λ sont des
nombres réels, alors:
E(X + a) = E(X) + a V (X + a) = V (X)
E(λX) = λ E(X) V (λX) = λ2 V (X)
E(X + Y ) = E(X) + E(Y ) V (X + Y ) = V (X) + 2COV (X, Y ) + V (Y )
Proposition 2. Si X et Y sont deux variables aléatoires indépendantes alors:
Cov(X, Y ) = 0 V (X + Y ) = V (X) + V (Y ).
2.2 Cas des lois normales
Théorème 1. Soit X une variable aléatoire de loi N (µ , σ ) et Y une variable 2
aléatoire de loi N (µ , σ ). Si les variables X et Y sont indépendantes, alors la
1 1
2
variable aléatoire X + Y suit une loi N (µ + µ , σ + σ ).
2 2
2 2
1 2 1 2
Cette proposition est très importante dans le cas de l'échantillonnage. En eet,
supposons que nous avons une variable aléatoireX suivant une loi normale N (µ; σ 2 ),
alors les variables aléatoires Xi sont indépendantes et suivent la même loi normale
N (µ; σ 2 ). En utilisant la proposition ci-dessus, on obtient facilement que la moyenne
σ2
sur l'échantillon Mn suit une loi normale N (µ; ).
n
2.3 Cas général
Si la variable aléatoire X suit une loi quelconque, on peut déterminer la loi de Mn
lorsque n est grand. Une version précise de cet énoncé est donnée par le théorème
suivant.
Théorème 2. (Théorème de la limite centrale) Soit (Xi )i∈N une suite de vari-
ables aléatoires indépendantes suivant toutes la même loi de moyenne µ et de vari-
ance σ . Alors pour n susamment grand (disons n ≥ 30), la variable aléatoire
2
X1 + . . . + Xn
Mn :=
n
suit approximativement une loi normale N (µ; ). σ2
n
2
3 Distribution d'échantillonnage
Grâce aux résultats que nous venons d'énoncer, nous allons pouvoir étudier ci-
dessous deux cas particuliers d'échantillonnage.
3.1 Distribution d'échantillonnage des moyennes
Considérons une population ayant une certaine propriété avec une moyenne µ et une
2
variance σ .
Soit Mn la variable aléatoire qui à tout échantillon aléatoire (prélevé avec remise)
d'eectif n xé, associe la moyenne de cet échantillon.
Alors en appliquant le théorème de la limite centrale, on remarque que pour n
susamment grand (n ≥ 30),
σ2
Mn suit approximativement la loi normale N (µ; ).
n
Remarque 1. On a les remarques suivantes :
• On considère en générale que n est susamment grand pour utiliser les résul-
tats précédents lorsque n ≥ 30.
• Si le caractère étudié sur la population suit une distribution normale, on peut
utiliser ces résultats même si n est petit.
Exemple 4. Les statistiques des notes obtenues au BAC STI 2006 en France sont:
Moyenne nationale: µ = 10, 44,
Écart-type: σ = 1, 46.
Une classe de BTS comporte 35 élèves en 2006/2007, tous issus d'une BAC STI en
2006.
Quelle est la probabilité que la moyenne des notes de BAC de cette classe soit
supérieure à 10?
3
3.2 Distribution d'échantillonnage des pourcentages
Considérons une population dont un pourcentage p d'éléments possède une certaine
propriété.
Soit Kn la variable aléatoire qui, à tout échantillon aléatoire (prélevé avec remise)
d'eectif n xé, associe le nombre d'individus qui ont la propriété étudiée. On sait
que Kn suit une loi binomiale B(n; p).
Alors en appliquant le théorème de la limite centrale, on remarque que pour n
susamment grand,
Kn suit approximativement la loi normale N (np; np(1 − p)).
Kn
On s'intéresse ensuite à Fn =
n
la variable aléatoire qui, à tout échantillon
aléatoire (prélevé avec remise) d'eectif n xé, associe la fréquence avec laquelle les
éléments de cet échantillon possèdent cette propriété.
Alors on déduit que pour n susamment grand,
p(1 − p)
Fn suit approximativement la loi normale N (p; ).
n
Exemple 5. Une élection a eu lieu et un candidat a eu 40% des voix. On prélève
un échantillon de 100 bulletins de vote.
Quelle est la probabilité que, dans l'échantillon, le candidat ait entre 35% et 45%
des voix?
4
4 Une petite remarque technique
Lorsqu'on travaille concrètement avec des lois normales, on travaille souvent sur des
tables de loi normale car cette dernière est très dicile à calculer. Or ces tables
donnent des valeurs de la fonction de répartition de la loi normale N (0; 1).
Mais en pratique, nous avons aaire à des lois normales ayant des paramètres qui
peuvent être bien diérents. Il est alors important de savoir se ramener au cas
N (0; 1).
Proposition 3. Si X suit une loi normale N (µ; σ 2 ), alors la variable aléatoire
X −µ
σ
suit une loi N (0; 1).