6.
2
Quelle est la probabilité de tirer 3 as en jetant 10 fois un dé?
k = nombre d'as à sortir = 3
n = nombre de tentative = 10
P = probabilité de sortir un as = une face de 6 = 0,17
10!
P(3 as) = x 0,17 x 0,83 = 0.16
3! (10 − 3)!
La probabilité d'obtenir 3 as si on jette 10 fois un dé est de 16%
Excel : fonction LOI.BINOMIALE(3;10;0,17;faux) = 0,16
6.3
Quelle est la probabilité d'observer 3 malades dans un échantillon de 10 sujets choisis au
hasard dans une population où la fréquence de la maladie est de 17%
La caractéristique étudiée est : "être malade"
La proportion de sujets porteurs de la caractéristique est donnée par la fréquence de la
maladie dans la population
k = nombre de malades = 3
n = nombre de l'échantillon = 10
P = fréquence de la maladie dans la population = 0,17
10!
P(3 malades) = x 0,17 x 0,83 = 0.16
3! (10 − 3)!
La probabilité d'observer 3 malades est de 16%
On aurait pu poser la même question pour zéro malade, 1 malade, 2 malades; … 10 malades.
Il suffit de refaire les mêmes opérations en calculant P(0), P(1), P(2), etc
La probabilité de n'observer aucun malade P(0) = 0,155
La probabilité de n'observer 1 malade P(1) = 0,318
La probabilité de n'observer 2 malade P(2) = 0,293
6.8
Sachant que dans un service d'urgence, on accueille en moyenne 5 entorses par week-end,
quelle est la probabilité d'observer 3 entorses au cours du prochain week-end
On a : ʎ = 5 et k = 3
,
Probabilité d'observer 3 entorses P(3) = !
= = 0,14
La probabilité d'observer 3 entorses est de 14%
Chapitre IX et X Estimation d'un paramètre
Rappel :
Paramètre de position : Moyenne, Pourcentage
Paramètre de dispersion : Variance, Ecart-type
Faire une estimation, c'est tenter de définir les paramètres d'une population à partir des
paramètres observés sur un échantillon.
Le but de l'estimation en statistique est de calculer des bornes qui permettent de situer avec
une confiance suffisamment grande où se trouve la valeur inconnue du paramètre dans la
population.
Une estimation aboutit donc à calculer ce qu'on nomme "Intervalle de Confiance" (IC)
Le statisticien se sait donc incapable de connaitre la vraie valeur, mais il en fournit
modestement une estimation à l'aide de deux bornes.
IX – Estimation d'une moyenne inconnue
Lorsqu'on observe la moyenne m d'une variable quantitative sur un échantillon, le problème
est d'estimer la véritable moyenne µ inconnue de la population d'où est extrait l'échantillon.
Cette estimation nécessite de savoir comment fluctue une moyenne observée sur un
échantillon.
1- Fluctuation d'échantillonnage d'une moyenne
Les moyennes des échantillons (m1, m2, m3, …, mn) d'une distribution quelconque suivent
une loi normale. Cette loi normale est centrée sur la moyenne µ de la population.
2- Ecart-type de la moyenne
Puisque la moyenne d'un échantillon est elle-même une variable aléatoire, on peut en
calculer son écart-type. On démontre que l'écart-type de la moyenne m peut être estimé par
la valeur :
𝐬 s = écart-type des valeurs de l'échantillon
𝐬𝐦 =
√𝐧 n = taille de l'échantillon
Remarque :
Il ne faut pas confondre l'écart-type des valeurs de l'échantillon s avec l'écart-type de la
moyenne sm (erreur standard)
3- Intervalle de confiance d'une moyenne
Le but est de tenter d'estimer la valeur de la moyenne inconnue µ de la population à partir
d'une observation sur un seul échantillons
Il faut donc estimer un intervalle dans lequel la moyenne inconnue µ a la plus grande
probabilité de se trouver.
On démontre qu'il y a 95% de chances que la moyenne de la population µ se trouve
comprise dans l'intervalle compris entre :
𝐦 − 𝟏, 𝟗𝟔 𝐬𝐦 𝐞𝐭 𝐦 + 𝟏, 𝟗𝟔 𝐬𝐦
On appelle cet intervalle "Intervalle de confiance à 95% de la moyenne µ"
On peut exprimer l'intervalle de confiance à 95% par ces deux formules de signification
équivalente : 𝐦 − 𝟏, 𝟗𝟔 𝐬𝐦 < µ < 𝐦 + 𝟏, 𝟗𝟔 𝐬𝐦
Ou bien : µ = 𝐦 ± 𝟏, 𝟗𝟔 𝐬𝐦
µ : la moyenne inconnue de la population
m : la moyenne calculée sur l'échantillon
sm : l'écart-type de la moyenne
Condition d'application : Le calcul de l'intervalle de confiance par ces formules nécessite que
la taille de l'échantillon soit supérieure ou égale à 30. Si tel n'est pas le cas, le terme 1,96
devrait être remplacé par une valeur choisie dans la table T de Student.
4- Signification de l'intervalle de confiance d'une moyenne
L'intervalle de confiance à 95% d'une moyenne µ nous indique les bornes entre lesquelles on
estime sa position. On ne connais pas avec exactitude sa vraie valeur, mais on peut dire
qu'elle a 95 chances sur 100 d'être comprise dans cet intervalle.
On peut dire en complément qu'il y a quand même 5 chances sur 100 pour que µ soit à
l'extérieur de cet intervalle.
5- Exemple
Lors d'une enquête sur la durée de sommeil des enfants de 2 à 3 ans effectuée sur un
échantillon 540 enfants, on a trouvé une moyenne de temps de sommeil par nuit de 11,7
heures. L'écart-type est de 1,3 heures. On veut connaitre la moyenne générale du temps de
sommeil chez tous les enfants de la population.
,
L'écart-type de la moyenne est s = = 0,056 heures
√
L'intervalle de confiance à 95% est 11,7 ± 1,96 x 0,056 = 11,7 ± 0,11
La moyenne du temps de sommeil est donc comprise entre 11,59 et 11,81
X – Estimation d'un pourcentage inconnu
Les pourcentages des échantillons (p1, p2, p3, …, pn) d'une distribution quelconque suivent
une loi normale. Cette loi normale est centrée sur le pourcentage P de la population.
2- Ecart-type d'un pourcentage
Puisque la moyenne d'un échantillon est elle-même une variable aléatoire, on peut en
calculer son écart-type. On démontre que l'écart-type du pourcentage p peut être estimé
par la valeur :
𝐩(𝟏 − 𝐩)
𝐬𝐩 =
𝐧
Cette formule n'est valide que si la taille n de l'échantillon est négligeable par rapport à la
taille de la population (n inférieur à 10% de la taille de la population).
3- Intervalle de confiance d'un pourcentage
Le but est de tenter d'estimer la valeur du pourcentage inconnu P de la population à partir
d'une observation sur un seul échantillons
Il faut donc estimer un intervalle dans lequel le pourcentage inconnu P a la plus grande
probabilité de se trouver.
On démontre qu'il y a 95% de chances que le pourcentage de la population P se trouve
comprise dans l'intervalle compris entre :
𝐩 − 𝟏, 𝟗𝟔 𝐬𝐩 𝐞𝐭 𝐩 + 𝟏, 𝟗𝟔 𝐬𝐩
On appelle cet intervalle "Intervalle de confiance à 95% du pourcentage P"
On peut exprimer l'intervalle de confiance à 95% par ces deux formules de signification
équivalente : 𝐩 − 𝟏, 𝟗𝟔 𝐬𝐩 < 𝐏 < 𝐩 + 𝟏, 𝟗𝟔 𝐬𝐩
Ou bien : 𝐏 = 𝐩 ± 𝟏, 𝟗𝟔 𝐬𝐩
P : le pourcentage inconnu de la population
p : le pourcentage calculé sur l'échantillon
sp : l'écart-type du pourcentage
Condition d'application : Ce formule nécessite que l'effectif de l'échantillon soit
suffisamment grand. Si on appelle pi et ps les bornes supérieures et inférieures de l'intervalle
de confiances (calculées comme si les conditions étaient remplies),
Il faut que les termes npi , nps , n(1- pi) , n(1- ps) soient supérieurs ou égaux à 5
4- Signification de l'intervalle de confiance d'un pourcentage
L'intervalle de confiance à 95% d'un pourcentage P nous indique les bornes entre lesquelles
on estime sa position. On ne connaît pas avec exactitude sa vraie valeur, mais on peut dire
qu'elle à 95 chances sur 100 d'être comprise dans cet intervalle.
On peut dire en complément qu'il y a quand même 5 chances sur 100 pour que P soit à
l'extérieur de cet intervalle.
5- Exemple
Lors d'une enquête sur la durée de sommeil des enfants de 2 à 3 ans effectuée sur un
échantillon de 540 enfants, on a trouvé 86 enfants présentant des troubles du sommeil. On
veut connaître la proportion de trouble de sommeil chez tous les enfants de la population.
La proportion des enfants présentant des troubles du sommeil dans l'échantillon est de
86/540 = 0,159 = 15,9%
𝟎,𝟏𝟓𝟗(𝟏 𝟎,𝟏𝟓𝟗)
L'écart-type 𝐬𝐩 = 𝟓𝟒𝟎
= 0,016
L'intervalle de confiance à 95% est : 0,159 ± 1,96 x 0,016 = 0,159 ± 0,031
La proportion d'enfants présentant des troubles du sommeil dans cette population est donc
comprise entre 12,8% et 19,0%
Risque d'erreur consentie α
On a estimé une moyenne ou un pourcentage inconnu avec un intervalle de confiance à
95%, c’est-à-dire avec un risque d'erreur de 5%, on appelle ce risque d'erreur risque α. Ce
risque était déterminé par le choix de valeur 1,96 dans les formules. Pour d'autres risques, il
faut remplacer le nombre 1,96 par d'autres valeurs.
Valeurs de Zα pour quelques risques usuels
α ׀Zα׀
20% 1,28
10% 1,65
5% 1,96
2% 2,33
1% 2,58
0,1% 3,3
Les formules d'intervalle de confiance d'une moyenne et d'un pourcentage peuvent être
généraliser ainsi :
Moyenne : µ = 𝐦 ± 𝐙𝛂 𝐬𝐦
Pourcentage : 𝐏 = 𝐩 ± 𝐙𝛂 𝐬𝐩
6- Exercice
On mesure la glycémie d'un échantillon de 25 sujets représentatifs d'une population
d'étude. On trouve une moyenne de 1,52 g/L et un écart-type de 0,40 g/L.
1) Calculer l'Intervalle de confiance à 95% de cette moyenne
2) Calculer l'Intervalle de confiance à 99% de cette moyenne
Taille d'un échantillon
Ce facteur intervient dans les formules qui déterminent l'écart-type de la moyenne ou du
pourcentage. Dans ces deux formules, la taille n figure au dénominateur. On en déduit que :
- plus la taille de l'échantillon est grande,
- plus l'écart-type sm ou sp est petit
- plus l'intervalle de confiance est resserré,
- et donc plus grande est la précision
Calcul de la taille d'un échantillon
Il existe des formules permettant de calculer la taille minimale d'un échantillon pour obtenir
une précision désirée. Ces formules sont valables uniquement pour des échantillons
provenant de sondage aléatoire élémentaire.
𝐙𝛂𝟐
Pour une moyenne : 𝐧 = 𝛔𝟐 𝐢𝟐
𝐙𝟐
Pour un pourcentage : 𝐧 = 𝐏(𝟏 − 𝐏) 𝐢𝟐𝛂
Zα On prend en général la valeur 1,96. Si on désire un risque α plus faible, cette valeur sera
plus élevée et la taille de l'échantillon aussi.
σ² est la variance de la variable quantitative étudiée dans la population. Mais on ne la
connaît pas a priori. On l'estime d'après des études antérieures sur le même sujet, ou au
besoin par une étude pilote.
P est le pourcentage de la variable qualitative étudiée dans la population. Par définition, ce
pourcentage est inconnu puisqu'on réalise l'enquête dans le but de le connaitre. Là aussi, on
estime sur des études antérieures ou par une étude pilote.
i est la précision désirée. Par exemple, si on veut estimer la moyenne du poids des individus
dans une population, on peut exiger une précision de ±3kg. Si on veut estimer le
pourcentage de sujets malades, on peut exiger une précision de ±4% (±0,04). On constate
dans les formules que la précision i se trouve au dénominateur. Si on désire une précision
trop élevée, i est choisi très petit et la taille de l'échantillon sera très grande.
Exemple
On désire à estimer la proportion de trouble de sommeil chez les enfants de 2 à 3 ans d'une
population. Des études antérieures pratiquées dans d'autres régions montrent que la
proportion de ces troubles est environ 16%. On désire une précision de ±3% et on choisit un
risque α de 5%
𝟏,𝟗𝟔𝟐
La taille de l'échantillon nécessaire est 𝐧 = 𝟎, 𝟏𝟔(𝟏 − 𝟎, 𝟏𝟔) 𝟎,𝟎𝟑𝟐 = 574
Quelle est la taille de l'échantillon nécessaire si on désire une précision de ±2% ?
𝟏.𝟗𝟔𝟐
La taille de l'échantillon nécessaire est 𝐧 = 𝟎, 𝟏𝟔(𝟏 − 𝟎, 𝟏𝟔) 𝟎,𝟎𝟐𝟐 = 1 291
On voit que, pour gagner 1% de précision, le nombre d'échantillon nécessaire sera le double.