0% ont trouvé ce document utile (0 vote)
48 vues31 pages

Estimation

Ce document traite de l'échantillonnage et de l'estimation, en soulignant l'importance d'obtenir un échantillon représentatif pour estimer des paramètres d'une population. Il explique les concepts d'estimation ponctuelle et d'estimation par intervalle de confiance, ainsi que les propriétés souhaitables des estimateurs, telles que l'absence de biais et l'efficacité. Enfin, il aborde la notion de risque d'erreur associé aux estimations et la nécessité de trouver un compromis entre précision et risque.

Transféré par

kraim.youssef.2003.07
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
48 vues31 pages

Estimation

Ce document traite de l'échantillonnage et de l'estimation, en soulignant l'importance d'obtenir un échantillon représentatif pour estimer des paramètres d'une population. Il explique les concepts d'estimation ponctuelle et d'estimation par intervalle de confiance, ainsi que les propriétés souhaitables des estimateurs, telles que l'absence de biais et l'efficacité. Enfin, il aborde la notion de risque d'erreur associé aux estimations et la nécessité de trouver un compromis entre précision et risque.

Transféré par

kraim.youssef.2003.07
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cours d'échantillonnage et estimation

Estimation

Abdelhak YAACOUBI

Université Hassan II Mohammedia

FSJES AIN SEBAA

13 avril 2025

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 1 / 30
Introduction

Estimer ne coûte presque rien,


Estimer incorrectement coûte cher.

Vieux proverbe chinois.

Dans de nombreux domaines (scientiques, économiques, épidémiologiques...), on a


besoin de connaître certaines caractéristiques d'une population. Mais, en règle générale,
on ne peut pas les évaluer facilement du fait de l'eectif trop important des populations
concernées. La solution consiste alors à estimer le paramètre cherché à partir de celui
observé sur un échantillon plus petit.
L'idée de décrire une population à partir d'un échantillon réduit, n'a été imaginée que
dans la seconde moitié du XVIIIème siècle, notamment par l'école arithmétique politique
anglaise. Elle engendra une véritable révolution : l'observation d'échantillons permettait
d'éviter des recensements d'une lourdeur et d'un prix exorbitants. Toutefois, on s'aperçut
rapidement que les résultats manquaient d'exactitude. Nous savons par la suite
pourquoi : on ne prenait en considération ni la représentativité de l'échantillon, ni les
uctuations d'échantillonnage. C'est là que le hasard intervient.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 2 / 30
La première précaution à prendre est donc d'obtenir un échantillon représentatif. Nous
pourrons en obtenir un par tirage au sort. Mais, même tiré au sort, un échantillon n'est
pas l'image exacte de la population, en raison des uctuations d'échantillonnage.
Lorsque, par exemple, on tire au sort des échantillons dans une urne contenant 20 % de
boules blanches, on obtient des échantillons où la proportion de boules blanches uctue
autour de 20 %. Ces uctuations sont imprévisibles. Cependant, on s'en doute, tous les
écarts ne sont pas également vraisemblables.
Au moyen du calcul des probabilités, le statisticien dénit un intervalle autour du taux
observé, intervalle qui contient probablement le vrai taux : c'est l'intervalle de conance
ou, plus couramment, la fourchette. Si l'on ne peut connaître le vrai taux par
échantillonnage, peut-on au moins le situer avec certitude dans la fourchette ? Non. On
ne peut raisonner qu'en termes de probabilités, et la fourchette n'a de signication
qu'assortie d'un certain risque d'erreur.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 3 / 30
On adopte souvent un risque de 5 % : cinq fois sur cent, le taux mesuré sur l'échantillon
n'est pas le bon, le vrai taux étant en dehors de la fourchette. On peut diminuer le risque
d'erreur mais alors la fourchette grandit et perd de son intérêt. Bien entendu, il existe
une innité de fourchettes, une pour chaque risque d'erreur adopté. On doit trouver un
compromis entre le risque acceptable et le souci de précision.

Exemple
Mesure du taux de séropositifs pour le sida dans une population.

Fourchette pour un risque de 5%

3/1000 5/1000 7/1000

Fourchette pour un risque de 0.1%


1.7/1000 5/1000 8.3/1000

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 4 / 30
On a observé 25 séropositifs sur un échantillon de 5000 sujets, soit un taux de 0.5%. Ce
taux observé n'a de signication qu'assorti d'une fourchette : le risque que le vrai taux
sorte d'une fourchette comprise entre 0.3% et 0.7% est acceptable (gure du haut). On
peut diminuer ce risque, mais alors la fourchette est plus large, et devient moins
intéressante (gure du bas).
Dans ce cours, nous allons apprendre à estimer à l'aide d'un échantillon :

Dans le cas d'un caractère quantitatif la moyenne m et l'écart-type d'une population.

Dans le cas d'un caractère qualitatif, la proportion p de la population.

Ces estimations peuvent s'exprimer par une seule valeur (estimation ponctuelle), soit par
un intervalle (estimation par intervalle de conance). Bien sûr, comme l'échantillon ne
donne qu'une information partielle, ces estimations seront accompagnées d'une certaine
marge d'erreur.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 5 / 30
L'estimation ponctuelle
Dénition
Estimer un paramètre, c'est en chercher une valeur approchée en se basant sur les
résultats obtenus dans un échantillon. Lorsqu'un paramètre est estimé par un seul
nombre, déduit des résultats de l'échantillon, ce nombre est appelé estimation ponctuelle
du paramètre.
L'estimation ponctuelle se fait à l'aide d'un estimateur, qui est une variable aléatoire
d'échantillon. L'estimation est la valeur que prend la variable aléatoire dans l'échantillon
observé.
Propriétés des estimateurs ponctuels
Lorsqu'on utilise fréquemment des estimateurs ponctuels on souhaite qu'ils possèdent
certaines propriétés. Ces propriétés sont importantes pour choisir le meilleur estimateur
du paramètre correspondant, c'est-à-dire celui qui s'approche le plus possible du
paramètre à estimer. Un paramètre inconnu peut avoir plusieurs estimateurs. Par
exemple, pour estimer le paramètre m, moyenne d'une population, on pourrait se servir
de la moyenne arithmétique, de la médiane ou du mode. Les qualités que doit posséder
un estimateur pour fournir de bonnes estimations sont décrites ci-après.

Dénition
Estimateur non biaisé. On note θ le paramètre de valeur inconnue, θ̂ l'estimateur de θ .
Un estimateur est sans biais si la moyenne de sa distribution d'échantillonnage est égale à
la valeur θ du paramètre de la population à estimer, c'est-à-dire si E (θ̂) = θ.
Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 6 / 30
Si l'estimateur est biaisé, son biais est mesuré par l'écart suivant : BIAIS = E (θ̂) − θ.
La gure suivante représente les distributions d'échantillonnage d'un estimateur sans biais
θ̂1 et d'un estimateur biaisé θ̂2 .
Distribution Distribution de θ 2
de θ 1

E( θ1) E( θ2) Estimateur

θ Paramètre de la population
Biais de θ 2 échantillonnée

Exemple
On a vu au chapitre précédant que E (X̄ ) = m. Donc la moyenne d'échantillon X̄ est un
estimateur sans biais du paramètre m, moyenne de la population.

En revanche, la médiane d'échantillon Me est un estimateur biaisé lorsque la population


échantillonnée est asymétrique.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 7 / 30
Exemple
2
Nous avons vu également que E (Σ2ech ) = n−n 1 σpop . Donc Σ2ech est un estimateur biaisé du
2
paramètre σpop , variance de la population.

C'est pour cette raison que l'on a introduit la variance d'échantillon S2 = n


Σ2 qui est
n−1 ech
2 2 2
un estimateur sans biais de σpop , puisque E (S ) = σpop .
L'absence de biais, à elle toute seule, ne garantit pas que nous avons un bon estimateur.
En eet, certains paramètres peuvent avoir plusieurs estimateurs sans biais. Le choix
parmi les estimateurs sans biais s'eectue en comparant les variances des estimateurs. En
eet, un estimateur sans biais mais à variance élevée peut fournir des estimations très
éloignées de la vraie valeur du paramètre.

Dénition
Estimateur ecace. Un estimateur sans biais est ecace si sa variance est la plus faible
parmi les variances des autres estimateurs sans biais.

Ainsi, si θ̂1 et θ̂2 sont deux estimateurs sans biais du paramètre θ, l'estimateur θ̂1 est plus
ecace que θ̂2 si

E (θ̂1 ) = E (θ̂2 ) = θ et V (θ̂1 ) < V (θ̂2 ).

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 8 / 30
La notion d'estimateur ecace peut s'illustrer de la façon suivante :

Distribution Distribution de θ 2
de θ 1

Var( θ 1)<Var(θ 2 )

E( θ1)=E( θ2) Estimateur

θ Paramètre de la population
échantillonnée

Dénition
Estimateur convergent . Un estimateur θ̂ est convergent si sa distribution tend à se
concentrer autour de la valeur inconnue à estimer, θ, à mesure que la taille d'échantillon
augmente, c'est-à-dire si n → ∞.
2
σpop
Par exemple, X̄ est un estimateur convergent puisque V (X̄ ) = n
tend vers 0.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 9 / 30
Remarque
Un estimateur sans biais et convergent est dit absolument correct.

Ces trois propriétés sont les principales qualités que nous recherchons pour un estimateur.
Nous n'insisterons pas sur les propriétés mathématiques que doivent posséder les
estimateurs.
Conséquences : L'étude du chapitre précédant nous a appris que

2
σpop
E (X̄ ) = m et V (X̄ ) = ,
n
4
2σpop
E (S 2 ) = σpop
2
et V (S 2 ) = ,
n−1
pq
E (F ) = p et V (F ) = .
n

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 10 / 30
On peut donc armer que :

X̄ est un estimateur absolument correct de la moyenne m pour un caractère


quantitatif.

S2 est un estimateur absolument correct de la variance pour un caractère quantitatif.

F est un estimateur absolument correct de la proportion p pour un caractère


qualitatif.
2
Nous pourrons donc estimer m par X̄ , σpop par S 2, p par F.
Mais les estimations ponctuelles bien qu'utiles, ne fournissent aucune information
concernant la précision des estimations, c'est-à-dire qu'elles ne tiennent pas compte de
l'erreur possible dans l'estimation, erreur attribuable aux uctuations d'échantillonnage.
Quelle conance avons-nous dans une valeur unique ? On ne peut répondre à cette
question en considérant uniquement l'estimation ponctuelle obtenue des résultats de
l'échantillon. Il faut lui associer un intervalle qui permet d'englober avec une certaine
abilité, la vraie valeur du paramètre correspondant.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 11 / 30
Estimation par intervalle de conance
Dénition
L'estimation par intervalle d'un paramètre inconnu θ consiste à calculer, à partir d'un
estimateur choisi θ̂, un intervalle dans lequel il est vraisemblable que la valeur
correspondante du paramètre s'y trouve. L'intervalle de conance est déni par deux
limites LI et LS auxquelles est associée une certaine probabilité, xée à l'avance et aussi
élevée qu'on le désire, de contenir la valeur vraie du paramètre. La probabilité associée à
l'intervalle de conance et exprimée en pourcentage est égale à S où S est le seuil de
conance ou niveau de conance de l'intervalle, exprimé également en pourcentage.
Autrement dit,

P(LI ≤ θ ≤ LS) = S,

LI est la limite inférieure de l'intervalle de conance.

LS est la limite supérieure de l'intervalle de conance.

S est la probabilité associée à l'intervalle d'encadrer la vraie valeur du paramètre.

LI et LS sont appelées les limites de conance de l'intervalle et sont des quantités qui
tiennent compte des uctuations d'échantillonnage, de l'estimateur θ̂ et du seuil de
conance S. La quantité 1 - S est égale à la probabilité, exprimée en pourcentage, que
l'intervalle n'encadre pas la vraie valeur du paramètre. On note α = 1 − S. α s'appelle le
risque ou le seuil de signication de l'intervalle.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 12 / 30
A quoi correspond l'intervalle de conance ?
Si nous répétons l'expérience un grand nombre de fois (prélever un grand nombre de fois
un échantillon de taille n de la même population), dans 100S cas sur 100 les intervalles
obtenus (diérents à chaque réalisation de l'expérience) recouvrent la vraie valeur du
paramètre.
Remarques :

L'intervalle ainsi déni est un intervalle aléatoire puisqu'avant l'expérience, les


limites de l'intervalle sont des variables aléatoires (elles sont fonctions des
observations de l'échantillon).

Le niveau de conance est toujours associé à l'intervalle et non au paramètre inconnu


θ. θ n'est pas une variable aléatoire : il est ou n'est pas dans l'intervalle [LI , LS].
Le niveau de conance doit être choisi avant que ne s'eectue l'estimation par
intervalle. Il arrive souvent que le chercheur non averti calcule plusieurs intervalles
d'estimation à des niveaux de conance diérents et choisisse par la suite l'intervalle
qui lui semble le plus approprié. Une telle approche constitue en réalité une
interprétation inacceptable des données en ce qu'elle fait dire aux résultats
échantillonnaux ce que l'on veut bien entendre.

Il y a une innité de solutions possibles pour déterminer l'intervalle [LI , LS]. On


choisira de prendre des risques symétriques, c'est-à-dire de choisir LI et LS tels que
1 −S
P(θ ≤ LI ) = P(θ ≥ LS) = .
2

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 13 / 30
Pour calculer l'intervalle de conance, on doit connaître la distribution d'échantillonnage
(distribution de probabilité) de l'estimateur correspondant, c'est-à-dire connaître de
quelle façon sont distribuées toutes les valeurs possibles de l'estimateur obtenues à partir
de tous les échantillons possibles de même taille prélevés de la même population. Ce
travail a été eectué au chapitre précédant. Nous allons voir à présent comment déduire
des distributions d'échantillonnage la construction des intervalles de conance.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 14 / 30
Estimation d'une moyenne par intervalle de conance

On se propose d'estimer, par intervalle de conance, la moyenne m d'un caractère


mesurable d'une population. Il s'agit donc de calculer, à partir de la moyenne x̄ (valeur
prise par l'estimateurX̄ ) de l'échantillon, un intervalle dans lequel il est vraisemblable
que la vraie valeur de m se trouve. Cet intervalle se dénit d'après l'équation
P(A ≤ m ≤ B) = S . Les limites A et B de cet intervalle sont des quantités aléatoires et
prendront, après avoir prélevé l'échantillon et calculé l'estimation x̄ , la forme
LI ≤ m ≤ LS . Nous allons déterminer LI et LS en utilisant la distribution
d'échantillonnage de X̄ . L'étude du chapitre précédant nous amène donc à distinguer
deux cas, suivant la taille de l'échantillon.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 15 / 30
a. On dispose d'un grand échantillon (n ≥ 30) ou d'un petit échantillon
(n < 30) dont la distribution est normale d'écart-type connu σpop

Dans ces conditions on considère que la variable aléatoire X̄ suit une loi normale,

σpop
X̄ ⇀ N (m, √ ).
n
X̄ −m
Donc T
. = σpop

suit la loi N (0, 1).
n
On cherche à déterminer A et B tels que P(A ≤ m ≤ B) = S .

α/2 1−α α/2

−tα 0 tα
/2 /2

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 16 / 30
Puisqu'on choisit des risques symétriques, on va déterminer dans la table de la loi normale
centrée réduite la valeur tα/2 telle que P(−tα/2 ≤ T ≤ tα/2 ) = S , ce qui peut s'écrire

σpop σpop
P(X̄ − tα/2 √ , X̄ + tα/2 √ ) = S,
n n
qui est bien de la forme cherchée en posant

σpop σpop
A = X̄ − tα/2 √ , B = X̄ + tα/2 √ .
n n
Signication. Avant toute expérience, la probabilité que l'intervalle aléatoire
σpop σpop
[X̄ − tα/2 √ , X̄ + tα/2 √
n n
] contienne la vraie valeur de m est S. Ces deux limites sont
des variables aléatoires qui prendront des valeurs numériques particulières une fois que
l'échantillon est choisi et qu'on a obtenu la valeur de x̄ (réalisation de la variable
aléatoire X̄ ).
On en déduit par la suite un intervalle d'extrémités xes (et non plus un
σpop σpop
intervalle aléatoire) qui s'écrit [x̄ − tα/2 √ , x̄ + tα/2 √ ], et on lui attribue, non pas une
n n
probabilité, mais un niveau de conance de α de contenir la vraie valeur de m.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 17 / 30
Conclusion. A partir d'un échantillon de grande taille (n ≥ 30) ou à partir d'un
échantillon de petite taille (n < 30), prélevé à partir d'une population normale de
2
moyenne m (inconnue) et de variance σpop connue, on dénit un intervalle de conance
ayant un niveau de conance S de contenir la vraie valeur de m par

σpop σpop
[x̄ − tα/2 √ , x̄ + tα/2 √ ].
n n

Remarque
2
Dans le cas d'un grand échantillon, si la variance σpop de la population est inconnue, on
peut l'estimer sans problème par la variance d'échantillon s 2 = n−n 1 σech
2
.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 18 / 30
b. On dispose d'un petit échantillon (n < 30) et la distribution de X est
normale d'écart-type inconnu

Dans ces conditions, l'étude du chapitre précédant nous a appris que nous ne disposions
pas directement de la loi de X̄ mais de celle de

X̄ − m
T = √ .
Σech / n − 1
T suit une loi de Student à n−1 degrés de liberté : T ⇀ Tn−1 .
Pour trouver l'intervalle de conance de m au risque α, nous allons procéder comme dans
le cas précédent.

P(t> t α ,ν)= α/2


/2

1−α
α/2 α/2

−tα ,ν 0 t α ,ν
/2 /2

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 19 / 30
On détermine dans la table de la loi de Student la valeur tα/2,ν (où ν = n − 1) telle que
P(−tα/2,ν ≤ T ≤ tα/2,ν ) = S , ce qui peut s'écrire

Σech Σech
P(X̄ − tα/2,ν √ , X̄ + tα/2,ν √ ) = S.
n−1 n−1

Après avoir choisi l'échantillon, X̄ a pris la valeur x̄ et Σech la valeur σech . On en déduit
par la suite un intervalle d'extrémités xes (et non plus un intervalle aléatoire) qui s'écrit
[x̄ − tα/2,ν √σn−
ech σ
√ ech
1 , x̄ + tα/2,ν n−1 ] et on lui attribue, non pas une probabilité, mais un
niveau de conance de α de contenir la vraie valeur de m.
Conclusion. A partir d'un échantillon de petite taille (n < 30), prélevé à partir d'une
2
population normale de moyenne m (inconnue) et de variance σpop inconnue, on dénit un
intervalle de conance ayant un niveau de conance S de contenir la vraie valeur de m par
σech σech
[x̄ − tα/2,ν √ , x̄ + tα/2,ν √ ],
n−1 n−1
où ν = n − 1 est le nombre de degrés de liberté de la distribution de Student.
σ s
On pourra bien sûr remplacer √ ech par √ .
n−1 n

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 20 / 30
Remarques
1. L'intervalle de conance pourra être numériquement diérent chaque fois qu'on
prélève un échantillon de même taille de la population puisque l'intervalle est centré sur
la moyenne de l'échantillon qui varie de prélèvement en prélèvement.
2. Le niveau de conance est associé à l'intervalle et non au paramètre m. Il ne faut pas
dire que la vraie valeur de m a, disons 95 chances sur 100, de se trouver dans l'intervalle
mais plutôt que l'intervalle de conance a 95 chances sur 100 de contenir la vraie valeur
de m ou encore que 95 fois sur 100, l'intervalle déterminé contiendra la vraie valeur de m.
Une fois que l'intervalle est calculé, m est ou n'est pas dans l'intervalle (pour une
population donnée, m est une constante et non une variable aléatoire).
3. Plus le niveau de conance est élevé, plus l'amplitude de l'intervalle est grande. Pour la
même taille d'échantillon, on perd de la précision en gagnant une plus grande conance.
4. Dans le cas où la variance de la population est inconnue, des échantillonnages
successifs de la population peuvent conduire pour une même taille d'échantillon et le
même niveau de conance, à des intervalles de diverses amplitudes parce que l'écart-type
s variera d'échantillon en échantillon.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 21 / 30
Estimation d'une variance par intervalle de conance
2
On se propose d'estimer, par intervalle de conance, la variance σpop d'un caractère
mesurable d'une population. Il s'agit donc de déterminer, à partir de la variance de
2 2
l'échantillon σech , un intervalle dans lequel il est vraisemblable que la vraie valeur de σpop
se trouve.
2
On cherche un intervalle [A, B] vériant P(A ≤ σpop ≤ B) = S . Les limites de cet
intervalle prendront, après avoir prélevé l'échantillon et calculé l'estimation les valeurs
2
prises par les deux quantités aléatoires A et B, la forme a ≤ σpop ≤ b.
Nous allons déterminer A et B en utilisant la distribution d'échantillonnage de la variance
d'échantillon S 2.
Nous supposerons par la suite que la population est normale, c'est-à-dire que le
caractère X suit une loi normale. L'étude du chapitre précédant nous amène donc à
distinguer deux cas.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 22 / 30
a. La population est normale et on dispose d'un grand échantillon (n ≥ 30)

La variance d'échantillon S2 = n
Σ2 suit approximativement une loi normale (voir
n−1 ech q

chapitre précédant), S 2 ⇀ N (σpop


2 2
, σpop 2
n−1
), donc

S 2 − σpop
2
T = q
2 2
σpop n−1

suit une loi normale centrée réduite.

α/2 1−α α/2

−tα 0 tα
/2 /2

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 23 / 30
On peut déterminer dans la table de la loi normale centrée réduite la valeur tα/2 telle que
P(−tα/2 ≤ T ≤ tα/2 ) = S , ce qui peut s'écrire

S 2 − σpop
2
P(−tα/2 ≤ q ≤ tα/2 ) = 1 − α.
2 2
σpop n−1

2
Comme on a un grand échantillon, on peut estimer σpop par s2 = n
σ 2 . Soit encore
n−1 ech
r r
2 2 2 2 2 2 2
P(S − tα/2 s ≤ σpop ≤ S + tα/2 s ) = 1 − α,
n−1 n−1
qui est bien de la forme cherchée.
Ces deux limites sont des variables aléatoires qui prendront des valeurs numériques
particulières une fois que l'échantillon est choisi et qu'on a obtenu la valeur de s2
2
(réalisation de la variable aléatoire S ). On en déduit par la suite un intervalle
d'extrémités xes (et non plus un intervalle aléatoire) qui s'écrit

[s 2 − tα/2 s 2 2
≤ s 2 + tα/2 s 2
q
2
q
2
n−1
≤ σpop n−1
], et on lui attribue un niveau de conance
2
S de contenir la vraie valeur de σpop .

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 24 / 30
Conclusion. A partir d'un échantillon de grande taille (n ≥ 30), prélevé à partir d'une
2
population normale de variance σpop inconnue, on dénit un intervalle de conance ayant
2
un niveau de conance 1 − α de contenir la vraie valeur de σpop par

r r
2 2
[s 2 − tα/2 s 2 2
≤ σpop ≤ s 2 + tα/2 s 2 ].
n−1 n−1
b. La population est normale et on dispose d'un petit échantillon (n < 30)
La variable

nΣ2ech (n − 1)S 2
Y = 2 = 2
σpop σpop

suit une loi du χ2 à n−1 degrés de liberté (voir chapitre précédant), Y ⇀ χ2n−1 .

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 25 / 30
Nous allons chercher un intervalle [χ2a , χ2b ] de valeurs telles que P(χ2a ≤ Y ≤ χ2b ) = S .

P(Y< χ 2a )= α/2 P(Y> χ 2 )= α/ 2


b

χ 2a χ2
b

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 26 / 30
On choisit un intervalle correspondant à des risques symétriques, c'est-à-dire tel que

1 −S α
P(Y < χ2a ) = P(χ2b < Y ) = = .
2 2

2
Les deux valeurs χa et χ2b se déterminent à l'aide des tables. On peut alors écrire que
nΣ2
P(χ2a ≤ σ2ech ≤ χ2b ) = S et donc que
pop

nΣ2ech 2 nΣ2ech
P( 2 ≤ σpop ≤ ) = S.
χb χ2a

Ces deux limites sont des variables aléatoires qui prendront des valeurs numériques
particulières une fois que l'échantillon est choisi et qu'on a obtenu la valeur de s2
2
(réalisation de la variable aléatoire S ). On en déduit par la suite un intervalle
nσ 2 nσ 2
d'extrémités xes qui s'écrit [ ech , χech
2 ] et on lui attribue un niveau de conance S de
χ2b a
2
contenir la vraie valeur de σpop .
Conclusion. A partir d'un échantillon de petite taille (n < 30), prélevé à partir d'une
2
population normale de variance σpop inconnue, on dénit un intervalle de conance ayant
2
un niveau de conance S de contenir la vraie valeur de σpop par

2
nσech nσ 2
[ 2 , ech ].
χb χ2a

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 27 / 30
Estimation d'une proportion par intervalle de conance

On se propose d'estimer, par intervalle de conance, la proportion p d'un caractère


quantitatif d'une population. Il s'agit donc de déterminer, à partir de la proportion de
l'échantillon f, un intervalle dans lequel il est vraisemblable que la vraie valeur de p s'y
trouve. On cherche un intervalle [A, B] vériant P(A ≤ p ≤ B) = S . Les limites de cet
intervalle prendront, après avoir prélevé l'échantillon et calculé les valeurs prises par les
deux quantités aléatoires A et B , la forme LI ≤ p ≤ LS .
Nous allons déterminer A et B en utilisant la distribution d'échantillonnage de la
proportion d'échantillon F .
Nous supposons que nous sommes en présence d'un grand échantillon (n ≥ 30) et que p
(que nous devons estimer) n'est pas trop petit (np ≥ 15 et nq ≥ 15). La fréquence
d'échantillon
pFpq suit approximativement une loi normale (voir chapitre précédant),
F ⇀ N (p, n
). Donc

F −p
T = p pq
n

suit approximativement une loi normale centrée réduite.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 28 / 30
α/2 1−α α/2

−tα 0 tα
/2 /2

On peut déterminer dans la table de la loi normale centrée réduite la valeur tα/2 telle que
P(−tα/2 ≤ T ≤ tα/2 ) = S . Ce qui peut s'écrire :

F −p
P(−tα/2 ≤ p pq ≤ tα/2 ) = S.
n

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 29 / 30
Le problème est qu'on ignore la valeur de p et qu'elle intervient dans l'écart-type. Comme
n est grand, il est correct d'estimer p par la valeur f (prise par l'estimateur F) trouvée
dans l'échantillon. En eet, la grande taille de l'échantillon garantit que f ne uctue pas
trop d'échantillon en échantillon. Soit encore
r r
f (1 − f ) f (1 − f )
P(F − tα/2 ≤ p ≤ F + tα/2 ) = S.
n n
qui est bien de la forme cherchée.
Ces deux limites sont des variables aléatoires qui prendront des valeurs numériques
particulières une fois que l'échantillon est choisi et qu'on a obtenu la valeur de f
(réalisation de la variable aléatoire F ).qOn en déduit par la suite un intervalle
q
f (1−f )
d'extrémités xes qui s'écrit [f − tα/2 n
+ tα/2 f (1n−f ) ] et on lui attribue un
,f
niveau de conance S de contenir la vraie valeur de p .
Conclusion. A partir d'un échantillon de grande taille (n ≥ 30), prélevé à partir d'une
population dont la proportion p d'un caractère qualitatif est inconnue mais pas trop
petite, on dénit un intervalle de conance ayant un niveau de conance S de contenir la
vraie valeur de p par
r r
f (1 − f ) f (1 − f )
[f − tα/2 , f + tα/2 ].
n n

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 30 / 30
Comment contrôler l'erreur ?

Il arrive souvent que la précision de l'estimation soit spéciée avant même que
l'échantillon ne soit prélevé. Par exemple, vous voulez vérier un lot de pièces de
machinerie : ces pièces doivent avoir un certain diamètre et l'erreur tolérée dans la
fabrication doit être très petite, sinon plusieurs d'entre elles seront inutilisables. Pour
vérier le lot, vous prélevez un échantillon, mais vous voulez que l'estimation se fasse
avec la plus petite erreur d'échantillonnage possible : vous voulez une estimation précise.
D'une trop grande erreur d'échantillonnage résulte une longueur d'intervalle trop grande
et cela rend souvent inutile l'intervalle de conance construit.
Nous pouvons contrôler l'erreur d'échantillonnage en choisissant une taille d'échantillon
appropriée. L'erreur d'échantillonnage survient lorsque l'échantillon ne prend pas en
considération la population dans sa totalité. Chaque fois qu'un échantillon est prélevé,
nous perdons une certaine partie de l'information concernant la population, ce qui
entraîne immanquablement une erreur dans l'estimation. Par conséquent, si nous voulons
un très haut niveau de précision, nous devons prélever un échantillon dont la taille permet
d'extraire de la population l'information susante pour réaliser l'estimation avec la
précision désirée.
Nous verrons en travaux dirigés sur des exemples comment procéder.

Abdelhak YAACOUBI ( FSJES AIN SEBAA ) Année Universitaire 2024/2025 13 avril 2025 31 / 30

Vous aimerez peut-être aussi