0% ont trouvé ce document utile (0 vote)
170 vues38 pages

Cours D'inférence Statistique

Transféré par

noaking001
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
170 vues38 pages

Cours D'inférence Statistique

Transféré par

noaking001
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

UNIVERSITE OMAR BONGO

Faculté de Droit et des Sciences Economiques


Département d’Economie
Licence 2 Professionnelle – Banque Finance Assurance

INFERENCE STATISTIQUE
Cours et exercices

Chargé du cours : Docteur Pristy Fanel MENDOME


Préambule

L’induction statistique traite deux types de problèmes, on cherche à estimer : (1) Les
paramètres d’un ou plusieurs échantillons, à partir de ceux fournis par la population mère d’où
ils sont issus. Ce cas de figure est traité dans le cadre de la distribution. (2) Les paramètres
de la population mère à partir de ceux fournis par les échantillons qui en sont extraits. Cet
aspect est généralement complété par l’appréciation de la précision de l’estimation opérée. Ce
second cas correspond aux problèmes d’estimation ou d’inférence statistique. En outre,
l’autre problème est celui du respect de normes. Cela consiste par exemple à comparer les
caractéristiques d’un lot de produit aux normes imposées p. Le non-respect de ces normes
entraîne le rejet du lot. Cette comparaison peut également être fondée sur les caractéristiques
de deux lot, avec l’objectif de ne retenir que les meilleurs d’eux.

A ce titre, ce cours s’adresse principalement aux étudiants et autres lecteurs souhaitant


se familiariser avec les méthodes les plus courantes de statistique inductive. Il permet de
comprendre et d’avoir des méthodes de pointes pour le traitement des données. L’ouvrage
simplement écrit permet, à toute personne une remise à niveau rapide en ce qui concerne
l’essentiel en inférence statistique qui aujourd’hui fait partie de toutes les formations de
gestion.

L’objectif recherché ici est de présenter l’utilisation pratique de ces méthodes dans les
domaines de l’économie et de la gestion et d’acquérir les méthodes de raisonnement
nécessaire à la résolution des problèmes d’analyse des données. Ensuite de tester l’aptitude à
raisonner, à calculer et à interpréter les résultats obtenus des données statistiques.

2
Table des matières

CHAPITRE 1 : LES MÉTHODES STATISTIQUES......................................4

1- AXIOMATIQUE DES PROBABILITÉS...............................................4

2. VARIABLES ALÉATOIRES.................................................................6

3. LOIS DE PROBABILITÉ USUELLES..................................................7

Convergence en probabilité ...................................................................11

CHAPITRE 2 : ECHANTILLONNAGE ET INFÉRENCE STATISTIQUE.13

Distribution d’échantillonnage d’une proportion P...................................18


Distribution d’échantillonnage de la différence de moyennes...................19

INFÉRENCE STATISTIQUE.................................................................................22

Estimateur ponctuel...................................................................................22
Obtention d’un estimateur.........................................................................23

ESTIMATION PAR INTERVALLE DE CONFIANCE :..............................................23

INTERVALLE DE CONFIANCE D’UNE MOYENNE :..............................................24

Estimation d’une proportion :...................................................................25


Intervalle de confiance de la différence de deux proportions :..................26
Intervalle de confiance de la différence de deux moyennes :.....................26

ETUDE DES DISTRIBUTIONS D’EFFECTIFS : CHI DEUX : ...........................27

Test de conformité.....................................................................................28
Test d’indépendance..................................................................................30

TESTS DU COEFFICIENT DE CORRÉLATION LINÉAIRE........................................32

VI- EXERCICES........................................................................................... 33

3
Chapitre 1 : Les méthodes statistiques

1- Axiomatique des probabilités

Toute expérience aléatoire inductive dans l’environnement économique, politique,


commercial, entreprise…, trouve ses sources dans les fondements de la statistique descriptive
à l’aide de ces outils d’analyse. Toute expérience dont l’issue dépend du hasard est une
expérience aléatoire. Elle se caractérise par le fait que l’on peut, à priori, décrire ou énumérer
les résultats possibles de l’expérience. Mais on ne peut prévoir quel résultat sera obtenu une
fois l’expérience réalisée.

Toutefois, l’Espace échantillonnal Ω représente l’ensemble de tous les résultats


possible d’une l’expérience aléatoire. L’événement est un sous-ensemble de Ω, l’espace
échantillonnal. L’exemple du tableau ci-contre illustre quelques aspects du concept.

Expérience aléatoire Espace échantillonnal Ω Evénement


Lancer trois fois de Ω ={PPP,PPF,PFP,FPP,FFP,FPF,PFF,FFF} A : « obtenir deux cotés
suite une pièce de piles »
monnaie A={PPF,PFP,FPP,}
Lancer un dé non Ω = {1,2,3,4,5,6}, chaque fois que l’on B : « obtenir un numéro
pipé réalise l’expérience, on obtient un seul des 6 impair »
chiffres. B={1,3,5}

Ainsi, quand on réalise une expérience aléatoire, on veut généralement connaitre les chances
qu’un événement donné se produise: c’est ce que l’on appelle probabilité d’un événement. Si
l’on considère à priori que les événements de l’espace échantionnal associé à un événement
sont équiprobables, alors la probabilité d’un événement A note P(A) est donnée par:

Cependant, la probabilité empirique (fréquentiste) d’un événement contrairement à la


probabilité classique est fondée sur l’observation des résultats obtenus après plusieurs
répétitions de l’expérience aléatoire. On considère que la fréquence relative de réalisation
d’un événement A, après n répétitions de l’expériences aléatoire est une bonne approximation
de la probabilité de A, d’où:

4
.

Exemple 1

Candidat P1 P2 P3 Total
s
A 240 135 25 400
B 330 10 10 350
C 230 5 15 250
Total 800 150 50 1000
Utiliser ces statistiques pour estimer les chances de gagner de chaque candidat.

Exemple 2 :

Nombres estimatifs des nouveaux cas de création d’entreprises et des dépôts de Bilan.

Types Grande Petite Moyenne Total


d’entreprises Entreprise entreprise entreprise
Création 50 200 150 400
Dépôt de bilan 15 10 75 100
Total 65 210 225 500
Utiliser ces statistiques pour comparer les risques de dépôts de bilan selon les types
d’entreprises.

1.1. Définitions

On considère un ensemble E non vide et fini, l’ensemble de ses parties P(E), et un sous-
ensemble Q de P(E) qui contient E. Soit l’ensemble des « événements » correspondant aux
résultats possibles d’une épreuve quelconque. On considérera comme équivalents les éléments
de Q, événements définis précédemment. Toutes les propriétés relatives à l’axiomatique des
ensembles et aux opérations sur les ensembles sont par conséquent applicables aux
événements et permettent la construction d’une algèbre événementielle. Ainsi tout élément de
Q sera donc appelé événement.

- L’ensemble E, appelé référentiel est l’événement certain, ∅ représente l’événement


impossible.
- Soit A et B deux événements possibles. La relation, A ⊂ B signifie que la réalisation de A
implique celle de B.

- Le complémentaire de A dans E, noté Ā , représente l’événement contraire de A.


- L’événement A ¿ B est réalisé si A et B sont réalisés ;

5
- L’évènement A¿ B est réalisé si A ou B sont réalisés.
- Deux événements A et B incompatibles (disjoints) sont deux événements n’ayant aucune
éventualité commune, leur intersection est vide : A ¿ B = Æ

- Deux événements A et Ā , contraires sont deux événements incompatibles (A ¿ Ā = Æ)

et dont la réunion forme la totalité des éventualités (A¿ Ā = )


E=Ω= {e1 , e2 , ..., en }
- , est l’ensemble fini des issues d’une expérience aléatoire. A chaque

événement élémentaire. { ei  } , on associe un nombre de l’intervalle [0 ; 1], appelé la


probabilité de cet événement élémentaire et noté p (ei) de façon que :
n
∑ p (ei )=1
P(E) = p(e1)+p(e1)+p(e1)+p(e2)+…+p(ei)+…..+p(en) = i=1
On dit que l’on a défini une probabilité sur l’ensemble E des issues.
A ¹Æ
- La probabilité d’un événement , notée p(A), est la somme des probabilités des
p( Æ )=0
événements élémentaires contenus dans A, de plus .

1.2. Conséquences et propriétés

a) p( E )=1 , 0≤ p( A )≤1

b) Probabilité de l’événement contraire : p( A )=1− p( A )


c) Probabilité de A∪B  : p ( A∪B)= p ( A )+ p (B )− p ( A∩B)

d) En particulier si A et B sont disjoints ( A∩B=∅) alors p ( A∪B )= p ( A )+ p (B )


e) Lorsque les événements élémentaires ont tous la même probabilité de se produire, on dit
qu’ils sont équiprobables.
f) Pour une même expérience aléatoire, A et B sont deux événements avec p (A) ¹ 0. On
appelle probabilité conditionnelle de l’événement B par rapport à l’événement A
(probabilité de B sachant que A est réalisé), notée p (B/A) et définie par :
p ( A∩B )
p ( B/ A )= =P A (B )
p ( A)

2. Variables aléatoires

Pour une expérience qui conduit à une situation aléatoire, si l’expérience est réalisée
dans des conditions identiques, il est possible de prévoir le résultat de cette expérience. Le
phénomène exprimé par ce résultat est appelé phénomène aléatoire. Soit une expérience
6
aléatoire et  l’ensemble des issues (ou résultats) possibles de cette expérience ;  est appelé
ensemble élémentaire associé à l’expérience aléatoire et chaque élément  de  est appelé
événement élémentaire. Généralement, on définit une application, notée p, de ’ dans [ 0 , 1]
et qui traduit les « chances » qu’un événement a de se produire.
Ce triplet n’est en général pas formé d’éléments réels et ne se prête donc pas à des
calculs. Pour remédier à cet inconvénient, on lui associe un espace probabilisé dont tous les
éléments sont réels grâce à l’introduction de la notion de variable aléatoire réelle. On appelle
variable aléatoire réelle toute application X de  dans R telle que l’image réciproque se tout
intervalle de R soit contenue dans ’ ensemble de tous les événements associés à l’expérience
aléatoire. L’ensemble X() est appelé l’ensemble fondamental de la variable aléatoire X et on
appelle distribution de probabilité ou loi de probabilité de X, l’application notée P X, de J
dans le segment [0, 1] et définie par : PX(I) = p( X-1(I) ),  I J ; J désigne la famille des
intervalles de R. Soit X (), l’ensemble fondamental de la variable aléatoire X :

[i] Si X () est dénombrable, on dit que X est une variable aléatoire discrète ou
discontinue.

[ii] Si X () est non dénombrable, on dit que X est une variable aléatoire continue.

On note généralement une variable aléatoire par une lettre majuscule X ou Y. L’application F
définie sur R par : F(x) = Px ( ] , x] ) ou F(x) = Px (] , x[) ,  x R , est la fonction de
répartition ou fonction cumulative de X. Si F est continûment dérivable par morceaux, on dit
que X est une variable aléatoire absolument continue et la dérivée de F est appelée fonction
densité de probabilité de X.

3. Lois de probabilité usuelles

3.1. Tableau récapitulatif sur les lois de probabilités

Lois continues Univers Densité E( X ) V(X)

Loi uniforme [a, b] f ( x )=


1 a+b ( b−a )2
b−a 2 12
+
f ( x )=λ e−λ x 1 1
Loi exponentielle R λ λ2
λ >0

7
m
Loi normale R 1 ( x−m)2 σ 2
e−
σ √2 π 2σ 2
m∈ R σ >0

Lois discrètes Univers Distribution E( X ) V ( X )

Loi uniforme Ω={ 1, 2,⋯, n } 1 n+1 n2 −1


n 2 2
Loi de Bernouilli Ω={ 0 , 1 } Pr ob ( X=0 )= p p pq
Pr ob ( X=1 )=q
p∈]0, 1[ p+q=1
Loi binomial Ω={ 0, 1, 2,⋯, n } k n⋅p npq
Pr ob ( X=k )= Cnp q k n−k

p∈]0, 1[ p+q=1
Loi Ω={ 0, 1, 2,⋯, n } k n− k n⋅p N −n
hypergéométrique
Pr ob ( X=k )=
C Np C Nq N−1
npq
n
n≤N p∈ ]0, 1[ CN
p+q=1
Loi géométrique +
pqk −1 1 q
N
p p2
p∈]0, 1[ p+q=1
Loi de Poisson N e− λ λ λ
λ k⋅
k!
λ >0

3.2. Loi normale centrée réduite :


Définition : Soit X une variable aléatoire réelle. On dit que X suit une loi normale centrée
réduite, si X est une variable aléatoire réelle absolument continue admettant une fonction de
densité de probabilité f et une fonction de répartition F notée encore p telles que :

x2 t
2
1 −2 1 x −2
f ( x )=
√2π
. e  et  F( x )=Π ( x )= ∫ e dt
√ 2 π −∞

Nous noterons X→N (0, 1), on dit aussi que X est une v.a. normale centrée réduite. Il existe

de tables donnent pour différentes valeurs de x positive la valeur correspondante de P( x ) . Par


exemple :

8
P(2 )=prob( X <2 )=F (2)=0 ,9772
P(2 , 24 )=prob( X <2 , 24 )=F (2 ,24 )=0 , 9875
d ' ou l ' on tirePr (2<X <2 ,24 )=P (2, 24 )−P (2)=0 . 0103

Pour les valeurs négatives, il est nécessaire de se référer à la représentation graphique de la


fonction f.

F (−1 , 96)=Pr( X >1,96 )=1−Pr( X <1 , 96 )=1−P (1, 96)=1−0 , 9750=0,025


F (−1 , 96< X <1 , 96)=P(1 ,96 )−P (−1 ,96 )=P(1, 96)−[ 1−P(1, 96 )]=2 P (1 ,96 )−1=0 ,950
Caractéristiques : La loi normale centrée réduite admet une espérance mathématique nulle et
une variance égale à 1. C’est pourquoi elle est notée généralement par N(0, 1)

E(X) = 0 et V(X) = 1.

Loi normale ou loi de Laplace-Gauss


Définition : C’est la loi de la variable aléatoire réelle Y déduite de la v.a X normale centrée

réduite par la fonction linéaire Y = sX +m où m et s sont des nombres réels ( s >0 et m


quelconque). Caractéristiques : Nous noterons Y →N(m, s ). On dit aussi que Y est une v.a.
normale ou gaussienne. Fonction de répartition de Y : Elle se déduit de celle de X → N(0, 1)
par la relation :

Pour le calcul des probabilités, il est aisé de se ramener au cas d’une loi normale centrée
Y −m
X=
s s
réduite en notant que si Y → N(m, ) la variable aléatoire  N(0, 1) et par suite

Pr ( Y < y )=P ( y−m


s )

4. Inégalité intéressante: Inégalité de Chebyshev

L’inégalité de Chebyshev s’applique à des fonctions quelconques.


Elle s’exprime sous la forme du théorème suivant : Pour une variable aléatoire X quelconque :

9
Var [ X ]
p (|X −μ|≥a )≤ 2
∀a> 0
a

L’inégalité de Chebyshev ne requiert que la connaissance de l’espérance et de la variance de


la variable aléatoire X, elle donne une borne supérieure quant à la probabilité que la variable

aléatoire X prenne des valeurs à l’extérieur de l’intervalle [ μ−a , μ+a ] , cette borne supérieure

étant valable quelle que soit la fonction P ( x ) ou f ( x ) .

Il arrive parfois que cette borne soit éloignée de la valeur réelle. En pratique, l’inégalité de

Chebyshev est très utile si l’on veut obtenir une estimation des ordres de grandeur pour des

intervalles de confiance symétriques autour de la moyenne lorsque l’on ne dispose que des

μ et σ 2 .
valeurs

Exemple1. Sur base de l’inégalité de Chebyshev, on remarque en particulier que pour

Ceci montre que pour une variable aléatoire X quelconque, la probabilité que les valeurs

s’écartent de plus de 3σ par rapport à la moyenne ne peut jamais excéder 1/9.

Exemple 2. Si l’on sait seulement que la pluviosité annuelle totale à Angoville vaut en
moyenne 800 millimètres, avec un écart-type de 100 millimètres, quelle est la probabilité
minimale qu’il pleuve entre 600 et 1000 millimètres sur une année ?

On peut se baser sur l’inégalité de Chebyshev pour répondre à cette question. Si :

10
Convergence en probabilité : Définition : Soit X1,…. , Xn , suite de variable définie sur un
même ensemble Ω . On dit que cette suite converge en probabilité vers une valeur certaine a.
Théorème : Pour qu’une suite de variables (X n)n>0, converge en probabilité vers le nombre a, il
lim E( X n )= a et lim V ( X n )=0
suffit que : n→+∞ n→+∞

Exemple :

Soit une épreuve E à deux issues A et non A de probabilités respectives p et q =1-p. Nous
avons ici le cas d’une épreuve de Bernoulli. Répétons n fois cette épreuve et soit Xn, le
nombre de réalisation de l’événement A sur les n épreuves. La variable Xn est une variable
binomiale de paramètres n et p : Xnn (n, p) et on a E(Xn) = np et V(Xn) = npq

Convergence en loi : Soit (Xn ) une suite de variables, chacune d’entre elle admettant pour
fonction de répartition Fn(x) et pour fonction densité de probabilitéXn. Si Fn(x) converge vers
F(x), on dit que la suite (Xn ) converge en loi vers la variable aléatoire X, de fonction de
répartition noté F(x). (Même résultat avec les fonctions, densité de probabilité : Xn(x) → (x),
les fonctions génératrices des moments ou des probabilités)

Approximations

- Une loi binomiale B(n,p) peut être approchée par la loi normale N ( np; √ npq ), si n
30 ;
n.p  15 ; n. p.q  5 .
- Une loi P(), de Poisson de paramètre  peut être approchée par une loi normale si 15.
- Une loi hypergéométrique H(N,n,p) peut être approchée par une loi binomiale B(n, p ),
lorsque N10n et p  0,1.

- Une loi binomiale B (n,p ) peut être approchée par la loi de Poisson P ( λ= n.p), lorsque
n30 ; p0,1et n.p 15 .

11
Chapitre 2 : Echantillonnage et inférence statistique

Soit une population statistique P, constituée par la totalité des individus d’une
communauté donnée, à chacun des N individus qui composent cette population, on peut
associer un nombre qui traduit la valeur du caractère particulier auquel l’on s’intéresse dans la
population P. La théorie de l’échantillonnage étudie les relations ou les rapports existants
entre une population (population mère) et les échantillons prélevés dans la population. La
connaissance détaillée des N individus de la population P, permet de définir des quantités

1- Distributions d’échantillonnage

La théorie de l’échantillon permet, à partir des caractéristiques de la population mère de


déduire celles relatives aux échantillons qui en sont extraits. La construction d’un échantillon
peut s’effectuer :

A) avec remise. L’élément prélevé, de la distribution ou population mère, est remis


immédiatement avant que ne soit prélevé le suivant. L’élément choisi peut ainsi l’être
une ou plusieurs fois. Dans ce cas, l’échantillonnage est dit non exhaustif.

B) Sans remise. L’élément prélevé de la population mère n’est pas remis. L’élément
choisi ne peut l’être qu’une fois et une seule. Cet échantillonnage est dit exhaustif.

La population mère de laquelle est tiré l’échantillon est finie ou infinie. Une population finie,
dans laquelle s’effectue un tirage avec remise, peut être considérée comme infinie. Chaque
échantillon de taille n constitué, avec ou sans remise, à partir d’une population mère finie ou
infinie, forme une distribution statistique. Celle-ci peut être caractérisée par une moyenne,
un écart-type ou une proportion. La série des valeurs obtenues pour l’une de ces
caractéristiques, à partir de l’ensemble des échantillons tirés de la population mère, constitue
12
une distribution d’échantillonnage de la caractéristique considérée. Il est ainsi possible
d’obtenir une distribution d’échantillonnage de moyennes, d’écarts-type, de proportions.

De façon similaire, chaque distribution d’échantillonnage sera caractérisée par une moyenne
ou un écart-type.

Distribution d’échantillonnage de moyennes

Paramètres de certaines statistiques usuelles

1. Cas d’une moyenne

Soit une population mère composée de N éléments auxquels sont attachés, individuellement,
le caractère x et la probabilité d’être choisie : 1/N. Tirer au hasard l’un de ces éléments revient
à définir une variable aléatoire X, dont l’espérance mathématique et la variance sont :
N N
1 1
m= ∑x
N i =1 1
σ ²= ∑ ( x −m) ²
N i =1 i
E(X)=m ; avec et V(X) = σ² avec

La moyenne et la variance de chaque échantillon sont données par :


n n
1 1
x̄= ∑ x i σ x ²= ∑ ( xi − x̄ ) ²
n i=1 n i =1
et , « n » étant la taille des échantillons.

Cette moyenne varie d’un échantillon à l’autre. Les différentes moyennes obtenues, notées
x̄ 1 , x̄ 2 , x̄3 ,… , x̄ k−1 , x̄ k .
……, forment une distribution d’échantillon de moyennes, représentée

par la variable aléatoire .

2. Cas d’une proportion :

; X est la somme de n variable aléatoires indépendantes et qui suivent la loi de


Bernouilli de paramètre (p), d’où :

E ( X i )= p
V ( X i )= p ( 1− p )
E ( X )=np
V ( X )=np ( 1− p )
;

13
{
E ( P )=p
X
P= ; p ( 1− p )
n V ( P )=
n
On en déduit pour

La loi de probabilité de P

1
B (n , p )
B (n , p ) n
La variable  , d’où la variable 

P− p

Pour n grand :
√ p ( 1− p )
n
 N(1, 0) et P 
(
N p,
p ( 1− p )
n )
Exemple : Soit X la variable aléatoire qui prend la valeur 1, 2 et 3 avec des probabilités
égales. Prélevons de cette population des échantillons de tailles n = 2. On aura X1 et X2.
Considérons les deux variables X1 et X2 ainsi définies. Il s’agit ici de vérifier sur cet exemple
simple que X1 et X2 sont des variables qui suivent la même loi que X quel que soit le tirage.

1er cas : Tirage avec remise 2er cas : Tirage sans remise

Les échantillons possibles sont : Les échantillons possibles sont :

(1, 1) (2, 1) (3, 1) (1, 2) (2, 1) (3, 1)


(1, 2) (2, 2) (3, 2) (1, 3) (2, 3) (3, 2)
(1, 3) (2, 3) (3, 3)
Card () = 9 Card () = 6

X1 prend les valeurs, 1, 2 et 3, de même que X2.


Loi du couple (X1, X2)
1er Cas (avec remise)
1 1 1
Pr[X1 = i ; X2 = j] = Pr[X1 = i ] x Pr[ X2 = j] (indépendants) = 3 * 3 = 9  i = 1, 2, 3 ;
j =1, 2, 3
X2 1 2 3 total
X1
1 1 1 1 1
9 9 9 3
2 1 1 1 1
9 9 9 3

14
3 1 1 1 1
9 9 9 3
Total 1 1 1 1
3 3 3
Loi de X
X 1 2 3 Total
Pr(X=xi) 1 1 1 1
3 3 3
Calcul de moyenne et variance de X
X 1 2 3 Total
Pr(X=xi) 1 1 1 1
3 3 3
Pi xi 1 2 3 2
3 3 3
Pix²i 1 4 9 14
3 3 3 3
14 14−12 2
=
E(X)=2 et V(X)= 3 -2²= 3 3
1
2ème Cas (sans remise) :Pr[X1 = i / X2 = j] Pr[ X2 = j] = 6 ; i  j, d’où les tableaux suivants.
X2/x1 1 2 3 total
1 0 1 1 1
6 6 3
2 1 0 1 1
6 6 3
3 1 1 0 1
6 6 3
total 1 1 1 1
3 3 3

Loi de X
X 1 2 3 Total
Pr(X=xi) 1 1 1 1
3 3 3
14 14−12 2
=
On retrouve : E(X)=2 et V(X)= 3 -2²= 3 3
2
σ ²=
μ=2 3
Dans l’exemple précèdent, la variable X a pour moyenne et pour variance

15
Déterminons la loi et l’espérance mathématique et la variance de :

1er cas : Tirage avec remise

Si la population mère est finie et l’échantillon non exhaustif (tirage avec remise) ou si
la population est infinie, que l’échantillon soit ou non exhaustif, l’espérance mathématique de
X̄ X̄ X̄
, notée E ( ), est égale à la moyenne arithmétique de la population mère : E ( ) = m ; La
variance est égale à la variance de la population mère rapportée à la taille de l’échantillon :

σ2 σ
V ( X )= σ x̄ =
n
.L’écart-type est obtenu à partir de l’expression précédente :
√n
2eme cas : Tirage sans remise

n 1
>
N 20
Si la population mère est finie ( avec ) et l’échantillon exhaustif (tirage sans
remise), l’espérance mathématique de la moyenne de X est identique à celle précédemment

établie et l’écart-type est égal au précédent à un facteur multiplicatif près : E ( )=m ,

V ( X )=
N −n σ 2
×
N −1 n
et
σ x̄ =
σ
√n √ N−n
N −1
. Le terme (
N −n
N−1
) est appelé facteur d’exhaustivité,
il réduit la variance et sa racine carrée minore l’écart-type, en fonction de l’effectif de
l’échantillon.

Remarque très importantes :

 Si la taille de l’échantillon est au moins égale à 30, la variable aléatoire x obéit à une
σ
loi normale de paramètres m et √ n ) théorème de la limite centrale)
σ
X̄ → N ( m, )
Si n≥30 ⇒ √n
 Si la variable aléatoire x obéit à une loi normale, la loi de probabilité de x est
également la loi normale, même si la taille de l’échantillon est inférieure à 30 :
σ
X̄ → N ( m, )
Si X → N ( m, σ ) ⇒ √n
Exemple 1: X tel que E (X) = 100 = V (X), on prélève n = 400. Loi de ?

16
V ( X ) 100
= =0 , 25 et σ ( X̄ )= √0 , 25=0 ,5
E( )=100 et V( )= n 400

N (100 ; 0,5)

Exemple 2 : Une machine automatique produit des pièces dont le poids moyen est 5 grammes
avec un écart-type de 0, 25 grammes. Le responsable de la production désire contrôler le
poids de ces pièces et prélève à cet effet 100 pièces, à intervalles réguliers.

- à quelle loi de probabilité obéit la variable aléatoire X̄


- Calculer la probabilité que x soit au plus égale à 5,01 grammes.

Loi de probabilité de X̄ : La population peut être assimilée à une population infinie, quelle
que soit la période de production considérée. Plus cette période est importante et plus la
population tend vers l’infini. La taille de l’échantillon étant supérieure à 30, la distribution

d’échantillonnage des moyennes obéit à une normale de paramètres : E ( X̄ ) = m = 5 et


σ 0 , 25
σ x̄ = = =0 , 025 donc X̄ →N (5 ; 0 , 025)
√ √
n 100

Probabilité que X̄ ≤ 5,01 ;


{
P { X̄≤5 , 01 }=P T ≤
5 ,01−5
0 , 025 }
=Π (0 , 4 )=0 , 6554
, soit 65,54%.

Distribution d’échantillonnage d’une proportion P

Soit une population mère où chaque élément possède ou ne possède pas un caractère
donné. Désignons par p,la proportion des éléments possédant ce caractère et par q celle de
ceux qui ne le possèdent pas. On a : p+q=1, donc q=1-p

Pour chaque échantillon de taille n extrait de la population mère, la proportion d’éléments


possédant le caractère défini correspond à la fréquence f. Les fréquences obtenues différentes
d’un échantillon à l’autre, forment une distribution d’échantillonnage de proportion F.

Si la population mère est finie et l’échantillon est non exhaustif (tirage avec remise) ou
si la population est infinie, que l’échantillon soit ou non exhaustif, la variable aléatoire
X=X1+X2+…+Xn, suit une loi binomiale de paramètres n et p et on a E (X) = np et V(X)= npq

X 1
F= B (n , p )
B (n , p ) n n
La variable, X , d’où la variable  et E(F ) = p et

17
F− p

V ( F )=
pq p (1− p )
n
=
n
, d’où F 
N p,( p ( 1− p )
n ) et √ p ( 1−n p)  N(1, 0)
n 1
( avec > )
N 20
Si la population mère est finie et l’échantillon est exhaustif (tirage
sans remise) les caractéristiques doivent subir une correction d’exhaustivité et l’écart type

devient
σ F=
√ √
pq
n
×
N −n
N−1

Remarques: Les remarques relatives aux lois de probabilités suivies par les distributions
d’échantillonnage de moyennes et de différences de moyennes s’appliquent également au cas
des proportions. Ainsi :

 Si n ≥ 30, F  , bien que la proportion obéisse à une loi


binominale.

 Si la population est distribuée selon une loi normale, la variable aléatoire F obéit
également à une loi normale, même si la taille de l’échantillon est inférieure à 30.

Exemple : Le responsable du service abonnement d’une chaîne de télévision codée constate


que 2 % des abonnés résilient leur contrat au terme d’un an. Le directeur de la chaîne prélève
un échantillon aléatoire de 200 abonnés.

a- Calculer la probabilité que le nombre de résiliations au terme de l’année soit supérieur


à 4 %.
b- Calculer la probabilité que ce nombre soit au plus égal à 1 %.

Désignons par :

P : la proportion de résiliation au terme de l’année ; et q : le complémentaire de p

Avec : p = 0,02 et q = 1-p = 0,98

Le nombre d’abonnés d’où est extrait l’échantillon peut être considéré comme suffisamment
grand pour que (n/N < 1/20). Il ne faut donc pas recourir au facteur d’exhaustivité. Par

ailleurs : n = 200> 30 alors F 


(
N p,
p ( 1− p )
n )
18
La distribution d’échantillonnage de proportions présente les caractéristiques suivantes :

E (F) p = 0,02 et
σ F=
√ √ pq (0 , 02)(0 , 98 )
n
=
200
=0 , 0099

N ( 0 , 02 ; 0 ,0099 ) )
Donc F 

La probabilité que le nombre de résiliation au terme de l’année soit supérieur à 4 % est :

P( F>0 , 04 )=P T > ( 0 ,0099 )


0 , 04−0 , 02
=1−P (T <2 , 2)=1−Π (2 , 02)=0 , 0217
, soit 2,17%

La probabilité que le nombre de résiliations au terme de l’année soit plus égal à 1%, est :

P( F<0 , 01)=P T <( 0 , 01−0 ,02


0 , 0099 )
=P(T <−1 ,01 )=1−Π (1 , 01)=0 , 1562
, soit 15,62%

Distribution d’échantillonnage de la différence de moyennes

X̄ A X̄ B
Désignons par : , la distribution d’échantillonnage de moyennes d’une population A ;
, la distribution d’échantillonnage de moyennes d’une population B. Ces deux variables
aléatoires sont caractérisées par :

σA
E( X̄ A )=m A et σ x̄ = ; pour X̄ A
A
√n A
σB
E( X̄ B )=mB et σ x̄ = ; pour X̄ B
B
√ nB
La distribution d’échantillonnage de la différence des moyennes, notée D, est une variable
aléatoire dont les caractéristiques sont :

E( D )=E( X̄ A − X̄ B )=m A −m B et σ D= σ x̄ + σ x̄ =√ 2
A
2
B
√ σ ²A σ ²B
nA
+
nB

Remarques

19
Si nA et nB sont au moins égaux à 30, la variable D obéit à une loi normale de paramètres

m D=( mA −mB ) et σ D=
√ σ ²A
nA
+
σ ²B
nB
;

D=( X̄ A − X̄ B )→ N ( m A −mB ;
√ σ ²A
nA
+
σ ²B
nB
)

Si la variable X est distribué dans les populations A et B suivant une loi normale, la variable

aléatoire obéit à une loi normale. Les conditions d’utilisation du facteur


d’exhaustivité sont identiques à celles précédemment définies.

Exemple : Une société produit des briquets dans deux unités : A et B. Ceux produits par
l’unité A permettent 150 allumages en moyennes avec un écart-type de 20 allumages. Les
briquets produits par A assurent 140 allumages en moyenne avec un écart-type de 15
allumages. Le contrôleur de la société prélève 150 briquets de A et 200 briquets de B.
Calculer la probabilité que le nombre moyen d’allumages des briquets de l’échantillon de A
soit supérieur de plus de 15 au nombre moyen d’allumages de l’échantillon provenant de B.

Désignons par :

X̄ A
, la distribution d’échantillonnage de moyennes d’une population A ;

X̄ B
, la distribution d’échantillonnage de moyennes d’une population B

Ces deux variables aléatoires sont caractérisées par :

σ A 20
E( X̄ A )=m A =150 et σ x̄ = = =1, 63
A
√ n A √150
σ B 15
E( X̄ B )=mB =140 et σ x̄ = = =1 , 06
B
√n B √ 200
La distribution d’échantillonnage de la différence des moyennes, notée D, est une variable
aléatoire dont les caractéristiques sont :

E( D )=m A −m B =150−140=10 et σ D=
√ σ ²A σ ²B
+
nA nB
=
150√
(20 ) ² (15 ) ²
+
200
=1 , 95

20
Les tailles des échantillons n et « n » étant supérieures à 30, respectivement 150 et 200, la
D=( X̄ A − X̄ B )→ N (10 ; 1 , 95 )
variable aléatoire

Déterminons la probabilité que le nombre moyen d’allumages de l’échantillon A soit


supérieur de plus de 15 au nombre moyen d’allumages de l’échantillon B :

{
P { X̄ A− X̄ B >15 }=P T >
15−10
1 , 95 }
=P {T >2 ,56 } =1−P {T <2 , 56 }=1−Π (2 ,56 )=0 ,0052

Soit 0,52%.

Distribution d’échantillonnage de la différence de proportions

Les caractéristiques de cette distribution sont similaires à celles opposées au paragraphe


précédent. Désignons par :

FA : la distribution d’échantillonnage de proportions d’une population A ;

FB : la distribution d’échantillonnage de proportions d’une population B ;

Ces deux variables aléatoires sont caractérisées par :

E( F A )= p A et σ F =
A √ pA qA
nA
; pour F A

E( F B )= pB et σ F =
B √ pB qB
nB
; pour F B

La distribution d’échantillonnage de la différence des deux proportions, notée D, est une


variable aléatoire dont les caractéristiques sont :

E( D )=E( F A −F B )= p A − pB et σ D =
√ pA q A
nA
+
p B qB
nB

Si les conditions édictées au paragraphe précédent sont respectées, la différence D = P A – PB


obéit à une loi normale de paramètres :

D=( F A −F B )→ N ( p A − pB ;
√ pA q A
nA
+
pB qB
nB
)

2- Inférence statistique

21
L’inférence statistique traite le problème inverse de celui considérer par la théorie de
l’échantillonnage. Il s’agit, ici, d’estimer les paramètres d’une population mère, à partir de
ceux fournis par les échantillons qui en sont extraits

Notion d’estimateur : L’estimation consiste à rechercher la valeur numérique concernant un


ou plusieurs paramètres inconnus d’une population ou d’une loi de distribution, à partir de
données d’observation sur un échantillon X= (X 1, X2, ..., Xn). Un estimateur est une fonction
Tx des valeurs observées sur un échantillon relativement à un paramètre de la population
mère. C’est donc une variable aléatoire dont la distribution et les propriétés permettent de
spécifier les qualités de l’estimation qui en résulte.

Estimateur ponctuel

Le problème de l’estimation est d’induire les informations fournies par un échantillon sur les
valeurs de certains paramètres inconnues de la population mère. Il s’agira de choisir parmi
toutes les variables de l’échantillonnage, un estimateur T n doté de propriétés « souhaitables »,
c’est à dire de définir à priori une bonne évaluation du paramètre inconnu de la population. La
réponse sera donnée de deux manières différentes.

D’une manière intuitive : Étant donné un paramètre  à estimer (la moyenne par exemple), il
s’agit de lister un ensemble d’estimateurs possibles, d’étudier ensuite les propriétés de chacun
et de retenir enfin les plus performantes.

D’une manière déductive : Il s’agit de choisir une fonction adéquate de  qui conduit à
^
déterminer un estimateur appeléθ . Il reste alors à vérifier que cet estimateur satisfait la
plupart des propriétés souhaitées.

Exemple : La minimisation de la somme des carrées des écarts conduit à un estimateur appelé

estimateur des m. carrées


Méthodes d’estimation
Jusqu'à présent, on a proposé pour des cas simples des statistiques permettant d’estimer sur
base d’un échantillon (le plus souvent i.i..d.) la valeur d’un paramètre θ ou la valeur d’une
fonction caractérisant une probabilité. Pour des cas plus complexes, il est toutefois utile de
disposer d’un procédé général permettant d’obtenir les statistiques qui sont des estimateurs de
22
paramètres quelconques. Plusieurs principes peuvent être utilisés à cette fin, et il se peut que
plusieurs d’entre eux conduisent au même résultat. On présentera ici les méthodes les plus
couramment appliquées.

- Minimum du
- Moindres carrés

Etude des distributions d’effectifs : CHI DEUX :

Le problème fondamental de la statistique mathématique est de mettre en relation la


statistique descriptive et la théorie des probabilités, c’est ainsi admettre qu’une série
d’observations (empiriques) suit une loi de probabilité (théorique). C’est ce qui permettra
ensuite de prendre des décisions (avec des risques d’erreur) du type :
- Si telle hypothèse est vraie ;
- Le phénomène étudié n’a qu’une probabilité α (faible) de se produire ;
- donc nous pouvons admettre que cette hypothèse est fausse ( en prenant le risque
de nous tromper)

Test du KHI DEUX :


Aperçu théorique : Soit x1,x2,x3,...........,.x k. les modalités de la distribution de la variable X et
soient n1 ,n2 ,......,n k, les effectifs observés dont le total n est égal à l’effectif de la population.
La distribution théorique envisagée affecte aux modalités, x 1,x2,x3,...........,.x k. , les fréquences
théoriques, f1,f2, f3,........,f k ; Les produits : nf1,nf2, nf3,........,n f k, représentent les effectifs

théoriques, N1 , N2 ,..... , N k , dont le total = n , effectif de la population. La distance


entre la distribution observée et la distribution théorique retenue est :

Cette distance est aléatoire et suit une loi de à v degré de liberté (d. d. l). Le nombre, v d
dl dépend du nombre k de modalités retenues et du nombre r de paramètres qu’il a fallu

estimer : On a v = k-r-1. Dans le calcul du , il y a seulement (k-1) différences

indépendantes puisque = = n d’où le (-1) qu’on enlève toujours. Il existe des


23
tables numériques dites tables du , qui pour  de ]0,1[ donné et pour v d.d.l donnent le
2 2 2 2
nombre χ c ( α ) tel que : Prob( χ c ≥ χ 0 ( α )) =Prob ([ χ 0 ( α);+∞ [) = 

Il n’y a pas de différence significative entre les distributions comparées si le CHI- deux
calculé expérimentalement est inférieur au 2 théorique à v d dl pour une sécurité de 95% ou
de 99%. Dans le contraire l’ajustement doit être rejeté.

Test de conformité
On dispose de n observations d’un phénomène statistique (x1,x2,x3,...........,.x n.) et on considère
que ces observations sont les réalisations d’une variable aléatoire X dont on veut savoir si on
peut considérer que cette variable suit une :
- Loi de probabilité spécifiée P ;
- Ou une loi dont on estimera certains paramètres P(θ1, θ2, θ3 ….., θk )
Exemple : On désigne par X la variable aléatoire « le nombre de pannes quotidiennes d’un
appareil utilisé au LABAT ». Les fréquences absolues de X sur une période de 100 jours sont
données dans le tableau suivant :

X 0 1 2 3 4
Nombre de jours 35 25 18 13 9

a) Calculer la moyenne et l’écart type de cette série statistique.


b) A partir du diagramme en bâtons des effectifs de cette série quelle type de loi de
probabilité vous paraît ajuster convenablement la loi de probabilité de X ?
Justifier ce choix à l’aide d’un test du « CHI-DEUX » ( ² )

Il s’agit de tester la validité d’un modèle théorique qui attribue aux k classes 1,2, …,
k respectivement les probabilités p 1 , p 2 ,…, p k (p j =1 et p j est la probabilité pour
qu’une observation appartienne à la classe j). On choisit dans les conditions
précédentes un échantillon de taille n et on répartit les observations dans les
différentes classes ; ce qui conduit aux effectifs observés o 1 , o 2 ,…,o k . Pour chaque 1
 j  k, O j est l’observation d’une variable binomiale de paramètres n et p j ( c j = n
p j = E(O j ), est l’effectif théorique ou calculé de la classe j ).

On teste alors l’hypothèse suivante dite hypothèse nulle et notée (Ho) :

24
(Ho) : « Dans la population, la distribution des fréquences du caractère dans les
différentes classes est celle décrite par le modèle Théorique ».
k ( o j−c j ) ²
χ 2c = ∑ cj
j=1
Sous l’hypothèse (Ho), la variable . Suit une loi de Pearson à =k-1
α
degré de liberté (d. d.l) .On se donne un nombre compris entre 0 et 1,appelé seuil
de signification (le plus souvent =0,05 ou =0,01 et parle de seuil à 5% ou à 1%)
χ 20 ( α ) χ ²≥ χ 20 ( α ))
et pour  (d. d.l) la table de ² donne le nombre tel que :Prob ( =

Conclusion : Le test de l’hypothèse nulle s’effectue ainsi :

Si , on refuse l’hypothèse (Ho) au seuil de signification  (ce qui signifie


que la probabilité de se tromper en refusant (Ho) n’étant que  , on prend ce risque)

Si , on ne peut refuser l’hypothèse (Ho) au seuil de signification 

(le test ne fournit aucune exigence contre (H 0 )).Dans ce cas, il peut être intéressant
αm H0
de rechercher le seuil minimum pour refuser ( ), puis raisonner sur la valeur
αm
de .

Remarque :

• Si les paramètres de la loi ne sont pas connus, il faut les estimer à partir de l’échantillon.
L’espérance mathématique est estimé par la moyenne de l’échantillon et l’écart type par s=

où n est la taille de l’échantillon et σX son écart type.

• Le test n’est utilisable que si aucun des « npi » n’est trop faible. Il est nécessaire que
npi ≥ 5 i [[1,n]]. Si ce n’est pas le cas, on regroupe les intervalles jusqu’à ce que dans
chacun d’eux, npi ≥ 5.

Test d’indépendance

25
Pour mesurer la "distance " qui sépare le tableau théorique obtenu en supposant
l’indépendance deux variables du tableau observé, on utilise l'indicateur noté
r s (nij−t ij )²
χ 2c =∑ ∑
i=1 j=1 t ij et appelé "Khi-deux calculé".
2
On pose χ c = 0 si et seulement si X et Y sont indépendantes. L’étude de l’indépendance des
caractères X et Y conduit à formuler l’hypothèse :

H 0 « Les caractères X et Y sont indépendants » contre l’hypothèse


H1 : « Les caractères X et Y sont dépendants »

Sous l’hypothèse (
H 0 ), on compare les distributions d’effectifs observés et théoriques
obtenus en faisant l’hypothèse d’indépendance des deux caractères. Et la variable aléatoire

χ2 est une variable de Pearson à v=( L−1 )(C−1) degré de liberté (ddl) (L=nombre de
lignes et C = le nombre de colonnes du tableau de contingence).

2 2
Pour v degrés de liberté, la table de ² donne le nombre χ 0 tel que Pr(c2¿ χ 0 ( α ) )=α et on
conclut ainsi :

2
Si χ c ²≥ χ 0 ( α ) , on refuse l’hypothèse (Ho) au seuil de signification,  donc les
caractères X et Y ne sont pas indépendants.

2
Si χ c ² < χ 0 ( α ) , on ne peut refuser l’hypothèse (Ho) au seuil de signification,  donc
les caractères X et Y sont indépendants ( le test ne fournit aucune exigence contre (H 0) ).

Dans ce cas, il peut être intéressant de rechercher le seuil minimum


α m pour refuser ( H 0 ),

puis raisonner sur la valeur de


αm.

Exemple : Deux cent entreprises constituées de grandes entreprises (GE), moyenne


Entreprise (ME) et petites entreprises (PE) font des chiffres d’affaires de moins de 20
millions, entre 20millions et 100 millions et 100 millions et plus et sont réparties de la
manière suivante :

26
Tableau 2 : tableau de contingence en effectifs (les valeurs observées sont en gras)

E/A GE ME PE Total
Moinsde 20M 25 5 5 35
12,775 15,575 6,65
20M-100M 30 30 10 70
25,55 31,15 13,3
100M et plus 18 54 23 95
34,675 42,275 18,05
Total 73 89 38 200
2
( 25−12 ,775 ) ( 5−15 , 575 )2 ( 5−6 ,65 )2 ( 30−25 , 55 )2 ( 30−31 ,15 )2 ( 10−13 ,3 )2
χ 2c = + + + + + +
12 ,775 15 , 575 6 , 65 25 , 55 31 , 15 13 , 3
( 18−34 , 675 )2 ( 54−42 ,275 )2 ( 23−18 , 05 )2
+ +
34 , 675 42 , 275 18 , 05
¿ 11, 699+7 , 180+0 , 409+0 ,775+0 , 042+0 , 819+8 , 019+3 , 252+1, 357
χ 2c =33 , 552
v=( 3−1 )( 3−1 )=4 dégré de liberté
χ 25 % ( 4 )=9 , 49 (lu sur la table du χ ² )

Soit H0 : « le chiffre d’affaires et la taille de l’entreprise sont indépendants » comme


χ 2c =33 , 552 > χ 25 % ( 4 )=9 , 49 , on conclut la dépendance de ces 2 caractères et on rejette

l’hypothèse H0.

Tests du coefficient de corrélation linéaire.

Lorsque les valeurs observées ( xi , yi) peuvent être considérées comme formant un
échantillon tiré d’une population, l’estimateur du coefficient de corrélation de l’échantillon
peut servir à tester l’hypothèse :
H 0 : dans la population globale, le coefficient de corrélation linéaire ℓ est nul contre

l’hypothèse alternative :
H 1 : dans la population globale ℓ est non nulle.

27
La statistique utilisée est
t c=r .
√ n−2
1−r 2
→St α ( n−2 )
2 et la règle adoptée est la suivante : au
t
seuil α donné, rejeter l’hypothèse nulle si la valeur absolue de c excède la valeur
α
correspondante de la distribution de Student pour le seuil 2 et ( n−2 ) degrés de liberté.

Remarque : Pour un échantillon de taille 20, au seuil de 5% |r| doit dépasser 0,44 pour être
significatif d’une corrélation non nulle dans une population. Au seuil de 1%, cette valeur
critique devient 0, 56.
Exemple

∑ x i =1028 ;∑ yi =9623 ; ∑ ( y i− ȳ )2 =475860 ; ∑ ( x i− ˘x̄ )2 =11408


∑ ( x i− x̄ ) ( y i − ȳ )=68909
Après calcul x̄=68 , 53 , ȳ=641, 5 Le modèle estimé y=6 , 04 x+227 ,5 et
r =0 , 935

Le test de ce coefficient est :


t=r
√ n−2
1−r 2 , n=15 , r=0 , 935 . On obtient t = 9,5

Ici, il est plus logique de tester l’hypothèse nulle contre l’hypothèse . On


utilisera donc le test unilatéral en conservant le seuil choisi. Au seuil de 5% et avec 13 degrés

de liberté la valeur critique est . La valeur trouvée étant supérieure, on en conclut à


une réelle efficacité de PLV.

28
VI- EXERCICES
Exercice1 : Loi binomiale. Inégalité de Bienaymé-Tchébychev

Un sac contient 100 billes, 36 sont rouges les autres sont bleues. On admet que la probabilité
d’obtenir une bille rouge en un tirage est 0,36. Une épreuve consiste à tirer 16 fois de suite
une bille, en remettant à chaque fois la bille tirée dans le sac après avoir noté sa couleur. Le
nombre de fois où l’on tire une bille rouge est une variable aléatoire X. Déterminer
l’espérance m de X, sa variance et son écart-type σ . A l’aide de l’inégalité Bienaymé-

Tchébychev, estimer la probabilité pour que |X−m|≥2σ .A quelles valeurs de X correspond-


il ?

Exercice 2 : Approximation d’une loi binomiale par une loi de Poisson


Une enquête statistique portant sur 1000 automobilistes débutants a révélé que 10 d’entre eux
avaient provoqué un accident mortel dans leur première année de conduite et que 200 d’entre
eux avaient provoqué un accident corporel dans leur première année de conduite. Déterminer

les probabilités P1 de provoquer un accident mortel durant une première année de conduite et
P2 de provoquer un accident corporel durant une année de conduite. On choisit 100 débutants

au hasard, et on désigne par X le nombre d’entre eux qui ont eu un accident mortel au cours
de leur première année de conduite. A l’aide de quelle loi de probabilité peut-on étudier X ?

CalculerPr ob ( X =0 ) , Pr ob ( X =2 ) .

Exercice 3
A Libreville 20 % des automobiles actuellement sur la route ne devraient plus circuler
puisqu’elles ne satisfont pas aux normes de sécurité. Dans un échantillon aléatoire (tiré d’une
population normale) de 200 automobiles.

a- Quelle est la probabilité d’observer plus de 20 automobiles ne respectant pas les


normes de sécurité ?
b- Quelle est la probabilité d’observer moins de 40 automobiles ne respectant pas les
normes de sécurité ?

29
Exercice 4
Une usine emploie plusieurs milliers d’ouvriers. D’après une expérience antérieure, un
chercheur sait que les salaires hebdomadaires sont normalement distribués avec un écart-type
de 40 F. Il veut estimer le salaire hebdomadaire moyen à 20 F près, avec un niveau de
confiance de 99 %. Quelle taille minimale doit avoir un échantillon ?

Exercice 5 :
Au LEA, une expérience révèle que 30 % des étudiants de la troisième année de licence
passent en 4ème année. Déterminer la probabilité que sur 30 étudiants inscrits en licence, plus
de 10 s’admettent en 4ème année de maîtrise

a- à l’aide d’une distribution binomiale.


b- à l’aide de l’approximation de cette distribution par la loi normale.

Exercice 6
Une machine automatique fabrique des billes dont on veut contrôler le diamètre X. La
quantité X est une variable aléatoire dont les paramètres sont :M = E(X)=20mm et σ (X) = 1.
On prélève à intervalle régulier des échantillons de taille n=100 billes, dont on mesure les
diamètre xi. Soit x̄ , la moyenne des diamètres d’un échantillon donné.

a- Quelle est la nature du tirage effectué ?

b- Quelle loi de probabilité suit la variable aléatoire X̄ ? Préciser E ( X̄ ) et  ( X̄ ).

On admet maintenant que la variable aléatoire X suit une loi normale N (20 ;1). On prélève à
intervalles réguliers des échantillons de taille n=4 billes, dont on mesure les diamètres x i. Soit
x̄ la moyenne des diamètres d’un échantillon donné.

a- Quelle est la nature du tirage effectué ?

b- Quelle est loi de probabilité suit la variable aléatoire X̄ ? Préciser E( X̄ ) et  ( X̄ ).

Exercice 7

Le tableau suivant figure parmi les résultats publiés d’une enquête par sondage aléatoire.

Profession du Père Avocat Médecin Ingénieur


Proportion d’enfants ayant 35% 25% 30%
choisi la même profession
Nombre de personnes 200 120 180
30
interrogées

Ce tableau est accompagné d’un commentaire : << Ce sont les enfants des Avocats qui
reprennent le plus fréquemment la profession de leur Père, suivis par les enfants d’Ingénieurs
et puis par les enfants des Médecins ….>> Qu’en pensez-vous ?

Exercice 8
Une enquête au hasard a révélé que les taux s’équipements des ménages en réfrigérateurs sont
de 30%, 24% et 22% respectivement pour les catégories socioprofessionnelles cadres moyens
et employés. Peut-on considérer au risque α = 5 % que ces proportions sont significativement
différentes sachant que dans cette enquête l’effectif des ménages interrogés par catégorie
socioprofessionnelle est respectivement de 100, 150 et 200 (Dresser tous les tableaux y
afférents).

Exercice 9
Dans un groupe de 100 étudiants on suppose que la moyenne et l’écart-type des notes de

devoir sont respectivement x̄=14 et σ =8 . Calculer la moyenne M et l’écart-type ~


σ des
notes obtenues pour un échantillon de taille 64 associé à l’estimateur de la moyenne fournie
par cet échantillon. On supposera que :
Échantillon obtenu par un tirage avec remise ;
Échantillon obtenu par un tirage sans remise.
Exercice 10
On étudie l’action de deux méthodes d’enseignement. La première (A) est faite à partir d’une
polycopie distribuée aux étudiants ayant ledit enseignement et la deuxième (B) au cours
magistral normal. Après un contrôle continu, on a observé les résultats suivants sur deux
échantillons d’étudiants ayant reçu respectivement la méthode A et la méthode B.
nA=30 ∑ xA= 30 ∑ x2A= 43,3044
nB= 40 ∑ xB= 52 ∑ x2B= 67,916
a- Pour chaque échantillon, calculer la moyenne des notes et l’écart-type à cette
moyenne.
b- Comparer les moyennes des deux échantillons au seuil de signification de 0,01

Exercice 11

31
Un étudiant candidat à l’élection du Président de la Mutuelle veut apprécier au mieux ses
chances de succès. Il ne connaît évidemment pas la proportion p de personnes décidées à
voter pour lui. Il fait effectuer un sondage sur 1000 étudiants ; 525 se déclarent en sa faveur.
Soit X le nombre aléatoire d’étudiants déclarant voter pour le candidat lorsqu’on interroge
1000 étudiants extraits de la population totale.
a- Quelle est la loi suivie par X ? Calculer E(X) puis V(X)
b- Que représente Y= X / 1000 ; calculer E(Y) et V(Y)
c- Donner une estimation ponctuelle de p

Exercice 12
Les notes respectives des étudiants des groupes A et B, que l’on suppose être aléatoires, ont
suivi, durant l’année, une loi normale de moyenne et de variance 14 et 25 pour le premier et
12,50 et 20 pour le second groupe. Quel est le groupe qui a le plus de chance de voir sa note
dépasser 16.

Exercice 13 Approximation d’une loi binomiale par une loi normale


Dans une société les employés d’un bâtiment A ont souvent besoin d’appeler au téléphoner un
bâtiment B. le bâtiment A a 300 employés et on constate qu’aux heures d’affluence chacun
d’entre eux veut téléphoner en moyenne 3 minutes par heure au bâtiment B. Quel nombre

minimum
k 0 de lignes téléphoniques faut-il établir entre A et B pour qu’un employé de A qui
désire téléphoner à une heure d’affluence ait une probabilité inférieure ou égale à 0,025 de ne
pas avoir une ligne à sa disposition. On effectuera une approximation par une loi normale.

Exercice 14
La répartition d’une population adulte selon 5 catégories socioprofessionnelles est la
suivante : 15 % 10% 30% 24% 21%. On examine la composition d'un échantillon E
de 800 personnes de cette population; la répartition de E selon les 5 catégories est (dans le
même ordre que ci-dessus) : 113 61 236 215 175.

On considère l'hypothèse suivante : (HO) : « U échantillon E a été obtenu par un tirage au sort

de 800 personnes de la population adulte. » À l'aide d'un test du χ ² étudier la validité de


l'hypothèse (HO).

Exercice 15

32
Lors d'une campagne de vaccination contre une maladie infantile, on dispose de deux vaccins
V et V' dont on veut comparer les réactions produites. On choisit deux groupes G et G' de 200
enfants chacun. Au groupe G on administre le vaccin V et au groupe G' le vaccin V'. On
distingue 4 modalités du caractère qualitatif « réaction au vaccin » qui sont les suivantes:
réaction légère, bouton, ulcération et abcès.

Les observations conduisent au tableau d'effectifs suivant:

Modalités réaction légère bouton ulcération abcès


Groups
G 20 160 16 4
G’ 16 174 8 2
On fait l'hypothèse que les deux vaccins V et V' ne diffèrent pas significativement quant aux
réactions produites.

a- Donner sous forme de tableau les effectifs théoriques (ou calculés).


b- On se propose d'effectuer un test du χ ² ; à cet effet justifier, en utilisant le résultat de
la première question, le regroupement des deux classes ulcération et abcès. Calculer
alors la valeur du χ ² .
c- Au seuil de signification 0,05 (ou au risque d'erreur de 5 %), l'hypothèse est-elle
acceptable ? Utiliser le test du χ ² au seuil d'erreur = 5% (seuil de signification a =
0,05) pour tester l'hypothèse : (HO) : « Il n'y a pas de différence significative entre les
résultats des trois parcelles. »

Exercice 16

On Donne la série statistique double de cinq éléments

X 1,2 1 ,4 1,6 1,8 2 8


Y 13 12 14 16 20 55 + a
1) Calculer a sachant qu’avec la méthode des moindres carrés, la droite de régression Y
en X a pour équation y= 9x+0,6
2) Calculer le coefficient de corrélation des caractères X et Y, le tester puis conclure.
3) Vérifier l’hypothèse de normalité des résidus.
4) Montrer en quoi les paramètres obtenus sont acceptables ou non.

Exercice 18

On donne la série statistique double de 10 observations (Xi, Yi)

Xi 2 4 5 7 1 1 1 1 1 1
0 1 4 4 7 8

33
Yi 0 1 1 2 6 5 9 1 1 1
1 4 7

a) Construisez le nuage de points, vous paraît-il raisonnable de l’ajuster par une droite de
régression de Y en X ?
b) On pose U=X², calculer les 10 couples (Ui, Yi) puis construisez le nuage de points
associé.
c) Calculer le coefficient de corrélation linéaire en U et Y.
d) Donner une équation de la courbe de régression de Y en U par la méthode des moindres
carrés.
e) Donner une équation de la coure de régression de Y en X (parabole de Y en X).
f) Tracer cette dernière courbe sur le nuage de points de la question a).
g) Montrer en quoi les paramètres obtenus sont acceptables ou non.
h) Quelle est la valeur ajustée Y* pour X=0 ?X=10 ? X=20 ?
i) Etudier les résidus de la régression.

Exercice 19
On désigne par X la variable aléatoire « le nombre de pannes quotidiennes d’un appareil
utilisé au LABAT ». Les fréquentes absolues de X sur une période de 100 jours sont données
dans le tableau suivant:

X 0 1 2 3 4

Nombre de jours 35 25 18 13 9

Calculer la moyenne et l’écart type de cette série statistique.

A partir du diagramme en bâtons des effectifs de cette série quel type de loi de probabilité
vous parait ajuster convenablement la loi de probabilité de X ? On vous propose
P ( X=k )= pq k , avec p+q=1. Justifier ce choix ou votre choix à l’aide d’un test du « CHI-

DEUX »

Correction
Exercice 1
2
( ) ( )
1) Déterminer E X =m et V X =σ x
X ≈B ( 30; 0 ,36 ) loi binomiale de paramètres n=30 et p=0 ,36 car la moyenne Xi de chaque
étudiant suit une un schéma de Bernoulli de paramètre p=0 ,36 et X=nXi.

34
2) Calcul de
( 1
)
Pr|X ≥4 X̄|=Pr |X ≥43 , 2|< =0 , 25 ⇔ Pr ( X≤43 ,20 )≥
4
1
75
X ={ 0 ,⋯, 30 }
Cette inégalité ne requiert que la connaissance de l’espérance mathématiques de la variable
aléatoire X. elle donne une borne supérieure quant à la probabilité d’excéder la valeur de k X̄
qui est variable quel que soit la loi.

3) Calcul de la probabilité Pr (| X−E ( X )|≥35 )


1 1
Pr (| X−m̄ ( X )|≥kσ X )≤ = =6 , 25 %
2 16
D’après l’inégalité de Bienaymé Tchebichev : k
1 1
= =6 ,25 %
2 16
Ici k =4 et k
|X−E ( X )|≥4 σ ⇔ x≤E ( X ) −4 σ ou x≥E ( X ) +4 σ
⇔ x≤10 , 8−4×2 , 63 ou x ≥10 ,8+4×2 , 63
⇔ x≤0 , 28 ou x≥21 , 32
Et d ' où X ={ 0 , 22, 23 , 24 , 25 , 26 ,⋯, 30 }
L’inégalité de Markov apporte une information limitée car la borne supérieure parfois
E ( k ) 10 , 8
P ( X≥0 )≤ = =2 ,7
peut être très éloignée de la vraie valeur k 4 toujours vraie.
Exercice 2
40 200
P1 = =0 , 4 % P2 = =2%
a. 10000 très faible et 10000
b. n=1000>30 , np=1000×0 , 004=4<15 et p=0 , 4 %<0 , 1
On peut donc approchée la loi de χ par une loi de Poisson de paramètre λ=np=4
e−4 ×4 k
P ( X=k )=
k!
P ( X=0 )=e−4 =0 , 018
−4
e ×4
P ( X=1 )= =0 , 072
1!
e−4 ×42 e−4 ×4 2
P ( X=2 )= =0 , 144 P ( X =2 )= =0 ,144
2! 2!
P ( X >2 ) =1−[ P ( X=0 ) +P ( X=1 ) +P ( X =2 ) ] =1− [ 0 , 018+0 ,072+0 ,144 ] =1−0 ,234=0 , 766
e−4 ×42
P ( X=2 )= =0 , 144
2!
P ( X >2 ) =0 ,766
Exercice 3

35
A≈ N ( 14 , 25 ) et B≈N ( 12 .5 ,20 )
Pr ( A >16 )=1−Pr ( A<16 )
Pr ( A <16 )=Pr
5(
A−14 16−14 2
<
5 )
= =0 , 4 ≈Π ( 0 , 4 )=0 ,6554
5
Pr ( A >16 )=1−0 , 6554=0 , 345

Pr ( B >16 )=1−Pr ( B<16 )


Pr ( B <16 )=Pr
(
B−12 , 5 16−12 ,5
√ 20
<
√ 20
=Pr
) (
B−12 , 5 16−12 ,5
√ 20
<
√ 20
=0 , 783
)
Pr ( B <16 )=Π ( 0 , 783 ) =0 ,783
Pr ( B >16 )=1−0 , 783=0 , 217
Le groupe A a donc plus de chance de voir sa note dépasser 16.
Exercice 4
8 , 81
H t= =0 , 881
Hypothèse 0 Le taux moyen de l’échantillon de glycémie est 10

La différence n’est donc pas significative donc au seuil de 5%, ce taux est compatible
avec le taux moyen de la population.
NB : on retrouve la même conclusion en précédant par intervalle de confiance.

[
IC= t̄ ±2 , 262
σ
√9 ][
= 0 ,881−
0 , 151×2, 262
3
;0 , 881+
0 , 151×2 , 262
3 ]
=[ 0 ,767 ;0 ,995 ]

0 , 80 ∈ IC donc même conclusion.


Exercice 5
x i
0 1 2 3 4 Total

n i
35 25 18 13 9 100

nxi i
0 25 36 39 36 136

nx
2
0 25 72 117 144 358
i i

36
∞ ∞ ∞
E ( X )= ∑ kp ( X=k )= p ∑ kq = pq ∑ kq k−1k

k =0 k =1 k=1

∑ q k = pq ddq (11−q )= pq

( )
d pq q
E ( X )=pq = =
dq k =0 (1−q ) 2
p2 p
q
E ( X )= =1 , 36 ⇔q=1 ,36 p=1− p ⇒2 , 36 p=1
Donc p
1
p= =0 , 42 et q=0 ,58
D’où 2 , 36
k
Et P ( X=k )=0 , 42 ( 0 , 58 )
P ( X=0 )=0 , 42 ⇒ N 0 =0 , 42×100=42
P ( X=1 )=0 , 42×0 ,58=0 , 244 ⇒ N 1 =0 ,244×100=24 , 40
P ( X=2 )=0 , 42× ( 0 ,58 )2=0 ,141 ⇒ N 2 =0 , 141×100=14 , 10
P ( X=3 )=0 , 42×( 0 , 58 )3 =0 , 082 ⇒ N 3 =0 , 082×100=8 , 20
P ( X≥4 )=1−( 0 , 42+0 ,244 +0 , 141+0 , 082 )=1−0 , 887=0 , 113 ⇒ N 4 =0 ,113×100=11, 30
0 1 2 3 4 Total
Effectif 35 25 18 13 9 100
s observés
Effectif 42 24,4 14,1 8,2 11,3 100
s théoriques
2
χ C=
( 35−42 )2 ( 25−24 , 4 )2 ( 18−14 ,1 )2 ( 13−8 ,2 )2 ( 9−11,3 )2
42
+
24 , 4
+
14 , 1
+
8,2
+
11, 3
2
χ C =1 ,167+ 0 ,015+ 1 ,079+ 2, 81+0 , 468=5 , 54

Pourα =5 % , et v=5−1−1=3 degré de liberté ( le paramètre a été estimé à l’aide de


l’échantillon).

χ χ χ
2 2 2

5% ( 3 ) =7 , 81 , et C< 5 % ( 3 ) donc au seuil de 5%, on ne peut refuser H 0 : « Dans la

population, la distribution des fréquences dans les différentes classes est celle décrite par le
modèle théorique ».On peut aussi essayer d’estimer la loi e Poisson de paramètre λ=1 ,36 .

Bibliographie

- ABBOUD N. et AUDROING J.F, Probabilités et Inférence Statistique, Edition


Nathan, 1989

- BOURSIN J.L. et DURU G., Statistique Cours-Méthodes- Exercices, Vuibert,1995.


- CHAUVAT G. et REAU J-P., Statistiques descriptives, Exercices et corrigés,
Armand Colin, 1996.
- COHEN MICHELE et PRADE JACQUELINE L , Théorie et techniques de base avec
exercices. Litec, 1993.

37
- DO ANGO Simplicio, Inférence Statistique et Méthodes statistiques ; LABAT,
Pressse Universitaire, Edition 2016
- DO ANGO Simplicio, Statistiques Descriptives, Cours et Exercices corrigés, Presse
Universitaire, 1ère édition 2016
- GRAIS B. Méthodes statistiques, 3e édition Dunod, 1998.
- GAULTIER M., Statistique100 exercices corrigés avec résumés de cours,
Vuibert,1997.
- GOUJET C. et NICOLAS C., Mathématiques appliquées à la Gestion, Décision en
avenir incertain, Initiation à la recherche opérationnelle, 4° édition, MassON, 1989.
- MASIERI W., Statistique et calcul des probabilités, 7e édition Sirey,1996.
- REAU J-P et CHAUVAT G., Probabilités & Statistiques Résumé des cours exercices
et problèmes corrigés QCM, Armand Colin, 1988,1999.
- SANDRETTO R., Probabilités, Exercices corrigés avec rappels de cours,
Dunod,1996.
- WILTHIEN PIERRE- HENRY, Décision statistique et économétrie,© Edition
Armand Colin/Masson, Paris, 1996.

38

Vous aimerez peut-être aussi