Cours D'inférence Statistique
Cours D'inférence Statistique
INFERENCE STATISTIQUE
Cours et exercices
L’induction statistique traite deux types de problèmes, on cherche à estimer : (1) Les
paramètres d’un ou plusieurs échantillons, à partir de ceux fournis par la population mère d’où
ils sont issus. Ce cas de figure est traité dans le cadre de la distribution. (2) Les paramètres
de la population mère à partir de ceux fournis par les échantillons qui en sont extraits. Cet
aspect est généralement complété par l’appréciation de la précision de l’estimation opérée. Ce
second cas correspond aux problèmes d’estimation ou d’inférence statistique. En outre,
l’autre problème est celui du respect de normes. Cela consiste par exemple à comparer les
caractéristiques d’un lot de produit aux normes imposées p. Le non-respect de ces normes
entraîne le rejet du lot. Cette comparaison peut également être fondée sur les caractéristiques
de deux lot, avec l’objectif de ne retenir que les meilleurs d’eux.
L’objectif recherché ici est de présenter l’utilisation pratique de ces méthodes dans les
domaines de l’économie et de la gestion et d’acquérir les méthodes de raisonnement
nécessaire à la résolution des problèmes d’analyse des données. Ensuite de tester l’aptitude à
raisonner, à calculer et à interpréter les résultats obtenus des données statistiques.
2
Table des matières
2. VARIABLES ALÉATOIRES.................................................................6
INFÉRENCE STATISTIQUE.................................................................................22
Estimateur ponctuel...................................................................................22
Obtention d’un estimateur.........................................................................23
Test de conformité.....................................................................................28
Test d’indépendance..................................................................................30
VI- EXERCICES........................................................................................... 33
3
Chapitre 1 : Les méthodes statistiques
Ainsi, quand on réalise une expérience aléatoire, on veut généralement connaitre les chances
qu’un événement donné se produise: c’est ce que l’on appelle probabilité d’un événement. Si
l’on considère à priori que les événements de l’espace échantionnal associé à un événement
sont équiprobables, alors la probabilité d’un événement A note P(A) est donnée par:
4
.
Exemple 1
Candidat P1 P2 P3 Total
s
A 240 135 25 400
B 330 10 10 350
C 230 5 15 250
Total 800 150 50 1000
Utiliser ces statistiques pour estimer les chances de gagner de chaque candidat.
Exemple 2 :
Nombres estimatifs des nouveaux cas de création d’entreprises et des dépôts de Bilan.
1.1. Définitions
On considère un ensemble E non vide et fini, l’ensemble de ses parties P(E), et un sous-
ensemble Q de P(E) qui contient E. Soit l’ensemble des « événements » correspondant aux
résultats possibles d’une épreuve quelconque. On considérera comme équivalents les éléments
de Q, événements définis précédemment. Toutes les propriétés relatives à l’axiomatique des
ensembles et aux opérations sur les ensembles sont par conséquent applicables aux
événements et permettent la construction d’une algèbre événementielle. Ainsi tout élément de
Q sera donc appelé événement.
5
- L’évènement A¿ B est réalisé si A ou B sont réalisés.
- Deux événements A et B incompatibles (disjoints) sont deux événements n’ayant aucune
éventualité commune, leur intersection est vide : A ¿ B = Æ
a) p( E )=1 , 0≤ p( A )≤1
2. Variables aléatoires
Pour une expérience qui conduit à une situation aléatoire, si l’expérience est réalisée
dans des conditions identiques, il est possible de prévoir le résultat de cette expérience. Le
phénomène exprimé par ce résultat est appelé phénomène aléatoire. Soit une expérience
6
aléatoire et l’ensemble des issues (ou résultats) possibles de cette expérience ; est appelé
ensemble élémentaire associé à l’expérience aléatoire et chaque élément de est appelé
événement élémentaire. Généralement, on définit une application, notée p, de ’ dans [ 0 , 1]
et qui traduit les « chances » qu’un événement a de se produire.
Ce triplet n’est en général pas formé d’éléments réels et ne se prête donc pas à des
calculs. Pour remédier à cet inconvénient, on lui associe un espace probabilisé dont tous les
éléments sont réels grâce à l’introduction de la notion de variable aléatoire réelle. On appelle
variable aléatoire réelle toute application X de dans R telle que l’image réciproque se tout
intervalle de R soit contenue dans ’ ensemble de tous les événements associés à l’expérience
aléatoire. L’ensemble X() est appelé l’ensemble fondamental de la variable aléatoire X et on
appelle distribution de probabilité ou loi de probabilité de X, l’application notée P X, de J
dans le segment [0, 1] et définie par : PX(I) = p( X-1(I) ), I J ; J désigne la famille des
intervalles de R. Soit X (), l’ensemble fondamental de la variable aléatoire X :
[i] Si X () est dénombrable, on dit que X est une variable aléatoire discrète ou
discontinue.
[ii] Si X () est non dénombrable, on dit que X est une variable aléatoire continue.
On note généralement une variable aléatoire par une lettre majuscule X ou Y. L’application F
définie sur R par : F(x) = Px ( ] , x] ) ou F(x) = Px (] , x[) , x R , est la fonction de
répartition ou fonction cumulative de X. Si F est continûment dérivable par morceaux, on dit
que X est une variable aléatoire absolument continue et la dérivée de F est appelée fonction
densité de probabilité de X.
7
m
Loi normale R 1 ( x−m)2 σ 2
e−
σ √2 π 2σ 2
m∈ R σ >0
p∈]0, 1[ p+q=1
Loi Ω={ 0, 1, 2,⋯, n } k n− k n⋅p N −n
hypergéométrique
Pr ob ( X=k )=
C Np C Nq N−1
npq
n
n≤N p∈ ]0, 1[ CN
p+q=1
Loi géométrique +
pqk −1 1 q
N
p p2
p∈]0, 1[ p+q=1
Loi de Poisson N e− λ λ λ
λ k⋅
k!
λ >0
x2 t
2
1 −2 1 x −2
f ( x )=
√2π
. e et F( x )=Π ( x )= ∫ e dt
√ 2 π −∞
Nous noterons X→N (0, 1), on dit aussi que X est une v.a. normale centrée réduite. Il existe
8
P(2 )=prob( X <2 )=F (2)=0 ,9772
P(2 , 24 )=prob( X <2 , 24 )=F (2 ,24 )=0 , 9875
d ' ou l ' on tirePr (2<X <2 ,24 )=P (2, 24 )−P (2)=0 . 0103
E(X) = 0 et V(X) = 1.
Pour le calcul des probabilités, il est aisé de se ramener au cas d’une loi normale centrée
Y −m
X=
s s
réduite en notant que si Y → N(m, ) la variable aléatoire N(0, 1) et par suite
9
Var [ X ]
p (|X −μ|≥a )≤ 2
∀a> 0
a
aléatoire X prenne des valeurs à l’extérieur de l’intervalle [ μ−a , μ+a ] , cette borne supérieure
Il arrive parfois que cette borne soit éloignée de la valeur réelle. En pratique, l’inégalité de
Chebyshev est très utile si l’on veut obtenir une estimation des ordres de grandeur pour des
intervalles de confiance symétriques autour de la moyenne lorsque l’on ne dispose que des
μ et σ 2 .
valeurs
Ceci montre que pour une variable aléatoire X quelconque, la probabilité que les valeurs
Exemple 2. Si l’on sait seulement que la pluviosité annuelle totale à Angoville vaut en
moyenne 800 millimètres, avec un écart-type de 100 millimètres, quelle est la probabilité
minimale qu’il pleuve entre 600 et 1000 millimètres sur une année ?
10
Convergence en probabilité : Définition : Soit X1,…. , Xn , suite de variable définie sur un
même ensemble Ω . On dit que cette suite converge en probabilité vers une valeur certaine a.
Théorème : Pour qu’une suite de variables (X n)n>0, converge en probabilité vers le nombre a, il
lim E( X n )= a et lim V ( X n )=0
suffit que : n→+∞ n→+∞
Exemple :
Soit une épreuve E à deux issues A et non A de probabilités respectives p et q =1-p. Nous
avons ici le cas d’une épreuve de Bernoulli. Répétons n fois cette épreuve et soit Xn, le
nombre de réalisation de l’événement A sur les n épreuves. La variable Xn est une variable
binomiale de paramètres n et p : Xnn (n, p) et on a E(Xn) = np et V(Xn) = npq
Convergence en loi : Soit (Xn ) une suite de variables, chacune d’entre elle admettant pour
fonction de répartition Fn(x) et pour fonction densité de probabilitéXn. Si Fn(x) converge vers
F(x), on dit que la suite (Xn ) converge en loi vers la variable aléatoire X, de fonction de
répartition noté F(x). (Même résultat avec les fonctions, densité de probabilité : Xn(x) → (x),
les fonctions génératrices des moments ou des probabilités)
Approximations
- Une loi binomiale B(n,p) peut être approchée par la loi normale N ( np; √ npq ), si n
30 ;
n.p 15 ; n. p.q 5 .
- Une loi P(), de Poisson de paramètre peut être approchée par une loi normale si 15.
- Une loi hypergéométrique H(N,n,p) peut être approchée par une loi binomiale B(n, p ),
lorsque N10n et p 0,1.
- Une loi binomiale B (n,p ) peut être approchée par la loi de Poisson P ( λ= n.p), lorsque
n30 ; p0,1et n.p 15 .
11
Chapitre 2 : Echantillonnage et inférence statistique
Soit une population statistique P, constituée par la totalité des individus d’une
communauté donnée, à chacun des N individus qui composent cette population, on peut
associer un nombre qui traduit la valeur du caractère particulier auquel l’on s’intéresse dans la
population P. La théorie de l’échantillonnage étudie les relations ou les rapports existants
entre une population (population mère) et les échantillons prélevés dans la population. La
connaissance détaillée des N individus de la population P, permet de définir des quantités
1- Distributions d’échantillonnage
B) Sans remise. L’élément prélevé de la population mère n’est pas remis. L’élément
choisi ne peut l’être qu’une fois et une seule. Cet échantillonnage est dit exhaustif.
La population mère de laquelle est tiré l’échantillon est finie ou infinie. Une population finie,
dans laquelle s’effectue un tirage avec remise, peut être considérée comme infinie. Chaque
échantillon de taille n constitué, avec ou sans remise, à partir d’une population mère finie ou
infinie, forme une distribution statistique. Celle-ci peut être caractérisée par une moyenne,
un écart-type ou une proportion. La série des valeurs obtenues pour l’une de ces
caractéristiques, à partir de l’ensemble des échantillons tirés de la population mère, constitue
12
une distribution d’échantillonnage de la caractéristique considérée. Il est ainsi possible
d’obtenir une distribution d’échantillonnage de moyennes, d’écarts-type, de proportions.
De façon similaire, chaque distribution d’échantillonnage sera caractérisée par une moyenne
ou un écart-type.
Soit une population mère composée de N éléments auxquels sont attachés, individuellement,
le caractère x et la probabilité d’être choisie : 1/N. Tirer au hasard l’un de ces éléments revient
à définir une variable aléatoire X, dont l’espérance mathématique et la variance sont :
N N
1 1
m= ∑x
N i =1 1
σ ²= ∑ ( x −m) ²
N i =1 i
E(X)=m ; avec et V(X) = σ² avec
Cette moyenne varie d’un échantillon à l’autre. Les différentes moyennes obtenues, notées
x̄ 1 , x̄ 2 , x̄3 ,… , x̄ k−1 , x̄ k .
……, forment une distribution d’échantillon de moyennes, représentée
X̄
par la variable aléatoire .
E ( X i )= p
V ( X i )= p ( 1− p )
E ( X )=np
V ( X )=np ( 1− p )
;
13
{
E ( P )=p
X
P= ; p ( 1− p )
n V ( P )=
n
On en déduit pour
La loi de probabilité de P
1
B (n , p )
B (n , p ) n
La variable , d’où la variable
P− p
Pour n grand :
√ p ( 1− p )
n
N(1, 0) et P
(
N p,
p ( 1− p )
n )
Exemple : Soit X la variable aléatoire qui prend la valeur 1, 2 et 3 avec des probabilités
égales. Prélevons de cette population des échantillons de tailles n = 2. On aura X1 et X2.
Considérons les deux variables X1 et X2 ainsi définies. Il s’agit ici de vérifier sur cet exemple
simple que X1 et X2 sont des variables qui suivent la même loi que X quel que soit le tirage.
1er cas : Tirage avec remise 2er cas : Tirage sans remise
14
3 1 1 1 1
9 9 9 3
Total 1 1 1 1
3 3 3
Loi de X
X 1 2 3 Total
Pr(X=xi) 1 1 1 1
3 3 3
Calcul de moyenne et variance de X
X 1 2 3 Total
Pr(X=xi) 1 1 1 1
3 3 3
Pi xi 1 2 3 2
3 3 3
Pix²i 1 4 9 14
3 3 3 3
14 14−12 2
=
E(X)=2 et V(X)= 3 -2²= 3 3
1
2ème Cas (sans remise) :Pr[X1 = i / X2 = j] Pr[ X2 = j] = 6 ; i j, d’où les tableaux suivants.
X2/x1 1 2 3 total
1 0 1 1 1
6 6 3
2 1 0 1 1
6 6 3
3 1 1 0 1
6 6 3
total 1 1 1 1
3 3 3
Loi de X
X 1 2 3 Total
Pr(X=xi) 1 1 1 1
3 3 3
14 14−12 2
=
On retrouve : E(X)=2 et V(X)= 3 -2²= 3 3
2
σ ²=
μ=2 3
Dans l’exemple précèdent, la variable X a pour moyenne et pour variance
15
Déterminons la loi et l’espérance mathématique et la variance de :
Si la population mère est finie et l’échantillon non exhaustif (tirage avec remise) ou si
la population est infinie, que l’échantillon soit ou non exhaustif, l’espérance mathématique de
X̄ X̄ X̄
, notée E ( ), est égale à la moyenne arithmétique de la population mère : E ( ) = m ; La
variance est égale à la variance de la population mère rapportée à la taille de l’échantillon :
σ2 σ
V ( X )= σ x̄ =
n
.L’écart-type est obtenu à partir de l’expression précédente :
√n
2eme cas : Tirage sans remise
n 1
>
N 20
Si la population mère est finie ( avec ) et l’échantillon exhaustif (tirage sans
remise), l’espérance mathématique de la moyenne de X est identique à celle précédemment
X̄
établie et l’écart-type est égal au précédent à un facteur multiplicatif près : E ( )=m ,
V ( X )=
N −n σ 2
×
N −1 n
et
σ x̄ =
σ
√n √ N−n
N −1
. Le terme (
N −n
N−1
) est appelé facteur d’exhaustivité,
il réduit la variance et sa racine carrée minore l’écart-type, en fonction de l’effectif de
l’échantillon.
Si la taille de l’échantillon est au moins égale à 30, la variable aléatoire x obéit à une
σ
loi normale de paramètres m et √ n ) théorème de la limite centrale)
σ
X̄ → N ( m, )
Si n≥30 ⇒ √n
Si la variable aléatoire x obéit à une loi normale, la loi de probabilité de x est
également la loi normale, même si la taille de l’échantillon est inférieure à 30 :
σ
X̄ → N ( m, )
Si X → N ( m, σ ) ⇒ √n
Exemple 1: X tel que E (X) = 100 = V (X), on prélève n = 400. Loi de ?
16
V ( X ) 100
= =0 , 25 et σ ( X̄ )= √0 , 25=0 ,5
E( )=100 et V( )= n 400
Exemple 2 : Une machine automatique produit des pièces dont le poids moyen est 5 grammes
avec un écart-type de 0, 25 grammes. Le responsable de la production désire contrôler le
poids de ces pièces et prélève à cet effet 100 pièces, à intervalles réguliers.
Loi de probabilité de X̄ : La population peut être assimilée à une population infinie, quelle
que soit la période de production considérée. Plus cette période est importante et plus la
population tend vers l’infini. La taille de l’échantillon étant supérieure à 30, la distribution
Soit une population mère où chaque élément possède ou ne possède pas un caractère
donné. Désignons par p,la proportion des éléments possédant ce caractère et par q celle de
ceux qui ne le possèdent pas. On a : p+q=1, donc q=1-p
Si la population mère est finie et l’échantillon est non exhaustif (tirage avec remise) ou
si la population est infinie, que l’échantillon soit ou non exhaustif, la variable aléatoire
X=X1+X2+…+Xn, suit une loi binomiale de paramètres n et p et on a E (X) = np et V(X)= npq
X 1
F= B (n , p )
B (n , p ) n n
La variable, X , d’où la variable et E(F ) = p et
17
F− p
V ( F )=
pq p (1− p )
n
=
n
, d’où F
N p,( p ( 1− p )
n ) et √ p ( 1−n p) N(1, 0)
n 1
( avec > )
N 20
Si la population mère est finie et l’échantillon est exhaustif (tirage
sans remise) les caractéristiques doivent subir une correction d’exhaustivité et l’écart type
devient
σ F=
√ √
pq
n
×
N −n
N−1
Remarques: Les remarques relatives aux lois de probabilités suivies par les distributions
d’échantillonnage de moyennes et de différences de moyennes s’appliquent également au cas
des proportions. Ainsi :
Si la population est distribuée selon une loi normale, la variable aléatoire F obéit
également à une loi normale, même si la taille de l’échantillon est inférieure à 30.
Désignons par :
Le nombre d’abonnés d’où est extrait l’échantillon peut être considéré comme suffisamment
grand pour que (n/N < 1/20). Il ne faut donc pas recourir au facteur d’exhaustivité. Par
E (F) p = 0,02 et
σ F=
√ √ pq (0 , 02)(0 , 98 )
n
=
200
=0 , 0099
N ( 0 , 02 ; 0 ,0099 ) )
Donc F
La probabilité que le nombre de résiliations au terme de l’année soit plus égal à 1%, est :
X̄ A X̄ B
Désignons par : , la distribution d’échantillonnage de moyennes d’une population A ;
, la distribution d’échantillonnage de moyennes d’une population B. Ces deux variables
aléatoires sont caractérisées par :
σA
E( X̄ A )=m A et σ x̄ = ; pour X̄ A
A
√n A
σB
E( X̄ B )=mB et σ x̄ = ; pour X̄ B
B
√ nB
La distribution d’échantillonnage de la différence des moyennes, notée D, est une variable
aléatoire dont les caractéristiques sont :
E( D )=E( X̄ A − X̄ B )=m A −m B et σ D= σ x̄ + σ x̄ =√ 2
A
2
B
√ σ ²A σ ²B
nA
+
nB
Remarques
19
Si nA et nB sont au moins égaux à 30, la variable D obéit à une loi normale de paramètres
m D=( mA −mB ) et σ D=
√ σ ²A
nA
+
σ ²B
nB
;
D=( X̄ A − X̄ B )→ N ( m A −mB ;
√ σ ²A
nA
+
σ ²B
nB
)
Si la variable X est distribué dans les populations A et B suivant une loi normale, la variable
Exemple : Une société produit des briquets dans deux unités : A et B. Ceux produits par
l’unité A permettent 150 allumages en moyennes avec un écart-type de 20 allumages. Les
briquets produits par A assurent 140 allumages en moyenne avec un écart-type de 15
allumages. Le contrôleur de la société prélève 150 briquets de A et 200 briquets de B.
Calculer la probabilité que le nombre moyen d’allumages des briquets de l’échantillon de A
soit supérieur de plus de 15 au nombre moyen d’allumages de l’échantillon provenant de B.
Désignons par :
X̄ A
, la distribution d’échantillonnage de moyennes d’une population A ;
X̄ B
, la distribution d’échantillonnage de moyennes d’une population B
σ A 20
E( X̄ A )=m A =150 et σ x̄ = = =1, 63
A
√ n A √150
σ B 15
E( X̄ B )=mB =140 et σ x̄ = = =1 , 06
B
√n B √ 200
La distribution d’échantillonnage de la différence des moyennes, notée D, est une variable
aléatoire dont les caractéristiques sont :
E( D )=m A −m B =150−140=10 et σ D=
√ σ ²A σ ²B
+
nA nB
=
150√
(20 ) ² (15 ) ²
+
200
=1 , 95
20
Les tailles des échantillons n et « n » étant supérieures à 30, respectivement 150 et 200, la
D=( X̄ A − X̄ B )→ N (10 ; 1 , 95 )
variable aléatoire
{
P { X̄ A− X̄ B >15 }=P T >
15−10
1 , 95 }
=P {T >2 ,56 } =1−P {T <2 , 56 }=1−Π (2 ,56 )=0 ,0052
Soit 0,52%.
E( F A )= p A et σ F =
A √ pA qA
nA
; pour F A
E( F B )= pB et σ F =
B √ pB qB
nB
; pour F B
E( D )=E( F A −F B )= p A − pB et σ D =
√ pA q A
nA
+
p B qB
nB
D=( F A −F B )→ N ( p A − pB ;
√ pA q A
nA
+
pB qB
nB
)
2- Inférence statistique
21
L’inférence statistique traite le problème inverse de celui considérer par la théorie de
l’échantillonnage. Il s’agit, ici, d’estimer les paramètres d’une population mère, à partir de
ceux fournis par les échantillons qui en sont extraits
Estimateur ponctuel
Le problème de l’estimation est d’induire les informations fournies par un échantillon sur les
valeurs de certains paramètres inconnues de la population mère. Il s’agira de choisir parmi
toutes les variables de l’échantillonnage, un estimateur T n doté de propriétés « souhaitables »,
c’est à dire de définir à priori une bonne évaluation du paramètre inconnu de la population. La
réponse sera donnée de deux manières différentes.
D’une manière intuitive : Étant donné un paramètre à estimer (la moyenne par exemple), il
s’agit de lister un ensemble d’estimateurs possibles, d’étudier ensuite les propriétés de chacun
et de retenir enfin les plus performantes.
D’une manière déductive : Il s’agit de choisir une fonction adéquate de qui conduit à
^
déterminer un estimateur appeléθ . Il reste alors à vérifier que cet estimateur satisfait la
plupart des propriétés souhaitées.
Exemple : La minimisation de la somme des carrées des écarts conduit à un estimateur appelé
- Minimum du
- Moindres carrés
Cette distance est aléatoire et suit une loi de à v degré de liberté (d. d. l). Le nombre, v d
dl dépend du nombre k de modalités retenues et du nombre r de paramètres qu’il a fallu
Il n’y a pas de différence significative entre les distributions comparées si le CHI- deux
calculé expérimentalement est inférieur au 2 théorique à v d dl pour une sécurité de 95% ou
de 99%. Dans le contraire l’ajustement doit être rejeté.
Test de conformité
On dispose de n observations d’un phénomène statistique (x1,x2,x3,...........,.x n.) et on considère
que ces observations sont les réalisations d’une variable aléatoire X dont on veut savoir si on
peut considérer que cette variable suit une :
- Loi de probabilité spécifiée P ;
- Ou une loi dont on estimera certains paramètres P(θ1, θ2, θ3 ….., θk )
Exemple : On désigne par X la variable aléatoire « le nombre de pannes quotidiennes d’un
appareil utilisé au LABAT ». Les fréquences absolues de X sur une période de 100 jours sont
données dans le tableau suivant :
X 0 1 2 3 4
Nombre de jours 35 25 18 13 9
Il s’agit de tester la validité d’un modèle théorique qui attribue aux k classes 1,2, …,
k respectivement les probabilités p 1 , p 2 ,…, p k (p j =1 et p j est la probabilité pour
qu’une observation appartienne à la classe j). On choisit dans les conditions
précédentes un échantillon de taille n et on répartit les observations dans les
différentes classes ; ce qui conduit aux effectifs observés o 1 , o 2 ,…,o k . Pour chaque 1
j k, O j est l’observation d’une variable binomiale de paramètres n et p j ( c j = n
p j = E(O j ), est l’effectif théorique ou calculé de la classe j ).
24
(Ho) : « Dans la population, la distribution des fréquences du caractère dans les
différentes classes est celle décrite par le modèle Théorique ».
k ( o j−c j ) ²
χ 2c = ∑ cj
j=1
Sous l’hypothèse (Ho), la variable . Suit une loi de Pearson à =k-1
α
degré de liberté (d. d.l) .On se donne un nombre compris entre 0 et 1,appelé seuil
de signification (le plus souvent =0,05 ou =0,01 et parle de seuil à 5% ou à 1%)
χ 20 ( α ) χ ²≥ χ 20 ( α ))
et pour (d. d.l) la table de ² donne le nombre tel que :Prob ( =
(le test ne fournit aucune exigence contre (H 0 )).Dans ce cas, il peut être intéressant
αm H0
de rechercher le seuil minimum pour refuser ( ), puis raisonner sur la valeur
αm
de .
Remarque :
• Si les paramètres de la loi ne sont pas connus, il faut les estimer à partir de l’échantillon.
L’espérance mathématique est estimé par la moyenne de l’échantillon et l’écart type par s=
• Le test n’est utilisable que si aucun des « npi » n’est trop faible. Il est nécessaire que
npi ≥ 5 i [[1,n]]. Si ce n’est pas le cas, on regroupe les intervalles jusqu’à ce que dans
chacun d’eux, npi ≥ 5.
Test d’indépendance
25
Pour mesurer la "distance " qui sépare le tableau théorique obtenu en supposant
l’indépendance deux variables du tableau observé, on utilise l'indicateur noté
r s (nij−t ij )²
χ 2c =∑ ∑
i=1 j=1 t ij et appelé "Khi-deux calculé".
2
On pose χ c = 0 si et seulement si X et Y sont indépendantes. L’étude de l’indépendance des
caractères X et Y conduit à formuler l’hypothèse :
Sous l’hypothèse (
H 0 ), on compare les distributions d’effectifs observés et théoriques
obtenus en faisant l’hypothèse d’indépendance des deux caractères. Et la variable aléatoire
χ2 est une variable de Pearson à v=( L−1 )(C−1) degré de liberté (ddl) (L=nombre de
lignes et C = le nombre de colonnes du tableau de contingence).
2 2
Pour v degrés de liberté, la table de ² donne le nombre χ 0 tel que Pr(c2¿ χ 0 ( α ) )=α et on
conclut ainsi :
2
Si χ c ²≥ χ 0 ( α ) , on refuse l’hypothèse (Ho) au seuil de signification, donc les
caractères X et Y ne sont pas indépendants.
2
Si χ c ² < χ 0 ( α ) , on ne peut refuser l’hypothèse (Ho) au seuil de signification, donc
les caractères X et Y sont indépendants ( le test ne fournit aucune exigence contre (H 0) ).
26
Tableau 2 : tableau de contingence en effectifs (les valeurs observées sont en gras)
E/A GE ME PE Total
Moinsde 20M 25 5 5 35
12,775 15,575 6,65
20M-100M 30 30 10 70
25,55 31,15 13,3
100M et plus 18 54 23 95
34,675 42,275 18,05
Total 73 89 38 200
2
( 25−12 ,775 ) ( 5−15 , 575 )2 ( 5−6 ,65 )2 ( 30−25 , 55 )2 ( 30−31 ,15 )2 ( 10−13 ,3 )2
χ 2c = + + + + + +
12 ,775 15 , 575 6 , 65 25 , 55 31 , 15 13 , 3
( 18−34 , 675 )2 ( 54−42 ,275 )2 ( 23−18 , 05 )2
+ +
34 , 675 42 , 275 18 , 05
¿ 11, 699+7 , 180+0 , 409+0 ,775+0 , 042+0 , 819+8 , 019+3 , 252+1, 357
χ 2c =33 , 552
v=( 3−1 )( 3−1 )=4 dégré de liberté
χ 25 % ( 4 )=9 , 49 (lu sur la table du χ ² )
l’hypothèse H0.
Lorsque les valeurs observées ( xi , yi) peuvent être considérées comme formant un
échantillon tiré d’une population, l’estimateur du coefficient de corrélation de l’échantillon
peut servir à tester l’hypothèse :
H 0 : dans la population globale, le coefficient de corrélation linéaire ℓ est nul contre
l’hypothèse alternative :
H 1 : dans la population globale ℓ est non nulle.
27
La statistique utilisée est
t c=r .
√ n−2
1−r 2
→St α ( n−2 )
2 et la règle adoptée est la suivante : au
t
seuil α donné, rejeter l’hypothèse nulle si la valeur absolue de c excède la valeur
α
correspondante de la distribution de Student pour le seuil 2 et ( n−2 ) degrés de liberté.
Remarque : Pour un échantillon de taille 20, au seuil de 5% |r| doit dépasser 0,44 pour être
significatif d’une corrélation non nulle dans une population. Au seuil de 1%, cette valeur
critique devient 0, 56.
Exemple
28
VI- EXERCICES
Exercice1 : Loi binomiale. Inégalité de Bienaymé-Tchébychev
Un sac contient 100 billes, 36 sont rouges les autres sont bleues. On admet que la probabilité
d’obtenir une bille rouge en un tirage est 0,36. Une épreuve consiste à tirer 16 fois de suite
une bille, en remettant à chaque fois la bille tirée dans le sac après avoir noté sa couleur. Le
nombre de fois où l’on tire une bille rouge est une variable aléatoire X. Déterminer
l’espérance m de X, sa variance et son écart-type σ . A l’aide de l’inégalité Bienaymé-
les probabilités P1 de provoquer un accident mortel durant une première année de conduite et
P2 de provoquer un accident corporel durant une année de conduite. On choisit 100 débutants
au hasard, et on désigne par X le nombre d’entre eux qui ont eu un accident mortel au cours
de leur première année de conduite. A l’aide de quelle loi de probabilité peut-on étudier X ?
CalculerPr ob ( X =0 ) , Pr ob ( X =2 ) .
Exercice 3
A Libreville 20 % des automobiles actuellement sur la route ne devraient plus circuler
puisqu’elles ne satisfont pas aux normes de sécurité. Dans un échantillon aléatoire (tiré d’une
population normale) de 200 automobiles.
29
Exercice 4
Une usine emploie plusieurs milliers d’ouvriers. D’après une expérience antérieure, un
chercheur sait que les salaires hebdomadaires sont normalement distribués avec un écart-type
de 40 F. Il veut estimer le salaire hebdomadaire moyen à 20 F près, avec un niveau de
confiance de 99 %. Quelle taille minimale doit avoir un échantillon ?
Exercice 5 :
Au LEA, une expérience révèle que 30 % des étudiants de la troisième année de licence
passent en 4ème année. Déterminer la probabilité que sur 30 étudiants inscrits en licence, plus
de 10 s’admettent en 4ème année de maîtrise
Exercice 6
Une machine automatique fabrique des billes dont on veut contrôler le diamètre X. La
quantité X est une variable aléatoire dont les paramètres sont :M = E(X)=20mm et σ (X) = 1.
On prélève à intervalle régulier des échantillons de taille n=100 billes, dont on mesure les
diamètre xi. Soit x̄ , la moyenne des diamètres d’un échantillon donné.
On admet maintenant que la variable aléatoire X suit une loi normale N (20 ;1). On prélève à
intervalles réguliers des échantillons de taille n=4 billes, dont on mesure les diamètres x i. Soit
x̄ la moyenne des diamètres d’un échantillon donné.
Exercice 7
Le tableau suivant figure parmi les résultats publiés d’une enquête par sondage aléatoire.
Ce tableau est accompagné d’un commentaire : << Ce sont les enfants des Avocats qui
reprennent le plus fréquemment la profession de leur Père, suivis par les enfants d’Ingénieurs
et puis par les enfants des Médecins ….>> Qu’en pensez-vous ?
Exercice 8
Une enquête au hasard a révélé que les taux s’équipements des ménages en réfrigérateurs sont
de 30%, 24% et 22% respectivement pour les catégories socioprofessionnelles cadres moyens
et employés. Peut-on considérer au risque α = 5 % que ces proportions sont significativement
différentes sachant que dans cette enquête l’effectif des ménages interrogés par catégorie
socioprofessionnelle est respectivement de 100, 150 et 200 (Dresser tous les tableaux y
afférents).
Exercice 9
Dans un groupe de 100 étudiants on suppose que la moyenne et l’écart-type des notes de
Exercice 11
31
Un étudiant candidat à l’élection du Président de la Mutuelle veut apprécier au mieux ses
chances de succès. Il ne connaît évidemment pas la proportion p de personnes décidées à
voter pour lui. Il fait effectuer un sondage sur 1000 étudiants ; 525 se déclarent en sa faveur.
Soit X le nombre aléatoire d’étudiants déclarant voter pour le candidat lorsqu’on interroge
1000 étudiants extraits de la population totale.
a- Quelle est la loi suivie par X ? Calculer E(X) puis V(X)
b- Que représente Y= X / 1000 ; calculer E(Y) et V(Y)
c- Donner une estimation ponctuelle de p
Exercice 12
Les notes respectives des étudiants des groupes A et B, que l’on suppose être aléatoires, ont
suivi, durant l’année, une loi normale de moyenne et de variance 14 et 25 pour le premier et
12,50 et 20 pour le second groupe. Quel est le groupe qui a le plus de chance de voir sa note
dépasser 16.
minimum
k 0 de lignes téléphoniques faut-il établir entre A et B pour qu’un employé de A qui
désire téléphoner à une heure d’affluence ait une probabilité inférieure ou égale à 0,025 de ne
pas avoir une ligne à sa disposition. On effectuera une approximation par une loi normale.
Exercice 14
La répartition d’une population adulte selon 5 catégories socioprofessionnelles est la
suivante : 15 % 10% 30% 24% 21%. On examine la composition d'un échantillon E
de 800 personnes de cette population; la répartition de E selon les 5 catégories est (dans le
même ordre que ci-dessus) : 113 61 236 215 175.
On considère l'hypothèse suivante : (HO) : « U échantillon E a été obtenu par un tirage au sort
Exercice 15
32
Lors d'une campagne de vaccination contre une maladie infantile, on dispose de deux vaccins
V et V' dont on veut comparer les réactions produites. On choisit deux groupes G et G' de 200
enfants chacun. Au groupe G on administre le vaccin V et au groupe G' le vaccin V'. On
distingue 4 modalités du caractère qualitatif « réaction au vaccin » qui sont les suivantes:
réaction légère, bouton, ulcération et abcès.
Exercice 16
Exercice 18
Xi 2 4 5 7 1 1 1 1 1 1
0 1 4 4 7 8
33
Yi 0 1 1 2 6 5 9 1 1 1
1 4 7
a) Construisez le nuage de points, vous paraît-il raisonnable de l’ajuster par une droite de
régression de Y en X ?
b) On pose U=X², calculer les 10 couples (Ui, Yi) puis construisez le nuage de points
associé.
c) Calculer le coefficient de corrélation linéaire en U et Y.
d) Donner une équation de la courbe de régression de Y en U par la méthode des moindres
carrés.
e) Donner une équation de la coure de régression de Y en X (parabole de Y en X).
f) Tracer cette dernière courbe sur le nuage de points de la question a).
g) Montrer en quoi les paramètres obtenus sont acceptables ou non.
h) Quelle est la valeur ajustée Y* pour X=0 ?X=10 ? X=20 ?
i) Etudier les résidus de la régression.
Exercice 19
On désigne par X la variable aléatoire « le nombre de pannes quotidiennes d’un appareil
utilisé au LABAT ». Les fréquentes absolues de X sur une période de 100 jours sont données
dans le tableau suivant:
X 0 1 2 3 4
Nombre de jours 35 25 18 13 9
A partir du diagramme en bâtons des effectifs de cette série quel type de loi de probabilité
vous parait ajuster convenablement la loi de probabilité de X ? On vous propose
P ( X=k )= pq k , avec p+q=1. Justifier ce choix ou votre choix à l’aide d’un test du « CHI-
DEUX »
Correction
Exercice 1
2
( ) ( )
1) Déterminer E X =m et V X =σ x
X ≈B ( 30; 0 ,36 ) loi binomiale de paramètres n=30 et p=0 ,36 car la moyenne Xi de chaque
étudiant suit une un schéma de Bernoulli de paramètre p=0 ,36 et X=nXi.
34
2) Calcul de
( 1
)
Pr|X ≥4 X̄|=Pr |X ≥43 , 2|< =0 , 25 ⇔ Pr ( X≤43 ,20 )≥
4
1
75
X ={ 0 ,⋯, 30 }
Cette inégalité ne requiert que la connaissance de l’espérance mathématiques de la variable
aléatoire X. elle donne une borne supérieure quant à la probabilité d’excéder la valeur de k X̄
qui est variable quel que soit la loi.
35
A≈ N ( 14 , 25 ) et B≈N ( 12 .5 ,20 )
Pr ( A >16 )=1−Pr ( A<16 )
Pr ( A <16 )=Pr
5(
A−14 16−14 2
<
5 )
= =0 , 4 ≈Π ( 0 , 4 )=0 ,6554
5
Pr ( A >16 )=1−0 , 6554=0 , 345
La différence n’est donc pas significative donc au seuil de 5%, ce taux est compatible
avec le taux moyen de la population.
NB : on retrouve la même conclusion en précédant par intervalle de confiance.
[
IC= t̄ ±2 , 262
σ
√9 ][
= 0 ,881−
0 , 151×2, 262
3
;0 , 881+
0 , 151×2 , 262
3 ]
=[ 0 ,767 ;0 ,995 ]
n i
35 25 18 13 9 100
nxi i
0 25 36 39 36 136
nx
2
0 25 72 117 144 358
i i
36
∞ ∞ ∞
E ( X )= ∑ kp ( X=k )= p ∑ kq = pq ∑ kq k−1k
k =0 k =1 k=1
∑ q k = pq ddq (11−q )= pq
∞
( )
d pq q
E ( X )=pq = =
dq k =0 (1−q ) 2
p2 p
q
E ( X )= =1 , 36 ⇔q=1 ,36 p=1− p ⇒2 , 36 p=1
Donc p
1
p= =0 , 42 et q=0 ,58
D’où 2 , 36
k
Et P ( X=k )=0 , 42 ( 0 , 58 )
P ( X=0 )=0 , 42 ⇒ N 0 =0 , 42×100=42
P ( X=1 )=0 , 42×0 ,58=0 , 244 ⇒ N 1 =0 ,244×100=24 , 40
P ( X=2 )=0 , 42× ( 0 ,58 )2=0 ,141 ⇒ N 2 =0 , 141×100=14 , 10
P ( X=3 )=0 , 42×( 0 , 58 )3 =0 , 082 ⇒ N 3 =0 , 082×100=8 , 20
P ( X≥4 )=1−( 0 , 42+0 ,244 +0 , 141+0 , 082 )=1−0 , 887=0 , 113 ⇒ N 4 =0 ,113×100=11, 30
0 1 2 3 4 Total
Effectif 35 25 18 13 9 100
s observés
Effectif 42 24,4 14,1 8,2 11,3 100
s théoriques
2
χ C=
( 35−42 )2 ( 25−24 , 4 )2 ( 18−14 ,1 )2 ( 13−8 ,2 )2 ( 9−11,3 )2
42
+
24 , 4
+
14 , 1
+
8,2
+
11, 3
2
χ C =1 ,167+ 0 ,015+ 1 ,079+ 2, 81+0 , 468=5 , 54
χ χ χ
2 2 2
population, la distribution des fréquences dans les différentes classes est celle décrite par le
modèle théorique ».On peut aussi essayer d’estimer la loi e Poisson de paramètre λ=1 ,36 .
Bibliographie
37
- DO ANGO Simplicio, Inférence Statistique et Méthodes statistiques ; LABAT,
Pressse Universitaire, Edition 2016
- DO ANGO Simplicio, Statistiques Descriptives, Cours et Exercices corrigés, Presse
Universitaire, 1ère édition 2016
- GRAIS B. Méthodes statistiques, 3e édition Dunod, 1998.
- GAULTIER M., Statistique100 exercices corrigés avec résumés de cours,
Vuibert,1997.
- GOUJET C. et NICOLAS C., Mathématiques appliquées à la Gestion, Décision en
avenir incertain, Initiation à la recherche opérationnelle, 4° édition, MassON, 1989.
- MASIERI W., Statistique et calcul des probabilités, 7e édition Sirey,1996.
- REAU J-P et CHAUVAT G., Probabilités & Statistiques Résumé des cours exercices
et problèmes corrigés QCM, Armand Colin, 1988,1999.
- SANDRETTO R., Probabilités, Exercices corrigés avec rappels de cours,
Dunod,1996.
- WILTHIEN PIERRE- HENRY, Décision statistique et économétrie,© Edition
Armand Colin/Masson, Paris, 1996.
38