Notes de Cours
Notes de Cours
COURS DE STATISTIQUE
1ère EDITION
2020-2021
1
COURS DE STATISTIQUE
A
STATISTIQUES DESCRIPTIVES
2
COURS DE STATISTIQUE
INTRODUCTION
3
COURS DE STATISTIQUE
Les statistiques : au pluriel, le terme « statistique » signifie les données collectées par divers
services privés ou publics. Exemple : les (données) statistiques du commerce extérieur. Les
données ainsi collectées représentent des faits observables.
Une statistique : dans ce cas, le terme « statistique » signifie une quantité calculée à partir
de données d’un échantillon. Exemple : la moyenne arithmétique (𝑋 ̅ ) la statistique t de
Student.
Tableau 0.1 : Distribution du PRIB de la ville de Surabaya (Indonésie), 1985-1990 aux prix
de 1983 (%)
4
COURS DE STATISTIQUE
60
2,31
26,96
40 1985 8,69
1990 69,67
20
5
COURS DE STATISTIQUE
Lorsque la taille de la population étudiée est élevée, de telles enquêtes sont fort coûteuses
ou impossibles, et le cas échéant, leurs résultats sont très longs à rassembler. C’est la
raison pour laquelle on a souvent recours au sondage. Dans ce cas, l’étude se limite à un
échantillon, pris au hasard, à partir duquel on peut tenter de déduire une tendance pour
toute la population.
6
COURS DE STATISTIQUE
CHAPITRE I
DONNEES STATISTIQUES
Le savoir est le plus puissant des instruments de production ; c’est lui qui nous permet
d’asservir la nature et d’assouvir nos bésoins.
- Alfred MARSHAL -
ENTREE EN MATIERE
La statistique étant l’ensemble des méthodes de collecte, d’organisation, et d’analyse
des données, il est tout à fait normal que ce cours s’ouvre sur un chapitre portant sur la collecte
et l’organisation des données. Il y a deux catégories de données : les données primaires et les
données secondaires. Les données primaires sont celles collectées pour un but précis par/pour les
auteurs d’une étude statistique. Le meilleur exemple des données primaires est celui d’un
recensement de la population. Les données primaires offrent à l’utilisateur des données un
avantage important. Les données étant collectées pour fournir une information précise, elles sont
supposées répondre aux spécifications préalablement définies par l’utilisateur. Les données sont
dites secondaires lorsqu’elles sont collectées par une autre source que l’utilisateur et très souvent
pour répondre à des préoccupations différentes de celles de l’utilisateur. C’est notamment le cas
de données collectées par divers services publics pour des raisons purement administratives mais
qui peuvent être utilisées dans des études statistiques.
Le Cimetière de la ville tient un registre dans lequel sont consignées les données sur l’identité et
l’adresse de la personne décédée, ainsi que la date et la cause du décès. Ce registre peut servir
de source de données à un chercheur qui mène une étude statistique sur la mortalité. Les données
consignées dans ce registre sont, pour le chercheur, des données secondaires.
Les données secondaires doivent être utilisées avec grand soin car elles peuvent ne pas fournir
l’information exacte recherchée. En plus, très souvent les données provenant de sources
secondaires ne sont pas présentées sous une forme qui les rendrait immédiatement utilisables.
Elles doivent être réorganisées par l’utilisateur afin qu’elles fournissent l’information désirée.
Dans ce chapitre nous allons successivement examiner les méthodes de collecte des données
primaires et les méthodes d’organisation des données.
7
COURS DE STATISTIQUE
Accident #1 6,0 m 0 1
Accident #2 4,0 m 2 3
Accident #3 5,5 m 1 2
Ainsi, collecter les données revient à observer, compter, ou mesurer les individus par rapport aux
caractères examinés. Dans le Tableau 1.1 ci-dessus, les accidents de circulation (qui sont les
individus dans cette étude) sont examinés par rapport à 3 caractères : la largeur de la route au
lieu de l’accident ; le nombre de personnes décédées ; et le nombre de véhicules impliqués dans
l’accident. L’opération de collecte des données consiste donc à « croiser » chaque individu à chacun
des caractères étudiés.
• Variable quantitative : une variable est dite quantitative si toutes ses valeurs
possibles sont numériques. Une variable quantitative peut être discrète ou continue.
Variable quantitative discrète : si l’ensemble des valeurs possibles est dénombrable (nombre
des enfants dans une famille)
Variable quantitative continue : si l’ensemble des valeurs possibles est continu2 (taille, poids)
1 Le fait de pouvoir ou non ordonner les modalités est parfois discutable. Par exemple : dans les catégories
socioprofessionnelles, on admet d’ordonner les modalités : ouvriers, employés, cadres. Si on ajoute les
modalités « sans profession », « enseignant », « artisan », l’ordre devient beaucoup plus discutable.
2 Ces définitions sont à relativiser, l’âge est théoriquement une variable quantitative continue, mais en
pratique, l’âge est mesuré dans le meilleur des cas au jour près.
8
COURS DE STATISTIQUE
C Célibataire
M Marié(e)
V Veuf(ve)
D Divorcé(e)
Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante :
M M D C C M C C C M
C M V D C C C M V M
On obtient le tableau statistique :
𝒙𝒋 𝒏𝒋 𝒇𝒋
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
𝒏= 20 1
Le tableau statistique d’une variable qualitatitative nominale peut être représenté par deux
types de graphique. Les effectifs sont représentés par un digramme en barres et les fréquences
par un diagramme en secteurs en secteurs.
10
9 Veuf(ve)
8 10%
7
6
Célibataire
5
Marié(e) 45%
4
35%
3
2
1 Divorcé(e)
0 10%
Célibataire Divorcé(e) Marié(e) Veuf(ve)
9
COURS DE STATISTIQUE
𝒋
Si la variable est ordinale, on peut calculer les effectifs cumulés : 𝑵𝒋 = ∑𝒌=𝟏 𝒏𝒌 , 𝒋 = 𝟏, … , 𝑱 et on
𝑵𝒋
peut également calculer les fréquences cumulées 𝑭𝒋 =
𝒏
Exemple 2.2 : On interroge 50 personnes sur leur dernier diplôme obtenu (variable Y). La
codification a été faite selon le tableau suivant :
𝒙𝒋 Effectif 𝒏𝒋 𝑵𝒋 𝒇𝒋 𝑭𝒋
Sd 4 4 0.08 0.08
P 11 15 0.22 0.3
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00
Les fréquences et les effectifs d’une variable qualitative ordinale sont présentées au moyen
d’un diagramme en secteurs et d’un diagramme en barres respectivement.
Et les effectifs cumulés d’une variable qualitative ordinale sont représentées au moyen d’un
diagramme en barres.
10
COURS DE STATISTIQUE
𝒙𝒋 Effectif 𝒏𝒋 𝑵𝒋 𝒇𝒋 𝑭𝒋
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.0
Quand la variable est discrète, les effectifs sont représentés par des bâtonnets.
11
COURS DE STATISTIQUE
𝟎 𝒔𝒊 𝒙 < 𝒙𝟏
𝑭(𝒙) = { 𝒋 𝒙𝒋 ≤ 𝒙 < 𝒙𝒋+𝟏
𝑭 𝒔𝒊
𝟏 𝒔𝒊 𝒙𝑱 ≤ 𝒙
Une variable continue peut prendre une infinité de valeurs possibles. Le domaine de la variable
est alors R ou un intervalle de R. Pour faire des représentations graphiques et construire le
tableau statistique, il faut procéder à des regroupements en classes. Le tableau regoupé en
classe est souvent appelé distribution groupée.
A = X M - Xm
C’est-à-dire A est la différence entre la valeur la plus élevée des toutes les observations (XM)
et la valeur la moins élevée (Xm).
Classifier les données revient à diviser l’amplitude A en un certain nombre de classes.
Chaque classe a deux extrémités. Désignons les extrémités de classe par e0, e1, e2, …, en de telle
manière que les valeurs Xi appartenant à la ième classe sont comprises dans l’intervalle ei-1 ≤ Xi
≤ ei qui est un intervalle fermé à gauche et ouvert à droite.
• Extrémités et limites de classe
Le fait que chaque classe soit un intervalle fermé à gauche et ouvert à droite est très
important, surtout pour les variables continues. Considérons la distribution de fréquence
présentée sur le tableau 1.2.
12
COURS DE STATISTIQUE
Tableau 1.2
Classes ni
0 – 14 8
15 – 29 12
30 – 44 18
45 – 59 7
> 60 5
Total 50
Chaque observation doit appartenir à une seule classe. Si la variable sous étude dans le
tableau 1.2 est une variable discrète (par exemple l’âge exprimé en années complètes), il n’y
aurait aucun problème résultant du fait que l’extrémité inférieure de la deuxième classe ne se
confonde pas avec l’extrémité supérieure de la première classe. Qu’en est-il si la variable est
continue (le revenu ou le poids) ? Une variable continue prend des valeurs décimales. Où
devrait-on classer la valeur 14,5 ?
Pour résoudre ce problème, nous introduisons la notion de limite de classe et celle
d’extrémité de classe.
Limite de classe : la plus petite valeur (limite inférieure) et la plus grande valeur (limite
supérieure) dans une classe.
Extrémité de classe : valeur séparant deux classes successives.
Exemple 2.3 : Les données collectées lors d’une enquête sur le poids de 50 étudiants de la FASI
sont reproduites dans le Tableau 1.3.
13
COURS DE STATISTIQUE
Tableau 1.4
Classes ni
20,00 – 34,99 8
35,00 – 49,99 13
50,00 – 64,99 15
65,00 – 79,99 11
80,00 – 94,99 2
95,00 – 109,99 1
Total 50
ei + ei −1
ci=
2
Pour classifier les données, il faut prendre un certain nombre des décisions :
14
COURS DE STATISTIQUE
Voici une des méthodes qui aide à grouper les données sans nuire à l’analyse :
• La méthode de Sturge :
a. Histogramme
L’histogramme consiste à représenter les effectifs (resp. les fréquences) des classes par
des rectangles contigus dont la surface (et non la hauteur) représente l’effectif (resp. la
fréquence). Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la
𝑛𝑗
classe 𝑗 est donc donnée par : ℎ𝑗 = où ℎ𝑗 est la densité de l’effectif. Pour un histogramme de
𝑎𝑗
𝑓𝑗
fréquence, on a 𝑑𝑗 =
𝑎𝑗
22
18
14
10
10,00- 20,00- 30,00- 40,00- 50,00- 60,00- 70,00- 80,00- 90,00- 100,00-
19,99 29,99 39,99 49,99 59,99 69,99 79,99 89,99 99,99 109,99
22
18
14
10
9,995 19,995 29,995 39,995 49,995 59,995 69,995 79,995 89,995 99,995
b. Polygone de fréquences
Une distribution de fréquence peut aussi être représentée graphiquement par un polygone
de fréquences. Le polygone de fréquences est un graphique qui lie les centres de classe sur
l’axe des abscisses et les fréquences sur l’axe des ordonnées.
Un polygone de fréquences peut être construit à partir d’un histogramme. Reprenons la
figure précédente. Marquons le centre de chacune des bases supérieures des rectangles de cet
15
COURS DE STATISTIQUE
histogramme. Pour le premier rectangle à gauche marquons sur l’axe des abscisses le centre
de classe de la classe « fictive » précédente. Enfin, pour le dernier rectangle à droite marquons
le centre de la classe fictive suivante3. Joignons ces points par des segments de droite. Nous
obtiendrons une ligne brisée appelée polygone de fréquence.
22
18
14
10
10,00- 20,00- 30,00- 40,00- 50,00- 60,00- 70,00- 80,00- 90,00- 100,00-
19,99 29,99 39,99 49,99 59,99 69,99 79,99 89,99 99,99 109,99
a. Le diagramme en barres
Le diagramme en barres est utilisé pour mettre en évidence les grandeurs relatives
(exprimées en pourcentage) de différentes parties d’un ensemble. Les barres sont représentées
par des rectangles espacés.
Figure 1 : Distribution du taux de chômage au sens du BIT par sexe et par groupes
d’âge (en %)
100%
80%
60%
Femmes
Hommes
40%
20%
0%
0-14 15- 20- 25- 30- 35- 40- 45- 50- 55 et
19 24 29 34 39 44 49 54 +
3
Si l’un de ces deux rectangles (ou les deux à la fois) a une fréquence nulle (n i=0) on n’a pas besoin de considérer les
centres de classe des classes fictives.
16
COURS DE STATISTIQUE
b. Le diagramme à colonnes
Le diagramme à colonnes a sur l’axe vertical les valeurs absolues de la variable
représentée, contrairement au diagramme en barres qui porte sur l’axe vertical les valeurs
relatives (c’est-à-dire les pourcentages). Par conséquent les rectangles espacés du diagramme
à colonnes n’ont pas la même hauteur comme il en est le cas pour le diagramme en barres.
Figure 1.2 : Evolution des ventes (en millions de FC) de l’entreprise X en 2006,
par trimestre
100
90
80
70
60
50
40
30
20
10
0
1er trimestre 2e trimestre 3e trimestre 4e trimestre
Le diagramme à colonnes peut aussi représenter plusieurs variables à la fois (Figure 1.3)
et aussi être tracés de manière horizontale, comme sur la Figure 1.4.
Figures 1.3 et 1.4 : Evolution des ventes (en millions de FC) des produits A, B et
C en 2006
100
4e trimestre
90
80
70
3e trimestre
C
60 A
B
50 B
40 C A
2e trimestre
30
20
1er trimestre
10
0
1er trimestre 2e trimestre 3e trimestre 4e trimestre 0 20 40 60 80 100
17
COURS DE STATISTIQUE
EXERCICES
1. On a aux employés aux employé d’une entreprise pour quel parti politique ils avaient voté
lors des dernières élections. Voici les données brutes obtenues :
PS PRD PS PDC PS UDC
PS UDC PRD PS verts PDC
UDC PRD verts UDC UDC UDC
PRD PS PRD PDC PRD PDC
UDC PDC PS UDC UDC UDC
a. Identifier la population
b. Identifier la variable statistique
c. Donner l’ensemble des modalités
d. De quel type est cette variable statistique ?
2 3 5 5 4 6 6 5 4 3
7 7 7 6 2 7 7 9 8 10
5 6 6 8 6 6 3 7 3 5
9 7 6 4 7 5 9 9 6 9
6 3 9 8 8 7 5 6 10 6
9 7 7 7 4 7 10 8 7 10
3 5 8 5 8 7 4 8 10 7
4 6 6 8 7 7 7 8 8 9
a. Identifier la population
b. Identifier la variable statistique
c. Donner l’ensemble des modalités
d. De quel type est cette variable statistique
e. Faites une représentation graphique de la variable
3. En recevant les eleves qui désirent faire partie d’une équipe de rugby du gmnase, l’entraineur
a pris note du poids de ces 60 joeurs :
72,6 81,9 84,7 88,1 89,4 91,6 93,7 95,8 99,1 103,2
75,8 82,6 85,4 88,1 90,2 92,4 93,9 96,6 99,4 103,9
77,5 82,9 86,2 88,3 90,9 92,5 94,4 97,1 99,8 104,0
78,3 83,0 86,9 88,7 91,1 92,8 94,7 97,2 100,4 105,2
79,6 83,5 87,3 89,0 91,2 93,0 94,8 97,5 101,7 106,1
81,5 84,1 87,8 89,1 91,3 93,3 95,2 98,3 102,1 118,7
Exercice 1.2:
18
COURS DE STATISTIQUE
a. En utlisant des classes de largeur 5, construire le tableau des distributions des effectifs et
des fréquences (valeur minimale 70).
b. Construire le polygône des fréquences.
4. Lors d’un concours de pêche dans le lac Albert, on a mesuré (en cm) toutes les prises et
regroupées par classe dans le tableau qui suit :
a. Compléter le tableau suivant :
Fréquence Fréquence
Classe Centre Effectifs Fréquence
cumulée cumulée
[ bi-1 ; bi [ xi ni fi
croiss Fi décroiss F'i
[10 ; 15[ 4
[15 ; 20[ 8
[20 ; 25[ 22,5 21 32,81 %
[25 ; 30[ 27,5 18 28,13 %
[30 ; 35[ 32,5 7 10,94 %
[35 ; 40[ 37,5 5 7,81 %
[40 ; 60[ 50 1
Totaux : 100 %
Exercice 1.7:
19
COURS DE STATISTIQUE
CHAPITRE II
MESURES DE DESCRIPTION
- G. WASHINGTON -
ENTREE EN MATIERE
L’organisation des données comprend également une étape importante : le calcul des
mesures qui permettent de résumer l’allure des données. Il s’agit de mesures de tendance
centrale, de mesures de dispersion, de mesures d’asymétrie et d’aplatissement, et de mesures
de concentration. Ces mesures sont des valeurs uniques qui permettent de comparer deux ou
plusieurs séries statistiques différentes.
La moyenne arithmétique d’une série statistique est le quotient de la somme des valeurs
de la série et le nombre d’observations.
La moyenne arithmétique (X ) d’une série de n observations est calculée par la formule :
X 1 + X 1 + ... + X n
X=
n
n X i i
X = i =1
n
n
i =1
i
20
COURS DE STATISTIQUE
n
n X i i
X = i =1
n
n
i =1
i
X i i
Xp = i =1
n
i =1
i
II.1.2. Le mode
Dans plusieurs séries statistiques, certaines valeurs apparaissent plusieurs fois. C’est
d’ailleurs le sens même de la notion de fréquence. La valeur qui apparaît le plus grand nombre
de fois dans la série est le mode. Ainsi, le mode est la valeur correspondant à la fréquence la
plus élevée.
Le mode est donc la valeur qui se répète le plus. C’est pourquoi il est aussi appelé valeur
dominante. Il est donc tout à fait normal que le meilleur moyen de « repérer » le mode est de
construire d’abord une distribution de fréquence.
Il s’ensuit de cette définition :
Mo = ei −1 +
(ni − ni −1 ) .a i
(ni − ni −1 ) + (ni − ni +1 )
21
COURS DE STATISTIQUE
II.1.3. La médiane
L’interprétation banale d’une mesure de tendance centrale, c’est qu’elle est la valeur
centrale de la série statistique, c’est-à-dire celle qui est juste au centre de la série. La médiane
est la valeur qui divise la série en deux parties de taille égale, l‘une étant composée de valeurs
inférieures ou égales à la médiane et l’autre partie étant composée de valeurs supérieures ou
égales à la médiane.
a. Détermination de la médiane pour une distribution non-groupée
Pour déterminer la médiane, il faut avant toute chose se poser la question suivante :
« quelle position occupe la médiane dans la série ordonnée ? » La médiane est en fait l’une des
valeurs de la série. Si nous arrangeons les valeurs de la série en ordre croissant ou en ordre
décroissant, la médiane sera l’une d’entre elles. Ce sera la valeur qui divise le nombre
d’individus de la série en deux sous-groupes de même taille. Pour trouver la médiane, il faut
procéder comme suit :
o Classer les valeurs de la série en ordre croissant (c’est-à-dire de la valeur la moins élevée à
la valeur la plus élevée) ou en ordre décroissant ;
o Si le nombre d’observations est impair, la médiane est la valeur juste au milieu de la série
ordonnée ;
o Si le nombre d’observations est pair, la médiane est le point milieu des deux valeurs au
centre de la série.
Nous pouvons généraliser la procédure de la manière suivante. Soit n le nombre
d’observations dans une série, la médiane est la valeur correspondant à l’observation imed qui
est calculée par la formule suivante :
n +1
imed =
2
1 / 2(N + 1) − N i −1
Me = ei −1 + .ai
ni
22
COURS DE STATISTIQUE
La moyenne géométrique d’une série statistique de n valeur positives est la racine n-ième
de leur produit.
G = X 1.X 2 ...X n
X =
1
(0,008 + 0,0347 + 0,0419 + 0,0423 + 0,0521) = 3,596%
5
G = 5 0,088.0,0347.,0,0419.0,0423.0,0521 = 3,091%
23
COURS DE STATISTIQUE
De la formule précedente, il s’ensuit que G ne peut pas être calculé si la série contient des
valeurs négatives ou si l’une des valeurs est égale à zéro. Il est courant que certains taux de
croissance dans une série soient négatifs. Mais G peut encore être calculé.
EXEMPLE : Le tableau suivant présente les taux de croissance du nombre des chômeurs dans un
pays.
La moyenne harmonique d’une série statistique de n valeurs est le nombre dont l’inverse
est égal à la moyenne arithmétique des inverses des n valeurs. D’où la formule :
n
H =
n
1
X
i =1
i
La moyenne harmonique n’est pas d’usage courant. Mais elle est une bonne mesure de
tendance centrale quand les valeurs de la série sont des taux.
EXEMPLE: Supposons qu’une dactylographe peut taper 40 lettres par heure, 60 factures par
heure, 80 cartes de vœux par heure. Quel est le nombre moyen des documents peut-elle
dactylographier par heure ?
Si l’on appliquait la formule de la moyenne arithmétique, la moyenne serait :
60 + 40 + 810
X = = 60
3
Mais cette moyenne ne fournit pas une information correcte car elle suppose que la vitesse
pour dactylographier une lettre est la même que celle requise pour taper une facture ou une
carte. Ce qui n’est pas vrai. L’utilisation de la moyenne harmonique donnerait :
3
H= = 55,38
(1 / 60 + 1 / 40 + 1 / 80)
La dactylographe peut taper en moyenne 55 documents par heure. Il faut noter que :
H<G< X
24
COURS DE STATISTIQUE
L’intervalle de variation (ou étendue, ou encore amplitude) est plus simple et plus facile
à calculer. L’intervalle de variation est la différence entre les valeurs extrêmes de la variable.
Intervalle de variation = XM - Xm
iq j = (N + 1).
j
n
(N + 1)( j / 4) − Ni −1
Qj = ei −1 + .ai
ni
25
COURS DE STATISTIQUE
(N + 1)( j / 10) − N i −1
D j = ei −1 + .ai
ni
(N + 1)( j / 100) − Ni −1
Pj = ei −1 + .ai
ni
où, dans chaque cas, ei-1 représente l’extrémité inférieure de la classe qui contient la valeur
recherchée.
Les déciles et les percentiles sont largement utilisés dans les études relatives à la
distribution du revenu. D3, par exemple, est le niveau de revenu en dessous duquel se trouvent
30% d’observations, c’est-à-dire 30% de personnes ont un revenu inférieur à D3.
La différence entre le 3ème et le 1er quartile est appelé intervalle (ou étendue)
interquartile, notée IQR. Cette différence est une mesure de dispersion qui utilise les deux
quartiles extrêmes, de la même manière que l’amplitude utilise les deux valeurs extrêmes de
la série. De par sa définition, l’intervalle interquartile contient 50% des valeurs de la série .
IQR= Q3 – Q1
Au lieu d’utiliser l’intervalle interquartile, il arrive souvent que l’on utilise le semi-
interquartile, appelé aussi déviation quartile, qui n’est rien d’autre que la moitié de
l’interquartile.
Q3 − Q1
Déviation quartile =
2
La différence entre les deux déciles extrêmes est aussi une mesure de dispersion.
L’intervalle interdécile est calculé comme :
ID= D9 – D1
n X − X
i i
e X = i =1
n
n
i =1
i
n
e Me =
1
n X
i =1
i − Me
et
26
COURS DE STATISTIQUE
n
i =1
i X i − Me
eMe = n
n i =1
i
II.2.4. L’écart-type
L’écart-type est la mesure de dispersion la plus importante et la plus utilisée. Il a l’avantage
de prendre en considération toutes les valeurs de la distribution et, contrairement à l’écart
absolu moyen, il utilise un artifice mathématique supérieur à celui des valeurs absolues pour
contourner le fait que la somme des écarts par rapport à la moyenne arithmétique est égale à
zéro. L’écart-type (ou l’écart quadratique moyen) est la racine carrée de la moyenne des écarts
par rapport à la moyenne arithmétique des données. Le carré de l’écart-type s’appelle variance.
D’où
(X − X )
n
2
i
i =1
SX =
n
et
n (X )2
n
i i −X
i =1
SX =
n
n
i =1
i
X − Mo
Sk =
SX
27
COURS DE STATISTIQUE
Sk =
(
3 X − Me )
SX
Si X > Mo, le coefficient de Pearson est positif. On dit que la distribution est asymétrique
à gauche.
Si X < Mo, le coefficient de Pearson est négatif. La distribution est dite asymétrique à
droite. Il a été démontré que :
-3 ≤ Sk ≤ 3
28
COURS DE STATISTIQUE
EXERCICES
4. On a relevé les notes au dernier test d’une classe maternelle. Les résultats sont
regroupés dans le tableau suivant :
Notes 3 4 5 8 9 12 20
Effectifs 1 2 4 6 7 8 2
29
COURS DE STATISTIQUE
30
COURS DE STATISTIQUE
B
STATISTIQUE INFERENTIELLE
31
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
CHAPITRE III
Nécessairement le hasard a beaucoup des pouvoirs sur nous puisque c'est par
hasard que nous vivons.
SENGHOR
ENTREE EN MATIERE
Il existe plusieurs situations où intervient la probabilité. Par exemple, le météorologiste peut nous
annoncer qu'il y a 80% de chance que la pluie tombe demain, le commerçant peut décider quelle
marchandise, il gardera en stock, l'étudiant de graduat qui passe en licence doit décider quelle option
choisir.
Dans chacune de ces situations, l'individu concerné doit baser sa décision ou son affirmation sur
ce qu'il croit devoir se produire. La probabilité, qui mesure la chance de réalisation d'un événement est à
la base de l'inférence statistique.
En inférence statistique, les décisions sont prises dans des situations d'incertitude. La théorie de
probabilité est utilisée pour évaluer l'incertitude de ces décisions. Ainsi, estimer les ventes prochaines
d'une entreprise nécessite la connaissance de plusieurs variables influant ses ventes; certaines ont un effet
positif (qualité des produits, la publicité...) et d'autres un effet négatif (la concurrence, taxe élevée...).
Et la théorie de probabilité peut aider l'entreprise à estimer ses ventes dans ces conditions
d'incertitude.
32
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Considérons l'expérience aléatoire qui consiste à lancer un dé. L'ensemble fondamental S qui lui
est associé contient tous les résultats possibles de ce lancement:
𝑆 = {1, 2, 3, 4, 5, 6}.
Un ensemble fondamental peut être fini, infini dénombrable ou infini non dénombrable
(continu).
Un événement dont la probabilité est nulle est dit «événement impossible» alors qu’un
événement qui peut se réaliser à tout coup est appelé «événement certain». Cependant, il existe des
événements non vides qui peuvent avoir une probabilité nulle. Dans le cas d’un ensemble infini non
dénombrable, un tel événement n’est pas nécessairement impossible : il est dit «presque impossible».
Considérons l’expérience qui consiste à choisir au hasard un point sur une feuille de papier quadrillé avec
une pointe de compas infiniment fine. La probabilité de l’événement piquer dans un carré donné a une
certaine valeur (par exemple celle du rapport de la surface du carré avec celle de la feuille de papier) ; en
revanche, si on réduit le carré à un point (carré infiniment petit) la probabilité deviendra zéro alors que
l’événement (piquer dans ce carré si petit qu’il est devenu un point) n’est pas impossible. De même un
événement de probabilité 1 peut ne pas être certain. Il est alors qualifié de «presque certain».
Les probabilités peuvent être classées selon différentes approches :
III.2.1 Approche classique ou a priori
Si l'on considère une expérience aléatoire pouvant se réaliser de K façons distinctes et
symétriques, et que parmi ces dernières, on peut dénombrer K(E) qui sont favorables à l'arrivée d'un
K (E )
événement E, la probabilité d'obtenir ce dernier est donnée par : P (E) =
K
Il est à noter que cette approche ne convient pas lorsque l’ensemble fondamental de cas possibles
n’est pas fini.
Si nous espérons obtenir un as lors du lancement d’un dé, nous devons commencer par nous
demander quelle face peut apparaitre a priori. Les résultats possibles sont S = {1, 2, 3, 4, 5, 6} et card (S) =
K= 6. Par contre, seul le cas où l’as apparait nous est favorable E = {1} et card (E) = K(E) = 1. Nous en
concluons que P (as) = 1/6 = 0.166…
33
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Il semble que le dé a été lancé 600 fois, il a affiché 125 fois la face as, de lors la probabilité d’obtenir un as
dans un prochain lancement selon cette approche serait : P (as) = 125/600 = 0,20833…
III.2.3 Approche subjective
Cette approche intervient lorsqu'il est impossible d'établir une probabilité a priori ou une
probabilité empirique. On doit alors s'en remettre au bon jugement ou encore à l'intuition, pour accorder
des probabilités à divers événements.
La probabilité de gagner les prochaines élections pour un candidat ne peut qu’être obtenue selon
cette approche, on pourrait dire par exemple, la probabilité qu’il soit élu serait 0,45.
34
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Où E1 - E2 est la différence entre un événement E1 et un événement E2, il signifie que E1 se réalise sans
que ce soit le cas pour E2.
5°) La loi d'addition :
– P (𝐸2 𝐸3 ) + P (𝐸1 ∩ 𝐸2 ∩ 𝐸3 ).
35
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
EXERCICES RESOLUS
1. On étudie les connexions d’internautes à un site web. Celui-ci propose six versions de son contenu,
réparties en trois versions anglaises (notées en) et trois versions françaises (notées fr). Pour chaque
langue, les trois versions sont les suivantes: une version normale (n), une version pour les petits écrans
comme ceux des téléphones (p) et une version pour les écrans de taille moyenne comme ceux des
tablettes (m). En étudiant l’historique des connexions, on constate que les versions ne sont pas
utilisées de façon uniforme. Plus précisément, si on choisit un internaute connecté au hasard, la
probabilité de tomber sur chacune des versions est donnée par la table suivante :
Dans la table, chaque version est désignée par sa langue et son type. L’ensemble des six versions forme
l’univers Ω. Les lettres a et b désignent des paramètres à déterminer.
a) Quelles propriétés doivent vérifier a et b pour que P soit bien une probabilité sur Ω ?
b) On constate que le site a deux fois plus d’utilisateurs anglophones que d’utilisateurs francophones.
En déduire a et b.
Solution
a) Pour que P soit une probabilité sur Ω, il faut que P ({version}) ∈ [0, 1] pour toute version du site
web. En particulier, on doit donc avoir :
De plus, on doit avoir P(Ω) = 1. Or, Ω est l’union disjointe de tous les évènements élémentaires et
P(Ω) est donc la somme des probabilités indiquées dans le tableau. On a donc :
5 1 4 3 8
𝑃(Ω) = a + 21 + 21 + 21 + b + 21 = 1, soit 𝑎 + 𝑏 = 21 (1)
b) Le site ayant deux fois plus d’utilisateurs anglophones que francophones, on suppose que P
({version anglaise}) = 2P ({version française}). Or, l’évènement {version anglaise} est l’union
disjointe des trois évènements {(en, n)}, {(en, p)} et {(en, m)} et donc la probabilité de l’évènement
est la somme des probabilités des trois évènements élémentaires. Donc, d’après le tableau, on a :
4 3 7
P ({version anglaise}) = 21 + 𝑏 + 21 = 𝑏 + 21
36
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
7 6
Soit finalement : 𝑏 + 21 = 2(𝑎 + 21) (2) et en combinant cette équation (2) avec le résultat (1) obtenu à
7 8 6
la question précédente, on trouve que : 𝑏 + 21 = 2 (21 − 𝑏 + 21)
1 1
Soit 𝑏 = 3 et 𝑎 = 21 on constate que a et b sont des éléments de [0, 1], ce qui montre que cette
solution est acceptable.
c) L’évènement {petit écran} est l’union disjointe des évènements {(en, p)} et {(f r, p)}, donc sa
probabilité est la somme des probabilités de ces deux évènements. On obtien ainsi :
5 12
P ({petit écran)} = P ({(en, p)}) + P ({(fr, p)}) = 21 + 𝑏 = 21
2. En étudiant une population, on a remarqué que, durant un mois, 40 % des individus sont allés au cinéma,
25 % sont allés au théâtre et 12,5 % sont allés au cinéma et au théâtre. Calculer la probabilité que durant
un mois, un individu:
Solution
P (C) = P (C T) + P (C T )
e) P ( T \C) =
(
P T C
=
)
0,125
= 0,3125
P(C ) 0,4
f) P ( C \ T ) =
(
P T C ) = 0,475 = 0,633
()
PT 0,75
37
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
3. Une urne contient x boules dont trois sont blanches, les autres étant rouges.
a) A l'occasion du tirage sans remise de deux boules, la probabilité d'obtenir une boule blanche puis
une boule rouge est égale à 1/4. Calculer x.
Solution :
a) Les tirages n'étant pas indépendants puisqu'il est fait sans remise, ainsi :
P(R B ) = P(B ).P (R\B)
1 3 x−3
= .
4 x x −1
Après transformation, on aboutit à l'équation du second degré x²–13x + 36 = 0 et les racines sont x = 4 et x
= 9, toutes deux acceptables. L'urne peut contenir 4 boules (3B et 1R) ou 9 boules (3B et 6R).
b) Les tirages étant cette fois-ci indépendants, le tirage étant fait avec remise.
P (B et R) = P (B).P (R)
1 3 x−3
= .
4 x x
On obtient donc x²–12x + 36 = 0 et la racine double de cette équation est x = 6
Pour ce cas, l'urne contient 6 boules (3B et 3R)
4. Un oiseau doit passer successivement au dessus de deux chasseurs. Chaque chasseur a une chance sur
trois de descendre l'oiseau. Quelles sont les chances d'être abattus ?
Solution :
Soient C1 l'événement "l'oiseau est abattu par le premier chasseur" et C2 l'événement "l'oiseau est abattu
par le deuxième chasseur"
1 ̅̅̅̅
P(C1) = 𝑃(𝐶 1 ) = et P (𝐶 1
1 )= 1 - 1/3 où 𝐶 correspond à l’événement « la chance du premier chasseur de
3
descendre l’oiseau ».
( ) ( )
P (C2) = P C1 .P C 2 =
2 1 2
. =
3 3 9
En effet, l'oiseau pourrait être abattu par le deuxième chasseur si le premier le rate puisque l'oiseau doit
passer successivement au dessus de 2 chasseurs. Et les chances pour l'oiseau d'être abattu seront :
P(C1 ou C2 ) = P(C1 ) + P(C2 ) − P(C1 et C2 ) où P(C1 et C2 ) = 0 , car l'oiseau ne peut être abattu par
les deux chasseurs simultanément.
1 2 5
Ainsi P (C1 ou C2) = + = = 0,55
3 9 9
38
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
CHAPITRE IV
Ce n'est pas le fait d'ignorer des choses qui nous cause des problèmes, mais plutôt le
fait de mal percevoir la réalité des choses que nous connaissons.
ARTEMUS WARD.
ENTREE EN MATIERE
Par exemple, l'expérience consistant à lancer un dé bien équilibré comporte en effet Six modalités (1, 2,
3, 4, 5 et 6). La probabilité de ces différents événements est égale à la fréquence observable d'apparition
de la modalité correspondante si l'expérience est répétée un certain nombre de fois. En jetant plusieurs
fois le dé, nous pouvons obtenir une distribution de probabilité qui énumère tous les résultats possibles
(1, 2, 3, 4, 5, 6) et leurs probabilités correspondantes.
- discrète, c'est-à-dire lorsqu'elle ne peut prendre qu'un nombre fini des valeurs auxquelles
s'attache une probabilité.
- continue, c'est-à-dire lorsqu'elle peut prendre une infinité des valeurs dans un intervalle donné.
Il est à noter que parfois, la distinction entre une variable discrète et variable continue est purement
formelle. Le type de la variable aléatoire dépend du degré de précision que l'on désire appréhender. Par
39
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
exemple, on s'intéresse à l'espérance de vie d'un chat, si on travaille sur le nombre d'années, le nombre
de valeurs possible est fini ; si on travaille en secondes, ce sera différent.
Lorsqu'on étudie un caractère quantitatif dans une population, on lui fait correspondre, suivant sa
nature, une variable aléatoire discrète ou continue.
Les lois de probabilités correspondantes donnent lieu à des distributions de probabilités et à des
fonctions de distributions appelées fréquemment fonction de répartition (ou probabilités cumulées).
Les définitions et les représentations graphiques diffèrent quelque peu suivant que la variable
aléatoire est discrète ou continue.
IV.2.1 Variable aléatoire discrète
La distribution de probabilité d'une variable aléatoire discrète X est la fonction qui, à chaque
valeur 𝑥𝑖 de X fait correspondre la probabilité 𝑝𝑖 d'obtenir la valeur 𝑥𝑖 ; cette fonction et bien définie si et
seulement si :
∀ 𝑖 ∈ {1, … , 𝑛}, 𝑝𝑖 ≥ 0 et ∑𝑛𝑖=1 𝑝𝑖 = 1
Ainsi, une variable aléatoire est totalement définie par sa loi de probabilité. Cette dernière est
caractérisée par :
- l'ensemble des valeurs qu'elle peut prendre (son domaine de définition 𝐷𝑋 ) ;
- les probabilités attribuées à chacune de ses valeurs 𝑃(𝑋 = 𝑥)
On peut la représenter :
- soit par un diagramme en bâtons. A chaque valeur de X est associé un trait (un bâton) dont la
hauteur est proportionnelle à 𝑃(𝑋 = 𝑥). On a par définition ∑𝑛𝑖=1 𝑝𝑖 = 1, c'est-à-
dire que la somme des longueurs de bâtons est égale à l'unité;
- soit par un polygone obtenu en joignant les sommets des bâtons.
La fonction de répartition F(x) d'une variable aléatoire discrète X fait correspondre à chaque valeur
xi de X la probabilité cumulée Pi d'obtenir xi. Dans le cas discret fini, on peut définir F(x) de la façon
suivante :
Si x x1 F (x ) = P(X x)=0
…
j
Si xj x≤ xj+1 F(x)= P(X x)= p
i =1
i
….
Si xn x F(x)= P(X x)=1
40
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Dans l’étude des lois de probabilité continues, il apparait un nouveau concept : la densité de
probabilité. Pour bien comprendre ce dont il s’agit, imaginons que l’on s’intéresse à l’étude de la
distribution de la taille des congolais. Pour étudier cette distribution, on fait des classes de tailles, et on
compte le pourcentage d’individus qui appartiennent à cette classe. Une représentation graphique de
cette distribution est donnée par l’histogramme. Supposons maintenant que le nombre d’individus de la
population d’intérêt (ici les congolais) est infini. Un histogramme avec un nombre fini de classes nous
donne une piètre information sur la distribution de la taille. Pour être plus précis, on augmente le nombre
de classes et on diminue la taille de chaque classe. On obtient ainsi un histogramme plus précis. Que se
passe t-il quand le nombre de classes tend vers l’infini et que la taille de chaque classe tend vers zéro ? On
obtient une courbe limite, cette courbe limite est en fait une représentation graphique d’une fonction
appelée densité de probabilité.
Les valeurs de la variable aléatoire continue peuvent être toutes celles d'un intervalle réel. Si on
considère alors un intervalle ∆x, aussi petit que l'on veut, entourant une valeur x, il s'attache une
probabilité d'obtenir une valeur de la variable comprise dans cet intervalle. On peut donc affecter une
probabilité à tout intervalle contenant des valeurs possibles x de la variable X.
On définit la loi de probabilité de X, ou distribution de X, à l’aide d’une fonction𝑓(𝑥), appelée
densité de probabilité de X, telle que :
41
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
𝑏
∫𝑎 𝑓(𝑥)𝑑𝑥 = 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏)
(i) ∀𝑥 ∈ 𝑅, 𝑓(𝑥) ≥ 0 ;
(ii) f est continue sur R (sauf peut être en un nombre fini ou dénombrable de points pour lesquels
elle admet une limite finie à gauche et à droite) ;
+∞
(iii) ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
- la fonction de répartition F(x) devient elle aussi une courbe continue définie par 𝐹(𝑥𝑖 ) = 𝑃(𝑋 <
𝑥𝑖 )
Il en résulte que :
La fonction de répartition d’une variable aléatoire continue possède les propriétés suivantes :
(i) F(x) est continue et croissante (sens large) sur R
(ii) lim 𝐹(𝑥) = 0 et lim 𝐹(𝑥) = 1
𝑥→−∞ 𝑥→+∞
(iii) F(x) est dérivable sur R (sauf peut-être sur un ensemble fini ou dénombrable I de points pour
lesquels elle est dérivable à gauche et à droite) et F (x ) est continue sur R/I.
𝑥
𝐹(𝑥) = 𝑃(𝑋 < 𝑥) = ∫−∞ 𝑓(𝑡)𝑑𝑡 où t est une variable muette.
Remarque :
1) Alors qu'en variable discrète, une probabilité pk déterminée s'attache à chaque valeur possible de
la variable, en variable continue la probabilité f (xi) d'avoir une valeur xi est nulle. En effet, la
probabilité n'a de sens que pour un certain intervalle ∆x de valeurs de la variable :
- ∀𝑥 ∈ 𝑅, 𝑃(𝑋 = 𝑥) = 0 donc 𝑃(𝑋 ≤ 𝑥) = 𝑃(𝑋 < 𝑥)
𝑏
- ∀ 𝑎 et 𝑏 ∈ 𝑅 (𝑎 < 𝑏), 𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎) = ∫𝑎 𝑓(𝑥)𝑑𝑥
Il est à noter que la vraie distinction entre variables continues et discrètes tient dans le calcul de la
probabilité ponctuelle. La probabilité d'un point c situé entre a et b serait lim 𝑃 (𝑎 < 𝑋 < 𝑏) = 0. Ainsi,
𝑏→𝑎
la probabilité d'une valeur est par définition nulle pour les variables continues. En réalité, il s'agit bien
souvent d'un problème de point de vue, voire d'échelle ou de précision de mesure. La probabilité que la
durée de vie d'un véhicule soit égale à 4 ans est loin d'être nulle (beaucoup de véhicules partent à la casse
au bout de 4 ans en Europe). En revanche, la probabilité que cette durée de vie soit exactement de
126144000 secondes (très approximativement 4 ans) est quasi-nulle (on peut difficilement dire à la
seconde près la perte d'un véhicule).
2) Entre f(x) fonction de "densité de probabilité" et F(x) la "fonction de répartition" on a les
relations :
42
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
dF ( x )
F ( x ) = f ( x )dx et f ( x ) =
dx
43
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Soit 𝜑(𝑋) une fonction définie pour tout X appartenant au domaine de définition 𝐷𝑋 . On appelle
espérance mathématique de 𝜑(𝑋), que l’on note, [𝜑(𝑋)] l’expression : 𝐸[𝜑(𝑋)] = ∫𝐷 𝜑(𝑋)𝑓(𝑥)𝑑𝑥 =
𝑋
∫𝐷 𝜑(𝑋)𝑑𝐹(𝑥)
𝑋
IV.3.1.2. Le mode
On appelle mode (valeur dominante, valeur la plus probable) d’une variable aléatoire, la valeur
𝑀0 pour laquelle l’histogramme de fréquence présente son maximum.
Lorsque la variable aléatoire X est continue, avec une fonction de densité pourvue d’une dérivée
première et d’une dérivée seconde, le mode 𝑀0 satisfait à 𝑓 ′ (𝑀0 ) = 0 et 𝑓 ′′ (𝑀0 ) < 0
Dans le cas des variables discrètes, le mode 𝑀0 est la valeur de X associée à la plus grande
probabilité.
IV.3.1.3. Le quantiles
44
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
• La médiane
La médiane est le quantile d’ordre 𝛼 = 0,5, en d’autres termes la médiane 𝑀𝑒 est définie par :
𝑀 +∝
∫−∝𝑒 𝑓(𝑥)𝑑𝑥 = 0.5 ou ∫𝑀 𝑓(𝑥)𝑑𝑥 = 0.5
𝑒
En pratique, pour une variable aléatoire discrète, la médiane 𝑀𝑒 est la première réalisation de X
pour laquelle la fonction de répartition F(X) dépasse 0,5. Si la fonction vaut exactement 0,5 pour certaines
réalisations, la médiane est alors le point milieu entre cette réalisation et la suivante.
• Les quartiles
Les quartiles, notées 𝑄𝑖 (respectivement 𝑖 = 1, 2, 3) correspondent aux quantiles d’ordre (𝛼 = 0, 25 ; 0,5 ;
0,75). Notons que 𝑄2 = 𝑀𝑒 .
• Les déciles
𝑘
Le k-ème décile (𝑘 = 1, . . , 9) est le quantile d’ordre 10
Cas particuliers : 𝑘 = 2 le moment centré d’ordre 2 correspond à la variance de X 𝑉𝑎𝑟 (𝑋) = 𝛿 2 (𝑋) =
𝜇2
L’écart type est la racine positive de la variance 𝛿(𝑋) = √𝑉𝑎𝑟(𝑋)
Quelques caractéristiques de la variance :
• Variance d’une constante : 𝑉𝑎𝑟(𝑎) = 0
• Mise en facteur d’un coefficient non aléatoire : 𝑉𝑎𝑟(𝑎𝑋) = 𝑎2 𝑉𝑎𝑟(𝑋)
45
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Il vise à situer la hauteur de la courbe de densité d’une loi par rapport à la référence qui est la loi
normale. Noté 𝛾2 , sa formule est la suivante :
𝜇4
𝛾2 = −3
𝜇22
C'est un coefficient sans dimension, invariant par changement d'échelle et de dimension. La
constant 3 a été choisie de manière à ce que le coefficient d'aplatissement de la loi normale soit égale à
𝛾2 = 0. Selon la valeur obtenue, on peut donc avoir :
▪ 𝛾2 = 0, la distribution mésokurtique ;
▪ 𝛾2 < 0, la distribution platykurtique;
▪ 𝛾2 > 0, la distribution de leptokurtique.
46
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
EXERCICES RESOLUS
1. Deux joueurs A et B lancent deux pièces de monnaie. Si les deux pièces tombent sur pile, A gagne, sinon
B gagne 12.000 francs congolais. Un jeu est équilibré si l'espérance de gain de chaque jouer est nulle.
Combien doit gagner A pour que le jeu soit équitable ?
Solution :
En lançant deux pièces de monnaie, nous attendons aux événements suivants {PP, PF, FP, FF} où par
exemple PF est l'événement : "La première pièce tombe sur pile et la seconde sur face".
La probabilité que A gagne est égale à 1/4 c'est-à-dire PP sur les 4 événements possibles, d'où le tableau
suivant :
Evénement E PF, FP, FF PP
Gain G -12.000 g
2. Lors d'une enquête, on a interrogé 5 hommes et 3 femmes. On choisit au hasard et sans remise les
personnes une à une jusqu'à l'obtention d'un homme, soit X le nombre des tirages nécessaires.
Solution
Le nombre de tirages minimum est égal à 1, et le nombre maximum est égal à 4 si les trois premiers tirages
correspondent au choix d'une femme. X prend les valeurs suivantes : 1, 2, 3 et 4.
P( X = 1) =
5
8
P( X = 2) =
3 5 15
. = , C’est-à-dire, la probabilité de choisir une femme parmi les 8 personnes, puis un
8 7 56
homme parmi les 7 personnes qui restent.
De même :
P( X = 3) =
3 2 5 5
. . = ,
8 7 6 56
P( X = 4) = . . . =
3 2 1 5 1
8 7 6 5 56
47
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
𝐸(𝑋) = ∑𝑖 𝑥𝑖 𝑝𝑖 = 1,5 = 𝜇
Médiane Me = 1, c’est-à-dire la première utilisation de X dont la fonction de répartition dépasse 0,5.
𝑉𝑎𝑟(𝑋) = ∑𝑖 𝑥𝑖2 𝑝𝑖 − 𝜇2 = 2,786 – 1,52 = 0,536
3. Le salaire mensuel des fonctionnaires en République Démocratique du Congo (RDC) obéit à une loi dont
la fonction de répartition est de la forme :
F ( x ) = Ax
−1
2
+B
Où x désigne le salaire, A et B sont des constantes à déterminer.
F(x) donne la proportion des fonctionnaires dont le salaire X est inférieur à x.
60% des fonctionnaires ont un salaire inférieur à 16 dollars alors que 20% ont un salaire inférieur à 9
dollars. Le salaire d’un fonctionnaire en RDC est compris entre 0 et 36 dollars.
a) Déterminer A et B.
b) Soit X le salaire d’un fonctionnaire choisi au hasard en RDC : déterminer E(X), Var (X) et σ (X).
Solution
F (16) =
A
+ B = 0,6
16
En résolvant ce système d’équation, on a : A = – 0,48 et B = 0,36
Donc F (x ) = −0,48 x
−1
2
+ 0,36
dF ( x )
b) Nous savons que = f ( x ) où f(x) est la fonction de densité de probabilité.
dx
48
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
2 2
36 36
E ( X ) = 0,24 x xdx = 0,48 x = 2,88
−3 −1
2 2
0
0
36
Var( X ) = 0,24 x x 2 dx − (2,88) = 26,27
−3 2
2
( X ) = 26,27 = 5;125
4. Une variable aléatoire continue X, de densité de probabilité f (x ) = A(2 − x ) est définie sur l’intervalle
0 à 2.
a) Calculer le facteur A de façon à ce que la fonction f(x) soit véritablement une densité de probabilité
sur l’intervalle indiqué.
b) Donner la fonction de répartition de la loi de probabilité en question.
c) Déterminer la somme des probabilités correspondant aux valeurs de X comprises entre 0,4 et 1,2.
d) Calculer l’espérance mathématique, le mode, la médiane, la variance et l’écart type de la variable X.
Solution
2
a) Il faut que: A(2 − x )dx = 1
0
2
x2 1
A2 x − = 1 ce qui permet d' obtenir A =
2 0 2
1
Il faut que A = pour que f(x) soit véritablement une densité de probabilité sur l’intervalle 0 à 2.
2
b) Fonction de répartition :
x
x
1 t2 1 x2
F (x ) = (2 − t )dt = 2t − = 2 x −
1
0 2 2 2 0 2 2
x2
F (x ) = x −
4
1,22 0,42
c) P (0,4<x<1,2) = F (1,2) − F (0,4) = 1,2 − − 0,4 − = 0,48
4 4
La somme des probabilités correspondant aux valeurs de x comprises entre 0,4 et 1,2 équivaut à la
probabilité que x soit comprise dans l’intervalle 0,4 et 1,2.
2 2
1 2 2
d) – E ( X ) = ( )
1 3 2
2 2 − x xdx =
2
x − x
0 3
=
0
49
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
– Le mode correspond à la valeur de x pour laquelle la fonction de densité atteint son maximum ;
f(x) atteint son maximum au point x = 0, d’où Mo= 0.
M2 1
– La médiane Md est telle que F (M d ) =
1
donc M d − d =
2 4 2
2
D’où l’écart type est
3
50
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
CHAPITRE V
IGNAZIO SILONE
ENTREE EN MATIERE
A priori, les lois de distribution des phénomènes physiques, économiques, etc. sont innombrables.
Chaque cas semble particulier. En effet, quel rapprochement pourrait-on faire entre la durée de vie d'une
paire de chaussures et le temps d'attente à une caisse d'un grand magasin ?
En réalité, on se rend compte que la grande majorité des phénomènes statistiques peuvent être
décrits par un nombre réduit de modèles probabilistes. Il importe dans un premier temps de pouvoir
décrire de façon adéquate le mécanisme du processus réel étudié (temps d'attente, nombre de passages
dans un intervalle de temps, nombre d'essais avant d'obtenir tel résultat, etc.).
Dans un second temps, une fois cette caractérisation réalisée, nous pouvons choisir la loi
théorique qui paraît le mieux convenir pour modéliser le phénomène observé, l'étape suivante consistant
à estimer les paramètres de la loi.
Enfin, dans un troisième et dernier temps, nous devons nous assurer que le rapprochement entre
la loi théorique proposée et les données observées est statistiquement crédible.
Dans ce chapitre, nous présentons les lois de probabilités les plus souvent utilisées dans les
études. Elles permettent de modéliser une grande variété de problèmes. Mais l'intérêt de modèles
statistiques (ou encore des distributions théoriques ou des lois statistiques) n'est pas seulement
descriptif. Ils permettent en outre, à condition que soient stables les facteurs explicatifs qui justifient
l’ajustement à une loi statistique, de prévoir avec certaine probabilité ce qui se passera si certaines
données de l’expérience initiale changent.
Les modèles que nous allons examiner concerneront de fois des variables aléatoires discrètes
(distributions discrètes) et de fois des variables aléatoires continues (distribution continues).
a) Définition
Une variable aléatoire X admet une distribution uniforme discrète si les probabilités associées aux
valeurs x de X sont toutes égales entre elles.
51
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
b) Caractéristiques
F (x ) =
y
; y ≤x<y+1
x
Si y=n, F(x)=1 pour x ≥ n
n2 − 1 6(n 2 + 1)
E (x ) =
n +1 (x ) = 1 = 0 2 = −
2 12 5(n 2 − 1)
a) Définition
Soit une expérience aléatoire pouvant donner lieu à deux événements complémentaires A et 𝐴̅
avec les probabilités respectives p et q (où 0 < p < 1 et q = 1 – p).
X est une variable de Bernoulli ou encore variable indicatrice lorsqu’elle prend la valeur 1 si A se réalise et
la valeur 0 dans le cas contraire.
b) Caractéristique
- E( X ) = p ( X ) = p.q
k N , k = p
k N ,
k = pq q k −1 − (− p )k −1
- La fonction de répartition est donnée par :
52
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
0 , x 0
F (x ) = q ,0 x 1
1 ,1 x
Notation : X ~ 𝛣 (1, p)
V.1.3 Distribution binomiale : suite d’épreuves de Bernoulli
a) Définition
La loi binomiale est liée au schéma de Bernoulli lorsqu’on répète n fois une expérience aléatoire
dichotomique (un événement A se produit avec une probabilité p et ne se produit pas avec la probabilité
q = 1 – p), sous des conditions uniformes (p reste constant) et de manière indépendante (les résultats de
n répétitions de l’expérience sont indépendants).
b) Caractéristiques
- La variable aléatoire ne peut prendre que des valeurs entières :
{0, 1, …., x, …., n}
- P( X = x ) = C n p x q n − x
x
- E( X ) = np ( X ) = npq
q− p 1 − 6 pq
1 = 2 =
npq npq
- Si y est un entier de {0, 1,…, n} la fonction de répartition
y
F (x ) = C j p j q n − j y x <y+1
n
j =0
Si y = n, F (x ) = 1 pour x n.
Notation : X ~ 𝛣 (n, p )
a) Définition
La loi binomiale s’applique à des prélèvements avec remise et si par contre ces prélèvements se
font sans remise (= prélèvement d’un seul coup de 𝑛 elements) dans une population de N individus dont
Np individus possède la propriété appelée « succès » et Nq ne la possède pas (N = Np + Nq), le nombre de
succès est alors une variable aléatoire X admettant une loi hypergéométrique.
53
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
b) Caractéristiques
- La variable aléatoire X prend toute valeur entière comprise entre [max (0, n–Nq) et min (n, Np)]
x n− x
- P( X = x ) =
C Np C Nq
n
CN
Np Np
E(X ) = n = np en posant p =
N N
N −n Nq
Var( X ) = npq en posant q =
N −1 N
Notation: X ~ H (N, n, p).
V.1.5 Distribution de Poisson
a) Définition et caractéristiques
La loi de Poisson (due à Siméon Denis Poisson en 1837) est la loi du nombre d’événements observé
pendant une période de temps donnée dans le cas où ces événements sont indépendants et faiblement
probables. Elle peut s’appliquer au nombre d’accidents, à l’apparition d’anomalies diverses, à la gestion
des files d’attentes, au nombre d’appels téléphoniques dans un intervalle de temps, etc.
Soit X la variable aléatoire représentant le nombre d’apparitions indépendantes d’un événement
faiblement probable dans une population infinie. La probabilité d’avoir 𝑥𝑖 apparitions de l’événement est:
e− xi
pi = P( X = xi ) = où est un paramètre réel positif et e le nombre de Neper.
xi !
E( X ) = Var( X ) =
1
1 = 2 =
1
x
e − y
Si y est un entier naturel, la fonction de répartition F (x ) = y! , y ≤ x < y+1
y =0
Notation : X ~ 𝑃 (𝜆)
V.1.6 Loi de Pascal
a) Définition
Comme la loi binomiale, cette loi se place dans le contexte d’un prélèvement avec remise. Elle
correspond à une procédure générale envisagée dans le schéma de Bernoulli lorsqu’on répète de façon
indépendante, une expérience aléatoire dichotomique « succès-échec » et la probabilité p de succès est
constante. Si on répète l’expérience autant de fois que nécessaire afin d’obtenir r succès, où r est un entier
fixé a priori. Le nombre de répétitions ou d’essais nécessaires pour obtenir r succès est une variable
aléatoire X distribuée selon la loi de Pascal.
54
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
b) Caractéristiques
- Les valeurs possibles de X sont (r, r + 1, …, x, …)
P( X = x ) = C x −1 p r q x − r
r −1
-
r (1 − p)
E(X ) = Var( X ) =
r
-
p p2
2− p 1 + 4(1 − p) + (1 − p )
2
- 1 = 2 =
r (1 − p) r (1 − p)
Si r = 1, la loi de Pascal devient la loi géométrique. Elle correspond, par exemple, à un tirage avec
remise jusqu’à l’obtention de première boule blanche.
Notation: X ~ G (1, p).
a) Définition
Elle concerne des variables aléatoires qui varient entre deux valeurs limites [a, b] de telle façon
que la probabilité d’appartenir à un intervalle (x, x + dx) inclus dans [a, b] est constante quelle
que soit la valeur de x dans cet intervalle.
La principale caractéristique de la loi uniforme continue est que la probabilité d'être dans un intervalle
dépend uniquement de la largeur de l'intervalle et non de la position de l'intervalle dans le domaine de
définition. La fonction de densité prend une forme rectangulaire.
Ainsi une variable aléatoire continue X suit la loi uniforme sur l’intervalle réel [a, b], (a<b), si elle
admet pour densité de probabilité la fonction f de R dans R définie par :
55
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
1
b − a si a x b
f (x ) =
0 sinon
b) Caractéristiques
E(X ) =
a+b
Var(x ) =
(b − a)
2
1 = 0 2 = −
6
2 12 5
Xp = a + p (b – a) où Xp st le quantile d’ordre p.
- Cette distribution est symétrique et ne possède pas de mode.
- La fonction de répartition F(x) est définie :
0 si x < a
x − a
F (x ) =
b − a
1 si a ≤ x ≤ b
si b < x
Notation: X ~ U (a, b)
V.2.2 La loi exponentielle
a) Définition et caractéristiques
La distribution exponentielle est la loi duale de la distribution géométrique décrite précédemment.
On l’utilise généralement pour modéliser des intervalles de temps aléatoires, par exemple des temps
d’attente, le temps entre deux échecs ou des durées de survie. Le temps entre l’occurrence de deux
événements successifs dans un processus poissonien se distribue également selon une loi exponentielle.
Ainsi une variable aléatoire continue X suit une distribution exponentielle négative de paramètre
θ, (θ >0) si elle admet pour densité de probabilité la fonction f de R dans R définie par :
0 si x 0
f (x ) =
e −x si x 0
56
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
E(X ) = Var( X ) =
1 1
1 = 2 2 = 6
2
Notation : X ~ Exp (θ).
a) Définition et caractéristiques
C’est la plus important des lois de probabilité continues. Des questions tant théoriques que
pratiques font appel à cette loi (souvent loi limite).
Historiquement elle apparait vers 1773 comme la forme limite de la loi binomiale (Abraham de
Moivre). Gauss en 1809 et Laplace en 1812 lui donnèrent sa forme définitive.
Un grand nombre de variables quantitatives suivent une distribution normale, ce qui s’explique
par le fait que la valeur prise par la variable est affectée par un très grand nombre des causes
indépendantes, à effet additif, chacune d’entre elles ayant cependant un effet négligeable par rapport à
l’ensemble des autres.
Une variable aléatoire continue X suite une loi normale de paramètres μ et ( R, R+ ) si elle
admet pour densité de probabilité la fonction f de R dans R définie par :
− (x − )2
f (x ) =
1
exp ,x R
2 2
2
où π ≈ 3,1416 ; exp (y) représente une exponentielle encore noyée e y ; e étant le nombre de
Neper.
La courbe de densité définie par f(x) est symétrique par rapport à x = μ et son graphe est en forme
de cloche. Elle possède deux points d’inflexion distants de l’axe de symétrie d’une quantité égale à .
𝐸(𝑋) = 𝜇 𝑉𝑎𝑟(𝑋) = 𝛿 2 𝛾1 = 0 𝛾2 = 0
Notation : X ~ N ( , ).
57
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
On appelle loi normale centrée réduite, la distribution normale de moyenne nulle et de variance
égale à 1 :
Notation : Z ~ N (0,1).
Étant donné que la distribution normale dépend de et , il y a lieu de la standardiser afin d’utiliser la
table normale conçue à cet effet ; d’où l’utilité de la distribution normale centrée réduite.
Les probabilités correspondant aux divers intervalles ont été calculées et regroupées dans une table
numérique. Cette table permet à partir:
- d’une probabilité α donnée, de trouver les bornes[−𝑈𝛼 , +𝑈𝛼 ] d’un intervalle symétrique
autour de 0, tel que P (𝑡 ∉ [−𝑧𝛼 ; +𝑧𝛼 ]) = 𝛼 ;
- de 𝑈𝛼 de trouver α.
Cette loi joue un rôle important dans les tests statistiques et l’estimation d’une variance
gaussienne.
58
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
n2 est : f n2 (t ) = cnt
n −1 − t
La fonction de densité de probabilité de 2
e 2 où cn sont telles que
+
f 2 (t )dt = 1.
0 n
La loi d’une variable X suivant un n2 tend vers une loi normale lorsque n →+∞. On a donc, après
X −n
avoir centré et réduit cette variable : ~N(0,1)
2n
Dans la pratique, on utilise plutôt la variable Y= 2 2 − 2n − 1 dont on démontre qu’elle suit
approximativement une loi normale centrée réduite N (0, 1) dès que n 30.
De même que pour la loi normale centrée réduite, une table existe pour la loi du n . Cette table
2
indique pour une probabilité α donnée, et un degré de liberté n, la valeur Kn, a telle que P (X > Kn, a )= a.
V.2.5 Loi de Student
Elle joue un rôle important dans l’estimation par intervalle de confiance et les tests d’hypothèses.
Elle est symétrique de moyenne nulle et dépend d’un paramètre n appelé nombre de degrés de liberté.
L’aspect de la courbe variera selon le nombre de degrés de liberté n (de façon générale, elle est plus aplatie
que N (0, 1) et quand n augmente (n > 30) les 2 courbes se confondent).
Si X suit N(0,1) et Y suit 2 (n ) et si X et Y sont des variables indépendants, alors la variable aléatoire 𝑇 = 𝑋
√𝑌⁄𝑛
+
2 f (t )dt = 1.
− tn
𝑛
Si X ~ tn alors E(X)= 0 pour n > 1 et Var (X) = 𝑛−2 pour n > 2
59
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
n1
− ( n1 + n 2 )
f F (t ) = cn1 , n2 t 2 −1 ( n1t + n 2 )
,t 0
2
n1 2n22 (n1 + n2 − 2)
Si X ~ F (n1, n2) alors E (X) = si n2 > 2 et Var( X ) = si n2 > 4
n2 − 2 n1 (n2 − 2) (n2 − 4)
2
Il faut faire attention à l’ordre des degrés de liberté. Le premier degré de liberté (n1) est le degré de
liberté du numérateur, alors que le second (n2) est celui du dénominateur. En outre, on peut démontrer que
1
si X ~ F (n1, n2) alors ~ F (n2, n1)
x
EXERCICES RESOLUS
1. Soit X la variable aléatoire dont les valeurs sont les résultats du jet d’un dé bien équilibré.
a) Quelle loi soit la variable X ? Donner la loi de probabilité.
b) Calculer E (X), Var (X), 𝑥1⁄ , 𝑥1⁄ , 𝑥3⁄ , Mode, l’écart interquartile et le moment centré d’ordre 3.
4 2 4
Solution :
Total 1 E(x)=3,5
n +1 6 +1
b) E ( X ) = = = = 3,5
2 2
n 2 − 1 36 − 1
Var( X ) = = = 2,92
12 12
- x 1 = correspond à la première réalisation de X pour laquelle la fonction de répartition dépasse 0,25 ;
4
x 1 = 2.
4
60
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
3+ 4
- x 1 = 3,5 puisque la fonction de répartition vaut exactement ½ pour x = 3 ; ainsi x 1 = = 3,5 .
2 2 2
- x3 = 5
4
2. Soit X une variable aléatoire qui suit une loi de Bernoulli. Montrer que l’écart type de X est toujours
inférieur ou égal à 0,5.
Solution
L’écart type d’une variable de Bernoulli est égal à p.q avec q = 1–p. L’écart type est maximum si la
variance est maximum. Var (x) = p.q p (1–p) = p–p².
Considérons la variance comme une fonction y = p (1–p). On peut calculer les extrema de la fonction y en
calculant la dérivée première et la dérivée seconde :
dy dy 1
= 1 − 2 p donc s' annule pour p =
dp dp 2
d2y 1
2
= −2 donc y atteint son maximum au point p = .
dp 2
1 1
L’écart type de X est donc toujours inférieur ou égal à . = 0,5
2 2
3. Dix pour cent des électeurs d’une commune sont défavorables à un projet de référendum sur l’avenir
de la commune. On prélève, au hasard et avec remise, huit personnes dans le corps électoral de cette
commune. On demande la probabilité pour que, parmi ces huit personnes :
Solution
b) P(X=8) = 0,18 0
c) P(X<4) = P(X=0) + P(X=1) + (X=2) + P(X=3)
61
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
4. On choisit au hasard 10 étudiants dans une université pour un entretien. 1.650 étudiants sont inscrits en
graduat et 780 en licence. Soit X le nombre d’étudiants de graduat parmi les 10 personnes choisies.
a) Calculer la probabilité d’avoir 5 étudiants de graduat.
b) Calculer E(X) et Var (X).
c) Quelles sont les valeurs prises par X ?
Solution
Le tirage étant sans remise, X suit une loi hypergéométrique N= 1.650 + 780 = 2.430.
Np = 1.650, Nq= 780 et n= 10
X ~ H (2.430 ; 10 ; 0,679).
5 5
a) P( X = 5) =
C1650 C 780 , calcul fastidieux.
10
C 2430
n 10
En fait, Np et Nq sont grands et la valeur = 0,1 . Ceci permet d’approcher la loi
N 2.430
hypergéométrique par une loi binomiale B(10 ; 0,679).
5. Lors d’un test d’accès à un ordinateur central par réseau télématique, on a constaté que 95% des essais
permettaient une connexion correcte. Une entreprise doit se connecter 4 fois dans la journée pour la
mise à jour de ses fichiers. Soit X le nombre d’essais nécessaires pour se connecter 4 fois.
a) Calculer P(X=4)
Solution
A chaque essai, la probabilité de se connecter est égale à 0,95. La variable aléatoire X suit la loi Pascal 4 et
p=0,95.
62
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
4 −1
a) P(X=4) = C 4 −1 0,95 4.0,05 0 = 0,95 4 = 0,815
b) P(X > 6)= 1 − P( X = 4) + P( X = 5) + P( X = 6) = 1 − 0,815 + C 5−1 0,95 4.0,05 + C 6 −1 0,95 4.0,05 2
4 −1 4 −1
≈ 0,00223.
c) E ( X ) = Var( X ) =
r 4 4.0,05
= = 4,21 = 0,2218
p 0,95 0,952
6. Virginie a rendez-vous avec Paul à la sortie d’une université, jeudi à 16 h 30min. Mais, elle ne pourra pas
l’attendre plus de 5 minutes. Paul, qui est encore dans son lieu de travail, estime qu’il peut arriver sur le
lieu de rendez-vous à tout moment entre 16 h 25 min et 16h 40 min de manière équiprobable. Si cette
hypothèse est exacte, quelle est la probabilité que Paul rencontre Virginie ?
Solution
Soit X le nombre de minutes écoulées entre 16 h 25 min et l’arrivée de Paul. L’hypothèse de celui-ci revient
à supposer que X suit la loi uniforme U (0, 15). Paul et Virginie se rencontrent si Paul arrive avant 16 h 35
min, la probabilité cherchée est donc :
P (X< 10) = F (10).
Or la densité de probabilité de X est définie par :
1 si 0 x 15
f (x) = 15
0 si non.
Et sa fonction de répartition est définie par :
0 si x 0
F (x ) = x si 0 x 15
15
1 si x 15
7. La force de résistance des tiges d’acier est distribuée normalement avec une moyenne de 90 kg et un
écart type de 20 kg. Quelle est la probabilité qu’une de ces tiges d’acier ait une force de résistance :
a) de 90 kg à 114 kg,
b) de 95 kg à 110 kg,
c) de 80 kg à 110 kg,
63
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
d) supérieur à 70 kg,
e) supérieur à 100 kg.
Solution
Soit FR la force de résistance, FR ~ N (90, 20) et les calculs de probabilité se font à l’aide d’une table qui
nécessitent que nos valeurs soient standardisées en variable :
Z ~ N (0, 1) ; d’où :
90 − 90 114 − 90
a) P(90 X 114) = P Z = P(0 Z 1,2) = 0,3849
20 20
95 − 90 110 − 90
b) P(95 X 110) = P Z = P(0,25 Z 1)
20 20
= P(0 Z 1) − P(0 Z 0,25) = 0,3413 − 0,0987 = 0,2426
80 − 90 110 − 90
c) P(80 X 110) = P Z = P(− 0,5 Z 1)
20 20
= P(0 Z 10,5) + P(0 Z 1) = 0,1915 + 0,3413 = 0,5328
70 − 90
d) P( X 70) = P Z = P(Z − 1) = P(0 Z 1) + 0,5 = 0,8413
20
100 − 90
e) P( X 100) = P Z = P(Z 0,5) = 0,5 − P(0 Z 0,5)
20
= 0,5 − 0,1915 = 0,3085
64
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
CHAPITRE VI
ECHANTILLONNAGE ET DISTRIBUTION
D’ECHANTILLONNAGE
E.W. HOWE
ENTREE EN MATIERE
Si nous possédons une connaissance parfaite des choses, la plupart des problèmes du monde
seraient réglés, puisqu’une connaissance parfaite est synonyme de certitude.
Cependant, il est bien rare que l’on possède cette connaissance parfaite, et la personne qui doit
prendre une décision doit souvent le faire en se basant sur des résultats d’échantillonnage, c’est-à-dire la
personne ne dispose que d’une information partielle sur le phénomène étudié.
Le concept d’échantillon est souvent opposé à celui de recensement. Un recensement est destiné
à établir une observation exhaustive de tous les éléments d’une population. En revanche, le sondage,
méthode qui va permettre de construire un échantillon, ne prélèvera qu’une partie des informations
existantes.
Si le recensement se révèle théoriquement meilleur qu’un sondage parce qu’il est exhaustif, il n’en
est pas moins vrai que le second se voit souvent préféré.
Plus facile à obtenir, d’un coût moins élevé, obtenu avec un temps relativement court, il évite la
destruction des éléments de la population dans certains cas, il peut aussi être confié à une équipe réduite,
plus spécialisée, plus motivée.
D’une façon générale, l’inférence statistique est constituée de l’ensemble des méthodes
statistiques qui ont pour but de tirer des conclusions, ou d’aider à prendre des décisions au sujet d’une
population à partir d’une information partielle.
L’échantillonnage a pour objectif de choisir une partie de la population qui reproduit le plus
fidèlement possible les caractéristiques de la population.
Pour pouvoir porter un jugement sur la population en se basant sur des résultats d’échantillons, il
est nécessaire que les résultats d’échantillon soient aussi représentatifs que possible de la population d’où
est tiré l’échantillon.
• Un échantillon de taille n (1 ≤ n < N) est une liste de n individus (i1,…,in) extraits de la population -mère.
𝑛
• Le rapport 𝑡 = de l’effectif n de l’échantillon à l’effectif N de la population, dans laquelle il a été
𝑁
prélevé, est appelé taux d’échantillonnage ou fraction de sondage.
• On appelle base de sondage, la liste exhaustive des individus de la population – mère ; dans laquelle
chaque individu est représenté par son nom ou par un (et un seul) numéro compris entre 1 et N ;
65
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
• Un paramètre est une caractéristique de la population ( , 2 , N ,... ) tandis que les mesures utilisées
Une méthode de sondage consiste à définir la façon dont on doit prélever des individus (des
valeurs) dans une population afin de constituer un échantillon.
Il existe plusieurs méthodes pour choisir un échantillon d’une population. Ces méthodes peuvent
être regroupées en deux catégories.
Un sondage est dit aléatoire ou probabiliste si chaque individu de la population a une probabilité
connue et non nulle d’appartenir à l’échantillon.
Les éléments sondés sont extraits au hasard d'une liste connue a priori de la population, appelée
base de sondage.
Exemples : 1. Liste d'immatriculation des véhicules automobiles en RD Congo.
2. Liste des étudiants inscrits régulièrement dans une université.
Les bases de sondages sont en général établies à partir des résultats d'un recensement et elles sont
corrigées périodiquement entre deux recensements. Le tirage de l'échantillon est effectué dans la base
de sondage selon des critères spécifiques à chaque méthode (plan de sondage).
Parmi les diverses méthodes utilisées pour obtenir un échantillon aléatoire, les principales sont les
suivantes : l’échantillonnage aléatoire simple, l’échantillonnage stratifié, l’échantillonnage par grappes et
l’échantillonnage systématique.
Un sondage aléatoire est dit simple (SAS) si tous les échantillons de taille n fixée à priori, prélevés
au sein d’une population d’effectif N, sont réalisables avec la même probabilité et tous les éléments de la
population ont une chance égale de faire partie de l’échantillon. On parle donc d’un sondage à probabilités
égales (PE) qui peut être avec remise (PEAR) et sans remise (PESR).
Dans un échantillon aléatoire simple, les éléments constituant l'échantillon sont extraits au hasard
(à l'aide d'une table de nombres au hasard, par exemple) d'une liste de la population. On extrait ainsi n
individus d'une population de taille N.
Nous voulons extraire un échantillon de 10 individus dans une population formée de 500 individus.
Nous numérotons les individus de la population de 1 à 500.
Nous considérons trois colonnes consécutives d'une page de nombres au hasard : ils forment des
nombres au hasard à trois chiffres. Nous lisons ces nombres de trois chiffres en ne retenant que ceux qui
66
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
sont compris entre 001 et 500. Lorsque nous avons retenus 10 nombres, notre échantillon est constitué
des 10 individus désignés dans la population par ces dix nombres. Selon que nous effectuons un tirage
avec ou sans remise, nous garderons ou écarterons un individu déjà tiré.
L'inconvénient majeur de la méthode aléatoire simple est son coût : les individus tirés peuvent
être très éloignés géographiquement.
- L’échantillonnage stratifié
- L'existence d'une stratification de fait, soit pour des raisons géographiques, soit pour des raisons
administratives. Exemple : enquête sur les conditions de vie des fonctionnaires en RD Congo. La
population est celle des fonctionnaires en RD Congo. Les strates sont les populations de
fonctionnaires dans chaque province du pays.
- Un caractère étudié dans la population peut varier sous l'influence d'un certain nombre de facteurs.
Pour éliminer au mieux les risques de biais, nous créons des strates homogènes et, dans chacune
d'elles, nous extrayons un échantillon aléatoire simple. Pour étudier la consommation de tabac, si
nous estimons que l'âge et le sexe sont des facteurs très influents, nous partageons la population en
strates du type :
– Hommes de moins de 20 ans ; – Hommes de 20 à 30 ans ; – etc.
– Femmes de moins de 20 ans ; – Femmes de 20 à 30 ans ; – etc.
De chaque strate, nous extrayons un échantillon aléatoire simple.
Cette méthode consiste à tirer au hasard des grappes ou familles d’individus, et on examine tous
les individus de la grappe (exemple: on tire des immeubles puis on interroge tous les habitants). La
méthode est d’autant meilleure que les grappes se ressemblent et que les individus d’une même grappe
sont différents, contrairement aux strates.
- L’échantillonnage systématique
Selon cette méthode, on choisit les unités dans la population à des intervalles fixes en termes de
temps, d’espace ou d’ordre d’occurrence.
67
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
𝑁
Pour sélectionner n individus, nous partageons la population en 𝑘= 𝑛
groupes : {1, ..., k},
{1 + k,..., 2 k}, ..., {1 + (n – 1) k, ..., N}. Nous choisissons au hasard l'individu i par les individus numérotés de
1 à k. Nous constituons notre échantillon des individus {i, i + k, i + 2 k, ..., i + (n – 1) k}. Le choix de l'individu
i détermine entièrement la constitution de l'échantillon.
Cette méthode est bien adaptée à la sélection de cartes dans un fichier, ou au prélèvement de
pièces dans une fabrication pour un contrôle de qualité. Elle présente une certaine analogie avec la
méthode précédente d'échantillonnage stratifié.
VI.2.2 L’échantillonnage non aléatoire ou sondage raisonné
Ce sont les plus connues du grand public et les plus utilisées par les instituts de sondage d'opinion.
La précision de ces méthodes ne peut être calculée et leur réussite n'est que le résultat d'une longue
pratique et de l'habileté professionnelle. Les éléments sondés sont choisis dans la population suivant des
critères fixés à pirori.
D’une façon générale, lorsqu’on utilise une statistique en inférence, on s’intéresse non seulement
à ses caractéristiques mais aussi à sa distribution, et la distribution de probabilité de n’importe quelle
statistique est appelée distribution d’échantillonnage.
Le problème de l'échantillonnage des moyennes consiste à obtenir des informations sur les
moyennes des échantillons de n individus lorsque la moyenne et l'écart-type de la population sont connus.
L'idée est de considérer les moyennes des échantillons de taille n comme des réalisations d'une variable
aléatoire.
1 1
𝐸(𝑋) = 𝑁 ∑𝑁 𝑁 2
𝑖=1 𝑥𝑖 = 𝜇 et 𝛿(𝑋) = √𝑁 ∑𝑖=1(𝑥𝑖 − 𝜇) = 𝛿
On considère les variables aléatoires 𝑋𝑖 de même loi que X. Toutes les fois qu’un échantillon de taille
n est effectivement constitué, on a une réalisation de la suite de variables aléatoires (𝑋𝑖 ), 𝑖 ∈ ℕ ∩ [1, 𝑛],
la variable aléatoire 𝑋𝑖 prenant alors la valeur du caractère pour l’individu numéro i de l’ échantillon.
1
Posons 𝑋̅ = 𝑛 ∑𝑛𝑖=1 𝑋𝑖 Alors la moyenne d’un échantillon de taille n est une réalisation de 𝑋̅ et 𝑋̅ est
la distribution d’échantillonnage des moyennes dans les échantillons de taille n.
Lorsque la variable X que l’on étudie dans la population suit une distribution normale de moyenne μ et
de variance 2 , alors la moyenne 𝑋̅ d’un échantillon aléatoire de taille n tiré de cette population suit une
68
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
𝛿2
distribution normale de moyenne μ et de variance 𝑛
pour les échantillons non exhaustifs ou si
𝑛 𝛿 2 𝑁−𝑛
𝑁
≤ 0.05 ou .
𝑛 𝑁−1
pour les échantillons exhaustifs.
Si n est grand (quelle que soit la distribution de X), alors on a approximativement X qui suit
𝛿 𝛿 𝑁−𝑛
𝑁 (𝜇, ) pour les échantillons non exhaustifs et X qui suit 𝑁 (𝜇, √ ) pour les échantillons
√𝑛 √𝑛 𝑁−1
exhaustifs.
On peut aussi montrer que les coefficients d’asymétrie et d’aplatissement de 𝑋̅ sont respectivement :
𝛾 𝛾 −3
𝛾1 (𝑋̅) = 1 et 𝛾2 (𝑋̅) = 3 + 2
√𝑛 𝑛
On suppose cette fois que l'on étudie la présence d'un caractère qualitatif parmi les N individus de la
population. On suppose que p est la fréquence de ce caractère dans la population. Pour une population
finie, ce qui est le cas de toute population concrète, p est la proportion d'individus de la population
présentant le caractère étudié. Soit X la variable aléatoire qui à un individu donné de la population, associe
la valeur 0 lorsque l'individu ne présente pas le caractère étudié, et la valeur 1 lorsque l'individu présente
le caractère étudié.
Lorsqu’on considère que la variable X étudiée dans une population est une variable de Bernoulli c’est-à-
dire variable définie par :
𝑃(𝑋 = 1) = 𝑝 et 𝑃(𝑋 = 0) = 1 − 𝑝
Soient 𝑋1 , … , 𝑋𝑛 , n variables aléatoires de même loi que X. On remarque que la variable aléatoire
1
∑𝑛𝑖=1 𝑋𝑖 suit la loi binomiale 𝐵 (𝑛, 𝑝). On pose à nouveau ̅𝑋 = ∑𝑛𝑖=1 𝑋𝑖 . Les
𝑛
fréquences d’apparition du caractère dans les échantillons de taille n sont les réalisations de la variable
aléatoire 𝑋̅.
Il arrive souvent en statistique que l’on désire comparer deux populations relativement
à une certaine caractéristique. Cette caractéristique X lorsqu’elle est considérée dans la première
population, elle est notée X1 et elle est notée X2 dans la deuxième population. On va supposer que les
moyennes et les variances de ces deux populations sont : 𝜇1 , 𝛿12 et 𝜇2 , 𝛿22 respectivement. Pour
comparer ces deux populations, on tire indépendamment un échantillon aléatoire de taille 𝑛1 dans la
69
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
première, et un échantillon de taille 𝑛2 dans la deuxième population et on est alors amené à considérer
la distribution de la différence (𝑋̅1 − 𝑋̅2 ) entre les deux moyennes échantillonnales.
Si les variables X1 et X2 étudiées dans chacune de ces populations sont normales, alors la différence
(X 1 )
− X 2 suit une distribution normale de moyenne (1 − 2 ) et de variance
12
n1
+
22
n2
.
Si les tailles 𝑛1 et 𝑛2 sont grandes, (quelles que soient les distributions de 𝑋1 et 𝑋2 ) alors on a
approximativement (X 1 − X2 )
qui suit 1 − 2 ,
12 22
n
+
n
.
1 2
VI.3.4 Distribution d’échantillonnage de différence de proportions
(X 1 ) pq p q
− X 2 suit N p1 − p2 , 1 1 + 2 2
n1 n2
où q1 = 1 − p1 et q2 = 1 − p2 .
Nous allons maintenant formaliser les concepts présentés dans les sections précédentes en énonçant ce
que l’on appelle le théorème central limite. Ce théorème énonce les principes suivants :
70
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
EXERCICES RESOLUS
1. Un fichier informatique contient les vingt enregistrements suivants :
Numéro Nom Statut Numéro Nom Statut
1. MUBENGA Ouvrier 11. TUTONDA Employé
2. LUMPUNGU Employé 12. MUSONGELA Cadre
3. MAYANONUSUA Ouvrier 13. ITEMA Ouvrier
4. BIAYA Cadre 14. MUKELENGE Ouvrier
5. BALONDO Ouvrier 15. NGALULA Ouvrier
6. ODIA Cadre 16. KAZUMBA Employé
7. MPANYA Cadre 17. MASUKA Ouvrier
8. MUNONGO Ouvrier 18. LUNTADILA Ouvrier
9. MARHEGEKO Ouvrier 19. KASHALA Ouvrier
10. KASSANGA Employé 20. MASENGU Ouvrier
Solution
C N + n −1 = C 20+ 4 −1 = C 23 = 8.855
n 4 4
a) (Ceci correspond à une combinaison avec répétitions de n
éléments choisis parmi N, donc une liste non ordonnée, avec répétitions éventuelles des
éléments).
N.B : Pour dénombrer, on essaiera de se ramener à l’un des modèles suivants :
71
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
C12 C 4 C 4 = 3.520 .
3 1 1
c) Pour construire un échantillon aléatoire de taille 8 à l’aide d’une base de sondage de taille 20, il
faut choisir aléatoirement 8 nombres entre 1 et 20. On peut partir d’un élément quelconque de la
table et regrouper les chiffres deux par deux ;
▪ Si le nombre obtenu k est entre 1 et 20, on extrait de la base de sondage l’individu numéro k,
▪ Si le nombre obtenu k n’est pas entre 1 et 20, on ignore k
Le premier individu choisi étant l’individu numéro 2, on retient les individus numéros 2, 6, 10, 14,
18.
e) D’où l’échantillon : 02. LUMPUNGU employé, 06. ODIA cadre ; 10. KASSANGA employé ; 14.
MUKELENGE ouvrier ; 18. LUNTADILA ouvrier…
2. Soit une population d’âges constituée de 4 valeurs : 16, 18, 32, 54. On désire y prélever:
2. E ( X ) et VAR ( X )
Solution
X X2
16 256
18 324
32 1.024
54 2.916
X = 120 X 2 = 4.520
Var( X ) =
120 4.520
= 30, − 302 = 230
4 4
1) a) Le tirage de l’échantillon est effectué avec remise, on a donc N n = 42 = 16 échantillons simples
avec remise d’effectif 2.
72
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
2
Echantillons Moyenne échantillonnale X X
1. (16,16) 16 256
2. (16,18) 17 289
3. (16,32) 24 576
4. (16,54) 35 1.225
5. (18,16) 17 289
6. (18,18) 18 324
7. (18,32) 25 625
8. (18,54) 36 1.296
9. (32,16) 24 576
Toutes les moyennes échantillonnales forment une distribution appelée distribution d’échantillonnage
des moyennes notée X , ainsi :
( )
E X =
480
16
= 30
Var X =( ) 16 x 240
16
− 302 = 115
73
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
2
Echantillons X X
17 289
1. (16,18)
2. (16,32) 24 576
3. (16,54) 35 1225
4. (18,32) 25 625
5. (18,54) 36 1296
6. (32,54) 43 1849
( )
E X =
180
6
= 30
( )
Var X =
5.860
6
− 302 = 76,67
L’espérance de X pour le cas PEAR et PESR est égale à la moyenne de la population μ = 30. Par ailleurs la
variance de X est inférieure pour le cas PESR par rapport à un prélèvement avec remise. La dispersion
de X autour de μ est plus faible : l’erreur d’échantillonnage apparaît comme plus petite pour le cas PESR
3. Dans le tableau ci-dessous apparaissent les âges de six politiciens formant une population.
Politiciens Age
A 30
B 50
C 60
D 34
E 33
F 29
Pour accéder au poste du gouverneur, l’âge minimum requis est de 35 ans.
a) Quel pourcentage de notre population de politiciens peut accéder, cette année, au poste du
gouverneur.
b) Si on prélève des échantillons aléatoires de taille 2 dans la population ci-dessus, quels seront la
moyenne et l’écart type des pourcentages échantillonaux ?
Solution
Considérons la variable X dans la population comme une variable de Bernoulli, c’est-à-dire une variable
définie par :
𝑋 = 𝑥𝑖 1 0
𝑃(𝑋 = 𝑥𝑖 ) 2/6 4/6
74
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
2
p = p = .100 = 33,33 %
6
0,33(1 − 0,33) 6 − 2
et p = = 0,2981.100 = 29,81 %
2 6 −1
75
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
CHAPITRE VII
ESTIMATION STATISTIQUE
ENTREE EN MATIERE
Après avoir défini la nature d’un échantillon aléatoire ainsi que les notions connexes à celle
d’échantillon, on est maintenant en mesure d’aborder l’inférence statistique. Celle-ci regroupe l’ensemble
des méthodes qui, à partir d’un échantillon prélevé dans une population, permettent de tirer des
conclusions soit sur les paramètres d’une variable étudiée dans cette population, (inférence
paramétrique) soit sur la distribution ou tout autre aspect de cette variable (inférence non paramétrique).
Dans l’inférence paramétrique, on pose l’hypothèse selon laquelle la forme de la distribution de la
population est connue et l’on essaie de tirer des conclusions sur certains paramètres inconnus de cette
distribution.
Par contre, dans l’inférence non paramétrique, on ne fait pas d’hypothèse sur la distribution de la
population et l’on essaie de tirer des conclusions, non plus sur les paramètres, mais sur n’importe quel
autre aspect de la population.
L’inférence statistique est divisée en deux grandes parties : l’estimation et les tests d’hypothèses.
En estimation, on supposera que l’on ne connaît rien du paramètre, et l’on cherche à l’estimer au moyen
d’une statistique définie à partir d’un échantillon aléatoire. Dans le contexte d’un test d’hypothèse, la
situation se présentera différemment, on supposera au départ que l’on a une certaine connaissance de la
(des) valeur(s) du paramètre, et l’on essaie d’en vérifier la véracité à partir de l’information obtenue à partir
d’un échantillon aléatoire tiré de cette population. Cette (ces) valeur(s) constituent l’hypothèse de base.
VII.1 INTRODUCTION
Les problèmes d’estimation sont fréquents aussi bien dans la vie de tous les jours que dans le
monde des sciences, de gestion, etc. En effet, avant de traverser la rue maintenant, nous devons estimer
la vitesse de l’auto qui arrive, la distance qui nous sépare de cette auto, et le temps qu’il nous faut pour
traverser cette rue. Sur la base de ces estimations, nous décidons de traverser la rue maintenant, ou
d’attendre que l’auto soit passée.
Un gérant des ventes doit pouvoir régulièrement prévoir les ventes des mois à venir pour être en
mesure de répondre à la demande, etc.
D’une manière générale, on procède de la façon suivante face à une population dans laquelle on
étudie un certain caractère X, on suppose comme la forme de la distribution de X (il peut s’agir par
exemple d’une distribution de Poisson ou normale), mais la (ou les) valeur(s) d’un (ou plusieurs)
76
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
paramètre(s) de cette distribution est (sont) inconnue(s).On distingue par le paramètre inconnu ; il peut
s’agir, par exemple, du paramètre d’une distribution de Poisson.
Eventuellement, si la distribution renferme plusieurs paramètres inconnus, peut représenter un
vecteur, ainsi dans le cas d’une distribution normale, si μ et 2 sont inconnus, on a = (μ, 2).
Pour estimer , on tire un échantillon aléatoire dans la population, et à l’aide de l’information ainsi
obtenue, on détermine la valeur qui servira comme estimation de la valeur du paramètre inconnu.
L’estimation ponctuelle permet d’obtenir une valeur numérique spécifique qui sera prise comme
valeur du paramètre inconnu. Par exemple, pour estimer la moyenne μ d’une population, il semble assez
∑𝑋
naturel d’utiliser la statistique 𝑋̅ = 𝑖 qui est la moyenne de l’échantillon. Cette statistique X est une
𝑛
variable aléatoire, et sera appelée estimateur ; pour une réalisation particulière (x1, x2,…, xn) de
l’échantillon aléatoire, elle prendra une valeur numérique x qui sera utilisée comme estimation de la
valeur du paramètre μ inconnu.
En principe, pour estimer un paramètre inconnu dans une population, on peut choisir n’importe
quelle statistique. Cependant, en pratique, il est bien évident que l’estimateur ne sera pas choisi de façon
quelconque car on veut avoir au moins la certitude qu’un estimateur ne nous donnera pas des estimations
trop éloignées du paramètre .
Pour qu’un estimateur puisse fournir de « bonnes estimations », il doit posséder certaines
qualités. On est ainsi amené à définir un estimateur non biaisé, convergent, efficace et exhaustif.
Propriété 1
a) La moyenne défini par X d’un EAS est toujours un estimateur sans biais de μ car E ( X ) = μ.
b) Si s2 désigne la variance d’un EAS prélevé dans une population de variance 2 , on constate que E (s2)
𝛿 2 ce qui signifie que s² est un estimateur biaisé de 2 dont le biais vaut :
n −1 2 2
( )
B s =
2
n
− = −
2
n
Puisque B (s²) tend vers zéro quand n tend vers l’infini, on dit dans ce cas que s² est un estimateur
asymptotiquement sans biais.
77
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
(x )
2
Par ailleurs, si l’on considère la variance corrigée de l’EAS définie par S 2 = ns = 1
2
− x , on
n −1 n −1
i
i
Propriété 2
T est un estimateur convergent pour si, à mesure que la taille de l’échantillon augmente, T tend à prendre
une valeur de plus en plus rapprochée de ,
Propriété 3
T est l’estimateur le plus efficace de s’il est non biaisé, et si sa variance est au moins aussi petite que celle
de tout autre estimateur T’ non biaisé de , c’est-à-dire :
1°) E(T) = ,
2°) Var (T) Var (T’), pour tout autre estimateur non biaisé T’ de .
Propriété 4
T est un estimateur exhaustif de si T résume toute l’infirmation contenue dans l’échantillon qui est
pertinente à .
Pour la loi normale de moyenne connue 𝜇, la statistique 𝑇 = ∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 est exhaustive pour 𝛿 2
VII.1.2 Estimation par intervalle de confiance
L’estimation par intervalle de confiance permet de construire un intervalle ℓ1, ℓ2 à l’intérieur
duquel la valeur du paramètre a de grandes chances de se trouver. Si l’on connaît la distribution de
probabilité de l’estimateur utilisé, on pourra calculer la probabilité de cet intervalle aléatoire, appelé
intervalle de confiance, englobe la vraie valeur du paramètre . On est ainsi en mesure d’exprimer
explicitement la marge d’erreur associée à l’utilisation d’un estimateur ponctuel
Le tableau suivant est un tableau récapitulatif des intervalles de confiance pour la moyenne
𝜇 d’une population :
Taille de
Population Connu Inconnu
l’échantillon
78
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
𝑛 ≥ 30
X Z1− x X Z1− ˆx
Distribution non 2 2
normale
𝑛 < 30 X K X Cas non traité
( )
P X − K X 1 −
1
K2
= 1−
Dans le cas d’une population finie, on multiplie ˆX par le facteur de correction.
Population infinie
p Z1−
(
p 1− p )
2 n
On peut être amené à comparer deux populations ou plus précisément deux paramètres de
même nature dans ces populations (par exemple, les moyennes, les proportions, les variances de deux
populations). Pour l’estimation de (𝜇1 − 𝜇2 ) on aura deux cas à savoir :
Cas 1 : On supposera que l’on a affaire à deux populations distinctes dont on tire indépendamment un
échantillon 𝑛1 dans la première et un échantillon de taille 𝑛2 dans la deuxième. La moyenne et la variance
de la première population sont 𝜇1 et 𝜎12 ; et celles de la deuxième population sont 𝜇2 et 𝜎22
L’intervalle de confiance au niveau (1 – α) pour la différence ( 1 − 2 ) sera donc :
79
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Normale ou
(X 1 )
− X 2 Z1−
2
12
n1
+
22
n2
(X − X ) Z
1 2 1−
2
ˆX − X
1 2
(X − X ) Z
1 2 1−
s12 s22
+
n1 n2
n1 30 et n2 30 2
Normale petits
Cas non traité (X − X ) t
1 2 ˆX
1−X2
Cas non traité
échantillons 2
X 1 et X 2 sont les moyennes des échantillons tirés dans la première et la deuxième population
respectivement Z1− est une valeur de la distribution normale centrée réduite. L’erreur-type estimée est
2
donnée par :
Cas 2 : On supposera qu’on a une même population où l’on a observé deux variables à partir d’échantillon
dépendants (X1,….Xn) et (Y1,…, Yn) tirés de cette population. Lorsque la différence D = X - Y dans la
population suit une distribution normale, l’intervalle de confiance au niveau (1 – α) pour la différence (
X − Y ) des moyennes est de la forme :
(Di − D )
2
D t où Di = X i − Yi , i = 1,...., n
n(n − 1)
2
̅ = ∑ 𝐷𝑖 ⁄𝑛 et 𝑡𝛼/ est une valeur de la distribution de Student à (n – 1) degrés de liberté.
𝐷 2
EXERCICES RESOLUS
1. Dans le cadre d’un projet collectif, les étudiants inscrits à un concours du soir ont décidé d’évaluer la
distance moyenne que doivent parcourir les étudiants pour rendre à l’Université qu’ils fréquentent.
Pour un échantillon aléatoire de 100 étudiants, ils ont recueillis les donnés suivantes :
80
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
X ni
0-5 5
5 - 10 15
10 - 15 25
15 - 20 30
20 - 25 20
25 - 30 5
a) Donnez une estimation ponctuelle de la distance moyenne μ que doivent parcourir ces étudiants.
b) Donnez une estimation ponctuelle de l’écart type de X.
c) Construire un intervalle de confiance au niveau 95% pour la distance moyenne.
Solution
Comme on veut estimer μ, on prendra comme estimateur la moyenne de cet échantillon et la valeur x
(moyenne de l’échantillon) sera une estimation ponctuelle de μ et comme estimation de l’écart-type, on
prendra la valeur de l’écart-type corrigé de l’échantillon.
D’où le tableau suivant :
X ni Xc ni Xc (X c −x ) (X c )
−x ² ( )
ni X c − x ²
a) x =
ni X c =
1.550
= 15,5
n 100
En moyenne, la distance que doivent parcourir ces étudiants sera de 15,5 km.
ni (xc − x )
2
81
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
3.850
s= 6,24 km
100 − 1
a) Au niveau de 95%, μ appartiendra à l’intervalle de confiance x Z1− 0, 025ˆX où Z 0,975 = 1,96 et
S 6,24
ˆX = = = 0,624.
n 100
Ainsi, l’intervalle de confiance sera donc
15,5 1,96 ; 0,624 = 14,28km ; 16,27km
2. Vous voulez estimer la température maximale moyenne qu’il fait dans la ville de Kinshasa la journée
du 04 juin. Vous choisissez donc un échantillon aléatoire de 5 communes et relevez la température
maximale enregistrée lors de cette journée en chacun de ces endroits.
Voici les données que vous obtenez :
N° Commune 01 02 03 04 05
Vous décidez alors de construire un intervalle de confiance à 95% pour la température moyenne dans la
ville de Kinshasa. Qu’est-ce que vous pouvez obtenir si on fait l’hypothèse de la normalité de temperature
dans la ville de Kinshasa ?
Solution
32 2,8 7,84
27 - 2,2 4,84
33 3,8 14,44
23 - 0,2 0,04
25 - 4,2 17,64
146 44,8
x= = 29,2 et s = = 3,35
5 5 −1
s N −n
La valeur estimée de l’erreur type est ˆX =
n N −1
82
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
3,35 24 − 5
Donc, ˆX = 1,36
5 24 − 1
N = 24 pour signifier qu’il y a 24 Communes dans la Ville de Kinshasa (population finie). Si nous supposons
que les températures se distribuent normalement, l’intervalle de confiance sera donc :
x − t ; n −1
.ˆX x + t ˆ
; n −1 X
2 2
3. Un étudiant veut savoir s’il vaut la peine de se porter candidat à la présidence des étudiants de son
Université. Un échantillon de 50 étudiants a montré que 22% des étudiants voteraient pour lui. Estimer
le véritable pourcentage à un niveau de confiance de 99%. Si l’on exige de vous une marge d’erreur
qui n’excède pas 3% et un niveau de confiance de 99%, que doit être le nombre minimal d’étudiants
que vous devez interroger pour respecter les conditions imposées ?
Solution
'
p − 2,58
(
p' 1 − p'
; p + 2,58
' )
p' 1 − p'
( )
n n
où p’ représente la proportion des étudiants favorables à notre étudiant dans l’échantillon.
Pour l’échantillon particulier obtenu où p’ = 0,22, l’intervalle aléatoire sera :
0,22(1 − 0,22)
0,22 2,58 = 0,0677;0,3722
50
Pour un niveau de confiance de 99%, le véritable pourcentage en sa faveur se situera entre 6,78% et 37,22%
(il n’y a aucune évidence quand à sa réussite à cette élection).
Pour un niveau de confiance de 99%, cette marge sera 2,58 . p = 0,03, de là, on tire l’erreur type :
0,03
p = = 0,0116
2,58
p ' (1 − p ' )
Puisque p = , on peut tirer la taille de l’échantillon n, donc :
n
83
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
0,22(1 − 0,22)
0,0116 =
n
(0,0116)2 =
0,1716
et n = 1275,2675
n
On doit donc interroger au moins 1.275 étudiants pour respecter les conditions imposées.
4. D’un échantillon de 144 familles tiré dans la ville X, on a calculé que la moyenne des revenus était de
14.000 dollars avec un écart type de 1.500 dollars. D’un échantillon de 225 familles tirés dans la ville Y,
on a calculé que la moyenne des revenus était de 13.500 dollars, avec un écart type de 1.500 dollars.
Estimez à l’aide d’un intervalle de confiance au niveau de 95% la différence entre la moyenne des
revenus dans ces deux villes. On suppose que les variances de deux populations ne sont pas égales.
Solution
Puisque les échantillons sont grands et que les variances 12 et 22 sont inconnues mais supposées
différentes, l’intervalle de confiance pour (μ1- μ2) aura la forme au niveau de 95% :
S2
( ) S2
X 1 − X 2 1,96 1 + 2
144 225
Pour les réalisations particulières obtenues, on a observé x1 = 14.500 dollars, x 2 = 13.500 dollars, s2 =
1.500 dollars et s2 = 1.500 dollars.
L’intervalle de confiance prend alors les valeurs :
1.500 2 1.500 2
(14.000 − 13.500 ) 1,96 +
144 225
5. On veut comparer le résultat X obtenu par des étudiants d’une Université pour le cours de statistique
avec le résultat Y obtenu par ces mêmes étudiants pour le cours de mathématique. A cette fin, on
choisit un échantillon aléatoire de 5 étudiants dans le groupe pour lesquels on compare les résultats
obtenus en statistique avec ceux obtenus en mathématique. On a observé (il s’agit des résultats sur
20) :
Etudiant A B C D E
84
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Résultat en statistique 15 13 17 14 18
Résultat en mathématique 12 10 14 13 15
Construire un intervalle de confiance pour la différence entre les résultats moyens en statistique et les
résultats moyens en mathématique pour ce groupe d’étudiants au niveau de 95%.
Solution
di
peut calculer les différences di = xi - yi, la différence moyenne observée d =
5 ainsi que l’écart type
(d i − d )
2
A 15 12 3 0,4 0,16
B 13 10 3 0,4 0,16
C 17 14 3 0,4 0,16
D 14 13 1 -1,6 2,56
E 18 15 3 0,4 0,16
d i = 13 3,20
13 3,2
d= = 2,6 et S D = = 0,4
5 5(4)
Pour ces échantillons particuliers observés, l’intervalle de confiance au niveau de 95% prendra les valeurs :
d t 0 , 025; 4
.0,4 = 2,6 2,776 .0,4
= 1,4896; 3,7104
On peut donc affirmer qu’au niveau de confiance de 95% la différence entre le résultat moyen des
étudiants pour la statistique et le résultat moyen de ces mêmes étudiants pour la mathématique est dans
l’intervalle 1,4896 ; 3,7104 Cette différence positive indiquant que les résultats obtenus en statistique
sont plus élevés que ceux obtenus en mathématique.
85
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
CHAPITRE VIII
Quand vous avez éliminé l’impossible, ce qui reste, même improbable, doit être la
vérité.
86
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
A. CONAN DOYLE
ENTREE EN MATIERE
En effet, toute analyse statistique d’un ensemble de données passe, à un moment ou un autre,
par des hypothèses. Le recteur d’une Université peut affirmer que la taille moyenne des étudiants est de
1,70 m, des impressions personnelles peuvent nous amener à penser que le pouvoir d’achat est plus faible
aujourd’hui qu’il y a dix ans. La question se pose dès lors de tester la validité d’une telle hypothèse.
D’une façon générale, une hypothèse est un énoncé concernant une population. Une hypothèse
peut être paramétrique ou non paramétrique, selon qu’il s’agit ou non d’un énoncé quantitatif concernant
la ou les valeur(s) possibles du paramètre d’une population.
On parle de tests d’hypothèses paramétriques lorsque les hypothèses portent sur un ou des
paramètres, et des tests d’hypothèses non paramétriques lorsque les hypothèses portent par exemple
sur la forme de la distribution de X.
Un test d’hypothèse implique deux hypothèses. Il y a d’abord une hypothèse de base au sujet de
θ, que l’on note Ho, et que l’on a appelle hypothèse nulle. Ho est l’hypothèse que l’on ne devrait pas rejeter
à moins d’avoir suffisamment d’évidence contre elle. Et cette évidence est fournie par l’information
contenue dans l’échantillon aléatoire.
Le problème se pose comme suit : à partir du résultat d’un échantillon, on doit dire si cet
échantillon provient d’une population dont les caractéristiques coïncident avec l’hypothèse de base, ou
s’il provient d’une population ayant d’autres caractéristiques.
Le test sera significatif si l’écart constaté entre l’hypothèse de base et l’image de la réalité fournie
par l’échantillon est plus grand que ce que l’on peut considérer comme le simple produit des fluctuations
aléatoires. Le niveau de signification du test détermine la grandeur de l’écart qui peut être attribuée à ces
fluctuations. Lorsque le test est significatif, on rejette Ho. Si l’on rejette Ho, il doit donc y avoir une autre
hypothèse qui est acceptable concernant la valeur de θ. On est ainsi amené à formuler une deuxième
hypothèse relativement à la valeur de θ, cette deuxième hypothèse, que l’on note H1, est appelée
hypothèse alternative.
87
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Hypothèses Test
𝐻0 : 𝜇 = 4 simple unilatéral
𝐻1 : 𝜇 = 6 simple
88
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
𝐻0 : 𝜇 = 4 simple unilatéral
𝐻1 : 𝜇 > 4 composée
𝐻0 : 𝜇 = 4 simple bilatéral
𝐻1 : 𝜇 ≠ 4 composée
2. Préciser les conditions du test : il s’agit ici des conditions de base qui président au processus du test. Ces
conditions concernent principalement la distribution de la population. De plus, on suppose que
l’échantillon tiré est un échantillon aléatoire simple, et il peut parfois être important de préciser la taille
de cet échantillon puisque cette taille peut avoir une influence sur la distribution de la statistique
utilisée dans le test.
3. Spécifier la statistique utilisée et sa distribution : exemple, pour un test sur une moyenne, on recours à la
statistique T = X , sous certaines conditions cette statistique X suit une distribution normale de
moyenne μ et de variance
2
n.
4. Déterminer la région critique au niveau de signification α : Une fois spécifiée la statistique T utilisée dans
le test, on détermine l’ensemble des valeurs possibles de l’échantillon ou de cette statistique qui va
entraîner le rejet de Ho.
5. Prendre une décision : Pour faire un choix entre Ho et H1, on compare la valeur observée pour la statistique
avec la valeur critique. Si la valeur observée appartient à la région critique, on rejette Ho, et dans le cas
contraire on l’accepte.
6. Calculer si possible la puissance du test (1–β) ou encore la probabilité β de deuxième espèce.
89
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
▪ Statistique :
(X − ) de distribution normale centrée réduite.
n
▪ Règle de décision :
Test 1: RHo si Z c − Z1− ou Z c Z1−
2 2
0 est la valeur hypothétique de µ et Z1− et Z1− sont des valeurs de la normale (0,1).
2
▪ Statistique :
(X − ) de distribution normale centrée réduite.
S
n
x−
▪ Règle de décision : idem pour le cas 1 sauf que Z c = où s est la valeur observée pour l’écart
s
n
type S de l’échantillon.
Cas 3 : 2 inconnue, population normale, n < 30
▪ Statistique :
(X − ) de distribution du t de Student à (n – 1) degrés de liberté.
S
n
▪ Règle de décision :
Test 1: RHo si tc −t ou t c t
2 2
où tc =
(x − ) , x et s sont les valeurs observées pour X et S, et t et t
0
sont des valeurs de la
s 2
n
distribution du t à (n – 1) degrés de liberté.
90
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Ces différents tests sont aussi valables pour le sondage de type PESP. En conséquence, dans le
N −n s N −n
modifié ou
n N −1 n N −1
VIII.3.2 Test sur une proportion
▪ Statistique :
(X − p ) de distribution normale centrée réduite.
pq
n
▪ Règle de décision :
Test 1: RHo si Z c − Z1− ou Z c Z1−
2 2
n
valeurs de la normale (0,1).
Il est question ici de comparer les paramètres de deux populations dont on étudie une variable
commune.
Cas 1 : On suppose que l’on a affaire à deux populations distinctes de moyennes μ1 et μ2 et de variances
91
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
D
T= de distribution normale centrée réduite.
222
+ 1
n1 n2
a) Populations normales :
- Si 1 = 22
2
D
T* = de distribution du t de Student à (n1 + n2 -2) degrés de liberté.
n1S12 + n2 S22 1 1
+
n1 + n2 − 2 n1 n2
- Si 1 22
2
T = D
S12 S22
+
n1 n2
2
S12 S22
+
de distribution du t de Student à n1 n2 −2
2
S12 1 S22 1
+
1 1
n n + 1 n2 n2 + 1
degrés de liberté.
b) Populations quelconques mais n1 ≥ 30 et n2 ≥30.
D
T= de distribution normale centrée réduite.
S12 S22
+
n1 − 1 n2 − 1
▪ Règle de décision :
92
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
t ou t sont des valeurs de la distribution du t de Student à (n1 +n2 - 2) degrés de liberté et Z1− et
2 2
A l'usage, on constate que tenir compte de l'inégalité des variances n'est vraiment déterminant
que pour les effectifs déséquilibrés c’est-à-dire avec 𝑛1 très différent de 𝑛2 . Certains auteurs précisent
même que l'on devrait toujours utiliser la variante pour variances inégales dès que 𝑛1 et 𝑛2 sont très
différents, quand bien même le ratio entre la plus grande et la plus petite variance n'excéderait pas 1,5.
Procéder préalablement à un test de comparaison de variances pour choisir la procédure adéquate de
comparaison de moyennes est illusoire dès lors que les effectifs sont déséquilibrés.
Cas 2 : On suppose qu’on a une même population où l’on a observé deux variables à partir d’échantillons
dépendants (x1,…... xn) et (y1,…, yn) tirés de cette population.
D= i SD = i = 1,…, n.
n(n − 1)
i i i
n
▪ Règle de décision :
Test 1: RHo si tc − t ou tc t
2 2
valeurs de la distribution du t à (n – 1) degrés de liberté. Si la taille n de deux échantillons est assez grande
(n ≥ 30), on peut utiliser la distribution normale centrée réduite comme approximation de la distribution
du t à (n – 1) degrés de liberté dans les tests précédents.
93
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
EXERCICES RESOLUS
1. Le propriétaire de « Pain Victoire » affirme que le nombre des cakes vendus quotidiennement est de
1500. Un employé veut vérifier l’exactitude de l’affirmation de son patron. La moyenne d’un échantillon
de 36 jours est de 1450 cakes vendus par jour. En utilisant un seuil de signification de 1% et en supposant
que l’écart type dans la population est 120 cakes, que devrait être la conclusion de l’employé ?
Solution
Puisque Zc = -2,5 se situe entre -2,58 et 2,58, l’hypothèse nulle est acceptée au seuil de signification de 1%.
Conclusion : Le propriétaire n’a pas tort de dire que le nombre des cakes vendus par jour est de 1.500
cakes.
2. Le directeur d’une Compagnie croit que les dépenses de voyage de ses représentants ne devraient pas
excéder 1700 dollars par voyage. L’étude des dépenses occasionnées par 10 voyages choisis au hasard
lui relève les données suivantes (en dollars) :
Au seuil de signification de 0 ,05 ; la moyenne des dépenses par voyage est-elle trop élevée ?
Solution
94
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Le seuil de signification est de 0,05 et n= 10 (un petit échantillon) et est inconnu ; nous devons
supposer que la distribution des dépenses est une distribution normale et utiliser la distribution t de
Student pour faire le test.
x − 1.700
Le rapport critique Tc sera donc égal , d’où le calcul de x et s (écart type de l’échantillon) se
s
10
fera comme suit :
x x– x (x − x )
2
17.084 9.896,4
x= = 1.708,4 et s = = 33,16
10 10 − 1
1.708,4 − 1.700
Ainsi, tc = = 0,801
33,16
10
Décision : Le test étant bilatéral, la valeur t0,05 ; 9 = 1,833 puisque tc = 0,801 < 1,833, on doit
accepter Ho. La moyenne des dépenses par voyage n’est pas aussi exagérée que ne le croit le
directeur.
Solution
95
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Le test est unilatéral à droite parce que le laboratoire ne s’intéresse qu’à déterminer si le pourcentage
réel est supérieur à ce qu’il croit. Le risque de première espèce α = 0,01 et l’échantillon étant
suffisamment grand n = 100, la distribution normale centrée réduite est à utiliser.
Le rapport critique Z c =
x 0 − p0 7
avec x 0 = = 0,07 et p0 = 0,05
p0 (1 − p0 ) 100
n
0,07 − 0,05
Ainsi Z c = = 0,917
0,05(1 − 0,05)
100
Décision : Le test étant unilatéral à droite, la valeur lue sur la normale centrée réduite Z0,01= 2,33.
Puisque Zc = 0,917 < 2,33, nous acceptons l’hypothèse nulle et concluons que la machine fonctionne
bien.
6. Une chaîne de magasins possède les succursales A et B ces dernières années, la succursale A a investi
plus d’argent que la succursale B pour promouvoir la vente d’un certain article. La chaîne veut
maintenant déterminer si cette publicité a entraîné des ventes plus élevées à la succursale A. Pour un
échantillon de 36 jours, le nombre moyen d’articles vendus quotidiennement fut de 170 à la succursale
A, tandis qu’à la succursale B, cette moyenne, pour un échantillon de 45 jours, fut de 165. En supposant
que les écarts types d’articles vendus pour les succursales A et B sont respectivement 6 et 5, que
pouvons-nous conclure, à partir d’un test effectué à un seuil de signification de 5% ?
Solution
96
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
Diète B 3,32 3,05 3,75 3,18 3,00 3,09 4,18 3,45 2,68
Au seuil de signification de 5%, y a-t-il une différence significative dans le gain de masse entre les deux
groupes ?
Solution
Ho : μA = μB contre H1 : μA ≠ μB
Echantillon A Echantillon B
xA (x A − xA ) (x A − xA )
2
xB (x B − xB ) (x B − xB )
2
21,12 23,70
xA = = 2,64 xB = = 2,633
8 9
3,7814 1,5952
S A2 = = 0,5402 S B2 = = 0,1994
8 −1 9 −1
La valeur observée pour t de Student est de :
tc =
(x A )
− x B − ( A − B )
avec x A − x B = 2,64 − 2,633 = 0,007
ˆx A − x B
et ˆx =
(8 − 1)(0,5402) + (9 − 1)(0,1984) 1 + 1 = 0,29
A −xB
8+9−2 8 9
97
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
0,007 − 0
tc = = 0,024
0,29
On doit utiliser la distribution t avec un nombre de degré de liberté égal à : 9+8-2 = 15 et
0,05
= 0,025 =
2 2
t0,025;15 = 2,131
Décision : Puisque 0,024 < 2,131, nous devons accepter l’hypothèse nulle, donc le gain de masse
moyen avec la diète A est égal au gain de masse moyen avec la diète B au seuil de 0,05.
4. On veut comparer le résultat X obtenu par un groupe d’étudiants dans une université pour le
cours de statistique suivi au premier semestre avec le résultat Y obtenu par ces mêmes étudiants
pour le cours de mathématique suivi au deuxième semestre. A priori, on n’a pas de raison de croire
que, en moyenne, ces étudiants réussiront mieux ou moins bien en statistique qu’en
mathématique. Pour faire cette comparaison, on choisit 5 éléments au hasard dans le groupe, et
l’on note leurs résultats en statistique et en mathématique (les résultats sont côtés sur 100).
Etudiant A B C D E
Résultat en statistique 74 66 89 73 90
Résultat en mathématique 64 54 70 67 77
Sur la base de ces résultats, peut-on dire qu’il y a une différence significative entre les cotes obtenues
en statistique et en mathématique au niveau de 5% ? On supposera que la différence des cotes est
distribuée normalement.
Solution
d −0
Le rapport critique tc = , il est obtenu comme suit :
SD
xi yi di di – d (d i −d )
2
74 64 10 -2 4
66 54 12 0 0
98
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
89 70 19 7 49
73 67 6 -6 36
90 77 13 1 1
Total 60 – 90
60 90
d= = 12 SD = = 2,12
5 4(5)
12 − 0
Ainsi tc = = 5,66 et la valeur critique lue dans la table de Student avec = 0,025 et dl = 4
2,12 2
donne 2,776.
Décision : Comme 5,66 > 2,776, on rejette Ho et l’on admet qu’il y a une différence significative dans les
résultats au niveau de 5%.
99
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
100
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.
101