0% ont trouvé ce document utile (0 vote)
40 vues101 pages

Notes de Cours

Le document présente un cours de statistique axé sur l'importance de la statistique dans la prise de décision et l'analyse des données. Il définit la statistique, ses branches (statistique descriptive et inférence statistique), et les concepts de population et d'échantillon. Le cours aborde également la collecte et l'organisation des données, en distinguant entre données primaires et secondaires.

Transféré par

luambamarcel6
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
40 vues101 pages

Notes de Cours

Le document présente un cours de statistique axé sur l'importance de la statistique dans la prise de décision et l'analyse des données. Il définit la statistique, ses branches (statistique descriptive et inférence statistique), et les concepts de population et d'échantillon. Le cours aborde également la collecte et l'organisation des données, en distinguant entre données primaires et secondaires.

Transféré par

luambamarcel6
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Professeur Karim OMONGA

COURS DE STATISTIQUE

1ère EDITION

2020-2021

1
COURS DE STATISTIQUE

A
STATISTIQUES DESCRIPTIVES

2
COURS DE STATISTIQUE

INTRODUCTION

O.1. Importance de la statistique


La faim, la pauvreté des millions d’êtres humains, la malnutrition, la délinquance juvénile,
l’inflation, le chômage, la mortalité infantile sont autant de problèmes auxquels les institutions
publiques doivent trouver des solutions. Ces problèmes sont des catégories objectives. Ils sont
hors du sujet à qui incombe la responsabilité de les résoudre. Ils peuvent être observés puis
analysés afin de trouver l’ordre naturel ou l’ordre matériel qui détermine leur fréquence.
Pour le décideur, l’homme de science, le chef d’entreprise, l’autorité politique et
administrative, et le praticien en général, il est donc indispensable de saisir les faits, de
découvrir les lois qui guident leur comportement, et d’utiliser cette connaissance pour prendre
de meilleures décisions. Ainsi par exemple, le chef d’entreprise d’une brasserie apprendra que
les ventes de bière ont tendance à baisser d’un certain pourcentage à certaines périodes de
l’année. Il pourra ainsi éviter de constituer des stocks supplémentaires en planifiant le volume
de production en tenant compte de cette information.
La statistique est l’ensemble de méthodes utilisées par ce chef d’entreprise pour collecter
les données des ventes par mois ou par semaine, de les organiser afin de faciliter leur analyse,
et de découvrir la loi qui explique le comportement des ventes à travers le temps.
L’étude statistique est aussi utile pour le gestionnaire d’entreprise qui doit être
continuellement informé sur l’évolution des prix des produits de son entreprise et de ceux des
produits substituables et complémentaires, le niveau de production et la part de marché de son
entreprise, ses coûts d’exploitation, les grandeurs économiques qui influencent l’activité de
l’entreprise (revenu moyen au niveau national, régional ou local ; taux d’intérêt sur les marchés
financiers ;valeurs boursière ; etc.).
Le mot statistique – de l’italien « statista », homme d’État –désignait à l’origine la collecte
et l’évaluation des données concernant un État. Cette science de l’État était une représentation
purement descriptive de faits géographiques et sociaux comme le climat, la population, les
coutumes, les organisations économiques, etc…, à l’usage des hommes d’État ; à l’époque en
France le roi et son conseil. Dès la plus haute Antiquité, les dirigeants ont fait procéder à des
enquêtes sur la population : l'Empereur Yao (vers 2200 av. J.-C.) pour connaître les productions
agricoles, les pharaons égyptiens (dès 1700 av. J.-C.), l'Empereur Auguste à Rome pour le
nombre de soldats, les revenus des citoyens.
Nous trouvons également de multiples exemples d’utilisation de statistiques dans les
sciences :
• Johannes Kepler (1571-1630) formula ses lois sur les mouvements des planètes en
utilisant l’ensemble des données récoltées par l'astronome danois Tycho Brahe (1546-1601).
• Les premières études statistiques de Florence Nightingale, infirmière anglaise durant la
guerre de Crimée de 1854 à 1856 permirent d'identifier les causes de mortalités des soldats et
conduisirent à l'amélioration des conditions d'hygiène des hôpitaux militaires anglais.
Aujourd'hui, cette partie des mathématiques a pris une grande place grâce aux nouvelles
techniques et à la puissance des ordinateurs. Géographie, médecine, sciences humaines,
sciences économiques, biologie, politique, aucun domaine n'est épargné. Dans la recherche
médicale, la vérification de l’efficacité d’une nouvelle pratique médicale ou d’un nouveau produit
pharmaceutique fait largement usage de tests statistiques qui consistent à décider si l’écart de
performance entre deux échantillons tirés d’une même population ou de deux populations
indépendantes (l’un des deux échantillons étant le groupe de contrôle) est dû au hasard ou est
l’effet de la nouvelle pratique ou du nouveau médicament sur le groupe actif.

3
COURS DE STATISTIQUE

0.2 Définition de la statistique


Il y a trois acceptions pour le terme « statistique ». En effet, on entend souvent dire « les
statistiques ne sont pas fiables », ou « la connaissance de la statistique est indispensable pour
un économiste », ou encore « la statistique t de Student calculée est supérieure à la statistique
de la table ».
Notons que :

Les statistiques : au pluriel, le terme « statistique » signifie les données collectées par divers
services privés ou publics. Exemple : les (données) statistiques du commerce extérieur. Les
données ainsi collectées représentent des faits observables.

La statistique : au singulier, le terme « statistique » signifie la méthode de collecte,


d’organisation, et d’analyse des données.

Une statistique : dans ce cas, le terme « statistique » signifie une quantité calculée à partir
de données d’un échantillon. Exemple : la moyenne arithmétique (𝑋 ̅ ) la statistique t de
Student.

0.3 Branches de la statistique


Il y a deux branches dans la méthode statistique : la statistique descriptive et la statistique
mathématique ou inférence statistique (ou statistique inductive). Avant d’expliquer la différence
entre ces deux branches de la méthode statistique, il est important de souligner la différence
entre la population et l’échantillon. Commençons par quelques exemples pour montrer la
différence entre les deux concepts. Il est recommandé à l’étudiant de chercher d’autres
exemples.
Exemple 0.1 : Le tableau 0.1 présente la distribution par secteur d’activité du Produit Régional
Intérieur Brut (PRIB) de la ville de Surabaya (Indonésie) pour les années 1985 et 1990 aux
prix de 1983.

Tableau 0.1 : Distribution du PRIB de la ville de Surabaya (Indonésie), 1985-1990 aux prix
de 1983 (%)

Secteur 1985 1990


Secteur primaire 1,50 0,72
Agriculture 1,29 0,62
Extraction minière 0,20 0,11
Secteur secondaire 28,83 29,61
Industrie manufacturière 19,54 18,61
Electricité, gaz et eau 2,28 2,31
Construction 7,01 8,69
Secteur tertiaire 69,67 69,67
Commerce, hôtels et restaurants 28,13 26,96
Transport et communications 13,05 12,52
Services financiers 8,77 14,55
Autres services 6,88 6,09
Revenus locatifs 6,30 4,62
Services publics 6,54 4,93
Produit Régional Intérieur Brut 100,00 10,000

Source : Municipalité de Surabaya, Service de Statistique, Annuaire Statistique de


Surabaya 1991,

4
COURS DE STATISTIQUE

L’exemple 0.1 appartient au domaine de la statistique descriptive. Il décrit la distribution


du PRIB de la ville de Surabaya (Indonésie) par secteur d’activité. Aucune inférence n’est faite
sur base de ces données. Les données du tableau peuvent être représentées graphiquement
de plusieurs manières, selon les besoins de l’étude (Figure 0.1). La Statistique descriptive se
définit comme l’ensemble de méthodes pour organiser et synthétiser les données statistiques.
Ces méthodes portent sur la classification des données, leur représentation graphique, le calcul
des mesures de synthèse (par ex. mesures de tendance centrale et mesures de dispersion),
l’analyse de la corrélation.
Figure 0.1
Distribution du PRIB de la ville de Surabaya par branche d'activité
Distribution du PRIB de la ville de Surabaya par en 1990 (en %)
secteur d'activité, 1985-1990 (en %)
4,93

6,09 4,62 0,62


0,11 29,61
14,55
80
12,52
18,61

60

2,31
26,96
40 1985 8,69

1990 69,67
20

Agriculture Extraction minière Secteur secondaire


0 Industrie manufacturière Electricité, gaz et eau Construction
Secteur primaire Secteur Secteur tertiaire Secteur tertiaire Commerce,hôtels et restaurants Transports et communications
secondaire Services financiers Autres services Revenus locatifs
Services publics

Les exemples 0.2, 0.3 et 0.4 appartiennent au domaine de la statistique mathématique


(ou statistique inductive). Ainsi la Statistique mathématique se définit comme un ensemble de
méthodes visant à tirer des conclusions sur une population à partir de l’information obtenue
sur un échantillon. La statistique inductive est en fait une méthode de prise de décision dans
un environnement incertain car en n’observant que l’échantillon, les caractéristiques de la
population restent inconnues. En plus, l’inférence statistique repose sur le concept de
probabilité. Partant, toute décision statistique est prise en considérant une marge d’erreur et
l’on ne peut que déterminer, sur base d’un niveau de confiance donné, l’intervalle (intervalle
de confiance) qui contient la valeur inconnue d’une caractéristique de la population.
La méthode statistique inductive consiste à :
• Tirer l’échantillon ;
• Collecter les données concernant le phénomène étudié pour tous les éléments inclus
dans l’échantillon ;
• Calculer les mesures statistiques de description de l’échantillon (caractéristiques de
l’échantillon) ;
• Tirer des conclusions concernant la population sur base de caractéristiques de
l’échantillon (inférence statistique) ;
• Tester des hypothèses statistiques.

Les deux branches de la méthode statistique (statistique descriptive et statistique


inductive) sont liées. En effet, avant toute inférence statistique il faut utiliser les méthodes de
la statistique descriptive pour organiser les données de l’échantillon et calculer les mesures qui
résument l’information recueillie.

5
COURS DE STATISTIQUE

0.4 Quelques définitions


• Population : une population est l’ensemble des eléments auxquels se rapportent
les données étudiées. En statistique, le terme population s’applique à des ensembles
de toute nature : étudiants d’une académie, production d’une usine, poissons d’une
rivière, entreprises d’un secteur donné, etc. Dans une population donnée, chaque
élément est individu ou unité statistique. La collecte d’informations sur une
population peut être effectuée sur la totalité des individus ; on parle d’enquête
exhaustive. Une population doit toujours être clairement définie afin que l’on puisse
toujours déterminer si un élement quelconque fait ou non partie de la population
étudiée. On pourra ainsi étudier une caractéristique que possède chacun des
individus appelée variable statistique. Les différentes valeurs que peut prendre
une variable statistique sont les modalités de cette variable.

Lorsque la taille de la population étudiée est élevée, de telles enquêtes sont fort coûteuses
ou impossibles, et le cas échéant, leurs résultats sont très longs à rassembler. C’est la
raison pour laquelle on a souvent recours au sondage. Dans ce cas, l’étude se limite à un
échantillon, pris au hasard, à partir duquel on peut tenter de déduire une tendance pour
toute la population.

• Echantillon : ce le sous-ensemble de la population à partir duquel l’information


concernant la population est collectée. Un individu isolé n’est pas représentatif. Un
échantillon, par contre, est représentatif d’une population lorsqu’il permet de décrire
cette population dans son centre, mais aussi dans sa diversité.

• Données (statistiques) : le terme de données est très utilisé en statistique. Il


désigne l’ensemble des individus observés (ceux de l’échantillon), l’ensemble des
variables considérées et les observations de ces variables sur ces individus. Les
données sont en général présentées sous forme de tableaux (individus en lignes et
variables en colonnes) et stockées dans un fichier informatique.

Sexe Âge Revenu mensuel net


Individu 1 1 55 2068
Individu 2 2 44 4672
Individu 3 1 28 1941
Individu 4 1 32 2456

6
COURS DE STATISTIQUE

CHAPITRE I

DONNEES STATISTIQUES

Le savoir est le plus puissant des instruments de production ; c’est lui qui nous permet
d’asservir la nature et d’assouvir nos bésoins.

- Alfred MARSHAL -

ENTREE EN MATIERE
La statistique étant l’ensemble des méthodes de collecte, d’organisation, et d’analyse
des données, il est tout à fait normal que ce cours s’ouvre sur un chapitre portant sur la collecte
et l’organisation des données. Il y a deux catégories de données : les données primaires et les
données secondaires. Les données primaires sont celles collectées pour un but précis par/pour les
auteurs d’une étude statistique. Le meilleur exemple des données primaires est celui d’un
recensement de la population. Les données primaires offrent à l’utilisateur des données un
avantage important. Les données étant collectées pour fournir une information précise, elles sont
supposées répondre aux spécifications préalablement définies par l’utilisateur. Les données sont
dites secondaires lorsqu’elles sont collectées par une autre source que l’utilisateur et très souvent
pour répondre à des préoccupations différentes de celles de l’utilisateur. C’est notamment le cas
de données collectées par divers services publics pour des raisons purement administratives mais
qui peuvent être utilisées dans des études statistiques.
Le Cimetière de la ville tient un registre dans lequel sont consignées les données sur l’identité et
l’adresse de la personne décédée, ainsi que la date et la cause du décès. Ce registre peut servir
de source de données à un chercheur qui mène une étude statistique sur la mortalité. Les données
consignées dans ce registre sont, pour le chercheur, des données secondaires.
Les données secondaires doivent être utilisées avec grand soin car elles peuvent ne pas fournir
l’information exacte recherchée. En plus, très souvent les données provenant de sources
secondaires ne sont pas présentées sous une forme qui les rendrait immédiatement utilisables.
Elles doivent être réorganisées par l’utilisateur afin qu’elles fournissent l’information désirée.
Dans ce chapitre nous allons successivement examiner les méthodes de collecte des données
primaires et les méthodes d’organisation des données.

I.1 Collecte des données


Nous avons vu, dans l’introduction, que le champ d’étude de la statistique descriptive est
constitué par des groupes d’éléments appelés population (ou univers statistique) ou encore
échantillon. Les éléments constitutifs d’une population ou d’un échantillon sont généralement
appelés individus. Les données sont collectées auprès des individus sélectionnés pour l’étude.
Chaque individu appartenant à la population peut être observé par rapport à un ou plusieurs
de ses caractères. Par exemple, si un chercheur veut étudier le phénomène des accidents de
circulation dans la ville de Kinshasa, les individus sont les différents accidents de circulation. En
choisissant, par exemple, d’examiner les accidents survenus dans la ville entre Janvier 2015 et
Juin 2017, le chercheur vient de tirer un échantillon. En effet, dans ce cas, la population a une
taille infinie car elle est constituée de l’ensemble des accidents de circulation dans la ville de
Kinshasa sur une période indéterminée. Chacun de ces accidents est un individu constitutif de
l’échantillon et peut être examiné du point de vue de plusieurs caractères (Tableau 1.1).

Tableau 1.1: Illustration des notions de population, individu et caractère

7
COURS DE STATISTIQUE

Individus Caractère 1 Caractère 2 Caractère 3


Largeur de la route au
Nombre de personne
Nombre de véhicules impliqués
lieu de l’accident décédées dans l’accident

Accident #1 6,0 m 0 1
Accident #2 4,0 m 2 3
Accident #3 5,5 m 1 2

Ainsi, collecter les données revient à observer, compter, ou mesurer les individus par rapport aux
caractères examinés. Dans le Tableau 1.1 ci-dessus, les accidents de circulation (qui sont les
individus dans cette étude) sont examinés par rapport à 3 caractères : la largeur de la route au
lieu de l’accident ; le nombre de personnes décédées ; et le nombre de véhicules impliqués dans
l’accident. L’opération de collecte des données consiste donc à « croiser » chaque individu à chacun
des caractères étudiés.

I.2 Organisation des données


L’organisation des données est largement fonction de la typologie des variables. Mais qu’est ce
qu’une variable ? Une variable est un caractère qui prend des valeurs différentes selon les
individus. Soit une population P composée de n individus, la variable X prend les valeurs 𝑋𝑖 pour
i= 1, 2, …, n. L’ensemble des valeurs possibles ou des modalités est appelé le domaine de la
variable.

I.2.1 Typologie des variables


• Variable qualitative : La variable est dite qualitative quand les modalités sont des
catégories. Une variable qualitative peut être nominale ou ordinale.
Variable qualitative nominale : quand les modalités ne peuvent pas être ordonnées (couleur
des yeux : marron, vert, bleu) ;
Variable qualitative ordinale : quand les modalités peuvent être ordonnées (type de voiture :
aucune, petite, moyenne, grande) 1

• Variable quantitative : une variable est dite quantitative si toutes ses valeurs
possibles sont numériques. Une variable quantitative peut être discrète ou continue.

Variable quantitative discrète : si l’ensemble des valeurs possibles est dénombrable (nombre
des enfants dans une famille)
Variable quantitative continue : si l’ensemble des valeurs possibles est continu2 (taille, poids)

I.2.2 Série statistique


On appelle série statistique la suite des valeurs prises par une variable X sur les unités
d’observation. Le nombre d’unités d’observation est noté 𝑛 et les valeurs de la variable X sont
notées 𝑥1 , … , 𝑥𝑖 … , 𝑥𝑛 .

1 Le fait de pouvoir ou non ordonner les modalités est parfois discutable. Par exemple : dans les catégories
socioprofessionnelles, on admet d’ordonner les modalités : ouvriers, employés, cadres. Si on ajoute les
modalités « sans profession », « enseignant », « artisan », l’ordre devient beaucoup plus discutable.
2 Ces définitions sont à relativiser, l’âge est théoriquement une variable quantitative continue, mais en

pratique, l’âge est mesuré dans le meilleur des cas au jour près.

8
COURS DE STATISTIQUE

I.3 Variable qualitative nominale


I.3.1 Effectifs, fréquences et tableau statistique
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent être ordonnées. On note
J le nombre de valeurs distinctes ou modalités. Les valeurs distinctes notées 𝑥1 , … , 𝑥𝑗 … , 𝑥𝐽 . On
appelle effectif d’une modalité ou d’une valeur distincte, le nombre de fois que cette modalité (ou
valeur distincte) apparaît. On note 𝑛𝑗 l’effectif de la modalité 𝑥𝑗 . La fréquence d’une modalité est
l’effectif divisé par le nombre d’unités d’observations.
Exemple 2.1 : On s’intéresse à la variable « état-civil » notée X et à la série statistique des
valeurs prises par X sur 20 personnes. La codification est :

C Célibataire
M Marié(e)
V Veuf(ve)
D Divorcé(e)
Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique suivante :

M M D C C M C C C M
C M V D C C C M V M
On obtient le tableau statistique :

𝒙𝒋 𝒏𝒋 𝒇𝒋
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
𝒏= 20 1

Le tableau statistique d’une variable qualitatitative nominale peut être représenté par deux
types de graphique. Les effectifs sont représentés par un digramme en barres et les fréquences
par un diagramme en secteurs en secteurs.

10
9 Veuf(ve)
8 10%
7
6
Célibataire
5
Marié(e) 45%
4
35%
3
2
1 Divorcé(e)
0 10%
Célibataire Divorcé(e) Marié(e) Veuf(ve)

9
COURS DE STATISTIQUE

I.4 Variable qualitative ordinale


I.4.1 Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées comme 𝒙𝟏 < 𝒙𝟐 < ⋯ <
𝒙𝒋−𝟏 < 𝒙𝒋 (les notations 𝒙𝟏 < 𝒙𝟐 se lit 𝒙𝟏 précède 𝒙𝟐 ).

𝒋
Si la variable est ordinale, on peut calculer les effectifs cumulés : 𝑵𝒋 = ∑𝒌=𝟏 𝒏𝒌 , 𝒋 = 𝟏, … , 𝑱 et on
𝑵𝒋
peut également calculer les fréquences cumulées 𝑭𝒋 =
𝒏

Exemple 2.2 : On interroge 50 personnes sur leur dernier diplôme obtenu (variable Y). La
codification a été faite selon le tableau suivant :

Dernier diplôme obtenu 𝑥𝑗


Sans diplôme Sd
Primaire P
Secondaire Se
Supérieur non-universitaire Su
Universitaire U

Série statistique de la variable Y :

𝒙𝒋 Effectif 𝒏𝒋 𝑵𝒋 𝒇𝒋 𝑭𝒋
Sd 4 4 0.08 0.08
P 11 15 0.22 0.3
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00

Les fréquences et les effectifs d’une variable qualitative ordinale sont présentées au moyen
d’un diagramme en secteurs et d’un diagramme en barres respectivement.

Et les effectifs cumulés d’une variable qualitative ordinale sont représentées au moyen d’un
diagramme en barres.

10
COURS DE STATISTIQUE

I.5 Variable quantitative discrète


I.5.1 Le tableau statistique
Une variable discrète a un domaine dénombrable.

Exemple 2.2 : Un quartier est composé de 50 ménages et la variable Z représente le nombre


de personnes par ménage. Comme pour les variables qualitatives ordinales, on donne les
effectifs, les effectifs cumulés, les fréquences, les fréquences cumulées. On a donc le tableau
statistique suivant :

𝒙𝒋 Effectif 𝒏𝒋 𝑵𝒋 𝒇𝒋 𝑭𝒋
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.0

Quand la variable est discrète, les effectifs sont représentés par des bâtonnets.

Les fréquences cumulées sont représentées au moyen de la fonction de répartition. Cette


fonction est définie de R dans [0,1] et vaut :

11
COURS DE STATISTIQUE

𝟎 𝒔𝒊 𝒙 < 𝒙𝟏
𝑭(𝒙) = { 𝒋 𝒙𝒋 ≤ 𝒙 < 𝒙𝒋+𝟏
𝑭 𝒔𝒊
𝟏 𝒔𝒊 𝒙𝑱 ≤ 𝒙

I.6 Variable quantitative continue


I.6.1 Le tableau statistique

Une variable continue peut prendre une infinité de valeurs possibles. Le domaine de la variable
est alors R ou un intervalle de R. Pour faire des représentations graphiques et construire le
tableau statistique, il faut procéder à des regroupements en classes. Le tableau regoupé en
classe est souvent appelé distribution groupée.

I.6.2 Classification des données


La classification des données est une opération aisée si l’on comprend bien les termes
utilisés. Soit A l’amplitude des données :

A = X M - Xm

C’est-à-dire A est la différence entre la valeur la plus élevée des toutes les observations (XM)
et la valeur la moins élevée (Xm).
Classifier les données revient à diviser l’amplitude A en un certain nombre de classes.
Chaque classe a deux extrémités. Désignons les extrémités de classe par e0, e1, e2, …, en de telle
manière que les valeurs Xi appartenant à la ième classe sont comprises dans l’intervalle ei-1 ≤ Xi
≤ ei qui est un intervalle fermé à gauche et ouvert à droite.
• Extrémités et limites de classe
Le fait que chaque classe soit un intervalle fermé à gauche et ouvert à droite est très
important, surtout pour les variables continues. Considérons la distribution de fréquence
présentée sur le tableau 1.2.

12
COURS DE STATISTIQUE

Tableau 1.2
Classes ni
0 – 14 8
15 – 29 12
30 – 44 18
45 – 59 7
> 60 5
Total 50
Chaque observation doit appartenir à une seule classe. Si la variable sous étude dans le
tableau 1.2 est une variable discrète (par exemple l’âge exprimé en années complètes), il n’y
aurait aucun problème résultant du fait que l’extrémité inférieure de la deuxième classe ne se
confonde pas avec l’extrémité supérieure de la première classe. Qu’en est-il si la variable est
continue (le revenu ou le poids) ? Une variable continue prend des valeurs décimales. Où
devrait-on classer la valeur 14,5 ?
Pour résoudre ce problème, nous introduisons la notion de limite de classe et celle
d’extrémité de classe.
Limite de classe : la plus petite valeur (limite inférieure) et la plus grande valeur (limite
supérieure) dans une classe.
Extrémité de classe : valeur séparant deux classes successives.

Exemple 2.3 : Les données collectées lors d’une enquête sur le poids de 50 étudiants de la FASI
sont reproduites dans le Tableau 1.3.

Tableau 1.3 : Distribution du poids de 50 étudiants

79,22 28,69 30,45 59,90 55,00


44,66 36,84 83,27 61,23 62,45
79,95 71,24 42,91 54,99 69,62
60,00 40,50 53,75 48,92 50,96
57,23 34,71 52,81 49,08 52,01
43,00 76,60 58,91 55,12 41,00
65,04 95,90 73,12 40,81 20,21
31,26 38,01 46,81 28,93 48,92
65,55 63,89 50,15 74,56 87,31
34,65 68,89 24,65 68,09 39,00
Les données du tableau 1.3 sont des données continues. Par conséquent, si l’on adopte la
classification : 20,0-39,9 ; 40,0-59,9 ; 60,0-79,9 ; 80,0-99,9, il serait difficile de classer une
valeur telle que 79, 95. Il est alors recommandé d’adopter une classification telle qu’il soit aisé
de classer chaque valeur dans une et une seule classe.
Considérons, dans le Tableau 1.4, la première classe dont les limites sont 20,00 et 34,99.
Les individus faisant partie de cette classe sont :

34,65 30,45 20,21 31,26


28,69 24,65 28,93 34,71

13
COURS DE STATISTIQUE

Tableau 1.4

Classes ni
20,00 – 34,99 8
35,00 – 49,99 13
50,00 – 64,99 15
65,00 – 79,99 11
80,00 – 94,99 2
95,00 – 109,99 1
Total 50

La classe peut être caractérisée à l’aide de quelques mesures ci-après :


o Centre de classe (ci) : c’est le point milieu de la classe

ei + ei −1
ci=
2

o Amplitude de la classe (ai) : c’est la différence entre les extrémités de la classe


𝑎𝑖 = 𝑒𝑖 − 𝑒𝑖−1

Pour classifier les données, il faut prendre un certain nombre des décisions :

1° combien de classes faut-il constituer ?


2° quelle doit être l’amplitude de chaque classe ? Autrement comment déterminer les
extrémités de classe ?

• Détermination du nombre des classes


Il existe quelques règles pour déterminer le nombre de classes que l’on peut constituer. Il
y a, notamment :
1. La règle de Sturge : Nombre de classes = 1 + (3,322 log10 n)
2. La règle de Yule : Nombre de classes = 2,54 n

• Détermination de l’amplitude de classe


Il n’existe pas de formule universelle pour déterminer l’amplitude des classes et partant
déterminer les extrémités de classe. Mais on peut se servir de quelques indications pour faciliter
la tâche.
Considérons les données dans le tableau 1.3.
1) L’amplitude des données, A = 95,90 – 20,21 = 75,69. Si nous utilisons 10 classes
l’amplitude de chaque classe sera 7,569. Si le nombre des classes est respectivement
5 et 6, l’amplitude de chaque classe sera 15,138 et 12,615, respectivement. Etant
donné que la taille de l’échantillon est 50, nous pouvons nous contenter d’un nombre
de classe inférieur à 10, par exemple 6 et nous fixons l’amplitude de classe à 15, ou
plutôt 14,999.
2) Quelle est la limite inférieure de la première casse ? Nous pouvons la fixer à 20,21,
la plus petite valeur de toutes les observations. Mais il est préférable d’utiliser des
valeurs simples, par exemple 0 ou 10,000 ou 20, 000.

14
COURS DE STATISTIQUE

Voici une des méthodes qui aide à grouper les données sans nuire à l’analyse :

• La méthode de Sturge :

Soit la formule : k = 1 + (3,322 log10 n) où 𝑘 est le nombre de classe, 𝑛 la taille de


l’échantillon.

1. On calcul d’abord l’étendue de la série : 𝑑 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 ;


𝑑
2. On calcule ensuite l’intervalle de classe : 𝑎 = 𝑘−1
3. On détermine l’étendue de travail : 𝜔 = 𝑎 ∙ 𝑘
4. On détermine la limite inferieure de la classe : 𝐿𝑖 = 𝑥𝑚𝑖𝑛 − 0.5𝑎
5. On détermine la limite supérieure de la classe : 𝐿𝑠 = 𝐿𝑖 + 𝜔

a. Histogramme
L’histogramme consiste à représenter les effectifs (resp. les fréquences) des classes par
des rectangles contigus dont la surface (et non la hauteur) représente l’effectif (resp. la
fréquence). Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la
𝑛𝑗
classe 𝑗 est donc donnée par : ℎ𝑗 = où ℎ𝑗 est la densité de l’effectif. Pour un histogramme de
𝑎𝑗
𝑓𝑗
fréquence, on a 𝑑𝑗 =
𝑎𝑗

22

18

14

10

10,00- 20,00- 30,00- 40,00- 50,00- 60,00- 70,00- 80,00- 90,00- 100,00-
19,99 29,99 39,99 49,99 59,99 69,99 79,99 89,99 99,99 109,99

22

18

14

10

9,995 19,995 29,995 39,995 49,995 59,995 69,995 79,995 89,995 99,995

b. Polygone de fréquences
Une distribution de fréquence peut aussi être représentée graphiquement par un polygone
de fréquences. Le polygone de fréquences est un graphique qui lie les centres de classe sur
l’axe des abscisses et les fréquences sur l’axe des ordonnées.
Un polygone de fréquences peut être construit à partir d’un histogramme. Reprenons la
figure précédente. Marquons le centre de chacune des bases supérieures des rectangles de cet

15
COURS DE STATISTIQUE

histogramme. Pour le premier rectangle à gauche marquons sur l’axe des abscisses le centre
de classe de la classe « fictive » précédente. Enfin, pour le dernier rectangle à droite marquons
le centre de la classe fictive suivante3. Joignons ces points par des segments de droite. Nous
obtiendrons une ligne brisée appelée polygone de fréquence.

22

18

14

10

10,00- 20,00- 30,00- 40,00- 50,00- 60,00- 70,00- 80,00- 90,00- 100,00-
19,99 29,99 39,99 49,99 59,99 69,99 79,99 89,99 99,99 109,99

Comment tracer un polygone de fréquences pour une distribution de fréquence comportant


des classes avec intervalles inégaux ?
Dans ce cas la propriété selon laquelle l’aire sous le polygone de fréquences égale l’aire
sous l’histogramme n’est plus respectée si le polygone est tracé en considérant les intervalles
inégaux. L’ajustement des hauteurs des rectangles par les deux méthodes revues plus haut ne
résoud pas le problème. La seule méthode pour résoudre ce problème consiste à uniformiser
les intervalles de classe en ramenant tous les intervalles de classe à une même unité.

I.7 Autres types de représentation graphique des données

a. Le diagramme en barres
Le diagramme en barres est utilisé pour mettre en évidence les grandeurs relatives
(exprimées en pourcentage) de différentes parties d’un ensemble. Les barres sont représentées
par des rectangles espacés.

Figure 1 : Distribution du taux de chômage au sens du BIT par sexe et par groupes
d’âge (en %)

100%

80%

60%
Femmes
Hommes
40%

20%

0%
0-14 15- 20- 25- 30- 35- 40- 45- 50- 55 et
19 24 29 34 39 44 49 54 +

Source : Enquête 1-2-3, phase 1, 2004, INS - Kinshasa, République Démocratique du


Congo.

3
Si l’un de ces deux rectangles (ou les deux à la fois) a une fréquence nulle (n i=0) on n’a pas besoin de considérer les
centres de classe des classes fictives.

16
COURS DE STATISTIQUE

b. Le diagramme à colonnes
Le diagramme à colonnes a sur l’axe vertical les valeurs absolues de la variable
représentée, contrairement au diagramme en barres qui porte sur l’axe vertical les valeurs
relatives (c’est-à-dire les pourcentages). Par conséquent les rectangles espacés du diagramme
à colonnes n’ont pas la même hauteur comme il en est le cas pour le diagramme en barres.
Figure 1.2 : Evolution des ventes (en millions de FC) de l’entreprise X en 2006,
par trimestre

100
90
80
70
60
50
40
30
20
10
0
1er trimestre 2e trimestre 3e trimestre 4e trimestre

Le diagramme à colonnes peut aussi représenter plusieurs variables à la fois (Figure 1.3)
et aussi être tracés de manière horizontale, comme sur la Figure 1.4.
Figures 1.3 et 1.4 : Evolution des ventes (en millions de FC) des produits A, B et
C en 2006

100
4e trimestre
90
80
70
3e trimestre
C
60 A
B
50 B
40 C A
2e trimestre
30
20
1er trimestre
10
0
1er trimestre 2e trimestre 3e trimestre 4e trimestre 0 20 40 60 80 100

17
COURS DE STATISTIQUE

EXERCICES

1. On a aux employés aux employé d’une entreprise pour quel parti politique ils avaient voté
lors des dernières élections. Voici les données brutes obtenues :
PS PRD PS PDC PS UDC
PS UDC PRD PS verts PDC
UDC PRD verts UDC UDC UDC
PRD PS PRD PDC PRD PDC
UDC PDC PS UDC UDC UDC

a. Identifier la population
b. Identifier la variable statistique
c. Donner l’ensemble des modalités
d. De quel type est cette variable statistique ?

2. Un professeur de l’Université a noté le nombre de points (strictement positif) obtenu par 80


étudiants lors d’un test de statistiques.

2 3 5 5 4 6 6 5 4 3
7 7 7 6 2 7 7 9 8 10
5 6 6 8 6 6 3 7 3 5
9 7 6 4 7 5 9 9 6 9
6 3 9 8 8 7 5 6 10 6
9 7 7 7 4 7 10 8 7 10
3 5 8 5 8 7 4 8 10 7
4 6 6 8 7 7 7 8 8 9

a. Identifier la population
b. Identifier la variable statistique
c. Donner l’ensemble des modalités
d. De quel type est cette variable statistique
e. Faites une représentation graphique de la variable

3. En recevant les eleves qui désirent faire partie d’une équipe de rugby du gmnase, l’entraineur
a pris note du poids de ces 60 joeurs :

72,6 81,9 84,7 88,1 89,4 91,6 93,7 95,8 99,1 103,2
75,8 82,6 85,4 88,1 90,2 92,4 93,9 96,6 99,4 103,9
77,5 82,9 86,2 88,3 90,9 92,5 94,4 97,1 99,8 104,0
78,3 83,0 86,9 88,7 91,1 92,8 94,7 97,2 100,4 105,2
79,6 83,5 87,3 89,0 91,2 93,0 94,8 97,5 101,7 106,1
81,5 84,1 87,8 89,1 91,3 93,3 95,2 98,3 102,1 118,7

Exercice 1.2:

18
COURS DE STATISTIQUE

a. En utlisant des classes de largeur 5, construire le tableau des distributions des effectifs et
des fréquences (valeur minimale 70).
b. Construire le polygône des fréquences.

4. Lors d’un concours de pêche dans le lac Albert, on a mesuré (en cm) toutes les prises et
regroupées par classe dans le tableau qui suit :
a. Compléter le tableau suivant :

Fréquence Fréquence
Classe Centre Effectifs Fréquence
cumulée cumulée
[ bi-1 ; bi [ xi ni fi
croiss Fi décroiss F'i

[10 ; 15[ 4
[15 ; 20[ 8
[20 ; 25[ 22,5 21 32,81 %
[25 ; 30[ 27,5 18 28,13 %
[30 ; 35[ 32,5 7 10,94 %
[35 ; 40[ 37,5 5 7,81 %
[40 ; 60[ 50 1
Totaux : 100 %

Exercice 1.7:

5. Voici les données sur la concentration de styrène :

a. Ranger ces observations dans l’ordre croissant.


b. Quelle est la petite valeur enregistrée ? la plus élevée ?
c. Quelle est l’étendue de la série ?
d. On veut dépouiller ces données selon une distribution de fréquences absolues. Quel est
le nombre classes souhaitables ?
e. Dépouiller les observations en utilisant 320 comme limite de la première classe et 60
comme amplitude de chaque classe.
f. Tracer l’histogramme de la distribution obtenue en e.
g. Quelle est la classe modale ?
h. Quel est le pourcentage de travailleurs exposés à une concentration inférieure à 560
mg/m3

19
COURS DE STATISTIQUE

CHAPITRE II

MESURES DE DESCRIPTION

Si tu estimes qu’acquérir de la connaissance coûte chère, essaie alors l’ignorance

- G. WASHINGTON -

ENTREE EN MATIERE

L’organisation des données comprend également une étape importante : le calcul des
mesures qui permettent de résumer l’allure des données. Il s’agit de mesures de tendance
centrale, de mesures de dispersion, de mesures d’asymétrie et d’aplatissement, et de mesures
de concentration. Ces mesures sont des valeurs uniques qui permettent de comparer deux ou
plusieurs séries statistiques différentes.

II.1. Mesure de tendance centrale


Une mesure de tendance centrale indique la valeur typique ou le centre d’une série
statistique. Les valeurs de la série sont distribuées, c’est-à-dire réparties autour de cette valeur
typique. Il y a plusieurs mesures de tendance centrale : la moyenne arithmétique, le mode, la
médiane, la moyenne géométrique, et la moyenne harmonique.

II.1.1. La moyenne arithmétique

La moyenne arithmétique d’une série statistique est le quotient de la somme des valeurs
de la série et le nombre d’observations.
La moyenne arithmétique (X ) d’une série de n observations est calculée par la formule :
X 1 + X 1 + ... + X n
X=
n

Moyenne arithmétique d’une distribution de fréquence


Nous avons vu plus haut qu’une distribution de fréquence peut être groupée, c’est-
à-dire que les valeurs sont groupées en plusieurs classes, ou non-groupée. Pour une
distribution de fréquence groupée, la moyenne arithmétique est calculée par la formule :
n

n X i i
X = i =1
n

n
i =1
i

Pour une distribution de fréquence groupée, il y a lieu de se demander quelle Xi devrait-on


considérer dans la formule car les valeurs y sont groupées par classe. Dans ce cas on émet
l’hypothèse dite de « concentration au centre de l’intervalle » qui consiste à utiliser les centres
de classe pour représenter les valeurs Xi.

Moyenne arithmétique pondérée


La moyenne arithmétique d’une distribution de fréquence est en fait une moyenne
arithmétique pondérée, les fréquences absolues étant les coefficients de pondération.
Rappelons la formule :

20
COURS DE STATISTIQUE
n

n X i i
X = i =1
n

n
i =1
i

Remplaçons les ni par des coefficients de pondération  i et nous obtiendrons :

 X i i
Xp = i =1
n

 i =1
i

qui est la formule de la moyenne arithmétique pondérée.

II.1.2. Le mode
Dans plusieurs séries statistiques, certaines valeurs apparaissent plusieurs fois. C’est
d’ailleurs le sens même de la notion de fréquence. La valeur qui apparaît le plus grand nombre
de fois dans la série est le mode. Ainsi, le mode est la valeur correspondant à la fréquence la
plus élevée.
Le mode est donc la valeur qui se répète le plus. C’est pourquoi il est aussi appelé valeur
dominante. Il est donc tout à fait normal que le meilleur moyen de « repérer » le mode est de
construire d’abord une distribution de fréquence.
Il s’ensuit de cette définition :

• Qu’une série statistique peut ne pas avoir de mode ;


• Qu’une série statistique peut avoir plusieurs modes. Une série ayant deux modes est
dite série bimodale.

Détermination du mode pour une distribution de fréquence groupée :

Il faut procéder de la manière suivante :


1) Déterminer la classe avec la fréquence la plus élevée. Cette classe est appelée
classe modale ;
2) Calculer le mode en appliquant la formule :

Mo = ei −1 +
(ni − ni −1 ) .a i
(ni − ni −1 ) + (ni − ni +1 )

où ei-1 : extrémité inférieure de la classe modale

ni : fréquence de la classe modale


ni-1 : fréquence de la classe précédant la classe modale
ni+1 : fréquence de la classe suivant la classe modale
ai : amplitude de la classe modale

21
COURS DE STATISTIQUE

II.1.3. La médiane
L’interprétation banale d’une mesure de tendance centrale, c’est qu’elle est la valeur
centrale de la série statistique, c’est-à-dire celle qui est juste au centre de la série. La médiane
est la valeur qui divise la série en deux parties de taille égale, l‘une étant composée de valeurs
inférieures ou égales à la médiane et l’autre partie étant composée de valeurs supérieures ou
égales à la médiane.
a. Détermination de la médiane pour une distribution non-groupée
Pour déterminer la médiane, il faut avant toute chose se poser la question suivante :
« quelle position occupe la médiane dans la série ordonnée ? » La médiane est en fait l’une des
valeurs de la série. Si nous arrangeons les valeurs de la série en ordre croissant ou en ordre
décroissant, la médiane sera l’une d’entre elles. Ce sera la valeur qui divise le nombre
d’individus de la série en deux sous-groupes de même taille. Pour trouver la médiane, il faut
procéder comme suit :
o Classer les valeurs de la série en ordre croissant (c’est-à-dire de la valeur la moins élevée à
la valeur la plus élevée) ou en ordre décroissant ;
o Si le nombre d’observations est impair, la médiane est la valeur juste au milieu de la série
ordonnée ;
o Si le nombre d’observations est pair, la médiane est le point milieu des deux valeurs au
centre de la série.
Nous pouvons généraliser la procédure de la manière suivante. Soit n le nombre
d’observations dans une série, la médiane est la valeur correspondant à l’observation imed qui
est calculée par la formule suivante :

n +1
imed =
2

b. Détermination de la médiane pour une distribution groupée


Nous pouvons maintenant généraliser la formule de la médiane d’une distribution groupée.

 1 / 2(N + 1) − N i −1 
Me = ei −1 +  .ai

 ni 

où ei-1= extrémité inférieure de la classe médiane


n
N=  ni
i =1

Ni-1=fréquence cumulée de la classe précédant la classe médiane


ni= fréquence absolue de la classe médiane
ai= amplitude de la classe médiane

22
COURS DE STATISTIQUE

II.1.4. Relation entre la moyenne arithmétique, le mode et la médiane

(a) Distribution normale : X = Mo = Me


Les trois mesures sont identiques pour une distribution symétrique.
X = Me = Mo

(b) Distribution asymétrique à gauche (ou étalée à droite) : Mo  Me  X

La moyenne arithmétique est la mesure la plus sensible aux valeurs


extrêmes. Pour une distribution asymétrique à gauche, c’est-à-dire
étalée à droite, la moyenne arithmétique se déplace à droite tandis
que la médiane reste entre la moyenne et le mode.

(c) Distribution asymétrique à droite (ou étalée à gauche) : X  Me  Mo


A cause de sa sensibilité par rapport aux valeurs extrêmes, la
moyenne arithmétique se déplace à gauche dans une distribution
asymétrique à droite.
L’expérience a montré que la relation entre les trois mesures
dépend de l’asymétrie et de l’aplatissement de la distribution.
L’expérience a également montré que pour une distribution
légèrement aplatie, la relation suivante se vérifie :
(
X − Mo = 3 X − Me )

II.1.5. La moyenne géométrique

La moyenne géométrique d’une série statistique de n valeur positives est la racine n-ième
de leur produit.

G = X 1.X 2 ...X n

Dans quel cas l’utilisation de la moyenne géométrique est-elle recommandée ? L’utilisation de


G en lieu et place de X est recommandée quand il s’agit de calculer la moyenne des taux de
croissance.
Exemple: Le revenu par tête d’habitant de l’Indonésie (en milliers de Roupies aux prix de
1983) a évolué de la manière décrite dans le Tableau suivant. Calculez la moyenne géométrique
des taux de croissance.

Année 1985 1986 1987 1988 1989 1990


Revenu par tête 457 461 477 497 518 545
d’habitant
Taux de croissance 0,88% 3,47% 4,19% 4,23% 5,21%

X =
1
(0,008 + 0,0347 + 0,0419 + 0,0423 + 0,0521) = 3,596%
5
G = 5 0,088.0,0347.,0,0419.0,0423.0,0521 = 3,091%

23
COURS DE STATISTIQUE

Remarquez que G< X

De la formule précedente, il s’ensuit que G ne peut pas être calculé si la série contient des
valeurs négatives ou si l’une des valeurs est égale à zéro. Il est courant que certains taux de
croissance dans une série soient négatifs. Mais G peut encore être calculé.

EXEMPLE : Le tableau suivant présente les taux de croissance du nombre des chômeurs dans un
pays.

Année 1985 1986 1987 1988 1989 1990


Taux de 7,54% 6,23% -4,18% 0,98% 13,10% -0,14%
croissance

Au lieu de calculer la moyenne géométrique des valeurs Xi dans la deuxième ligne du


tableau, on peut calculer la moyenne géométrique de la série (1+Xi). Par conséquent la moyenne
recherchée de la série sera égale : G =1,0377-1 = 3,77%

II.1.6. La moyenne harmonique

La moyenne harmonique d’une série statistique de n valeurs est le nombre dont l’inverse
est égal à la moyenne arithmétique des inverses des n valeurs. D’où la formule :
n
H =
n


 1 
 
X 
i =1
 i

La moyenne harmonique n’est pas d’usage courant. Mais elle est une bonne mesure de
tendance centrale quand les valeurs de la série sont des taux.
EXEMPLE: Supposons qu’une dactylographe peut taper 40 lettres par heure, 60 factures par
heure, 80 cartes de vœux par heure. Quel est le nombre moyen des documents peut-elle
dactylographier par heure ?
Si l’on appliquait la formule de la moyenne arithmétique, la moyenne serait :
60 + 40 + 810
X = = 60
3

Mais cette moyenne ne fournit pas une information correcte car elle suppose que la vitesse
pour dactylographier une lettre est la même que celle requise pour taper une facture ou une
carte. Ce qui n’est pas vrai. L’utilisation de la moyenne harmonique donnerait :
3
H= = 55,38
(1 / 60 + 1 / 40 + 1 / 80)
La dactylographe peut taper en moyenne 55 documents par heure. Il faut noter que :

H<G< X

II.2. Mesures de dispersion


Les mesures de tendance centrale que nous venons d’étudier ne donnent qu’une description
imparfaite d’une série statistique. L’information fournie par une mesure de tendance centrale
doit donc être complétée par une mesure de dispersion qui donne une idée sur la façon dont
les valeurs sont éparpillées (ou dispersées) autour de la mesure de tendance centrale. Il existe
plusieurs mesures de dispersion : l’intervalle de variation (ou étendue), l’intervalle interquartile,

24
COURS DE STATISTIQUE

l’intervalle interdécile, l’écart absolu moyen, le « boxplot » (diagramme en forme de boîte ou


boîte à moustaches), la variance et l’écart-type.
II.2.1. L’intervalle de variation

L’intervalle de variation (ou étendue, ou encore amplitude) est plus simple et plus facile
à calculer. L’intervalle de variation est la différence entre les valeurs extrêmes de la variable.
Intervalle de variation = XM - Xm

où XM et Xm sont respectivement la valeur la plus élevée et la valeur la moins élevée de la


série.
L’intervalle de variation est une mesure plutôt pauvre parce qu’il ne tient compte que
de deux valeurs de la série. En plus il est largement sujet à l’influence des valeurs extrêmes
qui parfois sont des valeurs exceptionnelles.

II.2.2. L’intervalle interquartile

L’intervalle (ou étendue) interquartile permet de corriger les problèmes inhérents à


l’intervalle de variation.
Rappelons-nous que nous avons précédemment étudié la médiane, cette mesure de
tendance centrale qui est la valeur qui divise la distribution en deux parties de taille égale. Si
une distribution peut être divisée en deux parties égales, il est plausible de concevoir qu’elle
puisse aussi être divisée en quatre parties égales, ou en 10 parties égales, ou encore en 100
parties égales. Toute distribution peut donc être découpée en n parties égales (n= 4, 10, 100
selon le cas). Ces n parties sont appelées quantiles. Lorsque n= 4, les 3 valeurs (n-1) qui
divisent la distribution en 4 parties égales sont appelées quartiles ; lorsque n= 10, les 9 valeurs
(n-1) sont dites déciles et lorsque n= 100, les 99 valeurs (n-100) sont dites percentiles.
Les 3 quartiles sont notés Q1, Q2 et Q3. Les 9 déciles sont notés D1, D2, …, D9 tandis que
les 99 percentiles sont notés P1, …, P99. Il est facile d’établir des relations entre ces différents
éléments. Le deuxième quartile Q2 divise la distribution en deux parties égales de taille n/2
chacune. Par conséquent, Q2 correspond à la médiane.

Q1= P25 D1= P10


Q2= Me= P50 D2= P20
Q3= P75 D9= P90
Les quartiles, les déciles et les percentiles peuvent être calculés en utilisant une procédure
similaire à celle utilisée pour le calcul de la médiane. Rappelons que la procédure consiste,
d’abord, à identifier la position occupée par la valeur recherchée. Cette position sera déterminée
par la formule :

iq j = (N + 1).
j
n

où iq j indique la position de la valeur qj recherchée ; q représente soit le quartile (Q), soit le


décile (D), soit encore le percentile (P) ; j représente l’ordre de la valeur, par exemple j= 1, 2,
3 pour les quartiles et j= 1, 2, …, 9 pour les déciles ; n prend la valeur 4 pour les quartiles ; 10
pour les déciles et 100 pour les percentiles.
La formule précédente permet de déterminer la position de la valeur recherchée et, dans
le cas d’une distribution groupée, d’identifier la classe qui contient cette valeur.
Pour une distribution groupée :

 (N + 1)( j / 4) − Ni −1 
Qj = ei −1 +  .ai

 ni 

25
COURS DE STATISTIQUE

 (N + 1)( j / 10) − N i −1 
D j = ei −1 +  .ai

 ni 

 (N + 1)( j / 100) − Ni −1 
Pj = ei −1 +  .ai

 ni 

où, dans chaque cas, ei-1 représente l’extrémité inférieure de la classe qui contient la valeur
recherchée.
Les déciles et les percentiles sont largement utilisés dans les études relatives à la
distribution du revenu. D3, par exemple, est le niveau de revenu en dessous duquel se trouvent
30% d’observations, c’est-à-dire 30% de personnes ont un revenu inférieur à D3.
La différence entre le 3ème et le 1er quartile est appelé intervalle (ou étendue)
interquartile, notée IQR. Cette différence est une mesure de dispersion qui utilise les deux
quartiles extrêmes, de la même manière que l’amplitude utilise les deux valeurs extrêmes de
la série. De par sa définition, l’intervalle interquartile contient 50% des valeurs de la série .

IQR= Q3 – Q1

Au lieu d’utiliser l’intervalle interquartile, il arrive souvent que l’on utilise le semi-
interquartile, appelé aussi déviation quartile, qui n’est rien d’autre que la moitié de
l’interquartile.

Q3 − Q1
Déviation quartile =
2

La différence entre les deux déciles extrêmes est aussi une mesure de dispersion.
L’intervalle interdécile est calculé comme :

ID= D9 – D1

L’intervalle interdécile contient 80% des valeurs de la distribution.

II.2.3. L’écart absolu moyen


L’intervalle de variation et l’intervalle interquartile ne prennent pas en compte toutes les
valeurs de la distribution dans l’évaluation de la dispersion. L’une des premières mesures de
dispersion qui pallie cette insuffisance est l’écart absolu moyen. L’écart absolu moyen est la
moyenne arithmétique des écarts par rapport à la moyenne arithmétique des données.

n X − X
i i
e X = i =1
n

n
i =1
i

où Xi indique pour chaque classe le centre de classe.


Il faut noter que l’écart absolu moyen peut aussi être calculé par rapport à la médiane.
Dans ce cas, la formule devient :

n
e Me =
1
n X
i =1
i − Me

et

26
COURS DE STATISTIQUE

n
i =1
i X i − Me
eMe = n

n i =1
i

II.2.4. L’écart-type
L’écart-type est la mesure de dispersion la plus importante et la plus utilisée. Il a l’avantage
de prendre en considération toutes les valeurs de la distribution et, contrairement à l’écart
absolu moyen, il utilise un artifice mathématique supérieur à celui des valeurs absolues pour
contourner le fait que la somme des écarts par rapport à la moyenne arithmétique est égale à
zéro. L’écart-type (ou l’écart quadratique moyen) est la racine carrée de la moyenne des écarts
par rapport à la moyenne arithmétique des données. Le carré de l’écart-type s’appelle variance.

D’où

 (X − X )
n
2
i
i =1
SX =
n

et

 n (X )2
n
i i −X
i =1
SX =
n

n
i =1
i

pour une distribution de fréquence.

II.3. Mesures d’Asymétrie et d’Aplatissement


Pour mieux caractériser une distribution on se sert de mesures d’asymétrie et de mesures
d’aplatissement en plus de mesures de tendance centrale et de mesures de dispersion. Les
mesures d’asymétrie et d’aplatissement permettent de déterminer la forme de la distribution.
Une distribution est dite symétrique si ses valeurs sont également distribuées de part et d’autre
de la valeur centrale. Il existe plusieurs mesures d’asymétrie et d’aplatissement.

II.3.1. Le coefficient de Pearson


Dans une distribution symétrique, la moyenne arithmétique, le mode, et la médiane sont
égaux. Dans une distribution asymétrique, la moyenne arithmétique se trouve du côté de la
distribution qui a la plus longue queue tandis que le mode demeure au point où la distribution
a la fréquence la plus élevée. Plus la distribution est asymétrique, plus grande est la distance
entre le mode et la moyenne arithmétique ou la médiane.
Le coefficient de Pearson se sert de cette distance entre le mode et l’une ou l’autre mesure
X et Me de tendance centrale pour évaluer le degré d’asymétrie de la distribution.

X − Mo
Sk =
SX

27
COURS DE STATISTIQUE

ou, parce que le mode peut être calculé à partir de X et Me.

Sk =
(
3 X − Me )
SX

Si X > Mo, le coefficient de Pearson est positif. On dit que la distribution est asymétrique
à gauche.

Si X < Mo, le coefficient de Pearson est négatif. La distribution est dite asymétrique à
droite. Il a été démontré que :

-3 ≤ Sk ≤ 3

28
COURS DE STATISTIQUE

EXERCICES

1. On a mesuré en laboratoire le retrait d’un certain nombre d’éprouvettes de béton attribuable


à l’évaporation de l’eau. Des essais ont été effectués sur une certaine composition de béton
comportant des agrégats de nature différente. Les variations de longueur ont été observées
sur ces éprouvettes après une période de 90 jours. Les retraits en microns sont les suivants :

Pour chaque agrégat :

a. Calculer la valeur moyenne du retrait.


b. Calculer la variance et l’écart-type.
c. La valeur moyenne est-elle représentative ?

2. L’histogramme ci-après représente la répartition de l’épaisseur en micropouces d’un placage


en or sur des panneaux de circuits imprimés.

a. Déterminer à partir de l’histogramme, la distribution des fréquences absolues.


b. Déterminer l’épaisseur médiane.
c. Il n’y a pas plus de 30% des paneaux dont l’épaisseur de placage est inférieure
à quelle valeur ?
d. Il n’y a pas plus de 80% de panneaux dont l’épaisseur de placage est inférieure
à quelle valeur ?

3. On considère la série suivante : 4 ;3 ;5 ;8 ;9 ;12 ;10.


Déterminer la médiane ainsi que les quartiles de cette série.

4. On a relevé les notes au dernier test d’une classe maternelle. Les résultats sont
regroupés dans le tableau suivant :

Notes 3 4 5 8 9 12 20
Effectifs 1 2 4 6 7 8 2

a. Déterminer la médiane ainsi que les quartiles de la série


b. Déterminer la forme de cette distribution.

29
COURS DE STATISTIQUE

30
COURS DE STATISTIQUE

B
STATISTIQUE INFERENTIELLE

31
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

CHAPITRE III

ELEMENTS DE CALCUL DES PROBABILITES

Nécessairement le hasard a beaucoup des pouvoirs sur nous puisque c'est par
hasard que nous vivons.

SENGHOR

ENTREE EN MATIERE

Il existe plusieurs situations où intervient la probabilité. Par exemple, le météorologiste peut nous
annoncer qu'il y a 80% de chance que la pluie tombe demain, le commerçant peut décider quelle
marchandise, il gardera en stock, l'étudiant de graduat qui passe en licence doit décider quelle option
choisir.
Dans chacune de ces situations, l'individu concerné doit baser sa décision ou son affirmation sur
ce qu'il croit devoir se produire. La probabilité, qui mesure la chance de réalisation d'un événement est à
la base de l'inférence statistique.
En inférence statistique, les décisions sont prises dans des situations d'incertitude. La théorie de
probabilité est utilisée pour évaluer l'incertitude de ces décisions. Ainsi, estimer les ventes prochaines
d'une entreprise nécessite la connaissance de plusieurs variables influant ses ventes; certaines ont un effet
positif (qualité des produits, la publicité...) et d'autres un effet négatif (la concurrence, taxe élevée...).
Et la théorie de probabilité peut aider l'entreprise à estimer ses ventes dans ces conditions
d'incertitude.

III.1 EXPERIENCE ALEATOIRE ET ENSEMBLE FONDAMENTAL


Les phénomènes auxquels s'applique la théorie des probabilités sont très variés. Ils peuvent, en
tout ou en partie, être la conséquence d'une action humaine.
On appelle ainsi une expérience aléatoire, toute action ou processus qui engendre des résultats
ou des observations et dont on ne peut prédire avec certitude le résultat. Les actions suivantes constituent
des expériences aléatoires : le lancement d'une pièce de monnaie, le jet d'un ou de plusieurs dés, le tirage
d'une boule dans une urne, etc. Par contre, un phénomène déterministe est un phénomène dont on peut
prévoir le résultat. Par exemple, les lois de la physique classique sont des modèles permettant de prédire
le résultat d’une expérience donnée.
La loi d’Ohm permet de prédire la valeur de l’intensité du courant connaissant la résistance et la
tension aux bornes. Les lois de la physique mettent en évidence une régularité qui permet de prédire les
résultats d’une expérience lorsqu’on contrôle les causes.
L'ensemble qui décrit tous les résultats possibles d'une expérience aléatoire est appelé ensemble
fondamental ou espace échantillon.

32
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

Considérons l'expérience aléatoire qui consiste à lancer un dé. L'ensemble fondamental S qui lui
est associé contient tous les résultats possibles de ce lancement:
𝑆 = {1, 2, 3, 4, 5, 6}.
Un ensemble fondamental peut être fini, infini dénombrable ou infini non dénombrable
(continu).

III.2 DEFINITION DE PROBABILITE


La probabilité d'un événement se définit comme une mesure de réalisation de cet événement. La
probabilité est donc une fonction qui associe un nombre appartenant à l’intervalle [0, 1] à un ensemble E.
On appelle événement un sous-ensemble quelconque 𝐸𝑖 de S constitué de 𝑁𝐸 éventualités
équiprobables, c.à.d. 𝐸𝑖 ∈ 𝑆 et card (𝐸𝑖 ) = 𝑁𝐸
Une éventualité est un événement élémentaire tel que la probabilité de réalisation de
𝑁𝐸
l’événement 𝐸𝑖 est P (𝐸𝑖 se réalise) = où card (S) = N
𝑁

Un événement dont la probabilité est nulle est dit «événement impossible» alors qu’un
événement qui peut se réaliser à tout coup est appelé «événement certain». Cependant, il existe des
événements non vides qui peuvent avoir une probabilité nulle. Dans le cas d’un ensemble infini non
dénombrable, un tel événement n’est pas nécessairement impossible : il est dit «presque impossible».
Considérons l’expérience qui consiste à choisir au hasard un point sur une feuille de papier quadrillé avec
une pointe de compas infiniment fine. La probabilité de l’événement piquer dans un carré donné a une
certaine valeur (par exemple celle du rapport de la surface du carré avec celle de la feuille de papier) ; en
revanche, si on réduit le carré à un point (carré infiniment petit) la probabilité deviendra zéro alors que
l’événement (piquer dans ce carré si petit qu’il est devenu un point) n’est pas impossible. De même un
événement de probabilité 1 peut ne pas être certain. Il est alors qualifié de «presque certain».
Les probabilités peuvent être classées selon différentes approches :
III.2.1 Approche classique ou a priori
Si l'on considère une expérience aléatoire pouvant se réaliser de K façons distinctes et
symétriques, et que parmi ces dernières, on peut dénombrer K(E) qui sont favorables à l'arrivée d'un
K (E )
événement E, la probabilité d'obtenir ce dernier est donnée par : P (E) =
K
Il est à noter que cette approche ne convient pas lorsque l’ensemble fondamental de cas possibles
n’est pas fini.
Si nous espérons obtenir un as lors du lancement d’un dé, nous devons commencer par nous
demander quelle face peut apparaitre a priori. Les résultats possibles sont S = {1, 2, 3, 4, 5, 6} et card (S) =
K= 6. Par contre, seul le cas où l’as apparait nous est favorable E = {1} et card (E) = K(E) = 1. Nous en
concluons que P (as) = 1/6 = 0.166…

33
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

III.2.2 Approche fréquentiste ou empirique


Selon cette approche, la probabilité d'un événement E correspond à la fréquence relative
d'occurrences de cet événement lorsque l'expérience est répétée un très grand nombre de fois de façon
indépendante et dans des conditions identiques. Ainsi :
𝑓(𝐸) = Nombre d’occurrence de E/Nombre de fois l’expérience a été effectuée et 𝑃(𝐸) = lim 𝑓(𝐸)
𝑁→∞

Ce cas ne convient pas si l’événement n’est pas reproductible.


Nous pouvons lancer cette fois-ci le dé plusieurs et voir le résultat de cette expérience. Voici le
résultat obtenu :
Face obtenue Fréquence d’apparition
As 125
Faces autre que l’as 475
Total 600

Il semble que le dé a été lancé 600 fois, il a affiché 125 fois la face as, de lors la probabilité d’obtenir un as
dans un prochain lancement selon cette approche serait : P (as) = 125/600 = 0,20833…
III.2.3 Approche subjective

Cette approche intervient lorsqu'il est impossible d'établir une probabilité a priori ou une
probabilité empirique. On doit alors s'en remettre au bon jugement ou encore à l'intuition, pour accorder
des probabilités à divers événements.
La probabilité de gagner les prochaines élections pour un candidat ne peut qu’être obtenue selon
cette approche, on pourrait dire par exemple, la probabilité qu’il soit élu serait 0,45.

III.3 DEFINITION AXIOMATIQUE DE LA PROBABILITE


Soit S un ensemble fondamental associé à une expérience aléatoire. Définir la probabilité P(E)
d'obtenir un événement E consiste à associer à ce dernier un nombre réel mesurant la vraisemblance de
sa réalisation et satisfaisant aux axiomes suivants.
L’axiomatique de Kolmogorov conduit à définir les propriétés suivantes :
Axiome de positivité : Pour tout événement 𝐸 ∈ 𝑆, 𝑃 (𝐸) ≥ 0
Axiome de normalisation : P(S) = 1, on dit que S est un événement certain.
Axiome d’additivité : Si E1, ..., Em sont m événements mutuellement exclusifs.

𝑖=1 𝐸𝑖 )= ∑𝑖=1 𝑃(𝐸𝑖 ) = P


𝑃(∑∞ ∞ (E1  ...  Em ) = P(E1 ) + .... + P(Em )
𝐸𝑖 ∈ 𝑆, 𝐸𝑖 ∩ 𝐸𝑗 = ∅ 𝑖, 𝑗 = 1, 2, …
On constate que les définitions classiques, fréquentiste ainsi que subjective de la probabilité
satisfont à ces axiomes.

34
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

III.4 PROPRIETES DE PROBABILITE


1°) Si la suite d'événement E1, ..., Em constitue une partition d'un événement E, alors P(E) = P(E1) +....+ P(Em).
2°) Considérons deux événements E1 et E2 tels que E1  E2 alors P (E1) < P (E2).
3°) Si E est le complémentaire de E : P ( E ) = 1- P (E).
4°) Si E1 et E2 sont deux événements quelconques, nous avons :
P (E1 – E2) =𝑃 (𝐶𝐸1 𝐸2 ) = P (E1) – P (E1  E2)

P (E2 – E1) = 𝑃 (𝐶𝐸2 𝐸1 ) = P (E2) - P (E1  E2)

Où E1 - E2 est la différence entre un événement E1 et un événement E2, il signifie que E1 se réalise sans
que ce soit le cas pour E2.
5°) La loi d'addition :

P (𝐸1  𝐸2 ) = P (𝐸1 ) + P (𝐸2 ) – P (𝐸1  𝐸2 )

Si 𝐸1 et 𝐸2 sont mutuellement exclusifs, la loi d'addition débouche sur l'axiome 3.


Pour trois événements 𝐸1 , 𝐸2 et 𝐸3 , la loi d’addition donne :
P (𝐸1  𝐸2 ∪ 𝐸3 ) = P (𝐸1 ) + P (𝐸2 ) + P (𝐸3 ) – P (𝐸1  𝐸2 ) – P (𝐸1  𝐸3 )

– P (𝐸2  𝐸3 ) + P (𝐸1 ∩ 𝐸2 ∩ 𝐸3 ).

6°) Inégalité de Boole :


D’après les axiomes des probabilités totales,
𝑃(𝐴 + 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴 + 𝐵) ≤ 𝑃(𝐴) + 𝑃(𝐵)
On peut généraliser à un nombre quelconque d’événements :
𝑃(∑𝑖 𝐴𝑖 )≤ ∑𝑖 𝑃(𝐴𝑖 )
Si les événements 𝐴𝑖 sont incompatibles, 𝑃(∑𝑖 𝐴𝑖 )= ∑𝑖 𝑃(𝐴𝑖 )
7°) La loi de multiplication :
P (𝐸1 ∩ 𝐸2 ) = P (𝐸1 ). P(𝐸2 /𝐸1 ) où P (𝐸2 /𝐸1 ) est la probabilité conditionnelle de 𝐸2 par rapport à 𝐸1 .
Cette propriété peut se généraliser ainsi, soient 𝐸1 , … , 𝐸𝑚 des événements quelconques d’un espace
probabilisé, alors :

P (𝐸1 ∩ 𝐸2 ∩ … 𝐸𝑚 ) = 𝑃(𝐸1 ) 𝑃(𝐸2 \𝐸1 ) 𝑃(𝐸3 \(𝐸1 ∩ 𝐸2 )) … 𝑃 (𝐸𝑚 \(𝐸1 ∩ 𝐸2 … ∩ 𝐸𝑚−1 )

Si 𝐸1 et 𝐸2 sont indépendants, alors :


P (𝐸1 ∩ 𝐸2 ) = P (𝐸1 ). P (𝐸2 )

35
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

EXERCICES RESOLUS
1. On étudie les connexions d’internautes à un site web. Celui-ci propose six versions de son contenu,
réparties en trois versions anglaises (notées en) et trois versions françaises (notées fr). Pour chaque
langue, les trois versions sont les suivantes: une version normale (n), une version pour les petits écrans
comme ceux des téléphones (p) et une version pour les écrans de taille moyenne comme ceux des
tablettes (m). En étudiant l’historique des connexions, on constate que les versions ne sont pas
utilisées de façon uniforme. Plus précisément, si on choisit un internaute connecté au hasard, la
probabilité de tomber sur chacune des versions est donnée par la table suivante :

Version (fr, n) (fr, p) (fr, m) (en, n) (en, p) (en, m)


P ({version}) a 5/21 1/21 4/21 b 3/21

Dans la table, chaque version est désignée par sa langue et son type. L’ensemble des six versions forme
l’univers Ω. Les lettres a et b désignent des paramètres à déterminer.

a) Quelles propriétés doivent vérifier a et b pour que P soit bien une probabilité sur Ω ?

b) On constate que le site a deux fois plus d’utilisateurs anglophones que d’utilisateurs francophones.
En déduire a et b.

c) Quel pourcentage d’utilisateurs du site consultent la version pour petit écran?

Solution

a) Pour que P soit une probabilité sur Ω, il faut que P ({version}) ∈ [0, 1] pour toute version du site
web. En particulier, on doit donc avoir :

P ({fr, n)} = a ∈[0, 1]

P ({(en, p)}) = b ∈[0, 1]

De plus, on doit avoir P(Ω) = 1. Or, Ω est l’union disjointe de tous les évènements élémentaires et
P(Ω) est donc la somme des probabilités indiquées dans le tableau. On a donc :
5 1 4 3 8
𝑃(Ω) = a + 21 + 21 + 21 + b + 21 = 1, soit 𝑎 + 𝑏 = 21 (1)

b) Le site ayant deux fois plus d’utilisateurs anglophones que francophones, on suppose que P
({version anglaise}) = 2P ({version française}). Or, l’évènement {version anglaise} est l’union
disjointe des trois évènements {(en, n)}, {(en, p)} et {(en, m)} et donc la probabilité de l’évènement
est la somme des probabilités des trois évènements élémentaires. Donc, d’après le tableau, on a :
4 3 7
P ({version anglaise}) = 21 + 𝑏 + 21 = 𝑏 + 21

De la même façon, on trouve que :


5 1 6
P ({version française}) = 𝑎 + + =𝑎+
21 21 21

36
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

7 6
Soit finalement : 𝑏 + 21 = 2(𝑎 + 21) (2) et en combinant cette équation (2) avec le résultat (1) obtenu à
7 8 6
la question précédente, on trouve que : 𝑏 + 21 = 2 (21 − 𝑏 + 21)

1 1
Soit 𝑏 = 3 et 𝑎 = 21 on constate que a et b sont des éléments de [0, 1], ce qui montre que cette
solution est acceptable.

c) L’évènement {petit écran} est l’union disjointe des évènements {(en, p)} et {(f r, p)}, donc sa
probabilité est la somme des probabilités de ces deux évènements. On obtien ainsi :
5 12
P ({petit écran)} = P ({(en, p)}) + P ({(fr, p)}) = 21 + 𝑏 = 21

2. En étudiant une population, on a remarqué que, durant un mois, 40 % des individus sont allés au cinéma,
25 % sont allés au théâtre et 12,5 % sont allés au cinéma et au théâtre. Calculer la probabilité que durant
un mois, un individu:

a) aille au cinéma ou au théâtre;


b) n'aille pas au cinéma;
c) n'aille ni au cinéma, ni au théâtre;
d) aille au cinéma mais pas au théâtre;
d) sachant qu'il n'est pas allé au théâtre, aille au cinéma;
e) sachant qu'il n'est pas allé au théâtre, n'aille pas au cinéma.

Solution

Soient C l'événement "aller au cinéma" et T l'événement "aller au théâtre".


On a P (C) = 0,4; P (T) = 0,25; P (C  T) = 0,125
a) P (C  T) = P (C) + P (T) – P (C  T)
= 0,4 + 0,25 - 0,125 = 0,525
b) P ( C ) = 1 - P(C) = 1 - 0,4 = 0 ,6

c) P ( C  T ) = 1–P (C  T) = P ( C  T ) = 1 - 0,525 = 0,4754

d) C = (C  T)  (C  T ) où C  T et C  T sont des événements incompatibles; donc :

P (C) = P (C  T) + P (C  T )

Ainsi donc P (C  T ) = P(C) – P (C  T) = 0,4 - 0,125 = 0,275

Autre solution : P (C  T ) = P (C  T) – P (T) = 0,525 - 0,25 = 0,275

e) P ( T \C) =
(
P T C
=
)
0,125
= 0,3125
P(C ) 0,4

f) P ( C \ T ) =
(
P T C ) = 0,475 = 0,633
()
PT 0,75

37
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

3. Une urne contient x boules dont trois sont blanches, les autres étant rouges.
a) A l'occasion du tirage sans remise de deux boules, la probabilité d'obtenir une boule blanche puis
une boule rouge est égale à 1/4. Calculer x.

b) Même question si le tirage de deux boules est effectué avec remise.

Solution :

a) Les tirages n'étant pas indépendants puisqu'il est fait sans remise, ainsi :
P(R  B ) = P(B ).P (R\B)

1 3 x−3
= .
4 x x −1
Après transformation, on aboutit à l'équation du second degré x²–13x + 36 = 0 et les racines sont x = 4 et x
= 9, toutes deux acceptables. L'urne peut contenir 4 boules (3B et 1R) ou 9 boules (3B et 6R).
b) Les tirages étant cette fois-ci indépendants, le tirage étant fait avec remise.
P (B et R) = P (B).P (R)
1 3 x−3
= .
4 x x
On obtient donc x²–12x + 36 = 0 et la racine double de cette équation est x = 6
Pour ce cas, l'urne contient 6 boules (3B et 3R)

4. Un oiseau doit passer successivement au dessus de deux chasseurs. Chaque chasseur a une chance sur
trois de descendre l'oiseau. Quelles sont les chances d'être abattus ?

Solution :

Soient C1 l'événement "l'oiseau est abattu par le premier chasseur" et C2 l'événement "l'oiseau est abattu
par le deuxième chasseur"
1 ̅̅̅̅
P(C1) = 𝑃(𝐶 1 ) = et P (𝐶 1
1 )= 1 - 1/3 où 𝐶 correspond à l’événement « la chance du premier chasseur de
3
descendre l’oiseau ».

( ) ( )
P (C2) = P C1 .P C 2 =
2 1 2
. =
3 3 9
En effet, l'oiseau pourrait être abattu par le deuxième chasseur si le premier le rate puisque l'oiseau doit
passer successivement au dessus de 2 chasseurs. Et les chances pour l'oiseau d'être abattu seront :
P(C1 ou C2 ) = P(C1 ) + P(C2 ) − P(C1 et C2 ) où P(C1 et C2 ) = 0 , car l'oiseau ne peut être abattu par
les deux chasseurs simultanément.
1 2 5
Ainsi P (C1 ou C2) = + = = 0,55
3 9 9

38
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

CHAPITRE IV

VARIABLES ALEATOIRES ET LEURS DISTRIBUTIONS DE


PROBABILITE

Ce n'est pas le fait d'ignorer des choses qui nous cause des problèmes, mais plutôt le
fait de mal percevoir la réalité des choses que nous connaissons.

ARTEMUS WARD.

ENTREE EN MATIERE

Ce chapitre est appelé à étendre le concept de probabilité par l'introduction de la notion de


distribution de probabilité. En effet, beaucoup d'expérience en statistique comporte plus d'une modalité
dans leur résultat.

Par exemple, l'expérience consistant à lancer un dé bien équilibré comporte en effet Six modalités (1, 2,
3, 4, 5 et 6). La probabilité de ces différents événements est égale à la fréquence observable d'apparition
de la modalité correspondante si l'expérience est répétée un certain nombre de fois. En jetant plusieurs
fois le dé, nous pouvons obtenir une distribution de probabilité qui énumère tous les résultats possibles
(1, 2, 3, 4, 5, 6) et leurs probabilités correspondantes.

IV.1 DEFINITION DE LA VARIABLE ALEATOIRE ET DE LA DISTRIBUTION DE


PROBABILITE
Une variable aléatoire est une variable qui prend différentes valeurs numériques selon le résultat
d'une expérience aléatoire. Pour le lancement d'un dé, la variable aléatoire prendra les valeurs numériques
suivantes : 1, 2, 3, 4, 5 et 6.

Si à chacune des valeurs possibles de la variable aléatoire, on associe la probabilité de l'événement


correspondant, on obtient "la loi de la probabilité" ou "la distribution de probabilité de la variable
aléatoire". Celle-ci est une énumération de tous les résultats possibles d'une expérience avec leurs
probabilités respectives.

IV.2 SORTES DE VARIABLES ALEATOIRES


Une variable aléatoire peut être :

- discrète, c'est-à-dire lorsqu'elle ne peut prendre qu'un nombre fini des valeurs auxquelles
s'attache une probabilité.
- continue, c'est-à-dire lorsqu'elle peut prendre une infinité des valeurs dans un intervalle donné.
Il est à noter que parfois, la distinction entre une variable discrète et variable continue est purement
formelle. Le type de la variable aléatoire dépend du degré de précision que l'on désire appréhender. Par

39
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

exemple, on s'intéresse à l'espérance de vie d'un chat, si on travaille sur le nombre d'années, le nombre
de valeurs possible est fini ; si on travaille en secondes, ce sera différent.
Lorsqu'on étudie un caractère quantitatif dans une population, on lui fait correspondre, suivant sa
nature, une variable aléatoire discrète ou continue.
Les lois de probabilités correspondantes donnent lieu à des distributions de probabilités et à des
fonctions de distributions appelées fréquemment fonction de répartition (ou probabilités cumulées).
Les définitions et les représentations graphiques diffèrent quelque peu suivant que la variable
aléatoire est discrète ou continue.
IV.2.1 Variable aléatoire discrète

La distribution de probabilité d'une variable aléatoire discrète X est la fonction qui, à chaque
valeur 𝑥𝑖 de X fait correspondre la probabilité 𝑝𝑖 d'obtenir la valeur 𝑥𝑖 ; cette fonction et bien définie si et
seulement si :
∀ 𝑖 ∈ {1, … , 𝑛}, 𝑝𝑖 ≥ 0 et ∑𝑛𝑖=1 𝑝𝑖 = 1

Ainsi, une variable aléatoire est totalement définie par sa loi de probabilité. Cette dernière est
caractérisée par :
- l'ensemble des valeurs qu'elle peut prendre (son domaine de définition 𝐷𝑋 ) ;
- les probabilités attribuées à chacune de ses valeurs 𝑃(𝑋 = 𝑥)
On peut la représenter :
- soit par un diagramme en bâtons. A chaque valeur de X est associé un trait (un bâton) dont la
hauteur est proportionnelle à 𝑃(𝑋 = 𝑥). On a par définition ∑𝑛𝑖=1 𝑝𝑖 = 1, c'est-à-
dire que la somme des longueurs de bâtons est égale à l'unité;
- soit par un polygone obtenu en joignant les sommets des bâtons.

La fonction de répartition F(x) d'une variable aléatoire discrète X fait correspondre à chaque valeur
xi de X la probabilité cumulée Pi d'obtenir xi. Dans le cas discret fini, on peut définir F(x) de la façon
suivante :
Si x  x1 F (x ) = P(X x)=0

j
Si xj x≤ xj+1 F(x)= P(X x)= p
i =1
i

….
Si xn x F(x)= P(X x)=1

La représentation graphique d'une fonction de répartition est la courbe en escalier.

40
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

Ce graphique montre la distribution de probabilités d’une variable aléatoire finie et la fonction de


répartition correspondante. La fonction de répartition est une fonction en escalier. Les discontinuités se
produisent pour les valeurs x possédant des probabilités non nulles. Pour chacune de ces valeurs de x, la
hauteur d’une discontinuité est la probabilité de x.
IV.2.2 Variable aléatoire continue

Dans l’étude des lois de probabilité continues, il apparait un nouveau concept : la densité de
probabilité. Pour bien comprendre ce dont il s’agit, imaginons que l’on s’intéresse à l’étude de la
distribution de la taille des congolais. Pour étudier cette distribution, on fait des classes de tailles, et on
compte le pourcentage d’individus qui appartiennent à cette classe. Une représentation graphique de
cette distribution est donnée par l’histogramme. Supposons maintenant que le nombre d’individus de la
population d’intérêt (ici les congolais) est infini. Un histogramme avec un nombre fini de classes nous
donne une piètre information sur la distribution de la taille. Pour être plus précis, on augmente le nombre
de classes et on diminue la taille de chaque classe. On obtient ainsi un histogramme plus précis. Que se
passe t-il quand le nombre de classes tend vers l’infini et que la taille de chaque classe tend vers zéro ? On
obtient une courbe limite, cette courbe limite est en fait une représentation graphique d’une fonction
appelée densité de probabilité.
Les valeurs de la variable aléatoire continue peuvent être toutes celles d'un intervalle réel. Si on
considère alors un intervalle ∆x, aussi petit que l'on veut, entourant une valeur x, il s'attache une
probabilité d'obtenir une valeur de la variable comprise dans cet intervalle. On peut donc affecter une
probabilité à tout intervalle contenant des valeurs possibles x de la variable X.
On définit la loi de probabilité de X, ou distribution de X, à l’aide d’une fonction𝑓(𝑥), appelée
densité de probabilité de X, telle que :

41
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

𝑏
∫𝑎 𝑓(𝑥)𝑑𝑥 = 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏)

- Cette courbe de densité de probabilité possède les propriétés suivantes :

(i) ∀𝑥 ∈ 𝑅, 𝑓(𝑥) ≥ 0 ;

(ii) f est continue sur R (sauf peut être en un nombre fini ou dénombrable de points pour lesquels
elle admet une limite finie à gauche et à droite) ;
+∞
(iii) ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
- la fonction de répartition F(x) devient elle aussi une courbe continue définie par 𝐹(𝑥𝑖 ) = 𝑃(𝑋 <
𝑥𝑖 )

Il en résulte que :

𝑃(𝑥𝑖 < 𝑥 < 𝑥𝑗 ) = 𝐹(𝑥𝑗 ) − 𝐹(𝑥𝑖 ) 𝑃(𝑥𝑖 < 𝑥 < 𝑥𝑖 + ∆𝑥) =


𝐹(𝑥𝑖 + ∆𝑥) − 𝐹(𝑥𝑖 ) = 𝑓(𝑥𝑖 )∆𝑥

La fonction de répartition d’une variable aléatoire continue possède les propriétés suivantes :
(i) F(x) est continue et croissante (sens large) sur R
(ii) lim 𝐹(𝑥) = 0 et lim 𝐹(𝑥) = 1
𝑥→−∞ 𝑥→+∞

(iii) F(x) est dérivable sur R (sauf peut-être sur un ensemble fini ou dénombrable I de points pour
lesquels elle est dérivable à gauche et à droite) et F (x ) est continue sur R/I.
𝑥
𝐹(𝑥) = 𝑃(𝑋 < 𝑥) = ∫−∞ 𝑓(𝑡)𝑑𝑡 où t est une variable muette.

Remarque :
1) Alors qu'en variable discrète, une probabilité pk déterminée s'attache à chaque valeur possible de
la variable, en variable continue la probabilité f (xi) d'avoir une valeur xi est nulle. En effet, la
probabilité n'a de sens que pour un certain intervalle ∆x de valeurs de la variable :
- ∀𝑥 ∈ 𝑅, 𝑃(𝑋 = 𝑥) = 0 donc 𝑃(𝑋 ≤ 𝑥) = 𝑃(𝑋 < 𝑥)
𝑏
- ∀ 𝑎 et 𝑏 ∈ 𝑅 (𝑎 < 𝑏), 𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎) = ∫𝑎 𝑓(𝑥)𝑑𝑥
Il est à noter que la vraie distinction entre variables continues et discrètes tient dans le calcul de la
probabilité ponctuelle. La probabilité d'un point c situé entre a et b serait lim 𝑃 (𝑎 < 𝑋 < 𝑏) = 0. Ainsi,
𝑏→𝑎
la probabilité d'une valeur est par définition nulle pour les variables continues. En réalité, il s'agit bien
souvent d'un problème de point de vue, voire d'échelle ou de précision de mesure. La probabilité que la
durée de vie d'un véhicule soit égale à 4 ans est loin d'être nulle (beaucoup de véhicules partent à la casse
au bout de 4 ans en Europe). En revanche, la probabilité que cette durée de vie soit exactement de
126144000 secondes (très approximativement 4 ans) est quasi-nulle (on peut difficilement dire à la
seconde près la perte d'un véhicule).
2) Entre f(x) fonction de "densité de probabilité" et F(x) la "fonction de répartition" on a les
relations :

42
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

dF ( x )
F ( x ) =  f ( x )dx et f ( x ) =
dx

Ce graphique montre la densité de probabilité et la fonction de répartition d’une certaine variable


aléatoire continue. La probabilité de l’intervalle [a b] est la surface sous la courbe de densité limitée par
cet intervalle. C’est aussi la différence des hauteurs F(b) - F(a) si on utilise la fonction de répartition.
Contrairement au cas des variables discrètes, la fonction de répartition est ici continue.

IV.3. CARACTERISTIQUES D’UNE VARIABLE ALEATOIRE


A partir de maintenant, on se permettra « d’alléger » la notation, en considérant que si X désigne
une variable aléatoire, ses réalisations possibles seront dénotées x, et sa loi de probabilité sera notée
simplement f(x) lorsque cela ne prête à aucune confusion.

43
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

IV.3.1. Les caractéristiques de tendance centrale

IV.3.1.1. Espérance mathématique

Soit 𝜑(𝑋) une fonction définie pour tout X appartenant au domaine de définition 𝐷𝑋 . On appelle
espérance mathématique de 𝜑(𝑋), que l’on note, [𝜑(𝑋)] l’expression : 𝐸[𝜑(𝑋)] = ∫𝐷 𝜑(𝑋)𝑓(𝑥)𝑑𝑥 =
𝑋

∫𝐷 𝜑(𝑋)𝑑𝐹(𝑥)
𝑋

L’espérance mathématique existe si l’intégrale est convergente. Elle est indépendante de 𝑥. En


particulier, si 𝜑(𝑋) = 𝑋 alors 𝐸(𝑋) = ∫𝐷 𝑥𝑓(𝑥)𝑑𝑥
𝑋

Lorsque X est une variable aléatoire discrète : 𝐸(𝑋) = ∑𝑛𝑖=1 𝑥𝑖 𝑓(𝑥𝑖 ).


Quelques caractéristiques :
• Espérance d’une constante : 𝐸(𝑎) = 𝑎
On peut en déduire que 𝐸[𝐸(𝑋)] = 𝐸(𝑋) puisque 𝐸(𝑋) n’est pas une variable aléatoire.
• Espérance d’un opérateur linéaire : 𝐸[𝑎𝑋 + 𝑏𝑌] = 𝑎𝐸(𝑋) + 𝑏𝐸(𝑌)
De manière générale, 𝐸[∑𝑖 𝑎𝑖 𝑋𝑖 + 𝑏] = ∑𝑖 𝑎𝑖 𝐸(𝑋𝑖 ) + 𝑏
• Espérance du produit de 2 variables aléatoires :
𝐸(𝑋𝑌) = 𝐸(𝑋)𝐸(𝑌) + 𝐶𝑜𝑣(𝑋, 𝑌)
Où Cov (X, Y) représente la covariance du couple (X, Y), elle est définie par :
- Dans le cas discret : ∑𝑖 ∑𝑗 𝑝𝑖,𝑗 (𝑥𝑖 − 𝐸(𝑋))(𝑦𝑗 − 𝐸(𝑌))
+∞ +∞
- Dans le cas continu : ∫−∞ ∫−∞ (𝑥 − 𝐸(𝑥))(𝑦 − 𝐸(𝑌))𝑓(𝑥, 𝑦)𝑑𝑥𝑑𝑦
En particulier, lorsque X et Y sont indépendants : 𝐸[𝑋𝑌] = 𝐸(𝑋)𝐸(𝑌)

IV.3.1.2. Le mode

On appelle mode (valeur dominante, valeur la plus probable) d’une variable aléatoire, la valeur
𝑀0 pour laquelle l’histogramme de fréquence présente son maximum.
Lorsque la variable aléatoire X est continue, avec une fonction de densité pourvue d’une dérivée
première et d’une dérivée seconde, le mode 𝑀0 satisfait à 𝑓 ′ (𝑀0 ) = 0 et 𝑓 ′′ (𝑀0 ) < 0
Dans le cas des variables discrètes, le mode 𝑀0 est la valeur de X associée à la plus grande
probabilité.

IV.3.1.3. Le quantiles

On appelle quantile ou fractile d’ordre 𝛼 (0 ≤ 𝛼 ≤ 1) d’une variable aléatoire X dont la fonction


de répartition est 𝐹(𝑥), la valeur 𝑥𝛼 telle que 𝐹(𝑥𝛼 ) = 𝛼 où 𝑥𝛼 est le quantile d’ordre 𝛼. Dans le cas où X
est une variable discrète, 𝐹(𝑥𝛼 ) = 𝛼 s’entend 𝑃(𝑋 < 𝑥𝛼 ) = 𝛼

44
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

• La médiane
La médiane est le quantile d’ordre 𝛼 = 0,5, en d’autres termes la médiane 𝑀𝑒 est définie par :
𝑀 +∝
∫−∝𝑒 𝑓(𝑥)𝑑𝑥 = 0.5 ou ∫𝑀 𝑓(𝑥)𝑑𝑥 = 0.5
𝑒

En pratique, pour une variable aléatoire discrète, la médiane 𝑀𝑒 est la première réalisation de X
pour laquelle la fonction de répartition F(X) dépasse 0,5. Si la fonction vaut exactement 0,5 pour certaines
réalisations, la médiane est alors le point milieu entre cette réalisation et la suivante.

• Les quartiles
Les quartiles, notées 𝑄𝑖 (respectivement 𝑖 = 1, 2, 3) correspondent aux quantiles d’ordre (𝛼 = 0, 25 ; 0,5 ;
0,75). Notons que 𝑄2 = 𝑀𝑒 .
• Les déciles
𝑘
Le k-ème décile (𝑘 = 1, . . , 9) est le quantile d’ordre 10

En particulier, le 5ème décile correspond à la médiane.

IV.3.2. Les caractéristiques de dispersion

IV.3.2.1. Les moments non-centrés d’ordre 𝒌

On appelle moment non-centré d'ordre 𝑘 de la variable aléatoire X, l'espérance mathématique de


𝑘
𝑋
- pour une variable aléatoire discrète : 𝛼𝑘 = ∑𝑛𝑖=0 𝑥𝑖𝑘 𝑓(𝑥𝑖 )
+∝
- pour une variable aléatoire continue : 𝛼𝑘 = ∫−∝ 𝑥 𝑘 𝑓(𝑥)𝑑𝑥
Cas particuliers : 𝑘 = 0, 𝛼0 = 1
𝑘 = 1, 𝛼1 = 𝐸(𝑋), l’espérance mathématique

IV.3.2.2. Les moments centrés d’ordre 𝐤

On appelle moment centré d'ordre k de la variable aléatoire X, l'espérance mathématique de


𝑘
(𝑥 − 𝜇) où μ = E(X)
- pour une variable aléatoire discrète : 𝜇𝑘 = ∑𝑛𝑖=0(𝑥𝑖 − 𝜇)𝑘 𝑓(𝑥𝑖 )
+∝
- pour une variable aléatoire continue : 𝜇𝑘 = ∫−∝ (𝑥 − 𝜇)𝑘 𝑓(𝑥)𝑑𝑥

Cas particuliers : 𝑘 = 2 le moment centré d’ordre 2 correspond à la variance de X 𝑉𝑎𝑟 (𝑋) = 𝛿 2 (𝑋) =
𝜇2
L’écart type est la racine positive de la variance 𝛿(𝑋) = √𝑉𝑎𝑟(𝑋)
Quelques caractéristiques de la variance :
• Variance d’une constante : 𝑉𝑎𝑟(𝑎) = 0
• Mise en facteur d’un coefficient non aléatoire : 𝑉𝑎𝑟(𝑎𝑋) = 𝑎2 𝑉𝑎𝑟(𝑋)

45
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

• Variance d’une somme des variables aléatoires : Pour 𝑍 = 𝑎𝑋 + 𝑏𝑌


𝑉𝑎𝑟(𝑍) = 𝑎2 𝑉𝑎𝑟(𝑋) + 𝑏 2 𝑉𝑎𝑟(𝑌) + 2𝑎𝑏𝐶𝑜𝑣(𝑋, 𝑌)
En particulier, si X et Y sont indépendants, 𝑉𝑎𝑟(𝑍) = 𝑎2 𝑉𝑎𝑟(𝑋) + 𝑏 2 𝑉𝑎𝑟(𝑌)
• Variance du produit de deux variables :
𝑉𝑎𝑟(𝑋𝑌) = 𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌) + 𝐸[𝑋]2 𝑉𝑎𝑟(𝑌) + 𝐸[𝑌]2 𝑉𝑎𝑟(𝑋)
Si les variables aléatoires sont centrées, c.à.d. 𝐸(𝑋) = 𝐸(𝑌) = 0 alors :
𝑉𝑎𝑟(𝑋𝑌) = 𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌)

IV.3.3. Les caractéristiques de forme ou coefficients de Fisher

IV. 3.3.1. Le coefficient d’asymétrie

Le coefficient d’asymétrie 𝛾1 est défini par rapport à l’espérance mathématique :


𝜇3 𝐸[(𝑋 − 𝐸[𝑋])3 ]
𝛾1 = =
𝜇2 √𝜇2 𝛿 3 (𝑋)
C’est une valeur sans dimension qui n’est pas affectée par un changement d’origine et d’échelle.
Selon la valeur du coefficient d’asymétrie, la fonction de densité (ou diagramme en bâtons) prend une
forme différente :
▪ 𝛾1 = 0, la distribution est symétrique et plus ou moins normale;
▪ 𝛾1 < 0, la distribution est penchée vers la gauche ;
▪ 𝛾1 > 0, la distribution est penchée vers la droite.

IV.3.3.2. Coefficient d’aplatissement

Il vise à situer la hauteur de la courbe de densité d’une loi par rapport à la référence qui est la loi
normale. Noté 𝛾2 , sa formule est la suivante :
𝜇4
𝛾2 = −3
𝜇22
C'est un coefficient sans dimension, invariant par changement d'échelle et de dimension. La
constant 3 a été choisie de manière à ce que le coefficient d'aplatissement de la loi normale soit égale à
𝛾2 = 0. Selon la valeur obtenue, on peut donc avoir :
▪ 𝛾2 = 0, la distribution mésokurtique ;
▪ 𝛾2 < 0, la distribution platykurtique;
▪ 𝛾2 > 0, la distribution de leptokurtique.

46
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

EXERCICES RESOLUS
1. Deux joueurs A et B lancent deux pièces de monnaie. Si les deux pièces tombent sur pile, A gagne, sinon
B gagne 12.000 francs congolais. Un jeu est équilibré si l'espérance de gain de chaque jouer est nulle.
Combien doit gagner A pour que le jeu soit équitable ?

Solution :

En lançant deux pièces de monnaie, nous attendons aux événements suivants {PP, PF, FP, FF} où par
exemple PF est l'événement : "La première pièce tombe sur pile et la seconde sur face".

Soit G le gain de A, G prend la valeur -12.000 si B gagne et g si A gagne.

La probabilité que A gagne est égale à 1/4 c'est-à-dire PP sur les 4 événements possibles, d'où le tableau
suivant :
Evénement E PF, FP, FF PP

Probabilité 𝑝𝑖 3/4 1/4

Gain G -12.000 g

Le jeu est équilibré si E (G) = 0, donc si ∑𝑖 𝑝𝑖 𝐺 = 0


3 1
On a donc : − 12.000. + .g = 0
4 4
Après calcul, on obtient g = 36.000 Fc, il faut que A gagne 36.000 Fc pour que le jeu soit équitable.

2. Lors d'une enquête, on a interrogé 5 hommes et 3 femmes. On choisit au hasard et sans remise les
personnes une à une jusqu'à l'obtention d'un homme, soit X le nombre des tirages nécessaires.

Déterminer les valeurs de X et sa loi de probabilité et calculer l'espérance mathématique, la médiane et


l'écart type de la variable X. Faites la représentation graphique de la loi de probabilité ainsi que de la
fonction de répartition de la variable X.

Solution

Le nombre de tirages minimum est égal à 1, et le nombre maximum est égal à 4 si les trois premiers tirages
correspondent au choix d'une femme. X prend les valeurs suivantes : 1, 2, 3 et 4.

P( X = 1) =
5
8

P( X = 2) =
3 5 15
. = , C’est-à-dire, la probabilité de choisir une femme parmi les 8 personnes, puis un
8 7 56
homme parmi les 7 personnes qui restent.
De même :

P( X = 3) =
3 2 5 5
. . = ,
8 7 6 56

P( X = 4) = . . . =
3 2 1 5 1
8 7 6 5 56

47
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

D'où le tableau suivant :


X≡ 𝑥𝑖 𝑃(𝑋 = 𝑥𝑖 ) = 𝑝𝑖 𝑝𝑖 𝑥𝑖 𝐹(𝑥𝑖 ) = 𝑃(𝑋 ≤ 𝑥𝑖 ) 𝑥𝑖2 𝑝𝑖

1 0,625 0,625 0,625 0,625

2 0,268 0,536 0,893 1,072

3 0,089 0,267 0,982 0,801

4 0,018 0,072 1 0,288

Total 1 1,5 2,786

𝐸(𝑋) = ∑𝑖 𝑥𝑖 𝑝𝑖 = 1,5 = 𝜇
Médiane Me = 1, c’est-à-dire la première utilisation de X dont la fonction de répartition dépasse 0,5.
𝑉𝑎𝑟(𝑋) = ∑𝑖 𝑥𝑖2 𝑝𝑖 − 𝜇2 = 2,786 – 1,52 = 0,536

Ecart type de X est égal à √0,536 = 0,73

3. Le salaire mensuel des fonctionnaires en République Démocratique du Congo (RDC) obéit à une loi dont
la fonction de répartition est de la forme :

F ( x ) = Ax
−1
2
+B
Où x désigne le salaire, A et B sont des constantes à déterminer.
F(x) donne la proportion des fonctionnaires dont le salaire X est inférieur à x.

60% des fonctionnaires ont un salaire inférieur à 16 dollars alors que 20% ont un salaire inférieur à 9
dollars. Le salaire d’un fonctionnaire en RDC est compris entre 0 et 36 dollars.

a) Déterminer A et B.
b) Soit X le salaire d’un fonctionnaire choisi au hasard en RDC : déterminer E(X), Var (X) et σ (X).

Solution

Nous avons une fonction de répartition de la forme F ( x ) = Ax


−1
2
+B

a) Nous savons que F (9 ) =


A
+ B = 0,2
9

F (16) =
A
+ B = 0,6
16
En résolvant ce système d’équation, on a : A = – 0,48 et B = 0,36

Donc F (x ) = −0,48 x
−1
2
+ 0,36
dF ( x )
b) Nous savons que = f ( x ) où f(x) est la fonction de densité de probabilité.
dx

48
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

f (x ) = − (− 0,48)x 2 −1 = 0,24 x 2 f (x ) = − (− 0,48)x − 2 −1 = 0,24 x − 2


1 1 3 1 1 3

2 2
36 36
E ( X ) =  0,24 x xdx = 0,48 x  = 2,88
−3 −1
2 2
  0
0

36
Var( X ) =  0,24 x x 2 dx − (2,88) = 26,27
−3 2
2

 ( X ) = 26,27 = 5;125
4. Une variable aléatoire continue X, de densité de probabilité f (x ) = A(2 − x ) est définie sur l’intervalle
0 à 2.
a) Calculer le facteur A de façon à ce que la fonction f(x) soit véritablement une densité de probabilité
sur l’intervalle indiqué.
b) Donner la fonction de répartition de la loi de probabilité en question.
c) Déterminer la somme des probabilités correspondant aux valeurs de X comprises entre 0,4 et 1,2.
d) Calculer l’espérance mathématique, le mode, la médiane, la variance et l’écart type de la variable X.

Solution
2
a) Il faut que:  A(2 − x )dx = 1
0

2
 x2  1
A2 x −  = 1 ce qui permet d' obtenir A =
 2 0 2
1
Il faut que A = pour que f(x) soit véritablement une densité de probabilité sur l’intervalle 0 à 2.
2
b) Fonction de répartition :
x
x
1 t2  1 x2 
F (x ) =  (2 − t )dt = 2t −  =  2 x − 
1
0 2 2 2 0 2  2

x2
F (x ) = x −
4
 1,22   0,42 
c) P (0,4<x<1,2) = F (1,2) − F (0,4) = 1,2 −  −  0,4 −  = 0,48
 4   4 
La somme des probabilités correspondant aux valeurs de x comprises entre 0,4 et 1,2 équivaut à la
probabilité que x soit comprise dans l’intervalle 0,4 et 1,2.
2 2
1 2 2
d) – E ( X ) = ( )
1 3 2
2 2 − x xdx =

2
x − x

0 3
=
0

49
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

– Le mode correspond à la valeur de x pour laquelle la fonction de densité atteint son maximum ;
f(x) atteint son maximum au point x = 0, d’où Mo= 0.
 M2  1
– La médiane Md est telle que F (M d ) =
1
donc  M d − d  =
2  4  2

En résolvant cette équation, on trouve deux racines (2 − )


2 , 2 + 2 et 2+ 2 est à rejeter,
car en dehors de 0,2 , ainsi la médiane Md est égale à 2 − 2 .
2
 2  1  2x x  4 2
2
12 2 3 4
– Var( X ) =  x (2 − x )dx −   =  −  − =
20 3 2 3 4 0 9 9

2
D’où l’écart type est
3

50
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

CHAPITRE V

DESCRIPTION DES DISTRIBUTIONS THEORIQUES

Le gouvernement a un bras long et un bras court; le long sert à prendre et se


rend partout, le court sert à donner, mais il atteint seulement ceux qui sont
tout près.

IGNAZIO SILONE

ENTREE EN MATIERE

A priori, les lois de distribution des phénomènes physiques, économiques, etc. sont innombrables.
Chaque cas semble particulier. En effet, quel rapprochement pourrait-on faire entre la durée de vie d'une
paire de chaussures et le temps d'attente à une caisse d'un grand magasin ?
En réalité, on se rend compte que la grande majorité des phénomènes statistiques peuvent être
décrits par un nombre réduit de modèles probabilistes. Il importe dans un premier temps de pouvoir
décrire de façon adéquate le mécanisme du processus réel étudié (temps d'attente, nombre de passages
dans un intervalle de temps, nombre d'essais avant d'obtenir tel résultat, etc.).
Dans un second temps, une fois cette caractérisation réalisée, nous pouvons choisir la loi
théorique qui paraît le mieux convenir pour modéliser le phénomène observé, l'étape suivante consistant
à estimer les paramètres de la loi.
Enfin, dans un troisième et dernier temps, nous devons nous assurer que le rapprochement entre
la loi théorique proposée et les données observées est statistiquement crédible.
Dans ce chapitre, nous présentons les lois de probabilités les plus souvent utilisées dans les
études. Elles permettent de modéliser une grande variété de problèmes. Mais l'intérêt de modèles
statistiques (ou encore des distributions théoriques ou des lois statistiques) n'est pas seulement
descriptif. Ils permettent en outre, à condition que soient stables les facteurs explicatifs qui justifient
l’ajustement à une loi statistique, de prévoir avec certaine probabilité ce qui se passera si certaines
données de l’expérience initiale changent.

Les modèles que nous allons examiner concerneront de fois des variables aléatoires discrètes
(distributions discrètes) et de fois des variables aléatoires continues (distribution continues).

V.1 LES DISTRIBUTIONS DISCRETES


V.1.1 Distribution uniforme discrète

a) Définition
Une variable aléatoire X admet une distribution uniforme discrète si les probabilités associées aux
valeurs x de X sont toutes égales entre elles.

51
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

b) Caractéristiques

Si l’ensemble des valeurs possibles de X contient n valeurs alors P( X = x ) =


1

n

Pour tout entier y appartenant à l’ensemble des valeurs de X : F (x ) =


y
▪ ,
x

F (x ) =
y
; y ≤x<y+1
x
Si y=n, F(x)=1 pour x ≥ n

n2 − 1 6(n 2 + 1)
E (x ) =
n +1  (x ) = 1 = 0 2 = −
2 12 5(n 2 − 1)

Loi de probabilité et fonction de répartition d’une loi uniforme discrète :

Notation : X ~ U (1,…, n).


V.1.2 Distribution de Bernoulli

a) Définition
Soit une expérience aléatoire pouvant donner lieu à deux événements complémentaires A et 𝐴̅
avec les probabilités respectives p et q (où 0 < p < 1 et q = 1 – p).
X est une variable de Bernoulli ou encore variable indicatrice lorsqu’elle prend la valeur 1 si A se réalise et
la valeur 0 dans le cas contraire.
b) Caractéristique

- La distribution de probabilité de X est définie par :


{(0, q) ; (1, p)}

- E( X ) = p  ( X ) = p.q

k  N  , k = p
k  N  , 
k = pq q k −1 − (− p )k −1 
- La fonction de répartition est donnée par :

52
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

0 , x 0

F (x ) = q ,0  x  1
1 ,1  x

Notation : X ~ 𝛣 (1, p)
V.1.3 Distribution binomiale : suite d’épreuves de Bernoulli

a) Définition
La loi binomiale est liée au schéma de Bernoulli lorsqu’on répète n fois une expérience aléatoire
dichotomique (un événement A se produit avec une probabilité p et ne se produit pas avec la probabilité
q = 1 – p), sous des conditions uniformes (p reste constant) et de manière indépendante (les résultats de
n répétitions de l’expérience sont indépendants).

Cette loi se place dans le contexte d’un prélèvement avec remise.

b) Caractéristiques
- La variable aléatoire ne peut prendre que des valeurs entières :
{0, 1, …., x, …., n}

- P( X = x ) = C n p x q n − x
x

- E( X ) = np  ( X ) = npq
q− p 1 − 6 pq
1 = 2 =
npq npq
- Si y est un entier de {0, 1,…, n} la fonction de répartition
y
F (x ) =  C j p j q n − j y  x <y+1
n

j =0

Si y = n, F (x ) = 1 pour x  n.
Notation : X ~ 𝛣 (n, p )

V.1.4 Distribution hypergéométrique

a) Définition
La loi binomiale s’applique à des prélèvements avec remise et si par contre ces prélèvements se
font sans remise (= prélèvement d’un seul coup de 𝑛 elements) dans une population de N individus dont
Np individus possède la propriété appelée « succès » et Nq ne la possède pas (N = Np + Nq), le nombre de
succès est alors une variable aléatoire X admettant une loi hypergéométrique.

53
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

b) Caractéristiques
- La variable aléatoire X prend toute valeur entière comprise entre [max (0, n–Nq) et min (n, Np)]
x n− x

- P( X = x ) =
C Np C Nq
n
CN
Np Np
E(X ) = n = np en posant p =
N N
N −n Nq
Var( X ) = npq en posant q =
N −1 N
Notation: X ~ H (N, n, p).
V.1.5 Distribution de Poisson

a) Définition et caractéristiques
La loi de Poisson (due à Siméon Denis Poisson en 1837) est la loi du nombre d’événements observé
pendant une période de temps donnée dans le cas où ces événements sont indépendants et faiblement
probables. Elle peut s’appliquer au nombre d’accidents, à l’apparition d’anomalies diverses, à la gestion
des files d’attentes, au nombre d’appels téléphoniques dans un intervalle de temps, etc.
Soit X la variable aléatoire représentant le nombre d’apparitions indépendantes d’un événement
faiblement probable dans une population infinie. La probabilité d’avoir 𝑥𝑖 apparitions de l’événement est:

e−  xi
pi = P( X = xi ) = où  est un paramètre réel positif et e le nombre de Neper.
xi !
E( X ) =  Var( X ) = 

1
1 = 2 =
1
 
x
e −  y
Si y est un entier naturel, la fonction de répartition F (x ) =  y! , y ≤ x < y+1
y =0

Notation : X ~ 𝑃 (𝜆)
V.1.6 Loi de Pascal

a) Définition
Comme la loi binomiale, cette loi se place dans le contexte d’un prélèvement avec remise. Elle
correspond à une procédure générale envisagée dans le schéma de Bernoulli lorsqu’on répète de façon
indépendante, une expérience aléatoire dichotomique « succès-échec » et la probabilité p de succès est
constante. Si on répète l’expérience autant de fois que nécessaire afin d’obtenir r succès, où r est un entier
fixé a priori. Le nombre de répétitions ou d’essais nécessaires pour obtenir r succès est une variable
aléatoire X distribuée selon la loi de Pascal.

54
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

b) Caractéristiques
- Les valeurs possibles de X sont (r, r + 1, …, x, …)

P( X = x ) = C x −1 p r q x − r
r −1
-

r (1 − p)
E(X ) = Var( X ) =
r
-
p p2

2− p 1 + 4(1 − p) + (1 − p )
2
- 1 = 2 =
r (1 − p) r (1 − p)

Notation : X ~Pascal (r, p)


Dans certains ouvrages, il peut y avoir confusion entre la loi de Pascal et la loi Binomiale négative. La
distinction est la suivante : la première indique le nombre d'essais nécessaires pour obtenir le r-ème succès ;
la loi binomiale négative correspond au nombre d'échecs précédent le r-ème succès. Si X suit une loi de
Pascal, 𝑌 = 𝑋 − 𝑟 suit une loi binomiale négative. Ainsi si on se replace dans le cadre du tirage de n
observations avec remise (tirages équiprobables et indépendants), on peut définir la variable de la loi
binomiale négative Y comme le nombre d’échecs rencontrés avant de prélever le r-ième succès. Et dans ce
cas, P(Y = y ) = C y + r −1 p r (1 − p ) y
r −1

V.1.7 La loi géométrique

Si r = 1, la loi de Pascal devient la loi géométrique. Elle correspond, par exemple, à un tirage avec
remise jusqu’à l’obtention de première boule blanche.
Notation: X ~ G (1, p).

V.2. LES DISTRIBUTIONS CONTINUES


V.2.1. La loi uniforme

a) Définition
Elle concerne des variables aléatoires qui varient entre deux valeurs limites [a, b] de telle façon
que la probabilité d’appartenir à un intervalle (x, x + dx) inclus dans [a, b] est constante quelle
que soit la valeur de x dans cet intervalle.
La principale caractéristique de la loi uniforme continue est que la probabilité d'être dans un intervalle
dépend uniquement de la largeur de l'intervalle et non de la position de l'intervalle dans le domaine de
définition. La fonction de densité prend une forme rectangulaire.
Ainsi une variable aléatoire continue X suit la loi uniforme sur l’intervalle réel [a, b], (a<b), si elle
admet pour densité de probabilité la fonction f de R dans R définie par :

55
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

 1
 b − a si a  x  b

f (x ) = 
0 sinon


b) Caractéristiques

E(X ) =
a+b
Var(x ) =
(b − a)
2
1 = 0 2 = −
6
2 12 5
Xp = a + p (b – a) où Xp st le quantile d’ordre p.
- Cette distribution est symétrique et ne possède pas de mode.
- La fonction de répartition F(x) est définie :

0 si x < a
x − a

F (x ) = 
b − a
1 si a ≤ x ≤ b

Densité de probabilité et fonction de répartition d’une loi uniforme continue:

si b < x

Notation: X ~ U (a, b)
V.2.2 La loi exponentielle

a) Définition et caractéristiques
La distribution exponentielle est la loi duale de la distribution géométrique décrite précédemment.
On l’utilise généralement pour modéliser des intervalles de temps aléatoires, par exemple des temps
d’attente, le temps entre deux échecs ou des durées de survie. Le temps entre l’occurrence de deux
événements successifs dans un processus poissonien se distribue également selon une loi exponentielle.
Ainsi une variable aléatoire continue X suit une distribution exponentielle négative de paramètre
θ, (θ >0) si elle admet pour densité de probabilité la fonction f de R dans R définie par :

0 si x  0

f (x ) = 
e −x si x  0

56
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

E(X ) = Var( X ) =
1 1
1 = 2 2 = 6
 2
Notation : X ~ Exp (θ).

V.2.3 La distribution normale (dite de Laplace-Gauss)

a) Définition et caractéristiques
C’est la plus important des lois de probabilité continues. Des questions tant théoriques que
pratiques font appel à cette loi (souvent loi limite).
Historiquement elle apparait vers 1773 comme la forme limite de la loi binomiale (Abraham de
Moivre). Gauss en 1809 et Laplace en 1812 lui donnèrent sa forme définitive.

Un grand nombre de variables quantitatives suivent une distribution normale, ce qui s’explique
par le fait que la valeur prise par la variable est affectée par un très grand nombre des causes
indépendantes, à effet additif, chacune d’entre elles ayant cependant un effet négligeable par rapport à
l’ensemble des autres.

Une variable aléatoire continue X suite une loi normale de paramètres μ et  (  R,   R+ ) si elle
admet pour densité de probabilité la fonction f de R dans R définie par :

 − (x −  )2 
f (x ) =
1
exp  ,x  R
 2  2
2

où π ≈ 3,1416 ; exp (y) représente une exponentielle encore noyée e y ; e étant le nombre de
Neper.
La courbe de densité définie par f(x) est symétrique par rapport à x = μ et son graphe est en forme
de cloche. Elle possède deux points d’inflexion distants de l’axe de symétrie d’une quantité égale à  .
𝐸(𝑋) = 𝜇 𝑉𝑎𝑟(𝑋) = 𝛿 2 𝛾1 = 0 𝛾2 = 0
Notation : X ~ N (  , ).

Figure 1 : N ( , 1) pour les valeurs de µ=-2 ; 0 et 2.

57
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

Figure 2 : N ( 0,  ) pour les valeurs de 𝛿 =0, 3 ; 1 et 2.

b) Distribution normale centrée réduite

On appelle loi normale centrée réduite, la distribution normale de moyenne nulle et de variance
égale à 1 :

Notation : Z ~ N (0,1).
Étant donné que la distribution normale dépend de  et  , il y a lieu de la standardiser afin d’utiliser la
table normale conçue à cet effet ; d’où l’utilité de la distribution normale centrée réduite.

Figure 3 : loi normale centrée réduite N (  , ).

Les probabilités correspondant aux divers intervalles ont été calculées et regroupées dans une table
numérique. Cette table permet à partir:

- d’une probabilité α donnée, de trouver les bornes[−𝑈𝛼 , +𝑈𝛼 ] d’un intervalle symétrique
autour de 0, tel que P (𝑡 ∉ [−𝑧𝛼 ; +𝑧𝛼 ]) = 𝛼 ;
- de 𝑈𝛼 de trouver α.

V.2.4 Loi de khi-deux

Cette loi joue un rôle important dans les tests statistiques et l’estimation d’une variance
gaussienne.

Soient 𝑋1 , … , 𝑋𝑛 n variables aléatoires indépendantes telles que 𝑋𝑖 ~𝑁 (0, 1) i


Alors 𝑋12 + ⋯ + 𝑋𝑛2 suit la loi de khi-deux à 𝑛 degrés de liberté, notée 𝜒𝑛2

58
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

 n2 est : f n2 (t ) = cnt
n −1 − t
La fonction de densité de probabilité de 2
e 2 où cn sont telles que
+
 f  2 (t )dt = 1.
0 n

Si X~  n2 alors E(X) = n et Var (X) = 2n. Si n>2, le mode est n - 2.


Pour n = 1, la courbe décroît de +∞ vers zéro de façon monotone ; pour n = 2, la courbe décroît de façon
monotone de 0,5 à zéro ; pour n > 2, la courbe part de 0, a son maximum pour x = n - 2, puis redescend
vers zéro.

La loi d’une variable X suivant un  n2 tend vers une loi normale lorsque n →+∞. On a donc, après
X −n
avoir centré et réduit cette variable : ~N(0,1)
2n
Dans la pratique, on utilise plutôt la variable Y= 2  2 − 2n − 1 dont on démontre qu’elle suit
approximativement une loi normale centrée réduite N (0, 1) dès que n  30.

De même que pour la loi normale centrée réduite, une table existe pour la loi du  n . Cette table
2

indique pour une probabilité α donnée, et un degré de liberté n, la valeur Kn, a telle que P (X > Kn, a )= a.
V.2.5 Loi de Student

Elle joue un rôle important dans l’estimation par intervalle de confiance et les tests d’hypothèses.
Elle est symétrique de moyenne nulle et dépend d’un paramètre n appelé nombre de degrés de liberté.
L’aspect de la courbe variera selon le nombre de degrés de liberté n (de façon générale, elle est plus aplatie
que N (0, 1) et quand n augmente (n > 30) les 2 courbes se confondent).

Si X suit N(0,1) et Y suit  2 (n ) et si X et Y sont des variables indépendants, alors la variable aléatoire 𝑇 = 𝑋

√𝑌⁄𝑛

suit une loi de Student à n degrés de liberté, notée 𝑡𝑛


− ( n +1)
 t2  2
La fonction de densité de probabilité de tn est : ft 2 (t ) = cn 1 +  où cn sont telles que
 n
n

+
 2 f (t )dt = 1.
− tn

𝑛
Si X ~ tn alors E(X)= 0 pour n > 1 et Var (X) = 𝑛−2 pour n > 2

V.2.6 La loi de Fisher-Snedecor


𝑋1⁄
Soient X1 ~  n1 et X2 ~  n 2 , deux variables aléatoires indépendantes. Alors 𝐹 = 𝑋2
2 2 𝑛1
suit une loi
⁄𝑛2

de Fisher–Snedecor à n1 et n2 degrés de liberté, notée F (n1, n2).


La fonction de densité de F(n1, n2) est :

59
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

n1
− ( n1 + n 2 )
f F (t ) = cn1 , n2 t 2 −1 ( n1t + n 2 )
,t  0
2

n1 2n22 (n1 + n2 − 2)
Si X ~ F (n1, n2) alors E (X) = si n2 > 2 et Var( X ) = si n2 > 4
n2 − 2 n1 (n2 − 2) (n2 − 4)
2

Il faut faire attention à l’ordre des degrés de liberté. Le premier degré de liberté (n1) est le degré de
liberté du numérateur, alors que le second (n2) est celui du dénominateur. En outre, on peut démontrer que
1
si X ~ F (n1, n2) alors ~ F (n2, n1)
x

EXERCICES RESOLUS
1. Soit X la variable aléatoire dont les valeurs sont les résultats du jet d’un dé bien équilibré.
a) Quelle loi soit la variable X ? Donner la loi de probabilité.
b) Calculer E (X), Var (X), 𝑥1⁄ , 𝑥1⁄ , 𝑥3⁄ , Mode, l’écart interquartile et le moment centré d’ordre 3.
4 2 4

Solution :

a) X ~ U (1,…, 6), la loi de X est une loi uniforme discrète.


X=x P (X=x) pix F (x) =P(X≤x) (𝑥 − 𝜇)2 (𝑥 − 𝜇)3

1 1/6 1/6 1/6 (−2.5)2 (−2.5)3

2 1/6 1/3 1/3 (−1.5)2 (−1.5)3

3 1/6 1/2 1/2 (−0.5)2 (−0.5)3

4 1/6 2/3 2/3 (0.5)2 (0.5)3

5 1/6 5/6 5/6 (1.5)2 (1.5)3

6 1/6 1 1 (2.5)2 (2.5)3

Total 1 E(x)=3,5

n +1 6 +1
b) E ( X ) =  = = = 3,5
2 2
n 2 − 1 36 − 1
Var( X ) = = = 2,92
12 12
- x 1 = correspond à la première réalisation de X pour laquelle la fonction de répartition dépasse 0,25 ;
4

x 1 = 2.
4

60
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

3+ 4
- x 1 = 3,5 puisque la fonction de répartition vaut exactement ½ pour x = 3 ; ainsi x 1 = = 3,5 .
2 2 2
- x3 = 5
4

- Cette distribution n’a pas de mode.


- L’écart interquartile vaut 3 c’est-à-dire x 3 − x 1 = 5 − 2 = 3 = 5 - 2 = 3
4 4

- μ3 = 0, ce qui confirme le caractère de symétrie de cette distribution puisque  1 = 0.

2. Soit X une variable aléatoire qui suit une loi de Bernoulli. Montrer que l’écart type de X est toujours
inférieur ou égal à 0,5.

Solution

L’écart type d’une variable de Bernoulli est égal à p.q avec q = 1–p. L’écart type est maximum si la
variance est maximum. Var (x) = p.q p (1–p) = p–p².
Considérons la variance comme une fonction y = p (1–p). On peut calculer les extrema de la fonction y en
calculant la dérivée première et la dérivée seconde :
dy dy 1
= 1 − 2 p donc s' annule pour p =
dp dp 2
d2y 1
2
= −2 donc y atteint son maximum au point p = .
dp 2

1 1
L’écart type de X est donc toujours inférieur ou égal à . = 0,5
2 2
3. Dix pour cent des électeurs d’une commune sont défavorables à un projet de référendum sur l’avenir
de la commune. On prélève, au hasard et avec remise, huit personnes dans le corps électoral de cette
commune. On demande la probabilité pour que, parmi ces huit personnes :

a) il y ait une unanimité pour le référendum


b) il y ait unanimité contre le référendum
c) il y ait une majorité pour le référendum
d) il y ait une majorité contre le référendum
e) il y ait autant de partisans que d’adversaires de ce référendum.

Solution

X ~ B (8 ; 0,1) où X représente le nombre de personnes défavorables au projet de référendum parmi les 8.

a) P(X=0) = C 8 (0,1) (0,9 ) = 0,98 = 0,4305


0 0 8

b) P(X=8) = 0,18  0
c) P(X<4) = P(X=0) + P(X=1) + (X=2) + P(X=3)

61
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

= 0,4305 + 0,3826 + 0,1488 + 0,03307


≈ 0,9950.
d) P(X>4) = P(X=5) + P(X=6) + P(X=7) + P(X=8)
≈ 0,0004
e) P(X=4) = C 8 0,14.0,9 4 = 0,4593
4

4. On choisit au hasard 10 étudiants dans une université pour un entretien. 1.650 étudiants sont inscrits en
graduat et 780 en licence. Soit X le nombre d’étudiants de graduat parmi les 10 personnes choisies.
a) Calculer la probabilité d’avoir 5 étudiants de graduat.
b) Calculer E(X) et Var (X).
c) Quelles sont les valeurs prises par X ?
Solution

Le tirage étant sans remise, X suit une loi hypergéométrique N= 1.650 + 780 = 2.430.
Np = 1.650, Nq= 780 et n= 10
X ~ H (2.430 ; 10 ; 0,679).
5 5

a) P( X = 5) =
C1650 C 780 , calcul fastidieux.
10
C 2430
n 10
En fait, Np et Nq sont grands et la valeur =  0,1 . Ceci permet d’approcher la loi
N 2.430
hypergéométrique par une loi binomiale B(10 ; 0,679).

D’où, P( X = 5) = C 10 (0,679 ) (0,321)  0,1239


5 5 5

b) E(x) = np= 10.0,679=6,79


2.430 − 10
Var( X ) = 10.0,679(0,321) = 2,17 .
2.430 − 1
c) Les valeurs prises par X sont comprises entre : Max (0, n–Nq) et Min (1.650, 10) donc X prend des valeurs
entières entre 0 et 10.

5. Lors d’un test d’accès à un ordinateur central par réseau télématique, on a constaté que 95% des essais
permettaient une connexion correcte. Une entreprise doit se connecter 4 fois dans la journée pour la
mise à jour de ses fichiers. Soit X le nombre d’essais nécessaires pour se connecter 4 fois.
a) Calculer P(X=4)

b) Calculer la probabilité de dépasser 6 essais.

c) Calculer E(X) et Var (X).

Solution

A chaque essai, la probabilité de se connecter est égale à 0,95. La variable aléatoire X suit la loi Pascal 4 et
p=0,95.

62
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

4 −1
a) P(X=4) = C 4 −1 0,95 4.0,05 0 = 0,95 4 = 0,815

81,5% de chances qu’en 4 essais qu’on puisse se connecter.


b) P(X > 6)= 1 − P( X = 4) + P( X = 5) + P( X = 6) = 1 − 0,815 + C 5−1 0,95 4.0,05 + C 6 −1 0,95 4.0,05 2
4 −1 4 −1

≈ 0,00223.

c) E ( X ) = Var( X ) =
r 4 4.0,05
= = 4,21 = 0,2218
p 0,95 0,952
6. Virginie a rendez-vous avec Paul à la sortie d’une université, jeudi à 16 h 30min. Mais, elle ne pourra pas
l’attendre plus de 5 minutes. Paul, qui est encore dans son lieu de travail, estime qu’il peut arriver sur le
lieu de rendez-vous à tout moment entre 16 h 25 min et 16h 40 min de manière équiprobable. Si cette
hypothèse est exacte, quelle est la probabilité que Paul rencontre Virginie ?

Solution

Soit X le nombre de minutes écoulées entre 16 h 25 min et l’arrivée de Paul. L’hypothèse de celui-ci revient
à supposer que X suit la loi uniforme U (0, 15). Paul et Virginie se rencontrent si Paul arrive avant 16 h 35
min, la probabilité cherchée est donc :
P (X< 10) = F (10).
Or la densité de probabilité de X est définie par :


 1 si 0  x  15
f (x) =  15

0 si non.
Et sa fonction de répartition est définie par :

0 si x  0

F (x ) =  x si 0  x  15
15

1 si x  15

D’où, P( X  10) = F (10) =


10
= 0,67
15
Donc, 67% de chances que Paul rencontre Virginie.

7. La force de résistance des tiges d’acier est distribuée normalement avec une moyenne de 90 kg et un
écart type de 20 kg. Quelle est la probabilité qu’une de ces tiges d’acier ait une force de résistance :

a) de 90 kg à 114 kg,
b) de 95 kg à 110 kg,
c) de 80 kg à 110 kg,

63
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

d) supérieur à 70 kg,
e) supérieur à 100 kg.

Solution

Soit FR la force de résistance, FR ~ N (90, 20) et les calculs de probabilité se font à l’aide d’une table qui
nécessitent que nos valeurs soient standardisées en variable :
Z ~ N (0, 1) ; d’où :

 90 − 90 114 − 90 
a) P(90  X  114) = P Z   = P(0  Z  1,2) = 0,3849
 20 20 

 95 − 90 110 − 90 
b) P(95  X  110) = P Z   = P(0,25  Z  1)
 20 20 
= P(0  Z  1) − P(0  Z  0,25) = 0,3413 − 0,0987 = 0,2426

 80 − 90 110 − 90 
c) P(80  X  110) = P Z   = P(− 0,5  Z  1)
 20 20 
= P(0  Z  10,5) + P(0  Z  1) = 0,1915 + 0,3413 = 0,5328

 70 − 90 
d) P( X  70) = P Z   = P(Z  − 1) = P(0  Z  1) + 0,5 = 0,8413
 20 

 100 − 90 
e) P( X  100) = P Z   = P(Z  0,5) = 0,5 − P(0  Z  0,5)
 20 
= 0,5 − 0,1915 = 0,3085

64
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

CHAPITRE VI

ECHANTILLONNAGE ET DISTRIBUTION
D’ECHANTILLONNAGE

La seule certitude réside dans une forte probabilité.

E.W. HOWE

ENTREE EN MATIERE

Si nous possédons une connaissance parfaite des choses, la plupart des problèmes du monde
seraient réglés, puisqu’une connaissance parfaite est synonyme de certitude.
Cependant, il est bien rare que l’on possède cette connaissance parfaite, et la personne qui doit
prendre une décision doit souvent le faire en se basant sur des résultats d’échantillonnage, c’est-à-dire la
personne ne dispose que d’une information partielle sur le phénomène étudié.
Le concept d’échantillon est souvent opposé à celui de recensement. Un recensement est destiné
à établir une observation exhaustive de tous les éléments d’une population. En revanche, le sondage,
méthode qui va permettre de construire un échantillon, ne prélèvera qu’une partie des informations
existantes.
Si le recensement se révèle théoriquement meilleur qu’un sondage parce qu’il est exhaustif, il n’en
est pas moins vrai que le second se voit souvent préféré.
Plus facile à obtenir, d’un coût moins élevé, obtenu avec un temps relativement court, il évite la
destruction des éléments de la population dans certains cas, il peut aussi être confié à une équipe réduite,
plus spécialisée, plus motivée.
D’une façon générale, l’inférence statistique est constituée de l’ensemble des méthodes
statistiques qui ont pour but de tirer des conclusions, ou d’aider à prendre des décisions au sujet d’une
population à partir d’une information partielle.
L’échantillonnage a pour objectif de choisir une partie de la population qui reproduit le plus
fidèlement possible les caractéristiques de la population.
Pour pouvoir porter un jugement sur la population en se basant sur des résultats d’échantillons, il
est nécessaire que les résultats d’échantillon soient aussi représentatifs que possible de la population d’où
est tiré l’échantillon.

VI.1 QUELQUES DÉFINITIONS

• Un échantillon de taille n (1 ≤ n < N) est une liste de n individus (i1,…,in) extraits de la population -mère.
𝑛
• Le rapport 𝑡 = de l’effectif n de l’échantillon à l’effectif N de la population, dans laquelle il a été
𝑁
prélevé, est appelé taux d’échantillonnage ou fraction de sondage.
• On appelle base de sondage, la liste exhaustive des individus de la population – mère ; dans laquelle
chaque individu est représenté par son nom ou par un (et un seul) numéro compris entre 1 et N ;

65
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

• Un paramètre est une caractéristique de la population (  ,  2 , N ,... ) tandis que les mesures utilisées

pour décrire un échantillon sont appelées des statistiques ( x , s2 , n,…).


• L’erreur d’échantillonnage est une erreur résultant du fait qu’on utilise le résultat d’un échantillon à la
place d’un recensement de la population.

VI.2 METHODES D’ECHANTILLONNAGE

Une méthode de sondage consiste à définir la façon dont on doit prélever des individus (des
valeurs) dans une population afin de constituer un échantillon.

Il existe plusieurs méthodes pour choisir un échantillon d’une population. Ces méthodes peuvent
être regroupées en deux catégories.

VI.2.1 L’échantillonnage aléatoire

Un sondage est dit aléatoire ou probabiliste si chaque individu de la population a une probabilité
connue et non nulle d’appartenir à l’échantillon.

Les éléments sondés sont extraits au hasard d'une liste connue a priori de la population, appelée
base de sondage.
Exemples : 1. Liste d'immatriculation des véhicules automobiles en RD Congo.
2. Liste des étudiants inscrits régulièrement dans une université.

Les bases de sondages sont en général établies à partir des résultats d'un recensement et elles sont
corrigées périodiquement entre deux recensements. Le tirage de l'échantillon est effectué dans la base
de sondage selon des critères spécifiques à chaque méthode (plan de sondage).

Parmi les diverses méthodes utilisées pour obtenir un échantillon aléatoire, les principales sont les
suivantes : l’échantillonnage aléatoire simple, l’échantillonnage stratifié, l’échantillonnage par grappes et
l’échantillonnage systématique.

- L’échantillonnage aléatoire simple

Un sondage aléatoire est dit simple (SAS) si tous les échantillons de taille n fixée à priori, prélevés
au sein d’une population d’effectif N, sont réalisables avec la même probabilité et tous les éléments de la
population ont une chance égale de faire partie de l’échantillon. On parle donc d’un sondage à probabilités
égales (PE) qui peut être avec remise (PEAR) et sans remise (PESR).

Dans un échantillon aléatoire simple, les éléments constituant l'échantillon sont extraits au hasard
(à l'aide d'une table de nombres au hasard, par exemple) d'une liste de la population. On extrait ainsi n
individus d'une population de taille N.
Nous voulons extraire un échantillon de 10 individus dans une population formée de 500 individus.
Nous numérotons les individus de la population de 1 à 500.
Nous considérons trois colonnes consécutives d'une page de nombres au hasard : ils forment des
nombres au hasard à trois chiffres. Nous lisons ces nombres de trois chiffres en ne retenant que ceux qui

66
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

sont compris entre 001 et 500. Lorsque nous avons retenus 10 nombres, notre échantillon est constitué
des 10 individus désignés dans la population par ces dix nombres. Selon que nous effectuons un tirage
avec ou sans remise, nous garderons ou écarterons un individu déjà tiré.
L'inconvénient majeur de la méthode aléatoire simple est son coût : les individus tirés peuvent
être très éloignés géographiquement.

- L’échantillonnage stratifié

Cette méthode d’échantillonnage consiste d’abord à subdiviser la population en sous-groupes U


h relativement homogènes ou strates. Par la suite, on extrait de chaque strate un échantillon aléatoire ; le

regroupement de tous ces échantillons constitue l’échantillon stratifié.


Il existe deux modes de prélèvement d’un échantillon stratifié ; le premier où les taux de sondage
𝑛ℎ
𝑓ℎ = 𝑁ℎ
sont les mêmes dans toutes les sous-populations, c’est le sondage stratifié proportionnel (STP)
et le second où il faut trouver les effectifs 𝑛ℎ qui rendent minimum la variance de l’estimateur 𝜇̂ 𝑆𝑇 de μ
c’est-à-dire, 𝑉(𝑋̅𝑆𝑇 ) sous la contrainte que la somme des effectifs 𝑛ℎ est égale à l’effectif global n ; c’est
le sondage stratifié optimal (STO).

Cette méthode se justifie par deux raisons essentielles :

- L'existence d'une stratification de fait, soit pour des raisons géographiques, soit pour des raisons
administratives. Exemple : enquête sur les conditions de vie des fonctionnaires en RD Congo. La
population est celle des fonctionnaires en RD Congo. Les strates sont les populations de
fonctionnaires dans chaque province du pays.
- Un caractère étudié dans la population peut varier sous l'influence d'un certain nombre de facteurs.
Pour éliminer au mieux les risques de biais, nous créons des strates homogènes et, dans chacune
d'elles, nous extrayons un échantillon aléatoire simple. Pour étudier la consommation de tabac, si
nous estimons que l'âge et le sexe sont des facteurs très influents, nous partageons la population en
strates du type :
– Hommes de moins de 20 ans ; – Hommes de 20 à 30 ans ; – etc.
– Femmes de moins de 20 ans ; – Femmes de 20 à 30 ans ; – etc.
De chaque strate, nous extrayons un échantillon aléatoire simple.

- L’échantillonnage par grappes

Cette méthode consiste à tirer au hasard des grappes ou familles d’individus, et on examine tous
les individus de la grappe (exemple: on tire des immeubles puis on interroge tous les habitants). La
méthode est d’autant meilleure que les grappes se ressemblent et que les individus d’une même grappe
sont différents, contrairement aux strates.

- L’échantillonnage systématique

Selon cette méthode, on choisit les unités dans la population à des intervalles fixes en termes de
temps, d’espace ou d’ordre d’occurrence.

Les individus de la population 𝑃 sont numérotés de 1 à N.

67
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

𝑁
Pour sélectionner n individus, nous partageons la population en 𝑘= 𝑛
groupes : {1, ..., k},
{1 + k,..., 2 k}, ..., {1 + (n – 1) k, ..., N}. Nous choisissons au hasard l'individu i par les individus numérotés de
1 à k. Nous constituons notre échantillon des individus {i, i + k, i + 2 k, ..., i + (n – 1) k}. Le choix de l'individu
i détermine entièrement la constitution de l'échantillon.
Cette méthode est bien adaptée à la sélection de cartes dans un fichier, ou au prélèvement de
pièces dans une fabrication pour un contrôle de qualité. Elle présente une certaine analogie avec la
méthode précédente d'échantillonnage stratifié.
VI.2.2 L’échantillonnage non aléatoire ou sondage raisonné

Ce sont les plus connues du grand public et les plus utilisées par les instituts de sondage d'opinion.
La précision de ces méthodes ne peut être calculée et leur réussite n'est que le résultat d'une longue
pratique et de l'habileté professionnelle. Les éléments sondés sont choisis dans la population suivant des
critères fixés à pirori.

VI.3 DISTRIBUTION D’ECHANTILLONNAGE

D’une façon générale, lorsqu’on utilise une statistique en inférence, on s’intéresse non seulement
à ses caractéristiques mais aussi à sa distribution, et la distribution de probabilité de n’importe quelle
statistique est appelée distribution d’échantillonnage.

VI.3.1 Distribution d’échantillonnage des moyennes

Le problème de l'échantillonnage des moyennes consiste à obtenir des informations sur les
moyennes des échantillons de n individus lorsque la moyenne et l'écart-type de la population sont connus.
L'idée est de considérer les moyennes des échantillons de taille n comme des réalisations d'une variable
aléatoire.

On étudie un caractère numérique associé à chaque individu. Ce caractère numérique permet de


définir une variable aléatoire X qui associe à chaque individu pris au hasard dans la population, la valeur du
caractère étudié. Supposons que, pour tout ∈ ℕ ∩ [1, 𝑁] , 𝑥𝑖 soit la valeur du caractère pour l'individu
𝐼𝑖 de la population. On a alors la correspondance entre statistique et probabilités :

1 1
𝐸(𝑋) = 𝑁 ∑𝑁 𝑁 2
𝑖=1 𝑥𝑖 = 𝜇 et 𝛿(𝑋) = √𝑁 ∑𝑖=1(𝑥𝑖 − 𝜇) = 𝛿

On considère les variables aléatoires 𝑋𝑖 de même loi que X. Toutes les fois qu’un échantillon de taille
n est effectivement constitué, on a une réalisation de la suite de variables aléatoires (𝑋𝑖 ), 𝑖 ∈ ℕ ∩ [1, 𝑛],
la variable aléatoire 𝑋𝑖 prenant alors la valeur du caractère pour l’individu numéro i de l’ échantillon.
1
Posons 𝑋̅ = 𝑛 ∑𝑛𝑖=1 𝑋𝑖 Alors la moyenne d’un échantillon de taille n est une réalisation de 𝑋̅ et 𝑋̅ est
la distribution d’échantillonnage des moyennes dans les échantillons de taille n.

Cas 1 : Population normale

Lorsque la variable X que l’on étudie dans la population suit une distribution normale de moyenne μ et
de variance  2 , alors la moyenne 𝑋̅ d’un échantillon aléatoire de taille n tiré de cette population suit une

68
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

𝛿2
distribution normale de moyenne μ et de variance 𝑛
pour les échantillons non exhaustifs ou si
𝑛 𝛿 2 𝑁−𝑛
𝑁
≤ 0.05 ou .
𝑛 𝑁−1
pour les échantillons exhaustifs.

Cas 2 : Population non normale, n grand (n  30)

Si n est grand (quelle que soit la distribution de X), alors on a approximativement X qui suit
𝛿 𝛿 𝑁−𝑛
𝑁 (𝜇, ) pour les échantillons non exhaustifs et X qui suit 𝑁 (𝜇, √ ) pour les échantillons
√𝑛 √𝑛 𝑁−1

exhaustifs.
On peut aussi montrer que les coefficients d’asymétrie et d’aplatissement de 𝑋̅ sont respectivement :
𝛾 𝛾 −3
𝛾1 (𝑋̅) = 1 et 𝛾2 (𝑋̅) = 3 + 2
√𝑛 𝑛

VI.3.2 Distribution d’échantillonnage des proportions

On suppose cette fois que l'on étudie la présence d'un caractère qualitatif parmi les N individus de la
population. On suppose que p est la fréquence de ce caractère dans la population. Pour une population
finie, ce qui est le cas de toute population concrète, p est la proportion d'individus de la population
présentant le caractère étudié. Soit X la variable aléatoire qui à un individu donné de la population, associe
la valeur 0 lorsque l'individu ne présente pas le caractère étudié, et la valeur 1 lorsque l'individu présente
le caractère étudié.
Lorsqu’on considère que la variable X étudiée dans une population est une variable de Bernoulli c’est-à-
dire variable définie par :
𝑃(𝑋 = 1) = 𝑝 et 𝑃(𝑋 = 0) = 1 − 𝑝

On a alors 𝐸(𝑋) = 𝑝 et 𝛿(𝑋) = √𝑝(1 − 𝑝)

Soient 𝑋1 , … , 𝑋𝑛 , n variables aléatoires de même loi que X. On remarque que la variable aléatoire
1
∑𝑛𝑖=1 𝑋𝑖 suit la loi binomiale 𝐵 (𝑛, 𝑝). On pose à nouveau ̅𝑋 = ∑𝑛𝑖=1 𝑋𝑖 . Les
𝑛
fréquences d’apparition du caractère dans les échantillons de taille n sont les réalisations de la variable
aléatoire 𝑋̅.

D’autre part, comme ∑𝑛𝑖=1 𝑋𝑖 suit la loi binomiale 𝐵 (𝑛, 𝑝) alors :


𝑛
𝑘
𝑃 (𝑋̅ = ) = 𝑃 (∑ 𝑋𝑖 = 𝑘) = 𝐶𝑛𝑘 𝑝𝑘 (1 − 𝑝)𝑛−𝑘
𝑛
𝑖=1
𝑝(1−𝑝)
Si donc 𝑋 suit 𝐵(1, 𝑝) et si n est grand, alors on a approximativement 𝑋̅ qui suit (𝑝, √ 𝑛 ) auquel il
faut ajouter le facteur de correction pour les échantillons exhaustifs.
VI.3.3 Distribution d’échantillonnage de différence des moyennes

Il arrive souvent en statistique que l’on désire comparer deux populations relativement
à une certaine caractéristique. Cette caractéristique X lorsqu’elle est considérée dans la première
population, elle est notée X1 et elle est notée X2 dans la deuxième population. On va supposer que les
moyennes et les variances de ces deux populations sont : 𝜇1 , 𝛿12 et 𝜇2 , 𝛿22 respectivement. Pour
comparer ces deux populations, on tire indépendamment un échantillon aléatoire de taille 𝑛1 dans la

69
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

première, et un échantillon de taille 𝑛2 dans la deuxième population et on est alors amené à considérer
la distribution de la différence (𝑋̅1 − 𝑋̅2 ) entre les deux moyennes échantillonnales.

Cas 1 : Populations normales de variances connues

Si les variables X1 et X2 étudiées dans chacune de ces populations sont normales, alors la différence

(X 1 )
− X 2 suit une distribution normale de moyenne (1 − 2 ) et de variance
12
n1
+
 22
n2
.

Cas 2 : Populations non normales de variances connues avec n1 et n2 grands

Si les tailles 𝑛1 et 𝑛2 sont grandes, (quelles que soient les distributions de 𝑋1 et 𝑋2 ) alors on a

approximativement (X 1 − X2 ) 

qui suit 1 −  2 ,

12  22 
n
+
n 
.
 1 2 
VI.3.4 Distribution d’échantillonnage de différence de proportions

Si X1 suit B(1, p1 ), X 2 suit B(1, p2 ). . Et si les tailles 𝑛1 et 𝑛2 sont grandes, alors

(X 1 )  pq p q
− X 2 suit N  p1 − p2 , 1 1 + 2 2
n1 n2

 où q1 = 1 − p1 et q2 = 1 − p2 .

 

VI.4 LE THEOREME CENTRAL LIMITE

Nous allons maintenant formaliser les concepts présentés dans les sections précédentes en énonçant ce
que l’on appelle le théorème central limite. Ce théorème énonce les principes suivants :

▪ La moyenne de la distribution d’échantillonnage des moyennes est égale à la moyenne de la


( )
population E X =  X = 

▪ Son écart type est égal :

 pour un sondage de type PEAR ou si n  0,05.



 n N
X = 

 N −n
pour un sondage de type PESR.

 n N −1
▪ Si la taille n de l’échantillon est suffisamment grande (n ≥ 30); la distribution d’échantillonnage des
moyennes s’approche d’une distribution normale et ce, quelle que soit la distribution de la population,
sauf si elle est normale, car, dans ce cas, la distribution d’échantillonnage est une distribution normale
quelle que soit la taille de l’échantillon.

70
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

EXERCICES RESOLUS
1. Un fichier informatique contient les vingt enregistrements suivants :
Numéro Nom Statut Numéro Nom Statut
1. MUBENGA Ouvrier 11. TUTONDA Employé
2. LUMPUNGU Employé 12. MUSONGELA Cadre
3. MAYANONUSUA Ouvrier 13. ITEMA Ouvrier
4. BIAYA Cadre 14. MUKELENGE Ouvrier
5. BALONDO Ouvrier 15. NGALULA Ouvrier
6. ODIA Cadre 16. KAZUMBA Employé
7. MPANYA Cadre 17. MASUKA Ouvrier
8. MUNONGO Ouvrier 18. LUNTADILA Ouvrier
9. MARHEGEKO Ouvrier 19. KASHALA Ouvrier
10. KASSANGA Employé 20. MASENGU Ouvrier

Avec cette base de sondage,


a) Combien peut-on avoir d’échantillon exhaustif de taille 4 ?
b) Combien peut-on avoir d’échantillon non exhaustif de taille 4 ?
c) Quel est le pourcentage d’ouvriers, d’employés, des cadres ? Combien y a-t-il d’échantillon
exhaustif qui respecte cette répartition ?
d) A l’aide de la table de nombres aléatoires, construire un échantillon aléatoire de taille 8. Est-il
exhaustif ?
e) On veut réaliser un échantillonnage de taux de 25%. Construire un échantillon systématique à
partir de l’enregistrement n° 2 de taille 5.

Solution

C N + n −1 = C 20+ 4 −1 = C 23 = 8.855
n 4 4
a) (Ceci correspond à une combinaison avec répétitions de n
éléments choisis parmi N, donc une liste non ordonnée, avec répétitions éventuelles des
éléments).
N.B : Pour dénombrer, on essaiera de se ramener à l’un des modèles suivants :

* Tirage des éléments parmi N :

Tirages Ordonné Non ordonné


n n
Sans remise AN CN
n n
Avec remise N C N + n −1
b) Il y a 60% d’ouvriers, 20% d’employés, 20% de cadres. Dans un échantillon de taille 5 pour respecter
cette répartition, il faut prélever 0,6 x 5 = 3 ouvriers, 0,2 x 5 = 1 employé et 0,2 x 5 = 1 cadre. Le

71
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

nombre d’échantillon exhaustif de taille 5 respectant la répartition est égal à :

C12 C 4 C 4 = 3.520 .
3 1 1

c) Pour construire un échantillon aléatoire de taille 8 à l’aide d’une base de sondage de taille 20, il
faut choisir aléatoirement 8 nombres entre 1 et 20. On peut partir d’un élément quelconque de la
table et regrouper les chiffres deux par deux ;
▪ Si le nombre obtenu k est entre 1 et 20, on extrait de la base de sondage l’individu numéro k,
▪ Si le nombre obtenu k n’est pas entre 1 et 20, on ignore k

d) Le taux t est égal à 25%, donc k = 1 / 0,25 = 4 .

Le premier individu choisi étant l’individu numéro 2, on retient les individus numéros 2, 6, 10, 14,
18.

e) D’où l’échantillon : 02. LUMPUNGU employé, 06. ODIA cadre ; 10. KASSANGA employé ; 14.
MUKELENGE ouvrier ; 18. LUNTADILA ouvrier…

2. Soit une population d’âges constituée de 4 valeurs : 16, 18, 32, 54. On désire y prélever:

a) Un échantillon simple avec remise d’effectif n= 2 ;

b) Un échantillon simple sans remise d’effectif n= 2 ;

Déterminez dans chaque cas:

1. tous les échantillons possibles ainsi que leur moyenne

2. E ( X ) et VAR ( X )

Solution

Nous avons dans la population :

X X2

16 256

18 324

32 1.024

54 2.916

 X = 120  X 2 = 4.520
Var( X ) =
120 4.520
= 30, − 302 = 230
4 4
1) a) Le tirage de l’échantillon est effectué avec remise, on a donc N n = 42 = 16 échantillons simples
avec remise d’effectif 2.

72
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

2
Echantillons Moyenne échantillonnale X X
1. (16,16) 16 256

2. (16,18) 17 289

3. (16,32) 24 576

4. (16,54) 35 1.225

5. (18,16) 17 289

6. (18,18) 18 324

7. (18,32) 25 625

8. (18,54) 36 1.296

9. (32,16) 24 576

10. (32,18) 25 625

11. (32,32) 32 1.024

12. (32,54) 43 1.849

13. (54,16) 35 1.225

14. (54,18) 36 1.296

15. (54,32) 43 1.849

16. (54,54) 54 2.916

Toutes les moyennes échantillonnales forment une distribution appelée distribution d’échantillonnage
des moyennes notée X , ainsi :

( )
E X =
480
16
= 30

Var X =( ) 16 x 240
16
− 302 = 115

b) Le tirage de l’échantillon est effectué sans remise donc on a :

C N = C 4 = 6 échantillons simples sans remise d’effectif 2.


n 2

73
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

2
Echantillons X X
17 289
1. (16,18)
2. (16,32) 24 576
3. (16,54) 35 1225
4. (18,32) 25 625
5. (18,54) 36 1296
6. (32,54) 43 1849

( )
E X =
180
6
= 30

( )
Var X =
5.860
6
− 302 = 76,67

L’espérance de X pour le cas PEAR et PESR est égale à la moyenne de la population μ = 30. Par ailleurs la
variance de X est inférieure pour le cas PESR par rapport à un prélèvement avec remise. La dispersion
de X autour de μ est plus faible : l’erreur d’échantillonnage apparaît comme plus petite pour le cas PESR
3. Dans le tableau ci-dessous apparaissent les âges de six politiciens formant une population.
Politiciens Age
A 30
B 50
C 60
D 34
E 33
F 29
Pour accéder au poste du gouverneur, l’âge minimum requis est de 35 ans.
a) Quel pourcentage de notre population de politiciens peut accéder, cette année, au poste du
gouverneur.
b) Si on prélève des échantillons aléatoires de taille 2 dans la population ci-dessus, quels seront la
moyenne et l’écart type des pourcentages échantillonaux ?

Solution

Considérons la variable X dans la population comme une variable de Bernoulli, c’est-à-dire une variable
définie par :

1 si l′ âge de l′ individu est superieur à 35


𝑋={
0 si l′ âge de l′ individu est inferieur à 35

Avec la distribution de probabilité donnée par :

𝑋 = 𝑥𝑖 1 0
𝑃(𝑋 = 𝑥𝑖 ) 2/6 4/6

74
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

a) Le pourcentage des politiciens pouvant accéder au poste du gouverneur sera :


2
.100 = 33,33 %
6

b) Soit p la moyenne des pourcentages échantillonaux

2
 p = p = .100 = 33,33 %
6
0,33(1 − 0,33) 6 − 2
et p = = 0,2981.100 = 29,81 %
2 6 −1

75
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

CHAPITRE VII

ESTIMATION STATISTIQUE

Estimer ne coûte presque rien, estimer incorrectement coûte cher.

Vieux proverbe chinois.

ENTREE EN MATIERE

Après avoir défini la nature d’un échantillon aléatoire ainsi que les notions connexes à celle
d’échantillon, on est maintenant en mesure d’aborder l’inférence statistique. Celle-ci regroupe l’ensemble
des méthodes qui, à partir d’un échantillon prélevé dans une population, permettent de tirer des
conclusions soit sur les paramètres d’une variable étudiée dans cette population, (inférence
paramétrique) soit sur la distribution ou tout autre aspect de cette variable (inférence non paramétrique).
Dans l’inférence paramétrique, on pose l’hypothèse selon laquelle la forme de la distribution de la
population est connue et l’on essaie de tirer des conclusions sur certains paramètres inconnus de cette
distribution.
Par contre, dans l’inférence non paramétrique, on ne fait pas d’hypothèse sur la distribution de la
population et l’on essaie de tirer des conclusions, non plus sur les paramètres, mais sur n’importe quel
autre aspect de la population.
L’inférence statistique est divisée en deux grandes parties : l’estimation et les tests d’hypothèses.
En estimation, on supposera que l’on ne connaît rien du paramètre, et l’on cherche à l’estimer au moyen
d’une statistique définie à partir d’un échantillon aléatoire. Dans le contexte d’un test d’hypothèse, la
situation se présentera différemment, on supposera au départ que l’on a une certaine connaissance de la
(des) valeur(s) du paramètre, et l’on essaie d’en vérifier la véracité à partir de l’information obtenue à partir
d’un échantillon aléatoire tiré de cette population. Cette (ces) valeur(s) constituent l’hypothèse de base.

VII.1 INTRODUCTION
Les problèmes d’estimation sont fréquents aussi bien dans la vie de tous les jours que dans le
monde des sciences, de gestion, etc. En effet, avant de traverser la rue maintenant, nous devons estimer
la vitesse de l’auto qui arrive, la distance qui nous sépare de cette auto, et le temps qu’il nous faut pour
traverser cette rue. Sur la base de ces estimations, nous décidons de traverser la rue maintenant, ou
d’attendre que l’auto soit passée.
Un gérant des ventes doit pouvoir régulièrement prévoir les ventes des mois à venir pour être en
mesure de répondre à la demande, etc.
D’une manière générale, on procède de la façon suivante face à une population dans laquelle on
étudie un certain caractère X, on suppose comme la forme de la distribution de X (il peut s’agir par
exemple d’une distribution de Poisson ou normale), mais la (ou les) valeur(s) d’un (ou plusieurs)

76
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

paramètre(s) de cette distribution est (sont) inconnue(s).On distingue par  le paramètre inconnu ; il peut
s’agir, par exemple, du paramètre d’une distribution de Poisson.
Eventuellement, si la distribution renferme plusieurs paramètres inconnus,  peut représenter un
vecteur, ainsi dans le cas d’une distribution normale, si μ et 2 sont inconnus, on a  = (μ, 2).
Pour estimer , on tire un échantillon aléatoire dans la population, et à l’aide de l’information ainsi
obtenue, on détermine la valeur qui servira comme estimation de la valeur du paramètre  inconnu.

Les méthodes d’estimation se divisent en deux grandes catégories : l’estimation ponctuelle et


l’estimation par intervalle de confiance.

VII.1.1 Estimation ponctuelle

L’estimation ponctuelle permet d’obtenir une valeur numérique spécifique qui sera prise comme
valeur du paramètre  inconnu. Par exemple, pour estimer la moyenne μ d’une population, il semble assez
∑𝑋
naturel d’utiliser la statistique 𝑋̅ = 𝑖 qui est la moyenne de l’échantillon. Cette statistique X est une
𝑛
variable aléatoire, et sera appelée estimateur ; pour une réalisation particulière (x1, x2,…, xn) de
l’échantillon aléatoire, elle prendra une valeur numérique x qui sera utilisée comme estimation de la
valeur du paramètre μ inconnu.

VII.1.1.1 Qualités d’un estimateur

En principe, pour estimer un paramètre  inconnu dans une population, on peut choisir n’importe
quelle statistique. Cependant, en pratique, il est bien évident que l’estimateur ne sera pas choisi de façon
quelconque car on veut avoir au moins la certitude qu’un estimateur ne nous donnera pas des estimations
trop éloignées du paramètre .

Pour qu’un estimateur puisse fournir de « bonnes estimations », il doit posséder certaines
qualités. On est ainsi amené à définir un estimateur non biaisé, convergent, efficace et exhaustif.

Propriété 1

T est un estimateur non biaisé de  si E (T) = 


Si la propriété 1 n’est pas satisfaite, le biais de T est alors défini par : B (T) = E (T) - 

a) La moyenne défini par X d’un EAS est toujours un estimateur sans biais de μ car E ( X ) = μ.
b) Si s2 désigne la variance d’un EAS prélevé dans une population de variance  2 , on constate que E (s2)
 𝛿 2 ce qui signifie que s² est un estimateur biaisé de 2 dont le biais vaut :
n −1 2 2
( )
B s =
2

n
− = −
2

n
Puisque B (s²) tend vers zéro quand n tend vers l’infini, on dit dans ce cas que s² est un estimateur
asymptotiquement sans biais.

77
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

 (x )
2
Par ailleurs, si l’on considère la variance corrigée de l’EAS définie par S 2 = ns = 1
2
− x , on
n −1 n −1
i
i

peut vérifier que E (S²) =  .


2

Propriété 2

T est un estimateur convergent pour  si, à mesure que la taille de l’échantillon augmente, T tend à prendre
une valeur de plus en plus rapprochée de ,

Propriété 3

T est l’estimateur le plus efficace de  s’il est non biaisé, et si sa variance est au moins aussi petite que celle
de tout autre estimateur T’ non biaisé de , c’est-à-dire :
1°) E(T) = ,
2°) Var (T)  Var (T’), pour tout autre estimateur non biaisé T’ de .

Propriété 4

T est un estimateur exhaustif de  si T résume toute l’infirmation contenue dans l’échantillon qui est
pertinente à .
Pour la loi normale de moyenne connue 𝜇, la statistique 𝑇 = ∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 est exhaustive pour 𝛿 2
VII.1.2 Estimation par intervalle de confiance

L’estimation par intervalle de confiance permet de construire un intervalle ℓ1, ℓ2 à l’intérieur
duquel la valeur du paramètre  a de grandes chances de se trouver. Si l’on connaît la distribution de
probabilité de l’estimateur utilisé, on pourra calculer la probabilité de cet intervalle aléatoire, appelé
intervalle de confiance, englobe la vraie valeur du paramètre . On est ainsi en mesure d’exprimer
explicitement la marge d’erreur associée à l’utilisation d’un estimateur ponctuel 

VII.1.2.1 Intervalle de confiance de la moyenne μ d’une population

Le tableau suivant est un tableau récapitulatif des intervalles de confiance pour la moyenne
𝜇 d’une population :

Taille de
Population  Connu  Inconnu
l’échantillon

𝑛 ≥ 30 X  Z1−  x X  Z1− ˆx


2 2
Distribution
gaussienne 𝑛 < 30 X  Z1−  x X  t ˆx
2 2

78
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

𝑛 ≥ 30
X  Z1−  x X  Z1− ˆx
Distribution non 2 2

normale
𝑛 < 30 X  K  X Cas non traité

Z1− est le quantile d’ordre (1 − 𝛼⁄2 ) de la normale centrée réduite


2

t est une valeur de la distribution de Student à (n – 1) degrés de liberté.


2

K provient de l’inégalité de Tchebychev :

( )
P X −   K  X  1 −
1
K2
= 1−

Dans le cas d’une population finie, on multiplie ˆX par le facteur de correction.

VII.1.2.2 Intervalle de confiance pour une proportion p

L’intervalle de confiance au niveau (1 – α) pour le paramètre p d’une population de Bernoulli


lorsque la taille n de l’échantillon est grande (𝑛 ≥ 30) est de la forme :

Population finie ou t >0,05


p  Z 1−
(
p 1− p ) N −n
2 n N −1

Population infinie
p  Z1−
(
p 1− p )
2 n

p exprime la proportion d’individus possédant la caractéristique cherchée dans l’échantillon et Z1−


2

est le quantile d’ordre (1 − 𝛼⁄2) de la normale centrée réduite.

VII.1.2.3 Intervalle de confiance pour une différence de moyennes (𝝁𝟏 − 𝝁𝟐 )

On peut être amené à comparer deux populations ou plus précisément deux paramètres de
même nature dans ces populations (par exemple, les moyennes, les proportions, les variances de deux
populations). Pour l’estimation de (𝜇1 − 𝜇2 ) on aura deux cas à savoir :
Cas 1 : On supposera que l’on a affaire à deux populations distinctes dont on tire indépendamment un
échantillon 𝑛1 dans la première et un échantillon de taille 𝑛2 dans la deuxième. La moyenne et la variance
de la première population sont 𝜇1 et 𝜎12 ; et celles de la deuxième population sont 𝜇2 et 𝜎22
L’intervalle de confiance au niveau (1 – α) pour la différence ( 1 − 2 ) sera donc :

79
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

12 et  22 inconnues mais


Population 12 et  22 connues
12 =  22 12   22

Normale ou
(X 1 )
− X 2  Z1−
2
12
n1
+
 22
n2
(X − X ) Z
1 2 1−
2
ˆX − X
1 2
(X − X ) Z
1 2 1−
s12 s22
+
n1 n2
n1  30 et n2  30 2

Normale petits
Cas non traité (X − X )  t
1 2  ˆX
1−X2
Cas non traité
échantillons 2

X 1 et X 2 sont les moyennes des échantillons tirés dans la première et la deuxième population
respectivement Z1− est une valeur de la distribution normale centrée réduite. L’erreur-type estimée est
2

donnée par :

 1 1  (n − 1)S12 + (n2 − 1)S22


ˆX − X =  +  1
2
 n1 n2  n1 + n2 − 2

t est une valeur de la distribution du t à (n1+n2 -2) degrés de liberté.


2

𝑆12 et 𝑆22 sont les variances de deux échantillons respectifs.

Cas 2 : On supposera qu’on a une même population où l’on a observé deux variables à partir d’échantillon
dépendants (X1,….Xn) et (Y1,…, Yn) tirés de cette population. Lorsque la différence D = X - Y dans la
population suit une distribution normale, l’intervalle de confiance au niveau (1 – α) pour la différence (
 X − Y ) des moyennes est de la forme :

 (Di − D )
 2 
D  t  où Di = X i − Yi , i = 1,...., n
n(n − 1)

 2 
 
̅ = ∑ 𝐷𝑖 ⁄𝑛 et 𝑡𝛼/ est une valeur de la distribution de Student à (n – 1) degrés de liberté.
𝐷 2

EXERCICES RESOLUS
1. Dans le cadre d’un projet collectif, les étudiants inscrits à un concours du soir ont décidé d’évaluer la
distance moyenne que doivent parcourir les étudiants pour rendre à l’Université qu’ils fréquentent.
Pour un échantillon aléatoire de 100 étudiants, ils ont recueillis les donnés suivantes :

Nombre de kilomètres Nombre d’étudiants

80
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

X ni

0-5 5

5 - 10 15

10 - 15 25

15 - 20 30

20 - 25 20

25 - 30 5

a) Donnez une estimation ponctuelle de la distance moyenne μ que doivent parcourir ces étudiants.
b) Donnez une estimation ponctuelle de l’écart type de X.
c) Construire un intervalle de confiance au niveau 95% pour la distance moyenne.
Solution
Comme on veut estimer μ, on prendra comme estimateur la moyenne de cet échantillon et la valeur x
(moyenne de l’échantillon) sera une estimation ponctuelle de μ et comme estimation de l’écart-type, on
prendra la valeur de l’écart-type corrigé de l’échantillon.
D’où le tableau suivant :
X ni Xc ni Xc (X c −x ) (X c )
−x ² ( )
ni X c − x ²

0-5 5 2,5 12,50 -13 169 845

5-10 15 7,5 112,50 -8 64 960

10-15 25 12,5 312,50 -3 9 225

15-20 30 17,5 525,00 2 4 120

20-25 20 22,5 450,00 7 49 980

25-30 5 27,5 137,50 12 144 720

Total n = 100 1.550,00 3.850

a) x =
 ni X c =
1.550
= 15,5
n 100
En moyenne, la distance que doivent parcourir ces étudiants sera de 15,5 km.

 ni (xc − x )
2

b) L’écart type corrigé sera donné par S =


n −1

81
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

3.850
s=  6,24 km
100 − 1
a) Au niveau de 95%, μ appartiendra à l’intervalle de confiance x  Z1− 0, 025ˆX où Z 0,975 = 1,96 et
S 6,24
ˆX = = = 0,624.
n 100
Ainsi, l’intervalle de confiance sera donc
15,5  1,96 ; 0,624 = 14,28km ; 16,27km
2. Vous voulez estimer la température maximale moyenne qu’il fait dans la ville de Kinshasa la journée
du 04 juin. Vous choisissez donc un échantillon aléatoire de 5 communes et relevez la température
maximale enregistrée lors de cette journée en chacun de ces endroits.
Voici les données que vous obtenez :
N° Commune 01 02 03 04 05

Température x 32° C 27° C 33° C 23° C 25° C

Vous décidez alors de construire un intervalle de confiance à 95% pour la température moyenne dans la
ville de Kinshasa. Qu’est-ce que vous pouvez obtenir si on fait l’hypothèse de la normalité de temperature
dans la ville de Kinshasa ?

Solution

Commençons par l’estimation ponctuelle de la température moyenne et de l’écart type.


x x−x ( x − x )²

32 2,8 7,84

27 - 2,2 4,84

33 3,8 14,44

23 - 0,2 0,04

25 - 4,2 17,64

Total 146 44,80

146 44,8
x= = 29,2 et s = = 3,35
5 5 −1

s N −n
La valeur estimée de l’erreur type est ˆX =
n N −1

82
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

3,35 24 − 5
Donc, ˆX =  1,36
5 24 − 1
N = 24 pour signifier qu’il y a 24 Communes dans la Ville de Kinshasa (population finie). Si nous supposons
que les températures se distribuent normalement, l’intervalle de confiance sera donc :

x − t ; n −1
.ˆX    x + t ˆ
; n −1 X
2 2

x − t 0, 025; 4 .ˆX    x + t 0, 025; 4ˆX

29,2 − (2,776).1,36    29,2 + (2,776).1,36

25,42°C < μ < 32,97°C

3. Un étudiant veut savoir s’il vaut la peine de se porter candidat à la présidence des étudiants de son
Université. Un échantillon de 50 étudiants a montré que 22% des étudiants voteraient pour lui. Estimer
le véritable pourcentage à un niveau de confiance de 99%. Si l’on exige de vous une marge d’erreur
qui n’excède pas 3% et un niveau de confiance de 99%, que doit être le nombre minimal d’étudiants
que vous devez interroger pour respecter les conditions imposées ?

Solution

• Pour un niveau de confiance de 99% et n = 50, l’intervalle de confiance sera :

 '
 p − 2,58
(
p' 1 − p'
; p + 2,58
' )
p' 1 − p' 

( )
 n n 
où p’ représente la proportion des étudiants favorables à notre étudiant dans l’échantillon.
Pour l’échantillon particulier obtenu où p’ = 0,22, l’intervalle aléatoire sera :

 0,22(1 − 0,22) 
0,22  2,58  = 0,0677;0,3722
 50 
Pour un niveau de confiance de 99%, le véritable pourcentage en sa faveur se situera entre 6,78% et 37,22%
(il n’y a aucune évidence quand à sa réussite à cette élection).

Soit Z c p , la marge d’erreur maximale désirée.

Pour un niveau de confiance de 99%, cette marge sera 2,58 . p = 0,03, de là, on tire l’erreur type :
0,03
p = = 0,0116
2,58

p ' (1 − p ' )
Puisque  p = , on peut tirer la taille de l’échantillon n, donc :
n

83
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

0,22(1 − 0,22)
0,0116 =
n

(0,0116)2 =
0,1716
et n = 1275,2675
n
On doit donc interroger au moins 1.275 étudiants pour respecter les conditions imposées.

4. D’un échantillon de 144 familles tiré dans la ville X, on a calculé que la moyenne des revenus était de
14.000 dollars avec un écart type de 1.500 dollars. D’un échantillon de 225 familles tirés dans la ville Y,
on a calculé que la moyenne des revenus était de 13.500 dollars, avec un écart type de 1.500 dollars.
Estimez à l’aide d’un intervalle de confiance au niveau de 95% la différence entre la moyenne des
revenus dans ces deux villes. On suppose que les variances de deux populations ne sont pas égales.

Solution

Puisque les échantillons sont grands et que les variances  12 et  22 sont inconnues mais supposées
différentes, l’intervalle de confiance pour (μ1- μ2) aura la forme au niveau de 95% :

 S2 
( ) S2
 X 1 − X 2  1,96 1 + 2 
 144 225 

Pour les réalisations particulières obtenues, on a observé x1 = 14.500 dollars, x 2 = 13.500 dollars, s2 =
1.500 dollars et s2 = 1.500 dollars.
L’intervalle de confiance prend alors les valeurs :

 1.500 2 1.500 2 
 (14.000 − 13.500 )  1,96 + 
 144 225 

= 500  313,75 = 186,25; 813,75

5. On veut comparer le résultat X obtenu par des étudiants d’une Université pour le cours de statistique
avec le résultat Y obtenu par ces mêmes étudiants pour le cours de mathématique. A cette fin, on
choisit un échantillon aléatoire de 5 étudiants dans le groupe pour lesquels on compare les résultats
obtenus en statistique avec ceux obtenus en mathématique. On a observé (il s’agit des résultats sur
20) :

Etudiant A B C D E

84
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

Résultat en statistique 15 13 17 14 18

Résultat en mathématique 12 10 14 13 15

Construire un intervalle de confiance pour la différence entre les résultats moyens en statistique et les
résultats moyens en mathématique pour ce groupe d’étudiants au niveau de 95%.

Solution

A partir des résultats xi (statistique) et yi (mathématique) i =1,….,5 pour l’échantillon de 5 étudiants, on


di
peut calculer les différences di = xi - yi, la différence moyenne observée d =
5 ainsi que l’écart type

 (d i − d )
2

pour cette différence S D =


5(5 − 1)

Résultats observés Différences observées


Etudiant di − d ( d i − d )²
xi yi di = xi-yi

A 15 12 3 0,4 0,16

B 13 10 3 0,4 0,16

C 17 14 3 0,4 0,16

D 14 13 1 -1,6 2,56

E 18 15 3 0,4 0,16

 d i = 13 3,20

13 3,2
d= = 2,6 et S D = = 0,4
5 5(4)

Pour ces échantillons particuliers observés, l’intervalle de confiance au niveau de 95% prendra les valeurs :

d  t 0 , 025; 4 
.0,4 = 2,6  2,776 .0,4

= 1,4896; 3,7104

On peut donc affirmer qu’au niveau de confiance de 95% la différence entre le résultat moyen des
étudiants pour la statistique et le résultat moyen de ces mêmes étudiants pour la mathématique est dans
l’intervalle 1,4896 ; 3,7104 Cette différence positive indiquant que les résultats obtenus en statistique
sont plus élevés que ceux obtenus en mathématique.

85
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

CHAPITRE VIII

LES TESTS D’HYPOTHESES PARAMETRIQUES

Quand vous avez éliminé l’impossible, ce qui reste, même improbable, doit être la
vérité.

86
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

A. CONAN DOYLE

ENTREE EN MATIERE

Au chapitre précédent, on a abordé l’inférence statistique en traitant des problèmes d’estimation


de paramètres.

On va maintenant rappeler une autre grande classe de problèmes en inférence statistique, à


savoir celle des tests d’hypothèses. On se place de nouveau dans le contexte général d’un problème
d’inférence : On est une certaine variable X (ou même plusieurs variables) ayant une distribution f (x; ) ,
qui dépend d’un paramètre θ ou d’un vecteur de paramètres.
En estimation paramétrique, on suppose que l’on ne connaît rien du paramètre θ, et l’on cherche
à l’estimer au moyen d’une statistique définie à partir d’un échantillon aléatoire. Dans le contexte d’un test
d’hypothèses paramétrique, on suppose au départ que l’on a une certaine connaissance de la (des) valeur
(s) du paramètre θ, et à partir d’un échantillon aléatoire, on essaie d’en vérifier la véracité.

En effet, toute analyse statistique d’un ensemble de données passe, à un moment ou un autre,
par des hypothèses. Le recteur d’une Université peut affirmer que la taille moyenne des étudiants est de
1,70 m, des impressions personnelles peuvent nous amener à penser que le pouvoir d’achat est plus faible
aujourd’hui qu’il y a dix ans. La question se pose dès lors de tester la validité d’une telle hypothèse.

D’une façon générale, une hypothèse est un énoncé concernant une population. Une hypothèse
peut être paramétrique ou non paramétrique, selon qu’il s’agit ou non d’un énoncé quantitatif concernant
la ou les valeur(s) possibles du paramètre d’une population.

On parle de tests d’hypothèses paramétriques lorsque les hypothèses portent sur un ou des
paramètres, et des tests d’hypothèses non paramétriques lorsque les hypothèses portent par exemple
sur la forme de la distribution de X.
Un test d’hypothèse implique deux hypothèses. Il y a d’abord une hypothèse de base au sujet de
θ, que l’on note Ho, et que l’on a appelle hypothèse nulle. Ho est l’hypothèse que l’on ne devrait pas rejeter
à moins d’avoir suffisamment d’évidence contre elle. Et cette évidence est fournie par l’information
contenue dans l’échantillon aléatoire.
Le problème se pose comme suit : à partir du résultat d’un échantillon, on doit dire si cet
échantillon provient d’une population dont les caractéristiques coïncident avec l’hypothèse de base, ou
s’il provient d’une population ayant d’autres caractéristiques.
Le test sera significatif si l’écart constaté entre l’hypothèse de base et l’image de la réalité fournie
par l’échantillon est plus grand que ce que l’on peut considérer comme le simple produit des fluctuations
aléatoires. Le niveau de signification du test détermine la grandeur de l’écart qui peut être attribuée à ces
fluctuations. Lorsque le test est significatif, on rejette Ho. Si l’on rejette Ho, il doit donc y avoir une autre
hypothèse qui est acceptable concernant la valeur de θ. On est ainsi amené à formuler une deuxième
hypothèse relativement à la valeur de θ, cette deuxième hypothèse, que l’on note H1, est appelée
hypothèse alternative.

87
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

VIII.1. VOCABULAIRE DES TESTS


- Test d’hypothèse statistique : C’est toute procédure ou règle de décision qui, à partir d’un
échantillon aléatoire de taille n tiré dans la population, permet de faire un choix entre Ho et H1.
- Le seuil de signification d’un test : c’est la probabilité que l’on note 𝛼, de rejeter Ho quand elle est
vraie.
- Erreurs de première et de deuxième espèce : L’erreur faite en rejetant Ho lorsqu’elle est vraie est
appelée erreur de première espèce (E1), et l’erreur faite en acceptant Ho, lorsqu’elle est fausse est
appelée erreur de deuxième espèce (E2).
Ainsi,  = P(E1 ) = P (Rejeter Ho / Ho est vraie).

 = P(E2 ) = P (Accepter Ho / Ho est fausse).


- La puissance d’un test : C’est la probabilité, que l’on note (1 - β), de rejeter Ho quand elle est fausse.
Ainsi, (1 - β) = P (rejeter Ho / Ho est fausse).
- La région critique d’un test : est l’ensemble des valeurs possibles de l’échantillon aléatoire qui
entraînent le rejet de Ho.
En pratique, plutôt que de calculer la région critique en fonction de 𝛼, on préfère donner un seuil
critique 𝛼 ∗ , appelée p-value, qui est la plus grande valeur de α conduisant à ne pas rejeter 𝐻0 . Cette
information permet au lecteur de conclure à l’acceptation de 𝐻0 pour tout risque de première espèce α ≤
𝛼 ∗ , et à son rejet pour tout α > 𝛼 ∗ .

VIII.2 LES ETAPES D’UN TEST D’HYPOTHESES


Lorsqu’on construit un test d’hypothèses, il est commode de procéder successivement par les
étapes suivantes :

1. Enoncer les hypothèses à tester : 3 cas à envisager,

Test 1 : H o :  =  0  H1 :    0 (test bilatéral)


Test 2 : H o :  =  0  H1 :    0 (test unilatéral à gauche)
Test 3 : Ho :  = 0  H1 :   0 (test unilatéral à droite)
𝜃0 est une valeur hypothétique fixée à priori et le signe ↔ signifie que l’on va tester Ho par rapport à
l’alternative H1.
Il est à noter que les hypothèses nulle et alternative doivent impérativement être mutuellement
exclusives. Exemple de formulation des hypothèses :

Hypothèses Test

𝐻0 : 𝜇 = 4 simple unilatéral
𝐻1 : 𝜇 = 6 simple

88
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

𝐻0 : 𝜇 = 4 simple unilatéral
𝐻1 : 𝜇 > 4 composée

𝐻0 : 𝜇 = 4 simple bilatéral
𝐻1 : 𝜇 ≠ 4 composée

𝐻0 : 𝜇 = 4 simple formulation incorrecte : les


𝐻1 : 𝜇 > 3 composée hypothèses ne sont pas
mutuellement exclusives

2. Préciser les conditions du test : il s’agit ici des conditions de base qui président au processus du test. Ces
conditions concernent principalement la distribution de la population. De plus, on suppose que
l’échantillon tiré est un échantillon aléatoire simple, et il peut parfois être important de préciser la taille
de cet échantillon puisque cette taille peut avoir une influence sur la distribution de la statistique
utilisée dans le test.
3. Spécifier la statistique utilisée et sa distribution : exemple, pour un test sur une moyenne, on recours à la
statistique T = X , sous certaines conditions cette statistique X suit une distribution normale de

moyenne μ et de variance 
2

n.
4. Déterminer la région critique au niveau de signification α : Une fois spécifiée la statistique T utilisée dans
le test, on détermine l’ensemble des valeurs possibles de l’échantillon ou de cette statistique qui va
entraîner le rejet de Ho.
5. Prendre une décision : Pour faire un choix entre Ho et H1, on compare la valeur observée pour la statistique
avec la valeur critique. Si la valeur observée appartient à la région critique, on rejette Ho, et dans le cas
contraire on l’accepte.
6. Calculer si possible la puissance du test (1–β) ou encore la probabilité β de deuxième espèce.

VIII. 3 TESTS D’HYPOTHESES PARAMETRIQUES USUELS


Pour construire explicitement des tests d’hypothèses de niveau α pour les paramètres auxquels
on s’intéresse le plus souvent dans une étude statistique, on part des situations suivantes :

Test 1 : Ho :  = 0  H1 :   0 (test bilatéral)


Test 2 : Ho :  = 0  H1 :   0 (test unilatéral à gauche)
Test 3 : Ho :  = 0  H1 :   0 (test unilatéral à droite)
VIII.3.1 Test sur une moyenne μ

On part des hypothèses suivantes :

Test 1 : Ho :  = 0  H1 :   0 (test bilatéral)

89
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

Test 2 : Ho :  = 0  H1 :   0 (test unilatéral à gauche)


Test 3 : Ho :  = 0  H1 :   0 (test unilatéral à droite)
Cas 1 :  2 connue, population normale ou quelconque, n ≥30.

▪ Statistique :
(X −  ) de distribution normale centrée réduite.

n
▪ Règle de décision :
Test 1: RHo si Z c  − Z1− ou Z c  Z1−
2 2

Test 2: RHo si Zc  −Z1−

Test 3: RHo si Zc  −Z1−


x − 0
Zc = , x est la valeur observée pour X

n

0 est la valeur hypothétique de µ et Z1− et Z1− sont des valeurs de la normale (0,1).
2

Cas 2 :  2 inconnue, population quelconque, n ≥ 30.

▪ Statistique :
(X −  ) de distribution normale centrée réduite.
S
n
x−
▪ Règle de décision : idem pour le cas 1 sauf que Z c = où s est la valeur observée pour l’écart
s
n
type S de l’échantillon.
Cas 3 :  2 inconnue, population normale, n < 30

▪ Statistique :
(X −  ) de distribution du t de Student à (n – 1) degrés de liberté.
S
n
▪ Règle de décision :
Test 1: RHo si tc  −t ou t c  t
2 2

Test 2: RHo si tc  −t


Test 3: RHo si tc  t

où tc =
(x −  ) , x et s sont les valeurs observées pour X et S, et t et t
0
 sont des valeurs de la
s 2
n
distribution du t à (n – 1) degrés de liberté.

90
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

Ces différents tests sont aussi valables pour le sondage de type PESP. En conséquence, dans le

calcul des régions critiques de ces trois tests, il suffit de remplacer    ou  s


 
 par l’erreur type

 n  n

  N −n  s  N −n
modifié    ou  
 n  N −1  n  N −1
VIII.3.2 Test sur une proportion

▪ On part des hypothèses suivantes :


Ho: p = p ↔ H1: p ≠ p0 (test 1)
H1: p < p0 (test 2)
H1: p > p0 (test 3)
▪ Conditions du test : X = Variable de Bernoulli de paramètre p, n ≥30.

▪ Statistique :
(X − p ) de distribution normale centrée réduite.
pq
n
▪ Règle de décision :
Test 1: RHo si Z c  − Z1− ou Z c  Z1−
2 2

Test 2: RHo si Zc  −Z1−


Test 3: RHo si Zc  −Z1−
p − p0
où Z c = , p est la valeur observée pour X dans l’échantillon, et Z1− et Z1− sont des
p0 .q0 2

n
valeurs de la normale (0,1).

VIII.3.3 Tests sur une différence de moyennes (𝝁𝟏 − 𝝁𝟐 )

Il est question ici de comparer les paramètres de deux populations dont on étudie une variable
commune.

Cas 1 : On suppose que l’on a affaire à deux populations distinctes de moyennes μ1 et μ2 et de variances

12 et  22 respectivement, et que l’on tire indépendamment un échantillon de taille n1 dans la


première, et un échantillon de taille n2 dans la seconde.

▪ On part des hypothèses suivantes :

Si on pose ∆= 𝜇1 − 𝜇2 , cela revient à tester :


𝐻1 : ∆≠ 0 (𝑡𝑒𝑠𝑡 1)
𝐻0 : ∆= 0 ↔ {𝐻1 : ∆< 0 (𝑡𝑒𝑠𝑡 2)
𝐻1 : ∆> 0 (𝑡𝑒𝑠𝑡 3)

91
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

▪ Statistique : Considérons D = X 1 − X 2 l’estimateur de ∆.

1°) Si 1 et  22 sont connues et les populations sont normales ou quelconques mais n1 ≥ 30 et n2 ≥ 30 :


2

D
T= de distribution normale centrée réduite.
  222
+ 1

n1 n2

2°) Si 1 et  22 sont inconnues


2

a) Populations normales :

- Si 1 =  22
2

D
T* = de distribution du t de Student à (n1 + n2 -2) degrés de liberté.
n1S12 + n2 S22  1 1 
 + 
n1 + n2 − 2  n1 n2 

- Si 1   22
2

T = D
S12 S22
+
n1 n2
2
 S12 S22 
 + 
de distribution du t de Student à  n1 n2  −2
2
 S12  1  S22  1
  +  
 1 1
n n + 1  n2  n2 + 1
degrés de liberté.
b) Populations quelconques mais n1 ≥ 30 et n2 ≥30.

D
T= de distribution normale centrée réduite.
S12 S22
+
n1 − 1 n2 − 1

▪ Règle de décision :

Test 1 : RHo si T < − Z1− ou T > Z1− ou bien T* < − t ou T* > t .


2 2 2 2

Test 2 : RHo si T < − Z1− ou bien T* < − t

Test 3 : RHo si T > Z1− ou bien T* > t

92
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

t ou t sont des valeurs de la distribution du t de Student à (n1 +n2 - 2) degrés de liberté et Z1− et
2 2

Z1− sont des valeurs de la normale centrée réduite.

A l'usage, on constate que tenir compte de l'inégalité des variances n'est vraiment déterminant
que pour les effectifs déséquilibrés c’est-à-dire avec 𝑛1 très différent de 𝑛2 . Certains auteurs précisent
même que l'on devrait toujours utiliser la variante pour variances inégales dès que 𝑛1 et 𝑛2 sont très
différents, quand bien même le ratio entre la plus grande et la plus petite variance n'excéderait pas 1,5.
Procéder préalablement à un test de comparaison de variances pour choisir la procédure adéquate de
comparaison de moyennes est illusoire dès lors que les effectifs sont déséquilibrés.
Cas 2 : On suppose qu’on a une même population où l’on a observé deux variables à partir d’échantillons
dépendants (x1,…... xn) et (y1,…, yn) tirés de cette population.

▪ On part des hypothèses suivantes :

Si on pose μD = μx – μy, cela revient à tester :


𝐻1 : 𝜇𝐷 ≠ 0 (𝑡𝑒𝑠𝑡 1)
𝐻0 : 𝜇𝐷 = 0 ↔ {𝐻1 : 𝜇𝐷 < 0 (𝑡𝑒𝑠𝑡 2)
𝐻1 : 𝜇𝐷 > 0 (𝑡𝑒𝑠𝑡 3)

Conditions du test : D = (X – Y) est distribuée normalement avec variance  D inconnue.


2

D − D
▪ Statistique : de distribution du t de Student à (n–1) degrés de liberté où :
SD
 
  Di 
 (Di − D ) D = ( X − Y ),
2

D= i  SD = i = 1,…, n.
n(n − 1)
i i i
n

▪ Règle de décision :
Test 1: RHo si tc  − t ou tc  t
2 2

Test 2: RHo si tc  −t


Test 3: RHo si tc  t
 
  di 
où d 0 =  i  est la valeur observée pour D dans les échantillons, t et t sont des
d0
tc =
SD n 2

valeurs de la distribution du t à (n – 1) degrés de liberté. Si la taille n de deux échantillons est assez grande
(n ≥ 30), on peut utiliser la distribution normale centrée réduite comme approximation de la distribution
du t à (n – 1) degrés de liberté dans les tests précédents.

93
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

EXERCICES RESOLUS

1. Le propriétaire de « Pain Victoire » affirme que le nombre des cakes vendus quotidiennement est de
1500. Un employé veut vérifier l’exactitude de l’affirmation de son patron. La moyenne d’un échantillon
de 36 jours est de 1450 cakes vendus par jour. En utilisant un seuil de signification de 1% et en supposant
que l’écart type dans la population est 120 cakes, que devrait être la conclusion de l’employé ?

Solution

- Nous partons des hypothèses suivantes :


Ho: μ = 1500 cakes contre H1: μ ≠ 1500 cakes.
L’employé effectue un test bilatéral parce qu’il suffit que la moyenne échantillonnale soit significativement
trop grande ou trop petite pour que Ho soit rejetée. Le but du test consiste en effet à déterminer si oui ou
non μ = 1.500 ; aucune autre conclusion ne pourra être envisagée.
Le seuil de signification du test est de 0,01 et, puisque n = 36 > 30, l’employé va utiliser la distribution
normale centrée réduite pour faire le test.
Le rapport critique Zc sera égal à
x − 0 1.450 − 1.500
où x0 = 1.450, 0 = 1.500,  = 120, et n = 36 donc Z c = = −2,5 - Règle de
 120
n 36
décision : Pour α = 0,01, les valeurs respectives − Z t et Z t lues sur la table normale centrée réduite (cas
d’un test bilatéral seront -2,58 et 2,58).

Puisque Zc = -2,5 se situe entre -2,58 et 2,58, l’hypothèse nulle est acceptée au seuil de signification de 1%.

Conclusion : Le propriétaire n’a pas tort de dire que le nombre des cakes vendus par jour est de 1.500
cakes.

2. Le directeur d’une Compagnie croit que les dépenses de voyage de ses représentants ne devraient pas
excéder 1700 dollars par voyage. L’étude des dépenses occasionnées par 10 voyages choisis au hasard
lui relève les données suivantes (en dollars) :

1750 1693 1710 1730 1650

1720 1688 1703 1680 1760

Au seuil de signification de 0 ,05 ; la moyenne des dépenses par voyage est-elle trop élevée ?

Solution

Nous partons des hypothèses suivantes :


Ho: μ ≤ 1.700 dollars
Contre H1: μ > 1.700 dollars
Le test est donc unilatéral à droite.

94
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

Le seuil de signification est de 0,05 et n= 10 (un petit échantillon) et  est inconnu ; nous devons
supposer que la distribution des dépenses est une distribution normale et utiliser la distribution t de
Student pour faire le test.

x − 1.700
Le rapport critique Tc sera donc égal , d’où le calcul de x et s (écart type de l’échantillon) se
s
10
fera comme suit :

x x– x (x − x )
2

1.650 - 58,40 3.410,56


1.680 - 28,40 806,56
1.688 - 20,40 416,16
1.693 -15,40 237,16
1.703 - 5,40 29,16
1.710 1,60 2,56
1.720 11,60 134,56
1.730 21,60 466,56
1.750 41,60 1.730,56
1.760 51,60 2.662,56
17.084 - 9.896,40

17.084 9.896,4
x= = 1.708,4 et s = = 33,16
10 10 − 1
1.708,4 − 1.700
Ainsi, tc = = 0,801
33,16
10
Décision : Le test étant bilatéral, la valeur t0,05 ; 9 = 1,833 puisque tc = 0,801 < 1,833, on doit
accepter Ho. La moyenne des dépenses par voyage n’est pas aussi exagérée que ne le croit le
directeur.

3. Un laboratoire pharmaceutique considère que la machine qui procède à l’embouteillage fonctionne


bien tant que le pourcentage des bouteilles qui ne sont pas complètement remplies ne dépasse pas
5%. Dans un échantillon aléatoire de 100 bouteilles, on a découvert 7 bouteilles non complètement
remplies. Avec un seuil de signification de 1%, effectuer un test statistique pour déterminer si la
machine fonctionne bien.

Solution

Nous avons comme hypothèses :


Ho : p = 5% des bouteilles remplies partiellement contre H1 : p > 5%

95
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

Le test est unilatéral à droite parce que le laboratoire ne s’intéresse qu’à déterminer si le pourcentage
réel est supérieur à ce qu’il croit. Le risque de première espèce α = 0,01 et l’échantillon étant
suffisamment grand n = 100, la distribution normale centrée réduite est à utiliser.

Le rapport critique Z c =
x 0 − p0 7
avec x 0 = = 0,07 et p0 = 0,05
p0 (1 − p0 ) 100
n
0,07 − 0,05
Ainsi Z c = = 0,917
0,05(1 − 0,05)
100
Décision : Le test étant unilatéral à droite, la valeur lue sur la normale centrée réduite Z0,01= 2,33.
Puisque Zc = 0,917 < 2,33, nous acceptons l’hypothèse nulle et concluons que la machine fonctionne
bien.

6. Une chaîne de magasins possède les succursales A et B ces dernières années, la succursale A a investi
plus d’argent que la succursale B pour promouvoir la vente d’un certain article. La chaîne veut
maintenant déterminer si cette publicité a entraîné des ventes plus élevées à la succursale A. Pour un
échantillon de 36 jours, le nombre moyen d’articles vendus quotidiennement fut de 170 à la succursale
A, tandis qu’à la succursale B, cette moyenne, pour un échantillon de 45 jours, fut de 165. En supposant
que les écarts types d’articles vendus pour les succursales A et B sont respectivement 6 et 5, que
pouvons-nous conclure, à partir d’un test effectué à un seuil de signification de 5% ?

Solution

Les hypothèses sont les suivantes :


Ho : μA = μB contre H1 : μA > μB
La chaîne veut savoir si le rendement de la succursale A est supérieur à celui de la succursale B, le test
est donc unilatéral à droite. Le seuil de signification étant de 0,05 et les échantillons sont de taille
suffisam-ment grande pour qu’on puisse utiliser la distribution Z, nA = 36 et nB = 45.
170 − 165
- Le rapport critique Zc sera donc Z c = = 4,0089
6 2 52
+
36 45
Décision : Le test étant unilatéral à droite, la valeur lue sur la table normale centrée réduite avec α =
0,05 est de 1,65. Puisque 4,0089 > 1,65, il y a une évidence statistique permettant de croire que la
succursale A vend plus d’articles que la succursale B, nous rejetons donc l’hypothèse nulle.
8. On veut tester deux diètes expérimentales conçues pour faire gagner de la masse aux enfants sous-
alimentés du tiers monde. On suppose que les gains de masse résultant de chacune des diètes sont
distribués normalement et que les écarts types des populations sont égaux. On soumet 8 enfants à la
diète A tandis que 9 enfants suivront la diète B. Les gains de masse (en kg) observés après six
semaines sont les suivants :

Diète A 1,86 1,95 2,74 2,56 3,86 3,6 2,32 2,23 -

96
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

Diète B 3,32 3,05 3,75 3,18 3,00 3,09 4,18 3,45 2,68

Au seuil de signification de 5%, y a-t-il une différence significative dans le gain de masse entre les deux
groupes ?

Solution

Si μA et μB désigne respectivement les moyennes de gains de masse pour la diète A et la diète B.

Les hypothèses sont les suivantes :

Ho : μA = μB contre H1 : μA ≠ μB
Echantillon A Echantillon B

xA (x A − xA ) (x A − xA )
2
xB (x B − xB ) (x B − xB )
2

1,86 -0,78 0,6084 3,32 0,02 0,0004

1,95 -0,69 0,4761 3,05 -0,25 0,0625

2,74 0,10 0,0100 3,75 0,45 0,2025

2,56 -0,08 0,0064 3,18 -0,12 0,0144

3,86 1,22 1,4884 3,00 -0,30 0,0900

3,60 0,96 0,9216 3,09 -0,21 0,0441

2,32 -0,32 0,1024 4,18 0,88 0,7744

2,23 -0,41 0,1681 3,45 0,15 0,0225

2,68 -0,62 0,3844

21,12 – 3,7814 23,70 – 1,5992

21,12 23,70
xA = = 2,64 xB = = 2,633
8 9
3,7814 1,5952
S A2 = = 0,5402 S B2 = = 0,1994
8 −1 9 −1
La valeur observée pour t de Student est de :

tc =
(x A )
− x B − ( A −  B )
avec x A − x B = 2,64 − 2,633 = 0,007
ˆx A − x B

et ˆx =
(8 − 1)(0,5402) + (9 − 1)(0,1984)  1 + 1  = 0,29
 
A −xB
8+9−2 8 9

97
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

0,007 − 0
tc = = 0,024
0,29
On doit utiliser la distribution t avec un nombre de degré de liberté égal à : 9+8-2 = 15 et
 0,05
= 0,025 =
2 2

 t0,025;15 = 2,131
Décision : Puisque 0,024 < 2,131, nous devons accepter l’hypothèse nulle, donc le gain de masse
moyen avec la diète A est égal au gain de masse moyen avec la diète B au seuil de 0,05.

4. On veut comparer le résultat X obtenu par un groupe d’étudiants dans une université pour le
cours de statistique suivi au premier semestre avec le résultat Y obtenu par ces mêmes étudiants
pour le cours de mathématique suivi au deuxième semestre. A priori, on n’a pas de raison de croire
que, en moyenne, ces étudiants réussiront mieux ou moins bien en statistique qu’en
mathématique. Pour faire cette comparaison, on choisit 5 éléments au hasard dans le groupe, et
l’on note leurs résultats en statistique et en mathématique (les résultats sont côtés sur 100).

Etudiant A B C D E

Résultat en statistique 74 66 89 73 90

Résultat en mathématique 64 54 70 67 77

Sur la base de ces résultats, peut-on dire qu’il y a une différence significative entre les cotes obtenues
en statistique et en mathématique au niveau de 5% ? On supposera que la différence des cotes est
distribuée normalement.

Solution

Soient μx et μy respectivement la moyenne des cotes en statistiques et la moyenne des cotes en


mathématique :
Les hypothèses sont donc :
Ho : μx – μy = 0
H1 : μx – μy ≠ 0
Le seuil de signification est de 0,05, la distribution à utiliser est celle de Student.

d −0
Le rapport critique tc = , il est obtenu comme suit :
SD

xi yi di di – d (d i −d )
2

74 64 10 -2 4
66 54 12 0 0

98
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

89 70 19 7 49
73 67 6 -6 36
90 77 13 1 1
Total 60 – 90

60 90
d= = 12 SD = = 2,12
5 4(5)

12 − 0
Ainsi tc = = 5,66 et la valeur critique lue dans la table de Student avec  = 0,025 et dl = 4
2,12 2
donne 2,776.
Décision : Comme 5,66 > 2,776, on rejette Ho et l’on admet qu’il y a une différence significative dans les
résultats au niveau de 5%.

99
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

©FEVRIER 2015. KINSHASA, RDC


MISE EN PAGE ET IMPRESSION PAR
GOSPEL MULTI-SERVICES
G.M.S
(+243) 0998621326 ; (+243) 081 5020896

Dépôt légal : CV 30506–57103

100
COURS DE STATISTIQUE POUR INFORMATICIEN CT Karim OMONGA M.

101

Vous aimerez peut-être aussi