0% ont trouvé ce document utile (0 vote)
104 vues297 pages

Statistiqueprobabilite 1

Ce document présente un cours de statistique et de calcul de probabilité, visant à fournir aux étudiants les compétences nécessaires pour décrire et analyser des phénomènes scientifiques. Il aborde des concepts fondamentaux tels que la collecte de données, la statistique descriptive, et les méthodes de calcul des probabilités, tout en insistant sur l'importance d'une base solide en mathématiques. Le cours est structuré en plusieurs parties, incluant des chapitres sur l'observation statistique, l'analyse combinatoire, et la statistique inférentielle.

Transféré par

tiakotheng70
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
104 vues297 pages

Statistiqueprobabilite 1

Ce document présente un cours de statistique et de calcul de probabilité, visant à fournir aux étudiants les compétences nécessaires pour décrire et analyser des phénomènes scientifiques. Il aborde des concepts fondamentaux tels que la collecte de données, la statistique descriptive, et les méthodes de calcul des probabilités, tout en insistant sur l'importance d'une base solide en mathématiques. Le cours est structuré en plusieurs parties, incluant des chapitres sur l'observation statistique, l'analyse combinatoire, et la statistique inférentielle.

Transféré par

tiakotheng70
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

1

STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

STATISTIQUE ET CALCUL DE PROBABILITE

INTRODUCTION GENERALE

1. OBJECTIF DU COURS

Ce cours vise à donner aux étudiants une base en Statistique et


Calcul de probabilité afin de les aider à décrire et à comprendre davantage
les phénomènes étudiés dans leur domaine. A la fin de ce cours l’étudiant
qui l’aura suivi régulièrement et attentivement devra être capable de :

 Décrire statistiquement les phénomènes rencontrés dans sa


démarche scientifique ; procéder à la collecte des données, résumer
ces données par les paramètres ou indicateurs, présenter des
tableaux et des graphiques, afin de faciliter l’interprétation.
 Prendre certaines décisions à propos d’une population soit à partir
de l’observation et/ou l’analyse d’un échantillon, soit à partir de
l’émission d’un certain jugement qui la concerne. Puisqu’il s’agit
essentiellement de prise de décision dans l’incertitude, l’étudiant
devra maîtriser les concepts probabilistes et les distributions ou lois
des probabilités (cf Tables statistiques).
 Affronter et comprendre le contenu du cours de statistique
approfondie.

2. PREREQUIS
Pour bien affronter et comprendre ce cours de statistique, il faut
avoir une base solide en mathématiques. En effet, la statistique est une
partie des mathématiques appliquées. En plus, il faut savoir utiliser les
calculatrices scientifiques et connaître les dessins pour les graphiques,
l’informatique et l’utilisation des ordinateurs notamment le tableau MS
EXCEL et grapheur.
2
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

3. PLAN DU COURS
INTRODUCTION GENERALE

1ère PARRTIE : STATISTIQUE DESCRIPTIVE

Chapitre I : Observation statistique, collecte des informations, tableaux et


graphiques.

Chapitre II : Synthèse statistique par les paramètres ou valeurs


caractéristiques ou indicateurs.

Chapitre III : Indices statistiques

Chapitre IV : Ajustement linéaire, régression et corrélation.

Chapitre V : Série chronologique

2ème PARTIE : CALCUL DES PROBABILITES ET LOIS DES PROBABILITES

Chapitre VI : Analyse combinatoire ou combinatorique.

Chapitre VII : Calcul des probabilités

Chapitre VIII : Variables aléatoires

Chapitre IX : Distribution des probabilités ou lois des probabilités

Chapitre X : Utilisation des tables statistiques

3ème PARTIE : STATISTIQUE INFERENTIELLE OU INDUCTIVE :


ECHANTILLONNAGE, ESTIMATION ET TEST STATISTIQUE

4. CONDITIONS DE REUSSITE
Régularité et participation active au cours et aux travaux pratiques
Avoir la calculatrice scientifique, les tables statistiques et les papiers
millimètres pour tracer les graphiques, avoir l’ordinateur.
Consulter régulièrement les livres de statistique et probabilités à la
bibliothèque et à l’Internet.

5. ELEMENTS DE BIBLIOGRAPHIE
Confer fichier des livres de statistique à la Bibliothèque.
3
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

PREMIERE PARTIE : STATISTIQUE DESCRIPTIVE

CHAPITRE I : OBSERVATION STATISTIQUE,


COLLECTE DES INFORMATIONS,
TABLEAUX ET GRAPHIQUES
I.1. HISTORIQUE
Historiquement parlant, la statistique était un art favorisant la
bonne gestion d’un Etat (Status signifie Etat). Nous pouvons situer le
début de la statistique à l’apparition et la manipulation des nombres entre
le 4ème et le 2ème millénaire av. J.C. Les hommes utilisaient la statistique
pour des renseignements chiffrés sur la population et les richesses.

Citons quelques civilisations de l’antiquité qui ont utilisé la


statistique : les Chinois, les Egyptiens (Pharaons négroïdes) les hébreux
(voir le 4ème livre de la Bible les Nombres), etc.

On retrouve ainsi la trace d’une activité statistique très ancienne


dont le but principal était le dénombrement des richesses, des personnes
et la connaissance de la puissance des chefs ou des Etats. Mais cette
activité n’était pas encore basée sur des méthodes scientifiques. Ce n’est
que vers le 17ème et 18ème siècle que les méthodes statistiques se sont
développées avec le concours des calculs de probabilité qui ont aidé la
statistique à dépasser le stade descriptif pour entamer le stade de
l’induction ou l’inférence statistique.

Citons quelques noms qui ont contribué à faire la statistique une


science ; DEPARCIEUX, BLAISE PASCAL, JACQUES BERNOUILLI, LAPLACE,
GAUSS, STUDENT (GOSSET), KARL PEARSON, POISSON, NEWTON, MENDEL,
GALTON, NEWMANN, LIORZOU, etc.

Au XXème siècle, surtout à l’époque des ordinateurs avec la


science informatique, la statistique se trouve à la base, surtout dans les
recherches, de la plupart des techniques scientifiques et des autres
sciences : sciences économiques, sociales, communication, physique,
4
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

chimie, sciences de développement, Psychologie, Pédagogie, science


politique, gestion, médecine, agronomie, biologie, éducation, Médecine
vétérinaire, etc.

I.2. DEFINITION ET VOCABULAIRE DE STATISTIQUE


La statistique est l’ensemble de méthodes scientifiques et
techniques à partir desquelles on recueille, organise, résume, présente, et
analyse des données, et qui permettent de tirer des conclusion et de
prendre des décisions judicieuses. Dans un sens plus étroit on emploie les
statistiques pour désigner les données (informations quantitatives ou
qualitatives) ou les résultats obtenus à partir des données comme par
exemple les indicateurs ou paramètres. C’est ainsi qu’on peut parler des
statistiques de production, des statistiques de la population, des
statistiques de consommation, des statistiques comme science et les
statistiques d’accidents, des statistiques médicales, des statistiques de
vente, des statistiques d’emploi, des statistiques scolaires,… Il ne faut pas
confondre la statistique comme science et les statistiques comme
données, informations ou résultats.

Comme toute science, la statistique fait appel à un vocabulaire


spécialisé. Les premières statistiques correctement élaborées ont été
celles des recensements démographiques. Ce fait a laissé des traces. C’est
ainsi que le vocabulaire statistique est essentiellement celui de la
démographie.

Les ensembles sont appelés populations.

Les éléments de la population sont appelés individus ou unités


statistiques.

La population est étudiée selon un ou plusieurs caractères ou variables.

Le choix des caractères dépend de l’objectif que l’on assigne à l’étude.

Un caractère permet de déterminer une partition de la population selon


ses diverses modalités. Lorsque les modalités d’un caractère sont des
nombres, le caractère est quantitatif. Une variable statistique peut être
discrète ou discontinue si elle ne prend que les valeurs précises ou elle
5
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

peut être continue si elle peut prendre n’importe quelle valeur


intermédiaire entre deux valeurs données. Lorsque les modalités du
caractère ne sont pas mesurables, le caractère est dit qualitatif.

Les modalités d’un caractère qualitatif peuvent faire l’objet d’une


nomenclature ou une énumération.

I.3. LA METHODE STATISTIQUE


Elle comporte essentiellement trois phases :

- Une phase matérielle où il s’agit de rassembler les données, de les


grouper et de les présenter sous forme de tableau et de graphique.
- Une phase analytique qui consiste à réduire les données à un
nombre limité de paramètres susceptibles de décrire la ou les séries
statistiques. Ces deux premières phases constituent l’objet essentiel
de la statistique descriptive.
- Une phase interprétative qui est la base de la statistique inductive
ou inférence statistique et qui permet de déduire des résultats
obtenus sur un échantillon des conclusions relatives à l’ensemble de
la population d’où est extrait l’échantillon. L’échantillon est un sous-
ensemble de la population. Il est recommandé que l’échantillon soit
représentatif de la population. Cette phase interprétative fait appel
au calcul et lois des probabilités.

I.4. LA COLLECTE DES INFORMATIONS OU DES


DONNEES
Les données sont collectées suivant les objectifs de l’enquête et
en tenant compte de la quantité et de la qualité d’informations, de la
disponibilité des enquêtés et des enquêteurs.

L’information ne doit pas être trop ambitieuse mais aussi elle ne


doit pas avoir des lacunes. Il faut collecter l’essentiel.

Les données sont recueillies soit par observation directe (ici le


chercheur descend lui-même sur terrain pour collecter les informations)
soit par observation indirecte (ici le chercheur utilise des données déjà
collectées par d’autres organismes, chercheurs, entreprises,…).
6
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

L’observation directe fait appel à l’élaboration des questionnaires


administrés par les chercheurs aux unités statistiques soit par interview,
soit par questionnaire écrit. Les questionnaires ne doivent pas âtre très
long mais ils doivent contenir les questions susceptibles de donner toutes
l’infirmation désirée, des questions claires, faciles et adaptées au langage
courant.

Les statistiques recueillies par observation indirecte sont souvent


des sous-produits d’autres travaux.

Exemple : Les statistiques d’une entreprise tirées de sa


comptabilité, les statistiques démographiques tirées au bureau de l’Etat
civil, les statistiques de production dans les départements : économie,
agriculture,… les statistiques tirées à l’INSS : Institut nations des
statistiques, les statistiques médicales ou sanitaire, les statistiques
pharmaceutiques, etc.

Les résultats statistiques peuvent être obtenus à partir d’une


enquête exhaustive instantanée (recensement ou dénombrement
instantané) ou d’un relevé continu. C’est ainsi que par exemple les
statistiques démographiques proviennent de deux sources :

- Les statistiques de recensement en date fixe ;


- Les statistiques du mouvement des populations dressées à l’Etat
civil.

L’enquête peut être exhaustive ou partielle. L’enquête exhaustive porte


sur toutes les unités de la population. Elle est utile mais souvent coûteuse.
C’est pourquoi on a souvent recourt à des enquêtes partielles faites sur un
ou plusieurs échantillons de la population. Il s’agit alors de sondage.

La méthode de sondage consiste à déterminer un échantillon


représentatif de manière que le résultat trouvé sur cet échantillon soit
voisin de celui que l’on aurait obtenu si l’on avait étudié la population
entière.

Citons quelques méthodes de sondage : sondage aléatoire simple :


sondage stratifié ; sondage par grappe ; sondage par quota, etc.
7
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

I.5. DEPOUILLEMENT DES INFORMATIONS,


DISTRIBUTION D’EFFECTIF ET GROUPEMENT
DES DONNEES EN CLASSES
Lorsque les informations ont été obtenues indirectement ou par
enquête, elles doivent être exploitées et analysées. Auparavant, une
critique de réponses reçues doit être faite afin d’éliminer les contradictions
et les invraisemblances.

Pour chaque caractère étudié on définit un certain nombre de classe selon


les modalités puis on fait la sériation ou le tri soit par ordre croissant ou
soit par ordre décroissant des observations c’est-à-dire répartition entre
les classes. C’est le groupement des données en classe. Ces opérations
peuvent être faites à la main ou par ordinateur sur base d’un programme
informatique ou logiciel statistique.

Une distribution d’effectifs ou distribution statistique est un


tableau dans lequel sont représentées toutes les valeurs possibles que
peut prendre une variable statistique.

X : variable statistique (lettre souvent en majuscule)

Xi : valeur de la variable X (peuvent être groupées en classes) ou i est


l’indice

i : indice

On enregistre le nombre d’observations pour chacune des classes ou


modalités ;

K : nombre de classe ou nombre de modalités ;

Le nombre d’observations dans une classe est appelé effectif de la classe


et il est noté ni. Le nombre total de toutes les observations, de toutes les
classes porte le nom d’effectif total ou taille et il est noté n ou N.

n : taille de l’échantillon ou effectif total de l’échantillon

N : taille de la population.
8
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
k
n=∑ ni où ∑
i=! est le signe de sommation. Ceci signifie somme des
effectifs de toutes les classes, ou somme n i pour i allant de 1 à k  n = n1
+ n2 +n3 +…+ nk,

L’intervalle de classe est défini comme l’ensemble de toutes les valeurs


situées entre deux vraies limites consécutives d’une classe. La longueur
de l’intervalle de classe est appelée amplitude de classe (a). Le milieu
d’une classe est appelé centre de classe (Xi).

Quelques règles générales de formation de distribution d’effectifs : on


détermine la plus grande X max et la plus petite Xmin des données brutes.
Leur différence donne l’étendue de la série statistique (série des données).
L’étendue est notée d.

d= X max − X min

On partage l’étendue en classes suffisamment nombreuses de même


amplitude. Lorsque cela est impossible, on considère des classes de
dimensions différentes ou des classes ouvertes. On choisit le nombre de
classe de telle sorte que le centre de classe coïncide avec des données
réellement observées. Ceci tend à diminuer l’erreur de groupement des
données due à l’analyse mathématique. Dans chaque classe on détermine
le nombre d’observations. Ce qui revient à chercher l’effectif de chaque
classe en procédant au pointage (//=7) soit en pâturage soit en carreau
( = 7). Rappelons qu’il existe, pour une même série statistique deux
sortes de tableaux, le tableau des données brutes X j (j = 1,2…n), le
tableau de données en classe où le centre des classes sont repérés par Xi
(i=1,…,k)

En pratique les formules suivantes sont utilisées pour les groupements des
données en classes :

10
k =1+ log n
 Le nombre de classe ou modalités 3
k est arrondi à l’unité près.
9
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

d d
a= où a=
 L’amplitude de casse k−1 k
 La borne inférieure ou limite de la 1ère classe est donnée par :
a
Bii1 =X min− où Bic =X min
2
 Limite ou borne supérieure d’une classe C : Bsc = Bic + a
 Les classes doivent être contiguës et disjointes généralement à
intervalles fermés à gauche et ouverts à droite. Ainsi borne
supérieure de la classe précédente est égale à la borne inférieure de
la classe suivante Bsc précédente = Bic suivante
Bic + B sc
Xi=
- Centre de classe 2
ni
f i=
- n
L fréquence relative : où ni = effectif de la classe i, n = la

taille de l’échantillon ou effectif total de l’échantillon,


k k ni 1 k 1
∑ f i =∑ = ∑ n i= n=1
n n i =1 n
i =! i=1

I.6. TABLEAU STATISTIQUE


 Elaboration de tableau de données ponctuelles à partir de la collecte
des données et du dépouillement ;
 Elaboration de tableau synthétique (distribution simple ou groupée).

1. Etude d’un seul caractère

a. Caractère qualitatif

Pointage en pâturage ou en carreaux

Tableau de distribution

Modalité Intitulé modalité Effectif ni Fréquence fi Fi en %

⋮ ⋮ ⋮ ⋮ ⋮

TOTAL n 1 100

Interprétation des résultats du tableau


10
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

b. Caractère quantitatif

) Variable discrète ou discontinue

Tableau de distribution à l’issu du pointage


i Xi ni Fi Fi% Effectif Effectif Fréquenc Fréquence
cumulé cumulé e cumulée Fi % Fi %
croissan décroissan cumulée décroissant
t ni t ni croissant e
e fi
fi
1 ⋮ ⋮ ⋮ ⋮ ⋮ n ⋮ 1 ⋮ 100
2 ⋮ ⋮ ⋮

N 1 100
TOTAL n 1 10 - - - - -
0
Interprétation des résultats du tableau

) Variable continue

Tableau de distribution groupé en classes


N° Class Centr Effecti Fréquenc fi ni ni fi fi fi% fi%
e e de f ni e relative %
classe fi
Xi
1 n ⋮ 1 ⋮ 10
2 ⋮ ⋮ 0
⋮ n ⋮
1 10

0
TOTAL N 1 10 - - - - - -
0
2. Etude simultanée de plusieurs caractères.

Il est bien évident que pour le besoin d’une étude on peut s’intéresser
simultanément à plusieurs caractères. Lorsqu’on étudie simultanément
deux caractères par exemple, on aura une combinaison de deux partitions
que l’on appelle en terme mathématique un produit de partitions. Le plus
souvent on a recourt à un tableau rectangulaire appelé tableau de
contingence ou parfois tableau de corrélation dans lequel les différentes
lignes repèrent les modalités d’une partition et les colonnes celles de
l’autre partition.
11
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

a. Tableau de distribution à 2 caractères qualitatifs ;


b. Tableau de distribution à caractères qualitatif et quantitatif ;
c. Tableau de distribution à 2 caractères quantitatifs

Pour ces tableaux ci-dessus soient :

l = nombre de lignes c = nombre de colonnes

i = indice ligne j = indice colonne


l l l c
n=∑ ∑ nij =∑ ni =∑ n . j
i=1 j=! i=1 i=1

nij ni n. j nij ni n. j
f ij = , f i= , f i= f ij = f i= f j=
n n n n n n

l l l l l c l c
∑ ∑ f ij =∑ f i= ∑ f j =1 ∑ ∑ f ij =∑ f i= ∑ f j =1
i=1 j =1 i =1 j =1 i =1 j=1 i =1 j=1
12
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Tableau de distributions croisées


⋯ ⋯
Y Y1 Y2 Yj Yc TOTAL
Modalités de X MARGINAL
LIGNE
⋯ ⋯
X1 n11 n12 n1j n1c n1

X n21 n22 n2j n2c n2

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
⋯ ⋯
Xi ni1 n2 nij nlc nl

⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
⋯ ⋯
Xl nl1 n12 nij nlc nl
⋯ ⋯
TOTAL MARGINAL n.1 n.2 n.j n.c n
COLONNE

I.7. GRAPHIQUE
Le graphique est consacré à l’étude visuelle d’informations
quantitatives ou qualitatives. Diverses méthodes de représentation sont
possibles.

Nous pouvons citer :

- Diagramme en bandes soient horizontales soient verticales ;


- Diagramme en secteur ou angulaires ;
- Diagramme figuratif ;
- Nuage de points
- Courbe
- Diagramme en bâtons et polygone des fréquences
- Diagramme de LEXIS et pyramide des âges
- Courbe de concentration de LORENTZ inscrite dans le carré de
GINI
- Courbe de chronique
- Histogramme et polygone de fréquences
- Ogives,
- Diagramme triangulaire, etc.
13
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

A. Caractère qualitatif

1. Diagramme en bandes verticales

ni

Xi

Le diagramme est monté sur base du tableau de distribution. Sur


l’axe des abscisses nous représentons les modalités et sur l’axe des
ordonnées nous représentons soit les effectifs ni soit les fréquences fi, soit
les fréquences fi en pourcentage (fi %).

Au dessus de chaque modalité on élève un rectangle de


longueurs proportionnelles à l’effectif (fréquence) correspondante et on y
associe la légende.

2. Diagramme en secteurs

Ici on partage au prorata des effectifs de modalités la surface


d’un cercle en respectant les angles calculés par 360°fi sans oublier la
légende de chaque modalité.

3. Diagramme figuratif

Ici on part de l’image qui représente les individus statistiques


étudiés et on représente ces images conformément à la proportion des
effectifs des différentes modalités.
14
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

B. Caractère quantitatif

1. Variable discrète ou discontinue ni

a. Diagramme en bâtons, polygone de


fréquences et courbe lissée.

Sur l’axe des abscisses on représente les


valeurs du caractère Xi et sur l’axe des ordonnées les
effectifs ni ou fréquences fi ou fi %. Au dessus de chaque
Xi
valeur Xi on élève un bâtonnet ou un segment de
longueur ni.

ni correspond (fi ou fi %). On relie les sommets des bâtonnets pour avoir le
polygone de fréquence. La courbe lissée est tracée en main levée en
suivant l’allure générale du polygone des fréquences.

b. Les Ogives de Galton ou polygones des fréquences cumulées.

Sur l’axe des abscisses on représente les valeurs X i du caractère


et sur l’axe des ordonnées on représente les effectifs cumulés fi, fi %
pour l’ogive croissant ou encore décroissant pour l’ogive décroissant n i ou
fi ou fi % ni

Les deux ogives se concatènent ou se croisent


au point médian des coordonnées valeur
n
~
médiane X et 2 ou 50 %. Les ogives pour les
caractères quantitatifs discrètes sont en
escalier.

L’ogive croissant s’appelle encore courbe de fonction


~
de répartition. X Xi
2. Variable continue

a. Histogramme, polygone des fréquences et


courbe lissée :
ñioufi

Sur l’axe des abscisses on représente les


classes disjointes contiguës. Sur l’axe des

Limite des classes


15
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

ordonnée nous représentons l’affectif ni (ou fi


ou fi %).

Au dessus de chaque classe on élève un


rectangle de longueur correspondant à l’effectif
ni i, la largeur étant l’amplitude de classe.

L’ensemble des rectangles donne l’histogramme de distribution. Le


polygone des fréquences est la courbe qui relie les sommets, points
milieux des rectangles. La courbe lissée montre l’allure de la courbe de la
distribution du caractère étudié, allure générale du polygone des
fréquences.

b. Les ogives de Galton, courbes de fréquences cumulés : sur l’axe des


abscisses nous plaçons les limites des classes et sur des ordonnées nous
plaçons les effectifs cumulés ou fréquences cumulées croissant ou
décroissant. Les deux ogives se concatènent et se croisent au point
~
médian des ordonnées médianes X et 50 % des effectifs. niXini

L’ogive croissant s’appelle courbe de la fonction de répartition.


~
X Xi

N.B. : Pour représenter l’histogramme de fréquence d’une distribution


groupée en classes inégales c’est-à-dire d’amplitudes différentes, on
partage les effectifs des différentes classes proportionnellement aux
amplitudes.

Remarque jusque là nous avons parlé des graphiques représentés dans le


plan cartésien à échelle arithmétique. Remarquons qu’il existe aussi des
graphiques à échelle semi logarithmique, des graphiques à échelle
logarithmique, des graphiques polaires ou diagrammes polaires, des
diagrammes à barres et triangulaires, des représentations étagées, des
diagrammes en fromage.

Y Log Y Log Y
16
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

X X Log X
Echelle arithmétique Echelle semi-logarithmique Echelle logarithmique

I.8. EXERCICES
Echelle arithmétique, échelle semi logarithmique, échelle logarithmique
(log-log).

TRAVAUX PRATIQUES

1. Une entreprise veut analyser le montant de vente en unité monétaire


obtenue journalièrement et cela pendant 50 jours. Elle a obtenue le
tableau de données ponctuelles suivant :
Vente en N° Vente en N° Vente en N° Vente en N° Vente en
unités jou unités jour unités jou unités jour unité
monétaire r monétaire s monétaire r monétaire s monétaire
s s s s s
1 87326,8 11 63864,8 21 82130,4 31 91168,0 41 83926,8
2 73094,4 12 94403,4 22 100929,6 32 100600,8 42 76973,2
3 90916,0 13 99079,1 23 63896,0 33 93062,4 43 101016,0
4 100104,0 14 86944,0 24 64131,8 34 79705,6 44 72505,0
5 77478,0 15 81400,4 25 74160,0 35 79716,0 45 76284,0
6 55848,0 16 70092,0 26 96011,1 36 56601,6 46 77360,0
7 61879,2 17 77766,4 27 101115,0 37 88380,0 47 73656,0
8 91759,2 18 96256,0 28 95361,4 38 85829,2 48 71097,6
9 80236,8 19 89910,0 29 92880,0 39 103010,4 49 73984,0
1 86156,0 20 87840,0 30 95374,5 40 60996,0 50 73786,0
0

a. Quels sont : la population étudiée, l’échantillon, l’individu statistique,


le caractère, la nature du caractère et les modalités.
b. Groupez en classe cette distribution et interprétez le tableau de
distribution.
c. Représentez l’histogramme, le polygone de fréquence et la courbe
lissée et interprétez le graphique.
d. Représentez les ogives : ogive croissant et ogive décroissant.
interprétez le graphique.
17
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

2. On s’intéresse à l’étude du nombre de chèques traites quotidiennement


par le service de recouvrement d’une entreprise au cours de 25 jours
d’observation. Après ces 25 jours le service de recouvrement établit le
tableau de données ponctuelles suivant où il est contenté de noter au jour
le jour le nombre de chèques bancaires traités.
18
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

N°j Nombre N°j Nombre N°j Nombre N°j Nombre N°j Nombre
de de de de de
chèques chèques chèques chèques chèque
traités traités traités traités s
traités
1 1 6 0 11 1 16 1 21 2
2 1 7 1 12 3 17 0 22 1
3 0 8 2 13 3 18 3 23 4
4 2 9 1 14 2 19 1 24 2
5 5 10 4 15 0 20 2 25 0

a. Quels sont : la population étudiée, l’échantillon, l’individu statistique, le


caractère, la nature du caractère, les modalités.

b. Donnez le tableau de distribution

c. Représentez et interprétez le diagramme en bâtons, le polygone de


fréquence et la courbe lissée.

d. Représentez et interprétez les ogives

3. On donne la répartition d’un groupe d’enfants par taille.

Taille en cm Effectif ni Taille Effectif ni

80 à moins de 90 3 100 à moins de 105 18

90 à moins de 95 15 105 à moins de 110 12

95 à moins de 100 22 110 à moins de 120 5

a. Quels sont :
la population étudiée, l’échantillon, l’individu statistique, le
caractère (Variable statistique), la nature du caractère, les
modalités.
b. Complétez cette distribution statistique, interprétez.
c. Représentez l’histogramme, le polygone de fréquence et la courbe
lissée, interprétez.
d. Représentez et interprétez les ogives.

4. On observe deux groupes de 100 personnes atteintes d’une maladie


cancéreuse. Les unes ont subi le traitement A, les autres le traitement B.
Le temps d’hospitalisation se répartit comme suit :
19
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Temps Effectifs des malades Temps Effectif des malades


d’hospitalisation d’hospitalisation
Traitement A Traitement B Traitement A Traitement B
0 à 3 mois 2 12 8 à 9 mois 23 8
3 à 5 mois 3 18 9 à 10 mois 18 5
5 à 6 mois 6 21 10 à 11 mois 12 6
6 à 7 mois 10 14 12 à 18 mois 8 4
7 à 8 mois 18 12

a. Représentez ces répartitions par le diagramme qui vous convient.


Superposer leurs représentations.
b. Interprétez et concluez
5. On donne la répartition des femmes âgées de 50 à 54 ans selon le
nombre d’enfants nés vivants.

Nombre d’enfant Fréquence en %


0 19
1 25
2 23
3 14
4 et plus 19
a. Quels sont : la population étudiée : les caractères, la nature du
caractère, les modalités, l’échantillon, l’individu statistique.
b. Représentez et interprétez le diagramme avec les figures qui
conviennent.
6. Une entreprise fabrique des axes de roues pour voitures. La
production d’une journée prise au hasard a été intégralement
contrôlée. Les résultats du contrôle sont les suivants :
N° Diamètre Nombr N° 1/100mm Nombr N° Diamètre Nombr
1/100 mm e de Diamètre e de 1/100 mm e de
pièce 1/100 mm pièce pièces
1 2445-2455 4 5 2485-2495 190 9 2525-2535 80
2 2455-2465 10 6 2495-2505 220 10 2535-2545 4
3 2465-2475 60 7 2505-2515 180 11 2545-2555 2
4 2475-2485 130 8 2515-2525 120
20
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

a. Quelles sont : la population étudiée, l’échantillon, l’individu


statistique ou unité statistique, le caractère, la nature du caractère,
les modalités.
b. Représentez et interprétez l’histogramme, le polygone de fréquence
et la courbe lissée.
c. Représentez les ogives et interprétez sur base du tableau de
distribution complétée.

7. Soient les répartitions de salaires (hommes, femmes) par rapport à


leurs catégories socioprofessionnelles.

Catégories Hommes Femmes


socioprofessionnelle
Effectif en Fréquence Effectif en Fréquence
s
millier en % millier en %
Cadres supérieurs 401 5 41 1
Cadres moyens 829 11 230 7
Employés 840 11 1377 44
Ouvriers 5402 71 1260 40
Personnel service 140 2 254 8
Autres catégories 8 - 2 -
Total 7620 100 3164 100
a) Quelle est la nature du caractère étudié pour chacune de ces deux
distributions ?
b) Représentez ces deux distributions sur un même graphique
(diagramme en bandes) et interprétez.
8. Le nombre d’interventions par jour des plombiers au cours d’une
année X est distribué comme suit :
Nombre Effectif Nombre Effectif Nombre Effectif Nombre de Effectif
de de sorties de sorties sorties par
sorties par jour par jour jour
par jour
0 84 2 70 4 28 6 4

1 105 3 59 5 15 Total 365

a. Quelle est la variable statistique étudiée et sa nature ?


b. Représentez cette série statistique par les graphiques appropriés
21
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

9. Le tableau suivant indique le nombre d’hectolitres de blé et de


maïs produits de 2005 à 2015.

Année Nombre d’hl de blé Nombre d’hl de maïs

2005 200 75

2006 185 90

2007 225 100

2008 250 85

2009 240 80

2010 195 100

2011 210 110

2012 225 105

2013 250 95

2014 230 110

2015 235 100

1°. En se référant à ce tableau déterminez les années durant lesquelles :

a. On a produit le plus petit nombre d’hectolitres de blé ;


b. On a produit le plus grand nombre d’hectolitres de maïs ;
c. On a enregistré la plus forte baisse dans la production de blé ;
d. La production de maïs a diminué alors que celle de blé a augmenté
par rapport aux années précédentes ;
e. On a produit le même nombre d’hectolitre de blé ;
f. La production combinée de blé et de maïs a été maximale ;

2°. Représentez les deux séries de production en fonction du temps sur le


même graphique.

10. Le tableau suivant donne la population des USA en millions de 1840 à


1960

Année 184 185 186 187 188 189 190 191 1920 1930 1940 1950 1960
0 0 0 0 0 0 0 0

Populatio 17,1 23,2 31,4 39,8 50,2 60,9 76,0 92 105, 122, 131, 151,1 179,
22
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

n en 7 8 7 1 3
million

Tracez et interprétez la courbe reliant les points de cordonnées années-


population.

11. Le tableau suivant donne la superficie de différentes parties du globe


en millions de km².
Partie Superficie en millions de Km²
Afrique 30,3
Amérique du Nord 24,3
Amérique du Sud 17,9
Asie moins URSS 26,9
Europe 4,9
Océanie 8,5
URSS 20,5

Représentez et interprétez les graphiques qui conviennent pour cette


distribution.

12. Les notes finales sur 100 de statistique obtenus par 80 étudiants au
cours d’une année académique sont rapportées dans le tableau suivant :
88 84 75 82 68 90 62 88 76 93
73 79 88 73 68 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 75 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 91 72 63 76 75 85 77

a. Quels sont :

- La plus mauvaise cote ;

- La cote maximale,

- L’étendue de la série ;

- Les notes des 5 meilleurs étudiants ;


23
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

- La note de l’étudiant arrivant au 10ème rang ;

- Le nombre d’étudiants ayant obtenu une note ≥ à 75 ;

- Le nombre d’étudiant ayant obtenu une note  à 85 ;

- Le pourcentage d’étudiant qui ont obtenu une note comprise entre 65 et


85 ;

- Les notes qui n’ont pas été attribuées ;

b. Groupez cette distribution en classes,

c. Représentez et interprétez l’histogramme, le polygone de fréquence et


la courbe lissée.

d. Représentez et interprétez les courbes de fréquences cumulées (ogives,


fonction de répartition) ;

13. Cinquante éprouvettes d’acier spécial sont soumises à des essais de


résistance.

Pour chacune on note le nombre de chocs nécessaires pour obtenir la


rupture. Les résultats obtenus sont les suivants :
2 2 3 5 2 1 4 2 3 5
3 2 3 3 4 1 2 4 2 2
4 2 3 2 3 3 2 2 4 2
1 4 2 3 2 2 3 1 3 3
2 3 2 2 3 4 3 2 3 2

a. Quelle est la variable statistique et sa nature ?


b. Donnez la distribution statistique.
c. Représentez et interprétez le diagramme en bâtons, le polygone de
fréquence et la courbe lissée.
d. Représentez et interprétez les ogives.

14. A l’année X la population active d’un pays était composée de : 11,1


% d’agriculteurs, 10,6 % de patrons, 16,5 % de cadres, 16,7 %
d’employés, 38,6 % d’ouvriers, 6,5 % de personnel de service et autres
catégories.
24
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Représentez et interprétez cette distribution par les graphiques qui vous


semblent les mieux adaptés.

15. Les centres des classes de la distribution de la taille de certains


étudiants sont en cm : 128 137 146 155 164 173 182.

Trouvez :

- L’amplitude de chaque classe ;


- Les bornes ou limites de chaque classe, la taille est mesurée à un
cm près.

16. Le tableau suivant donne la taille de 40 élèves à un cm près.


138 164 150 142 144 125 125 157
146 158 140 147 136 148 148 144
168 126 138 176 163 119 119 165
146 173 142 147 135 153 153 135
161 145 135 142 150 153 156 128

a. Seriez par ordre croissant ces données ;


b. Groupez ces données en classes selon votre savoir-faire
c. Représentez et interprétez l’histogramme, le polygone de fréquence
et la courbe lissée.
d. Représentez et interprétez les courbes de fréquences cumulées
(ogives, fonction de répartition).
25
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

CHAPITRE II :
SYNTHESE STATISTIQUE PAR LES PARAMETRES OU
INDICATEURS OU VALEURS CARACTERISTIQUES
II.1. CAS DES CARACTERES QUALITATIFS
Pour chaque modalité d’un caractère donné, on observe le nombre η i
d’éléments présentant la modalité i et on calcule la fréquence f i
correspondante. La fréquence est un paramètre susceptible de
ni
f i=
caractériser chaque modalité. n

II.2. CAS DES CARACTERES QUANTITATIFS


On cherche à résumer la distribution observée de la variable
quantitative par des paramètres, il existe plusieurs sortes de paramètres :

1°. Paramètres de position

Paramètres de tendance centrale :

- Les moyennes ;

 moyenne arithmétique ( X̄ ,m ,μ, E (x))

 Moyenne géométrique (G, X̄ G)

 Moyenne quadratique (Q, X̄ Q)

 Moyenne harmonique (H, X̄ H)


~
- La médiane ( X , Me )

- Le mode (
X^ , M 0 )

* Percentiles

- La médiane ( x̄ , Me

- Les quartiles : 1er quartile Q1, 2ème quartile Q2, 3ème quartile Q3

- Les déciles : D1, D2, D3,…D9

- Les centiles : C1, C2, C3,… C99

2°. Paramètres de dispersion :

* L’étendue (d = Xmax – Xmin)


26
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

- L’écart moyen absolu (EMA) ;

- L’intervalle interquartile II Q

- La variance ( V ( x ) , σ ( x ) , σ , s ) )
¿ 2 2

- L’écart-type ( σ ( x ), σ , s )

- Le coefficient de variation (CV)

- Les moments

3°. Paramètres de forme (symétrie, voussure, kurtose, kurtosis)

 Le coefficient de dissymétrie (CD) de pearson


 Le coefficient d’asymétrie (1, 1)
 Le coefficient d’aplatissement (2, 2)

4°.Paramètres de concentration

 La médiane (Mle)
 La courbe de LORENTZ inscrite dans le carré de GINI, etc.

II.2.1. Paramètres de position


A. LES MOYENNES

A.1. Moyenne arithmétique ( x̄ )


- Distribution simple (distribution non groupée en classe)
Soit une série de données X1, X2…Xn. La moyenne arithmétique est
définie comme la somme des valeurs Xj(J = 1,2… ; n) divisée par
leur nombre n (n = taille ou effectif total).

x ! + x2 +.. . x j +. ..+ x n
x̄=
n
n
1
x̄= ∑ x j
n j=1

- Distribution groupée en classes

Si Xi représente le centre de classe i et n i l’effectif correspondant, on


définit la moyenne arithmétique comme étant le rapport entre la
somme des produits des Xi par ni et la somme de ni.
27
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
k

n x +n x +.. . ni xi + .. . nk x k ∑
n1 x1
x̄= 1 1 2 2 = i =1k
n 1 +n2 +.. . n1 +. .. n k
∑ ni
i =1

k ni k
x̄=∑ xi ⇒ x̄=∑ f i x i
i =1 n i=1

k ni k
1
x̄=∑ xi = x̄= ∑ f i x i
i =1 n n i=1

k
1
X = ∑ ni X i
n i =i

- Moyenne arithmétique pondérée


x̄ p
- Soient X1, X2, X3,… Xn les valeurs observées dans la distribution et
p1, P2, P3,… pn les pondérations correspondantes.
n
∑ pi xi
x̄ p= i=1n
∑ p1
i =1

On appelle coefficient de pondération d’une donnée ou poids ou encore


pondération d’une valeur, un nombre positif ou nul attaché à cette donnée
de façon à indiquer son importance relative dans l’ensemble.

- Méthode de calcul simplifié de la x̄


 Usage d’une variable auxilliaire.

Soit une série d’observations X1, X2, … Xn. On choisit une moyenne
provisoire X0 et on pose Zi -= Xi –X0Xi = Zi +X0.

Si on a une distribution simple

n n n n
1 1 1 1
x̄=
n
∑ xi= n
∑ ( z i + x 0 )= ∑
n i=1
zi +
n
∑ x 0= x̄=1n ∑ z i +1n nx0 ⇒ X̄ = Z̄+ x 0
i=1 i=1 i=1

n n n n
1
x̄=
n
∑ nxi =1n ∑ ni ( z i + x 0) =1n ∑ n i z i +1n ∑ ni x 0= x̄=1n ∑ nzi +1n nx 0= x̄= z̄ + x 0
i=1 i=1 i=1 i=1

Si on a une distribution groupée


28
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
k n k k k k
1
x̄=
n
∑ ni xi =1n ∑ n i ( z i + x 0) =1n ∑ ni z i + 1n ∑ ni x 0= z̄+ 1n x 0∑ n=Z̄ + 1n ∑ n i= z̄ + x 0 nn
i=1 i=1 i=1 i=1 i=1 n=1

x̄= z̄ + x 0
* Usage d’une variable auxiliaire avec changement d’échelle. Si X0 est une
moyenne provisoire et « a » l’amplitude de k classe toute valeur Xi k peut s’écrire
sous la forme :

( x i −x 0 )
x i =x0 +a
a

x i −x 0
z i= ⇒ x i =x 0 +aZ i
a
k k k k
1 1 1
Or x̄ = ∑ ni x i= ∑ ni ( x 0 + aZ i ) =
n i=1 n i=1 n
∑ n1 x 0 + a 1n ∑ ni Z i ⇒ X̄ =x 0 +a Z̄
i=1 i=1

- Quelques propriétés de la x̄

P1 : La moyenne arithmétique satisfait assez bien aux conditions de YULE.


Pour pouvoir représenter un ensemble de données, un paramètre doit
réunir un certain nombre de conditions dont voici quelques unes.

- Une valeur type d’une distribution doit être définie d’une manière
objective de façon qu’elle ne puisse pas laisser la place à
l’interprétation subjective.
- La valeur type doit représenter autant que possible toutes les
données de la série.
- La valeur type doit se prêter à des calculs simples.
- La valeur type doit avoir une signification concrète et aisée à
comprendre.
- La valeur type de l’échantillon représentatif doit être proche que
possible de la valeur type de la population. Elle ne doit donc pas
être sensible aux fluctuations de l’échantillonnage.

P2 : La somme algébrique des écarts des termes de la série par

rapport à la X̄ des termes est nulle.


n
∑ ( x i− x̄ )=0
i=1
29
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
n n n n n n n n
1
⇒ ∑ x1 −∑ x̄ ⇒ ∑ x i− x̄ ∑ 1⇒ ∑ x 1− x̄ . n or X̄= ∑ x i ⇒ n X̄=∑ x 1=∑ x i
i=1 i =1 i =1 i=1 i =1 n i=1 i=1 i=1

n n
⇒ n X̄−n X̄ ⇒ ∑ xi −∑ x i=0
i=1 i =1

P3 : La somme des carrés des écarts par rapport à la X̄ est le


minimum et le plus petit que la somme des carrés des écarts par
rapport à toute autre valeur.
n n
⇒ ∑ ( x 1− x̄ ) 2≤∑ ( xi − x̄ 0 ) 2 ⇒
∑ ( x 1− x̄ ) est 2
le minimum i=1 i =1 Théorème de
Koëning.

P4 : Les variables qui sont en relation linéaire ont des moyennes


arithmétiques liées par la masse relative.

P5 : La x̄ est le paramètre de position le plus utilisé et le plus


représentatif de l’ensemble des observations.

A.2. Moyenne géométrique (G)

- Série simple

La moyenne géométrique de n termes est la racine n ième du produit


de ces termes.


n n
G= n√ x 1 . x 2 . .. x 1 .. . x n ⇒ G= π x i avec π signe de produit (produit allant de 1 à n )
i=1

1
G=( x ! . x 2 . .. x n ) n

1
log G=
n
[ log x 1+log x 2+. ..+log x n ]
n
1
log G= ∑ log x 1
n i=1

( )
n
1
n ∑ log x1
i=1
G=10

- Série groupée
30
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

X étant le centre de classe ou la valeur de la modalité i, n i l’effectif


de la classe i ou de la modalité i, k le nombre de classes ou nombre
de modalités, n l’effectif total alors la moyenne géométrique

G= √ χ 1n1 . χ n2 2 .. . χ nk
k ou


n
k
n
G= π χ i i
i=i

[( ]
1
log G=log
n1 n2
)
nk n
x 1 . x 2 .. . x k

1
log G= [ n log x 1+n 2 log x2 +.. . nk log x k ]
n 1
k
1
log G= ∑ n log x 1
n i=1 1

( )
k
1
∑ n log xi
2 i=1 i
G=10
Propriétés de la moyenne géométrique.

P1 : La G satisfait aux conditions de réversibilité et transférabilité dans le


calcul des indices. Elle est recommandée lorsqu’il s’agit de mettre en
évidence l’influence des variations relatives plutôt que des variations
absolues.

Elle est aussi recommandée dans la recherche de la moyenne


des rapports quand on s’intéresse par exemple au calcul du taux d’intérêt
composé, au calcul du taux de croissance, dans le calcul des indices,…

Elle est aussi recommandée dans la recherche de la moyenne


des rapports quand on s’intéresse par exemple au calcul du taux d’intérêt
composé, au calcul du taux de croissance, dans des indices…

La G est aussi utilisée dans les problèmes d’interpolation et dans


les problèmes d’extrapolation. Calcul des intérêts simples : i = c.n.r. avec
n = nombre de période, r = taux d’intérêt périodique, c = capital initial.
Intérêts composés et capitalisation des intérêts : C’ = C(1 + r)nC’ = C + l
31
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

avec C’ = capital acquis, l = Intérêt. Calcul du taux d’accroissement de la


population :

n Pn n
Pn =P0 (1+ r ) ⇒ =( 1+r )
P0



n Pn
P0
=1+r ⇒ r=
√ n Pn
P0
−1

Pn = effectif de la population à l’année courante n

r = taux d’accroissement annuel ou périodique

n = nombre d’années ou des périodes

P0 = effectif de la population à l’année initiale 0

A.3. Moyenne quadratique

La moyenne quadratique est la racine carrée de la moyenne des


carrés des termes :

√ √
n n
1 1
Q=
n
∑ x 2i Q p= ∑ p x2
p i =1 i i
- Pour une série simple : i=1
La Q pondérée


n
1
Q= ∑
n i=1
ni xi2
- Pour une série groupée :

La Q accentue l’influence des termes les plus élevés de la série.

A.4. Moyenne harmonique

On appelle H1 l’inverse de la moyenne arithmétique des inverses des


termes.

n
H= n
∑ x1
- Pour une série simple : i =1 i

n n
H= k
H= k
n n
∑ xi ∑ xi
- Pour une série groupée : i =1 i i =1 i
32
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

p
H p= n pi n
∑ xi
p=∑ p i
i=1 i=1
La moyenne harmonique pondérée : avec

La H accentue l’influence des termes les plus faibles de la série.

La H est utilisée dans le traitement des données se présentant sous forme

de rapport et possédant des dimensions physiques (km/l, coût au km,

km/h, etc.) et dans les exemples relatifs au pouvoir d’achat.

Exemple : un homme parcourt le trajet A vers B à la vitesse moyenne de

30 km/h et le trajet B vers A à la vitesse de 60 km/h. Quelle est la vitesse

moyenne sur le trajet total ?

Solution

Vitesse A vers B = 30 km/h

Vitesse B vers A = 60 km/h

Vitesse moyenne arithmétique AB + BA =


30+60
=45 km/ h⇒ X̄ et non H
2

e e l total
V = ⇒t= V =
A…B B…A
t v t total

21 en km
V=
1 en km 1 en km
+
l1 l2 l = t1VAB
30 km/h 60 km/h

t1 t2 l = t2VBA

VBA = 30 km/h temps total pour parcourir l’espace : t1 + t2

21
V=
1 1
+
30 km/h 60 km/h

VBA = 60 km/h
33
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1 1
t 1= t 2=
e = v.t
30 km/h 60 km/h t = t1 + t2

2 1 1 2 2
= + V= =

Espace total =
t 30 km/h 60 km/ h 1 1
+
1
30 60 km/h ( 1 1 h
+
30 60 km) ( )
2 2 2×60
V= km/ h= km/ h= km/ h=40 km/h
2+1 3 3
60 60

X1 = VAB = 30 km/h

X2 = VBA = 60 km/h

n = 2 (données observées)

n 2 2
H= ⇒ H= = =40 km/ h
n
1 1 1 1 1
∑ X1
+
x1 x2
+
30 km/ h 60 km /h
i =1

A.5. Comparaison des différentes moyennes

En général une même série statistique H≤G≤ X̄ ≤Q


Pour notre exemple H = 40 km/h G = ?

X̄ = 45 km/h Q = ?


n n 2
G= π x 1 =√30×60=42 , 43 km/h
i=1

Q=
√ 1
2 √
( (30 )2 + ( 60 )2 )= 1 ( 900+3600 )=47 , 43 km/h
2

H≤G≤ X̄ ≤Q

40 km/h≤42, 43 km/h≤45 km/h≤47 , 43 km/h


~
B. LA MEDIANE OU MEDIANTE X , Me
34
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

La médiane d’un groupe de valeurs est la valeur qui occupe la


place du milieu lorsqu’on énumère la totalité des valeurs du groupe soit
dans l’ordre croissant, soit dans l’ordre décroissant.

- Si l’effectif n est pair, il y aura deux valeurs encadrant la médiane. Alors


celle-ci sera trouvée par la moyenne arithmétique de ces deux valeurs
qui l’encadrent.
- Mais si n est impair, en ce moment on prend la valeur du milieu à
condition que l’on ait préalablement ordonné les valeurs.

Ex : Si on a une série de cotes sur 10 des étudiants : 7, 2, 4, 5, 6, 8.

Trouvez la note médiane.

Solution : sérier la distribution des notes ordre croissant : 2, 4, 5, 6, 7, 8 n

= 6 est pair on va utiliser X̄ valeur du milieu : 5 et 6

~ ~ 5+6
X = X̄ de 5 et 6 X= =5 , 5
2

Supposons une autre série 9,3,7,1,4. Trouvez la médiane

Solution : série triée : 1,3,4,7,9


~
n = 5 impair X = 4 valeur du milieu de la série triée.

Lorsqu’on a à faire à des données groupées en classes, il faut :

- Déterminer la classe médiane c’est-à-dire la classe qui contient la 50 ème


observation en pourcentage par ordre croissant ;
- Calculer la valeur médiane par interpolation linéaire sous l’hypothèse de
l’équirépartition des observations dans la classe. Si cette hypothèse n’est
pas vérifiée alors on utilise la méthode graphique.

n
−n ↑inf . cl ~x
~ ~ 2 1
X =Licl { x +a ¿
n1 cl ~x
~
Licl X = limite inférieure de la classe médiane
~
a = amplitude de la classe médiane nicl x = Effectif ni de la classe
médiane
35
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

ni infcl x̄ = effectif cumulé de la classe précédent la classe médiane.


~
Quelques propriétés de la x
~
- La x n’est pas affectée des valeurs aberrantes des extrémités de la
série.

- La verticale correspondant à la médiane partage l’ensemble de


l’histogramme en deux parties égales et les ogives se coupent au point

médian des cordonnés


~
x,
n
( )
2 . Les ogives se concatènent au point médian.

- La médiane est une valeur typique dans beaucoup d’analyses


statistiques et économiques, en démographie, dans les problèmes se
rapportant à des caractères qualitatifs comme par exemple dans les tests
psychotechniques.

C. LE MODE OU LE DOMINANT ( X^ , M 0 )
Le mode c’est la valeur du caractère correspondant à la
fréquence maximale. Une distribution peut présenter plusieurs dominants.
On dit qu’elle est plurimodale ou multimodale. Quand c’est seulement
deux modes, on parle d’une distribution bimodale.

- Pour une série simple le mode c’est la valeur qui s’est répétée le
plus de fois.
Δ1
X^ =Licl { x^ +a ¿
- Pour une série groupée, Δ1+ Δ2

Où Licl x^ = limite inférieure de la classe modale, a = amplitude

1 = différence entre l’effectif de la classe modale et l’effectif de la classe


précédente

2 = différence entre l’effectif de la classe modale et l’effectif de la classe


suivante.

Remarques :

- Relation entre X̄ , ~
X et X^
36
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Lorsqu’une distribution doit être représentée graphiquement par


sa courbe de fréquence qui est en fait le polygone de fréquence et
synthétisée par ces paramètres, les positions respectives des trois

caractéristiques X̄ , ~
X et X^ , peuvent donner une indication de l’allure de la
courbe du point de vue forme.

a) Pour une courbe symétrique comme celle


par exemple d’une distribution normale, les
trois caractéristiques sont rassemblés en
une même valeur, c’est-à-dire sont égales
x̄=~
x = x^
b) Pour une distribution asymétrique ou
dissymétrique étalée du côté positif, on a la

double inégalité suivante : X^ ∠ ~


X et ∠ X̄
c) Pour une courbe asymétrique ou
dissymétrique étalée du côté négatif on a la

double inégalité : X̄ ∠ ~
X et ∠ X^ .
37
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

D. LES PERCENTILES
Le Pième percentile est la valeur du
caractère Cp tel que :
- L’ensemble des individus dont le caractère est au plus égal à Cp
représente les P% de l’effectif total.
- L’ensemble des individus dont le caractère est au moins égal à
Cp représente les (100-p)% de l’effectif total. Parmi les
percentiles nous distinguons les centiles pour lesquels p = 1,2,3,
…99 : Cp

Les déciles pour lesquels p = 10,20,30,40,50,60,70,80,90

C10 = D1, C20 = D2… ; C50 = D5…. C90 = D9

Les quartiles pour lesquels p = 25,50,75,

C25 = Q1 ;C50 = Q2 ;C75 = Q3

La médiane pour laquelle p =50


~
C50 = D5 =Q2 = X

p
nx −ni↑inf clcp
100
C P=Liclcp+ a
Formule générale n , clcp

II.2.2. Paramètres de dispersion


Les mesures de tendance centrale ou position ont le grand
avantage d’identifier la valeur typique d’un groupe de valeurs données. A
l’opposé, les mesures de variabilité ou mesure de dispersion d’un groupe
de données visent essentiellement à fournir une idée de leur
regroupement plus ou moins serré en tant qu’ensemble de valeurs.

a) Étendu ou Rangé ou intervalle de variation ou encore plage (d)


d = Xmax - Xmin
b) Intervalle interquartile. (IIQ)
IIQ = Q3-Q1 intervalle interquatile absolu
Q3−Q 1
ISIQ=
2 intervalle semi interquartile
38
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Q3 −Q1
IIQR=
Q2 intervalle interquartile relatif

c) L’écart absolu moyen (EAM)


k
1
EAM = ∑ n|X i− X̄|
n i =1
Pour une série simple
k
1
EAM = ∑ |x i − X̄|
Pour une série groupée n i =1

2
d) La variance et l’écart type σ ( x ) , σ ( x )

La variance d’une série des valeurs du caractère est la moyenne


arithmétique des carrés des écarts de ces valeurs par rapport à leur
moyenne arithmétique.
n
1
V ( X )=σ 2= ∑ x − x̄ ) 2
n i=1 ( i
Pour une distribution :

Développons :
n
1
2
V ( x ) =σ =
n
∑ ( xi − X̄ ) 2
i=1

n n n
1 1 −1 21
V x=σ 2 =
n
∑ ( x2i −2 x 1 x̄ +( x̄ ) )=
2

n i=1
xi2−2 x
n
∑ x i +( x̄ ) n
∑1
i=1 i=1

- Pour une distribution simple :


n
1 1
V ( X )=σ 2 = ∑
n i =1
x 2i −2 ( x̄ ) + ( X̄ ) ⇒ V ( x )=σ 2= ∑ xi2−( x̄ ) ⇒ V ( x )=σ 2= X̄ 2 −( x̄ )
2 2
n
2 2

1
- Pour une série groupée :
V ( x )=σ 2=
n
∑ ni ( x i − x̄ ) 2

- Développons :
39
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
k k k
1 1 1 2 1
σ = ∑ ni ( x 2i −2 x1 x̄ + ( x̄ ) )= ∑ x i x 2i −2+ X̄ ∑ ni . x i + ( X̄ ) . . ∑ ni
2 2
n i=1 n i=1 n n i=1

k
1 2 1
¿ ∑ n i x 2i −2 ( x̄ ) + ( x̄ ) = ∑ ni x 2i − ( x̄ ) ⇒ V ( X )=σ 2= X̄ 2 −( X̄ )
2 2 2
n n i=0

V ( x )=σ 2= x̄ 2 −( x̄ )2

Les dimensions de variance sont celles du caractère élevé au carré. Il faut


donc en extraire la racine carrée pour obtenir un paramètre
caractéristique des écarts. L’écart type ou l’écart quadratique moyen est
la racine carrée de la variance. Il est le plus significatif et le plus utilisé de
tous les paramètres de dispersion.

σ =√ σ 2 pour toutes les séries simple ou groupée.

Remarque :

Comme pour la moyenne arithmétique on peut utiliser, suivant le cas :

- Un changement d’origine (translation) ;


- Un changement d’échelle (rotation)
- Les deux à la fois (translation et rotation combinées).
xi −x 0
Zi = ⇔ aZ i=x i −x 0 ⇔⇔ x 1=aZ i + x 0
a
k k
1 1
x 2i =a2 Z 2i +2 ax 0 Z i + x 20 X 2=
n
∑ ni x 21= n
∑ ni ( a2 Z 21 +2 ax 0 Z i + x 20 )
i =1 i =1

l k k
21 1 1
a
n
∑ ni Z 2i +2 ax 0
n
∑ ni z i + x 20
n
∑ ni
i=1 i=1 i =1

= X 2 =a2 Z 2 +2 ax 0 z̄+ x 20 ⇒ ( X̄ )2 =( a z̄+ x 0 )2 =a 2 ( z̄ )2 +2 ax 0 z̄ + x 20

V ( x )=σ 2= X 2− ( X̄ )2 =a2 z 2 +2 ax 0 z̄ + x 20 −[ a 2 ( z̄ )2 +2 ax 0 z̄ + x 20 ]

a 2 z 2 +2 ax 0 z̄ + x 20 −a 2 ( z̄ 2 ) −2 ax 0 z̄ −x20 ⇒ a 2 z2 −a 2 ( z̄ )2 =a2 [ z 2 −( z̄ )2 ]
40
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

a 2 v ( z )=a2 σ 2z σ x =√ v ( x ) ⇔⇔⇔ σ x =aσ z σ=√ σ 2 σ X =aσ Z


V(X) = ² =

Quelques propriétés

1. L’écart-type constitue la mesure la plus importante de la dispersion


d’une distribution et cela en particulier parce qu’un grand nombre
de méthodes d’inférence statistique font appel à l’écart-type comme
représentant significatif de cette dispersion. (Cf. STATISTIQUE
INFERENTIELLE ou STATISTIQUE INDUCTIVE OU STATISTIQUE
MATHEMATIQUE)
Nous pouvons donner présentement le rôle de l’écart-type pour une
distribution à la fois symétrique et de concentration moyenne telle
que la distribution normale sur les intervalles de confiance. On
démontre qu’environ 68,26 % des effectifs sont contenus dans un
intervalle de deux écart-types centrés sur la moyenne arithmétique
et environ 95,44 % des effectifs sont contenus dans un intervalle de
4 écarts types également centrés sur la moyenne arithmétique.

68,26 % ∈ [ x̄±σ ]

95,44 % ∈ [ x̄±2 σ ]

X̄ −25 X̄ −5 X̄ X̄ +5 X̄ +25 X
88,26
95,44 %
2. L’écart-type  caractérise la dispersion de la population et l’écart-
type s caractérise la dispersion de l’échantillon. On démontre en
statistique mathématique que l’estimateur s² de la variance ² est
non biaisé lorsqu’il est caractérisé par la formule suivante :
n
1
S2 = ∑ ( x − x̄ ) 2
n−1 i=1 1
Pour une série simple.
k
1
S2 = ∑ n ( X − X̄ )2
n−1 i=1 i i
Pour une série groupée
41
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

S= √ s 2
σ 2 et s2
Il existe une relation entre
n
1
σ 2= ∑ ( x − x̄ ) 2
n i=1 1

n
nσ 2 ( n−1 ) s2
nσ 2=∑ ( xi − x̄ ) =( n−1 ) s2
2
s2= σ 2=
i =1 n−1 n

k k
1
2
σ = ∑ n ( x − x̄ ) 2
n i=1 i 1
nσ =∑ ni ( X i − X̄ ) =( n−1 ) s
2 2 2

i =1

a2
σ 2c=σ 2 − ; σ c =√ σ 2c
Correction de SHEPPARD de la variance 12
3. Une faible valeur de  et de s indique une forte accumulation des
observations autour de la moyenne arithmétique : une grande valeur
de  ou de s indique un étalement considérable des observations
autour de la moyenne.

ou s grand  ou s petit

X̄ X̄ x
4. Dans une distribution normale très légèrement dissymétrique on a
les relations suivantes lorsque n est grand :

4 4
EAM = . S= σ
5 5

Q3 −Q1 2 2
EAM = ≈ ≈ σ
2 3 3

Lorsque n’est grand

e. coefficient de variation (CV) est le rapport en pourcentage de l’écart-


σ
CV =
type à la moyenne arithmétique. x̄ pour la population. Le CV est
utilisé pour comparer la variabilité de deux groupes par rapport à leur
niveau moyen.
42
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

CV  = 30 % : dispersion petite  homogénéité

CV  30 % dispersion grande  hétérogénéité.

f. Les moments

On appelle moment d’ordre q par rapport à X 0, la moyenne


arithmétique des puissances qièmes des déviations des valeurs du
caractère par rapport à X0

1
mq=
n
∑ ni ( x i −x 0 ) q

Cas particuliers

1
m1 = ∑ n x = x̄
n i i i
a. Si X0 = 0 et q = 1,
1
x̄ et q =2 , m2 = ∑
n i
ni ( x i− x̄ )2 =σ 2
b. Si X0- =
c. Si X0 = x̄ ⇒ les moments centrés Mq par rapport à la moyenne
arithmétique.
1
=∑ ni ( X i− X̄ )q
Mq n i
d. Si X0 = 0, on parle de moments initiaux ou moments simples mqs.

Formule générale de la relation µq et mqs :

μq=mqs −qm LS m( q−1 ) s +. .. ..+ (−1 )q−1 ( q−1 ) mqLS


43
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1 1
μ0 = ∑
n i
ni ( x i− x̄ ) =1 m0 s 2= ∑ ni x 1 =1
0
n i
0

1 1
μ1 = ∑
n i
ni ( xi − x̄ ) =0 m1 s= ∑ ni x i = X̄
1
n i
1

1 1
μ2 = ∑
n i
n i ( xi − x̄ ) =σ 2 m2 s= ∑ ni x 2i = X̄ 2 ← X̄ 2
2
n i

1
µ2 =X 2 −( x̄ )
2
m3 s= ∑
n i
ni x 31= X 3 ← X̄ 3

1
µ2 =m2s −m2LS m4 s = ∑
n i
n i x 14 =X 4 ← X 4

1
μ3 = ∑
n i
3
ni ( x i− x̄ ) = m3 s −3 m1 S m2 s +2 m31 s

1
μ4 = ∑ n ( x − x̄ )4= m4 s −4 m1 S m3 s +6 m21 s m2s −3 m41 s
n i i i

II.2.3. Paramètres de forme


Pour mesurer le degré d’asymétrie (dissymétrie) ou
d’applatissement, on utilise :
- Les coefficients de PEARSON (1, 2)
- Les coefficients de FISHER (1, 2)
- Le coefficients de dissymétrie de Pearson Cd
a. Coefficient d’asymétrie (dissymétrie)

Il a pour rôle de fournir une certaine mesure du degré de dissymétrie


3 ( x̄−~x)
CD=
d’une distribution σ

μ 23 μ23 µ23
β 1= = =
μ 32 ( σ 2 )3 σ6

μ3
γ 1 =±√ β1 =
σ3
44
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Ces coefficients renseignent sur la symétrie ou dissymétrie d’une


distribution par rapport à la distribution normale qui est parfaitement
symétrique.

1. Si CD = 0, 1 = 0 et 1 = 0 alors la symétrie est parfaite


2. Si CD  0, 1 0 et 1 0 la distribution est étalée vers la droite c’est-
à-dire les valeurs plus grandes que la moyenne arithmétique c’est-à-
dire la distribution est dissymétrique, biaisée à droite.
3. Si CD  0, 1 0 et 1 0 : la distribution est étalée vers la gauche,
c’est-à-dire vers les valeurs plus petites que la moyenne
arithmétique ce qui veut dire que la distribution est biaisée à
gauche.
b. Coefficient d’aplatissement

Il renseigne sur la voussure ou la convexité ou encore la kurtose (kurtosis).

μ4 μ4 μ4
β 2= 2
= γ 2 =β 2−3= −3
μ2 σ4 σ4

1) Si 2 =0, 2 = 3, la distribution est dite mésokurtique, elle a une


courbe normale en cloche ou chapeau de Napoleon.
2) Si 2 0, 2 3, la distribution est moins aplatie que la distribution
normale ayant les mêmes caractéristiques. La courbe
correspondante est dite leptokurtique.

3) Si 2 0, 2 3, la distribution est plus aplatie que la distribution


normale et la courbe correspondante est dite platikurtique.

III.2.4. Paramètres de concentration


La notion de concentration est utilisée pour des valeurs
caractérisées par le regroupement ou la dispersion d’une variable
aléatoire statistique. Elle s’apparente donc à la notion de dispersion
autour de la valeur centrale des observations. En réalité on parle de
concentration à propos des ensembles statistiques contenus chacun
des éléments étant ainsi affecté d’un caractère susceptible
d’addition.
A. La médiale (Mlle)
45
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Se définit généralement comme étant la médiane appliquée à la


totalité du caractère étudié.
Exemple : on parle généralement de concentration pour le cas où
on traite les distributions des salaires octroyés aux salariés ou la
distribution aux salariés pour un secteur d’économie étudié. De même que
la médiane, la médiale se calcule par interpolation linéaire. La médiale est
la valeur de la variable qui partage la masse des valeurs en deux parties
alors que la médiane partage les effectifs d’une série en deux parties.
Dans le cas d’une distribution simple, la médiale est la valeur de
la variable qui partage la somme des valeurs en deux demi sommes des
valeurs. Dans le cas d’une distribution groupée en classes on détermine
d’abord un intervalle médial (classe médiale) et on procède par
interpolation linéaire pour déterminer la médiale.
k
1
∑ n x −masse cumulée ∠cl . Mle
2 i=1 i i
Mlle=LiclMle+
masse cl . Mle où masse = nixi

La différence entre la médiale et la médiane traduit le degré de


concentration d’une population donnée.
~
ΔM =Mle− X où ΔM = degré de concentration, soit l’étendue de la
population d.

1. Si d  ΔM la concentration est faible, l’inégalité est faible dans la


répartition des valeurs observées.
2. Si d  ΔM la concentration est plus forte. Cela signifie que l’inégalité
est très forte dans la répartition des valeurs observées.
3. Si ΔM est nul, ( ΔM = 0) la concentration des observations est nulle.
C’est le cas de l’égalité parfaite.
B. courbe de concentration de LORENTZ inscrite dans le
carré de GINI B C
: Courbe aire de
finixi% concentration

A D fi %
46
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

La construction de cette courbe exige que les données statistiques


se présentent sous une forme continue et en valeur positive. Sur un
diagramme cartésien on porte en abscisses la fréquence relative
cumulée en % du caractère et en ordonnées la fréquence relative de
la masse cumulée en %. Les points représentatifs s’inscrivent dans
un carré des sommets ABCD appelé carré de GINI. La courbe qui
joint les points successifs ainsi obtenus est la courbe de
concentration ou courbe de Lorentz. Lorsque la courbe de Lorentz
tend vers la diagonale AC, la concentration est faible. Lorsque
l’inégalité est de plus en plus forte, la courbe tend vers la ligne
brisée ADC. La surface comprise entre la diagonale et la courbe de
concentration est appelée aire de concentration ou zone d’inégalité.
L’indice de concentration ou indice de GINI (iG) est trouvé par l’aire
de concentration divisée par l’aire du triangle ADC.
Aire de concentration
iG=
Aire du triangle ADC
Si iG = 0, l’égalité est parfaite
Si iG = 1, il y a inégalité totale ou concentration maximale.
Du point de vue analytique, l’évaluation des aires suppose le recours
au calcul intégral.
Néanmoins, on peut recourir aux méthodes graphiques et on
démontre que l’indice de Gini (iG) est égal au quotient de la
~
différence moyenne par le double de la médiane X .
Exercices
1. Utiliser les données de l’exercice 3 relatifs au groupe d’enfants
par taille du chapitre premier.
~
i. X , σ de la distribution
ii. Calculer les effectifs cumulés et les représenter graphiquement
(les ogives)
iii. Déterminer cette moyenne sur le graphique n°2
iv. Quel est le mode de cette distribution
v. Quelle est la population d’effectif ayant une taille comprise entre
x̄−2 σ et x̄ +2 σ interpréter le résultat.
47
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

2. Avec les données de l’exemple relatif aux 100 salariés du secteur


privé et semi publique, chapitre I :

Ex : 100 salariés d’une entreprise se répartissaient en 1998 en


fonction de leur salaire net annuel de la manière suivante :

- 28 travailleurs avaient un salaire inférieur à 10000 FC


- 34 travailleurs avaient un salaire compris entre 10000 et 15000
- 19 travailleurs avaient un salaire compris entre 15000 et 20000
- 15 travailleurs avaient un salaire compris entre 20000 et 40000
- 4 travailleurs avaient un salaire compris entre 40000 et 100000
a) Quelle est la population étudiée, quel est le caractère observé,
quelle sont les modalités, quelle est la nature du caractère
étudié, quel est l’échantillon que l’individu statistique.
b) Construire l’histogramme et le polygone de fréquences.
i. Calculer le mode de la distribution de salaire ;
ii. Déterminer les fréquences cumulées de la distribution. Préciser
la signification du résultat obtenu.
iii. Calculer la moyenne arithmétique et l’écart-type.
3. Une machine remplit automatiquement les paquets de tabac. On
prélève un échantillon de la production, après pesée on obtient :

Poids (g) 3 3 39, 4 40, 4 41, 4 42, 4 44 4


8 9 5 0 5 1 5 2 5 3 4

Effectif 0 3 8 18 31 51 69 84 95 99 10 0
0

1. Tracer l’histogramme de cette série statistique,


2. Tracer le polygone de fréquence cumulée (ogives),
3. Faire un nouveau tableau, donnant les effectifs par classes
d’amplitude 2 grammes. Tracez l’histogramme représentatif sur la
figure du 1° que peut-on déduire de la comparaison de deux
histogrammes.
~ ^
4. Calculer la moyenne arithmétique X̄ , la médiane X , le mode X et
l’écart-type σ de la distribution des poids des paquets de tabacs.
48
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

5. En utilisant les données groupées par classes d’amplitude 2 refaire


les mêmes calculs de 4°. Que peut-on en conclure ?
4. A partir de la répartition des femmes âgées de 50-54 ans, d’après
le nombre d’enfants nés vivant (exercice 5 chapitre I)
i. Calculer les fréquences cumulées et tracer les courbes
cumulatives,
~
ii. Déterminer le mode, la médiane X et les quartiles de la
distribution
iii. Calculer la moyenne arithmétique et l’écart type
iv. Une prévision effectuée pour cette année indique que la
répartition des femmes âgées de 50-54 ans ayant au plus deux
enfants nés vivants sera 71,2 % ou 712 pour 1000.
1. Compte tenu des résultats de cette prévision, modifier le tableau ci-
dessous de façon à avoir une répartition approchée de femmes
âgées de 50 à 54 ans en cette année selon le nombre d’effectif nés
vivants.
~
2. Déterminer la moyenne arithmétique, l’écart-type, la médiane X et
les quartiles de cette nouvelle distribution.
3. Commenter les résultats obtenus
49
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

5. Soient les observations de la distribution suivante :

Classe ]−ω,−3[ [3, 4[[−3, 4[ [ 4,11[ [11 ,18[ [18,25[ [25,32[ [32,39[
Effectif ni 0 0 2 4 7 18 13

Classe [39, 46[ [ 46,53[ [53,+ω[

Effectif ni 6 0 0

1) Construire l’histogramme et le polygone de fréquence


2) Déterminer graphiquement la médiane et représenter
graphiquement C40, D4, D6, Q1, Q3
^ ~
3) Calculer les X̄ , X et X et tirez-en les conclusions.
4) Calculer les paramètres de dispersion
a. Variance et écart-types ;
b. Variance et écart-type corrigé ;
c. Coefficient de dissymétrie ;
d. Tester la normalité de cette distribution avec tous les tests déjà
utilisés ;
e. Calculer l’intervalle interquartile relatif ;
f. Etudier l’importance des observations dans les intervalles

1. [ X̄ ±σ ]
2. [ X̄ ±1, 2σ ]
3. [ X̄ ±3 σ ]
5. Calculer les paramètres de forme :

i. Moment centré d’ordre 2,3,4

ii. Coefficient d’asymétrie et de voussure, (convexité et kurtose) tirez les


conclusions qui s’imposent.

6. Calculer l’écart absolu moyen. Interpréter le résultat


7. Calculer le paramètre de concentration. Tracer la courbe de
LORENTZ dans le carré de GINI.
50
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

6. Les notes de fin de l’année d’un étudiant en mathématique,


statistique, physique et sciences naturelles sont respectivement 82,86,90
et 70. Si les coefficients respectifs de ces disciplines sont 3,5,3 et
1,déterminer une note moyenne appropriée.
7. Dans une usine ayant 80 employés, 60 gagnent 3 unités
monétaires par heure et 20 gagnent 2 unités monétaires par heure.

i. Déterminer le gain moyen par heure

ii. La réponse à la question i est-elle la même si les 60 employés gagnent


un salaire moyen de 3 UM/H et les 20 autres un salaire moyen de 2 UM/H ?
justifiez votre réponse.

iii. Peut-on considérer que le salaire horairemoyen est représentatif ?

8. Les tailles moyennes de 4 groupes d’étudiants comprenant


15,20,10 et 13 personnes sont respectivement : 162, 148,153 et 140 cm.
Quelle est la taille moyenne de tous les étudiants ?
9. Le nombre de bactéries d’un bouillon de culture s’est accru de
1000 à 4000 en 3 jours. Quel est le pourcentage moyen d’accroissement
par jour (Géométrique avec formule des intérêts composés).
10. Durant 4 ans, un propriétaire a acheté du mazout pour son
véhicule aux prix successifs de 16,18,21 et 25 UM/litre. Quel est le prix
moyen du mazout sur cette période de 4 ans. 2 solutions :

1) Ce propriétaire a acheté la même quantité chaque année M.a

2) Il a seulement une même unité d’argent (M.H) chaque année.

11. Un homme parcourt le trajet A-B à la vitesse moyenne de 30


km/h et le trajet BA à la vitesse moyenne de 60 km/h. Calculer la vitesse
moyenne sur le trajet total.
12. Montrer que la moyenne quadratique de 2 nombres positifs
différents A et B est supérieur à leur moyenne géométrique.
13. Si le prix d’un article double tous les 4 ans, quel est le taux
moyen d’augmentation du prix par an ?
14. La population des USA était pour les années 1950 et 1960
respectivement de 151,3 et 173,3 millions d’habitants.
51
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

a. quel est le taux moyen d’accroissement annuel (MG) ;

b. estimer la population en 1954 ;

c. dans l’hypothèse où le taux moyen annuel d’accroissement de 1960 et


1970 est le même qu’en a quelle est la population des £USA en 1970.

15. Un capital de 1000 UM est investi au taux d’intérêt annuel de 4


%. Quel sera le capital au bout de 6 ans si l’apport initial n’est pas retiré.
16. La note moyenne d’un groupe de 150 étudiants à un examen
final de statistique a été 78 avec pour écart-type 8. Mais la note moyenne
correspondante du groupe en mathématique a été 73 avec pour écart-
type 7,6 dans quelle discipline observe-t-on :

1. La plus grande dispersion absolue

2. La plus grande dispersion relative

N.B : Pour tous les exercices du chapitre I, calculer et interpréter les


paramètres statistiques
52
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

CHAPITRE III : INDICES STATISTIQUES


1. DEFINITION
Un indice est un rapport qui porte sur une grandeur relative à
une période donnée ou un espace donné comparativement à la mesure
analogue pour une période ou un espace de comparaison appelé période
ou espace de base. Le but essentiel d’un indice statistique est de saisir
par un nombre unique, la variation relative d’un ensemble complexe entre
deux situations de temps ou de lieu.
Il peut s’agir de mesurer des grandeurs relatives aux quantités,
aux prix ou aux valeurs. Si l’indice correspond à une différence de temps,
on a un indice temporel. S’il correspond à une différence d’espace on a un
indice spatial avec comme base de l’indice l’espace de comparaison.
Si l’indice est associé à un seul produit, il s’agit d’un indice
élémentaire. S’il est associé à un groupe de produits, à un ensemble de
valeurs d’une grandeur, il s’agit d’un indice synthétique ou composite. En
définitive, l’indice est un rapport caractéristique de la variation dans
l’espace ou dans le temps d’une grandeur ou d’un ensemble de grandeurs.
Le lieu ou l’instant de la 1 ère mesure constitue la référence ou encore la
base de l’indice.

2. SORTES D’INDICES

A. L’indice élémentaire
1. Notion

L’indice particulier ou élémentaire est un rapport entre les


valeurs d’une variable ou d’une grandeur à deux moments différents ou
sur deux espaces différents.

Soit Xt la valeur d’une grandeur numérique X qui évolue dans le


temps à l’époque t et soit X 0 la valeur de cette même grandeur à une
époque de base. On appelle indice, le rapport entre X t et X0. Xt se réfère à
53
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

la période pour laquelle on calcule l’indice et X 0 à la période de base.


Xi
It ( X )=
X0
L’indice est alors formalisé ainsi : 0

It ( X )
0
= indice de la valeur de x au temps t par rapport à la valeur de x à

la période de base 0. Généralement on multiplie ce rapport par 100 et

pour l’interprétation, la période de base représente 100 %.

La différence entre l’indice en % et 100 % de la période de base

représente en % l’évolution de la grandeur.

Ex : soit Pt le prix d’une marchandise à la période t et P0 le prix de la

même marchandise à la période de base 0. On peut établir un indice

élémentaire de prix à la période t par rapport à la période de base 0.

Pt
I t ( P )=
0
P0

Soit au marché central de Butembo le prix d’un kg de sucre s’élevant à

240000 NZ en avril 1998 et 380000 NZ en avril 1999. Calculer l’indice

élémentaire de prix de 2016 par rapport à 2015.

Solution

(P) = prix d’un kg de sucre

Pt = Prix d’un kg de sucre en 1999, avril = 380000 NZ

P0 = Prix d’un kg de sucre en 1998, avril = 240000 NZ

380000
L Avril . 99 ( P )= . 100=158 , 33 %
Avril . 98
240000

Interprétation :

158,33 %-100 % = 58,33 %

Nous disons : le prix d’un kg de sucre a augmenté de 58,33 % en avril

2016 par rapport au prix d’un kg de sucre en avril 2015.


54
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

2. Propriétés

a) L’identité

La formule des calculs de l’indice doit donner l’unité si la

comparaison est faite par rapport à une même période.

I t =1
t

b) La réversibilité

L’indice d’une situation à l’époque de base ou époque 0 par

rapport à l’époque doit être égal à l’inverse de l’indice de période t par

rapport à la période 0.
1
I t ( X )=
0
I0
(X)
t

Reprenons l’exemple précédent

I Avril.2016/Avril.2015 (P) x 100 = 158,33 %

Cherchons à présent
1 t
I t ( P )= =1 , 5833=
0
0 , 6315789474 I0
t

|Avril 2016/Avr. 2015 (P) x 100 = 158,33 %

c) La transférabilité

L’indice de la situation u par rapport à la situation 1 doit être


égale au produit de l’indice de la situation u rapporté à la base t par
l’indice de la situation à la base 1.

Iu I u xlt It 3 It 3 It 2
= soit t 1 ,t 2 , t 3 = x
1 t 1 t1 t2 t1

Exemple : soit le prix d’une bouteille d’huile de palme (72 cl) au cours de 3

mois successifs repris dans ce tableau.

Janvier 2016 Février 2016 Mars 2016

Prix (72 cl d’huile de 1,2 $ 1,5 $ 1,7 $


55
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

palme)

Calculer l’indice élémentaire de prix de mars 2016 à janvier 2016 en


utilisant la propriété de transférabilité.

Solution

Iu I mars février 1 , 7 1 ,5 1 ,7
= xI = × = =1 , 4166
1 février janvier 1 , 5 1 ,2 1 , 2

Le prix de la bouteille a varié en hausse de janvier à mars 2016 de 41,66

%.
56
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

d. Autres propriétés

L’indice doit être indépendant des unités utilisées dans les


variations de quantités. L’indice ne doit pas pouvoir être indéfini ou
indéterminé.

Exercice

Soit le tableau suivant reprenant les prix et les quantités correspondantes


vendues sur un marché au cours de deux mois successifs.

Mois Février 2016 Mars 2016


Biens
Prix en $ Quantité Prix en $ Quantité
1 kg de sucre 3,2 20 3,4 22
500 g de sel 0,5 32 0,7 31
1 sceau de haricot 6,5 21 6,5 24
1 s de farine de manioc 2,3 36 2,5 30
72 cl d’huile de palme 1 210 1,5 218
1 kg de viande de b 4,3 789 5, 650

Calculer les indices élémentaires de prix, de quantité et de valeur en


prenant mars 2016 comme période courante et février 2016 comme
période de base.
Indices mars mars mars
I ( P )×100 I (Q )×100 I (V )×100
février février février
Biens
1 kg de sucre 106,25 % 110 % 116,88 %
500 g de sel 140 % 96,87 % 135,62 %
1 sceau de haricot 100 % 114,29 % 114,22 %
1 seau de farine de manioc 108,69 % 83,33 % 90,58 %
72 cl d’huile de palme 150 % 103,81 % 155,71 %
1 kg de viande de bœuf 116,28 % 83,33 % 96,89 %

 = 721,22  = 591,63  = 709,97

 = 2,8199593.1012  = 8,7787397.1011  = 2,4754944.10.12


57
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

3. Autres indices élémentaires

On peut calculer les indices élémentaires d’autres variables. En


économie on détermine généralement les indices élémentaires de valeurs.

a. Indice de quantité

Si Qt représente la quantité vendue, produite ou approvisionnée d’un bien


au cours d’une période t, Q0 une quantité analogue pour la période de
base, l’indice élémentaire de quantité à la période t par rapport à la
Qt
I t ( Q )= ∗100
Q0
période de base sera le rapport 0

Revenons au tableau de l’exemple précédent et déterminons les indices

élémentaires de quantité.

b. Indice de valeur

La valeur d’un bien vendu au cours d’une période (ou fabriqué ou acheté)

est égale au produit de son prix par la quantité vendue (ou achetée ou

produite). Si Pt x Qt représente la valeur de la marchandise à la période t

et P0* Q0 la valeur de la marchandise vendue à la période de référence 0,


l’indice élémentaire de la valeur de la période t par rapport à la période 0
est donné par le rapport.

Pt Q t
I t ( V )= ∗100
0
P 0 Q0

Revenons à l’exemple précédent et déterminons les indices élémentaires


de valeurs. Tableau de valeur :
58
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

3 , 4×22 74 , 8
1 kg de sucre= = =1 ,1688×100=116 , 88 %
3 , 2×20 64 ,

0 ,7×31 21 ,7
500 g de sel= = =1 , 3563×100=135 ,62 %
0 ,5×32 16

6 ,5×24 156
1 seau de haricot= = =1 , 1429×100=114 ,29 %
6 ,5×21 136 ,5

2 ,5×30 7 ,5
1 seau de farine de manioc= = =0 , 9058×100=90 , 58 %
2 ,3×36 82, 8

1 , 5×218 327
72 cl d ' huile de palme= = =1 ,5571×100=155 ,71 %
1 ,×210 210

5×650 3250
1 kg de viande= = =0 , 9690×100=96 , 89 %
4 ,3×780 3354
Interprétation

En mars par rapport à février sur ce marché :

- Le prix d’un kg de sucre a augmenté de 6,25%, les quantités vendues


de sucre ont augmenté de 10 % et le produit de vente du sucre s’est
accru de 16,88 % ;
- Le prix de 500 g de sel a augmenté de 40 %, les quantités vendues de
sel ont diminué de 3,13 %, le produit de vente de sel a augmenté de
35,62 % ;
- Le prix d’un seau de haricot est resté stable, les quantités vendues de
seaux de haricots ont augmenté de 14,29 % le produit de vente de
seaux de haricot s’est accru de 14,29 % ;
- Le prix d’un seau de farine de manioc a augmenté de 8,69 %, les
quantités vendues de seaux de farine de manioc ont diminué de 16,67
%, le produit de vente de farine de manioc a diminué de 9,42 % ;
- Le prix d’une bouteille d’huile a augmenté de 50 %, les quantités
vendues d’huile ont augmenté de 3,81 %, le produit de vente d’huile a
augmenté de 55,71 % ;
59
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

- Le prix d’un kg de viande a augmenté de 16,28 %, les quantités


vendues de viande ont diminué de 16,67%, le produit de vente de
viande a diminué de 3,11 %.
B. Les indices synthétiques

Les indices simples ou élémentaires ne concernent qu’une seule


grandeur (prix, quantité, valeur,…)

Cependant dans le plus grand nombre de cas, il faut résumer en


un seul indice plusieurs grandeurs c’est-à-dire résumer en un seul
plusieurs indices simples. On peut par exemple étudier la variation de 250
prix de détail et à la fois. On dégagera alors un indice synthétique de prix
saisissant 250 indices simples.

Un indice synthétique de prix sera donc construit en comparant


l’ensemble des prix de plusieurs biens pour une période donnée et pour la
période de base.

1. Indices synthétiques simples


Grâce à l’indice synthétique simple on peut saisir l’évolution
d’une grandeur X. Prenons plusieurs valeurs d’une grandeur à l’époque t
comparée aux valeurs de la même grandeur x d’une période de référence
0. Chaque X(i) représente un produit, un bien ou un autre indicateur
économique. Lorsque les grandeurs X peuvent s’additionner, l’indice
synthétique simple peut être calculé de diverses manières.
a. Indice de moyenne arithmétique
On prend en considération les valeurs de la grandeur dont on
veut tenir compte, on en fait la moyenne arithmétique.
n ( j)
1 Xt
X̄ s ' écrit A t =
n
∑ ( j)
0 j=1 X0
n
1
At ( X )=
n
∑ I t ( X ( j))
j =1
L’indice de 0 0

Revenons à l’exemple précédent avec 6 articles de base et

calculons l’indice de moyenne arithmétique.


60
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
6
Amars 1
=
février 99 ( p ) 6
∑ pp mars 99 1
= 721 , 22=120 , 20 %
février 99 6
j=1

At 1
( Q )= 591, 63=98 , 6 %
0 6

At 1
( V )= 709 ,67=118 ,33 %
0 6
b. Indice de moyenne géométrique
L’indice de G est constitué par la moyenne géométrique simple
de n indices élémentaires d’une grandeur x c’est-à-dire la racine nième du
produit de n indices élémentaires G.


n
Gt ( X ( j ) ) =n t ( X( j))
π I
En revenant à l’exemple précédent : 0 j =1 0


6
Gt ( X ) = ∑ I mars
( j) n 6
( p )=√ 106 ,25×140×100×108 , 69×150×116 ,28 x
0 j=1 février

G mars 6
( Q )= √110×96 ,87×114 , 29×103 , 81×83 ,33×83 , 33=97 ,85 %
février

G mars
( V )= 6√116 , 88×135 , 62×114 , 28×90 ,58×155 ,71×96 , 89=116, 30
février

c. Indice de moyenne quadratique


Il est constitué par la racine carrée de la moyenne des indices


n
Qt ( X )= 1 ∑ I 2 t ( X ( j ) )
( j)

simples élevée au carré 0 n j =1 0

Revenons à l’exemple précédent.


61
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Q mars
février
( p )=
√ 1
6
( ( 106 , 25 )2+ ( 140 )2+ ( 100 )2+ (108 ,69 )2 +( 150 )2+ (116 , 28 )2) =121 ,60 %

Q mars
février
( Q )=
√( 1
6
( 110 )2 + ( 96 , 87 )2 + ( 114 ,29 )2 + ( 83 , 33 )2 ( 103 , 81 )2 + ( 83 . 33 )2 ) =99 . 34

Q mars
février
( V )=
√[ 1
6
( 116, 88 )2 + (135 ,62 )2 + ( 114 ,29 )2 + ( 155 ,71 )2 + ( 90 , 58 )2 + ( 96 , 80 )2 ] =120 ,38

d. Indice de moyenne harmonique

En revenant à l’exemple précédent :

Ht = n

[ ]
0 n
1
∑ It
j=1 ( X ( i ))
0

en revenant à l’exemple précédent :

H mars 6
( P )= =117 ,59 %
février 1 1 1 1 1 1
+ + + + +
106 ,25 140 100 108 , 69 150 116, 28

H mars 6
( Q )= =97 , 09 %
février 1 1 1 1 1 1
+ + + + +
110 96 ,87 114 ,29 83 , 33 103 , 81 83 , 33

H mars
( V )= 6 =114 , 36 %
février 1 1 1 1 1 1
+ + + + +
116 , 88 135 , 62 114 , 29 90 , 58 155 , 71 96 , 89
Prix Quantité Valeur

H = 117,59 H = 97,09 H = 114,36

G = 118,86 G = 97,85 G = 116,30

A = 120,20 A = 98,60 A = 118,33

Q = 121,60 Q = 99,34 Q = 120,38

N.B : La moyenne arithmétique reste le procédé des calculs des indices


simples le plus employé. Cette moyenne est plus simple à calculer et la
62
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

signification économique des indices de moyenne arithmétique paraît plus


concrète.

2. Les indices synthétiques pondérés

Les indices synthétiques ont des limites. En effet, les valeurs


particulières de la grandeur n’entrent pas pour partie égale dans les
calculs. Dès lors, pour éviter d’accorder plus d’importance à certains
produits plutôt qu’à d’autres, on affecte chaque indice particulier d’un
poids ou coefficient de pondération. On obtient un indice synthétique qui
est une moyenne pondérée des indices particuliers composants.

En effet, le prix de différents biens par exemple varie d’une période à une
autre généralement à la hausse. Cette variation n’est pas uniforme.

Un chiffre d’affaire par exemple peut évoluer entre deux


périodes. L’indice simple traduit cette variation sans distinguer si ce qui
est dans cette variation est imputable aux évolutions de prix et ce qui
provient d’une variation de quantité correspondante.

Pour mesurer l’évolution réelle, il faut tenir compte de la


variation des prix en pondérant les quantités par le prix. L’importance
d’une grandeur variant selon les époques et cette importance étant
reflétée dans la pondération, le choix de l’époque à partir de laquelle on
détermine la pondération donne lieu à différents indices synthétiques
pondérés parmi lesquels nous citons :

 Indice de PAASCHE ;
 Indice de LASPEYRES ;
 Indice de FISHER ;
a. Indice de prix

Un indice de prix est destiné à mesurer l’évolution générale des


prix. L’analyse de l’évolution des prix d’un ensemble de n biens
(composant un panier de consommation) peut se faire par la construction
d’indices de prix pondéré. Si j est un bien quelconque de l’ensemble de n
biens, la pondération sera la quantité consommation de chaque bien j
correspondant aux prix d’une certaine période.
63
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1. Indice de prix de LASPEYRES

L’indice de LASPEYRES pondère les indices élémentaires par le


coefficient de pondération de la période de base. Pour le prix, cet indice
noté L est donné par la formule.
n
∑ Q(0j ) . P (t j )
I 1 ( P )= j =1
n
0
∑ Q(0j ) . P (0j )
j =1

Cette formule permet la comparaison dans le temps plus facile


car pour chaque époque, la comparaison est la même. On compare donc
l’évolution des prix d’un ensemble de biens selon les mêmes habitudes
(Q0).

L’indice de LASPEYRES compare donc dans le temps la valeur


d’un panier de consommation fixe.

2. L’indice de prix de PAASCHE

L’indice de Paasche pondère le prix par les quantités de la


période courante car les paniers de consommation peuvent changer et le
calcul de l’indice devient ainsi adoptable. Cet indice est noté P et est
donné par la formule :
n
∑ Q(t j ) . P(t j )
Pt ( P ) = j=1
n
0
∑ Q(t j ) . P(0j )
j=1

L’indice de P de prix permet précisément une modification


continue de pondération puisque à chaque période elle est calculée. Cet
indice est donc plus réaliste car les quantités sont variables.

b. Indices de quantité

L’indice de quantité permet de saisir l’évolution en quantité


d’une grandeur sur deux périodes différentes. Les indices synthétiques de
quantité pondérant celle-ci par les prix.
64
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Laspeyres pondère les quantités par les prix de la période de


base et Paasche par les prix de la période courante.

Soit t la période courante et 0 la période de base. Les indices de


Lasperyres et de Paasche de quantité sont donnés par les formules :
n
∑ P(0j ) Q(t j )
L t (Q )= j =1
n
0
∑ P(0j ) Q(0j )
j =1

n
∑ P(t j ) Q(t j )
Pt ( Q )= j=1
n
0
∑ P(t j ) Q(0j )
j=1

3. Indice de FISHER

Fisher a proposé l’emploi d’un indice noté F qui représente la

racine carré du produit des indices de Paasche et de Laspeyres. F=√ L. P.


Cet indice tient ainsi compte de celui de Laspeyres qui utilise les
constantes de l’époque de base et de celui de Paasche qui utilise celles de
la période courante car de manière générale l’indice de Laspeyres tend à
amplifier les augmentations de prix et de quantité alors que Paasche tend
à les réduire.

4. Indice de la dépense globale

Il est possible de combiner les effets des indices des prix et des
quantités pour déterminer l’évolution de la dépense globale en valeur
suite à la variation des prix et de quantités d’une période à une autre.
C’est l’indice
n
∑ Pt( j ) . Q(t j )
I t ( V )= j=1
n
0
∑ P (0j ) . Q(0j )
j=1

Exemple :
65
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Le tableau suivant reprend les quantités en milliers vendus au


marché central au prix correspondant entre deux périodes successives
d’une ville. Déterminez les indices de prix et de quantité de Paasche et de
Laspeyres, l’indice de Fischer de prix et de quantité et l’indice de la
dépense globale.
PERIODE 1 PERIODE 2
Prix en $US Quantité Prix en $US Quantité (mill)
Sel/500 g 0,5 1 0,7 1
Savon/pce 0,9 4 1 3
Pétrole/72 cl 1,2 2 1,5 2
Huile de palme/72 cl 1,3 4 1,7 4
Viande/kg 4,5 6 5 4
Farine de manioc/seau 2,3 10 2,5 8
Haricot/seau 6,5 6 6,5 7
Riz/kg 0,9 8 1 6
Sucre/kg 3,5 4 3,8 2
Poissons salé/kg 0,75 12 0,9 10
Pomme de terre/pce 0,3 25 0,4 20
Feuille de manioc/botte 0,2 6 0,3 8

L1 ( P ) =
∑ Q 0 . P1 L2 ( Q ) =
∑ Q1 . P 2
1. 0 ∑ Q 0 . P0 1. 0 ∑ Q1 . P 1
( 1×0 ,7 )+ ( 4×1 ) + ( 2×1 , 5 ) + ( 4×1 , 7 ) + ( 6×5 ) + ( 10×2 ,5 )+ ( 6×6 ,5 )+ ( 8×1 ) + ( 4×3 ,8 )+ ( 12×0 , 9 )
( 1×0 ,5 )+ ( 4×0 , 9 ) + ( 2×1 , 2 ) + ( 4×1 , 3 ) + ( 6×4 ,5 )+ ( 10×2 , 3 ) + ( 6×6 , 5 ) + ( 8×0 , 9 ) + ( 4×3 , 5 ) + ( 12×0 ,75 )

( 25×0 , 4 )+ ( 6×0 ,3 ) 154 , 3


= =110, 53 %
( 25×0 , 3 ) + ( 6×0 ,2 ) 139 , 6
2.

P2 ( P )=
∑ Q2 . P2 =( 1×0 , 7 )+ (3×1 ) +( 2×1 , 5 ) +( 4×1 , 7 ) +( 8×2 , 5 ) +( 7×6 ,5 )+ ( 6×1 ) +( 2×3 , 8 )
1 ∑ Q2 . P1 ( 1×0 , 5 ) +( 3×0 , 9 ) +( 2×1 , 2 ) +( 4×1 , 3 ) +( 8×2 ,3 )+ ( 7×6 ,5 )+ (6×0 , 9 )+ (2×3 , 5 )
( 10×0 , 9 ) + ( 20×0 , 4 ) + ( 8×0 , 3 ) + ( 4×5 ) 132
= =1 ,09816=109 , 816 %=109 , 82 %
( 10×0 ,75 )+ ( 20×0 , 3 ) + ( 8×0 , 2 ) + ( 4×4 , 5 ) 120 ,2

3. F ( P ) =√110 ,53×109 ,82=√ 12138 ,4046=110,17 %


66
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

L2 ( Q ) :
∑ P1 Q 2
1 ∑ P1 Q 1

L1 ( Q ) =
∑ P0 Q 1
4. 0 ∑ P0 Q 0
( 0 ,5×1 ) + ( 0 , 9×3 )+ ( 1, 2×2 )+ ( 1, 3×4 )+ ( 4 ,5×4 ) + ( 2 ,3×8 ) + ( 6 ,5×7 ) + ( 0 , 9×6 ) + ( 3 , 5×2 )
=
( 0 ,5×1 ) + ( 0 , 9×4 )+ (1 , 2×2 )+ ( 1 , 3×4 )+ ( 4 , 5×6 ) + ( 2 , 3×10 ) + ( 6 ,5×6 ) + ( 0 , 9×8 ) + ( 3 , 5×4 )

( 0 , 75×10 )+ ( 0 ,3×20 ) + ( 0 ,2×8 )


=0 ,86103158×100≈86 , 10 %
( 0 , 75×12 )+ ( 0 ,3×25 ) + ( 0 , 2×6 )

P2 ( Q )=
∑ P2 . P2 = ( 0 ,7×1 ) +( 1×3 )+ ( 1, 5×2 )+ ( 1, 7×4 ) +( 5×4 )+ (2 , 5×8 ) +( 6 , 5×7 )+ ( 1×6 )
5. 1 ∑ Q2 . P 1 ( 0 ,7×1 ) +( 1×4 ) +( 1 , 5×2 )+ (1 , 7×4 )+ ( 5×6 )+ ( 2 ,5×10 ) +( 6 , 5×6 ) +( 1×8 )
( 3 , 8×2 )+ ( 0 , 9×10 ) + ( 0 , 4×20 ) + ( 0 , 3×8 ) 132
= =0 , 8554×100=85 ,55 %
( 3 ,8×4 ) + ( 0 , 9×12 )+ ( 0 , 4×25 ) + ( 0 , 3×6 ) 154 , 3

F ( Q ) =√ L( Q ) P (Q )=√ 86 , 1 .85 , 55= √ 7365 , 855=85 , 82 %


6.

L2 ( V ) =
∑ Q2 . P 2 =132 =0 ,945558=94 ,55 %
7. 1 ∑ P1 .Q1 139 , 6
c. Pratique des indices
1. Les indices enchaînés
Par indices enchaînés il faut entendre les indices pour lesquels la
période de base est toujours la période précédente. Les comparaisons sont
donc faites entre les valeurs d’une grandeur en pourcentage des 2
périodes successives. Ces rapports permettent de mettre en évidence les
variations d’une période à une autre.
Soient P1, P2, P3, P4… les prix correspondant à des intervalles de
temps successifs 1,2,3,4,… On aura une chaîne d’indices élémentaires.

P2 P3 P4 Pn
, , . .. .. .
P1 P2 P3 Pn−1

Exemple : soit en dollar le prix d’une douzaine de bouteilles d’eau


minérale au cours de périodes successives.

Année 2013 2014 2015 2016


67
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Prix 8 12 15 18

Les indices élémentaires en chaîne sont

2013 2014/2013 2015/2014 2016/2015

100 % 150 % 125 % 120 %

L’indice élémentaire d’une période donnée par rapport à une autre prise
comme base peut toujours s’exprimer en fonction des indices en chaîne
(recours à la propriété de transférabilité). Ainsi, on peut déterminer, en
référence à l’exemple précédent, l’indice de prix de l’année 2016 par
rapport à l’année 2013.

I 2016 =I 2014 . . I 2015 . I 2016 =1 ,5×1 ,25×1 ,2=2 ,25×100=225 %


2013 2013 2014 2015

2. Changement de base

La période de base d’un indice peut être rapprochée de la


période courante de façon à rendre les comparaisons plus significatives. Si
les quantités à partir desquelles un indice a été établi ne sont plus
disponibles, la période de base peut être changée. On obtient des
nouveaux indices en divisant chacun des indices originaux par l’indice de
la nouvelle période de base. En économie il est souhaitable que la période
de référence soit une période de stabilité économique et ne soit pas trop
ancienne. D’où de temps à temps la nécessité de changer la période de
référence. On peut alors recalculer tous les indices à partir de la nouvelle
période de référence.

Mais une méthode plus simple consiste à diviser les indices des
différentes années ou périodes correspondantes à l’ancienne période de
référence, par les indices correspondants à la nouvelle période de
référence et exprimer les résultats en pourcentage.

Ces résultats représentent des nouveaux indices, l’indice de la


nouvelle période de référence étant égale à 100 %.

EXEMPLE :
68
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Les indices de production de cuivre d’une économie de 2005 à


2016 sont repris dans ce tableau, 2005 ayant été comme période de base.
Année 200 200 200 200 200 201 201 201 201 201 201 201
5 6 7 8 9 0 1 2 3 4 5 6
Indice de 100 104 97 112 120 124 134 125 139 143 143 134
productio
n

Calculer les nouveaux indices si 2009 est prise comme période de


référence. Les nouveaux indices avec 2009 comme base moyenne.
Année 200 200 200 200 200 2010 2011 2012 2013 2014 2015 2016
5 6 7 8 9
Indice de 83,3 86,6 80,8 93,3 100 103, 111, 104, 115, 119, 119, 111,
productio 3 6 2 8 1 1 6
n

Calculer les nouveaux indices si on prend la période de 2011-2014 comme


base. Les nouveaux indices avec 2011-2014 comme base moyenne.

134 +125+139+143
x̄= =135 , 25 puis chqaue indice par rapport à la moyenne 135,25
4
Année 200 200 200 200 200 201 201 201 201 2014 2015 2016
5 6 7 8 9 0 1 2 3
Indice de 73,9 76,8 71,7 82,8 88,7 91,6 99,1 92,4 103 105, 105, 99,1
productio 7 7 0
n

D. Application des indices et leur choix

Les indices L et P sont les plus souvent utilisés en économie.


L’indice L est préférable en cas de stabilité dans la composition du panier
de consommation ; l’indice P, lorsque les quantités entrant dans la
composition du panier de consommation variant d’une période à une
autre.

Les indices permettent notamment de comparer le coût de la vie


entre différentes époques ou différents milieux. Des organismes
spécialisés procèdent souvent au calcul des indices pour prévoir
l’évolution des affaires, la conjoncture économique, le niveau d’un
phénomène,… Il arrive aussi que cette évolution soit saisie simplement
par un taux de croissance d’un phénomène « y » au cours de périodes t0
et t1.
69
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Yt 1 −Yt 0
T=
Yt 0

EXEMPLE

En 2015, la production d’une entreprise est de 250 tonnes, en 2016, elle


revient à 262 tonnes.

262−250
T 2016 = =0 , 048=4 ,8 %
2015
250

Nous disonss : le taut d’augmentation de la production est de 4,8 % de

2015 à 2016

E. Déflation des séries chronologiques

Les séries chronologiques sont des séries d’observation d’un


phénomène en fonction du temps. Ainsi pour les revenus la série peut
présenter une tendance croissante mais cette croissance peut être
apparente compte tenue du coût de la vie, exprimant le pouvoir d’achat
des revenus. Le revenu annuel réel s’obtient en divisant le revenu
apparent d’une période par l’indice du coût de la vie.

Le processus de déflation consiste à traduire la valeur réelle d’un


pouvoir d’achat d’une masse monétaire sujette à l’érosion monétaire. Bien
que les revenus individuels s’accroissent en fonction du temps, ils peuvent
en réalité diminuer en raison de l’augmentation du coût de la vie ket par
conséquent de la baisse du pouvoir d’achat. Les revenus réels peuvent
s’obtenir en divisant les revenus apparents sur une même période par
l’indice du coût de la vie de cette même période rapporté à une même
période de référence appropriée.

Exemple : soit quelqu’un qui gagnait en 2015 100 $ et qui en


gagne 150 $ le mois en 2016. L’indice élémentaire de variation de salaire
150
(2016 /2015 ) à =1 ,5=150 %
sera égale 100
70
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Le salaire a donc connu une hausse nominale de 50 %. Si pour la

même période l’indice du coût de la vie est passé de 100 % à 200 % c’est-

150
%=75 %
2016 représentera 2
à-dire s’il a doublé, le revenu réel en

du revenu de 2015. Et donc le salaire réel sera de :

100
∗75=75 $ en 2016 .
100

Il faut donc noter que pour déflater une série chronologique, il


faut exprimer la valeur réelle d’un pouvoir d’achat d’une masse monétaire
nominale. C’est dire que pour comparer valablement des données
chronologiques, il faut faire des comparaisons à prix constant. Pour obtenir
une donnée à prix constant, il faut diviser la diviser la donnée exprimée en
prix courant par l’indice de prix correspondant. C’est la déflation.

Ex : Le tableau suivant indique le salaire moyen horaire en dollars d’une


catégorie d’agents dans un milieu de 2005 à 2016 ainsi que l’indice de
prix à la consommation (indice de coût de la vie) pour la même période
rapportée à la période 2015-2016. Déterminer le salaire réellement touché
par ces agents pendant la période 2015-2016 par rapport à leur salaire en
2005.
Année 200 2006 2007 2008 200 2010 2011 2012 2013 2014 2015 2016
5 9
Salaire/h 1,19 1,33 1,44 1,57 1,75 1,84 1,89 1,94 1,97 2,13 2,28 2,45
en $
Indice du 95,5 102, 101, 102, 111 113, 114, 114, 114, 116, 120, 123,
coût de 8 8 8 5 4 8 5 2 2 5
la vie

Recalculons les indices en ramenant la période de base à 1087 (Diviser les


indices données par celui de 2005).
Année 200 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016
71
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

5
Indices 100 107, 106, 107, 116, 118, 119, 120, 119, 121, 125, 129,
recalculé 6 6 6 2 8 8 2 9 7 9 3
s coût de
la vie
Salaire 1,19 1,24 1,35 1,46 1,51 1,55 1,58 1,61 1,64 1,75 1,81 1,89
horaire
réel

Pour avoir le salaire réel, divisons le salaire donné par l’indice


correspondant (recalculé).

De 2005 à 2016, le salaire apparent passe de 1,19 à 2,45 soit une hausse

apparente de 106 % (il a plus que doublé).


(¿ 21 ,, 4519 ×100−100)
Le salaire réel 2005 = 1,19 $

2016 = 1,89 $ hausse réelle de 58,8 %


(¿ 11 ,89,19 ×100−100)
Ce salaire réel est exprimé en prix courant. A l’aide des indices du coût de
la vie recalculés on peut déterminer le pouvoir d’achat du dollar pour les
différentes années par rapport à 2005 (dans l’hypothèse où cette année le
dollar a une valeur correspondant réellement au pouvoir d’achat de 1 $). Il
faut alors diviser 1 $ par chaque indice recalculé du coût de la vie.

Le pouvoir d’achat est exprimé en % pour interprétation.


Année 200 2006 2007 2008 200 2010 2011 2012 2013 2014 2015 2016
5 9
Pour 1 0,93 0,94 0,93 0,86 0,84 0,83 0,83 0,83 0,82 0,79 0,77
l’acha
t de 1
$

En 2006, 1 $ ne représente que 93 % du 1 $ de 2005.

En 2016, le pouvoir d’achat par rapport à 2005 est de 0,77. Cela signifie
que 1 $ en 2016 ne permet que 77 % de ce que permettait d’acheter 1 $
en 2005 en d’autres termes, 1 $ de 2016 ne vaut que 77 % de la valeur de
1 $ en 2005. Les données exprimées en fonction de la valeur du dollar à
une période déterminée sont alors dites exprimées en dollar constant par
rapport à cette période prise comme référence.
72
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

F. Problèmes posés par le calcul des indices

Pratiquement, il est moins intéressant de comparer les prix, les


quantités ou les valeurs d’articles isolés que de comparer les grandeurs
des articles en groupe. Quand on calcule l’indice du coût de la vie, on
souhaite comparer non seulement le prix de la viande pendant une
période déterminée avec celui d’une autre période, mais aussi le prix du
pain, des bananes, des pommes de terre, la farine, le loyer, l’habillement,
les frais scolaires, les services comme le transport,… de façon à avoir une
configuration générale.

On pourrait énumérer les prix individuels de tous les articles mais


cela n’est guère satisfaisant encore moins facile. Ce que l’on désire est un
seul indice de prix qui permet de comparer les prix correspondant à deux
périodes différentes dans la globalité. C’est pour cela qu’on recourt aux
indices synthétiques sur plusieurs produits. Il est évident que le calcul des
indices des séries d’articles pose des nombreux problèmes. Par exemple
quand il s’agit de l’indice du coût de la vie, il faut bien choisir les articles
qui doivent être pris en considération et pouvoir pondérer leur importance
relative. Il faut rassembler les données relatives au prix et à la quantité
des articles. Mais que faire quand on dispose d’un même article avec des
quantités différentes ? Ou bien encore quand certains articles ou
instruments ne sont disponibles que pendant une certaine année et sont
introuvables durant l’année de la référence ou l’année courante ?

Il faut en définitive voir comment on pourra organiser toute


l’information et parvenir à un seul indice du coût de la vie ayant une
signification pratique. Ceci dépend de l’ingéniosité, du bon sens et du
savoir-faire du chercheur en général et de l’économiste ou gestionnaire en
particulier.

Indice de Bradstreet
n
∑ x (t j )
t
B ( x )= i=1
n
0
∑ x (0j )
i=1
73
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

EXERCICES SUR LES INDICES

1. Soit en millions de $ les ventes d’une compagnie d’assurance reprise


dans ce tableau.

Année 2011 2012 2013 2014 2015 2016

Ventes 14980 16433 20194 23015 23621 24009

Déterminez et interprétez les indices enchaînés.

2. Soit le tableau suivant des indices de prix à la consommation


Année 2008 2009 2010 2011 2012 2013 2014 2015 2016
Indice 100 104,2 109,8 116,3 121,3 125,3 133,1 147,7 167,2

Déterminez la valeur du dollar $ au cours de chacune de ces années


relativement au dollar de 2011.

3. Voici les prix (en $) et les quantités vendues dans un point de vente de
19 septembre 2015 et le 26 septembre 2015.
74
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

P1 19 septembre Q1 P2 26 septembre Q2
Prix Quantité
Quantité Prix
1 kg de sucre 1,5 6 3,5 2
1 kg de riz 0,7 10 1,2 3
1 savon cristal 0,5 7 1,8 2
A paire de pile 1,2 8 2 2
Œuf/pièce 0,25 12 0,4 5
Sel 0,4 10 1,5 3

Calculer et interpréter : indice de Laspeyres de quantité et de prix, indice


de Paasche de quantité et de prix (19 septembre = période de base).

4. Soit une série de 4 articles A,B,C, D représentant un panier de


consommation. On désire comparer l’époque 2016 à l’époque de base
2013. Les données sont les suivantes :
Périodes 2013 2016
Articles P Q P Q
A 5 100 7 80
B 20 15 30 25
C 10 50 12 90
D 3 200 4 200

Calculer et interpréter les indices élémentaires et les indices synthétiques.

Résolution

a) Indices élémentaires
A B C D
( P ) ' I 2016 1,4 1,5 1,2 1,33
2013

( q ) ' I 2016 0,8 1,67 1,8 1


2013
75
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

b. Indices synthétiques simples

Indice synthétique P prix Indices synthétiques q Quantité

7+30+12+ 4 80+25+ 90+200


B2016 = =1 , 3947 =1 , 0822
5+20+10+ 3 100+15+50+ 200
2013

1 1
A2016 = ( 1 , 4 +1 ,5+1 , 2+1 ,33 )=1 ,3575 ( 0 , 8+1 , 67+1 , 8+1 )=1 , 3175
2013
4 4

4 4
G 2016 =√ 1 , 4×1 ,5×1 ,2×1 ,33=1 ,3530 √ 0 , 8×1 , 67×1, 8×1=1 , 2452
2013

Q2016 =
2013
√ 1 (
4
[ 1 , 4 )2 + ( 1 ,5 )2 + ( 1 ,2 )2 + ( 1 ,33 )2 ]=1 , 3618
√ 1
4
[ ( 0 , 8 )2 + ( 1 , 67 )2 + ( 1, 8 )2 + ( 1 )2 ] =1 ,3846

4 4
H 2016 = =1 ,34685 =1 , 1749
1 1 1 1 1 1 1 1
2013 + + + + + +
1 , 4 1 , 5 1 ,2 1, 33 0 , 8 1, 67 1 1 ,8

H≤G≤ X̄ ≤Q
a. Indices synthétiques pondérés

Indice synthétique P Prix Indices synthétiques q Quantité

100×7+15×30+50×12+200×4 5×80+20×25+10×90+3×200
L2016 = =1 , 3421 =1 ,2632
2013
100×5+15×20+50×10+200×3 5×100+20×15+10×50+3×200

80×7+25×30+90×12+200×4 7×80+30×25+12×90+4×200
P2016 = =1 , 3292 =1 , 251
2013
80×5+25×20+90×10+200×3 7×100+30×15+12×50+4×200

IF 2016 =√2 1, 3421×1 , 3292=1 , 3356 √ 1,2632×1,251=1,2571


2013

1 ( 5+7 ) 80+ ( 20+30 ) 25+ (10+ 12 ) 90+ ( 3+4 ) 200


( 100+80 ) 7+ ( 15+25 ) 30+ ( 50+90 ) 12+ ( 200+200 ) 4 =1 ,2562
2
I ME = =1 ,3349 12×100+ 50×15+22×50+7×200
2016 1
2013 ( 180×5+ 40×20+140×10+400×3 )
2
n n
∑ q(mj ) PTj ∑ p(mj ) q Tj
t 1 ( j) t 1 ( j)
I ME
0
( P ) = i=1
n
où q (mj )=
2
( q0 + q(ii ) ) I ME
0
( q )= i =1
n
où p (mj )= ( p + p(ii ) )
2 0
∑ q (mj ) P 0j ∑ p(mj ) P0j
j =1 j=1
76
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Remarque : dans les deux cas P  LetP pIF L

L’indice IF de Fischer remplit la propriété de transférabilité et de


réversibilité.

5. Le prix moyen de vente au détail du gravier par tonne pendant les


années 2011-2016 est donné par le tableau suivant :

Année 2011 2012 2013 2014 2015 2016

Prix moyen au détail du gravier 14,9 14,9 15,1 15,6 16,28 16,5
en fr/tonne 5 4 0 5 3

a. Avec 2011 comme année de référence, calculer les indices


correspondant en 2014 et 2016.
b. Avec 1956 comme année de référence, calculer les indices
élémentaires des prix correspondant à toutes les années
considérées.
c. Avec 2011-2013 comme période de référence, calculer les indices
élémentaires des prix correspondant à toutes les années.

Résolution

15 , 65
I 2014 = ×100=104 , 68 %
2011
14 , 95

16 , 53
I 2016 = ×100=110 ,57 %
2011
14 , 95

b.

Année 2011 2012 2013 2014 2015 2016

Prix 95,53 95,46 96,49 100 104,03 105,62

c. On calcule d’abord la moyenne arithmétique des ces années

14 , 95+14 , 94+15 , 10
=15
3

Année 2011 2012 2013 2014 2015 2016

Prix 99,67 99,6 100,67 104,33 108,53 110,2


77
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

6. A l’aide du tableau de la réponse c de 5, calculer les indices


élémentaires de prix en prenant 2014 comme année de référence.

Année 2011 2012 2013 2014 2015 2016

Prix 95,53 95,46 96,49 100 104,03 105,63

Nous retrouvons les réponses de b) Ex 5 : changement de base.

7. Le prix d’un article était en 2016 à 20 % supérieur à son prix en 2015,


de 20 % inférieur à son prix en 2014 et de 50 % supérieur à son prix en
2017. Transformer les données en indices élémentaires en prenant.

a. 2015 b. 2016 c. La période 2014/2015 comme référence.

Résolution

a.

Année 2014 2015 2016 2017

Indice élémentaire 2015 150 100 120 80


base

b.

Année 2014 2015 2016 2017

Indice élémentaire 2016 125 83,333 100 66,67


base

c. On fait d’abord la moyenne 150 et 100 = 125

Prix
×100
Ainsi moyenne arithmétique : 125

Année 2014 2015 2016 2017

Indice élémentaire 2014- 120 80 96 64


2015

8. Le tableau suivant représente la moyenne des prix de gros et la


production de lait de beurre et fromage aux Etats-Unis pour les années
2009, 2010 et 2018. Calculer un indice global de prix de gros de ces
produits laitiers pour l’année 2018 en choisissant :
78
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

a. 2009 comme année de référence ;

b. 2009-2010 comme période de référence ;


79
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Prix en $US par kg ou litre.


2009 2010 2018
Lait 0,395 0,389 0,413
Beure 6,15 6,22 5,97
Fromage 3,48 3,54 3,89

Quantités produites (en millions de kg)


2009 2010 2018
Lait 9,675 0,717 10,436
Beure 117,7 115,5 115,5
Fromage 77,93 74,39 82,79

∑ p i 2018 de 3 produits = 0 , 413+5 , 97+3 , 89 =102 , 47 %


a. ∑ P0 2009 0 , 395+6 , 15+3 , 48

1
B→ ( 6 ,15+6 , 22 )=6 , 185
b. 2
1
L→ ( 0 ,395 +0 , 389 )=0 , 392
2
1
F → ( 3 , 48+3 ,54 )=3 , 51
2

I EP =
∑ p2018 = 0 , 413+5 , 97+3 ,89 =10 , 273 =101, 84 %
∑ p 2009−2010 0 ,392+6 ,185+3 , 51 10 , 087
9. Expliquer pourquoi les indices obtenus à l’exercice précédent sont les
mesures impropres du prix à des articles considérés :

Réponse : On ne considère pas la quantité.

10. A l’aide de la méthode de la moyenne, calculer un indice de prix de


gros des produits laitiers du problème précédent pour l’année 2018 en
prenant 2009comme année de référence.

I 2018 L B F
2009

104,56 97,07 111,78


80
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

104 , 56+97 ,07 +111, 78


I 2018 = =104 , 47 %
3
2009

11. Reprendre l’exercice précédent en remplaçant la moyenne


arithmétique par la médiane.

R) = 104,56

12. Reprendre l’exercice précédent en calculant la moyenne géométrique

R) = 104,297

G= 3√104 ,56×97 , 07×111 ,78=104 , 297

13. Avec les données sur les produits laitiers calculer l’indice de Laspeyres
pour l’année 2018 en prenant 2009 comme année de base, l’indice de
Paasche de prix.

L2018 =
∑ q 09 . P18 = 9 ,675×0 , 413+ 117 , 7×5 ,97 +77 , 99×3 , 89 =101 ,10
2009 ∑ q 09 . P09 9 ,675×0 , 397+117 ,7×15+77 ,933×3 , 48

P2018 =
∑ q18 . P18 =10 , 436×0 , 413+115 , 5×5 , 97+ 82 ,79×3 ,39 =101 , 33
2009 ∑ q18 , P09 10 , 436×0 , 395+115 ,5×6 , 15+82 , 79×3 , 48
14. Calculez l’indice de Fischer de l’exercice précédent.

Solution : I f =√ L. P= √ 101 , 10. 101 , 33=101 , 21%

15. Le tableau suivant indique les salaires moyens horaires en dollars des
cheminots d’un pays pendant les années 2007-2018 ainsi que l’indice de
prix à la consommation (indice du coût de la vie) pour la même période,
rapportée à la période de référence 2007-2009. Déterminer les salaires
réellement touchés par les cheminots pendant les années 2007-2018 par
rapport à leurs salaires en 2007.
Année 200 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
7
Salaire en $/H 1,19 1,33 1,44 1,57 1,75 1,84 1,89 1,94 1,97 2,13 2,28 2,45
Indice du coût de 95,5 102, 101, 102, 111, 113, 114, 114, 114, 116, 120, 123,
la vie de 2007- 8 8 8 0 5 4 8 5 2 2 5
2009 = 100

Année 200 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
7
81
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Indice du coût de la 100 107, 106, 107, 116, 118, 119, 120, 119, 121, 125, 129,
vie 2007 = ³00 6 6 6 2 8 8 2 9 7 8 3
Salaire réel 1,19 1,24 1,35 1,46 1,51 1,55 1,58 1,61 1,64 1,75 1,81 1,89

1,19 1,33 1,44 1,57 1,75


; ; ; ; ;...
Obtention du salaire reel: 1 1,076 1,066 1,076 1,162

16. A l’aide de l’indice du coût de la vie du problème précédent,


déterminer le pouvoir d’achat du $ pour les différentes années en
supposant qu’en 2007, le dollar avait une valeur correspondant réellement
au pouvoir d’achat d’un dollar.
Année 200 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
7
Pouvoir 1,00 0,93 0,94 0,93 0,86 0,84 0,83 0,83 0,83 0,82 0,79 0,77
d’achat du $
en %

En 2007, 1 $ vaut 100 %

Quand le coût du dollar augmente, le pouvoir d’achat diminue.

100 100 1 , 44 100 100


; ; ; ; ;. ..
On aura : 100 107, 6 1, 066 107 , 6 116, 7

C’est-à-dire si pour 1 $ en 2007, on achetait 100 bics, en 2018, on va en


acheter 77 bics.
82
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

CHAPITRE IV : REGRESSION ET CORRELATION


INTRODUCTION
Les séries statistiques examinées jusqu’ici concernaient des
mesures ou des observations relatives à une seule variable, la valeur d’un
caractère commun à tous les membres d’une population (taille, poids, âge,
salaire, prix,…). Mais on peut également envisager d’observer
simultanément pour une population deux ou plusieurs caractères. Le
problème qui se pose alors est de rechercher s’il existe une liaison entre
les modalités des caractères ou les valeurs des variables portées par
chaque unité.

On peut par exemple se demander s’il existe une liaison entre


l’âge et la taille des personnes, entre le salaire et la production, entre la
taille et le poids, entre les quantités d’engrains et la production,…

Si on a deux séries de variable Xi et Yi on peut étudier l’existence


et le degré de dépendance ou de liaison entre elles.

Si les Yi sont fonction des Xi (y exprimé en fonction de x), les Xi


expliquent les Yi « Y » est une variable dépendante ou variable expliquée
ou encore variable réponse. « X » est une variable indépendante ou
explicative ou encore régresseur. Le problème de corrélation consiste à
rechercher s’il existe une relation entre X et Y. Si les deux variables sont
unies par un lien de dépendance. Si on a une population de taille n et deux
caractères différents associés aux variables aléatoires X et Y, à chaque i
d’échantillon on peut associer un couple de valeur (Xi, Yi) avec i = 1,…n.

Lorsque deux caractères sont tels que les variations de leurs


valeurs sont toujours de même sens ou de sens opposé on pressent que
ces 2 caractères sont liés l’un à l’autre. On dit qu’ils sont en corrélation.
La corrélation peut donc être définie comme un degré de similitude en
grandeur et en sens de variation entre les valeurs correspondantes de
deux caractères. Deux caractères liés sont dits en corrélation.
83
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Les couples (Xi,Yi) peuvent être représentés en coordonnées


cartésiennes : généralement en abscisse on reprend les valeurs des
variables indépendantes et en ordonnées celles des variables
dépendantes.

En faisant correspondre à chaque Xi et Yi un point de


coordonnées on obtient un nuage de n points constituant un diagramme
de dispersion.

a. b. c.

X X X

Sur la figure b il est difficile d’imaginer X et Y puissent être en corrélation


(dépendance linéaire). Si entre les deux caractères on ne trouve pas de
relation, ils sont dits indépendants et les points P i de coordonnées (Xi, Yi)
sont dispersés tout à fait au hasard dans le plan à deux dimensions.

Sur les figures a et c on peut entrevoir l’existence d’une certaine


relation entre les grandeurs X et Y. C’est la dépendance statistique : les
points Pi ne sont plus groupés au hasard dans le plan. Leur regroupement
en un nuage de point allongé croissant suggère la possibilité de l’existence
d’une droite telle que les valeurs Xi soient de bonnes approximations des
valeurs Yi. Ces points ont tendance à se rapprocher d’une même droite.
On dit alors que la corrélation est linéaire. Si Y décroit ou croit dans le
même sens que X, la corrélation est dite positive. Si y croit alors que X
décroit ou Y décroit alors que x croit la corrélation est négative.

Si les points se rapprochent d’une droite, la corrélation est


linéaire. En figure a, las données semblent être parfaitement rapprochées
par une ligne droite. On dit qu’il y a une relation linéaire entre les
variables. Si les points du diagramme de dispersion se rapprochent d’une
courbe, les variables sont en relation mais non linéaire. Si la corrélation
est non linéaire, la loi de variation peut être une fonction puissance, une
84
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

fonction exponentielle, une fonction logarithmique, une fonction


quadratique, une fonction cubique,…

Dès lors 2 questions se posent :

Le première consiste à exprimer une loi de variation moyenne de


l’une des variables en fonction de l’autre c’est-à-dire à ajuster aux
observations la droite d’estimation rendant compte à cette loi. C’est le
problème d’ajustement.

La deuxième question consiste à caractériser l’intensité de la


corrélation par un coefficient numérique indépendant de l’unité de mesure
des deux variables. De manière générale ; l’ajustement consiste à
rechercher une fonction f(x) dont le graphe se rapproche le plus possible
des points du diagramme. Il existe plusieurs méthodes d’ajustement. Nous
en invoquons deux.

Lorsqu’on porte sur un graphique les points P i représentatifs des


couples d’observation Xi et Yi,ces points forment un nuage d’une certaine
configuration. Ils peuvent par exemple se trouver sensiblement groupés
autour d’une droite, d’une parabole, d’une hyperbole. Deux points
suffiront pour tracer à main levée une droite. On peut aussi tracer à main
levée une courbe passant au travers des points du nuage de façon à ce
que les écarts possibles et négatifs se compensent.

Ce procédé élémentaire c’est l’ajustement graphique.


L’inconvénient est que des observateurs différents obtiendront des
courbes et des droites différentes. Dès lors, il faut chercher la meilleure
droite d’ajustement par une deuxième méthode, la méthode d’ajustement
analytique. Elle consiste à rechercher la fonction f(x) =Y qui est la loi de
variation du phénomène.

On détermine alors des équations de droite ou de courbe d’ajustement.

Y = a0 + a1x (fonction linaire)

Y = a0 + a1x + a2x² (parabole)

Y = a0 + a1x + a2x² + a3x3 (courbe cubique)


85
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Y = a0 + a1x + a2x² … anxn (courbe du nième degré)

1 1
Y= ou =a 0 +a 1 x ( hyperbole )
a 0 + a1 x y

Y = abx (fonction exponentielle) Y=abX+g (fonction exponentielle


modifiée)

Y = axb (fonction puissance)

Y = pqbx (fonction de GOMPERTZ) utilisée surtout en démographie

1
Y= + g ( fonction logistique )
ab x

Y = a0 + a1(logX) + a2(logX)²

Etc.

Cette méthode se prête aux calculs et permet de déterminer des


valeurs prises par y pour x donné, quelle que soit la valeur de x, à
l’intérieur du domaine représenté dans la série et de déterminer y
correspondant à une valeur x prise à l’extérieur du domaine. La formule
algébrique qui exprime la relation existant entre la variable indépendante
et la variable dépendante constitue l’équation de régression. L’analyse de
la régression simple permet de prédire la valeur des variables
dépendantes à partir des valeurs prises par une seule variable
indépendante. La régression multiple par contre permet de prédire la
valeur de la variable dépendante à partir des valeurs prises par plusieurs
variables indépendantes. Nous nous limiterons à l’ajustement linéaire et à
la régression simple.

Exemple : un opérateur économique dispose de 10 points de


vente de son produit. Il a établi les quantités vendues et des jours de
vente par point de vente au cours d’une période. Construisez le
diagramme de dispersion et décidez s’il serait approprié de faire une
analyse de régression. Les données sont regroupées dans ce tableau.

Points de vente 1 2 3 4 5 6 7 8 9 10

Quantités vendues 825 215 107 550 480 920 135 325 670 121
86
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Quantités vendues

0 0 5

Nombre de jour de 3,5 1 4 2 1 3 4,5 1,5 3 5


vente
Nombre des jours de vente

a) Graphique

1600

1400

1200 f(x) = 251.174089068826 x + 46.1538461538464


R² = 0.900492377018513
1000

800

600

400

200

0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5

b) Le diagramme laisse penser qu’il existe une relation linéaire entre le


nombre de jours de vente et les quantités vendues. L’analyse de la
régression serait donc appropriée.

1. LA METHODE DES MOINDRES CARRES


Le graphe étant choisi, il convient qu’il s’ajuste aussi bien que
possible aux observations. Soit la variable indépendante x, les valeurs de x
87
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

étant supposées exactement connues et soit y la variable dont on se


propose de déterminer les valeurs en fonction de x. S’il existait entreles
deux variables une relation de dépendance fonctionnelle connue, le fait de
connaître x permettrait de déterminer exactement la valeur de y. En
réalité il existe entre x et y généralement une relation de dépendance
statistique.

F(x) ne peut expliquer que partiellement la valeur expérimentale


Yi. En connaissant une valeur x déterminée, on ne peut pas connaître « Y »
exactement mais plutôt sa valeur estimée. Il y aura donc des écarts entre
^
les observations et les estimations. Soit Y cette valeur estimée. Appelons

Ei, les écarts entre les Yi observés et les


Y^ i estimés.

Y i −Y^ i=E i

Y i =Y^ i + Ei

Y i =f ( x i ) + Ei

Ei constitue un écart résiduel qui ne peut être expliqué par le


modèle théorique traduit par f(x).Pour déterminer la droite d’équation Y
=f(x), il convient de choisir les coefficients numériques de f(x) de telle
manière que l’ensemble des écarts Ei soit minimum. Cela revient à
minimiser la somme des carrés des écarts :
n n
∑ E 2i =∑ (Y i −Y^ i ) minimum
2

i=1 i=1

Parmi toutes les courbes qui ajustent un ensemble des données,


celle qui donne un meilleur ajustement est celle qui vérifie la propriété
n
∑ E 2i minimum
i=1 .

Quand une droite vérifie cette propriété, on dit qu’elle ajuste les
données au sens des moindres carrés. On a alors la droite des moindres

carrées. Elle a pour équation


Y =a0 +a1 x ou Y=a+bx
88
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Il faut alors déterminer les paramètres a et b. La droite


d’ajustement doit passer le plus près possible de tous les points
représentatifs des coordonnées (Xi, Yi) car la somme des carrés des écarts
des différents points de nuage à cette droite doit être la plus petite
possible. La forme générale de l’équation de régression linaire ajustée aux

données échantillonales représente les données estimées.


Y^ i =a+bx i

ΔY
b=
b représente la pente de la droite ΔX

La droite de régression de pente positive indique que les deux variables

sont reliées par une droite du genre Y =a+|b|x


Une pente négative indique que les deux variables sont reliées par une

droite du genre Y=−|b|x+a . Une droite de régression de pente nulle


indique que la liaison linéaire entre les deux variables est inexistante Y =
a.

La méthode des moindres carrés est employée couramment et s’applique


à beaucoup de cas généraux, mais son utilisation ne se justifie que si
Y i =f ( X i ) + E i
chaque observation Yi est de la forme

Ei est une variable aléatoire distribuée normalement avec une moyenne


nulle est un écart-constant.

2. LA DROITE DE REGRESSION
Soient les observations x1, x2…xn et y1, y2,…, yn telles que les
points de cordonnées (Xi,Yi) forme un nuage des points sensiblement
linéaire. Le diagramme peut donc être ajusté par une droite d’équation
^y =a+bx . Cette droite est appelée droite d’estimation de y en fonction de
x, ou droite d’ajustement de y en fonction de x, ou encore droite de
régression de y en x. Le problème revient à déterminer les paramètres a
et b pour que la somme des carrés des écarts des points du nuage à cette
droite soit minimale. Ses coefficients sont donnés par les égalités :
89
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
n
∑ X i Y i −n X̄ Ȳ
b=i=1
n
∑ X i2−n ( X̄ )2
i=1

a= ȳ−b x̄

La droite de régression passe par les points de coordonnées moyennes


( x̄ , ȳ ) appelés centre de gravité du nuage.

EXEMPLES –EXERCICES

1) On observe les notes de math et de stat de 10 étudiants (cote sur


100)

1 2 3 4 5 6 7 8 9 10

MATH 75 80 93 65 87 71 98 68 84 77

STAT 82 78 86 72 91 80 95 72 89 74

a) Représentez et interprétez le diagramme de dispersion


b) Déterminez l’équation de régression et tracez sa droite dans le
diagramme de dispersion.
c) Déterminer la cote de stat. pour un étudiant ayant obtenu 75 en
math.
d) Déterminez la cote de math. Pour un étudiant ayant obtenu 95 en
stat.

100
90 f(x) = 0.661290322580645 x + 29.1290322580645
80 R² = 0.760555642333526
70
60
50
40
30
20
10
0
60 65 70 75 80 85 90 95 100
90
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Le nuage des points est allongé, laissant présager l’existence d’une liaison
linéaire entre les cotes de math et de stat. l’allure croissante du
diagramme indiquerait une liaison positive entre les cotes de math et celle
de sta évoluant ainsi dans le même sens.

b) Tableau intermédiaire des calculs (T.I.C)

Y^ =a+bx

b=
∑ x i y i−n X̄ Ȳ
∑ x 2i −n ( x̄ )2
91
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Rang Math X Stat Y x 2i y 2i xi yi Y^ i


1 75 82 5625 6724 6150 78,73
2 80 78 6400 6084 6240 82,03
3 93 86 8649 7396 7998 90,61
4 65 72 4225 5184 4680 72,13
5 87 91 7569 8281 7917 86,65
6 71 80 5041 6400 5680 76,09
7 98 95 9604 9025 9310 93,91
8 68 72 4624 5184 4896 74,11
9 84 89 7056 7921 7476 84,67
10 77 74 5929 5476 5698 80,05

∑ 798 819 64722 67675 66045 818,98 


819

6645−10(79 , 8)(81 , 9)
b=
64722−10 (79 ,8 )2

66045−65356 , 2
b=
64722−63680 , 4

688 , 8
b= =0 ,661290322≈0 , 66
1041 ,6

a= ȳ−b x̄=81 , 9−0 , 66 . 79 ,8=29 .232≈29 , 23 ^y =29 , 23+0 , 66 x

c) Y^ =29 ,23+0,66 x=29 ,23+0,66 .75=78 ,73

d) Pour stat = 95, math = ?


92
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

x^ =a +by

b=
∑ xi yi
∑ y 2i −n ( ȳ )2
a= x̄−b ȳ

66045−65356 ,2 688 ,8
b= = =1 ,150108532≈1 ,15
67675−67076 ,1 598 ,8

a=79 ,8−1,15 .81 ,9=−14 ,385=−14 ,39

x^ =−14 ,39+1 ,15 y

Pour y = 95, x^ = -14,39 +1,15.95 = 14,39 + 109,25 = 94,865  94,86

Pour stat = 95, math = 94,86.

2) Une entreprise de vente de cigarettes a observé pendant 8 semaines le


coût de ses dépenses de publicité et les quantités vendues à la même
période. Les données échantillonnales sont reprises dans le tableau :

Semaine 1 2 3 4 5 6 7 8

Coût de publicité en $ 20 16 34 23 27 32 18 22

Quantités vendues cartons 64 61 84 70 88 92 72 77

Question s a, b, cf exercice 1.

c) Estimez le nombre de paquets qui seraient vendus si l’entreprise


dépensait 30 $ à la publicité.

d) Estimez ce que l’entreprise dépenserait en publicité si elle voulait


vendre 112 cartons.

a. Représentation graphique et interprétation du diagramme de dispersion


93
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

100
90
f(x) = 1.49659863945578 x + 40.0816326530612
80 R² = 0.743231829978041
70
Quantité vendue

60
50
40
30
20
10
0
15 20 25 30 35

Publicité

Le nuage des points est allongé, laissant présager l’existence d’une


liaison linéaire entre le coût de la publicité et les quantités de cartons
vendus. L’allure croissante du diagramme indiquerait une liaison positive
entre le coût de publicité et les quantités vendues de cartons de
cigarettes, évoluant ainsi dans le même sens.

b. L’équation de régression et sa droite (dans le diagramme de


dispersion).

^y i =a+bx

a= ȳ−b x̄
n
∑ xi y 1 −n . x̄ ȳ
b= i=1n
∑ x 2i −n ( x )2
i =1
94
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Tableau intermédiaire des calculs (TIC)


Rang Coût de publ. Qté vendue x 2i y 2i xi yi Y^ i
1 20 64 400 4096 1280 70
2 16 61 256 3721 976 64
3 34 84 1156 7056 2856 91
4 23 70 529 4900 1610 74,5
5 27 88 729 7744 2376 80,5
6 32 92 1024 8464 2944 88
7 18 72 324 5184 1296 67
8 22 77 484 5929 1694 73

∑ 192 608 4902 47094 15032 608

15032−876 15032−14592 440


b= = = =1 , 496598639≈1 ,50
4902−8 . ( 24 )2 4902−4608 294

a = 76-1,50 x 24 = 76-36 = 40
^y i =40+1 , 50 x

c)
^y i =40+1 , 5∗30=40+45=85 ^y ( 30 )=40+1 ,5×30=85 x̄ i=a+by

X^ i =a+ by

a= x̄−b ȳ
n
∑ xi y i −n x̄ ȳ
15032−14592 440
b= i=1n = = =0 , 4966139955=0 , 5
47094−46208 886
∑ y 2i −n ( ȳ )2
i=1

a = 24-0,50 * 76 = 24-38 = -14

X^ =−14+0,5 y
X^ =? ⇒ X^ ( 112 )
Pour Y = 112 

d) X^ ( 112 ) = -14 + 0,5 +112 = -14+56 = 42


r 2( x , y ) =( 0 , 862108943 )2 =0 ,7432 %
e) r(x,y) = 0,862108943
95
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

3. LE COEFFICIENT DE CORRELATION ET LE
COEFFICIENT DE DETERMINATION
Le coefficient de corrélation « r » est un nombre indice qui
mesure le degré de dépendance entre deux caractères statistiques. Ce
coefficient mesure la précision de l’ajustement linéaire pour des écarts
résiduels faibles ; r est donné par la formule suivante :
n n n
n ∑ xiyi−∑ xi ∑ yi
i=1 i=1 i=1
r=

√ ( )√ (∑ )
n n 2 n n 2
n ∑ x 2i − ∑ xi n ∑ y 2i − yi
i=1 i=1 i=1 i=1

n
∑ xiyi−n x̄ ȳ
i=1
r=

√(∑ )(∑ )
n n
2 2 ¿
x i −n ( x̄ ) y (Ȳ )
i=1 i=1

n
cov ( x , y ) 1
r=
σx . σy
où cov ( xy )=
n
∑ ( X i − X̄ )( Y i −Ȳ )
i=1

Cfr l’exemple précédent

15032−14592
r=
√ ( 4902−4608 ) ( 47094−46208 )
440
r= =0 , 862108943
510 ,3763317
Le coefficient de corrélation r = 0,8621 est positif. Il existe donc
une liaison de dépendance entre la publicité et la vente de cartons de
96
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

cigarettes. Les deux caractères varient dans le même sens. A une


augmentation de la publicité correspond une augmentation de vérité.

Cov (xy) est la covariance entre x et y

Le coefficient de corrélation est compris entre -1 et 1 ou -1  r 


1. Le signe du coefficient de corrélation indique le sens de la liaison entre
les deux caractères. La valeur absolue du coefficient de corrélation
mesure la force de la liaison entre les deux caractères :

 Si r  0, les deux caractères varient dans le même sens : à une


augmentation de x correspond une augmentation de y, à une
diminution de x correspond une diminution de y.
 Si r = 1, il existe une liaison linéaire rigide positive entre les 2
caractères. Y et X varient dans le même sens de façon exactement
proportionnelle.
 Si r = 0, on peut présumer qu’il n’y a aucune liaison linéaire de
dépendance entre les deux caractères.
 Si r = -1, il existe une liaison rigide négative entre les deux
caractères. Y et X varient dans le sens opposé de façon exactement
proportionnelle.
 Si r  0, les deux caractères varient en sens opposé : à une
augmentation de X correspond une diminution de y ; à une
diminution de x correspond une augmentation de y.

On peut également calculer le coefficient de détermination qui


est égal au carré du coefficient de corrélation.

Le coefficient de détermination donne en pourcentage le degré


d’explication de la variable expliquée par la variable explicative ou encore
de degré de dépendance de la variable dépendante de la variable
indépendante. R = r² Cfr l’exemple précédent : Le coefficient de
détermination r²= (0,862108943)²= 0,7432  74,32 % signifie que la
publicité explique à 74,32 % l’augmentation de vente de cartons de
cigarettes.

EXEMPLE – EXERCICE
97
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Des statistiques ont relevé le salaire mensuel (USD) de 20


ménages et le nombre de kg de viande consommée par mois. Les données
sont contenues dans ce tableau.

Rang 1 2 3 4 5 6 7 8 9 1 1 1 13 14 1 1 1 1 1 2
0 1 2 5 6 7 8 9 0

Revenu en $US 69 11 7 1 1 87 3 6 2 5 4 5 25 92 3 5 7 5 4 1
0 7 6 4 7 9 4 5 8 2 9 2 5 7 6 2 7

Consommation 6,9 12,2 9,1 2,4 2,3 17,1 4,3 5,7 2,5 6,8 6,3 5,3 29,1 13,5 3,3 8 1 7,1 5,4 2,9
de viande/kg 3

a. Représentez et interprétez le diagramme de dispersion


b. Déterminer l’équation de régression et tracez la droite de régression
c. Calculez le coefficient de corrélation, déterminez et interprétez le
coefficient de détermination (variable dépendante y =
consommation, variable indépendante x = revenu).

Solution

a. Graphique : Diagramme de dispersion

35
Consommation de viande en

30
f(x) = 0.114989083706588 x + 0.754703009295731
R² = 0.900108755947847
25

20

15

10

5
Kg

0
0 50 100 150 200 250 300
Revenu en $
Interprétation

Le nuage des points est allongé. L’allure est croissante. Cela veut
dire que la liaison positive entre le nombre de Kg de valeur consommée et
le revenu. Il serait donc en dépendance linéaire positive. (Variation dans le
même sens).
98
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
99
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

b. Tableau intermédiaire de calcul


Rang Revenu Quantité x 2i y 2i xi yi Y^ i
en $US consommée
de viande en
Kg

1 69 6,9 4761 47,61 476,1 8,689


2 110 12,2 12100 148,84 1342 13,404
3 77 9,1 5929 82,81 700,7 9,609
4 16 2,4 256 5,76 38,4 2,594
5 14 2,3 196 5,29 32,2 2,364
6 87 17,1 7569 292,41 1487,7 10,759
7 37 4,3 1369 18,49 159,1 5,009
8 69 5,7 4761 32,49 393,3 8,689
9 24 2,5 576 6,25 60 3,514
10 55 6,8 3025 46,24 374 7,079
11 48 6,3 2304 39,69 302,4 6,274
12 52 5,3 2704 28,09 275,6 6,734
13 259 29,1 67081 846,81 7536,9 30,539
14 92 13,5 8464 182,25 1242 11,334
15 32 3,3 1024 10,89 105,6 4,434
16 55 8 3025 64 440 7,079
17 77 13 5929 169 1001 9,609
18 56 7,1 3136 50,41 397,6 7,194
19 42 5,4 1764 29,16 226,8 5,58
20 17 2,9 289 8,41 49,3 2,709

∑ 1288 163,2 136262 2114,9 16640,7 163,2

n
∑ xi y i −n x̄ ȳ 16640 , 7−20 . ( 64 , 4×8 , 16 ) 16640 , 7−10510 , 08 6130 ,62
b= i=1n = = = =0 ,114989083=0 , 115
136262−20 ( 64 , 4 )2 136262−82947 , 2 53314 , 8
∑ x 2i −n ( x̄ )2
i =1

a = 8,16-(0,115.64,4) = 8,16 – 7,4°6 = 0,754

Y^ =0 ,754 +0 , 115 x
100
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

16640 ,7−20 . ( 64 , 4∗8 , 16 ) 16640 ,7−10510 , 08


r= =
√[ 136262−20 ( 64 , 4 ) ][ 2114 , 9−20 ( 8 , 16 ) ]
2 2 √( 136262−82947 , 2 )( 2114 , 9−1331, 712 )
6130 ,62 6130 , 62 6130 , 62
r= = = =0 , 948740685=0 ,95
√53314 , 8. 783 .188 √ 4175551 . 58 6461 . 85045077
R = r² = (0,95)² = 0,9025 = 90 %

Interprétation

Le coefficient de corrélation r = 0,95 est positif et très roche de


1. Il existe donc une forte liaison de dépendance entre le revenu et la
consommation de viande. Les deux caractères varient dans le même sens.
Une augmentation du revenu correspond à une augmentation de
consommation.

Le coefficient de détermination R = 0,90 : le revenu explique à 90 % la


consommation de viande pour ces 20 ménages.

4. TABLEAU DE CORRÉLATION : COEFFICIENT DE


CORRÉLATION DES DONNÉES GROUPÉES.
Pour les données d’un tableau d’effectif à 2 variables ou à double
entrée, on utilise un changement de variable et le coefficient de
corrélation devient :

n ∑ fu x u y −( ∑ f x u x )( ∑ f y u y )
r=
√ [ n∑ f 2
x u x− (∑ f x u y)
2
][ n ∑ f 2
y u y− (∑ f y u y)
2
]
f = fréquence

u = variables changées

5. CORRÉLATION DE RANG DE SPEARMAN


Au lieu d’utiliser les valeurs précises des variables quand la
précision des mesures n’est pas possible, on peut ranger les données par
ordre croissant de taille, d’importance,… utilisant les nombres 1,2,3,… n.
Si les deux variables sont ainsi classées, le coefficient de corrélation de
rang est donné par
101
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
n
6 ∑ D 2i
i=1
r =1−
n ( n −1 )
2

où Di est la différence entre les rangs de valeurs correspondantes de x et


y ; n est le nombre de couples de valeurs x et y.

N.B : S’il y a des ex-aequo (= valeurs qui occupent le même rang) pour les
Xi ou Yi on attribue à ces valeurs la moyenne de leur rang.

6. RÉGRESSION ET CORRÉLATION APPLIQUÉES AUX SÉRIES


CHRONOLOGIQUES OU TEMPORELLES.
Si la variable indépendante est le temps, les données sont les valeurs de
Y à des instants différents. Les données variant chronologiquement sont
des séries chronologiques ou des séries temporelles ou encore chroniques.
Dans ce cas, les courbes ou Y en T c’est-à-dire y = f(T) que l’on utilise
fréquemmentdans les problèmes d’estimation ou de de prévision sont
appelées droites de tendance ou courbe de tendance.

7. RÉGRESSION ET CORRÉLATION MULTIPLE


On appelle corrélation multiple la corrélation qu’il a entre 3 ou
plusieurs variables. Les principes fondamentaux qui caractérisent la
corrélation multiple sont les mêmes que pour la corrélation simple.

Une équation de régression multiple est une équation qui permet


d’estimer une variable par exemple Y qui est appelé variable dépendante
ou expliquée en fonction des variables indépendantes (ou explicatives) X 1,
X2, X3… on parlera alors des hyperplans.

TRAVAUX PRATIQUES

1. Au cours des épreuves d’un examen, 12 candidats ont obtenu les cotes
suivantes sur 10 en 2 matières différentes : statistique et mathématique.

N °candidat 1 2 3 4 5 6 7 8 9 10 11 12

Cote stat. sur 20 3 4 4 5 5 6 6 7 7 8 8 9

Cote math. Sur 10 3 3 5 4 5 5 6 5 6 6 8 7

1) Tracer et interpréter le diagramme de dispersion.


102
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

2) Déterminer les droites de régression respectivement de < Y en X et


de X en Y, interpréter les paramètres de ces deux droites.
3) Tracer ces droites sur le diagramme 1° et montrer que ces deux
droites se coupent au centre de gravité.
4) Calculer et interpréter le coefficient de détermination, le coefficient
de corrélation linaire de PERASON ;
5) Calculer et interpréter le coefficient de corrélation de rang de
SPEARMAN.
6) Un candidat qui a obtenu 5 en statistique quelle est sa cote probable
en mathématique et un étudiant qui a obtenu 5 en mathématique,
quelle est la cote probable en statistique ?
Solution
Diagramme de dispersion

Cote Math 9
8
7 f(x) = 0.68421052631579 x + 1.14473684210526
6
5
4
3
2
1
0
2 3 4 5 6 7 8 9 10
Cote Stat

10
Cote Stat 9
f(x) = 1.07216494845361 x + 0.371134020618557
8
7
6
5
4
3
2
1
0
2 3 4 5 6 7 8 9
Cote Math
103
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Tableau intermédiaire des calculs


N° X Y X² Y² XY x 211 y 211 D i =x12− y 2i D 21
1 3 3 9 9 9 1 1,5 -0,5 0,25
2 4 3 16 9 12 2,5 1,5 1 1
3 4 5 16 25 20 2,5 5,5 -3 9
4 5 4 25 16 20 4,5 3 1,5 2,25
5 5 5 25 25 25 4,5 5,5 -1 1
6 6 5 36 25 30 6,5 5,5 1 1
7 6 6 36 36 36 6,5 9 -2,5 6,25
8 7 5 49 25 35 8,5 5,5 3 9
9 7 6 49 36 42 8,5 9 -0,5 0,25
10 8 6 64 36 48 10,5 9 1,5 2,25
11 8 8 64 64 64 10,5 12 -1,5 2,25
12 9 7 81 49 63 12 11 1 1

∑ 72 63 470 355 404 35,5

Y = ax + b

n ∑ xy−∑ x ∑ y 12×404−72×63
a= = =0 , 684210526
n ∑ x 2−( ∑ x )
2
12×470−( 72 )2

b= ȳ−a x̄ =5 ,25−0 , 684210526×6=1 , 144736844 Y =0 ,684 x+1 , 145

n ∑ xy−∑ x ∑ y 12×404−72 . 63
a '= = =1 , 072164948
n ∑ y 2 −( ∑ y ) 12×355−( 63 )2

b '= x̄−a ' ȳ=6−5 ,25×1 ,072164948=0 , 37113402


 x = 1,072 y + 0,371

Ici n = 12; x̄=6, σ x =1 ,779513042 ; σ 2x =3 ,166667 ; s x =1 , 858640755 ; ȳ=5 , 25

s x=1 , 858640755 ; ȳ =5 ,25 ; σ y =1 , 421560176 ; σ 2y =2, 020833 ; s y =1 , 484771178.


Y X X Y
3 3,587 4 3,881
8 8,947 9 7,301
104
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

∑x ∑y 72∗63
∑ xy−n i i 404−
12
r= = =0 , 856449≈0 , 856

√[ ][∑ ][ ][ ]
( 72 )2 ( 63 )2
(∑ y i )
2
(∑ x) 470− 335−
∑ x 21− n
y 2i −
n
12 12

1 1
Cov ( x , y )=
n
∑ x i y i− x̄ ȳ= 404−6×5 , 25=2 ,16666667
12

⇒ r 2=0 ,733586543≈0 , 7336


cov ( x , y ) 2 , 16666667
r= = =0 , 856
σxσy 1 ,779513042×1 , 421560176
Le coefficient de corrélation donne le degré de liaison entre les cotes
obtenues en statistique et en mathématique. Le coefficient de
détermination indique que la variable dépendante est expliquée en 73,36
% par la variable indépendante. Il existe une forte liaison entre les cotes
obtenues en mathématique et en statistique étant donné que le coefficient
de corrélation tend vers 1.

6 ∑ D2i 6∗35 ,5
rang=1− =1−
n ( n −1 )
2 12 (144−1 )

¿ 0 , 875874125≈0 , 876 avec D i qui est la différence des rangs de x i et y i

Constatation : le coefficient de PEARSON est à peu près égal au coefficient

de SPEARMAN mais ce dernier est un peu plus grand. Ce dernier corrige

donc le premier.

Le candidat qui a obtenu 5 en statistique, sa cote probable en

mathématique est 5  y(5) = 0,684 5 + 1,145 = 4,565.

5 en math  sa cote probable en stat. Est x(5) = 1,072 x 5 + 0,371 =

5,731

SY . X =SY √1−r²
Essayons de calculer aussi les écarts-types liés :
105
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

σy .x=1,421560176 √1−0,733586543=0,73→σy=1,421560176 σY .X =σY √ 1-r²

sy. x=1,484771179 √ 1−0,733586543=0,77→sy=1,484771179

σX .Y =1,779513043 √1−0,733586543≈0,92 et SX .Y =1,858640755 √1-0,733586543≈0,96=S X .Y

S X .Y =S X √ 1−r ² σ X .Y =σ X √1−r ²

2. Le tableau suivant donne la distribution des notes en mathématique et

en physique de 100 étudiants.Notes de mathématique

Notes 40-49 50-59 60-69 70-79 80-89 90-99


de 90-99 2 4 4
physiqu 80-89 1 4 6 5
e 70-79 5 10 8 1
60-69 1 4 9 5 2
50-59 3 6 6 2
40-49 3 5 4

En se référant à ce tableau déterminer

a. Le nombre d’étudiants ayant obtenu les notes comprises entre 70 et 79

en mathématique et entre 80 et 89 en physique ;

b. La proportion d’étudiants ayant une note inférieure à 70 en

mathématique ;

c. Le nombre d’étudiants ayant une note égale ou supérieure à 70 en

physique et inférieure à 80 en mathématique ;

d. Le pourcentage d’étudiants qui ont réussi leur examen de

mathématique et de physique sachant que la note de passage est égale

à 60 ;
106
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

e. Calculer le coefficient de corrélation linéaire des notes de mathématique

et de physique. En déduire le coefficient de détermination et

interpréter ;

f. Ecrire les équations des droites de régression respectivement de Y en X

et de X en Y avec X comme notes de mathématique et Y comme notes

de physique.

g. Calculer les écart-types liés


107
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Résolution
a) 4 étudiants b) 47 étudiants/100 étudiants = 0,47 = 47 % d’étudiants
c) 22 étudiants d) 66 % d’étudiants
Remarque :
Dans l’énoncé si on a demandé le pourcentage des étudiants qui avaient eu une cote supérieure à 60 en
mathématique ou en physique, ce pourcentage serait 83.
Y Notes de mathématique
centre X 44,5 54,5 64,5 74,5 84,5 94,5 Ny ou f yU y Somme des
f y U 2y nombres en
centre fy
Ux -2 -1 0 1 2 3 coin pour
Notes de physique

Uy chaque ligne
94,5 2 2 4 4 16 4 24 10 20 40 44
84,5 1 1 0 4 4 6 12 5 15 16 16 16 31
74,5 0 5 0 10 0 8 0 1 0 24 0 0 0
64,5 -1 1 2 4 4 9 0 5 -5 2 -4 21 -21 21 -3
54,5 -2 3 12 6 12 6 0 2 -4 17 -34 68 20
44,5 -3 3 18 5 15 4 0 12 -36 108 33
Ny ou fx 7 15 25 23 20 10 100
∑ f x u y ∑ f x u2x 125
-55 253 ∑ fux uY
FxUx -14 -15 0 23 40 30
∑ f x ux

VERIFICATIO
64
FxU²x 28 15 0 23 80 90
∑ f x u2x
236
Somme des 32 31 0 -1 24 39
∑ f x ux u1

N
nombres en
coin pour
108
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
chaque
colonne 125
109
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

n ∑ f x u x u y−( ∑ f x u x )( ∑ f y u y ) 6 6 6 6
R= ∑ ∑ f =∑ f x=∑ f y=100
√ [ n∑ f 2
x u x− ( ∑ f x ux)
2
][ n ∑ f 2
y u y− (∑ f y u y)
2
] i =1 i=1 i=1 i=1

n = 100

x i−x 0
u x= , x 0=64 , 5
ax

Xi centre de classe ayant le plus grand effectif xi = x 0

x−64 ,5 y i− y 0
u x= car a=10 uY = y 0 =74 ,5
10 ay

100×125−( 64 ) (−55 )

r = r (X,Y) = √[ 100 ( 236 )−( 64 ) ] [ 100 ( 253 )− (55 ) ]


2 2

16020
= =0 , 768584835
√( 19504 )×( 22275 )
= 0,76858

r² = 59,07 % r² = R = (0,768584835)² = 0,5907

Le coefficient de corrélation est quand même grand, il est


supérieur à 0,5 ce qui veut dire il tend vers 1. Les notes de
mathématiques sont linéairement liées aux notes de physique.

sy sx
y− ȳ=r ( x − x̄ ) et x− x̄=r ( y− ȳ )
sx sy

√ ( )
2
s
r = xy =
cov ( x , y )
où s x=a x
∑ f xux − ∑ f x ux 2

s x s y σxσy n n

√ (
∑ f y u2y − ∑ f y u y
) [ (
∑ fux u y − ∑ f x u x ∑ f y u y
)( )]
2

SY =a Y S xy=qa y
n n n n n
110
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

S xy=10∗10
[ ( ) ( )]
125 64
− ∗
−55
100 100 100
=160 , 2

S x=10

236 64 2

100 100 ( )
=13 , 9656722

S y=10

253 −55 2

100 100 ( )
=14 ,92481156

160 ,2
r= =0 ,768584835
13 , 9656722∗14 , 92481156
Vérification :

64
x̄=x 0 +a y ū x =64 , 5+10 =70 , 9
100

−55 s
ȳ= y 0 +a x ū y=74 , 5+10 =69 → y− ȳ=r y ( x− x̄ )
100 sx

0 , 7685848635×14 , 92481156 (
y−69= x−70 , 9 ) ⇒ y=0 , 82136995 x+10 , 76486973
13 , 9656722

sx 0 , 7668584835×13 , 96656722
x− x̄=r ( y− ȳ ) ⇒ x−70 , 9= ( y−69 )
sy 14 , 92481156

x = 0,719y +21,275759

x = 0,719y +21,276

h. On démontre que :

S y . x =s y √1−r 2 → S y . x=14 ,93481156 √1−( 0 , 768584735 )2 =9 , 548116572=9 ,548

S y . x =s y √1−r 2 → S y . x=13 , 9656722 √1−( 0 , 768584735 )2 =8 , 934509198=8 , 9345

L’écart type lié ou erreur quadratique moyenne d’un estimateur est une
mesure de la dispersion autour de la droite de régression. Il a les mêmes
propriétés que l’écart type.
111
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
112
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

CHAPITRE V : SERIES CHRONOLOGIQUES


1. DEFINITION
Par série chronologique, il faut entendre une suite d’observations
ordonnées dans le temps, habituellement à intervalles égaux. On parle
également de séries temporelles ou de chroniques. Une suite temporelle
est définie par les valeurs Y 1,Y2….Yn d’une variable Y prises au cours du
temps : Y est fonction du temps (t).

Y = f(t) avec t = t1, t2… tn

On peut citer à titre d’exemple de chronique :

 Le poids des bébés à intervalles de temps réguliers ou égaux


 La production d’une usine sur plusieurs années
 Le cours moyen des devises par rapport au FC sur plusieurs mois
 La vente mensuelle d’une entreprise commerciale au cours de
plusieurs années.

L’étude des séries chronologiques a été particulièrement


entreprise par les économistes dans le souci d’analyser la situation passée
et présente en vue de formuler des prévisions des programmes, des plans,
des politiques pour l’avenir.

En effet, toute prévision suppose la connaissance du passé en vue de


guider l’action future. La connaissance du passé est fournie par les séries
chronologiques. L’analyse des séries chronologiques consiste
généralement à en déterminer les composantes mais la première étape
consiste en une représentation graphique.

2. REPRESENTATION GRAPHIQUE

Pour analyser une série chronologique, il faut d’abord la


représenter graphiquement dans un repère cartésien avec en abscisses le
temps et en ordonnées la variable observée (on relie les différents points
de coordonnées d’une période à une autre).
113
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

EXEMPLE

Soient les quantités de production en tonnes d’une région de 1988


reprises dans ce tableau. On l’appelle généralement un tableau double
entrée.

Année 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

Production 50 36,5 43 44,5 38,9 38,1 32,6 38,7 41,7 41,1 33,8
(en tonnes)

Graphique

60

50

40 f(x) = − 0.767272727272727 x + 44.5036363636364


Production en tonnes

R² = 0.264102031736616
30

20

10

0
Temps en années
6 7 8 9 0 1 2 3 4 5 6
2 00 2 00 2 00 2 00 2 01 2 01 2 01 2 01 2 01 2 01 2 01
e e e e e e e e e e e
né né né né né né né né né né né
An An An An An An An An An An An

3. COMPOSANTES D’UNE CHRONIQUE


Analyser une chronique c’est identifier les facteurs qui
influencent les valeurs prises par la variable observée à travers le temps.
Les variations peuvent être dues à une combinaison de forces physiques,
économiques, sociologiques, politiques, physiologiques… Les séries
temporelles révèlent un certain nombre de mouvement, une variation
caractéristique qui se manifeste à des degrés divers. Généralement, on
distingue 4 catégories principales de mouvement temporel qu’on appelle
composantes de la série chronologique.
114
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1°. La tendance ou trend

Ce mouvement traduit une orientation persistante du


phénomène au fil du temps. C’est la tendance du phénomène.
Généralement on trace une droite de tendance en pointillés traduisant
l’allure du phénomène : la hausse (tendance croissante) la baisse (trend
décroissant), la stagnation (trend constat).

2°. Le mouvement cyclique

Le mouvement cyclique caractérise des oscillations qui se


superposent à la tendance sur une grande période. Ces oscillations
appelées cycles peuvent être ou non périodiques c’est-à-dire qu’elles
peuvent suivre ou non des modèles identiques après des intervalles de
temps égaux. Dans les affaires des activités économiques, les
mouvements ne sont considérés comme cycliques que s’ils se
reproduisent après des intervalles de temps supérieurs à une année. Le
cycle des affaires peut passer par des intervalles de relance, de prospérité
de boom économique, de régression ou de dépression. Le mouvement
peut prendre cette forme autour de la tendance.

3°. Le mouvement saisonnier

Les variations saisonnières correspondent aux modèles


identiques ou presque identiques qu’une série chronologique semble
suivre en des intervalles des temps égaux ou aux mêmes périodes de
temps au cours de l’année. Ces variations sont dues aux évènements qui
se répètent annuellement. Il peut s’agir du rythme effectif des saisons. La
production agricole en est fortement influencée. Les périodes de semis et
de récolte répondant à des périodes culturales précises. Les facteurs
humains peuvent introduire une certaine saisonnalité dans un phénomène.
Il peut s’agir des coutumes, des traditions, des habitudes, des effets
d’anticipation etc.

Exemple : - Les ventes des cadeaux à l’occasion des fêtes de fin d’année
particulièrement ;
115
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

- La vente des fournitures scolaires au courant de la période allant de la


clôture d’une année scolaire au début d’une autre.

N.B : L’analyse du mouvement saisonnier s’adapte mieux aux données


relatives à des périodes de temps réparties en tranches inférieures à
l’année, généralement les données mensuelles. Compte tenu des données
disponibles, la périodicité peut être mesurée en heures, en jours, en
semaines, etc.

4°. Les variations aléatoires

Ces variations sont dues à des évènements accidentels,


occasionnels exceptionnels, imprévisibles, qui ne peuvent être attribués ni
aux cycles, ni aux saisons mais à des aléas comme une grêle, une
inondation, un incendie, des intempéries, des troubles politiques, etc.
Dans le domaine agricole, les variations aléatoires peuvent être dues à
des perturbations atmosphériques, écologiques (sécheresse, grêle,
criquets,…)

4. ANALYSE DES CHRONIQUES


A. But :

De manière générale, l’analyse des séries chronologiques facilite


l’élaboration des prévisions. Elle peut conduire également à la réduction
des fluctuations indésirables. En plus elle stimule l’analyse économique.
Ainsi si un domaine des affaires présente une tendance croissante, les
agents économiques peuvent être stimulés à investir dans ce domaine.

B. Objet :

L’analyse des séries chronologiques a pour objet de dissocier les


principales composantes du mouvement économique, observer leurs
variations spécifiques et mesurer leur influence propre.Soit y la variable
statistique dont on observe les mouvements. Analyser la série de y
consiste à relever les composantes de ses mouvements c’est-à-dire T la
tendance, S la composante saisonnière, C la composante cyclique, A la
composante aléatoire.
116
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

C. Formulation du modèle

L’analyse de la série Yt se fait par des modèles de décomposition


des composantes. On retrouve notamment le modèle additif et le modèle
multiplicatif.

Modèle additif : Yt = Tt + St + Ct +At

Modèle multiplicative: Yt = Tt x St x Ct x At

Pour choisir un modèle, il existe plusieurs méthodes. Retenons celle qui


consiste à comparer pour chaque année l’écart max entre les observations
et leur moyenne annuelle. Si une relation de proportionnalité existe entre
ces quantités, alors le modèle multiplicatif sera adopté. Si par contre
l’écart max tend vers une certaine constante, quelles que soient les
moyennes annuelles, on adoptera le modèle additif.

D. Analyse des composantes

1. Le trend

La tendance constitue le mouvement de base de la chronique.


Elle schématise l’évolution du mouvement d’un phénomène économique
ou social ou simplement scientifique au fil du temps. Il existe différentes
méthodes d’estimation de la tendance.

a. La méthode graphique :

Elle consiste à ajuster une courbe ou une droite de tendance en


se référant simplement au graphe des observations.

T
117
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

b. La méthode de moyenne mobile : Etant donnée l’ensemble


des nombres Y1, Y2,… Yn, on définit une moyenne mobile d’ordre k que
l’on obtient par la suite de moyennes arithmétiques.

y 1 + y 2 +. . .+ y k y 2 + y 3 +. ..+ y k +1 y 3 + y 4 +.. .+ y k +2
, , , .. .
k k k
Un certain nombre d’observations est remplacé par une moyenne mobile.
En reliant ces moyennes on obtient la tendance.
1 2 3 4 5 6 7 8
10 12 9 11 12 8 6 13
On peut décider de déterminer des moyennes mobiles d’ordre 4.

10+12+9+11 12+9+11+12 9+11+12+8


=10 , 5 ; =11; =10 ;.. .
4 4 4

Le choix de l’ordre de la moyenne doit être judicieux pour que l’estimation


de la tendance fasse ressortir l’allure la mieux approximative du
mouvement du phénomène.

c. La méthode analytique

Elle détermine le choix de la fonction qui représente l’évolution

du phénomène. On peut retrouver une tendance linéaire T = a+bt. Une

T =ab t ; une tendance parabolique

tendance exponentielle

T = a +bt + ct² ; une tendance polynomiale de degré etc.

On peut revenir à la tendance linéaire en transformant les autres


tendances par linéarisation. La linéarisation est effectuée par
transformation logarithmique. Pour plusieurs phénomènes économiques,
la tendance semble souvent linéaire et la droite de tendance est obtenue
118
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

par la méthode de moindre carrés qui en détermine l’équation. L’équation


de droite de tendance est alors donnée par

Y =a+bt avec b=
∑ t i y i−n ī ȳ et a= ȳ−b ī
∑ t 2i −n ( ī )2
t = temps
n
1
t̄ = ∑ t i
n i=1

n
1
ȳ= ∑Y
n i=1 i

Il convient de numéroter les périodes de temps de 1 à n pour obtenir les


valeurs Ti (rang de période de temps).

EXEMPLE

Soit la production de café d’une contrée en tonnes de 2007 à 2016.


Déterminez et tracez la droite de tendance par la méthode des moindres
carrés.

T Année 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

Y Production en tonnes 50 36,5 43 44,5 38,9 38,1 32,6 38,7 41,7 41,1

Graphique

60

50
Production en tonne

40 f(x) = − 0.616363636363636 x + 43.9


R² = 0.15343537643544
30

20

10

0
7 8 9 0 1 2 3 4 5 6 Temps en années
2 00 2 00 2 00 2 01 2 01 2 01 2 01 2 01 2 01 2 01
e e e e e e e e e e
né né né né né né né né né né
An An An An An An An An An An
119
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
120
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Tableau intermédiaire des calculs


Rang i Ti année Yi t 2i y 2i tiyi '
y ii
Productio
n
1 2007 1 50 1 2500 50 43,18
2 2008 2 36,5 4 1332,25 73 42,6
3 2009 3 43 9 1849 129 42,02
4 2010 4 44,5 16 1980,25 178 43,44
5 2011 5 38,9 25 1513,21 194,5 40,86
6 2012 6 38,1 36 1451,61 228,6 40,28
7 2013 7 32,6 49 1062,76 228,2 39,7
8 2014 8 38,7 64 1497,69 309,6 39,12
9 2015 9 41,7 81 1738,89 375,3 38,54
10 2016 10 41,7 100 1738,89 417 37,96
∑ 55 405,7 385 16664,5
5
2183,2 405,7

n = 10 ī=5 ,5 y =a+bt ȳ=40 ,57


n
∑ t i y i−n ī ȳ
2183 ,2−10×5 , 5×40 ,57 2183 , 2−2231, 35 −48 , 15
b=i=1
n
= 2
= = =−0 , 583636363=−0 ,5836
385−10 . (5 , 5 ) 385−302 ,5 82 ,5
∑ t 2i −n ( ī )2
i=1

a= ^y −bt̄ =40 ,57+0 ,5836∗5 , 5=43 ,78

Y^ =a+bt ⇒ Y^ =43 ,78−0 , 57836


Le coefficient angulaire b étant négatif, la droite de tendance est
décroissante. Cela signifie que les productions de café en cette contrée
de 2007 à 2016 ont tendance à baisser avec le temps.

2. Les variations saisonnières

Pour détecter la composante saisonnière, il faut d’abord


superposer sur un même graphique les courbes des observations
périodiques de chaque année. Avec l’équation de tendance, on obtient les
données estimées. On détermine les coefficients saisonniers en faisant le
Yi

rapport entre les données observées et les données estimées Y^ i


. Ensuite

on dégage la moyenne mensuelle des indices saisonniers.


121
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Si la somme des pourcentages moyenne ne donne pas 1200, il faut les


ajuster.

Après ajustement, on obtient les coefficients saisonniers qui mesurent


selon les mois la variabilité du phénomène observé. La prévision doit alors
tenir compte des coefficients saisonniers.

Exemple : soient les données suivantes reprenant les quantités produites


de thé sec en tonnes par une usine théicole pour 3 ans répartis
mensuellement.
Mois J F M Av M J J A S O N D
Année
2014 12 13 9 6 10 11 19 20 14 32 26 18
2015 10 15 12 5 12 13 15 18 13 28 24 22
2016 6 9 10 4 13 12 12 14 11 16 8 10

35

30

25

20 Année 2014
Année1990
Année 2015
Année1991
15 Année1992
Année 2016

10

0
1 2 3 4 5 6 7 8 9 10 11 12

De l’observation des graphiques, il ressort que l’effet saison est

au fil de
notable. Les productions de thé sec sont influencées par les mois
ces trois années. Les productions les plus élevées sont réalisées au mois
d’octobre, les moins élevées en Avril les productions moyennes en Février,
Mai, Août, l’équation d’estimation de production est donnée par
^y =15, 42−0,08t .
122
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Le coefficient angulaire étant négatif la tendance est décroissante. Pour

trouver le coefficient saisonnier, déterminons d’abord les données

estimées avec t qui varie de 1 à 36.


123
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Mois J F M Av M J J A S O N D
Anné
e
2014 15,3 15,2 15,1 15,1 15,0 14,9 14,8 14,7 14,7 14,6 14,5 14,4
4 6 8 2 4 6 8 2 4 6
2015 14,3 14,3 14,2 14,1 14,0 13,9 13,9 13,8 13,7 13,6 13,5 13,5
8 2 4 6 8 2 4 6 8
2016 13,4 13,3 13,2 13,1 13,1 13,0 12,9 12,8 12,7 12,7 12,6 12,5
2 4 6 8 2 4 6 8 2 4

Divisons les données observées par les données estimées (en %) pour

avoir les coefficients saisonniers mensuels.


Mois J F M Av M J J A S O N D
Année
2014 78, 85, 59, 39, 66, 73, 128 135 95, 219 179 124,
23 19 29 74 58 63 24 5
2015 69, 104 84, 35, 85, 92, 107, 130, 946 204, 176, 162,
54 ,9 39 36 35 99 91 25 1 98 73 96
2016 44, 67, 75, 30, 99, 92, 92,7 108, 86, 125, 63,3 79,7
7 47 41 35 24 17 4 86 07 98 9 4
Moyenn 64, 85, 73, 35, 83, 86, 109, 124, 91, 183, 139, 122,
es 16 85 03 15 72 26 55 7 97 32 71 4
mensuel
les

La somme des coefficients saisonniers donne 1199,82 = 1200

Nous n’allons donc pas ajuster les coefficients saisonniers. La norme des

moyennes mensuelles étant 100 %, les coefficients saisonniers mesurent

l’influence de la saison sur les productions. Ainsi par exemple la baisse de

production de thé sec en avril est de 64,85 % expliquée par l’effet de la

saison. En octobre, la hausse de production est expliquée à 83,32 % par

l’effet de la saison. La saison influence donc les productions.

3. Variations cycliques
124
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Il faut d’abord désaisonnaliser les données. Une des méthodes de


desaisonalisation consiste à diviser les données observées par les
coefficients saisonniers mensuels correspondants. On obtient une nouvelle
série sans influence de la saison sur les données. Avec la suppression de
l’effet saison, il ne reste plus que les variations cycliques et irrégulières
autour de la tendance. Il faut remarquer que l’effet cyclique n’est
observable qu’à très longue période.

Si les données sont mensuelles, il est judicieux de choisir des


moyennes cycliques sur quelques mois. S’il y a une certaine périodicité au
sein de ces moyennes cycliques : on peut conclure à l’existence des
cycles.
125
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

4. Variations aléatoires

On peut estimer les variations irrégulières ou aléatoires en


ajustant les données suivant les variations saisonnières ou les cycles. Les
données initiales sont alors comparées à la tendance ou aux coefficients
saisonniers ou encore aux coefficients cycliques.

E.LA PRÉVISION
Un des buts de l’analyse chronologique est de prédire l’évolution
d’une observation à travers les données analysées. Celles-ci ont permis de
déceler les mouvements propres à la série ; mouvements qui
interviendront encore dans la réalisation future de la série. Dès lors la
phase de prédiction se base essentiellement à des résultats obtenus de la
phase de l’analyse, résultat intégré dans le modèle supposé de la série
(additif, multiplicatif ou mixte).

Cependant, il faut prendre garde que le traitement


mathématique des données ne résout pas en lui-même tous les
problèmes. Cette analyse mathématique est néanmoins appréciable pour
la prévision à long terme ou à court terme, si le chercheur, soit
économiste, soit sociologue, y associe du bon jugement qui est
l’ingéniosité et le bon sens.

F. SÉRIES CHRONOLOGIQUES BIDIMENSIONNELLES


On peut étudier l’évolution temporelle de deux chroniques Y t et
Zt dans le but de comparer leur évolution et d’apprécier la liaison
éventuelle qui peut exister entre les deux séries. Il faut d’abord les
représenter sur un même graphique pour observer s’il aura des
comportements similaires, parallèles ou opposés. Pour observer le degré
de liaison simultanée entre les variations de deux séries (deux variables),
on calcule le coefficient de covariation.

n
1
∑ ( Y −Ȳ
n i=1 t
)( Z t − Z̄ )
r= −1≤ r≤1

√[∑ ( ][ ∑ ( ]
n n
1
Y t −Ȳ ) 2 Z t − Z̄ )2
n t =1 t =t
126
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Graphiquement, on aura souvent avantage à réduire (ou


normaliser) les deux séries surtout si elles ne se situent pas au même
niveau ou si leurs dispersions propres sont très différentes. Cela peut être
le cas par exemple si les unités de mesure de variable sont très
différentes.

On calcule d’abord les moyennes et les variances de deux grandes séries

T T T
1 1 1
ȳ=
T
∑ yi z̄ =
T
∑ zi S2Y =
T
∑ ( y i − ȳ )2
i =1 i =1 i=1

T
1
S2Z=
T
∑ ( Z t − Z̄ )
2
T =n
i =1

De même, on représente sur graphique ces séries normales :

Yt ou Zt

Yt

Zt

L’analyse de ce graphique peut faire apparaître dans le temps des


fluctuation similaires ou partielles ou éventuellement de comportements
similaires avec un certain décalage dans le temps.

1°. Coefficient de covariation

On a vu dans le chapitre des séries à 2 dimensions comment


mesurer, grâce au coefficient de covariation, le degré de variation qui
existe entre les 2 variables. Le coefficient est introduit dans le contexte de
chroniques bidimensionnelles pour apprécier le degré de liaison
simultanée ou encore le degré avec retard entre les deux variables. Ce
coefficient s’appelle coefficient de covariation.
127
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
T
1
T
∑ ( Y t −Ȳ ) ( Z t − Z̄ )
i=1
r=

√[ ( )]
T T
1
T ∑ ( Y t −Ȳ ) ∑ ( Z t −Z̄ ) 2
2

t =1 t =1

Si on dispose des séries réduites on a :

Yt −Ȳ Zt − Z̄
yt= zt=
σy σz
T
1
r = ∑ yt . zt
T i=1

Si les fluctuations des deux séries sont similaires mais qu’il existe entre les
deux séries un décalage constant le temps (T P = période), on mesurera la
corrélation entre les deux séries décalées.

Le coefficient de corrélation de r

T −t
∑ ( Z t − Z̄ t )( Y t +1− Ȳ τ )
i =1
r τ=

√ ( )
T −τ T −t 2

∑ ( Z t − Z̄ T ) ∑ ( Y 1+T −Ȳ )
2

i=1 1+1

Il y aura souvent avantage de calculer  pour différentes valeurs


de (qui va de 1,5,…) et de faire apparaître ainsi pour les valeurs absolues
de r c’est-à-dire rà ceux des grandes liaisons éventuelles avec retard de
deux séries.

AUTOCORRELATION ET CORRELOGRAMME
Les idées du paragraphe précédent peuvent être adaptées afin
de faire apparaître des autocorrélations éventuelles qui peuvent exister au
sein d’une série chronologique (ou chronique).

Il s’agit donc de voir si au sein même de la série il n’existe pas


des liaisons internes c’est-à-dire si la valeur de Y à l’époque t n’est pas
liée systématiquement à la valeur de Y à l’époque t + . Pour ce faire, on
128
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

calculera le coefficient de corrélation de la série Y t et de la série Yt+T c’est-


à-dire le coefficient de corrélation de la série Y t et de la série Yt+, c’est-à-
dire le coefficient d’autocorrélation avec retard de deux séries.

T −τ
∑ ( Y t −Ȳ )( Y 1+t −Ȳ )
r τ = i=1 T −τ
∑ ( Y t −Ȳ )2
i =1

La moyenne Ȳ est généralement calculée sur la série complète r pour


(0,2…n) donne le corrélogramme de la série Y. On peut ainsi faire
apparaître pour certaines valeurs  des liaisons entre les séries décalées
r, =0,r(0)=1. Les corrélogrammes sont particulièrement utiles

Les corrélogrammes sont particulièrement utiles pour détecter les


fréquences éventuelles des cycles économiques de longue période dans
une chronique.

NB : Sommaire des démarches à suivre dans l’analyse des chroniques.

- Rassembler les données relatives aux séries temporelles en


s’assurant qu’elles sont fiables (données ordonnées dans le
temps). En rassemblant les données il faut toujours garder en
esprit le but final de la série temporelle. Si l’on souhaite par
exemple prévoir une certaine chronique, il peut être utile
d’obtenir une série temporelle associée et de l’information
supplémentaire. Si cela est nécessaire, ajuster les données aux
années bissextiles.
- Représenter graphiquement sur papier millimétré la série
temporelle en notant qualitativement la présence d’une tendance
à long terme des variations cycliques et des variations
saisonnières.
- Construire la courbe de tendance à long terme et rechercher les
valeurs appropriées à la tendance (moindre carré, moyenne
mobile, méthode graphique, méthode de série moyenne).
129
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

- Si l’on trouve qu’il y a des variations saisonnières, rechercher


l’indice saisonnier et ajuster les données suivant les variations
saisonnières ;
- Ajuster les données de saisonnalité (suivant la tendance). Ces
nouvelles données ne comportant (en théorie) que des variations
cycliques et irrégulières. Une moyenne mobile sur 3,5,7, mois
permet de supprimer les variations irrégulières et faire ressortir
les variations cycliques.
- Représenter graphiquement les variations cycliques obtenues au
point précédent en notant toutes les périodicités approchées qui
pourraient apparaître.
- Combiner les résultats précédents et utiliser toute autre
information disponible et notamment prévoir et si possible
discuter les sources d’erreurs possibles.
130
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

IIIème PARTIE : CALCUL DES PROBABILITES ET LOIS


DES PROBABILITES

CHAPITRE VI : ANALYSE COMBINATOIRE OU


COMBINATORIQUE
L’analyse combinatoire comprend un ensemble de méthodes qui
permettent de déterminer le nombre de tous les résultats possibles d’une
expérience particulière. La connaissance de ces méthodes de
dénombrement est indispensable au calcul des probabilités qui constitue
le fondement de la statistique.

Principe général

Si une expérience complexe résulte de la réalisation dans un


certain ordre d’une première expérience simple pouvant conduite à n 1
résultats différents, suivie d’une deuxième expérience simple pouvant
conduite à n2 résultats différents, puis d’une troisième expérience et ainsi
de suite, le nombre de résultats distincts possibles de l’expérience globale
est égale à : n = n1 x n2 x n3 x…(VI.1.)

Un moyen pratique pour illustrer cette formule et dénombrer les


résultats possibles d’une suite d’expériences consiste à utiliser un
diagramme en arbre.

Exemple

On réalise dans l’ordre, les 3 expériences suivantes :

 On lance un dé (résultats possibles : nombre pair, nombre impair)


 On tire au hasard une couleur d’un jeu de cartes (résultats
possibles : trèfle, carreau, cœur, pique)
 On lance une pièce (résultats possibles, pile, face)
Dénombrons tous les résultats distincts de l’expérience globale
131
STATISTIQUE et PROBABILITE P KAMATE MULUME FRANCOIS
Pair f
T C P
f
C
P
P f
P
f

P
Impair f
T C P
f
C
P
P f
P
f

Ce diagramme montre que n1, n3 = 2, n2 = 4 et par conséquent n = 2 x 4 x


2 = 16

Autre exemple :

Un système d’immatriculation comprend 4 chiffres dont le premier est


différent de 0, suivis de 2 lettres distinctes et différentes de I et 0.
Déterminer le nombre de plaques d’immatriculation possibles.

En assignant une case à chaque chiffre ou lettre, on voit qu’n peut


attribuer 9 chiffres différents à la 1 ère case. 10 aux 3 cases suivantes, 24
lettres différentes à la 5ème case et 23 seulement à la dernière case,
puisque les deux lettres doivent être distinctes. Le nombre de plaques
différentes est donc : n = 9 x 10 x 10 x 10 x 24 x 23 = 4968000

A. Arrangement

I. Définition
On appelle arrangement de n éléments p à p (p  n), tout
ensemble ordonné ordonné de p de ces éléments, tous distincts. Un
arrangement est donc caractérisé par la nature des éléments ou par leur
ordre.

Exemple :
132
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Ensemble de 4 lettres a, b, c, d.

Les groupements abc, abd, bac,… constituent des arrangements de ces 4


lettres 3 à 3, les groupements ab, ad, ba,… constituent des arrangements
de ces 4 lettres 2 à 2.

 Calcul de
AnP

On désigne
AnP le nombre total d’arrangement distincts de n éléments p à
p Tout arrangement de p objets peut être construit de la manière
suivante : on considère p cases, numérotées de 1 à p (p  n).

1 2 3 …….. p-2 p-1 P

Dans la première case, on place un objet, ce qui donne n choix possibles.

Dans la deuxième case, on place un autre objet choisi parmi les (n-1)
objets restants, cela donne (n-1) choix possibles. De la même manière, on
obtient (n-2) choix possibles pour la 3 ème case, et ainsi de suite, jusqu’à la
pième case pour laquelle il ne reste plus que (n-p+1) choix possibles.

En appliquant le principe général (VI.1), on a :

AnP = n(n-1) (n-2)… (n-p +2) (n-p+1) (VI.2)

Exemple

P 3
Nombre de tiercés dans l’ordre dans une course de 10 chevaux
A n A
= 10
10.9.8 = 720

Notation factorielle

n! = 1.2.3….. (n-2) (n-1)n (VI.3)

En particulier 1 ! = 1 2!=2 3!=6 4 ! = 24, etc.

En appliquant cette notation factorielle à l’expression (VI.2)

n ( n−1 )( n−2 ) . . .. ( n− p+ 1 )×( n−p ) ! n!


P AnP = =
De
A n on trouve ( n− p ) ! ( n− p ) ! (VI.4)
133
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

10 !
A310= =10 . 9 .8=720
7!

Exemple

Si n = p, la formule (VI.4) ne peut s’appliquer, car on n’a pas défini 0 !

AnP =n !

Cependant, si n = p, il est clair que …

D’après le principe général de l’analyse combinatoire. On pose donc


comme axiome de définition 0 ! = 1 afin que la relation (VI.4) reste valable
dans le cas où n = p.

II. Arrangement avec répétition


Un arrangement de n objets p à p avec répétition est un
arrangement où chaque objet peut être répété jusqu’à p fois. Le
raisonnement précédent montre que pour chaque case, on dispose alors
de n choix possibles. Le nombre total de tels arrangements est donc

α Pn =n p . . . ( VI . 5 )

Exemples :

2 2
α =3
1. Arrangements d’ordre 2 des 3 lettres a, b, c,… 3
=9

2. Arrangements d’ordre 3 des 2 lettres a,b….


α 32 =23 =8

B. Permutations

I. Définition
Une permutation de n objets est un ensemble ordonné de ces n
objets. Les permutations de n objets constituent un cas particulier des
134
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

arrangements : c’est le cas où n = p. Deux permutations distinctes ne


diffèrent donc que par l’ordre des objets.

Exemple :

Les permutations possibles de 3 lettres a, b, c, sont abc, bca, cab, acb, bac
cba.

Calcul de Pn. Le nombre total de permutations P n se déduit de l’expression

du nombre total d’arrangement


AnP ,en faisant p = n et en utilisant la
convention 0 ! = 1, soit Pn.

Pn = Ann =n ! ( VI . 6 )

L’exemple précédent des 3 lettres a, b, c donne


P3 = A33 =3 !=6

Autre exemple

Le nombre des configurations possibles à l’arrivée d’une course de 8


chevaux

P8 =8 !=40320
II. Permutations avec répétition
Il arrive que, parmi les n objets dont on cherche le nombre de
permutations, certains d’entre eux, au nombre de r par exemple, soient
tous semblables. Auquel cas rien ne distingue les permutations de ces r
objets entre eux. Pour calculer le nombre de permutations possibles, il faut
donc diviser le nombre de permutation des n objets sans répétition, par le
nombre de permutations des r objets entre eux, soit P n (avec répétition r)
Pn n !
=. . . =
Pr r !
 Géralisation à plusieurs répétitions
On considère n objets, parmi lesquels r1 sont semblables entre eux, r 2 sont
semblables entre eux…rk sont semblables entre eux, avec r 1 +r2+ …rk = n.
On appelle permutation de n objets avec répétitions (r 1, r2,…rk) toute
partition de ces n objets en k parties telles que la i ème partie ait ri éléments
135
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

(1 = i  k). Le nombre de ces permutations des n objets avec répétitions


(r1, r2,…,rk) est :
n!
Pn ( r 1 , r 2 .. . .. .. . .. r k )= (VI .7 )
r !1 r !2 . . .. .. . .. .r !k !
Exemple
Nombre de permutations possibles avec les lettres du mot ETIENNE
7!
Pn ( r E=3 , r N =2 )= =420
Solution : 3 !2 !
III. Permutation circulaire
Le rangement de 4 objets sur une rangée fournit 4 ! = 24
permutations différentes, mais celui de 4 objets sur un cercle fournit
seulement 3 ! = 6 permutations différentes.
Généralisation : n objets peuvent être disposés sur un cercle de (n-1) !
façons différentes, soit le nombre de permutations Pn divisé par le nombre
de manière différentes n de choisir la première place
C. COMBINAISON
I. Définition
On appelle combinaison de p éléments pris parmi n (n  p), tout
ensemble que l’on peut former en choisissant p de ces éléments, sans
considération d’ordre. Deux combinaisons distinctes différent donc par la
nature d’au moins un élément.
Exemple :
Les combinaisons possibles des 4 lettres a,b,c,d,3 à 3 sont : abc, abd, bcd,

acd. Calcul de
C np

On désigne par …
C np … le nombre total de combinaisons de n objet p à p.
En remarquant que le nombre d’arrangements de n objets p à p n’est
autre que le produit du nombre de combinaisons des n objets p à p, par le
nombre de permutations des P éléments de chaque combinaison, soit

Anp =C np × p ! ( VI . 8 )
A np n ( n−1 )( n−2 ) .. . ( n− p+1 ) n!
C np = = = (VI .9 )
On en déduit p! p! ( n− p ) ! p !
136
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Remarques
1. On note aussi

p
Cn =¿ ( n ¿ ) ¿ ¿ ¿
¿
2. En utilisant l’expression (VI.9), on peut démontrer les relations
suivantes

C np =C n−
n
p
→C np =C Pn−1 +Cn−1
p−1
( VI . 10 )
Exemples
1. Nombre de tiercés dans le désordre dans une course de 10 chevaux :
10 .9 . 8
C 310= =120
1. 2 .3
2. Nombre de mains différentes de 8 cartes dans un jeu de 32 cartes
32. 31. 30 . 29. 28 . 27. 26 . 25
C 832= =10518300
1. 2 .3 . 4 . 5 .6 . 7 . 8
II. Permutations avec répétitions et combinaisons
Une permutation de n objets avec répétition r 1=p et r2=n-p (où
pn) est une partition de ces n objets en deux ensembles, l’un de p
éléments, l’autre de n-p éléments ; se donner une telle permutation
revient donc au même que se donner une partie de ces éléments parmi n,
c’est-àdire une combinaison de n éléments pris p à p, on a donc

C np =Pn ( p . n− p ) ( VI .11 )
Remarques

Comme Pn(p,n-p) = Pn(n-P,P) par définition, on en définit que


C np =C n−
n
p

Une permutation de n objets à répétition (r 1, r2,… rk) s’appelle aussi une

C np=¿ ( n¿) ¿ ¿¿
combinaison généralisée. De même que l’on a …… ¿

( )
n
Pn ( r 1 r 2 ...r k ) =r 1 ,r 2 ...,r k
On note
III. Binôme de Newton
137
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Le binôme de Newton est le produit de n facteurs égaux à (a+b),


soit (a+b)n. Le développement de ce binôme est (a+b) n =
n
∑ C np an− p b p ( VI .12 )
p=0

La relation (VI.10)
C np =C Pn−1 +C n−1
p−1
permet une détermination

pratique de proche en proche des différents coefficients


C np au moyen du
triangle de Pascal (fig VI.1).
138
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Colonne 0
1 Ligne 0
1 1 Colnne
p
1 2 1
1 3 3 1
1 4 6 4 1
1 5 10 10 5 1

Ligne n

p−1 p
C n−1 C n−1

C np
Cette disposition symétrique du triangle de Pascal permet non seulement
de calculer les coefficients du binôme, mais aussi de démontrer
concrètement par récurrence des formules relatives à ces coefficients.
Ces rappels trouveront leur utilisation ultérieurement, à l’occasion de la loi
de probabilité dite loi binomiale.
IV. Combinaison avec répétition
Supposons que l’on étudie la répartition de n objets en fonction
de r critères, et que l’on cherche le nombre de telles répartitions possibles.
Une telle répartition est appelée combinaison avec répétition d’ordre r. Le
[ n ¿] ¿ ¿ ¿
nombre de ces combinaisons avec répétitions est ¿
En effet soit s1, x2,…xn les objets. Une répartition de ces objets suivant les
critères peut être représentée ainsi :
x1x2x3/x4/x5x6/x7/…./xn1xn/
Le nombre de combinaisons avec répétition est don égal au nombre de
manières de séparer les xi par r frontières. C’est donc le nombre des
manières de choisir r objets parmi n+r-1 sans tenir compte de l’ordre.
Exemple :
Lors d’un sondage dans une université, on pose à une centaine d’étudiants
une question comportant 3 réponses possibles. Quel est le nombre de
configurations différentes qu’on peut obtenir ?
139
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Chaque configuration représente une combinaison de 100 réponses avec


répétitions d’ordre 3. Le nombre de ces combinaisons est donc, d’après
(VI.13).

[ n ¿] ¿ ¿ ¿
¿
TRAVAUX PRATIQUES
1. De combien de manières peut-on placer trois dossiers différents
dans 15 casiers vides en raison d’un dossier par casier ?
Solution
D’après le principe général, il y a 15 façons de placer le premier
dossier. Celui-ci étant placé,, il ne reste plus que 14 casiers vides, il
y a 14 façons de placer le deuxième dossier et enfin, 13 façons de
placer le troisième.

D’où N =
A315=15×14×13=2730 manières différentes.
2. On considère un jeu forain où 4 souris numérotées de 1 à 4 se
dirigent vers cinq cases, A,B,C,D,E. Plusieurs souris pouvant choisir
la même case. Sur chaque billet, le joueur inscrit une répartition des
souris dans les cases et il gagne lorsque son pronostic se réalise.
Combien de billets de joueur doit acheter pour être assuré de
gagner ?
Solution
Il s’agit d’un arrangement avec répétition de 5 objets pris 4 à 4. Il y
a 5 possibilités qui s’offrent à la souris n°1 ; de même pour les 3

autres. Au total il y a
α 45 =5 4 =625 séquences possibles. Le joueur
doit donc acheter 625 billets.
3. A propos d’une course de chevaux, les rumeurs publiques accordent
à 4 chevaux particuliers une chance égale de gagner. Quel est le
nombre de quartés différents que l’on peut établir à partir de ces 4
chevaux ?
Solution
Le nombre de quartés distincts possibles est le nombre de
permutations des 4 chevaux favoris : P4 = 4 x 3 x 2 x 1 = 4 ! = 24
140
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

4. Afin de tester son sens chromatique, on présente à une personne


une série de 5 plaques dont 2 d’une certaine couleur et 3 d’une
couleur voisine. Combien de séries différentes peut-on lui
présenter ?
Solution
Il s’agit de déterminer le nombre de permutations des 5 plaques
avec répétition des 2 plaques de la même couleur et des plaques de
5!
P5 ( r 1=2 , r 2 =3 ) = =10 séries
la couleur voisine, soit 2 !3 !
5. Pour réaliser un débat, on réunit trois personnes que l’on installe
autour d’une table ronde. De combien de façons différentes pourra-
t-on les placer les unes par rapport aux autres ?
Solution
Permutation circulaire de n : (n-1) ! = (3-1) != 2 ! = 2 cas distincts.
6. Une entreprise veut engager 4 ingénieurs dans 4 spécialités
différentes. 6 ingénieurs se présentent. Combien de choix s’offrent
au responsable de l’embauche dans les trois cas suivants :
a. Les 6 ingénieurs sont polyvalents, pouvant occuper tous un des 4
postes ;
b. Un seul est polyvalent pour les 4 branches, les 5 autres le sont
seulement dans trois branches, les mêmes pour tous les 5 ;
c. Parmi les 6 ingénieurs se trouvent trois hommes et trois femmes
tous polyvalents. L’équipe recherchée doit comprendre 2 hommes et
2 femmes.
Solution
6!
n=C64 = =15 choix
1. 4 !2 !
2. Puisque celui qui est spécialisé dans les 4 branches doit être
obligatoirement pris dans le poste qu’il est le seul à pouvoir assurer,
5!
n=1×C 35 = =10 choix
on a 3 !2 !
141
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

3. Il y a
C 23 façons de former l’équipe masculine et C 23 façons de

former l’équipe féminine, donc au total :


n=C23 ×C 23 =9 choix

CHAPITRE VII :

CALCUL DES PROBABILITES


A. LOGIQUE DES EVENEMENTS
I. INTRODUCTION
La notion de probabilité est tout d’abord d’ordre psychologique.
Par exemple on parle de la probabilité d’obtenir une paire au poker. De
même, certains observateurs de la vie politique qualifient de probable
telle rencontre internationale « au sommet ».
Cependant, ces deux exemples diffèrent dans la mesure où dans le
premier cas il s’agit d’une expérience qui peut être répétée plusieurs fois
dans les mêmes conditions alors que dans le second, on ne peut parler
d’expérience : une réunion « au sommet » n’est pas régie par des règles
précises, sa probabilité s’appuie sur une appréciation subjective de la
situation politique.
Une théorie quantitative de la notion de probabilité ne doit considérer
nécessairement que des cas où il existe une « probabilité objective »,
c’est-à-dire qui ne dépend pas des convictions personnelles.

II. NOTIONS DE BASE


Evènement
On peut dire que tout ce qui peut se réaliser ou ne pas se
réaliser, à la suite d’une expérience spontanée ou provoquée parfaitement
définie, est un évènement.
Exemples
En jetant un dé :
- « Obtenir un six » est un évènement (que l’on peut désigner par
exemple par E).
142
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

- -« Ne pas obtenir de six » ou « obtenir un non-six » est

l’évènement contraire du précédent, noté Ē


- « Obtenir un nombre entier compris entre 1 et 6 » est un
évènement certain ;
- « Obtenir un sept » est un évènement impossible ;
On voit que la notion d’évènement est liée à la notion intuitive
d’expérience aléatoire.
Expérience aléatoire

Une expérience aléatoire ou une épreuve est un ensemble de conditions


précises caractérisant un processus à la suite duquel l’évènement est
réalisé ou non. On se limite aux cas où l’expérience peut être répétée
plusieurs fois, dans les mêmes conditions (cf VII BII).

Dans les exemples précédents, l’expérience aléatoire consiste


simplement à jeter le dé.
Evènement élémentaire
Il s’agit d’un évènement qui ne sera réalisé que par un seul
résultat de l’expérience aléatoire.
Exemple
- « Obtenir un six » en jetant un dé, est un évènement
élémentaire ;
- « Obtenir un nombre pair » en jetant un dé, n’est pas un
évènement élémentaire, car il peut être réalisé par plusieurs
résultats de l’expérience aléatoire qui sont :
- « Obtenir deux »
- « Obtenir quatre »
- Obtenir six »
Ensemble fondamental associé à une expérience aléatoire
L’ensemble fondamental (ou univers) associé à une expérience
aléatoire est l’ensemble des résultats de l’expérience considéré.
Exemples
Expérience aléatoire A : on jette un dé. Les résultats possibles de
A sont :
143
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Ri : « On obtient le chiffre i » pour i entier compris entre 1 et 6.


L’ensemble fondamental est donc S = r1, r2, r3, r4, r5, r6

A l’évènement élémentaire « on obtient le chiffre 1 » on peut associer le


singleton R1 = r1

L’évènement « On obtient un nombre pair » peut être représenté par le


sous ensemble.

Rpair = r2, r4, r6 qui est la réunion des évènements R2, R4 et R6.

L’évènement R7 « on obtient le chiffre 7 ne sera jamais réalisé (évènement


impossible). On pose donc R7 = 

De même, l’évènement « on obtient un chiffre compris entre 1 et 6 » sera


toujours réalisé (évènement certain) on pose R1  i  6 = S

Ainsi, tout évènement, élémentaire ou non, peut être considéré comme


partie (sous-ensemble) de l’ensemble fondamental S. Lorsque S est fini ou
dénombrable, l’ensemble des évènements est l’ensemble des parties de S,
soit P (S).

III. LOGIQUE DES EVENEMENTS


A une expérience aléatoire A on peut donc associer un ensemble
fondamental S. Un évènement peut être considéré comme une partie de
S.  est l’évènement qui n’est jamais réalisé ou évènement impossible. S
est l’évènement qui est toujours réalisé ou évènement certain. Soient A et
B deux évènements (A  S et B  S). On peut alors établir les
correspondances suivantes :

AUB : (union A et B) désigne un évènement qui est réalisé si au moins un


des évènements A et B est réalisé.

A  B (Intersection de A et B) désigne un évènement qui est réalisé si A et


B sont réalisés.
144
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

C SA : (complémentaire de A dans s) est l’évènement qui est réalisé si et

seulement si A n’est pas réalisé. On note aussi


C SA = Ā qui désigne

l’évènement contraire de A. On a en particulier φ̄=S et S̄=φ


A  B =  (A et B sont disjoints, leur intersection est l’ensemble vide). Il
s’agit de deux évènements qui ne peuvent se réaliser simultanément. On
dit qu’ils s’excluent mutuellement ou qu’ils sont incompatibles.
145
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Exemple

A A
B B

AB AB

Expérience aléatoire : tirer une carte d’un jeu de 32 cartes. L’ensemble


fondamental de tous les résultats possibles est constitué de 32 éléments.
On désigne par :

A : l’évènement « tirer un as » auquel on fait correspondre le sous


ensemble des as.

R : L’évènement « tirer un roi » auquel on fait correspondre le sous –


ensemble des rois.

C : l’évènement « tirer un cœur » auquel on fait correspondre le sous-


ensemble des couleurs « cœur ».

On peut alors faire les correspondances suivantes :

AC : évènement « tirer un as ou un cœur » (y compris l’as de cœur)

AC : « tirer l’as de cœur »

AR : « tirer une carte qui soit à la fois un as et un roi »

AR =  évènement impossible

C SA : « tirer une carte autre que as »


146
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

B. PROBABILITE
Deux démarches différentes peuvent conduire à la définition axiomatique
d’une probabilité.

I. Probabilité uniforme ou approche mathématique de la


probabilité
Considérons l’expérience aléatoire A : « on jette un dé ».
L’ensemble fondamental est S = r1, r2, r3, r4, r5, r6 les évènements
élémentaires sont

Ri = ri avec i  N,1 i  6. On désigne par p (Ri) la probabilité que Ri se


réalise. On peut écrire que P(S) = P(R 1) +P(R2) + P(R3) + P(R4) + P(R5) + P
(R6) = 1 puisque l’évènement S est certain. Si l’on suppose que le dé est
symétrique et homogène (on dit aussi parfait), chaque face a autant de
chances d’apparaître n’importe quelle autre face. Toutes les probabilités
élémentaires P(Ri) sont donc égales entre elles.

1
P ( Ri ) = p=
On en déduit 6. La probabilité est dite uniforme, les
évènements sont dits équiprobables ou équipossibles ou encore
équirépartis.

D’une manière générale, si on considère une expérience


aléatoire B et un ensemble fondamental S associé à B, si on définit une
probabilité uniforme sur S et si E est un évènement réunion de n

card E
p ( E )= ou p ( E ) = ≠E
évènements élémentaires distincts, on a card S ¿S
On exprime cette relation en disant que, dans le cas d’une
probabilité uniforme, la probabilité d’un évènement est égale au nombre
de cas favorables à la réalisation de cet évènement (card E) divisé par le
nombre de résultats possibles de l’expérience (card S).

II. Probabilité et fréquence ou approche statistique de la


probabilité
On a vu au paragraphe précédent comment construire une
probabilité lorsqu’il est raisonnable de penser que les évènements
147
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

élémentaires sont équiprobables. Considérons maintenant une expérience


aléatoire A quelconque. Soit A un évènement F n(A) et fn (A) ses fréquences
absolues et relative de réalisation lors d’une succession de n épreuves. On
Fn ( A)
f n ( A)=
a n

Il est clair que fn(A) dépend de la série des n épreuves : Deux séries
différentes peuvent conduire à des résultats différents ; il est cependant
raisonnable de penser que fn(A) tend vers une limite lorsque le nombre
d’épreuves n tend vers l’infini. On dit que la probabilité P(A) de
l’évènement A est cette limite.

Cette approche étend considérablement le champ des


expériences probabilisables, mais ne permet pas de parler de probabilité
dans le cas d’une épreuve qui ne peut être répétée, pas plus que dans les
situations où le probable est subjectif.
Cette limitation se justifie essentiellement par la théorie : la loi
des grands nombres établie par J. Bernouilli en 1689 est conforme avec
cette « hypothèse raisonnable ».
Cependant dans de nombreux domaines d’application des
probabilités (notamment en économie), ce choix « fréquentiste » est rop
limitatif (sur ce sujet, le lecteur pourra consulter l’article de BENJAMIN
Matalon. « Epistémologie des probabilités » dans le volume « logique et
connaissance scientifique » de l’encyclopédie de la Pléiade, Paris 1967).

III. Définition d’une probabilité


Nous allons maintenant donner une définition axiomatique d’une
probabilité (axiomatique de Kolmogoroff). Soit S un ensemble fondamental
fini ou dénombrable associé à une expérience aléatoire A. Une probabilité
p sur S est une application.

P : P ( S ) → [ 0 ;1 ] telle que :
148
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1 °) p ( s )=1 et p ( φ )=0
2 °) ∀ A ∈ P ( S ) , ∀ B ∈ P ( S ) tels que A∩B=φ
P ( A∪B ) =P ( A )+P ( B )
3 °) Si A0 , A1 . . . An. .. est une suite d'évènements incompatibles deux à deux

[ ]

(i. e . ∀ n , ∀ m , An∩ Am=φ ) alors : p U A n = ∑ P ( A n )
n=0 n=0

Cette propriété s’appelle la -additivité

Remarques :

Par récurrence, on déduit du second axiome que si A0, A1…An est une
suite finie d’évènements incompatibles deux à deux alors :

[ ]
n n
p U Ai =∑ P ( Ai)
n=1 n=1

Si S est fini, le troisième axiome est donc redondant.

Conséquences

1°.AP(S), BP(S)AB : P(A)  P(B)

(On dit qu’une probabilité est une application croissante sur P(S). En effet

ABB=(B Ā )A et on a : (B Ā )A = . D’après l’axiome 2) P(B) = P(A)

+ P(B Ā ) et comme P(B Ā )  0 on a bien P(A)  P(B)

2°. Condition de normalisation

A P(S), P(A) = 1-P( Ā ). En effet : S = A Ā et A Ā = . D’après

l’axiome 2) p(S)=P(A)+P( Ā ). Comme P(S) = 1 (axiome 1) on a P (A) = 1-P

( Ā )

3°) Cas particulier d’une probabilité uniforme

Remarquons tout d’abord que si la probabilité est uniforme, alors S est


nécessairement fini.

On a :
149
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

card A
∀ A ∈ P(S ),P( A )= . En effet si S={r 1 ,r 2 .. .. . .r n } et A= {r 1 , r 2 . .. .. . r k } ( k≤n )
card S

1 1 k card A
P ( A )=P ( {r 1 })+. .. . .. ..+P ( {r k })= +. . .. ..+ = =
alors n n n card S
La définition axiomatique est donc cohérente avec l’hypothèse du
paragraphe I

4°) Si S est fini ou dénombrable, une probabilité P sur S est entièrement


déterminée par la donnée d’une famille Pi où Pi  0,Pi =1 et où Pi est la
probabilité du ième évènement élémentaire.

Exemples :

1. Expérience aléatoire : tirer une carte d’un jeu de 32 cartes

On considère les évènements suivants :

A : « Tirer un as » R : « tirer un roi », C : « tirer un cœur »

AC : « tirer un as ou un cour »

AC : « tirer l’as de cœur

AR : « tirer une carte qui soit à la fois un as et un roi »

Ā : « tirer une carte autre que as »

Il s’agit ici de probabilité uniforme. En appliquant

card A
P ( A )= on obtient successivement P ( A )=P ( R ) = 4 = 1
card S 32 8

8 1 card ( A∪C ) 11
P (C)= = P ( A∪C )= =
32 4 card S 32
28 7 0 1
P ( Ā )= = P ( A∩R )= =0 P ( A∩C )=
32 8 32 32
2. Expérience aléatoire : tirer 2 cartes à la fois d’un jeu de 32 cartes.
Probabilité pour que ces 2 cartes soient 2 rois.
150
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Là encore, il s’agit d’une probabilité uniforme. Le nombre de cas favorable

n est égal au nombre de manières de combiner 4 rois 2 à 2, soit


C 24 =6

Le nombre de cas possibles N est égal au nombre de manières de


6
C 232=496 . On déduit P ( E )= ≈0 , 012
combiner 32 cartes 2 à 2, soit 496

3. Considérons une suite infinie de jeux de pile ou face. Soit S un

ensemble fondamental associé à cette expérience aléatoire :


S= {( X 1 ) i ∈ N , x i =P ou x i=F } .

Soit A l’évènement : « obtient toujours pile » on a:


A={( X i ) i ∈ N } ∀ i ∈ N,Xi =P
Si la pièce est bien équilibrée, la probabilité de n obtenir que des « pile »
1
n
lors des n premiers jets est 2 en vertu du principe général de l’analyse
1
P ( A )=0 car →0 quand n→∞
combinatoire. 2n On en déduit que p(A) = 0 car
1
2n 0 quand n+. De même la probabilité d’obtenir pile au premier jet,
puis face, puis Pile, etc. c est nulle.
Ces évènements ne sont pourtant pas à proprement parler impossible, on
dit qu’ils sont presque impossibles. L’évènement B : « on obtient au moins
une fois face » est l’évènement contraire de A donc P(B) = 1. On dit que B
est un évènement presque certain.
A première vue, il peut sembler paradoxal qu’on ait P(A) = 0 ou p(B) = 1.
En fait, cela résulte du choix « fréquentiste » qui exprime la probabilité
comme une limite de fréquence.

C. PROBABILITES TOTALES
Le second axiome de définition d’une probabilité donne la
probabilité de la réunion de deux évènements lorsqu’ils sont
151
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

incompatibles. Le théorème des probabilités totales donne une expression


de cette probabilité dans le cas général.

Exemple :

On tire une carte au hasard d’un jeu de 32 cartes. Quelle est la probabilité
pour que cette carte soit un as ou un cœur ?

Soient E, A et B les évènements :

E : « La carte est un as ou un cœur »

A : « la carte est un as »

B : « la carte est un cœur »

On a :

A 8 card ( A∪B ) 11
E=A∪B et P ( A )= P ( B )= P ( E )= =
32 32 card S 32
Les ensembles A et B n’étant pas disjoints, pour ne pas compter
deux fois l’as de cœur, il convient de remarquer que : card (AB) = card A
+ card B – card (AB). On en déduit que : P(AB) = P(A) + P(B) – P(AB).

Cette dernière expression constitue l’énoncé du théorème des probabilités


totales. Lorsque AB = , on retrouve le second axiome de définition
d’une probabilité P(AB) = P(A) + P(B).

I. Théorème des probabilités totales

(AP(S)) (B P(S)) P(AB) = P(A) +P(B) – P(AB)

Demonstration

AB = A(BA) et A(BA) = 

B=( B∩ Ā )∪( A∩B ) et ( B∩ Ā )∩( A∩B )=φ


D’après la propriété P(AUB) = P(A) + (P(B) quand AB = on a :

P(AB) = P((A(B Ā ) = P(A) + (B Ā )

P(B) = P(B Ā ) + P(AB) et par conséquent P(AB) = P(A) + P (B) –


P(AB)
152
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

II. Généralisation

(AP(S)) (BP(S)) CP(S))

P(ABC) = P(A) + P(B) + P(C) – P(AB) – P(AC) – P(BC) + P(ABC)

En effet, en utilisant deux fois le théorème des probabilités totales on a :

P(ABC) = P(AB) + P(C) – P[(AB) C) =P(A) + P(B) + P(C) – P(AB) –


P[(AB)C}

P[(AB)C = P[(AC)(BC or = P(AC) +P(BC)-P(ABC)

D’où P(ABC) = P(A) +P(B) + P(C) – P(AB)-P(AC) – P(BC) +


P(ABC)

Ce qu’il fallait démontrer. D’une manière générale, si P est une probabilité


sur un ensemble S, et si A1, A2… An sont n éléments de S, on a :

[ ] [ ]
n n n
P UAi =∑ p ( A 1 ) −∑ ∑ P ( A i∩ A j ) +∑ ∑ ∑ P ( Ai ∩ A j ∩A k )−. ..+ (−1 )
n+1
P UAi
i=1 i=1 i i≠1 i j≠i k ≠i i=1

Remarque :

Si n = 2, on vérifie que l’on retrouve le théorème des probabilités totales

P ( A1 ∪ A2 )=P ( A 1 ) + P ( A 2 ) −P ( A 1 ∩A 2 )

C. PROBABILITES COMPOSEES ET THEOREME DE


BAYES
I. Définition d’une probabilité composée
Soit Pune probabilité sur un ensemble S, et B un évènement tel
que P(B)  0. On appelle probabilité d’un évènement « A si B » ou A/B
(probabilité composée ou conditionnelle) le rapport

P ( A∩B )
P ( A / B )=
P ( B)

On en déduit :

P ( A∩B ) =P ( B ) P ( A /B )

De la même manière si P(A)  0, on peut écrire P(AB) = P(A).P(B/A)

Généralisation
153
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Si A1….., An sont n évènements alors :

[ ] ( )
n An
P ¿ Ai = P ( A1 ) .. P ( A 2 / A 1 ) . . P ( A3 / A1 ∩ A2 ) .. .. P n−1
Ai
i=1
¿
i=1

Exemple :

Probabilité de tirer un as, puis un roi d’un jeu de 32 cartes, sans remettre
la 1ère carte en jeu (tirage exhaustif).

A : la 1ère carte tirée est un as

B : la 2ème carte tirée est un roi

B/A : la 2ème carte tirée est un roi, sachant que la 1 ère (non remise) est un
as.

4 4 1 4
P ( A∩B ) =P ( A ) . P ( B / A )= × = P ( B/ A ) =
32 31 62 31

puisqu’il ne reste plus que 31 cartes

II. Evènements indépendants


Considérons une expérience aléatoire consistant à jeter un dé
deux fois successives. Soient A et B les évènements. A : "On obtient 6 lors
du premier jet"

B : « on obtient 6 lors du second jet »

Il est clair p (B/A) = P(B), on dit que les évènements A et B sont


indépendants.

D’une manière générale, on peut remarquer que :

1. Si P(A)  0 et P (B)  0
P(B/A) = P(B)  P(A/B) = P(A)
2. Si P(A)  0
P(B/A)= P(B)  P(AB) = P(A)P(B)

Définition

Deux évènements A et B sont indépendants si P (AB) = P(A).P(B)

Exemple
154
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

On reprend l’exemple précédent, mais en remettant la 1 ère carte dans le


jeu tirage non exhaustif).

4
P ( B / A )=P ( B )=
Dans ce cas, 32

4 4 1
P ( A∩B ) =P ( A ) . P ( B ) = . =
32 32 64
155
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

III. THEOREME DE BAYES


Ce théorème permet de déterminer la probabilité pour qu’un
évènement qui est supposé déjà réalisé, soit dû à une certaine cause
plutôt qu’à une autre (d’où le nom de théorème des probabilités des
causes que lui a donné Bayes).

1. Exemple

Le tableau suivant donne, pour les deux classes terminales d’un


lycée, le nombre d’élèves ayant été reçu au baccalauréat et l’effectif de
chaque classe :

Classe A Classe B

Effectif 26 32

Nombre de reçus 18 14

Quelle est la probabilité pour qu’un élève reçu, pris au hasard,


provienne de la classe A ?

La probabilité pour qu’un élève de terminale provienne d’une


1
P ( A )=P ( B )=
classe plutôt que d’une autre est 2 Partant de la classe A, la
18
P ( R/ A )=
probabilité pour qu’un élève soit reçu est 26 . En raisonnant de la
même manière pour la classe B, on peut construire le diagramme suivant.

18
P ( R/ A )=
26

8
P ( R / A )=
26

1
P ( A )=
2

1
P ( B )=
2

14
P ( R/ B )=
32

18
P ( R̄/ B )=
32
156
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

La probabilité totale pour qu’un élève de terminale sont reçu est,


d’après ce diagramme :

P(AR) + P(BR) = P(A).P(R/A) + P(B).P(R/B).

La probabilité pour qu’un élève de A soit reçu est P(AR) =


P(A).P(R/A). Par conséquent, la probabilité pour qu’un élève reçu
provienne de A est donnée par :

18 1
×
P (R / A ). P ( A ) 26 2
( )
P A/R = = =0 , 613
P ( R/ A ) . P ( A )+ P ( R/ B ) . P ( B ) 18 1 14 1
× + ×
26 2 32 x 2

 Théorème

Soient S un ensemble fondamental et E A1, A2,… An n+1 évènements tels


que

1. Les Ai sont deux à deux disjoints


2. i = 1,…n P(Ai)  0
n
U Ai=E aloers ∀ k =1 .. .. . n
3. i=1

P ( Ak ) . P ( E / Ak )
P ( A k / E )= n
∑ P ( A1 ) P ( E / A i )
i=1

Démonstration
n
P ( E )=∑ P ( E / A n ) P ( A 1 )
Remarquons tout d’abord que i=1

n n
U A1 =E on a : E= U [ E∩ A1 ]
En effet, comme : i=1 i =1

Comme les Ai sont deux à deux disjoints i = 1,…n,


∀ j=1 .. . , n si i≠ j on a : ( E∩A i ) ∩( E∩ A j ) =φ

( )
n n
P ( E )=∑ P ( E / A i ) . P ( A i ) cfr P UAi =∑ P ( A i )
On a donc i=1 i=1
157
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

P ( A k ∩E ) P ( A k ) . P ( E/ A k )
P ( A k / E )= = d'après ce ui précède.
P(E) n
∑ P ( E / A 1) P ( A i )
i =1

E. EXEMPLES COMPLEMENTAIRES

1. Loi binominale
Une urne contient 100 boules dont 10 blanches. On réalise une
série de 5 tirages successifs non exhaustifs d’une boule (c’est-à-dire que
l’on remet la boule après chaque tirage, de manière que la probabilité ne
change pas d’un tirage à l’autre). Quelle est la probabilité pour que 3
boules de la série de 5 soient blanches ?

10
P ( A )= =0 , 1
A : tirer une boule blanche 100

Ā : tirer une boule non blanche P ( Ā ) =1−0,1=0.9


La probabilité de tirer cinq boules dont trois blanches dans un

ordre déterminé tel que AAA Ā Ā , est donnée par l’axiome des probabilités
composées.

P ( A∩B ) =P ( A ) . P ( B / A ) : P ( AAA { Ā¿ Ā )=( 0 ,1 )3 ( 0 ,9 )2 . Mais l’ordre étant indifférent, il


3
existe C 5 manières de réaliser l’évènement précédent. Le théorème des
probabilités totales P(AB) = P(A) + P(B) – P(AB) fournit donc la
probabilité cherchée.

5!
P ( E )=C 35 ( 0 , 1 )3 ( 0 , 9 )2 = ( 0 ,1 )3 ( 0 , 9 )2=0 , 0081
( 5−3 ) !3 !

Généralisation

La probabilité de réaliser k fois l’évènement A en une série de n


( ) K K n−k où l’on a posé
épreuves est P k =Cn P q P ( A )=P et P ( Ā )=q=1−p on
reconnaît le terme général du développement du binôme de Newton
(P+q)n et l’équation (VI.12), d’où le nom de loi binomiale donnée à
158
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1
P ( k )=Ckn P k q n−k avec p=q=
l’expression (P(k) = 2 C’est une loi à 2
paramètres n et p, notée  (n,p).

Application au jeu de « pile ou face ».

La probabilité de tirer k faces avec une pièce lancée n fois


successivement, ou avec n pièces lancées simultanément est P(k) = avec
p =q= ½.

Par exemple, la probabilité d’obtenir 3 « face » en 5 lancers est :

( )( )
3
1 1 2 5 . 4 .3 . 1 1 5
P ( 3 )=C 35 = . . = =0 , 3 !25
2 2 1 .2 . 3. 8 4 16

2. Loi hypergéométrique

Quelle est la probabilité pour que, au jeu de la belote (32 cartes),


un joueur ait une main (de 8 cartes) comportant 5 « pique » et 3 « non-
pique » ? Le problème est différent de l’exemple précédent dans la
mesure où le tirage des 8 cartes est ici exhaustif (sans remise). Le nombre
de cas possibles est le nombre de manière de combiner 32 cartes 8 à 8,
8
soit d’après le paragraphe VI.C N = C 12

Le nombre de cas favorables peut être obtenu en appliquant le


principe fondamental de l’analyse combinatoire (VI.1). Les 5 « pique »
5
peuvent être choisis parmi les 8 « pique » existant dans le jeu, de C 8
manières différentes. Les 3 cartes qui manquent pour constituer une main
sont nécessairement des « non-pique », elles peuvent donc être groupées
C 324 façons différentes. Le nombre de cas favorables d’après (VI.1) est donc
5 3
n = C 8 C 24

Par conséquent, la probabilité cherchée est


5 3
n C8 C 24
P ( E )= = =0 , 010775885≈0 , 01
N C8 32

Généralisation de l’expression précédente.


159
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

A partir d’un référentiel comptant N élément dont r d’entre eux


ont une caractéristique a, la probabilité d’avoir k fois la caractéristique a,
C kr C n−k
N −r
P( k )=
dans une série de n épreuves exhaustives (sans remise) est C nN

Cette dernière loi, appelée loi hypergéométrique est une loi à 3


paramètres N, n, r. Elle est notée H(N,n,r).

TRAVAUX PRATIQUES

1. Lors des soldes de fin de série, un fabricant de chemise met en vrac


sur une table 200 chemises pratiquement identiques. Il y a dans ce
lot des chemises avec un ou 2 défauts, ainsi que 100 chemises
parfaites. Ces défauts mineurs ne sont pas visibles à la présentation.
a) Quels doivent être les nombres de chemises de chaque catégorie si
l’on veut que le 1er client qui prend au hasard une des chemises ait
20 % de chance d’avoir une chemise avec un défaut ;
b) Le client s’aperçoit du défaut. Il remet la chemise dans le tas, sans
prendre soins de l’écarter, qu’elle est la probabilité qu’il a de
prendre une chemise avec deux défauts ?
Solution
On appelle x l’évènement « chemise avec x défaut ».
1) Si N0, N1 et N2 sont respectivement les nombres de chemise à 0,1 et
2 défauts, on doit avoir N 0 + N1 + N2 = 200 avec N0 = 100. Les
chemises étant apparemment identiques, la probabilité d’avoir une
N1
P ( x=1 )= =0 , 20 .
chemise avec 1 défaut est : 200 On en déduit : N1 =
0,20 x 200 = 40 chemises à 1 défaut. Le nombre de chemises avec
2 défauts est donc : N2 = 200 –(N0 +N1) = 200-(100 +40) = 60
chemises.
2) La probabilité de tirer une chemise avec 2 défauts, sachant que le
client ne sait plus où se trouve la chemise qu’il avait prise puis
remise dans le tas, est :
160
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

N 2 60
P ( x=2 )= = =0 , 30 .
200 200 On vérifie que P(x=0) + P(x=1) + P(x=2) =
1

2. Dans une entreprise de construction, parmi un effectif de 80


ouvriers, 15 sont maçons carreleurs, 23 sont maçons seulement, 7
sont carreleurs et non maçons, 5 sont plombiers seulement. Quelle
est la probabilité pour qu’un ouvrier de cette entreprise soit :
a) Maçon ou plombier
b) Maçon ou carreleur M

Solution : C
On considère les évènements :
P
M : « l’ouvrier est maçon »
C : « l’ouvrier est carreleur »
P : « l’ouvrier est plombier »
MC
Card (MC) = 15 card(C) = 7 +15 = 22
Card M = 23 +15 = 38 card P =5
38 5 43
M ∩P=φ on a P ( M ∪P )=P ( M )+ P ( P ) = + =
1) Puisque 80 80 80

P(MP)  0,5375

38 22 15 45
P ( M ∪C )=P ( M )+ P ( C )−P ( M ∩C )= + − =
2) 80 80 80 80
P(MP)  0,562
3. Parmi 1000 moteurs d’une certaine fabrication, 725 moteurs ont
fonctionné sans problème pendant les 3 premières années et 375
les 5 premières années. Quelle est la probabilité pour qu’un moteur
n’ayant pas eu de problème pendant les 3 premières années
fonctionne encore pendant 2 ans.

Solution

1ère méthode calcul direct

A E
161
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Soit E l »’ensemble des moteurs et considérons les évènements :

A : « moteurs ayant fonctionné 3 ans sans problème »

B : « moteurs ayant fonctionné 5 ans sans problème »

Card E = 1000 ; card (A) = 725 ; card (B) = 375 = card (AB)

Nombre de cas favorables : 375

Nombre de cas possibles : 725

375
p= =0 , 517
D’où 725

2ème méthode

La probabilité pour qu’un moteur fonctionne 3 ans sans problème


est :

725
P ( A )= =0 , 725
1000 . La probabilité pour qu’un moteur fonctionne 5
ans est :

325
P ( A∩B ) = =0 ,375
1000 . Par conséquent, la probabilité pour qu’un
moteur n’ayant pas eu de problème pendant les 3 premières années,
P ( A∩B ) 0 ,375
P ( B / A )= = =0 ,517 .
fonctionne encore 2 ans est : P(A) 0 ,725

4. On estime à 15 % le nombre de vacanciers de Butembo qui


choisissent de sortir de Butembo pendant les vacances de Pâques.
Parmi ceux-ci 35 % vont à Beni et 25 % vont à Goma. Quelle est la
probabilité pour qu’un vacancier de Butembo prenne ses vacances.
a) à Goma b) à Beni
Solution
162
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1) La probabilité p pour qu’un vacancier aille à Goma est :

15 25
P= × =0 , 0375
100 100 Soit 3,25 % de vacanciers de Butembo vont à
Goma.

2) La probabilité q pour qu’un vacancier aille à Beni est


15 35
q= × =0 , 0525
100 100 soit 5,35 % de vacanciers de Butembo vont à
Beni.
5. Trois usines A, B, C produisent respectivement 50 %, 30 %, et 20 %
des moteurs de voiture. Parmi la production de chacune de ces
usines 5 %, 3 % et 2 % de moteurs fabriqués sont défectueux.
Calculer la probabilité pour qu’un moteur défectueux provienne de
l’usine :
a. A b. B c. C

Solution

a. On considère les évènements :

A : « le moteur vient de l’usine A (idem pour B et C)

D : « le moteur fabriqué est défectueux »

D̄ : « le moteur fabriqué n’est pas défectueux »

1ère méthode : théorème de Bayes.

P ( A )×P ( D/ A )
P ( A / D )=
P ( A )×P ( D/ A ) + P ( B )×P ( D/ B ) + P (C )×P ( D/ C )

avec P(A) = 0,50 ; P (B) = 0,30 ; P (C) = 0,20

P(D/A) = 0,05 ; P (D/B) = 0,03 ; P (D/C) = 0,02

0 ,50×0 , 05 0 , 025 2 ,5
P ( A / D )= = = ≈0 , 658
D’où 0 , 50×0 ,05+0 ,30×0 , 3+0 , 2×0 ,02 0 , 038 3 ,8

2ème méthode
163
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

¿¿¿
Sur 100 moteurs ¿
Nombre de moteurs défectueux venant de A 2 ,5 2 ,5
P ( A / D )= = = =0 ,658
Nombre de moteurs défectueux 2 , 5+0 , 9+0 , 4 3 ,8

b. P(B/D) = 0,237 c. P(C/D) = 0,105

6. Une partie des accidents des étudiants est due à des accidents de

laboratoire. 25 % des étudiants ne lisent pas les notices de mise en garde

qui accompagnent les produits qu’ils manipulent. Parmi ceux qui lisent, 10

% ont tout de même des accidents par manque de précaution. Quelle est,

pour un étudiant qui ne lit pas la notice, la probabilité d’avoir un accident

si la probabilité pour qu’un accidenté n’ait pas lu la notice est de 0,7273.

Solution

On considère les évènements :

A : « l’étudiant a un accident »


« l’étudiant n’a pas un accident »
164
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

L : « l’étudiant a lu la notice »


: « l’étudiant n’a pas lu la notice »

1ère méthiode : théorème de Bayes

P ( L̄ )×P ( A / L̄ )
P ( L̄/ A )=
P ( L )×P ( A / L̄ )+ P ( L )×P ( A /L )

P ( A / L̄ )
On doit calculer : Probabilité d’avoir un accident pour un

étudiant qui n’a pas lu la notice.

0 , 25×P ( A / L̄ )
0 , 7273=
0 , 25×P ( A / L̄ ) +0 , 75×0 ,10

On en déduit :

0 , 75×0 , 10×0 ,7273


P ( A / L̄ )= =0 , 80
0 , 25−0 , 25×0 , 7273

2ème méthode

Sur 100 étudiants ¿ { 7 5 lis ent la noti c e (L)¿¿ ¿


x
¿
0 , 7273= qui donne x = 20
x+7 , 5

La probabilité cherchée est :


165
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

x 20
P ( A / L̄ )= = =0 , 80
25 25

6. On suppose que la probabilité pour qu’un nouveau-né soit un garçon


est de 0,55. Cet évènement étant indépendant des individus, qu’elle
est la probabilité pour que sur 5 nouveaux nés d’une clinique il y ait
2 garçons :
Solution :
La probabilité élémentaire pour qu’un nouveau-né soit garçon : P =
0,55. Par suite la probabilité élémentaire pour qu’un nouveau-né soit
une fille est q = 1-p=0,45. D’où la probabilité pour que, sur 5
nouveau-nés, il y ait 2 garçons :
5!
P ( 2 )=C 25 P2 q 5−2 P ( 2 )= ( 0 , 55 )2 ( 0 , 45 )3 =0 , 28
2 !3 !
8. Parmi 8 équipes de football dont 6 de première division et 2 de
2ème division, seulement 4 d’entre elles doivent jouer un certain jour.
On dispose d’une urne contenant 8 tubes à l’intérieur desquels se
trouvent les noms des équipes. Un officiel tire 4 tubes au hasard.
Quelle est la probabilité d’avoir, parmi les 4 équipes :
a) 2 équipes de 2ème division b) 1 équipe de 2ème division
c) 0 équipe de 2ème division, d) quelle est la relation qui existe
entre les trois probabilités calculées ci-haut.
Solution
4
a) Il y a C 8 manières possibles de prélever 4 tubes parmi les 8. Le
2
nombre de façon de choisir 2 équipes de 2 ème division est C 2 , de
même que le nombre de façons de choisir 2 équipes de 1 ère division
2 2 2
est C 6 . Le nombre de cas favorables est donc C 2×C 6 . Par
conséquent,
C22 ×C 26 1×15 3
P ( 2 )= = = ≈0 , 214
C84 70 14

b. Dans ce cas, on doit avoir une équipe de 2 ème division parmi 2, et 3


équipes de 1ère division parmi 6, soit
166
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

C12 ×C 36 2×20
P ( 1 )= = ≈0 , 572
C84 70

c. Il faut que les 4 équipes soient de 1ère division, d’où :

C 02 ×C64 1×15 3
P ( 0 )= = = ≈0 , 214
C 48 70 14

d. On remarque que : P(0) + P(1) + P(2) = 1


Ce qui est normal puisque les trois cas considérés correspondent
aux seuls trois cas possibles.

9. Une boîte contient 12 articles dont 3 sont défectueux, une autre

boîte identique contient 16 articles dont 5 sont défectueux. On tire d’une

boîte choisie au hasard, un article au hard. Quelle est la probabilité P(E)

pour que l’article soit défectueux ?

Solution

Diagramme en arbre

Soient les évènements suivants :

I : « on tire un objet de la boîte I » (I peut être soit A, soit B)

D/I : « l’objet tiré de I est défectueux »

N/I : « l’objet tiré de I n’est pas défectueux »


167
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1
P ( A )=P ( B )=
2
¼ D/A
3 1
P ( D/ A )= = ¾
12 4
A ½ N/A
5
P ( D/B )= B½ 5/16 D/B
16
11/16 N/B
9 3
P ( N / A )= =
12 4

11
P ( N /B )=
16

Par définition des probabilités composées on a :

1 1 1 1 3 3
P ( A∩D )= × = P ( A∩N )= × =
2 4 8 2 4 8

1 5 5 1 11 11
P ( B∩D )= × = P ( N∩B )= × =
2 16 32 2 16 32

Un article défectueux peut être obtenu soit suivant le processus A D,

soit suivant le processus BD. On obtient les évènements étant

indépendants.

1 5 9
P ( E )=P [ ( A∩D )∪( B∩D ) ] =P ( A∩D )+ P ( B∩D )= + =
8 32 32
168
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

CHAPITRE VIII : VARIABLES ALEATOIRES (V.A)


1. INTRODUCTION

Il est fréquent que l’on associe une valeur numérique à tour

résultat d’une expérience aléatoire. La notion de variable aléatoire est la

formalisation mathématique de cette situation. Soit S ou  un ensemble

fondamental associé à une épreuve. On appelle variable aléatoire, toute

application x définie sur S à valeur numérique.

Si x est une variable aléatoire définie sur un ensemble

fondamental S relatif à une épreuve A et si a est un réel, on pose :

(x = a) = rS tel que x(r) = a c’est-à-dire que (x = a) est l’ensemble des

résultats de l’épreuve A auquel l’application x associe la valeur a. De

même x  a est l’ensemble des résultats appartenant à S tel que x  a.

On peut aussi trouver a  x  b (x  a) = rS tel que x(r)  a.

2. LOIS DES PROBABILITES (I.p) FONCTION DE


REPARTITION (f.r), DENSITÉ DE PROBABILITÉ (d.p)

On appelle loi de probabilité d’une variable aléatoire x définie sur

un ensemble fondamental S la donnée de probabilité pour tout intervalle


169
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

ER. Plusieurs cas se présentent, suivant que l’ensemble x de S de valeur

prise par la variable aléatoire x est fini, dénombrable ou continue.

* Pour une V.A fini : x(s) = x1, x2,…, xn la l.p de x est entièrement

déterminée par la donnée des probalités pi = p(x =xi) pour i = 1, …

n
Pi ≥0 , ∑ P i =1
i=1
n ; on a pour tout i = 1,… n

* Pour une V.A a dénombrable = x(s) = x1, x2,…,xn… la l.p de x

est entièrement définie par la donnée de pi = p(x= xi) pour tout i 

N*


Pi ≥0 , ∑ P i =1
i=1
Si x(s) est fini ou dénombrable, x est dite discrète.

* Pour V.A continue : x est dite continu si x(s) est une réunion

d’intervalles de R, pour tout nombre x, P(X=x)=0. On détermine la L.P de x

P ( X≤x ) , ∀ x ∈ R
par la donnée des probabilités . Si x est une v.a définie sur

un ensemble fondamental S, on appelle fonction de répartition de x

∀ x ∈ R , F ( x )=P ( X ≤x )
l’application FR par
170
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Si la fonction de répartition F d’une v.a continue x est dérivable en tout

point x  R, des dérivées f(x) sauf peut être à un nombre fini de points, et

x
∫−∞ f ( t ) dt
si xR, p(x  x) = F(x) = . On dit que X est une variable aléatoire

absolument continue et f est appeleé la densité de probabilité ou encore

fonction de distribution de x.

1. Si X ext une v.a absoluement continue de probabilité f on a :

b +∞
∀ a ∈ R , ∀ b ∈ R , P ( a≤x≤b )=∫a f ( t ) dt=F ( b )−F ( a ) ∫−∞ f ( t ) dt=1 et ∀ t ∈ R , f ( t )≥0 .

2. Si x est une v.a finie ou dénombrable, la fonction de réparation F(x)

détermine encore la loi de probabilité de X.

k
F ( x )=∑ P ( x =xi ) , si x k≤ x≤x k +1
i=1
et F est une fonction en escalier.

F(x)
171
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

10
9
8
7
6
5
4
3
2
1
0
X1 X2 X3 X4 X5 … Xn

3. ESPERANCE MATHEMATIQUE ET MOMENTS

La notion de variable aléatoire est la transposition probabiliste de

la notion statistique des caractères. Au lieu de distribution des fréquences

on parle de loi de probabilité d’une v.a. Les lois des variables aléatoires se

représentent comme les distributions des fréquences. Elles s’analysent de

la même manière au moyen des paramètres ex : dispersion, position,

moments,…

-
Pour une v.a fini l’espérance mathématique ou moyenne

n
E ( x )=∑ x i p ( X =x1 )
i =1
arithmétique de x :
172
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

E ( x )=∑ x i p ( X =x1 )
- i=1
Pour une v.a dénombrable
+∞
-
E ( x )=∫−∞ xf ( x ) dx
Pour une v.a absolument continue :

Lorsque l’intégrale est convergente.

On appelle moment d’ordre k, k  N, d’une v.a.x, le nombre Mk = E(Xk).

On appelle moment centré d’ordre k, k  N, le nombre Mk = E(x-E(x))k.

Le moment centré d’ordre 2 est la variance de x soit µ2 = 2.

√ σ 2=σ
La racine carrée de la variance est l’écart-type

4. INÉGALITÉ DE BIENAYME-TCHEBYCHEFF (BT) ET LOI


DES GRANDS NOMBRES

L’inégalité de B.T permet de calculer la probabilité de

l’évènement x-E(x) a, aR+. Soit une v.a absoluement constitue de

densité de probabilité f. Soit m = E(x) et  son écart-type si P(|x-m| t ) =

P(x  m-t). On démontre que l’inégalité de BT est donnée par : P(|x-m|

1
t2
t) .
173
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Considérons maintenant une suite infinie d’expériences aléatoires A1, A2,

… An identiques et indépendantes les unes des autres. A la ième épreuve

Ai, associons une v.a.xi. Ces variables aléatoires ont même espérance

mathématique m et même variance 2. Soit Yn la v.a définie par nN

n
1
Y n= ∑X
n i=1 i

E(yn) = m on vérifie en statistique mathématique E (Yn) = m

σ2 σ
V (Y n )= ; σ ( Y n )=
n √n

D’après l’inégalité de B.T appliquée à yn

(
P |Y n −m|¿

√n t)
1
∠ 2

ε=

√n
p (|y n−m|¿ ε ) ¿¿
En posant on a

On en déduit la loi (faible) des grands nombres : lim n+P(/yn – m/ ) =

⇒t= √ ⇒ =
1σ ε n 1 σ 1 σ2
ε= ⇒ 2= 2 lim ( P|Y n −m|¿ ε )=0
√n σ t ε √n t ε n n→+∞
174
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

5. TRAVAUX PRATIQUES

1. On considère une expérience de jet d’un dé à 6 faces. La variable

aléatoire Xi est le nombre des points marqués lors du ième jet du dé.

Déterminer :

a) la loi de probabilité

b) l’espérance mathématique

c) la variance

d) l’écart-type

e) Représentez graphiquement la L.P, et la fonction de réparation

Solution

X(s) = 1,2,3,4,5,6. Il s’agit d’une v.a finie

1
P ( x= χ i )= ∀ χ i ( i=1 , .. .6 ) ⇒ équiréparation
6

a) Loi de probabilité

i 1 2 3 4 5 6
175
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Pi = p(x= i) 1/6 1/6 1/6 1/6 1/6 1/6 pi = 1

Pi ≥0 et ∑ Pi=1

b) L’espérance mathématique

Tableau intermédiaire des calculs

x 2i pi
x1 P1 xipi P(xxi) =

F(x)

1 1/6 1/6 1/6 1/6

2 1/6 2/6 4/6 2/6 = 1/3

3 1/6 3/6 9/6 3/6 = ½

4 1/6 4/6 16/6 4/6 = 2/3

5 1/6 5/6 25/6 5/6

6 1/6 6/6 36/6 1

Total 1 21/6 91/6 -

n
n ( n+1 ) 6 ( 6+1 )
E ( X )=∑ x i p ( x =xi ) = =21
i=1 2 2

21 7
E ( X )= = =3 , 5
6 2

V ( x )=σ 2=μ2 =E [ ( X−E ( X ) ) ] =E ( X 2 )−( E ( X ) )


2 2

¿ X̄ 2 −( X̄ ) ⇒ E ( X 2 )=∑ x2i p ( x=x i )


2
176
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
n
n ( n+1 ) ( 2n+ 1 ) 6 ( 7 )( 13 )
∑ i2= 6
=
6
=91
c) i=1

91
V ( x )=σ 2=μ2 = −( 3 , 5 )2=2, 916666667≈2 , 9167
6

d) σ ( x )= √V ( x )=√ 2 ,9167=1 ,707834887

e) Diagramme en bâtons : représentation de la loi de probabilité l.p

Pi = P(x-xi)

1/6

1 2 3 4 5 6 x

Ogive en escalier : fonction de répartition

F(x)
177
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1
1
5/6
5/6
2/3
2/3
1/2
1/2
1/3
1/3
1/6
1/6

0
1 2 3 4 5 6

Xi

2. En nous référant au TP n°1 déterminons le nombre n de jets nécessaires

n
1
y n= ∑x
n i=1 i
pour que l’on ait au moins 8 chances sur 10 que la moyenne

des points marqués lors de n jets s’écarte de m de moins de 1/10.

Solution

(
P |Yn−m|∠
1
10 )
≥1−
100 σ 2
n
On a , d’après la loi des grands nombres,

σ2
P (|Y n −m|¿ ε ) ∠ 2

P¿¿
Nous souhaitons que
178
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

100 σ 2 8
1− ≥
n 10

100 σ 2 8 100×2 , 9167 8


1− ≥ ⇒1− ≥
n 10 n 10

n−291 , 67 8
≥ ⇒ 10 n−2916 , 7≥8 n
n 10

10n – 8 n  2916,7

2n  2916,7

2916 , 7
n≥
2

n 1458,35

n 1458,35

n 1458

3. Soit x une variable aléatoire finie prenant 2 valeurs 0 et 1. On

suppose que

P(x=1) = p où p  R, 0  p  1. On dit que x est une variable de

Bernoulli

a) Calculer E(X) et V (X)

b) Calculer les moments centrés d’ordre K de X avec K  N*


179
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Solution

a) Loi de probabilité de Bernoulli

Xi 0 1

P(X=Xi) 1-P Pp(X=xi)=1

p(X=xi)=1 ; E(X) = xip(X=xi) = 0 (1-p) +1 P = P

x 2i
V(x) = E(x²)-(E(x))²E(x²) =  p(x=xi)

E(x²) = 0² (1-P)+1²P=P

σ ( X ) =√ P ( 1−P )
V(x) = p-p² = p(1-p) 

b) Mk = E(X-E(x)k=(X-E(x))k p(x=xi)

= (0-p)k (1-p)+(1-p)kP = (-p)k(1-p)+(1-p)kp

n
∑ ( X− E( X )) ² p ( X= X )
i=1
V(X) = µ2 = ² = E(X-E(X))² =

V(X) = (0-p)²(1-p)+(1-p)²p=p²(1-p)+(1-p)²p

=(1-p)p²+(1-p)p = (1-p)pp+(1-p)= (1-p)p


180
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

= p-p²(p+1-p) = p-p²(1) = - p²+p = p(-p+1) = p(1-p)

4. Loi continue uniforme

Solit a,b avec a  b, un intervalle R. On dit que la variable

aléatoire absolue continue x est uniformément répartie a,b si sa densité

de probabilité (dp) f est constante sur cet intervalle et nulle ailleurs.

a) Déterminez f en fonctgion de a et de b

b) Calculer E(X), V(X), (X)

c) Déterminer la fonction de répartition F(x).

d) Représentez graphiquement f.

e) Représentez graphiquement F

Solution

a) f(x)  0
−∞
∫−∞ f ( x ) dx=1; f ( x ) est constante sur [ a,b ]
Soit la valeur constante

f(x) = c

+∞ h
∫−∞ f ( x ) dx=∫t cdx=c [ x ]ba=c [ a−b ]
181
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
+∞ 1
∫−∞ f ( x ) dx=1⇒ c [ b−a ] =1⇒ c= b−a

f (x)=¿ {c ∀ a≤x≤b ¿ ¿¿¿


[]
b
+∞ b x 1 x2
E ( x )=∫−∞ xf ( x ) dx=∫t dx=
b) b−a b−a 2 a

1 1 ( b−a )( b +a ) b+ a
E( X )= [ b ²−a ² ] = ⇒ E( X )=
2 ( b−a ) 2 ( b−a ) 2
b +a
E ( X )=
2

[]
2 3 b
+∞ x b 1 h 2 1 x
E ( X ² )=∫−∞ x f ( x ) dx ⇒ E ( X )=∫a
2 2
dx= ∫ x dx= b−a 3
b−a b−a t a

( 2 2
)
E ( X 2 )=
1 ( b3 −a 3 ) = ( b−a ) b + ab+ a
3 ( b−a ) 3 ( b−a )
b 2 +ab+ a2
E ( X 2 )=
3
b 2 +ab+ a2 ( b+ a )2
V ( x )=E [( X−E ( X ) ) ] =E ( X )−( E ( X ) ) =
2 2 2

3 4
4 b2 + 4 ab+4 a2 −3 b2 −6 ab−3 a2 b 2 −2 ab+a 2 ( b−a )2
= = =
12 12 12
( b−a )2
V ( x )=
12

σ ( X ) =√ V ( X )=
12 √
( b−a )2 b−a
=
√ 12
x
c) F ( x)=∫−∞ f ( t )
x1 1
dt=∫a dt= [ t ]ax
b−a b−a ¿

F ( x )=¿ ¿ ¿
¿
¿
182
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

d) Graphique de f

f(x) F(x)

1
b−a 1

½
a+b
2
X a b X
183
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

CHAPITRES IX ET X :
DISRIBUTION DES PROBABILITES OU LOIS DES
PROBABILITES ET UTILISATION DES TABLES
STATISTIQUES

Il existe plusieurs lois des probabilités ou distributions des

probabilités parmi lesquelles certaines sont tabulées et d’utilité courante

dans les applications statistiques appliquées dans différents domaines.

Dans ce cours, nous verrons quelques distributions ou lois notamment :


la loi binomiale

la loi hypergéométrique

la loi de Poisson

la loi normale

la loi de Student

la loi du Khi-deux

la loi de Fisher Snedecor

1. La loi binomiale

Une variable aléatoire dénombrable x en valeur dans N suit une

loi binomiale de paramètres n et p si.

kN, P(x=k)
{k k n−k
{
=¿ Cn P (1−P ) pour0≤k≤n¿ ¿ ¿¿¿
184
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

X (n,p) q = 1-p

V.a.x suit la loi Binomiale de paramètre n et p. On rencontre cette loi à

chaque fois qu’il s’agit de déterminer la probabilité de réaliser k fois un

évènement A dans une série de n expériences aléatoires A caractérisées

chacune par deux modalités complémentaires p et 1-p = q tel que p +q =

On démontre que E(x) = np.

√ npq
V(x) = npq (x) =

La représentation de cette loi est un diagramme en bâtons. Il existe des

tables de la loi Binomiale. Cfr. Tables de la loi Binomiale.

Exemple :

Exercice n°7 du chapitre calcul des probabilités

P = 0,55 1-P = 0,45 n=5 k = 2 enfants garçons

5!
C 25 ( 0 , 55 )2 ( 0 , 45 )3 = ( 0 , 55 )2 ( 0 , 45 )2=10×0 , 3025∗0 ,091125
2! 3!
P(X=2) =

P(X=2) = 0,275653125 = 0,28


185
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

La probabilité d’avoir 2 garçons parmi les 5 nouveaux nés est 0,28 soit 28

%.

Approximation de la loi binomiale :

a) Par la loi de Poisson

Lorsque n tend vers + et p tend vers 0 (n+, p0) et que

l’espérance mathématique reste constante. E (X) = n.p = , on peut

montrer que (n,p) P() où p() désigne la loi de Poisson. En

pratique n  50 et p  0,1, np  20. Pour np20, la loi normale

fournit une meilleure approximation.

b) Par la loi normale

Lorsque

( X-np )
n→+∞ et que →t où t est fini et p+q =1 alors √ npq β ( n , x ) →ℓ ( t ) où ℓ ( t )
√ npq

désigne la densité de probabilité de la loi normale.

La loi de Poisson

2. La loi de Poisson

Une variable aléatoire dénombrable x en valeur dans N suit une loi de

Poisson de paramètre  si  kN, p (X = k) =


{ λk
k!
. e−λ ¿ ¿ ¿ 0
186
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

X p()

La loi de Poisson intervient généralement lorsque l’évènement est rare sur

un grand nombre d’observations. La loi de Poisson est représentée aussi

par un diagramme en bâtons.

√λ
E (x) =  V(x) =   (x) =

Il existe des tables de la loi de Poisson.

Exercice

4 % d’articles d’une certaine fabrication présentent des défauts. Quelle est

la probabilité pour que dans une livraison de 75 de ces articles, il y ait

deux articles défectueux ?

Solution

La probabilité élémentaire pour qu’un article pris au hasard dans cette

fabrication soit défectueux est p = 0,04.

P = 0,04 1-p = 0,96 k=2

P(x = 2) n = 75
187
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

x (n=75 ; p = 0,04)

2 75×75
P ( x )=C75 ( 0 , 04 )2 ( 0 , 96 )73= ( 0 , 04 )2 ( 0 ,96 )73
2×1

= 2775 x 0,0017 x 0,050792549 = 0,2255518919 = 0,225

La loi binomiale peut paraitre ici d’un maniement difficile. Cependant

comme n = 75  50 et p = 0,04  0,1, np = 75.0,04 = 3  20. On peut

recourir à l’approximation de la loi de Poisson P(  = np) = P(=3). Et la

3 2 −3
p( x=2 )= e =0 , 2240418077≈0 ,224
2!
probabilité cherchée devient donc

3. La loi Normale

Soit x une variable aléatoire réelle absolument continue : on dit


que x suit une loi normale ou de Laplace-Gauss si la dp.

− ( )
2
1 x−m
1 2 σ
= e
xR rf(x) σ √ 2 π
(1)

Notation

X N(m,) m = moyenne arithmétique  = Ecart-type

E(X) = M = x̄=μ=m σ ( x )=√ σ 2 V( x)=σ 2

Loi normale centrée réduite

x−m
t=
En effectuant le changement de variable σ
188
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
t2
1 −2
∀ t ∈ R , p (t )= e
on définit une nouvelle densité de probabilité √2π
(2)

Ce changement de variable correspond à un changement d’échelle


(rotation et une translation sur l’axe des abscisses (rotation et translation
combinées). On obtient une densité l indépendante de m et  ; ce qui
permet d’utiliser la même courbe pour des variables aléatoires suivant
des lois normales des différents paramètres :

T N(0 ;1) E(T) = 0 (T)=1 V(T)=1


189
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

P(t)

m- m m+ X

E(X)

x−m
T=
-1 E(T) =0 1 σ

x−u x−E ( x )
z= =
G(t) ou G(z) t ou σ σ (x)

F(x) = g(t)

P(m  X  x) = p (0  T  t) = G(t)

Fonction de répartition

x
F(X) = P(x  x) = ∫−∞ f ( x ) d ( x )
x−m
T=
Soit en effectuant un changement de variable σ

x−m
x=
F(x) = p(x  x) = ∫−∞ σ
p(t )dt

t

Par conséquent (t)= −∞ p(t )d(t ) pourra être tabulée et servir au calcul des
probabilités attachées à n’importe quelle variable aléatoire X distribuée
normalement.
+∞
Comme ∫−∞ f ( x ) dx=1 alors:
190
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
m
∫−∞ f ( x)dx=0,5
+∞ 0
∫m f ( x ) dx=0,5⇒∫−∞ p ( t ) dt=0,5

+∞ +∞
∫m f ( x ) dx=0,5⇒∫0 p ( t ) dt=0 ,5

0 1
ζ (t )=∫−∞ p ( t ) dt+∫0 P ( t ) dt=0,5+G(t )

Il existe des tables statistiques de valeurs numériques de ces deux


fonctions (t) et G(t). L’étude de la concentration de la population autour
de la valeur moyenne permet de mettre en évidence les propriétés
suivantes de la loi normale : p(t)

m-2 m’- m m+ m+2

x−m x− x̄
T= =
-2 -1 0 1 2 σ σ
68,26 %
95,44 %

P(m-xm+) = P(-1T1)=0,3413 x 2 = 0,6826 = 68,26 %

P( x̄−σ ≤x≤ x̄ +σ )

P(m-1,96 x  m+1,96) = P(-1,96  T  1,96) = 0,4750 x 2 = 0,9500 =


95 %

P(m-2xm+2) = P(-2T2) = 0,4772 x 2 = 0,9544 = 95,44 %

La loi normale occupe une place de choix parmi les différentes lois de
probabilité. En effet, un grand nombre de lois de distribution courante se
rapprochent de la loi normale.
191
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Travaux pratiques

1. La taille des individus d’un établissement suit une distribution normale


avec x̄ = 150 cm et  = 20 cm

Quel est le nombre d’individus ayant une taille comprise entre 140 cm et
170 cm si l’effectif total de l’établissement est de 1000 individus.

Solution

X = taille en cm n = 1000 individus

x̄ = 150 cm  m =  = 150 cm

x = 20 cm

ni dans l’intervalle 140 140  x  170 cm

140 150 170 x

x−m x− x̄
T= =
-0,5 0 1 σ σ

ni
f i= ↦ pi ⇒ni =nf i =np ( 140≤x≤170 )=nPi
n

=np (140−150
20
≤T ≤
170−150
20 )=np (−0 ,5≤T ≤1)
= 1000 P(0  t  0,5) + P(0  T 1) = 1000 0,1915 + 0,3413

ni = 1000 (0,5328) = 532,8

ni = 533 individus dont la taille est comprise entre 140 cm et 170 cm.
192
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

2. Dans l’exercice précédent quelle est la taille maximum de 800 individus


les plus petits ?

Solution

Ces 800 individus représentent 80 % de l’effectif total. En prenant Xm =


Taille max de 800 individus les plus petits ; alors P(x  xm) =
x m− x̄
P( T ≤t m= )=80 %
σ

150 Xm x

x−m
T=
0 Tm = ? σ

σ . t m=x m− x̄ ⇒ x m= x̄+ σ .t m

Gtm = 0,3

¿¿¿
¿
t m−0 , 84 0 , 3−0 , 2995
=
0 , 85−0 , 84 0 , 3023−0 , 2995

0 , 3−0 ,2995
t m= ( 0 ,85−0 , 84 )+0 ,84
0 , 3023−0 ,2995
tm = 0,841785714

x̄ +σt m ⇒ x m =150+20 x 0 , 84178571=166 ,8357143≈167 cm

Parmi les 1000 individus, 80 % ont une taille  à 167 cm.

3. Une étude statistique a montré que sur 1800 demandeurs d’emplois, en


moyenne 600 recherchent du travail pour la première fois alors que les
193
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1200 autres ont été mis au chômage. Quelle est la probabilité pour que
sur 6 personnes recherchant un emploi, il n’y ait pas plus de 2 personnes
qui aient déjà travaillé ?
4. A partir de la vente de 100 postes de télévision, ayant fonctionné le
même nombre d’heures pendant une année, on a pu établir le tableau
suivant reliant le nombre Ni des postes vendus au nombre Ki
d’intervention du réparateur.
Nombre d’intervention Ki 0 1 2 3 4
Nombre de postes Ni 61 30 7 2 0
a) Représentez graphiquement le diagramme en bâtons plus le
polygone des fréquences, les ogives en escaliers.
b) Calculer et interpréter la moyenne arithmétique, la variance, l’écart
type ;
c) Comparez les valeurs observées de Ni déduites d’une loi de Poisson
ayant même valeur moyenne.
4. En 1961, le professeur Lampman a étudié la pauvreté dans les sociétés
industrialisées. Il aboutit à la conclusion que 19 % de la population
américaine peut être considérée comme pauvre si le seuil de pauvreté
pour le revenu annuel d’une famille citadine de 4 personnes est fixé à
2500 $
a) En supposant que la répartition des revenus annuels suit une loi
normale de valeur moyenne 9540 $, quel est l’écart-type de cette
distribution ?
b) Si seulement 10 % de la population peut être considéré comme riche
entre quelles limites doit se situer le revenu annuel d’une famille citadine
pour qu’elle puisse être considérée comme ayant un revenu x moyen tel
que X1  X  X2 et X1, X2 étant définis par p(x  x1) = 0,19 et p (x  x2)
= 0,10 ?
6. En 1965 dans la région parisienne 11 % des revenus individuels était
supérieur à 20000 F et 3 % des revenus inférieurs à 3000 F. En supposant
que la loi de répartition des revenus suit une loi normale.
a. Quel est le revenu individuel moyen et quel est l’écart type ?
194
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

b. Quel est le pourcentage d’individus dont le salaire est compris entre


5000 F et 10000 F ?
195
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

IIIème PARTIE : STATISTIQUE INFERENTIELLE OU


STATISTIQUE INDUCTIVE
La statistique inductive recherche les principes permettant de
déduire des résultats obtenus sur un échantillon limité, une généralisation
à l’ensemble de la population, d’où est extrait cet échantillon et qui est
généralement inaccessible à l’enquête ou à la mesure. On est alors amené
à formuler des hypothèses dont on vérifie la validité à l’aide de certaines
épreuves ou tests statistiques. Cela permet de prendre une décision
dépendant nécessairement du risque d’erreur adoptée due au fait que les
données sont seulement partielles.

L’objet de cette partie est de présenter quelques tests


statistiques en guise d’introduction à la statistique approfondie. Nous nous
limiterons essentiellement à la résolution de quelques problèmes du type
suivant :

- Estimation : estimer les paramètres (moyenne, écart-type, proportion,


etc) qui caractérisent une population connaissant les statistiques ou
(indicateurs ou valeurs caractéristiques) d’un échantillon extrait de
cette population ;
- Conformité : déterminer si un échantillon peut être considéré comme
représentatif d’une population ;
- Homogénéité : déterminer si les différences observées entre 2
échantillons sont dues au hasard ou si elles sont significatives (non dues
au hasard) ;
- Ajustement : vérifier si une distribution expérimentale peut être
ajustée à une distribution théorique.

I. ECHANTILLONNAGE
La théorie de l’échantillonnage a pour objet l’étude des relations
qui existent entre la distribution d’un caractère dans une population dite :
population mère, et les distributions de ce caractère dans tous les
différents échantillons prélevés dans cette population. Pour que ces
relations soient valables, il faut que l’échantillon soit prélevé d’une
196
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

manière aléatoire, c’est –à-dire que tous les individus de la population


aient la même chance d’être prélevés. On y arrive au moyen d’un tirage
au sort ou encore en utilisant des listes des nombres aléatoires ou
nombres au hasard.

L’échantillonnage est dit exhaustif si l’individu n’est pas remis


dans la population après avoir été prélevé. Il est dit non-exhaustif dan le
cas contraire.

1. Distribution des moyennes


Soit X un caractère quantitatif étudié. La distribution X de cette
population notée par (N, µ, ) où µ = EX = M ;  =  (X) ; N = taille de la
population.

Soit Xi le même caractère mais étudié dans l’échantillon i de

taille n. La distribution de xi dans cet échantillon sera notée : (n,


x̄ i ,  ) où
i

x̄ i=E [ X i ] x̄ i=mi σ i=σ ( X i )


Autre notation : On suppose que les
échantillons ont tous la même taille et i = 1,2,…k échantillons.

a. Echantillonnage non exhaustif

Considérons l’ensemble de tous les échantillons possibles de


taille n pouvant être prélevés dans la population mère d’une manière non-
exhaustive. Soit k le nombre de ces échantillons. On appelle distribution
d’échantillonnage des moyennes l’ensemble des moyennes des

différents échantillons : { X̄ 1 , X̄ 2 . .. X̄ k }

On introduit ainsi un nouveau caractère X̄ qui associe la valeur


X̄ i à l’échantillon i. La distribution de X̄ est caractérisée par ( k , E ( X̄ ) , σ ( X̄ ) ) .

En statistique mathématique on démontre que : k =α nN =N n

V (X ) σ ( X) σ
E ( X̄ )=E ( X )=µ var ( X̄ )= σ ( X̄ ) = =
n √n √n
b. Echantillonnage exhaustif

On démontre que :
197
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

n N!
k =C N =
( N−n ) !n !


E( X̄ )=µ σ ( X̄ )=
σ N−n
√n N−1
quand N →+∞ ,.

N-n
N-1
tend vers 1

2. Distribution des fréquences


Supposons que dans une population composée de N éléments, le
caractère étudié X ne puisse prendre que les 2 valeurs 1 et 0. On désigne
par p la proportion d’éléments de caractère 1 et par q la proportion
d’éléments de caractère 0 avec 0  p  1 et q = 1-p.

La distribution d’un tel caractère dans cette population est


caractérisée par une moyenne et un écart-type donnés par E(X) = p (X) =

√ p.q de sorte qu’elle peut être notée (N, P,


√ p.q )
On prélève dans cette population tous les échantillons de taille n
et on détermine pour chaque échantillon i la proportion d’éléments dont le
caractère a la valeur 1. On définit ainsi un nouveau caractère f qui associe
à chaque échantillon i la fréquence fi.

On appelle distribution d’échantillonnage de la fréquence


l’ensemble des fréquences fi des différents échantillons c’est-à-dire f1,f2,…
fk.

Pour un échantillonnage non-exhaustif, E(f) = P


σ ( f )=
√ p.q
n

Pour un échantillonnage exhaustif, E(f) = p


σ ( f )=
√ √
p . q N−n
n
.
N−1

avec N = effectif de la population mère.

3. Autres distributions d’échantillonnage :

On peut définir d’autres distributions d’échantillonnage que les

distributions des moyennes et des fréquences X̄ et f. Le caractère peut


198
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

être : la médiane-le mode-l’écart-type- ou tout autre paramètre


susceptible de varier d’un échantillon à l’autre.

Les 2 distributions qui suivent : celle de t (STUDENT) et celle de


² (KARL PERARSON) ; sont utilisées par exemple, la première pour les
échantillons petits (avec n  30), la deuxième dans les problèmes
d’ajustement d’une distribution expérimentale à une distribution
théorique.

1°. Distribution de STUDENT

Soit une distribution (N,µ,) d’un caractère x dans une population


qui suit une loi normale N(µ,). On considère tous les échantillons de taille
n pouvant être prélevés dans cette population et caractérisés par le triplet
X̄−µ
t=
σ
(n,
X i  ). On introduit un nouveau caractère t donné par : √n qui
i

associe à chaque échantillon i l’écart réduit t i. On définit ainsi une nouvelle


distribution d’échantillonnage dite distribution de tt1,t2,…ti…,tk avec k =
nombre d’échantillons.

2°. Distribution de χ 2 KHI-DEUX

On considère encore une population normale (N, µ,) et tous ses


échantillons. On calcule pour chaque échantillon i le paramètre
n
∑ ( X ij − X̄ )
2

χ 2i = i=1
σ
2 x ij
où est la valeur du caractère du jième individu de

l’échantillon i. On définit ainsi une nouvelle distribution d’échantillonnage

{ χ 21 , χ 22 , .. . χ 21 , .. . χ 2k }
du KHI-DEUX :

II. ESTIMATION
Si l’échantillonnage étudie les relations qui existent entre une
population et tous ses échantillons de même taille n, l’estimation se
préoccupe de la représentativité de la population par un échantillon. Il
199
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

s’agit essentiellement d’attribuer une valeur à un paramètre inconnu de la


population mère à partir de la connaissance d’un échantillon extrait de
cette population. On peut chercher à attribuer à ce paramètre une valeur
unique (estimation ponctuelle) ou un intervalle susceptible de recouvrir sa
valeur inconnue (estimation par intervalle de confiance).

1. Estimation ponctuelle
) et
Considérons une distribution dans une population mère (N,µ,

la distribution du même caractère dans un échantillon i (n,


X̄ i , σ i
) extrait

X̄ 1
de cette population. On suppose que et i sont connus et on cherche µ

et .

Il est évident qu’en général l’estimation d’un paramètre inconnu à partir


de sa valeur observée sur l’échantillon ne peut constituer qu’une
approximation. On considère que certaines conditions sont requises pour
qu’un paramètre de l’échantillon puisse servir d’estimateur :

1°. Lorsque la taille de l’échantillon grandit, il convient que l’estimateur

tende vers la vraie valeur du paramètre inconnu. C’est le cas de


X̄ i qui est
la moyenne du caractère dans l’échantillon i  quand la taille augmente,
X̄ i tend vers µ.

Lorsque le caractère ne peut prendre que les valeurs 1 ou 0, c’est aussi le


cas de fi qui est la fréquence d’apparition de X = 1 dans l’échantillon i
fiP

2°. Il convient de plus que, sur la série (théorique) de tous les échantillons
de taille n, la moyenne des estimateurs soit égale au paramètre de la

population mère (estimation sans biais). Cela est encore vrai pour X̄ et f
2
mais ne l’est pas pour la distribution des σ 1 .

Pour estimer la variance ² de la population mère, on prend l’estimateur


200
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

[ ]
n n
1 1
S¿i 2= ∑
n−1 j=1
( X ij− X̄ i )
2
S¿i 2=
n−1
∑ ( X ij )2−n ( X̄ i ) 2
j =i à partir des valeurs du
caractère observé sur l’échantillon i. Le dénominateur n-1 est appelé
nombre de degré de liberté de l’estimation.
¿2
σ2
Remarque : Si n est élevé Si est presque égale à i ( S ¿i 2≈ σ i )

2. Estimation par un intervalle de confiance (I.C)


D’après les propriétés de la loi normale, on peut dire que 68,26
% de la population sont concentrés sur un intervalle de X recouvrant un
écart-type de part et d’autre de la moyenne, 95 % sur un intervalle de X
recouvrant 1,96 écart-type,…

Interprétation

P ( X̄−1 , 96 σ ≤X ≤ X̄ +1 , 96 σ )=0 , 95
Nous avons un seuil de confiance de 95 % pour que la valeur

observée du caractère se trouve dans l’intervalle [ X̄ −1,96 σ ; X̄ +1,96 σ ] .


C’est l’intervalle de confiance à 95 %.

X̄ -1,96  X̄ −σ X̄ X̄ + σ X̄ +1 , 96 σ X

62,26 %
95 %

Le complément du seuil de confiance est appelé risque d’erreur.


On désigne généralement le risque d’erreur par  et le seuil de confiance
X−µ
T=
par 1-, la valeur absolue de la variable réduite σ limitant
l’intervalle de confiance par t. D’une manière générale, on écrit
201
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

P [ µ−t α σ ≤X≤µ+t α σ ]=P [−t α≤T ≤+ t α ]=1−α


seuil de confiance

3. Normalité des fluctuations d’échantillonnage


a. Fluctuation d’échantillonnage d’une moyenne

X̄−µ
t=
σ
On introduit le caractère t donné par √n qui associe à
chaque échantillon i l’écart réduit ti. i = 1,…,k.

Pour déterminer un intervalle de confiance I.C. pour la moyenne, il


convient d’examiner d’abord la normalité de cette distribution.

* Cas d’une population normale

La distribution de X̄ est elle-même normale mais la normalité de t dépend


de la taille n de l’échantillon. La théorie approfondie (en stat math et Prob)
montre que lorsque la population mère est distribuée normalement, le
caractère ti suit une loi de Student de densité de probabilité (dp) définie
par :

A
f ( t )= γ +1

( )
1+

γ
2
où est le nombre de liberté.

b
P ( a≤t i ,≤b )=∫a f ( x ) dx
A = une constante dépendant de  ; c’est-à-dire

A chaque valeur de  correspond une distribution théorique. Lorsque  ou


n élevé (avec n  30), la distribution de Student peut être assimilée à une
distribution normale. Il existe des tables de la loi de Student.

1°. n 30, c’est le cas dit des grands échantillons.

Les fluctuations d’échantillonnage sont distribuées normalement, les


intervalles de confiance sont déterminés par la loi normale.

2°. n 30, cas des petits échantillons :

Les fluctuations d’échantillonnage suivent une loi de Student et les


intervalles de confiance doivent être déterminés par cette loi. Il existe des
202
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

tables qui, pour un nombre de degré de liberté  et un risque  donné,


fournissent les limites de l’intervalle de confiance (I.C.)  tsa tsa tel que

p (-ts t  ts) = 1-.

* Cas d’une population non normale :

Si la population n’est pas distribuée normalement, le théorème dit de la


convergence vers la loi normale montre que : « Plus l’échantillon est

grand, et plus la distribution de X̄ se rapproche de la loi normale ».

Si n  30, la distribution de X̄ peut être considérée comme normale et la


distribution des fluctuations d’échantillonnage aussi. Ainsi les I.C. seront
déterminées par la loi normale.

Si n  30, la distribution de X̄ n’est pas normale. (Les I.C. de ce cas seront


étudiés en statistique approfondie).

b. Fluctuation d’échantillonnage d’une fréquence

La distribution d’échantillonnage de f est pratiquement normale si les


produits n.p et n.q sont supérieurs à 10 ou à la rigueur à 5. (p+q=1)
auquel cas la normalité de la distribution des fluctuations
d’échantillonnage de f est assurée et on peut appliquer la loi normale pour
déterminer les I.C.

4. Intervalle de confiance d’une moyenne

On dispose d’un échantillon (n,


X̄ 1 ,  )
1

Déterminer un I.C centré sur


X̄ 1 et susceptible de contenir la

moyenne µ (inconnue) de la population avec la probabilité 1- (seuil de

confiance).
X̄ 1 est un élément de la distribution d’échantillonnage des
moyennes.

1°. Cas d’un échantillonnage non exhaustif

σ
E( X̄ )=µ σ ( x̄ )=
√n
a) n  30 : grands échantillons
203
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

La distribution d’échantillonnage des X̄ est normale. En adoptant un


P( E( X̄ )−t a σ ( X̄ )≤ X̄ 1 ≤E ( X̄ )+t a σ ( X̄ ) )=1−α
risque  on peut écrire : ou tout

E ( X̄ )−t α σ ( X̄ )≤ X̄ 1≤E ( X̄ )+t α σ ( X̄ )


simplement avec un risque d’erreur .
σ σ
µ−t a ≤ X̄ 1 ≤µ+t a
√n √n
Cet encadrement délimite un intervalle dit "du pari" permettant d’estimer
X̄ 1 connaissant µ et . Pour trouver l’intervalle de µ et répondre au

problème d’estimation de µ il suffit de résoudre l’inéquation ci-haut :


σ σ σ σ
µ−t a ≤ X̄ 1 ≤µ+t a ⇔ µ≤ X̄ 1 + t a X̄ 1 −t a ≤µ
√n √n √n √n
σ σ
X̄ 1 −t α ≤µ≤ X̄ 1 + t α
√n √n
Cet encadrement délimite l’I.C de µ et répond au problème d’estimation
de µ posé précédemment. Généralement  (écart-type de la population
mère) est inconnu. Alors on le remplace par son estimateur.
¿ ¿
S1 S1
X̄ 1 −t α ≤µ≤ X̄ 1 + t α
√n √n
¿
Si n est grand et tend vers la taille de la population, S1 est voisin de 1.

b) n  30 : Petits échantillons

En supposant que la population mère distribuée normalement, l’I.C de la


¿ ¿
S1 S1
X̄ 1 −t sa ≤µ≤ X̄ 1 +t sa
moyenne µ devient : √n √n
Ts, c’est le t de Student en fonction du risque  choisit et du nombre de
liberté  avec  = n-1.

2°. Cas d’un échantillon exhaustif

E( X̄ )=µ et σ ( X̄ )=

σ N −n
√ n N−1
204
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Il vient l’encadrement :
X̄ 1 −t
σ
√n √ N−n
N−1
≤μ≤ X̄ 1 + t
σ
√n √ N −n
N −1

où t = t (loi normale) pour n  30

t = ts (loi de Student) pour n  30

TRAVAUX PRATIQUES

1. Dans une fabrication portant sur 50000 articles, un sondage sur 400
articles a donné un poids moyen par article de 200 g avec un écart type
de 50 g. Estimer le poids moyen dans la fabrication au seuil de confiance
de 95 %.

Résolution

N = 50000 ; n = 400 ;
X̄ 1 = 200 g ;  = 50 g ; S¿1 ≈σ 1 1- = 95 %  = 5
1

n étant grand et en adoptant l’estimateur S* = 1, l’intervalle cherché à 95


% sera donné par :

σ1 σ1
X̄ t −t α ≤µ≤ X̄+ t α
√n √n
50 50
200−1 ,96 . ≤µ≤200+1 , 96
√ 400 √ 400
195 , 1≤µ≤204 , 9 µ∈ [ 195 , 1 ;204 , 9 ] P (195 , 1≤µ≤204 , 9 )=0 , 95
Interprétation

Nous sommes confiants à 95 % que le poids moyen de chaque


article dans la population (fabrication totale) se situe entre 195,1 g et
204,9 g. Nous avons donc un risque de 5 % de nous tromper.

2. Un dosage de sucre dans une solution effectuée sur 8


prélèvements provenant d’une même fabrication a donné les résultats
suivants exprimés en g/l 19,5 ; 19,7 ; 19,8 ; 20,2 ; 20,2 ; 20,3 ; 20,4 ; 20,8.
Entre quelles limites varie la concentration moyenne de fabrication au
risque de 5 % ?
205
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Résolution :

n = 8. Les résultats donnés (en g/l) sont les xi ;  = 5 %.


L’échantillon étant petit, il faut utiliser l’estimateur S* et recourir à la
distribution de Student. L’I.C. cherché sera donné par :
¿ ¿
S1 S1
X̄ t −t sa ≤µ≤ X̄ 1 +t sa
√n √n
¿
X̄ 1=20 , 1125 S1 =0 , 422365786 σ 1=0 ,395087015 γ=n−1=8−1=7 t s 0, 5 ( 7 )=2 ,365

0 , 422365786 0 , 422365786
⇔20 , 1125−2 , 365. ≤µ≤20 , 1125+2 ,365 .
√8 √8
19 , 76≤µ≤20 , 47 P (19 ,76≤µ≤20 , 47 )=0 ,95

Interprétation

Nous sommes confiants à 95 % que la concentration moyenne de


la fabrication varie entre 19,76 g/l et 20,47 g/l.

5. Intervalle de confiance d’une fréquence :

On dispose d’un échantillon de taille n où le caractère X étudié


ne peut prendre que les valeurs 1 et 0, et où la fréquence d’apparition du
caractère X = 1 est f1. Déterminer un I.C centré sur f1 et susceptible de
recouvrir la fréquence p d’apparition du caractère X = 1 dans la
population, d’où est extrait l’échantillon avec la probabilité 1-.

La fréquence f1 est un élément de la distribution


d’échantillonnage de la fréquence.

1°. Cas d’un échantillonnage non exhaustif


( E (f )= p et σ ( f ) =
√ )
pq
n

En supposant que les conditions de validité de l’approximation normale


sont remplies, c’est-à-dire n.p et n.q  5 avec q = 1-p, on peut écrire :

P−t α
√ p.q
n
≤f i ≤ p+t α
p.q
n √
206
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Où t est déterminé par la loi normale. Cet encadrement délimite un

intervalle de pari pour f 1. On en déduit :


f 1−t α
√ p.q
n
≤ p≤f i +

p.q
n , ce qui
délimite I.C de P et répond au problème posé.

Généralement, la valeur de P est inconnue. Une méthode approximative

consiste à remplacer p sous le √ par la fréquence f1 observée sur


l’échantillon. Cela revient à prendre pour l’écart-type  de f l’estimateur S

avec
S=
√ f 1 ( 1−f 1 )
n

I.C. devient
f 1−t α S≤p≤f 1 +t α S

2°. Cas d’un échantillon exhaustif

Même procédure que précédemment mais il faut remplacer

σ ( f )=
√ √
pq N−n
n
.
N−1 et estimer p par f1 ; q par 1-f1.

T.P

Dans une école de 100 élèves, un sondage sur 35 élèves a


permis de constater que 7 d’entre eux avaient une légère infection
contagieuse. Estimer la proportion d’enfants atteints dans l’école au risque
de 5 %.

Résolution :

Le caractère étudié ici ne peut prendre que 2 valeurs X = 1 pour


les élèves atteints, x = 0 pour les élèves non atteints. La fréquence
7
f 1= =0 , 2 .
d’apparition de x = 1 pour l’échantillon est 35

L’effectif atteint et l’effectif non atteint dans l’échantillon étant


respectivement : nf1 = 7  5 ; n(1-f1) = 28  5. On peut donc appliquer
l’approximation normale. L’IC est donné par :

f 1−t α S≤p≤f 1 +t α S or S=
√ f 1 ( 1−f 1 )
n
⇒ S=
√ 0 ,2×0 , 8
35
=0 , 067612
.

0,2-1,96 x 0,067612  p  0,2 + 1,96 x 0,067612


207
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

0,067  p  0,3325

Nous sommes confiants qu’à 95 % la proportion des élèves atteints dans


l’école est comprise entre 0,067 et 0,3325.

III. TEST DE SIGNIFICATION


Jusqu’ici, nous avons étudié la représentativité d’une population
par tous les échantillons (échantillonnage) et par un échantillon
(estimation). Les tests de signification ont pour objet d’examiner si les
différences observées entre un échantillon et la population mère ou entre
2 échantillons sont dues aux fluctuations d’échantillonnage (c’est-à-dire au
hasard) ou si elles sont significatives. En d’autres termes, ces tests
permettent de résoudre les problèmes :

a. de conformité d’un échantillon à la population ;


b. d’homogénéité de deux échantillons entre eux.

1. Principe de test d’hypothèse


Considérons le problème suivant : étant donné un échantillon de

taille n, dont la moyenne des valeurs d’un certain caractère est


X̄ 1 issue
d’une population P caractérisé par le triplet (N, µ,), peut-on considérer

que la différence entre


X̄ 1 et µ est significative ?

Pour répondre à cette question, il est nécessaire de disposer


d’une méthode permettant de dire par exemple à partir de quelle

différence entre
X̄ 1 et µ l’écart entre l’échantillon et la population est très
grand pour être attribué aux fluctuations d’échantillonnage.

On est amené à formuler une hypothèse qui consiste à supposer


que la différence observée est due aux fluctuations d’échantillonnage, et
qui est appelé hypothèse nulle désignée par H0. On définit aussi une
hypothèse contraire appelée : hypothèse alternative et désignée par : H1.

H1 sera : « La différence observée n’est pas due aux fluctuations


d’échantillonnage mais à une autre cause ».
208
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

On recherche ensuite un critère de test qui permet de rejeter ou de ne pas


rejeter l’hypothèse H0 en tenant compte du risque d’erreur ou seuil de
signification choisie.

X̄ 1−µ
t 0=
σ
Le critère de test est la déviation réduite √n
Sous l’hypothèse H0, ce critère présente des fluctuations d’échantillonnage
qui, pour n  30, sont distribuées normalement. En considérant par
exemple un seuil de 5 %, on est conduit à adopter la règle de décision
suivante :

1°. Si t0 est extérieur à l’intervalle -1,96,1,96, la probabilité de cette


situation étant de 5 % ( = 5 %) sous H0, on rejette H0. On dit que la

différence
X̄ 1 −µ est significative (non due au hasard) au seuil de
signification de 5 %, ou encore que l’échantillon n’est pas
représentatif de la population, au mêle seuil.

Dans ce cas, une erreur peut être commise, qui consiste à rejeter
l’hypothèse H0 alors que celle-ci est exacte. On dit qu’il s’agit d’un risque
d’erreur de première espèce. Il est égal au seuil de signification choisi, et
par conséquent adopter un faible seuil revient à limiter la
probabilité de rejeter à tort l’hypothèse nulle.

2°. Si t0 est intérieure à l’intervalle -1,96 ;1,96, on n’a pas de raison de

rejeter H0. La différence


X̄ 1 −µ est dite non significative, au seuil de 5 %.

On peut accepter H0 et attribuer cette différence au hasard, ou bien on


peut ne prendre aucune décision. L’échantillon étudié n’a pas permis de
constater une différence significative. Dans ce cas, le risque d’erreur est
dit de 2ème espèce : il consiste à ne pas rejeter H0 alors que celle-ci est
fausse. A l’inverse du risque de 1ère espèce, le risque de 2ème espèce
augmente quand on diminue le seuil de signification.

2. Test de conformité
a. Comparaison d’une moyenne observée à une moyenne
théorique
209
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Etant donné un échantillon de taille n dont les valeurs observées

du caractère ont pour moyenne


X̄ 1 , peut-il être considéré comme
représentatif de la population P(N,µ,) ?

X̄ 1−µ
t 0=
σ
1°. Si  est connu, le critère du test H0 est l’écart réduit : √n
2°. Si  n’est pas connu, on utilise son estimateur S* et t 0 devient :
X̄ 1−µ
t 0= ¿
S∗¿
√n
Dans les 2 cas, il faut tester t0 à l’aide de l’intervalle de confiance I.C
déterminé par :

a) La loi normale lorsque n  30 ;


b) La loi de Student lorsque n  30.

T.P. n°1

40 moteurs représentant un échantillon d’une certaine


fabrication ont fonctionné en moyenne pendant 260 jours sans problèmes.
Peut-on considérer cet échantillon comme appartenant à la fabrication
habituelle si dans celle-ci le caractère (c’est-à-dire le nombre de jours
pendant lesquels un moteur a fonctionné sans problème) suit une loi
normale de moyenne 240 jours et d’écart-type 50 jours ?

Résolution

n = 40  30
X̄ 1 =260  = 50 jours µ = 240
260−240
t 0= =2 , 53
50
√ 40
t 0 =2 ,53 ∉ [−1 , 96 ;1 , 96 ] Rejetons : H . Ainsi nous acceptons H .
0 1

1. Hypothèse nulle H0 l’échantillon appartient à la fabrication habituelle.

 La différence observée n’est pas significative (c’est-à-dire elle est due


au hasard). Hypothèse H1 l’échantillon n’appartient pas à la fabrication
210
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

habituelle  la différence observée est significative c’est-à-non due au


hasrd.

T.P. n°2

En vous référant au TP de dosage de sucre, tester si la moyenne µ de la


population est 19,6.

Solution :

S* = 0,42236578

X̄ = 20,1125 ; µ = 19,6 cfr. Recours TP de dosage de sucre.

n = 8  30  recours à la distribution de Student pour trouver I.C.

20 ,1125−19 , 6
t 0= =3 , 43
0 , 42236578
2. Test statistique : √8
Région critique I.C ?

H0 Echantillon est représentatif de la population

H1 Echantillon n’est pas représentatif de la population

Nombre de degré de liberté  = n-1 = 8 – 1 = 7.

 = 0,05

I.C. : -2,365 ;2,365 I.Cs = Intervalle de confiance de Student

t0 l. Cs au seuil de 5 % ; nous rejetons H0 et concluons que l’échantillon


n’est pas représentatif de la population.

b. Comparaison d’une fréquence observée et d’une fréquence


théorique

Etant donné échantillon de taille n où la fréquence d’apparition


d’un certain caractère est f1 ; est-il représentatif de la population mère où
la fréquence d’observation de ce caractère est p ?

Hypothèse nulle : l’échantillon est représentatif ;

Hypothèse alternative : l’échantillon n’est pas représentatif.


211
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

f 1−P
t 0=

Le critère de test est donné par l’écart réduit : √ p.q


n qui doit être testé
à l’aide de l’I.C. approprié.

TP : Le taux d’écoute d’un certain programme de Télévision est


supposé constant et égal à 15 %. A la suite d’une nouvelle présentation,
un sondage limité à 80 téléspectateurs a révélé que 18 d’entre eux ont
suivi ce programme. Peut-on dire que la nouvelle présentation ait
influencé le public au seuil de 5 % ?

Résolution :

Hypothèse nulle : H0 la nouvelle présentation n’a pas influencé le public.

Hypothèse alternative H1 la nouvelle présentation a influencé le public.


nombre de spectateurs a augmenté.

n = 80

ni 18
ni =18 f i= = =0 ,225
n 80

P = 0,15

 = 0,05

Test statistique

f 1− p 0 , 225−0 , 15
t 0= = =1 , 88

√ √
p.q
n
0 ,15 . 0 , 85
80

n.p = 80.0,15 = 12  5 n.q = 80 x 0,85 = 68  5

 = 0,05  +I.C = -1,96 ;1,96

t0 I.C.  on ne peut pas rejeter H0 à 5 %

 La nouvelle présentation n’a pas influencé le public.

C. Test bilatéral et test unilatéral

1°. Test bilatéral :


212
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Supposons pour l’hypothèse H 0, µ = µ0 contrairement à


l’hypothèse alternative H1 où µ µ0. Dans ce cas, il convient de limiter
l’I.C. aux 2 extrémités de la distribution de t (normal ou de Student). Le
test est dit bilatéral. Toutes les applications vues ci-haut se rapportent à
ce cas.
213
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1-
α α
2 2
tα tα

2 0 2 X

( )
P −t a ≤T ≤t a =1−α
2 2

2°.Test unilatéral

* Test de H0 : µ  µ0 (promotion normale par exemple)  H1 : µ 


µ0 (promotion douée par exemple).

Ici, on est conduit à limiter l’I.C au seuil  à la seule extrémité


droite de la distribution de t. On dit que le test est unilatéral.

Règle de décision

Si t0 I.C (c’est-à-dire si t0 t) on ne rejette pas H0. Mais si t0 I.C
(c’est-à-dire si t0 t) on doit rejeter H0.  Dans ce cas on accepte donc H1.

P(T  t) = 1-

1- 

0 t T

* Test de H0 : µ  µ0 (promotion normale par exemple)  H1 : µ  µ0


(promotion faible par exemple).
214
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Le calcul de t0 est toujours le même. Ici on est amené à limiter l’I.C à la


seule extrémité gauche de la distribution de t.

N.B : La règle de décision est la même.

 Si t0 I.C c’est-à-dire t0 t, H0 n’est pas à rejeter ;

Si t0 I.C c’est-à-dire t0 t, H0 est à rejeter c’est-à-dire H1 devient


acceptable dans ce cas.

-t 0 T

P ( T ≥−t α ) =1−α

Remarque : Les limites de l’I.C à  ne sont pas les mêmes suivant que le
test est bilatéral ou unilatéral. Le tableau suivant donne quelques valeurs
de t pour une distribution normale de l’écart réduit t.

Risque  0,5 % 1% 5% 10 %

Seuil de confiance 1- 99,5 % 99 % 95 % 90 %

t bilatéral 2,81 2,575 1,96 1,645

t unilatéral 2,575 2,33 1,645 1,28

3. Test d’homogénéité :
a. Comparaison de 2 moyennes observées :

Soient
X̄ 1 et X̄ 2 les moyennes des valeurs d’un caractère

observé sur deux échantillons 1 et 2.


X̄ 1 est un élément de la distribution

d’échantillonnage des moyennes défini sur une population P 1.


X̄ 2 est un
élément de la distribution d’échantillonnage défini sur P 2.

Il s’agit de déterminer si ces 2 échantillons proviennent de 2


populations, P1 et P2 de même moyenne. On dit alors qu’ils sont
homogènes.
215
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Supposons que les 2 échantillons sont caractérisés par (n 1,


X̄ 1 , )
1

et (n2,
X̄ 2 , ) et les 2 populations par (µ ,  ) et (µ , ).
2 1 p1 2 P2

Hypothèse nulle H0 : µ1 = µ2 H1 :µ1 µ2 Test bilatéral.

1°. Cas des grands échantillons : n1 et n2 30

Les distributions des moyennes peuvent être considérées comme

X̄ 1 ,− X̄ 2
normales. Sous l’hypothèse H0, n ( ) est distribué normalement avec

une moyenne µ1 – µ2 = 0 et une variance.

σ 2p1 σ 2p2
V X̄ X̄ =V X̄ 1 +V X̄ 2 = +
1 2 n1 n2

σ X̄
1
− X̄ 2=
√ σ 2p t
n1
+
σ 2p1
n2
X̄ 1 − X̄ 2
t n=


2 2
σp σP
1 2
+
n1 n2
L’écart réduit à tester est donc

σp σp
1 2
Si les écarts-types et sont inconnus, on les remplace par leurs

S¿1 S¿2
estimateurs et . En particulier, si les échantillons sont très grands, on

peut prendre :

S¿1 S¿2
= 1 et = 2. On poursuit alors le test en utilisant l’I.C correspondant

au risque  et à une distribution normale et on applique la règle de

décision habituelle.

2°. Cas où l’un des échantillons ou les 2 sont petits (n  30)


216
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

On suppose, pour simplifier, que les populations mères p1 et p2


2 2 2
σ p1 =σ p2 =σ
sont normales et qu’elles ont la même variance : .

S¿ 2 σ2
L’estimateur de est donné par :

( n 1−1 ) S¿1 2 + ( n2 −1 ) S ¿22


¿2
S =
( n1 −1 ) + ( n2 −1 )
X̄ 1− X̄ 2 X̄ 1− X̄ 2
t n= =

Dans ce cas, l’écart réduit devient


√ S ¿2 S ¿2
+
n1 n 2
S
¿

√ 1 1
+
n1 n 2

0n poursuit le test en utilisant l’I.C correspondant au risque  et

au nombre de degré de liberté  = n1 + n2 -2 dans la loi de Student suivi

de la règle de décision habituelle.

TP : Deux instituts différents ont obtenu, au cours d’une épreuve,

les résultats suivants :

Institut Nbre d’élèves Note moyenne Ecart-type

A 65 13,2 1,8

B 85 12,5 1,6

Ces résultats ont-ils une différence significative au risque de 1 % ?

Résolution :

n1 = 65 n2 = 85

13 ,2−12 ,5
t n=

√ ( 1, 8 )2 ( 1 , 6 )2
65
+
85
217
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

S¿1 =σ 1 et S ¿2=σ 2
Ici on a adopté l’approximation étant donné qu’on

a des grands échantillons. Comme les échantillons sont grands (n  30)

alors on va adopter la loi normale pour calculer l’IC. au risque de 1 %. Le

test est bilatéral  t0,01= 2,575  I.C. = -2,575 ;2,575.

H0 : µA = µB : les performances moyennes sont les mêmes dans les 2

instituts. La différence apparente est due au hasard.

H1 : µA µB : les performances moyennes observées ne sont pas les

mêmes et la différence apparente est significative.


218
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Règle de décision :

t0-2,575 ;2,575. On ne peut rejeter l’hypothèse nulle H0 à 1 %  les

performances sont les mêmes dans les 2 instituts au

risque de 1 %.

b. Comparaison de 2 fréquences

Soient f1 et f2 les fréquences d’apparition d’un certain caractère

dans 2 échantillons 1 et 2. f1 est un élément de la distribution

d’échantillonnage de la fréquence fA définie sur une population PA. De

même f2 est un élément de la distribution de fB définie sur une population

PB.

Il s’agit de déterminer si ces 2 échantillons proviennent de 2

populations PA et PB ayant la même proportion d’éléments possédant ce

caractère. Hypothèse nulle H0 : PA = PB H1 :PA PB Test bilatéral P :

proportions. Lorsque les effectifs n.q et n.p sont  5, les distributions de fA

et de fB peuvent être considérées comme normales. Sous l’hypothèse H0,

f1-f2 (dans les échantillons) est distribuée normalement avec une

moyenne PA-PB= 0 ; une variance.

p.q p.q
V t −t =V t 1 +V t 2 = +
1 2 n1 n2
puisque sous l’hypothèse nulle nous disons

PA=PB=P.

f 1 −f 2
t n=

Par conséquent, l’écart réduit est :


√ pq
( 1 1
+
n1 n2 )
219
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Une méthode approximative consiste à prendre pour p qui est

généralement inconnue, le pourcentage moyen entre les 2 échantillons


n1 f 1 + n2 f 2
P=
n1 + n2
soit et q = 1-p. On peut alors tester à l’aide de l’I.C

déterminé par la loi normale et décider de la validité de H0.

T.P :Au cours de 2 livraisons différentes, on a relevé 48 articles

défectueux parmi les 800 constituant la 1ère livraison et 32 articles

défectueux parmi les 400 constituant la 2ème livraison. Les 2

pourcentages d’articles défectueux observés diffèrent-il d’une manière

significative au seuil de 5 %.

Résolution :

n t1 48
n1 =800 et nt 1=48⇒ f 1 = = =0 , 06 .
n1 800

n 32
n2 =400 et nt =32⇒ f 2 = 1 = =0 , 08
2 n2 400

n1 f 1 +n2 f 2 800 . 0 ,06 +400 . 0 ;08


p= = =0 , 06667
n1 +n 2 800+400

q=1−P=1−0 , 06667=0 , 9333 .


f 1−f 2 0 , 06−0 ,08
t n= = =−1 , 3093=−1 , 31

√ p .q
( n1 + n1 )
1 2 √ 0 , 06667 . 0 , 93333
1
(+
1
800 400 )
H0 : les pourcentages sont égaux c’est-à-dire la différence observée est

due au hasard : P1 = P2
220
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

H1 : les 2 pourcentages sont différents c’est-à-dire la différence observée

est significative : P1 P2.

Pour chercher l’I.C, examinons d’abord les produits n.p et n.a ; n.p et n.q

sont  5  nous adoptons la loi normale. Comme  = 0,05 ; I.C. = -1,96 ;

1,96 t0-1,96 ; 1,96

 On ne peut rejeter l’hypothèse nulle H0.

 La différence observée n’est pas significative au seuil de 5 % ;

 Au seuil de 5 %, la proportion des articles défectueux est la même.

IV. TEST DU KHI-DEUX (2)


A. Distribution du 2

Considérons une population normale d’écart-type  et tous les

échantillons de taille n pouvant être extrait de cette population et

X̄ i X̄ i
caractérisée par (n, ) où est la moyenne du caractère X dans

l’échantillon i. Pour chaque échantillon i on calcule le paramètre


n
∑ ( x ij− X̄ i )
2

χ ¿i = i=1 2
σ

x ij
Où est la valeur du caractère du jè individu de l’échantillon i.

Où j et i sont les indices de notation

On définit ainsi la distribution d’échantillonnage de ². La théorie montre

χ 2i
que lorsque la population est distribuée normalement, le caractère suit
221
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

une loi dite « loi de ² » de densité de probabilité définie par

2 ( 2)
γ 2
−1 χ
f ( χ ) =A ( χ )
2
.e 2

où est le nombre de degré de liberté :  = n-1

A est une constante dépendant uniquement de .

A chaque valeur de  correspond une distribution théorique.

Comme pour la loi normale et la loi de Student, on peut définir

les intervalles de confiance. Il existe de tables statistiques donnant la

χ 2α
valeur de ayant la probabilité  d’être égalée ou dépassée, en fonction

du nombre de degré de liberté . Si  30, on utilise le fait que le

paramètre
√ 2 χ2
est distribué approximativement suivant une loi normale

de moyenne
√ 2 ∂−1 et d’écart-type égale à 1.

B. Test de conformité

Il s’agit de comparer une distribution d’un caractère observé sur

un échantillon donné et une distribution théorique basée sur un modèle

susceptible de décrire la probabilité d’observer une valeur du caractère.

On dit parfois que l’on cherche à ajuster une distribution expérimentale à

une distribution théorique. L’hypothèse nulle consiste à supposer que l’on

a concordance des 2 distributions. Le critère du test est :

2
r
( n k−npk )
χ =∑
2

k =1 npk

Où nk = effectif observé ayant le caractère k

pk = probabilité d’observer le caractère


222
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

npk = valeur théorique de cet effectif

n = effectif de l’échantillon

r = nombre de modalités ou nombre de classes

Sous l’hypothèse nulle, le ² ainsi calculé devrait être nul. Il sera

d’autant plus grand que les 2 distributions divergent. Pour déterminer un

intervalle de confiance sur la loi f (²), il est nécessaire de connaître le

nombre de degré de liberté .

D’une manière générale,  est égal au nombre de comparaisons

possibles diminué du nombre de relations entre les effectifs théoriques,

soit  = r-L. Le seuil de signification  étant connu, on utilise la table du ²

χ 2α
pour déterminer la valeur de ayant la probabilité  d’être dépassé et

on applique la règle de décision suivante :

 χ 2 ≤ χ 2α
; l’hypothèse H0 est valable.

 χ 2 ¿ χ 2α ¿
; l’hypothèse H0 est à rejeter.

Exemple : Les résultats des épreuves d’un examen à l’échelle nationale

sont 60 % de satisfaction (réussite) 25 % des ajournés et 15 %

des éliminés (ou refusés). Un établissement présente 160

élèves et obtient 75 réussites, 53 ajournés et 32 éliminés. Y a-t-

il conformité entre ces résultats et ceux valables à l’échelle

nationale au seuil de 1 % et au seuil de 1 ‰ ?

Résolution :
223
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

- Caractère étudié : les résultats des épreuves d’examen ;


- Les modalités : classe de réussites, des ajournées et des

éliminés : 3 modalités ;
- Hypothèse nulle H0 : il y a conformité entre les résultats de

l’établissement et ceux de l’échelle nationale ;


- Hypothèse alternative H1 : les résultats de l’établissement ne

sont pas conformes à ceux de l’échelle nationale.

Tableau intermédiaire des calculs de ²

nk pk npk ( nk −npk )2 ( n k−npk )2


npk

Réussites 75 0,60 96 441 4,59375

Ajournés 53 0,25 40 169 4,225

Eliminés 32 0,15 24 64 2,666666

Total 160 1 160 - ² = 11,485416

χ 2 ¿ χ 2α ¿
Règle de décision : rejeter H0 si

χ 20 , 01=9 , 21
 = r-1 =3-1 = 2 Pr = 1 %  9,21

χ 2 0 =13 , 82
1
00
Pr = 1 ‰  13,82

χ2
1 %= 9 , 21 ¿ ¿

 Il y a conformité au seuil de 1 ‰ mais il convient de rejeter H0 au seuil

de 1 %.
224
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

C. Test d’homogénéité

Il s’agit de comparer entre elles les distributions relatives à

plusieurs échantillons enfin de déterminer si les différences observées

sont significatives ou si elles sont dues à des fluctuations

d’échantillonnage. Dans ce cas, les données figurent en général sur un

tableau à double entrée (tableau de contingence). Où par exemple les

échantillons sont portés en lignes désignées par i = 1,2,…l et les classes

en colonnes désignées par k = 1,2,…, r. Pour chaque case ik du tableau,

l’effectif théorique est estimé à l’aide du produit du total des effectifs de la

ligne i par le total des effectifs da la colonne k divisé par l’effectif total.

( )( ∑ )
ℓ r
∑ nik nik
i=1 k=1
t ik=
n
Soit

( nik −t ik ) 2
χ =∑
2

ik t ik
Le ² relatif à l’ensemble des données est :

Le nombre de degré de liberté  = (l-1) (r-1-.

Comme précédemment on peut alors tester l’hypothèse nulle qui

consiste ici à supposer que les échantillons sont homogènes.

Exemple : Dans le cadre de l’exemple précédent, 2 établissements A et B

ont obtenu les résultats qui suivent. Tester au seuil de 10 % et

de 5 % l’hypothèse qu’il n’y a pas de différence significative

entre les résultats obtenus par les 2 établissements.

Réussites Ajournés Refusés Total


225
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

ETS A 75 effect n 53 46 32 28 160

86

ETS B 140 129 62 69 38 42 240

Total 215 115 70 n = 400

Résolution :

H0 : Les résultats des 2 ETS sont homogènes

H1 : Les résultats des 2 ETS ne sont pas homogènes

Critère de test : calcul de ² en commençant par le calcul des effectifs

théoriques. Nous avons un tableau à double entrée de nik où 1  k  3. k :

classes 3, 1  i  2 i : échantillons : 2 Pour chaque case ik, il faut

calculer tik.

2 3
∑ nik ∑ nik ( nik −tik )2
t ik= i=1 k =1
χ ²=∑
n ik t ik

160×215 2 (75−86 )2 ( 53−46 )2 ( 32−28 )2


t 11= =86 χ= + +
400 86 46 28

240×215 ( 140−129 )2 ( 62−69 )2 ( 38−42 )2


t 21= =129 + + +
400 129 69 42

160×115
t 12= =46 χ 2=5 ,072704512
100

etc . χ 2≈5,075

χ 2 ¿ χ 2α ¿

→ χ 210 % ( 2 )=4 , 61
Rejet de H0 si  = (I-1) (r-1)  = 0,1
226
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

→ χ 25 % ( 2 )=5 , 99
= (2-1) (3-1) = 2  = 0,05

 Il y a lieu de rejeter l’hypothèse d’homogénéité au seuil de 10 % mais

nous pouvons la retenir au seuil de 5 %.

V. TEST D’HYPOTHESE DU COEFFICIENT DE


CORRELATION POUR L’AJUSTEMENT LINEAIRE

Considérons une population où les 2 caractères X et Y sont

distribuées normalement et où tous les échantillons de taille n

susceptibles d’être extrait de cette population. On introduit un nouveau

caractère R qui à l’échantillon i associe un coefficient de corrélation ri

déterminé sur cet échantillon. On définit ainsi une distribution

d’échantillonnage r1, r2,…,rk où k désigne le nombre total d’échantillons.

On peut se demander si le coefficient ri peut servir à l’estimation par I.C.

du coefficient de corrélation  de la population mère. Le caractère r

n’étant pas nécessairement distribué normalement, on est amené à

distinguer 2 cas suivant que l’on a à tester l’hypothèse  = 0 ou  0.


227
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

a) Test de l’hypothèse  = 0

Le problème posé est le suivant : on se demande si le coefficient

de corrélation r0 observé au niveau de l’échantillon est compatible avec

l’hypothèse d’absence de corrélation dans la population.

- Hypothèse nulle H0 :  = 0
- Hypothèse alternative H1 : 0

On peut procéder de 2 manières différentes mais finalement

équivalentes :

1°. Sous H0, la distribution de r est symétrique. On montre que la variable


r √ϑ
t=
√1−r 2 où  = n-2 suit une distribution de Student.

rα √ ϑ
tα=
√ 1−r 2α
Le critère de test est alors

A partir de la table de loi de Student, on peut déterminer l’intervalle de

confiance I.C correspondant au seuil  et degré de liberté  et appliquer

la règle de décision suivante :

Si t I.C, on rejette l’hypothèse  = 0

Si t I.C, on ne peut rejeter l’hypothèse  = 0

2°. Le critère est r0

Sous l’hypothèse  = 0, la distribution de r est symétrique de

moyenne 0. La table de coefficient de corrélation déduite de la table de la


228
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

loi de Student donne directement les valeurs du coefficient de corrélation.

Cette table permet de déterminer l’I.C pour r0 sous l’hypothèse  = 0.

I . C rαϑ I . C rαϑ
Si r , on rejette H0. Si r , on ne peut rejeter H0.

Exemple : Peut-on déduire que le coefficient de corrélation de la

population n’est pas nul au seuil de 5 % au vue des résultats r = 0,856 et

n = 12 concernant l’étude du degré de liaison entre les notes obtenues en

Mathématique et les notes obtenues en Statistique.

Résolution

H0 :  = 0

H1 :  0

rα √ ϑ 0 , 856 √12−2
tα= = =5 ,236046957≈5 , 24
1ère méthode :
√ 1−r α 2
√1− ( 0 , 856 )

I .C α=5 %,ϑ =10


Si unilatéral = 1,812 cfr. Table de Student.

Règle de décision rejeter H0 si t t

t = 5,24  t5% unilatéral = 1,812

 Au seuil de 5 % nous acceptons que le coefficient de corrélation est

significatif c’est-à-dire que les notes en mathématique et les notes

obtenues en statistique sont fortement corrélées.

Critère de test : r0 = 0,856

r=5%(=10) (unilatéral) = 0,4973.


229
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Conclusion : r r5%10 nous rejetons H0 comme précédemment et nous

concluons que les notes en Mathématique et celles en Statistique sont

fortement corrélées.

Remarque : Le test de l’hypothèse  = 0 constitue un test de

signification : il s’agit de déterminer si la corrélation observée

peut être expliquée par les fluctuations d’échantillonnage ou

si elle est significative.

b) Test de l’hypothèse  = 

Lorsque le test précédent conduit à rejeter l’hypothèse  = 0, le

problème reste de savoir si on peut rejeter l’hypothèse que  a une valeur

donnée 0. Dans ce cas, la distribution d’échantillonnage r est

dissymétrique. On utilise alors la transformation dite de « FISHER » qui

transforme r en une autre variable aléatoire


1
Z= ln
2 [ ]
1+r
1−r
qui suit

approximativement une loi normale de moyenne µ.

1
µZ = ln
2 [ ]
1+ ρ0
1− ρ0
et σ Z =
1
√ n−3

Il existe une table qui donne les valeurs des variables de Fisher Z pour les

valeurs comprises entre 0 et 1. Elle fournit de même la valeur de µZ

correspondant à . La démarche du test est alors la suivante :

- Formuler l’hypothèse nulle H0 et l’hypothèse alternative H1 ;


- Ayant calculé le coefficient r0 de l’échantillon, déterminer la

valeur de la variable Z0 correspondante ;


230
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

- Opérer de la même manière pour trouver µZ correspondant à 0 ;

|Z 0 −µZ| |Z 0 −µZ|
Z= =


σZ 1
- n−3
Le critère de test est alors : ;

-
Déterminer l’I.C sur la table de la loi normale ;

- Appliquer la règle de décision habituelle ;

Remarque : La transformation de Fisher est générale. Elle peut aussi

s’appliquer au test de l’hypothèse 0 = 0.

Exemple 1: Reprenons l’exercice sur les notes obtenues en

mathématique et en Statistique sur 12 candidats r0 = 0,856.

Peut- on rejeter l’hypothèse que le coefficient de corrélation

de la population soit aussi élevé que  = 0,90 au seuil de 5

%?

Résolution

H0 :  = 0 = 0,9 Test unilatéral.

H1 : P  0,90

Critère de test :

Z 0= ln
[
1 1+0 , 856
2 1−0 , 856 ] 1 1+0 ,9
=1 , 278182807 µZ = ln
2 1−0 , 9 [
=1 , 47221949
]
1 1
σ Z= = =0 , 3333333
√ n−3 √12−3
|1 , 278182807−1 , 473219491|
⇒ Z= =0 ,582110100
0 , 3333333
231
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Règle de décision : rejet de H0 si t0 t ou bien –Z  -t

I.C5% test unilatéral, loi normale : t5% = 1,645.

-t = -1,645

-z = -0,58 z = 0,58  t5%=1,645

Donc nous ne pouvons rejeter H0. Ici les notes sont fortement

corrélées à 0,90.

Exemple 2 : Dans l’exemple précédent, déterminer les limites de

confiance à95 % du coefficient de corrélation de la population.

Résolution :

L’I.C. à 95 % du µz est :

Z0-Zzµz Z0 + Zz

1,278182807 – 1,96 x 0,33333  µz  1,278182807 + 1,96 x

0,33333

0,63  µz  1,93

|Z 0−µ Z|
z= ⇔ Z 0 −Zσ Z ≤u Z ≤Z 0+ Zσ Z
σZ

Connaissant déjà l’intervalle de µZ, on déduit l’intervalle de p,

soit à partir de la table, soit à partir de l’expression de Z. Après

interpolation, on trouve l’intervalle de confiance de p : 0,55  0,96 

0,56  0,96.


232
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

VI. ANALYSE DE LA VARIANCE POUR LA


COMPARAISON DE PLUSIEURS MOYENNES

VI.1. INTRODUCTION
On considère une expérimentation agricole au cours de
laquelle trois variétés de maïs sont cultivées dans plusieurs champs de
dimension égale et leurs récoltes par champ sont prélevées. On est
intéressé à tester l’hypothèse nulle selon laquelle les 3 variétés de maïs
produisent en moyenne des récoltes égales en quantité.

Pour tester si deux variétés particulières parmi les trois sont


significativement différentes, nous avons utilisé le test approprié en
l’occurrence le test d’hypothèse. Cependant, pour tester simultanément
l’égalité des moyennes de plusieurs populations (quand les populations
sont normalement distribuées avec une même variance : c’est l’hypothèse
en ANOVA), une nouvelle technique appelée Analyse de la VARIANCE,
Analysis of Variance en Anglais d’où l’abréviation ANOVA s’impose. Le
problème nous ramène ici à décider si les différences observées parmi
plus de deux moyennes d’échantillons distincts peuvent être attribuées à
la chance (hasard) ou bien s’il existe de réelle différence parmi les
moyennes de population échantillonnée. L’ANOVA est donc une méthode
qui consiste à la comparaison des moyennes de plusieurs populations et
permet de départitionner la variabilité totale des données composantes
expressives qui mesure les différentes sources de variabilité. Les modèles
de l’ANOVA sont utilisés pour analyser les effets d’une ou plusieurs
variables indépendantes sous études sur la variable dépendante à
expliquer. En revenant en expérimentation en récolte, nous obtenons deux
composantes : la 1ère mesure l’erreur expérimentale et la 2 e n’importe
quelle variabilité due aux différentes variétés de maïs. Si l’hypothèse nulle
est vraie et les 3 variétés de maïs produisent en moyenne de quantités de
récolte égales, alors les deux composantes fournissent l’estimateur
indépendant de l’erreur expérimentale. D’où nous basons notre test sur
une comparaison de ces deux éléments au moyen de la statistique du test
F. La classification des observations sur la base d’un seul critère tel que la
233
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

variété des maïs est appelée ANOVA I. Si les observations sont classées
d’après deux critères tels que la variété du maïs et le type d’engrais, nous
avons à faire à ce qu’on appelle une ANOVA à deux facteurs soit ANOVA II.

VOCABULAIRE
- Facteur : c’est une variable explicative qui intervient dans l’analyse.
S’il n’est pas qualitatif, il est quantitatif.

- Niveau de facteur : c’est une forme particulière de ce facteur.

- Unité expérimentale : c’est un objet sur lequel les mesures sont


prises.

- Traitement : il s’agit de n’importe quelle condition identifiable dont


l’effet sur la variable mesurée est sous étude

Le traitement correspond à un niveau de facteur.

Par exemple : une expérience est conduite enfin de déterminer si les 4


types de température affectent la densité d’un certain type de brique.
Les températures sont 100, 125, 150, 175.

Facteur= variable explicative : température

Variable expliquée : densité de brique.

Niveau de facteur : il s’agit de 4 niveaux de température qui


sont 100, 125, 150, 175.

Traitement : on a 4 traitements dont t°1, t°2, t°3 ; t°4.

Unité expérimentale : ce sont les briques.

VI.2. ANALYSE DE LA VARIANCE A UN FACTEUR


(ANOVA I)
Le concept ANOVA à un facteur se réfère au fait qu’il ya
seulement un facteur ou une caractéristique sous étude au cours d’une
expérience. Chaque sujet est classé de telle manière qu’il appartienne
qu’à un niveau exactement de ce facteur.

Nous n’avons ainsi qu’une seule variable de classification en vue de


permettre une utilisation simple des méthodes d’inférence statistique,
234
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

certaines conditions sont imposées aux populations étudiées ainsi qu’aux


échantillons extraits. Pour l’ANOVA I, ses conditions d’application sont les
suivantes :

1° la variable étudiée suit une distribution normale de moyenne et de
2
variance .

μ , σ 2 : Y i → N ( μ i , σ 2i )

2° les k populations sont indépendantes et normalement distribuées avec


pour moyenne µ1, µ2……..,µk et une variance commune σ 2 c’est-à-dire i2=
2 (homoscédasticité).

3° Les échantillons aléatoires extraits de chacune de k populations


(traitements ou niveau de facteur) sont indépendants et identiquement
distribuées (iid).

En pratique, une expérience répondant au modèle de


l’ANOVA I se présente comme suit : Pour chacune de k populations, on
effectue ni observations aléatoires et indépendantes notées Y i1, Yi2, Yi3, ….. ,
Yij,…, Yij, …. Yini. Avec i=1,2, …, k et j=1,2, …, n i. L’indice i repère la
population et l’indice j numérote les observations des échantillons
k
∑ ni
i=1
correspondants. Le nombre total d’observation est N= Un cas
important et fréquent est celui où tous les échantillons sont de même
taille n1=n2=…=nk=n. Dans ce cas, le nombre total d’observation est
k k
N=∑ ni =∑ n=k x n.
i=1 i=1
La variable aléatoire Yij dénote la jième
observation de la ième population, les données sont alors arrangées telles
qu’elles apparaissent dans le tableau statistique ci-dessous.
235
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

TRAITENT UNITE DE L’ECHANTILLON TOTAL # des Moyenne


ou (j) unités de d’échantillo
NIVEAU l’échantillo n
DE n
FACTEUR 1 2 … j … ni
1 Y11 Y12 … Y1j … Y1n1 Y1. n1 Ŷ1=Y1./n1
2 Y21 Y22 … Y2j … Y2n2 Y2. n2 Ŷ2=Y2./n2
… … … … … … … … … …
I Yi1 Yi2 … Yij … Yini Yi ni Ŷ1=Yi./ ni
… … … … … … … … … …

K Yk1 Yk2 … Ykj … Yknk Yk. nk Ŷk=Yk./nk


Y.. N Ŷ...=Y../ N

Une 1ère description de l’expérience peut se faire à l’aide des


statistiques suivantes :

n1 n1
1 1
∑Y
ni j=1 ij 2
n1−1 ∑
( y ij− ȳ i )2
i
Ŷ i= et s =

Sous les conditions imposées à l’expérience on a les


modalités suivantes :

1) ŷi→N(
( )μi
σ 2i
ni

S
i2

σ 2 X (2ni−1 )
2) (n1-1) →

2 2
1 k
3) ŷ1,…,ŷket, …, S , …, S sont des variables indépendantes. On définit
encore la moyenne générale de toutes les observations par :
ni 1
1 1
N ∑i =1 ∑
k
j=1
Y ij
N
∑ ni .
ŷ= = ŷi.(6.1)

Nous désirons dériver les méthodes appropriées pour tester les


μ1 μ2 =.. . .. .. . .=μi =.. .. . .. .. . .=μk μ1 =μ2 =ui =.. .. . ..=uk
hypothèses Ho : =
236
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Ha : au moins 2 moyennes ne sont pas égales.

VI.2.1. Equation de l’ANOVA I :


L’expérience, telle que décrite, permet de définir différents
types d’écarts:

^y . . .
a) Ecart entre une observation Yij et la moyenne générale

Celui-ci s’appelle « écart total » =Yij-ŷ…

b) Ecart entre une observation Yij faite pour la ième population et la


moyenne expérimentale ŷi. de cette population. C’est « l’écart
résiduel »=Yij-ŷi.

c) Ecart entre la moyenne expérimentale de la i ème population ŷi et la


^y i − ^y .
moyenne totale ŷ.. C’est « l’écart factoriel » = . On constate
que ces écarts sont liés par l’identité suivante : (yij-ŷ…)=(ŷ1-ŷ…)+(yij-
ŷi.).

En élevant au carré et en faisant la somme sur toutes les observations,


on obtient :

k ni k ni k ni

∑ ∑ Y ij− ) =∑2
∑ ( ∑ ∑ ( y ij
i=1 j=1 i=1 j =1= i=1 j=1
ŷ.. ŷi-ŷ..)2+ -ŷ1..)2(6.2).

La relation (6.2) représente l’équation de l’ANOVA et est


souvent appelée la somme des carrés des écarts totaux en Anglais Sum of
squared totals d’où la notion SSTO. Cette relation montre aussi deux
composantes additives : la somme des carrés des écarts factoriels (SSTR) :
sum of squared treatments) et la somme des carrés des écarts résiduels
(sum of squart errors) SSE. Le SSTR mesure la variabilité due à la chance
lorsque Ho est vraie, mais reflète aussi la variabilité parmi la moyenne de
la population quand Ho est fausse.

La pratique qui consiste à se référer aux différentes


populations comme différents traitements, vient du fait que plusieurs
techniques de l’ANOVA ont été originellement développées en rapport
237
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

avec les expériences en agriculture où différents engrais par exemple


étaient considérés comme différents traitements appliqués au sol.

Le SSE mesure aussi la variabilité due à la chance, mais des


variations à l’intérieur de l’échantillon.

Schématiquement on a : SSTO=SSTR+SSE.

k n k y
1 . .. 2
∑ ∑ Y ij2− n ∑ Y i2− kn
i=1 i=1
j=1
. Si n1=n2=…ni=…nk=n, on a :SSTO=

k 2 k ni k
1 y ... 1

n i =1
y 2i −
n
∑∑ Y 2ij−
n i=1
∑ yi 2=SSTO−SSTR.
i=1 j=1
SSTR= SSE=

. Au cas où les ni sont différents, les formules deviennent :

. SSTO=SSTR+SSE.

Si n1≠n2≠…≠n1, ≠… nk≠n, on a :

k ni 2
y
∑ ∑ Y 2ij− N
i=1 j=1
SSTO=

k
Y 1i y 2
∑ ni N

i=1
SSTR=
k
∑ ni
i=1
N=

k k k
y 2i
∑ ∑ y 2ij −∑ ni
=SSTO−SSTR
i=1 i=1 i =1
SSE=

SSE
σ2
est une valeur de la variable aléatoire ayant pour moyenne N-k et en
SSE
N −K σ2
conséquence Peut servir comme estimateur non biaisé de .
238
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Cette quantité est appelée le carré moyen résiduel et est noté par MSE,
SSE
( )=E( MSE )=σ 2
N −k
d’où l’espérance mathématique E

SSTR
k−1 σ2
Le rapport fournit le 27ème estimateur sans biais de . Cette nouvelle
quantité est appelée le carré moyen factoriel et est noté par MSTR. Si Ho
est vraie alors, on a :

SSTR
(
k−1 σ2
E )=E(MSTR)=

MSE et MSTR sont des variables indépendantes. Au cas où l’Ho est fausse,
et selon la propriété des estimateurs biaisés, on a :

1
σ 2+
k−1
∑ ni ai 2 où
E(MSTR)= ai=ii-i

Si on a à faire à des échantillons de tailles égales, alors on


obtient
k
n ∑ a2i
i=1
k−1
E(MS TR)=2+

Pour prendre la décision selon laquelle Ho : les moyennes de


population sont égales, il faut que MSTR soit significativement supérieur à
MSE. Concrètement, on accepte sans démonstration que les estimateurs
correspondants sont indépendants. Ce qui nous permet d’utiliser le
théorème de FISHER Snédécor selon lequel :

SSTR SSTR
( h−1 ) σ 2 k−1 MSTR
f c= = =
SSE SSE MSE
k ( n−1 ) σ 2
k ( n−1 ) k ( n−1 )=kn−k =n−k
avec

fc
est une valeur d’une variable aléatoire ayant une distribution de FISHER
avec k-1 et k(n-1) degrés de liberté.
239
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
2
γ1 χ γ1
χ2
γ1 γ1
f c= = ⇒ F ( γ1 , γ 2 )
2
γ2 χ 2
γ2
χ
γ2 γ2

Nous rejetons l’hypothèse nulle que les moyennes des


populations sont toutes égales si la valeur obtenue fc dépasse

fa{(k-1),k(n-1)}. Les détails nécessaires à la technique


d’ANOVA I sot généralement résumés dans un tableau qui se présente
comme suit :

TABLEAU D’ANOVA I :

SOURCE DE SOMME DES DEGRES DE CARRE MOYEN STATISTIQUE


VARIATION CARRES LIBERTE DU TEST F

Traitements SSTR k-1 MSTR=SSTR/(k- MSTR


1) MSE
Fc =

Erreur SSE N-k MSE=SSE/(N-k) -

Totale SSTO N-1 - -

SSB
SSW
Fc= dans les ouvrages anglo-saxons. MSTR=SSB MSE=SSW.

SSB
SSW
f c= dans les ouvrages anglo-saxons.

Ex1 : Les données suivantes représentent le nombre d’heures de


soulagement procurés par 5 marques différentes d’aspirine administrées à
25 sujets. Les 25 sujets sont choisis au hasard et repartis en 5 groupes.
Les sujets, dans chaque groupe, ont été traités avec une différente
marque d’aspirines.

Groupes
240
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

marque I II III IV V

d’aspirin A 5 4 8 6 3 Y1.=2 2
1
Y =676
e 6

B 9 7 8 6 9 Y2.=3 2
2
Y =152
9
1

C 3 5 2 3 7 Y3.=2 2
3
Y =400
0

D 2 3 4 1 4 Y4.=1 2
4
Y =196
4

E 7 6 9 4 7 Y5.=3 2
5
Y =108
3
9

TOTAL GENERAL 132 3882

Tester au seuil de 5% l’hypothèse que le nombre moyen d’heures de


soulagement procuré est le même pour toutes les 5 marques d’aspirines.

Données

Facteurs : Variable explicative : Aspirine=facteur.

Variable expliquée : le nombre d’heures de soulagement.

Niveau de facteurs : 5 marques : marque 1, 2, 3, 4, 5. A B C D E.

Traitement : marque d’aspirine, 1, 2, 3, 4, 5. A B C D E

Unité expérimentale : le sujet soit l’individu.


2
1
Calcul carré des totaux (Y )
k
∑ Y 21
i=1
=3882
241
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Y 2. . .
=(132)2=17424

Y2=(132)2=17424

 Somme des carrés

n=5

k=5

N=kn=25
k ni
∑ ∑ Y 2ij
i=1 i =1
=25+16+64+36+9+81+49+64+36+81+9+25+4+9+49+4+9+1
6+1+16+49+36+81+16+49=834

k ni
y2
∑∑ yij2
N =kn
i=1 j=1
SSTO= -

17424 20850−17424
= =137 , 04
25 25
SSTO=834-
k
1 y2 1 17424

n i=1
2
y i − = 3882−
N 5 25
=776 , 4−696 , 96=79 ;44
SSTR=

SSE=SSTO-SSTR=137,04-79,44=57,6

TABLEAU ANOVA I

Source de Somme ddl Carrés Statistique su


variation des moyens test
carrés

Traitement 79,44 4=5-1 19,86=79,44/ Fc=


4 19 , 86
=6 ,896
2,88

Erreur 57,6 20=25-5 2,88=57,6/20

Totale 137,04 24=25-1 -


242
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Fa{(k-1),k(n-1)}=fa{(k-1),(N-k)}

F0,05(4,20)=2,87

μ
Soit la moyenne d’heures de soulagement procurée par les aspirines de
la ièmé marque :

μ1 =μ2 =μ3 =μ4 =μ5


1° Ho :

Ha : au moins 2 moyennes ne sont pas égales.

2° Seuil de signification a= 0,05.

3° Comme il s’agit de l’égalité des moyennes de plus de 2 populations à


un seul critère de classification, nous utilisons la technique de l’ANOVA I
MSTR
MSE
au test statistique approprié F= .

Fα [ ( k −1 ) , k ( n−1 ) ]
4° Rejeter Ho si Fc>

5° Décision: étant donné Fc=6,896>F0,05, (4,20)=2,87, nous rejetons Ho au


seuil a=0,05.

6° Nous concluons que le nombre moyen d’heure de soulagement procuré


par les aspirines n’est pas le même pour toutes les marques. Il faut alors
vérifier si les sujets auxquels se fait l’expérience étaient homogènes ; si
les conditions de l’expérience ont été identiques.

26
=5 , 2
5
Ŷ1.=

39
=7 , 8
5
Ŷ2=

20
=4
5
Ŷ3=

15
=2 ,8
5
Ŷ4=
243
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

33
=6 , 6
5
Ŷ5=

Ŷ2≥Ŷ5≥Ŷ1≥Ŷ3≥Ŷ4

7,8≥6,6≥5,2≥4≥2,8

Ex 2 : Un éditeur veut choisir entre trois couvertures possibles pour un


nouveau livre soit C1, C2, C3. Pour tester les couvertures, nous pouvons
prendre un échantillon de 15 consommateurs (dans la réalité, on utilise
des échantillons plus importants) et soumettre chaque couverture à 5
d’entre eux pris au hasard. Supposons qu’on leur demande de noter sur 20
la couverture et qu’on obtienne les résultats suivants :

C1 14 6 12 10 8

C2 16 14 8 8 14

C3 14 16 14 14 12

Ces différences entre moyennes sont-elles significatives au


α=
seuil 5% ou peuvent-elles être imputés aux fluctuations
d’échantillonnage ?

*Carré des totaux :

Y1.=50
3
∑ Y i =180
i=1

2
1
Y =2500

Y2=60

Y2=1802=32.400

Y3=70
244
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

K= nombre de lignes→k=3 N=Kn=15

Y22=3600

Y32=4900

n= nombre des colonnes →n=5


3
∑ Y 2i =11 . 000
i=1

*Somme des carrés : y2=(180)2=32400

k ni

∑∑ yij2 =196+36 +144+100+ 64


i=1 j=1

+256+196+64+64+196+196+256+196+196+144=2304

32400
=144
15
SSTO=2304-

1 y2
n
∑ i N
y 2

SSTR= =2200-2160=40

SSE=SSTO-SSTR=144-40=104

SOURCE DE Somme des ddl Carrés des Statistique


VARIATION carrés moyens du test

TRAITEMENT 40 2 20 2,3

ERREUR 104 12 8,67 -

Totale 144 14 - -

f α [ ( k −1 ) ,k ( n−1 ) ] =f α [ ( k−1 ) , ( n−k ) ]

f0,05(2,12)=3,89.

Décision comme Fc=2,3<f0,05(2,12)=3,89 ; nous acceptons Ho.

Ex3. Il semble que les voitures très chères sont assemblées avec
beaucoup plus de délicatesse que les voitures moins chères. Pour
245
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

investiguer si cette affirmation repose sur un fondement sérieux, une


grande voiture de luxe du modèle A et une voiture du modèle B ainsi
qu’une autre de modèle C étaient comparées pour leur nombre des pièces
défectueuses à leur arrivée chez le concessionnaire. Toutes les voitures
furent produites par le même manufacturier. Le nombre des pièces
défectueuses pour plusieurs voitures de ces 3 modèles se trouve résumer
dans le tableau suivant :

Modèle de voitures

A 4 7 6 6

B 5 1 3 5 3 4

C 8 6 8 9 5

23
=5 ,75
4
Ў1=

21
=3 ,5
6
Ŷ2=

36
Ȳ 3 = 5 =7 , 2

Tester l’hypothèse au niveau de 5% que le nombre moyen des pièces


défectueuses est le même pour les 3 modèles.

Une des particularités ici, c’est que les n sont différents n 1≠n2≠n3.

Résolution :

n1=4 ; n2=6 ; n3=5 , N=4+6+5=15

k ni 2
y
∑∑ yij2 −
N
i=1 j=1
SSTO=
k
y2 y2
∑ −
ni N
i=1
SSTR= SSE=SSTO-SSTR
246
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
k k
yi2
∑ yij2 − ∑ ni
i=1 i =1
SSE=

6400
=65 , 33
15
SSTO=492-

6400
15
SSTR=(529/4+441/6+1296/5)-

6400
15
SSTR=132,25+73,5+259,2-

6400
=38 , 28
15
SSTR=464,95-

SSE=65,33-38,28=492-464,96=27,05.

k ni

∑∑ yij2 =16+ 49+36+36 +25+1+9+25+ 9+16+64 +36+64 +81+25=492


i=1 j=1

Y1=23→y21=529
2
2 =441
Y2=21→y
2
3 =1296
Y3=36→y

∑ Y 1=80
∑ Y i=80
Y2=(80)2=6400

∑ Y 2i =2266
TABLEAU D’ANOVA I.

SOURCE DE Somme des ddl Carré Stat de test


VARIATION carrés moyen
Traitement 38,28 2 19,14 fc=8,49
247
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Erreur 27,05 12 2,254 -


Totale 65,33 14 - -

f0,05(2,12)=3,89

fc=8,49>fa=3,89, nous rejetons Ho au seuil a=5%.

6° Nous concluons que les différents modèles de voitures n’ont pas le


même nombre moyen de pièces défectueuses.

Ex4. Au cours d’une expérimentation biologique, 4 concentrations d’un


certain produit chimique sont utilisées pour améliorer la croissance d’un
certain type de plante. Les données ci-dessous de croissance en cm furent
enregistrées pour les plantes ayant survécues.

1 2 3 4

1 2 4 8

2 4 1 7

3 5 7 9

3 4

Ya-t-il une différence significative dans la moyenne de croissance de ces


plantes pour les différentes concentrations des produits chimiques ?

Traitement : 4 concentrations.

Unité expérimentale : type de plante

Niveau de facteur : 4

Variable explicative : le produit chimique.

Variable expliquée : croissance de la plante

1 ȳ 1 =2
1 2 3 y 1=6

2 ȳ 2 =4
2 4 5 3 6 Y 2=20
248
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

3 ȳ 1 =4
4 1 7 4 y 3=16

4 ȳ 4 =8
8 7 9 Y 4=24

2
1 =36
Y1=6→y
2
2 =400
Y2=20→y
2
3 =256
Y3=16→y

24 =576
Y4=24→y

∑ yi =66
∑ yi )2= y 2=(66 )2=4356
(

k ni

∑∑ yij2 =1+ 4+9+ 4+16 +25+9+36 +16+1+ 49+16+64 +49+ 81=380


i=1 j=1

k ni 2
y 4356
∑ ∑ yij2− N =380−15 =89 , 6
i=1 j=1
SSTO=

k
y 2i y 2 36 400 256 576 y 2 4356
∑ ni N
− = +
3 5
+
4
+
3
− =348−
N 15
=57 , 6
i=1
SSTR=

K=4 ; n1=3 ; n2=5 ; n3=4;n4= 3

SSE=89,6-57,6=32.

SOURCE DE Somme de ddl Carrés Statistique


VARIANCE carrés moyens du test

TRAITEMENT 57,6 3 19,2 fc=6,59

ERREUR 32 11 2,91
249
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Totale 89,6 14 -

μ1 =μ2 =μ3 =μ4


Ho : c’est-à-dire la différence entre les moyennes n’est pas
significative.

μ1 ≠μ2 ≠μ3 ≠μ4


Ha : c’est-à-dire la différence entre les moyennes est
significative.

Règle de décision : rejeter Ho si fc>fa ; k-1 :N-k=f0,05(3 ;11) ;=3,59

Décision : comme fc>fa, nous rejetons Ho au seuil de 5%

Conclusion : nous concluons qu’il ya une différence significative entre


Ȳ 4 ≥Ȳ 2=Ȳ 3≥Ȳ 1
deux moyennes au moins.

VI.2.2 Test pour l’égalité de plusieurs variances


Bien que le rapport critique f obtenu par la procédure de
l’analyse de la variance soit non sensible du fait que l’on s’écarte de
l’hypothèse des variances égales pour les k populations normales quand
les échantillons sont des tailles égales, nous devrions exercer une
certaine prudence et penser sur un test préliminaire concernant
l’homogénéité des variances. Un tel test sera sûrement recommandé au
cas d’échantillons de tailles égales, s’il existe un doute raisonnable en ce
qui concerne l’homogénéité de variances de populations.

Supposons, par conséquent, que nous désirons tester


l’hypothèse nulle :
2 2 2
1 =σ 2 =. .. .. . σ k
Ho :  contre l’hypothèse alternative Ha= les variances ne
sont pas toutes égales.

Le test que nous devons utiliser, appelé le test de BARTLETT est basé sur
une statistique dont la distribution d’échantillonnage fournit les valeurs
exactes quand les tailles d’échantillons sont égales. Ces valeurs critiques
pour les échantillons de tailles égales peuvent alors être utilisées pour
250
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

obtenir des biens meilleures approximations des valeurs critiques pour des
échantillons de tailles inégales.
2 2 2
1 , S 2 , . .. . , S k
D’abord calculons les k variances des échantillons S . Des
k
∑ ni=N
i=1
échantillons de tailles n1, n2,…., nk avec .

Ensuite, nous combinons les variances d’échantillons pour donner un


k
∑ ( ni −1 ) S 2i
i=1
S2P =
n−k
estimateur d’ensemble
1
1
[ n −1 n −1 n −1
b= 2 ( S 21 ) 1 . ( S22 ) 2 . .. ( S2k ) k
Sp
] N−k

Maintenant

b est la valeur d’une variable aléatoire B ayant la distribution de


BARTLETT.

Pour le cas particulier où n1=n2=…..=nk=n, nous rejetons Ho au niveau de


α α α
signification a si b< bk ( ; n) ; où bk ( ;n) est la valeur critique laissant
α
une aire de taille dans le coin gauche de la distribution de BARTLETT.

La table statistique A.13, pp.496-497 (Introduction to statistics, Walpole)


α
donne les valeurs critiques, b k ( ; n) pour a=0,05 ; k=2,3,…, 10 et
α
quelques valeurs sélectionnées de n allant de 3 à 100. b k ( ; n).

Quand les tailles d’échantillons sont inégales, l’hypothèse nulle est rejetée
α α α
au seuil de signification de si b<bk (bk ( ; n1, n2…..nk) ; où bk ( ; n1, n2,
1
n[ 1 k
b k ( α ;n1 , n2 , . .. , nk )≃ n b ( α , n1 ) +n2 b k ( α ,n 2 ) +n k b k ( α , nk ) ]
…., nk) est donnée par

Ex5 : Employer le test de Bartlett pour tester l’hypothèse que les


variances de 3 populations de l’exemple 3 sont égales.

A 4 7 6 6

B 5 1 3 5 3 4
251
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

C 8 6 8 9 5

Solution :

σ 21=σ 22 =σ 23
1° Ho :

σ 21≠σ 22 ou σ 22≠σ 23 ou σ 21 ≠σ 23
Ha :

α
2° =0,05

3° Nous employons un test de BARTLETT car il s’agit de prouver l’égalité


des variances de plusieurs populations.

4° Règle de décision : n1=4, n2=6, n3=5→N=15 et k=3.

α
Nous rejetons Ho si b<bk( , n1, n2, n3)→b<b3(0,05 ;4,6,5)

1 1
] 15 [
[4 b3 (0 , 05 ;4 )+6 b3 4 ( 0 , 4699 ) +6 ( 0 , 6483 ) +5 ( 0 , 5762 ) ]
15 3
= (0,05 ;6)+5b (0,05 ;5) =

b<b3(0,05 ;4,6,5)=0,5767

5°. Calculs : calcul de variances d’échantillons :

n1 ∑ x 21−( ∑ x 1 )
2
( 4 )( 137 )−( 529 )
S21 = = =1 , 5833
n1 ( n1−1 ) ( 4 )( 3 )

n2 ∑ x 22 −( ∑ x 2 )
2
( 6 ) ( 85 ) −( 441 )
S22 = = =2 , 3
n2 ( n2 −1 ) ( 6) ( 5)

n3 ∑ x 23 −( ∑ x 3 )
2
( 5 )( 270 ) −( 1296 )
S23 = = =2 , 7
n3 ( n3 −1 ) ( 5) ( 4 )

S2p
Calculs de

2 ( n 1−1 ) S21 + ( n2 −1 ) S22 + ( n 3 −1 ) S 23 3 ( 1 , 5833 ) +5 ( 2 ,3 )+ 4 ( 2 , 7 )


S p= = =2 , 2542
n1 + n2 + n3 −3 12

Calculs de b :
252
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
1
1
[ n −1 2 n −1 2 n −1
b= 2 ( S 21 ) 1 ⋅( S2 ) 2 ¿ ( S 3) 3
Sp
] N−k

1
1
[3 5
b= 2 ( S 21 ) ⋅( S22 ) ⋅( S23 )
Sp
4
]
12

1
1 2 , 210032478
b=
2, 2542
[ (1 , 5833 )3⋅( 2 ,3 )5⋅( 2 , 7 )4 ]12 =
2 , 2542
=b=0 , 9804

6°. Décision : Nous acceptons l’hypothèse nulle au niveau de 0,05 car b=


0,9804>b3(0,05 ;4,6,5)=0,5767.

Conclusion : Les variances sont égales.

VI.3. ANALYSE DE LA VARIANCE A DEUX FACTEURS


(ANOVA II)
Il y a essentiellement deux différentes façons d’analyser les
expérimentations qui comportent deux variables. Ces deux manières
dépendent du fait que soit les deux variables sont indépendantes, soit
qu’il existe une interaction entre elles. Pour illustrer ce que nous voulons
dire par interaction, supposons qu’un fabricant des pneus soit en train
d’expérimenter différents types de fibres et qu’il découvre qu’une espèce
de fibre soit particulièrement bonne pour usage sur de routes boueuses,
pendant qu’une autre espèce de fibre est mieux adaptée pour usage sur
des routes asphaltées. Si tel est le cas, nous dirons qu’il existe une
interaction entre les états des routes et les modèles des fibres. Pour
présenter la théorie de l’ANOVA II, nous utilisons la théorie introduite à
l’ANOVA I. Nous nous référons ici à deux variables comme traitements
(variable inscrite en ligne) et blocs (désignant les variables inscrites en
colonne). Si les Yij (avec i=1 …………k et j = 1…………n) sont des valeurs
des variables aléatoires indépendantes ayant des distributions normales
μij
avec les moyennes respectives et ave une variance comme σ2, nous
allons considérer la matrice ci-dessous : décrire l’ANOVA II (sans
interaction).
253
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Bloc 1 Bloc 2 … Bloc n

Traitement 1 Y11 Y12 … Y1n

Traitement 2 Y21 Y22 … Y2n

… … … … …

Traitement k Ykl Yk2 … Ykn

Yij=μ+σi+βj+εy
{i=1,.. .,k¿¿¿¿
k n
1
μ= ∑ ∑ Y ij
kn i=1 j=1
Ici μ est la moyenne générale qui équivaut :
n
∑ B j =0
j=1
Les effets de blocs Bj sont tels que , les effets de
k
∑ α j=0
j=1
traitements σi sont tels que et les εij sont des variables
indépendantes des distributions normales avec pour moyennes
respectives 0 et pour variance comme σ 2. Dans l’équation Yij=μij+εij, Y ij-
μij= εij, les εij mesurent la déviation écart de la valeur observée Y ij de la
moyenne de la population μij où μij=u+ σi+ βj et εij = Yij- μij. Les moyennes
de populations valent respectivement en admettant que les σ i et βj sont
additives :
n k
1 1
μi = ∑ ( μ+ α i + β j ) =μ+ α i μ j= ∑ ( μ +α i + βi )=μ+ β j
n j=1 k d=1
;

L’hypothèse nulle selon laquelle les k moyennes des lignes


μi sont égales et par conséquent égales à μ est maintenant équivalente à
tester les hypothèses.

X 1 =X 2=. .. X k=0
H0 :
254
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Xi
Ha : au moins un des n’est pas nul.

De manière analogue, l’hypothèse nulle que les n moyennes


μj
des colonnes sont égales est équivalente à tester les hypothèses :

H0 : β1= β2 = …= βn=0

Ha : au moins un des βj n’est pas nul.

La somme des carrés des totaux est symboliquement


représentée par l’équation. SSTO=SSTR+SSB+SSE où

k n
y.2. . 1
k
y 2.. .
=∑ ∑ y 2ij − = ∑ y i.−
2

i=1 j=1 kxn n i=1 kn


SSTO SSTR

1
n
y 2. ..
k∑
2
= y .j −
j=1 kn
SSB
k n
2
=∑ ∑ ( y ij − ȳ i.− ȳ . j + ȳ . . )
i=1 j=1
SSE

SSE=SSTO-SSTR-SSB

SSTR SSE
σ2 σ2
Au cas où H'0 est vraie alors et sont des valeurs

des variables aléatoires indépendantes ayant des distributions de avec


k-1 et (k-1)(n-1) degré de liberté.

Si H'O n’est pas vraie, alors dans ce cas SSTR va refléter la


X 2 y1 X 2 y2
/
αi y1 y2
variation parmi les et d’après le théorème selon lequel suit
γ1 γ2
une distribution de Ficher avec et degrés de liberté. Nous rejetons
H’0 si ftr>

MSTR
fα [ ( k −1 ) ; ( n−1 ) ( k −1 ) ] oùf Tr =
MSE
255
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

SSB SSE
σ2 σ2
De manière similaire, si h''0 est vraie, alors et sont

χ2
des valeurs de VA indépendantes ayant de distributions de avec n=1 et
(n-1) (k-1) ddl. Si H0'' n’est pas vraie, dans ce cas SSB va également
βj
refléter la variation parmi les variations et d’après le théorème cité un
peu plus haut, nous rejetons

MSB
f B≥f α [ ( n−1 ) ; ( n−1 ) ( k−1 ) ] où f B =
MSE
H"0 si

Ce genre d’analyse est appelé une ANOVA II et les détails


nécessaires sont souvent présentés dans un tableau ANOVA qui peut
prendre la forme suivante :

Sources des sommes des ddl carrées Statistique


variations carrés moyens du test F

traitement SSTR k-1 SSTR SSTR


= f tr 
(lignes) K−1 MSE
MSTR

Blocs SSB n-1 SSB MSB


 f β=
(colonnes) n 1 MSE
MSB

Erreurs SSE (n-1)(k-1) MSE -


(résidus) SSE
=
( n−1 )( k−1 )

totale SSTO nk-1 - -

Ex1 : Tester au niveau de 5% si les différences parmi les


moyennes obtenues pour les différents traitements (routes) sont
significatives et aussi si les différences parmi les moyennes obtenues
pour les différents blocs (jours) sont significatives.

Lundi Mardi Mercredi Jeudi vendredi


256
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Route 1 2 1 3 4 5

Route 2 1 1 4 2 2

Route 3 4 5 5 3 3

Route 4 1 5 4 3 2

Traitement k=4 Blocs=n=5

Calculs totaux

y 21 =( 15 )2 =225 y 21 =( 8 )2 =64 y 22 =( 10 )2 =100

y 23 =( 20 )2 =400 y 24 = ( 15 )2=225 ∑ y12=950


i=1

y 22 =( 12 )2 =144 y 23 =( 16 )2 =256 y 24 = ( 12 )2=144

y 25 =( 12 )2 =144 ∑ y 2j =752
i=1 y=60⇒ y 2=3600

k n 2
y
∑ ∑ y 2ij− kn
i=1 i=1
SSTO= n= (colonne) ; k (ligne).
k n
∑ ∑ y 2ij=
i=1 j=1
4+1+9+16+25+1+1+16+4+4+16+25+25+9+9+1+25+16+9+
4=220

3600
SSTO=220− =40
20

k
1 y2 1 3600
= ∑
n i=1
y 21− = 950−
N 5 20
=190−180=10
SSTR
n
1 y2 1
= ∑ y 2

k j=1 j N 4
= x 752−180=8
SSB

SSE=SSTO-SSTR-SSB=40-10-8=22
257
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

f α [ ( k−1 ) , ( n−1 )( k −1 ) ] =f 0 , 05 ; ( 3 ;12 )=3 , 49


'

fα [ ( n−1 ) , ( n−1 ) ( k−1 ) ] =f 0, 05 ; ( 4 ; 12 ) =3 ,26

Sources des sommes ddl carrées Statistique du test


variations des carrés moyens F

traitement 10 3 10 MSTR 3 ,33


(lignes)
3 , 33⇒ f tr = = =1 , 8
3 MSE 1, 83

Blocs 8 4 8 MSB 2
(colonnes)
2⇒ f β= = =1 , 09
4 MSE 1 , 83

Erreurs 22 12 22 -
(résidus)
1 , 83⇒
12

totale 40 19 - -

Solution

α i=0 , i=1 , .. . , 4
1. H'0 :
'

H ' a=α 1 ≠α 2≠α 3 ≠α 4


H a : α1≠¿α ¿ ¿
2≠ ¿ α ¿
i 3≠ ¿α

''
H a : β j=0 , j=1 ,2 , 3 , 4 , 5

''
H a : β j≠0 pour au moins une valeur de βj

α
2. Seuil =0,05

3. Test stat : il s’agit d’une comparaison des moyennes de plusieurs


populations au niveau de 2 facteurs de classification (route et jour). D’om
MSTR MSB
f tr = et F β =
MSE MSE
les tests stat pour cet ANOVA II sont
'
H0
4. Rejeter l’H pour le traitement soit si

F Tr ≥f α [ ( k −1 ) , ( n−1 ) ( k−1 ) ]=f 0, 05 ; ( 3;12 ) =3 , 49 H '0'


et pour le bloc soit
258
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

F β ≥f α [ ( n−1 ) , ( n−1 ) ( k −1 ) ] =f 0 ,05 ; ( 4 ;12 )=3 , 26


Si

F tr =1 ,8≺3 , 49 et f B=1 , 09≺3 , 26 ,


5. Décision : puisque les deux hypothèses
H '0 et { H ''0 ¿ α=0 , 05 .
nulles ne peuvent pas être rejetées au seuil

EX2 : le tableau ci-après donne deux critères de classification : les variétés


de maïs et les engrais.

Variétés de
maïs

Engrais V1 V2 V3

t1 64 72 74

t2 55 57 47

t3 59 66 58

t4 58 57 53

'
H0
Tester l’hypothèse nulle au seuil de 5% qu’il n’y a
aucune différence dans les récoltes moyennes de maïs lorsque les
différentes sortes d’engrais sont utilisées. Tester également l’hypothèse
H '0'
nulle qu’il n’existe aucune différence dans les récoltes moyennes de 3
variétés de maïs.

Calculs

K=4,n=3
k n
y .. .2 518400
∑∑ =[ ( 64 ) + (72 ) +.. .+ ( 53 ) ]−
2 2 2
y 2ij− =43862−43200=662
i=1 j=1 nk 3x4
SSTO=

1
k
y 2. . 1
= ∑ y i − = x 131094−43200=498
2
n i=1 nk 3
SSTR
259
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

1
n
y 2.. . 1
= ∑ y j − = x 173024−43200=56
2
k j=1 nk 4
SSB

SSE=SSTO-SSTR-SSB=662-498-56=108

Sources des Sommes des ddl Carrés Statistique


variations carrés moyens du Test

Traitements SSTR=498 3 166 f Tr =9 , 22


(lignes)

Blocs SSB=56 2 28 f β =1, 56


(colonnes)

Erreurs SSE=108 6 18 -
(résiduels)

TOTALE SSTO=662 11 - -

'
H 0 : α 1 =α 2=α 3 =α 4 =0
1.

'
H a: αi
au moins un n’est pas nul

H '0' : β 1 =β2 =β 3 =0

''
H a : au moins β j
n’est pas nul.

α
2°: = 0,05
260
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

3° Comme il s’agit d’une comparaison des moyennes de plusieurs


populations au niveau de 2 facteurs de classification. D’où les tests
statistiques pour cet ANOVA II sont :

MSTR MSB
F Tr= et F B=
MSE MSE

H0
4. Rejeter pour le traitement soit H'0 si

tr ≥f a ( k−1 ) ; ( n−1 )( k −1 )=f 0 , 05 ( 3 ;6 ) =4 ,76


''
H0
F et pour le bloc soit si

F B≥F α ( n−1 ) ; ( n−1 ) ( k −1 )=f ( 0 , 05 )( 2 ;6 )=5 ,14

5. calcul

fTr = 9,22 fB = 1,56

H '0'
6. Décision : puisque ftr =9,22>4,76, nous rejetons au seuil de 5%,
nous concluons qu’il existe une différence significative dans les récoltes
moyennes de maïs lorsque les différentes sortes d’engrais sont utilisées

ȳ 1 ≻ ȳ 3≻ ȳ 4 ≻ ȳ 2 ⇒ 70≻61≻56≻53
et puisque fB =1,56<5,14, nous acceptons
H '0'
au seuil de 5% et nous concluons que les récoltes moyennes de 3
variétés de maïs ne diffèrent pas significativement.
ȳ 1 = ȳ 2 = ȳ 3 ⇒59≈63≈59 , ȳ=60
261
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Ex : 3 : ANOVA II avec interaction

On vient de recruter pour une grande entreprise 36


stagiaires qui diffèrent quant à la formation préalable. On peut en fait les
repartir en 4 groupes de 9 personnes selon les diplômes obtenus
précédemment. Les stagiaires de chaque groupe sont repartis au hasard,
mais également entre 3 méthodes d’apprentissage différentes.

A l’aide des données du tableau suivant, tester les


différentes hypothèses nulles qui serraient appropriées ici au seuil de
signification de 5%.

Résultats obtenus par les stagiaires selon la méthode


d’apprentissage et le diplôme obtenu.

Diplôm Méthode d’apprentissage


e A1 A2 A3 Total X̄
B1 70 83 81 717 79,7
79 89 86
72 78 79
B2 77 77 74 709 78,8
81 87 69
79 88 77
B3 82 94 72 722 80,2
78 83 79
80 79 75
B4 85 84 68 732 81,3
90 90 71
87 88 69
Total 960 1020 900 2880

X̄ =80 X̄ =85 X̄ =75

r=4 lignes c=3 colonnes n= 3

Calcul

Totaux
262
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Diplôm Méthode d’apprentissage


e
A1 A2 A3 Tota X̄
l

B1 22 250 24 717 Y 1 . .Y 21 .=514089 y .21 .=921600


1 6
Y 2 . .Y 22 . .=502681
B2 23 252 22 709
7 0 y .22 .=1040400

B3 24 256 22 722 Y 3 . .Y 23 .=521284 y .23 .=810000


0 6
Y 4 .. Y 24 ..=535824
B4 26 262 20 732
2 8 ∑ y12.=2073878
∑ 96 102 90 288
∑ y .21 j.=2772000
0 0 0 0

y.1 y.2. y.3. y..


.

r c
∑ ∑ y 2ij .=48841+ 62500+60516+56169+ 63504+ 48400
i=1 j=1

+57600+65536+51076+68644+68644+43264 = 694 694

Sommes des carrés

r c n
y 2. .
SSTO=∑ ∑ ∑ y 2ijk −
i=1 j=1 k =1 rcn

∑ ∑ ∑ y 2ijk= [70 2+792 + 722 +832 +892 +78 2 +812 + 862 +79 2 ]
+ [772+812+792+772+872+882+742+692+772]

+ [822+782+802+942+832+792+722+792+752]
263
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

+ [852+902+872+842+902+882+682+712+692] =
232 000

y 2 =( 2880 )2 =8294400

SSTO= 232.000-230.400=1 600

1
r
y 2. . 2073. 878 8294400
SSR= ∑ y 1. .−
2
= − =30 , 89
cn i=1 rcn 9 36

1
c
y 2.. 1
rn ∑
2
SSC= . y .j. − = . 2772. 000−230 . 400=600
j=1 rcn 12

r c
1 y2
SS ( RC )= ∑ ∑
n i=1 j=1
y 2ij .−SSR−SSC−
rcn

1 8294 . 400
= . 694694−30 , 89−600− =
3 36
231564,7-30,89-600-

230.400=533,78

SSE=SSTO-SSR-SSC-SS(RC) =

1600-30,89-600-533,78 = 435,33
264
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Tableau ANOVA II avec interaction

Sources des Somme des Ddl Carrés moyens Statistique du


variations carrés Test F

Entre les SSR=30,89 r=1= 30 , 89 MSR


f lignes = =0 , 57
modalités du 3 3 MSE
10.29=
facteur (ligne)
(Diplôme)

Entre les SSC= 600 c- 300=600/2 MSC


f colonnes= =16 , 54
modalités du 1=2 MSE
facteur
(colonnes)
(méthodes
d’apprentissag
e)

Interaction ss (r-1) 88,96=533,78/6 88 , 96


f int = =4 , 9
entre diplômes (RC)=533,7 (c- 18 , 14
et méthodes 8 1)=6
d’apprentissag
e

Erreurs ou SSE=435,3 rc(n- 18,14=435,33/2 -


résiduelles 3 1)=2 4
4

Totale SSTO=160 35 - -
0

a)¿ { H 0 :α 1=α 2=α3=α 4=0 ¿ ¿¿



265
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

b)¿¿¿
c)¿¿¿
2° =  = 5 % = 0,05

3° Comme il s’agit d’ANOVA II avec interaction, nous


utilisons la statistique F.

4° Règle de décision : rejetons.

H0¿ {si flignes≻fα[(r−1);rc(n−1)]=f 0,05[4−1;4 x3(3−1)]=f0,05(3;24)=3,01¿ {sif colon es≻f α[(c−1);rc(n−1)]=f 0,05[2;24]=3,40 ¿¿¿
5° Calcul (voir ci-haut)

f lignes =0 , 57≺3 , 01 H '0


6° Décision : a) Comme , nous acceptons
au seuil de 5 % et concluons que tous les 1sont égaux à 0.

f colonnes=16 ,54≻3 , 40 H }0 } } { ¿¿ ¿
b) Comme , nous rejetons au seuil de
5% et concluons qu’au moins un des β j # 0.

f int er =4 , 9≻2 ,51 H }0 } } { ¿¿ ¿


c) Comme , nous rejetons au seuil de 5 %
et concluons qu’au moins un des (β)ij # 0

On arrive à la conclusion que les différences entre les


résultats obtenus selon les différentes méthodes d’apprentissage sont
significatives ; qu’il n’y a pas de différences significatives entre les
résultats obtenus selon le diplôme détenu et qu’il y a une interaction
significative entre les deux facteurs contrôlés.

La dernière conclusion indique que l’efficacité de la méthode


d’apprentissage varie selon le diplôme détenu par le stagiaire.
266
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

On remarque par exemple dans le tableau principal que


pour les détenteurs du diplôme B1, la méthode A1 est la moins efficace
que les deux autres et ce, quel que soit le diplôme détenu. On écartera la
possibilité d’utiliser une méthode d’apprentissage appropriée au diplôme
détenu, bien qu’on ait constaté un effet d’interaction significatif entre le
diplôme détenu et la méthode d’apprentissage assignée.

Exemple 4 : Le tableau ci-après présente les données


relatives aux ventes hebdomadaires d’un produit dans huit territoires de
vente assignés de façon aléatoire.

Ventes Publicité Sans publicité

Sans rabais 9,8 6

10,6 5,3

Avec rabais 6,2 4,3

7,1 3,9

Tester l’effet de deux facteurs proposés et l’effet de leur


interaction sur les ventes hebdomadaires au seuil de signification de 1%.
Interpréter les résultats de ce test.

Solution

Publicit Sans Tota X̄


é publicité l

Sans 9,8 6 31,7 7,92


rabais 5
10,8 5,3

Avec 6,2 4,3 21,5 5,37


rabais 5
7,1 3,9

Total 33,7 19,5 53,2


267
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

ȳ 2,425 4,875

Calculs des totaux

y 2. . .=( 53 ,2 )2 =2830 , 24

r c n
∑ ∑ ∑ y 2ijk =
i=1 j=1 k =1

(9,8)2+(10,6)2+62+(5,3)2+(6,2)2+(7,1)2+(4,3)2+(3,9)2=395,0
4

rcn=8

2830 ,24
SSTO=395 ,04− =41 ,26
8

1
r
y 2.. .
cn ∑
2
SSR= y i... −
i=1 rcn

r
∑ yi2.. .=( 31 , 7 )2 + ( 21, 5 )2 =1467 , 14
i=1

1 2030 , 24
SSR= 1467 , 14− =13 , 005
4 8

1
c
y 2. . .
SSC= ∑ y . j .−
2
rn j=1 rcn

c
∑ y .2j.=( 33 , 7 )2+ ( 19 ,5 )2=1515 , 94
j=1

1 2830 , 24
.1515 , 94− =25 , 205
4 8
SSC=

1
r c
y 2.. .
SS ( RC )= ∑ ∑ y ij .−SSR−SSC−
2
n i=1 j =1 rcn

∑∑ y ij
268
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

20, 11,
4 3

13, 8,2
3

∑∑ y 2ij=( 20 , 4 )2+ (11 ,3 )2+( 13 , 3 )2+( 8 , 2 )2=787 , 98


1 2830 , 24
SS ( RC )= . 787 , 98−13 ,005−25 , 205− =2
2 8

SSE=SSTO-SSR-SSC-SS(RC)= 41,26-13,005-25,205-2=1,05
269
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Tableau d’ANOVA II avec interaction

Sources des variations Sommes de dd Carrés Stat de


carré l moyens F.

Entre les modalités de fact 13,005 1 13,005 49,54


(ligne)

Entre les modalités f.c. 25,205 1 25,205 96,01


(PUB)

Interaction entre PUB rnc 2 1 2 7,62

Erreurs résiduelles 1,05 4 0,2625

Total 41,26 7 - -

a)¿ { H '0 : α1=α 2=0 ¿ ¿¿


b)¿¿¿
c)¿ { H '''0 : αi β j =0 ¿ ¿¿
2° =  = 0,01

3° Comme il s’agit d’ANOVA II avec interaction, nous


utilisons la statistique de Fisher snédécor.

4° Règle de décision :

H '0
Rejeter si Fc ligne > Fth à 0,01 (1.4) = 21,20

H }0 } } { ¿¿ ¿
Rejeter si Fc col>Fth0,01 ; (1 ;4)=21,20

H 0'} } } { ¿¿ ¿
Rejeter si Fc > Fth0,01 ; (1 ;4)= 21,20
270
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

5° Calcul (voir ci-haut)

6° Décision :

f lignes =49 , 54≻21, 20 Ha


'

a) Comme , nous acceptons au seuil


de 1 % et nous concluons que les différences de vente avec rabais et sans
rabais sont significatives.
''
Ho
b) Comme Fcal = 96,01>Fth=21,20 nous rejetons au
seuil de 0,01. Nous concluons que les différences de vente avec publicité
et sans publicité sont significatives.
' ''
Comme Fc int= 7,62<21,20, nous acceptons H 0 au seuil de
0,01. Nous concluons que les interactions entre réduction et publicité ne
sont pas significatives.

VI.4. LE CARRE LATIN


Le carré latin est un dispositif particulier qui permet de
contrôler deux facteurs d’hétérogénéité. Ces facteurs sont généralement
appelés lignes et colonnes. Il peut être considéré comme un dispositif où
on a des blocs disposés en lignes et des blocs disposés en colonnes. Il en
résulte que le nombre de traitement égale au nombre de blocs.

Ainsi, chaque traitement se trouve une et une seule fois par


ligne et par colonne. Par exemple pour 4 traitements désignés par A,B, C
et D, on aurait une disposition comme celle indiquée par la matricée ci-
dessous :

1 2 3 4

1 A B C D Lignes i

2 B C D A

3 C D A B

4 D A B C

Colonnes (j)
271
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Dans un essai, la disposition réelle des parcelles correspond


à celle donnée ci-dessus. On peut cependant appliquer ce dispositif à
d’autres expériences (autres qu’agricoles). Ainsi en nutrition animale, on
peut comparer 4 régimes alimentaires pendant 4 périodes sur 4 animaux.
Dans ce plan, les régimes sont les traitements, les animaux
correspondant aux lignes et les colonnes aux périodes. Le carré latin aide
particulièrement à contrôler 2 sources de variation et à même temps à
réduire le nombre requis de combinaisons de traitement. Supposons
qu’on s’intéresse aux récoltes de 4 variétés de maïs en faisant usage de
4 différents engrais sur une période de 4ans. Le nombre de combinaison
de traitement pour un modèle complètement aléatoire de 64 soit 4x4x4.
En sélectionnant le même nombre de catégories pour tous les critères de
classification, nous pouvons choisir un carré latin et faire l’ANOVA en
utilisant les résultats de 16 combinaisons (4x4) de traitement (pourvu qu’il
n’y ait pas interaction) . les 4 lettres, A, B, C et D représentent les
variétés de maïs auxquelles nous nous referons comme traitement. Les
lignes et les colonnes représentées respectivement par les 4 engrais et les
4 années sont les deux sources de variation que nous désirons contrôler.
Nous observons maintenant que l’ANOVA nous permet de séparer les
variations dues aux différents engrais et aux différentes années de la
somme des carrés des erreurs.

Dans un cas général, nous allons considérer un carré latin

rxr où les
Y ijk dénotent d’une observation dans la ième ligne et dans la
jème colonne, correspondant à la kè lettre. Il faut noter une fois que i et j
sont spécifiés par un carré latin particulier, nous connaissons
automatiquement la lettre donnée par K.

Par exemple : j=2et i=3⇒ K=D

Par conséquent, k est une fonction de i, j. Si


α 1 et β j sont les

effets de la iè ligne et de la jè colonne,


τ k d’effet du kè traitement, M la
272
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

grande moyenne et
ε ijk l’erreur aléatoire expérimentale, alors nous
pouvons écrire :

Y ijk =M +α i +β j +τ k +ε ijk , modèle sous lequel nous imposons des contraintes

r c=r r
∑ αi =∑ β j= ∑ τ k =0 Y ijk sont supposés être les
i=1 j =1 k =1 Comme au paravent, les
valeurs des variables aléatoires v.a indépendantes ayant des distributions

normales avec pour moyenne


M ijk =M + α i + β j + τ k et pour variance
2
commune σ . Un test d’hypothèse concernant les effets de lignes et les
effets de traitement est exécuté en utilisant les mêmes étapes de calculs
que celles par l’ANOVA II avec une seule observation par case. Pour tester
les hypothèses que les effets de traitement sont tous égaux à 0 c'est-à-

dire
τ A =τ B =τ C =τ D=0 , nous pouvons soustraire de la somme des carrés
des erreurs une somme additionnelle des carrées avec r-l ddl désignée par
SSTR laquelle mesure la variabilité associée aux différents traitements.
D’où la somme des carrées totale suffit.

SSTO= SSR+ SSC+SSTR+SSE et les ddl sont partitionnés de


la manière suivante : r2 –l=(r-1)+(r-1)+(r-1)+(r-1)* (r-2)

Les nouvelles notations soit SSR et SSC signifient


respectivement somme des carrées de valeurs en lignes et sommes de
carrées des valeurs en colonnes. Les formules simplifiées suivantes sont
utilisées pour le calcul.

r r r
y 2. . . 1
2
y 2
=∑ ∑ ∑ 2
y ijk − 2 = ∑ y 2. . . k − .2. .
SSTO i j k r SSTR r k =1 r

r 2
1 y
= ∑ y 2i .. .− .2..
SSR r i=1 r SSE=SSTO-SSR-SSTR-SSC

r 2
1 y
= ∑ y 2. j.− .2. .
SSC r j=1 r
273
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS


y i. . . est la somme des observations dans la ième ligne, Y . j.

est la somme des observations dans la jè colonne,


y . . . k est la somme des
observations pour le traitement K, Y… est la somme de toutes les r 2
observations. Tous les 3 tests d’hypothèses dans une matrice de carré
latin sont exécutés en calculant les valeurs observées appropriées fc tel
qu’indiqué dans le tableau ci-dessous :

ANOVA POUR UN CARRE LATIN rxr

Sources des Somme des Ddl Carrés Statistique F


variations carrés moyens

Moyenne des SSR r-l SSR MSR


= f R=
lignes MSR r−l MSE

Moyenne des SSC r-l SSR MSC


= f C=
colonnes MSC r−l MSE

Moyenne des SSTR r-l SSTR MSTR


= f Tr =
traitements MSTR r −l MSE

Erreurs SSE (r-l)(r-2) MSE -


SSE
=
(r−1)(r−2)

TOTALE SSTO r 2 −l - -

Exemple

La matrice suivante est un carré latin 4x4 où les lettres


A,B,C,D représentent les 4 variétés de maïs, les lignes représentent 4
différents engrais et les colonnes désignent 4 différentes années. On
admet qu’il n’ya aucune interaction entre les diverses sources de
variation. Tester les hypothèses au seuil de 5% que :

'
a) H 0 : il n’y a pas de différence dans les moyennes de
récoltes de maïs lorsque les différents types d’engrais sont utilisés.
274
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
''
b) H 0 : il n’existe aucune différence dans les récoltes
moyennes de maïs dues aux différentes années.

' ''
c) H 0 : il n’existe aucune différence dans les récoltes
moyennes de maïs dues aux différentes variétés.

Engrais ANNEXES
(traitement)

2012 2013 2014 2015

t1 A B C D 29
4
…………70 …………75 ………..68 ………..81

t2 D A B C 24
3
………….66 …………..5 ………….5 …………63
9 5

t3 C D A B 20
6
…………59 …………..6 ………….3 ………….4
6 9 2

t4 B C D A 19
2
…………..4 …………..5 …………39 ………….5
1 7 5

236 257 201 241 93


5

Résolution

5°Calculs :

y 21 =( 294 )2 =86 . 436 y 21 =( 236 )2 =55 .696

y 22 =( 243 )2 =59. 049 y 22 =( 257 )2 =66049


275
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Y 23 =( 206 )2=42. 436 Y 23 =( 201 )2 =40401

Y 2. 4 =( 241 )2 =58081

Y 24 =( 192 )2 =36 . 864


∑ y 2i =224 .785 ∑ y.21 .=220227
Y 2 A .= (70+59+39+55 )2 =49 . 729

Y 2B =( 75+55+ 42+ 41 )2 =45369

Y 2 C=( 68+ 63+59+57 )2 =61 .009

Y 2 D=( 81+66 +66+39 )2=63 . 504


∑ y 2k =219 . 611
Y2 ( 702 +75 2 +682 +812 +66 2 +. ..+ 422 +. .. ..+55 2 ) −874 . 225
=∑ ∑ ∑ 2
y ijk − 2 =
SSTO r 16

SSTO=57.139-54639,0625=2499,9375

2
1 2 Y 1
= ∑ Y i − 2 = 224785−54639 , 0625
SSR r r 4

SSR=56196,25-54639,0625=1557,1875

2
1 2 Y 1
= ∑ Y 1 − 2 = 220227−54639 , 0625
SSC r r 4

SSC=417,6875

1 y2 1
= ∑ y k− 2 = x 219611−54639 , 0625=263 , 6875
2

SSTR r r 4

SSE= SSTO-SSR-SSC-SSTR=SSE=261,375

2. =0,05

3. Nous utilisons le test statistique F parce que il s’agit de comparer 3


effets
276
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

4. Règle :

a) Rejeter H 0 si F r≻F α [ r −1 , r −1 r−2 ] =F 0 , 05 3 ;6 =4 ,76


'
( ) ( )( ) ( )

b) Rejetez H 0 si F c ≻F α [ r−1 , r−1 r−2 ] =F0 , 05 3 ;6 =4 ,76


''
( ) ( )( ) ( )

H '0' ' si F T r ≻F α [ ( r−l ) , ( r−l ) ( r−2 ) ] =F 0 , 05 ( 3 ; 6 ) =4 , 76


c) Rejeter
277
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

La région de rejet est la même pour un carré latin

Source de Somme des Ddl Carrés Statistique F


variation carrés moyens

Moyenne des 1557,1875 3=4-1 519,0625 Fr=11,92


lignes

Moyenne des 417,6875 3=4-1 139,229 Fc=3,2


colonnes

Moyenne de 263,6875 3=4-1 87,896 F TR =2 ,02


traitement

Erreurs 261,375 6=( r −l )( r −2 ) 43,5625 -

Totale 2499,9375 2
15=r −1 - -

' '
α
1° a) H 0 : α 1 =α 2=α 3 =α 4 =0 . H a : au moins un des i n’est pas nul

''
β = β2 =β 3 =β 4 =0
b) H 0 : 1

H α : Au moins un des β i est ≠0


''

' ''
c) H 0 : τ A =τ B =τ C =τ D=0

H a : au moins un des τ k
''' est ≠0

5. Calculs : cfr ci-haut.

6. Décision et conclusion

' ''
- Comme Fr=11,92>4,76, nous rejetons H o au seuil de =5%

Nous concluons qu’il y a des différences dans les moyennes de récolte de


maïs lorsque les différents types d’engrais sont utilisés. Ou encore il y a au

moins un des
α i qui n’est pas nul.
278
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS
' ''
Puisque FC=3,2<4,76 nous acceptons H 0 au seuil =5% et concluons
qu’il n’existe aucune différence significative dans les moyennes de récolte
de maïs due aux différentes années.

' ''
Vu que FTR =2,02<4,76, nous acceptons H α au seuil =5% et concluons
qu’il n’existe aucune différence significative dans les moyennes de récolte
de 4 variétés de maïs.

VII. ECHANTILLON STATISTIQUE ET SONDAGE

En statistique et en sondage, un échantillon est un ensemble

d’individus représentatifs d’une population. L’échantillonnage vise à

obtenir une meilleure connaissance d’une ou plusieurs population(s) ou

sous-population(s) par l’étude d’un nombre d’échantillons jugé

statistiquement représentatif. Le recours à un plan d’échantillonnage

répond en général à une contrainte pratique (manque de temps, de place,

évaluation destructive d’une production, coût financier…) interdisant

l’étude exhaustive de la population.

VIII. TAILLE DE L’ECHANTILLON

A combien de personnes dois-je réellement envoyer mon

sondage ?

Lorsque vous vous demandez « combien de personnes dois-je

interroger ? », la question que vous vous posez en réalité est : « Quelle

doit être la taille de mon échantillon pour obtenir une estimation

représentative de ma population ? » Etant donné la complexité de ces

concepts, nous avons divisé le processus en 5 étapes afin de vous


279
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

permettre de calculer facilement la taille idéale de votre échantillon et de

garantir l’exactitude des résulta ts de votre sondage.

a) Les 5 étapes qui garantissent que votre sondage donne

une estimation représentative de votre population :

Etape 1 : quelle est votre population ?

Le terme « population » désigne l’ensemble des personnes que

vous souhaitez comprendre. (Votre échantillon sera composé des

personnes de cette population qui participeront en fin de compte à votre

sondage).

Si, par exemple, vous voulez comprendre comment

commercialiser votre dentifrice en France, votre population sera

composée de résidents français. En revanche, si vous essayez de

comprendre combien de jours de vacances les personnes qui travaillent

pour votre entreprise de fabrication de dentifrice voudraient avoir, votre

population sera composée des employés de votre société.

Qu’il s’agisse d’un pays ou d’une entreprise, il est primordial de

commencer par déterminer la population que vous essayez de

comprendre. Ceci fait, établissez combien de personnes (environ) entrent

dans cette population. Par exemple, la France compte près de 65 millions

d’habitants, et les employés de votre entreprise sont vraisemblablement

moins nombreux. Vous avez votre chiffre ? Très bien, nous pouvons

continuer…
280
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Etape 2 : Jusqu’où doit aller l’exactitude ?

Considérez cette étape comme une évaluation du risque que

vous êtes prêts à prendre, car les réponses que vous obtiendrez pour

votre sondage seront légèrement faussées par le fait que vous

n’interrogez qu’une partie de votre population. Voici donc les deux

questions que vous devez vous poser :

1. Dans quelle mesure devez-vous être certains que les réponses

reflètent bien l’opinion de votre population ?

C’est votre marge d’erreur. Supposons, par exemple, que 90 %

de votre échantillon aime le chewing-gum au raisin. Une marge d’erreur

de 5 % reviendrait à ajouter 5 % de chaque côté de ce chiffre, c’est-à-dire

que 85 à 95 % de votre échantillon aimera le chewing-gum au raisin. La

valeur la plus fréquemment utilisée est 5 %, mais vous pouvez choisir

n’importe quelle marge d’erreur comprise entre 1 et 10 % en fonction de

votre sondage. Il est déconseillé de choisir une marge d’erreur supérieure

à 10 %.

2. Dans quelle mesure devez-vous être certain que votre

échantillon est bien représentatif de votre population ?

Il s’agit de votre niveau de confiance, c’est-à-dire la probabilité

que l’échantillon que vous avez choisi ait influencé les résultats que vous

avez obtenus. Le calcul s’effectue généralement de la façon suivante :si

vous sélectionnez 30 autres échantillons aléatoires dans votre population,


281
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

les résultats que vous obtiendrez s’écarteraient-ils souvent de ceux de

votre échantillon initial ? Un niveau de confiance à 95 % signifie que vous

obtiendrez les mêmes résultats dans 95 % des cas. La valeur la plus

fréquemment utilisée est95 %, mais vous pouvez choisir un niveau de

confiance à 90 au 99 % en fonction de votre sondage. Il est déconseillé de

descendre en dessous de 90 %.

Etape 3 : De quelle taille d’échantillon ai-je besoin ?

A l’aide du tableau ci-dessous, sélectionnez votre population

cible approximative, puis votre marge d’erreur, afin d’estimer le nombre

de sondages terminés dont vous aurez besoin.

A présent que vous avez vos chiffres de l’étape1 et 2, consultez

ce tableau très pratique pour découvrir la taille de l’échantillon dont vous

aurez besoin.

Populatio Marge d’erreur Niveau de confiance

n 10% 5% 1% 90% 95% 99%

100 50 80 99 74 80 88

500 81 218 476 176 218 286

1000 88 278 906 215 278 400

10000 96 370 4900 264 370 623

100000 96 383 8763 270 383 660

1000000 97 384 9513 271 384 664

+
282
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Remarque : ces valeurs sont fournies uniquement à titre d’indications

approximatives. De plus, pour les populations dépassant 1 million, les

chiffres pourront être légèrement arrondis à la centaine la plus proche.

Etape 4 : Les personnes interrogées répondront-elles ?

Malheureusement, les personnes à qui vous enverrez votre

sondage ne vous répondront pas toutes. Les pourcentages de personnes

qui répondent effectivement à un sondage qu’elles reçoivent est appelé le

« taux de réponse ». L’estimation de votre taux de réponse vous aidera à

déterminer le nombre total de sondage que vous devez envoyer pour

obtenir le nombre requis de sondages terminés.

Les taux de réponse varient beaucoup en fonction de différents

facteurs :relation avec le public cible, longueur et complexité du sondage,

incitations, thème du sondage, etc. Pour les sondages en ligne pour

lesquels il n’existait aucune relation préalable avec les destinataires, on,

estime qu’un taux de réponse atteignant 20 à 30 % est remarquable. Il est

plus probable et plus prudent de compter sur un taux de réponse de

l’ordre de 10 à 15 % si vous n’avez encore jamais interrogé votre

population.

Etape 5 : A combien de personnes dois-je donc envoyer

mon sondage ?

Cette partie-là est facile. Divisez simplement le chiffre de l’étape

3 par le chiffre obtenu à l’étape 4. Vous avez votre numéro magique.


283
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Par exemple, si vous avez besoin que 100 utilisatrices de

shampoing répondent à votre sondage et si vous estimez que 10 % des

femmes auxquelles vous enverrez ce sondage y répondront, il vous faut

alors l’envoyer à 100 x 10 = 1000 utilisatrices de shampoing.

b) Détermination de la taille d’un échantillon aléatoire

C’est une évidence : plus l’échantillon d’un sondage aléatoire est

important, plus l’analyse est précise et.. coûteuse. Mais le gain marginal

de précision est de plus en plus faible au fur et à mesure que l’on

augmente la taille de l’échantillon : pour diviser par 2 un intervalle de

confiance, il ne faut pas multiplier l’échantillon par 2 mais par 2² = 4. Aux

arrondis près, on le constate sur le petit tableau ci-après.

On se donne une marge d’erreur et un intervalle de confiance.

Sur ces bases, on détermine la taille de l’échantillon à étudier. On note au

passage que la taille de la population-mère n’intervient pas…


284
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

A partir d’une proportion

La taille de l’échantillon est calculée par de nombreux logiciels

mais il est très facile d’utiliser la formule suivante si la problématique

t 2 p ( 1− p )
n=
d %2
concerne une proportion : .

Le coefficient t est lu dans la table de la loi normale centrée

réduite, c’est-à-dire qu’il vaut1,96 di l’on s’est donné un niveau de

confiance de 0,95. La proportion p d’individus présentant la

caractéristique à mesurer est déterminée par la connaissance que l’on a

sur le sujet. Quand on ignore tout, on prend 0,5 faute de mieux. Quant à d,

c’est la marge d’erreur qu’on se donne. A ne pas confondre avec la

probabilité que l’intervalle de confiance exclue la vraie proportion : il s’agit

de la marge sur la PROPORTION. Ce peut être 2 % sur une proportion de

0,5 (on détermine alors n pour une proportion variant entre 0,48 et 0,52).

Si d n’est pas un pourcentage mais une valeur absolue :


t 2 p ( 1− p )
n=
d2 × p

Donc, dans le cas où la proportion est inconnue et où l’on se

donne un niveau de confiance de 0,95, l’échantillon à retenir s’établit à :

Précisio Taille

2% 2401

3% 1067

4% 600
285
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

5% 384

6% 267

Il existe des abaques qui finissent la teille de l’échantillon à

observer en fonction des paramètres retenus.

A partir d’une moyenne (loi normale)

Si l’on raisonne en termes ABSOLUS, l’intervalle de confiance est

m, moyenne observée,, plus ou moins la marge d’erreur d. On doit avoir

une première estimation de l’écart-type, quite à augmenter ensuite la talle

de l’échantillon si l’on s’aperçoit sur n que l’écart-type est supérieur à ce

qui était prévu.

t2σ 2
n=
d2

Si l’on préfère (ou si l’on doit) raisonner sur un POURCENTAGE

(précision de d % autour de la moyenne), cela revient à diviser par m le

numérateur et le dénominateur, donc à utiliser un coefficient de variation

(CV) estimé.

t 2 ( CV )2
n=
d %2

Notez bien que le n obtenu est un minimum. Dans le cadre d’une

enquête marketing, on le majore pour tenir compte des non-réponses. On

appelle taux d’achèvement le pourcentage de questionnaires entièrement

exploitables. Il convient donc de multiplier n par l’inverse du taux

d’achèvement envisagé…
286
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Caractéristiques multiples

Si l’on cherche à estimer la moyenne ou la proportion de

plusieurs variables, on détermine n pour chaque variable. La logique veut

quron retienne la taille d’échantillon la plus élevée.

Crédit scoring

Il est courant de retenir 1000 bons dossiers et 1000 mauvais.

Pour le redressement de l’échantillon, il est souhaitable de disposer de

1000 refusés. Il n’est pas toujours possible de disposer d’autant de

dossiers, notamment mauvais et refusés, sur un laps de temps

suffisamment court lorsque la grille s’applique à un produit de niche. On

admet alors des échantillons plus petits (S. Tufféry donne une limite de

500 bons, 500 mauvais et 200 refusés, in Mining et statistique

décisionnelle, Technip 2007, p 406).


287
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Etudes marketing

Comme il peut exister de règle impérative, je reprends ici des

fourchettes types données par N. Malbotra in Etudes marketing avec SPSS,

Pearson Education 2007, p 265 : Identification de problème étude du

marché… entre 1000 et 2500 avec un minimum de 500.

Résolution de problème (action marketing…), test de produits ou

de marchés : entre 300 et 500 avec un minimum de 200.

Autres analyses multi variées

La taille de l’échantillon dépend du nombre de variables à

étudier.

IX. TEST DE SIGNIFICATION, TEST D’HYPPOTHESE


ET TEST STATSTIQUE CLASSIQUE
4.1. Test de signification

En statistiques, un résultat est dit « statiquement significatif »

lorsqu’il est improbable qu’il puisse être obtenu par un simple hasard.

Habituellement, on utilise un seuil de signification (une probabilité notée

) de 0,05 (seuil de référence en psychologie, les sciences biomédicales

utilisent un seuil plus restrictif à 0,01 voire 0,001), ce qui signifie que le

résultat observé à moins de 5 % de chances d’être obtenu par hasard. Il

est donc jugé statistiquement significatif. Selon les exigences, d’autres

seuils de signification peuvent être visés, notamment 0,01. Le seuil

observé (p-value, en anglais) peut être calculé et il correspond à la

probabilité que le résultat obtenu soit le fruit du hasard.


288
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Par opposition, un résultat « statistiquement non significatif » est

un résultat qui a possiblement (à plus de 5 % de chances) été obtenu par

hasard.

Cependant, de nouvelles recherches montrent qu’un test

statistiquement significatif correspond à une évidence forte que pour p-

vlue de 0,05 ou même 0,1% c’est-à-dire une chance sur mille d’être dû au

hasard.

4.2. Test d’hypothèse

En statistiques, un « test d’hypothèse » est une démarche

consistant à évaluer une hypothèse statistique en fonction d’un jeu de

données (échantillon).

Par exemple, ayant observé un certain nombre de tirage « pile

ou face » produit par une espèce, on peut se demander si celle-ci est

biaisé (c’est-à-dire possède une probabilité différente de ½ de tomber sur

une face donnée). Dans cette situation, l’approche par test d’hypothèse

consiste à supposer que la pièce est non biaisée (hypothèse nulle), et à

calculer la probabilité d’observer des tirages au moins aussi extrêmes que

celui effectivement observé (grâce à une loi binomiale). Si cette

probabilité est faible (en pratique, inférieure à un seuil fixé, en général de

5 %, on rejette l’hypothèse nulle de l’équiprobabilité des faces de la pièce,

et on décide qu’elle est biaisée. Toutefois, la probabilité qu’elle soit

réellement biaisée n’est pas de 95 % (dans le cas général précité), mais

dépend du risque de deuxième espèce.


289
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

A. Risque de première et deuxième espèce, puissance du

test

Une notion fondamentale concernant les tests est la probabilité

que l’on a de se tromper.

Il y a deux façons de se tromper lors d’un test statistique :

 Rejeter l’hypothèse nulle alors qu’elle est vraie. On appelle ce risque

le risque de première espèce et on note  la probabilité de se

tromper dans ces sens ;


 Retenir l’hypothèse nulle alors qu’elle est fausse. On appelle ce

risque le risque de deuxième espèce et on note  la probabilité de se

tromper dans ce sens.

On cherche à le minimiser mais en pratique, il faut trouver un

compromis entre ces deux types d’erreur.

La probabilité 1 - d’obtenir pour l’hypothèse alternative (H1) a

raison s’appelle puissance du test.

B. Test classiques et tests bayésiens

Pour les tests classiques qui constituent l’essentiel des tests

statistiques, ces deux erreurs jouent un rôle asymétrique. On contrôle

uniquement le risque de première espèce à un niveau  (principe de

Neyman) ; cela revient à considérer que le risque de rejeter l’hypothèse

nulle alors que cette hypothèse est vraie est beaucoup plus coûteux que

celui de la conserver à tort (ce dernier risque n’étant pas maîtrisé).


290
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

Pour les tests bayésiens on peut parfois pondérer ces deux

risques grâce à la connaissance d’une probabilité a priori. La connaissance

de cette probabilité a priori est l’un des fondements de la statistique

bayésienne et constitue l’une de ses difficultés majeures. Si on cherche

par exemple à tester le fait qu’un certain paramètre  vaut une certaine

valeur  0 cette probabilité a priori sera une loi de probabilité sur  qui

donne la probabilité que l’on a d’observer . Cette loi a priori est

également appelé croyance a priori ou croyance bayésienne. Ces tests

sont souvent d’une mise en œuvre plus complexe que les tests

statistiques : la raison principale est qu’ils nécessitent de "trouver" une

bonne loi a priori puis la réviser grâce à la révision des croyances.

D. Classification

D’ordinaire on range les tests dans deux catégories les tests

paramétriques et les tests non paramétriques. Les premiers testent la

valeur d’un certain paramètre. Ces test sont généralement les tests les

plus simples. Les tests non paramétriques quant à eux ne font pas

intervenir de paramètre. C’est par exemple le cas des tests d’adéquation à

une loi ou des Test du ².

On peut également distinguer les tests d’homogénéité et les

tests d’adéquations :

 dans le cas d’un test d’homogénéité, on veut comparer deux

échantillons entre eux. L’hypothèse nulle H0 supposera


291
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

l’homogénéité des deux échantillons. Par exemple on comparera

deux moyennes ;
 dans le cas d’un tes d’adéquation( ou conformité), on veut

déterminer si un échantillon suit une loi statistique connue.

L’hypothèse nulle H0 supposera l’adéquation de l’échantillon à cette

loi.

D. Déroulement d’un test

Pour le cas spécifique d’un test unilatéral, le test suit une

succession d’étapes définies :

1. énoncé de l’hypothèse nulle H0 et de l’hypothèse alternative H1 ;

2. calcul d’une variable de décision correspondant à une mesure de la

distance entre les deux échantillons dans le cas de l’homogénéité,

ou entre l’échantillon et la loi statistique dans le cas de l’adéquation

(ou conformité). Plus cette distance sera grande et moins

l’hypothèse nulle H0 sera probable. En règle générale, cette variable

de décision se base sur une statistique qui se calcule à partir des

observations. Par exemple, la variable de décision pour un test

unilatéral correspond à rejeter l’hypothèse nulle si la statistique

dépasse une certaine valeur fixée en fonction d’un risque de

première espèce ;

3. calcul de la probabilité, en supposant que H0 est vraie, d’obtenir une

valeur de la variable de décision au moins aussi grande que la valeur


292
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

de la statistique que l’on a obtenue avec notre échantillon. Cette

probabilité est appelée la valeur p(p-value) ;

4. conclusion du test, en fonction d’un risque seuil seuil, en dessous

duquel on est prêt à rejeter H0. Souvent, un risque de 5 % est

considérée comme acceptable (c’est-à-dire que dans 5 % des cas

quan H0 est vraie, l’expérimentateur se trompera et la rejettera).

Mais le choix du seuil à employer dépendra de la certitude désirée et

de la vraisemblance des alternatives ;

5. si la valeur p est plus grande que , le test est non concluant, ce qui

revient à dire que l’on ne peut rien affirmer. Si la valeur p est plus

petite que on rejette l’hypothèse nulle.

La probabilité pour que H0 soit acceptée alors qu’elle est fausse

est , le risque de deuxième espèce. C’est le risque de ne pas rejeter H0

quand on devrait la rejeter. Sa valeur dépend du contexte, et peut être

très difficilement évaluable (voire impossible à évaluer) : c’est pourquoi

seul le risque  est utilisé comme critère de décision.

4.3. Tests statistiques classiques

Il existe de nombreux tests statistiques classiques parmi lesquels

on peut citer :

 le test de Student, qui sert à la comparaison d’une moyenne

observée avec une valeur « attendue » pour un échantillon distribué

selon une loi normale ;


293
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

 le test de Fisher, aussi appelé test de Fisher-Snédécor, qui sert à la

comparaison de deux variances observées ;


 l’analyse de la variance ou Anova, permet de comparer entre elles

plusieurs moyennes observées (pour les groupes étudiés), selon un

plan expérimental prédéterminé. Elle se base sur une décomposition

de la variance en une partie « explicable » (variance inter-groupes)

et une partie « erreur » (variance globale intragroupe- ou variance

résiduelle), supposée distribuée selon une loi normale. Ce test est

particulièrement utilisé en sciences humaines, sciences sociales,

sciences cognitives, en médecine et en biologie ;


 le test du ² également appelé de ² constitue un test d’adéquation

entre des échantillons observés et une distribution de probabilité. Il

compare la fonction de répartition observée et la fonction de

répartition attendue. Il est particulièrement utilisé pour les variables

aléatoires continues.

En inférence bayésienne, on utilise le psi-test (mesure de

distance dans l’espace des possibles) dont on démontre que le test du ²

représente une excellente approximation asymptomatique lorsqu’il existe

un grand nombre d’observations.

TABLE DES MATIERES

STATISTIQUE.......................................................................................................... 1
INTRODUCTION NGENERALE.................................................................................. 1
1. OBJECTIF DU COURS........................................................................................ 1
294
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

2. PREREQUIS...................................................................................................... 1
3. PLAN DU COURS.............................................................................................. 1
4. CONDITIONS DE REUSSITE..............................................................................2
5. ELEMENTS DE BIBLIOGRAPHIE........................................................................2
PREMIERE PARTIE : STATISTIQUE DESCRIPTIVE......................................................3
CHAPITRE I : OBSERVATION STATISTIQUE, COLLECTE DES INFORMATIONS,
TABLEAUX ET GRAPHIQUES.................................................................................... 3
I.1. HISTORIQUE.................................................................................................. 3
I.2. DEFINITION ET VOCABULAIRE DE STATISTIQUE.............................................4
I.3. LA METHODE STATISTIQUE............................................................................5
I.4. LA COLLECTE DES INFORMATIONS OU DES DONNEES..................................5
I.5. DEPOUILLEMENT DES INFORMATIONS, DISTRIBUTION D’EFFECTIF ET
GROUPEMENT DES DONNEES EN CLASSES.........................................................6
I.6. TABLEAU STATISTIQUE.................................................................................. 9
I.7. GRAPHIQUE................................................................................................. 11
I.8. EXERCICES.................................................................................................. 15
CHAPITRE II :........................................................................................................ 23
SYNTHESE STATISTIQUE PAR LES PARAMETRES OU INDICATEURS OU VALEURS
CARACTERISTIQUES............................................................................................. 23
II.1. CAS DES CARACTERES QUALITATIFS..........................................................23
II.2. CAS DES CARACTERES QUANTITATIFS.......................................................23
II.2.1. Paramètres de position........................................................................24
II.2.2. Paramètres de dispersion.....................................................................34
II.2.3. Paramètres de forme........................................................................... 40
III.2.4. Paramètres de concentration..............................................................41
CHAPITRE III : INDICES STATISTIQUES..................................................................48
1. DEFINITION................................................................................................. 48
2. SORTES D’INDICES...................................................................................... 48
A. L’indice élémentaire............................................................................. 48
CHAPITRE IV : REGRESSION ET CORRELATION.....................................................75
INTRODUCTION................................................................................................. 75
1. LA METHODE DES MOINDRES CARRES..........................................................79
2. LA DROITE DE REGRESSION..........................................................................81
3. LE COEFFICIENT DE CORRELATION ET LE COEFFICIENT DE DETERMINATION87
4. TABLEAU DE CORRÉLATION : COEFFICIENT DE CORRÉLATION DES DONNÉES
GROUPÉES......................................................................................................... 91
295
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

5. CORRÉLATION DE RANG DE SPEARMAN........................................................91


6. RÉGRESSION ET CORRÉLATION APPLIQUÉES AUX SÉRIES CHRONOLOGIQUES
OU TEMPORELLES............................................................................................. 92
7. RÉGRESSION ET CORRÉLATION MULTIPLE.....................................................92
CHAPITRE V : SERIES CHRONOLOGIQUES...........................................................100
1. DEFINITION.................................................................................................. 100
2. REPRESENTATION GRAPHIQUE....................................................................100
3. COMPOSANTES D’UNE CHRONIQUE............................................................101
4. ANALYSE DES CHRONIQUES........................................................................103
E. LA PRÉVISION.............................................................................................. 110
F. SÉRIES CHRONOLOGIQUES BIDIMENSIONNELLES........................................110
AUTOCORRELATION ET CORRELOGRAMME.....................................................112
IIIème PARTIE : CALCUL DES PROBABILITES ET LOIS DES PROBABILITES..............115
CHAPITRE VI : ANALYSE COMBINATOIRE OU COMBINATORIQUE........................115
A. Arrangement............................................................................................ 116
I. Définition................................................................................................... 116
II. Arrangement avec répétition...................................................................118
B. Permutations............................................................................................ 118
I. Définition................................................................................................... 118
II. Permutations avec répétition...................................................................119
III. Permutation circulaire............................................................................. 119
C. COMBINAISON.......................................................................................... 120
CHAPITRE VII :.................................................................................................... 125
CALCUL DES PROBABILITES................................................................................ 125
A. LOGIQUE DES EVENEMENTS........................................................................125
I. INTRODUCTION......................................................................................... 125
II. NOTIONS DE BASE.................................................................................... 125
III. LOGIQUE DES EVENEMENTS.......................................................................127
B. PROBABILITE............................................................................................... 129
I. Probabilité uniforme ou approche mathématique de la probabilité..........129
II. Probabilité et fréquence ou approche statistique de la probabilité..........129
III. Définition d’une probabilité.....................................................................130
C. PROBABILITES TOTALES.........................................................................133
C. PROBABILITES COMPOSEES ET THEOREME DE BAYES...........................135
I. Définition d’une probabilité composée......................................................135
II. Evènements indépendants.......................................................................136
296
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

III. THEOREME DE BAYES................................................................................. 137


E. EXEMPLES COMPLEMENTAIRES...................................................................139
1. Loi binominale.......................................................................................... 139
CHAPITRE VIII : VARIABLES ALEATOIRES (V.A)....................................................149
1. INTRODUCTION........................................................................................... 149
2. LOIS DES PROBABILITES (I.p) FONCTION DE REPARTITION (f.r), DENSITÉ DE
PROBABILITÉ (d.p)........................................................................................... 149
3. ESPERANCE MATHEMATIQUE ET MOMENTS................................................151
4. INÉGALITÉ DE BIENAYME-TCHEBYCHEFF (BT) ET LOI DES GRANDS NOMBRES
........................................................................................................................ 151
5. TRAVAUX PRATIQUES.................................................................................. 152
CHAPITRES IX ET X :........................................................................................... 159
DISRIBUTION DES PROBABILITES OU LOIS DES PROBABILITES ET UTILISATION DES
TABLES STATISTIQUES........................................................................................ 159
1. La loi binomiale........................................................................................... 159
2. La loi de Poisson.......................................................................................... 161
3. La loi Normale............................................................................................. 162
IIIème PARTIE : STATISTIQUE INFERENTIELLE OU STATISTIQUE INDUCTIVE.......168
I. ECHANTILLONNAGE...................................................................................... 168
1. Distribution des moyennes......................................................................169
2. Distribution des fréquences.....................................................................170
II. ESTIMATION................................................................................................. 171
1. Estimation ponctuelle.............................................................................. 172
2. Estimation par un intervalle de confiance (I.C)........................................172
3. Normalité des fluctuations d’échantillonnage..........................................173
4. Intervalle de confiance d’une moyenne...................................................175
III. TEST DE SIGNIFICATION.............................................................................180
1. Principe de test d’hypothèse....................................................................180
2. Test de conformité................................................................................... 181
3. Test d’homogénéité :............................................................................... 186
IV. TEST DU KHI-DEUX (2).............................................................................. 190
A. Distribution du 2.................................................................................... 190
B. Test de conformité................................................................................... 191
C. Test d’homogénéité................................................................................. 193
V. TEST D’HYPOTHESE DU COEFFICIENT DE CORRELATION POUR L’AJUSTEMENT
LINEAIRE.......................................................................................................... 195
297
STATISTIQUE et PROBABILITE KAMATE MULUME FRANCOIS

VI. ANALYSE DE LA VARIANCE POUR LA COMPARAISON DE PLUSIEURS


MOYENNES...................................................................................................... 200
VI.1. INTRODUCTION....................................................................................... 200
VOCABULAIRE................................................................................................. 201
VI.2. ANALYSE DE LA VARIANCE A UN FACTEUR (ANOVA I).............................201
VI.2.1. Equation de l’ANOVA I :.....................................................................203
VI.2.2 Test pour l’égalité de plusieurs variances..........................................215
VI.3. ANALYSE DE LA VARIANCE A DEUX FACTEURS (ANOVA II)......................217
VI.4. LE CARRE LATIN...................................................................................... 232
VII. ECHANTILLON STATISTIQUE ET SONDAGE................................................238
VIII. TAILLE DE L’ECHANTILLON.......................................................................238
IX. TEST DE SIGNIFICATION, TEST D’HYPPOTHESE ET TEST STATSTIQUE
CLASSIQUE...................................................................................................... 244
4.1. Test de signification.............................................................................. 244
4.2. Test d’hypothèse.................................................................................. 245
4.3. Tests statistiques classiques.................................................................248
TABLE DES MATIERES......................................................................................... 249

Vous aimerez peut-être aussi