0% ont trouvé ce document utile (0 vote)
23 vues49 pages

Probabailité

Le document présente un cours de statistiques à deux variables, abordant des concepts tels que les distributions conjointe, marginale et conditionnelle, ainsi que les relations entre caractères qualitatifs et quantitatifs. Il traite également de l'analyse descriptive des séries chronologiques, des méthodes de prévision et de l'analyse combinatoire. Enfin, il explore les bases de l'espace probabilisé et des événements.

Transféré par

kdcwilliam
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
23 vues49 pages

Probabailité

Le document présente un cours de statistiques à deux variables, abordant des concepts tels que les distributions conjointe, marginale et conditionnelle, ainsi que les relations entre caractères qualitatifs et quantitatifs. Il traite également de l'analyse descriptive des séries chronologiques, des méthodes de prévision et de l'analyse combinatoire. Enfin, il explore les bases de l'espace probabilisé et des événements.

Transféré par

kdcwilliam
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Statistique 2

UCAO/IEG
Licence 1

Prof. Armel yodé


Table des matières

1 Statistiques à deux variables 4


1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Distribution conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Distributions marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Distributions conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.4 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Liaison entre deux caractères qualitatifs . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Mesure de l’intensité de la liaison . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Coefficient de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
[Link] Exercice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
[Link] Exercice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Liaison entre deux caractères quantitatifs . . . . . . . . . . . . . . . . . . . . . . 10
1.4.1 Représentation graphique : nuage de points. . . . . . . . . . . . . . . . . 10
1.4.2 Covariance, coefficient de correlation linéaire . . . . . . . . . . . . . . . 10
1.4.3 Regression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.4 Exemple Taux de cholestérol en fonction de l’âge . . . . . . . . . . . . . 12
1.5 Caractère quantitatif et caractère qualitatif . . . . . . . . . . . . . . . . . . . . . 14
1.5.1 Rapport de correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.5.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Analyse descriptive d’une série chronologique 16


2.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1.2 Les composantes d’une série chronologique . . . . . . . . . . . . . . . . . 17
2.1.3 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.4 Modélisation d’une série chronologique . . . . . . . . . . . . . . . . . . . 19
2.1.5 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
[Link] Méthode de la bande . . . . . . . . . . . . . . . . . . . . . . . . 20
[Link] Méthode du profil . . . . . . . . . . . . . . . . . . . . . . . . . . 20
[Link] Méthode du tableau de Buys et Ballot . . . . . . . . . . . . . . 21
2.2 Estimation de la tendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 Moyennes mobiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.2 Méthode de Mayer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.3 Méthode des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . 22
[Link] Tendance linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . 22
[Link] Tendance polynomiale . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Variations saisonnières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2
TABLE DES MATIÈRES 3
2.3.1 Estimation des coefficients saisonniers du modèle additif . . . . . . . . 23
2.3.2 Estimation des coefficients saisonniers du modèle multiplicatif . . . . . 23
2.4 Désaisonnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Prévisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6 Approche générale de la modélisation d’une série chronologique . . . . . . . . . 24
2.7 Exemple : Modèle additif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.8 Lissage exponentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.8.1 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.8.2 Lissage exponentiel double . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.8.3 Méthodes de Holt-Winters . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
[Link] Méthode non saisonnière ou méthode de Holt . . . . . . . . . 32
[Link] Méthode saisonnière additive . . . . . . . . . . . . . . . . . . . 33
[Link] Méthode saisonnière multiplicative . . . . . . . . . . . . . . . . 33
[Link] Lissage et prévision de la concentration en co2 . . . . . . . . . 33
[Link] Lissage et prévision du CAC40 . . . . . . . . . . . . . . . . . . 33

3 Analyse combinatoire 34
3.1 Principe multiplicatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Arrangements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.1 Arrangements sans répétitions . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2 Arrangements avec répétitions . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3 Combinaisons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.1 Combinaisons sans répétitions . . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.2 Combinaisons avec répétitions . . . . . . . . . . . . . . . . . . . . . . . . 35

4 Espace probabilisé 37
4.1 Univers des possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Evénements, Tribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.4 Conditionnement et indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.4.1 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.4.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5 Variables aléatoires discrètes 42


5.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2 Variables aléatoires discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.4 Caractéristiques des variables aléatoires discrètes . . . . . . . . . . . . . . . . . 44
5.4.1 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5 Variance, écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.6 Variables aléatoires discrètes indépendantes . . . . . . . . . . . . . . . . . . . . . 46

6 Quelques lois de probabilités discrètes 47


6.1 Loi uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.2 Loi de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.3 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.4 Loi hypergéométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.5 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.6 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Chapitre

1 Statistiques à deux variables

1.1 Introduction
La question centrale de ce chapitre est relative aux statistiques bivariées (deux variables).
Comment juger de l’intensité de la dépendance statistique esntre deux variables ?
Répondre statistiquement à cette question dépend de la nature des deux variables étu-
diées. Trois combinaisons sont possibles :
— Deux variables qualitatives :
— Une variable qualitative et une variable quantitative :
— Deux variables quantitatives
L’analyse dans ce cas n’est plus univariée mais bien bivariée. On analyse de manière simul-
tanée les caractéristiques des individus suivant deux variables.

1.2 Généralités

1.2.1 Distribution conjointe


Soit une population comprenant n individus pour chacun desquels on a fait une ob-
servation concernant simultanément les caractères X et Y . Le caractère X comporte les k
modalités X 1 , · · · , X k et le caractère Y , les l modalités Y1 , · · · , Yl . L’opération préliminaire de
mise en ordre des observations va consister à classer chacun des n individus dans les k × l
sous-ensembles définis par le croisement des caractères X et Y . A chacun des sous-ensembles
correspond une case du tableau statistique à double entrée où figurent en ligne les modalités
de X et en colonne les modalités de Y (tableau à k lignes et l colonnes). Ce tableau est
appelé tableau de contingence.
On note n i j l’effectif des individus présentant à la fois la modalité X i et la modalité Y j . La
fréquence des individus présentant à la fois la modalité X i et la modalité Y j est

ni j
fi j = .
n

La distribution conjointe des caractères X et Y est donnée par le tableau de contingence :

4
1.2. GÉNÉRALITÉS 5
HH Y Y
H
Y2 ··· Yj ··· Yl
X HH 1
X1 n 11 n 12 ··· n1 j ··· n 1l
X2 n 21 n 22 ··· n2 j ··· n 2l
.. .. .. .. .. .. ..
. . . . . . .
Xi n i1 n i2 ··· ni j ··· n il
.. .. .. .. .. .. ..
. . . . . . .
Xk n k1 n k2 ··· nk j ··· n kl

Exemple 1.2.1. Deux variables qualitatives : répartition de 22 personnes selon le genre et le


statut d’activité :
XXX
XXX Statut Actifs occupés Chômeurs Inactifs Total
Genre XXX
X
Masculin 5 5 1 11
Féminin 4 3 4 11
Total 9 8 5 22

Exemple 1.2.2. Deux variables quantitatives continues : répartition de 19 adolescents selon


la taille et le poids.
XXX
XXX Taille [20, 40[ [40, 60[ [60, 80]
Poids XXX
X
[120, 140[ 1 0 0
[140, 160[ 6 4 0
[140, 160[ 0 6 2

Exemple 1.2.3. Une variable quantitative continue et une variable qualitative : Répartition
d’un groupe de 50 personnes réparties par âge et par genre, tous âgés de moins de 45 ans.

PPGenre Homme
PP
Femme
Age PP
P
P
[0, 18[ 10 20
[18, 45[ 5 15

1.2.2 Distributions marginales


Le nombre d’individus présentant la modalité X i du caractère X n i• est
l
X
n i• = ni j.
j =1

La fréquence de la modalité X i est donnée par


n i•
f i• = .
n

Le nombre d’individus présentant la modalité Y j du caractère Y est

k
X
n• j = ni j.
i =1
6 CHAPITRE 1. STATISTIQUES À DEUX VARIABLES
La fréquence de la modalité Y j est donnée par
n• j
f• j = .
n

Nous avons
X l
k X k
X l
X
n= ni j = n i• = n• j
i =1 j =1 i =1 j =1

X l
k X k
X l
X
fi j = f i• = f • j = 1.
i =1 j =1 i =1 j =1

HH Y
HH Y1 Y2 ··· Yj ··· Yl Total
X H
X1 n 11 n 12 ··· n1 j ··· n 1l n 1•
X2 n 21 n 22 ··· n2 j ··· n 2l n 2•
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi n i1 n i2 ··· ni j ··· n il n i•
.. .. .. .. .. .. .. ..
. . . . . . . .
Xk n k1 n k2 ··· nk j ··· n kl n k•
Total n •1 n •2 ··· n• j ··· n •l n

HH Y
HH Y1 Y2 ··· Yj ··· Yl Total
X H
X1 f 11 f 12 ··· f1 j ··· f 1l f 1•
X2 f 21 f 22 ··· f2 j ··· f 2l f 2•
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi f i1 f i2 ··· fi j ··· f il f i•
.. .. .. .. .. .. .. ..
. . . . . . . .
Xk f k1 f k2 ··· fk j ··· f kl f k•
Total f •1 f •2 ··· f• j ··· f •l 1

La distribution marginale de X est donnée par le tableau ci-dessous :

Modalités de X Effectif Fréquence


X1 n 1• f 1•
X2 n 2• f 2•
.. .. ..
. . .
Xi n i• f i•
.. .. ..
. . .
Xk n k• f k•
total n 1

La distribution marginale de Y est donnée par le tableau ci-dessous :


1.2. GÉNÉRALITÉS 7
Modalités de Y Effectif Fréquence
Y1 n •1 f •1
Y2 n •2 f •2
.. .. ..
. . .
Yj n• j f• j
.. .. ..
. . .
Yl n •l f •l
total n 1

1.2.3 Distributions conditionnelles


Les distributions conditionnelles s’obtiennent en fixant la valeur d’une des deux variables.
La distribution conditionnelle de Y sachant X = X i est donnée par :

Y| X = X i Y1 ··· Yj ··· Yl Total


Effectif n i1 ··· ni j ··· n il n i•

Remarque 1.2.1. Nous pouvons ainsi définir k distributions conditionnelles de Y .


La distribution conditionnelle de X sachant Y = Y j est donnée par

X |Y = Y j X1 ··· Xi ··· Xk Total


Fréquence n1 j ··· ni j ··· nk j n• j

Remarque 1.2.2. Nous pouvons aussi définir l distributions conditionnelles de X .


Exemple 1.2.4. Deux variables qualitatives : répartition de 22 personnes selon le genre et le
statut d’activité :
XXX
XXX Statut Actifs occupés Chômeurs Inactifs Total
Genre XXX
X
Masculin 5 5 1 11
Féminin 4 3 4 11
Total 9 8 5 22

Statut | Genre=Masculin Actifs occupé Chomeurs Inactifs Total


Effectif 5 5 1 n 1• = 11
n 11 n 12 n 13
frequence f 1⧸1 = n 1• = 0.4545 f 2⧸1 = n 1• = 0.4545 f 3⧸1 = n 1• = 0.091 1

1.2.4 Indépendance
On dit que les caractères X et Y sont satistiquement indépendants dans l’ensemble des
n individus considérés si toutes les distributions conditionnelles de X sont identiques à la
distribution marginale en X .

Indépendance entre X et Y ⇐⇒ Pour tous ( i, j ), f i⧸ j = f i•

Puisque
ni j
ni j n fi j
f i⧸ j = = n• j = ,
n• j f• j
n
alors
f i j = f • j × f i⧸ j = f i• × f j⧸ i .
8 CHAPITRE 1. STATISTIQUES À DEUX VARIABLES
Ainsi, nous obtenons

Indépendance entre X et Y ⇐⇒ Pour tous ( i, j ), f i j = f i• f • j


n i• n• j
⇐⇒ Pour tous ( i, j ), ni j =
n
n i• n• j
⇐⇒ Pour tous ( i, j ), ni j − = 0.
n
Par symétrie :

Indépendance entre X et Y ⇐⇒ Pour tous ( i, j ), f j⧸ i = f • j

Lorsque deux variables dépendent statistiquement l’une de l’autre, on cherche à évaluer


l’intensité de leur liaison et, dans le cas de deux variables quantitatives, on examine si on
peut les considérer liées par une relation linéaire.

1.3 Liaison entre deux caractères qualitatifs


1.3.1 Mesure de l’intensité de la liaison
L’intensité de la liaison entre deux caractères qualitatifs est mesurée par
´2
n n
³
k X
l n i j − i•n • j
χ2 =
X
n i• n• j .
i =1 j =1 n

Le χ2 est toujours positif ou nul.

Exemple 1.3.1. Prenons k = 2 et l = 3

n i• n• j 2
³ ´
3 ni j −
2 X n
χ2 =
X
n i• n• j
i =1 j =1 n
µ¡ n i• n •1 ¢2 ¡ n n ¢2 ¡ n n ¢2 ¶
2
X n i1 − n n i2 − i•n •2 n i3 − i•n •3
= n i• n •1 + n i• n •2 + n i• n •3
i =1 n n n
n 1• n •1 ¢2 n 1• n •2 ¢2 n 1• n •3 ¢2 ¢2 ¢2 ¢2
n 21 − n2•nn•1 n 22 − n2•nn•2 n 23 − n2•nn•3
¡ ¡ ¡ ¡ ¡ ¡
n 11 − n n 12 − n n 13 − n
= n 1• n •1 + n 1• n •2 + n 1• n •3 + n 2• n • 1 + n 2• n •2 + n 2• n • 3
n n n n n n

On sait que :

X et Y sont indépendants ⇐⇒ f i j = f i• × f • j i = 1, . . . , k, j = 1, . . . , l.

Ainsi, nous avons


ni j n• j n i•
f i j = f i• × f • j ⇐⇒ = ×
n n n
n• j × n i•
⇐⇒ n i j =
n
n ×n
De ce fait on a χ2 = 0 si et seulement si n i j = i• n • j . La quantité χ2 mesure l’écart entre les
n ×n
effectifs observés n i j et ceux attendus i• n • j sous l’hypothèse d’indépendance. On dira que
X et Y ne sont pas indépendants si χ2 est trop grand.
1.3. LIAISON ENTRE DEUX CARACTÈRES QUALITATIFS 9
1.3.2 Coefficient de Cramer
Le coefficient de Cramer est défini par
s
χ2
C= .
n × min( k − 1, l − 1)

Nous avons 0 ≤ C ≤ 1. Si C ≈ 0, les deux caractères sont indépendants. Si C = 1, on parle de


dépendance entre X et Y .

Exemple 1.3.2. Prenons k = 2 et l = 3 Le coefficient de Cramer est défini par


s s s
χ2 χ2 χ2
C= = = .
n × min(2 − 1, 3 − 1) n × min(1, 2) n

1.3.3 Exercices
[Link] Exercice 1
Nous voulons étudier la liaison entre le type de musique X et l’âge Y . X a trois modalités
(chansons, jazz, classique) et Y a quatre modalités (jeunes, adulte femme, adulte homme,
vieux). Voici le tableau de contingence :

HH Y Jeunes
H
Adulte femme Adulte homme Vieux Total
X HH
Chansons 69 172 133 27 401
Jazz 41 84 118 11 254
Classique 18 127 157 43 345
Total 128 383 408 81 1000

Etudions la liaison entre X et Y .

Nous avons

n i• n• j 2
³ ´
4 ni j −
3 X n
χ2 =
X
n i• n• j = 52.9138.
i =1 j =1 n

Le coefficient de Cramer est


s s
χ2 χ2
C= = ≈ 0.16.
1000 × min(2, 3) 2000

La dépendance entre X et Y est très faible.

[Link] Exercice 2
Un site internet reçoit 113 457 visiteurs durant un mois. On désigne par X le navigateur
internet utilisé et Y le système d’exploitation utilisé.
10 CHAPITRE 1. STATISTIQUES À DEUX VARIABLES
HH Y
H
Windows Mac Linux
X HH
Chrome 14103 1186 427
Firefox 30853 4392 3234
Internet explorer 47389 23 0
Safari 668 6416 0
Autres 2974 40 1752

1. Identifier la population, sa taille ainsi que les variables étudiées en précisant leur type.
2. Quelle est la proportion de visiteurs sous Windows ?
3. Quelle proportion de visiteurs utilisent le navigateur Safari ?
4. Parmi les utilisateurs de Mac, quelle proportion utilise Chrome ?
5. Parmi les utilisateurs de Safari, quelle proportion est sous Windows ?
6. Représenter graphiquement la distribution des proportions par Navigateur pour chaque
système d’exploitation. Les variables X et Y sont-elles indépendantes ?

1.4 Liaison entre deux caractères quantitatifs


1.4.1 Représentation graphique : nuage de points.
On suppose que les deux caractères X et Y sont quantitatifs. Pour chaque individu i ,
on connaı̂t le couple de valeurs ( X i , Yi ) qui lui est attaché. Sur un graphique à axes de coor-
données rectangulaires, nous pouvons représenter chaque élément, par un point d’abscisse
X i et d’ordonnée Yi . Ce graphique est appelé graphique de corrélation ou nuage de points.
Schématiquement, le nuage peut revêtir trois aspects :
1. Les points représentatifs sont distribués sur toute la surface du graphique, à peu près
comme s’ils avaient été placés au hasard. C’est le signe qu’il n’y a aucun lien entre
les deux variables X et Y : on dit qu’elles sont indépendantes ;
2. Les points représentatifs sont , au contraire rangés le long d’une courbe (droite, arc
de cercle,...). Une loi rigoureuse préside alors aux relations entre les deux variables.
A chaque valeur de X correspond une seule valeur de Y . On dit qu’il y a liaison
fonctionnelle entre Y et X
3. La plupart des phénomènes identifiés à des distributions à deux variables se trouvent
entre ces deux extrèmes. Les points représentatifs se distribuent dans une région
privilégiée du dessin. Moins le nuage de points a d’épaisseur et plus on se trouve
proche de la liaison fonctionnelle : on dit qu’il y a une forte corrélation entre les deux
variables. Inversement, plus le nuage de points s’étale, moins ses limites sont précises,
plus on est proche de l’indépendance : la corrélation est faible.

1.4.2 Covariance, coefficient de correlation linéaire


La covariance entre les caractères X et Y est défini par

1X n
Cov( X , Y ) = ( X i − X n )(Yi − Y n )
n i=1
1X n
= X i Yi − X n Y n .
n i=1
1.4. LIAISON ENTRE DEUX CARACTÈRES QUANTITATIFS 11
La covariance est un indice symétrique, c’est à dire, Cov( X , Y ) = Cov(Y , X ) et peut prendre
toute valeur (négative, nulle ou positive).
Le coefficient de correlation linéaire entre les caractères X et Y est défini par
Cov( X , Y )
rXY =
σ X σY

où σ X et σY les écart-types respectifs de X et σY , sont définis


à !1/2 à !1/2
1X n 1X n
σX = ( X i − X n )2 σY = (Yi − Y n )2 .
n i=1 n i=1

Nous avons :
1. −1 ≤ r X Y ≤ 1.
2. Si r X Y > 0 alors les deux variables évoluent dans le même sens.
3. Si r X Y < 0 alors les deux variables n’évoluent pas dans le même sens.
4. | r X Y | = 1 ⇐⇒ les n points ( X i , Yi ) sont alignés.
5. r X Y = 0 ⇐⇒ Pas de liaison linéaire, mais possibilité d’une liaison d’un autre type.
6. X et Y indépendantes=⇒ r X Y = 0.

Figure 1.1 – Exemples de nuage de points et coefficients de corrélation

Remarque 1.4.1. • La covariance dépend des unités de mesure dans lesquelles sont ex-
primées X et Y . Le coefficient de corrélation est un indice de liaison sans unité.
• La covariance et le coefficient de corrélation ne permettent de mettre en évidence
qu’une relation linéaire entre X et Y .
• Si deux variables sont statistiquement indépendantes (aucun lien), la corrélation est
nulle, mais l’inverse est faux : il peut exister un lien autre que linéaire entre elles.
12 CHAPITRE 1. STATISTIQUES À DEUX VARIABLES
1.4.3 Regression linéaire
Si | r X Y | ≃ 1, on peut supposer que X est cause de Y . Il est naturel de chercher, dans un
ensemble donné de fonctions, la fonction de X approchant Y ”le mieux possible” au sens d’un
certain critère. On dit que l’on fait la regression de Y sur X . Si l’on choisit pour ensemble de
fonctions celui des fonctions affines du type (aX + b), on parle de regression linéaire. C’est le
choix que l’on fait le plus fréquemment dans la pratique, le critère le plus usuel étant celui
des moindres carrés.
Le critère des moindres carrés. Il consiste à minimiser la quantité
n
[Yi − (aX i + b)]2 .
X
S (a, b) =
i =1
100

y *i
90

ei

yi
poids

80
70
60

155 160 165 170 175 180 185 190

taille

Solution. La minimisation de S en a et b fournit la solution suivante :


Cov( X , Y )
a= b = ȳ − a x̄.
σ2X

La droite d’équation y = ax + b est appelée droite de régression de Y sur X . Elle passe par
le point ( X n , Y n ).

1.4.4 Exemple Taux de cholestérol en fonction de l’âge


Sur un échantillon de 10 sujets d’âges différents, on a recueilli les données expérimentales
suivant :
- âge en année
1.4. LIAISON ENTRE DEUX CARACTÈRES QUANTITATIFS 13
- la concentration sanguine du cholestérol (en g/L).
Age ( X i ) 30 60 40 20 50 30 40 20 70 60
gl (Yi ) 1.6 2.5 2.2 1.4 2.7 1.8 2.1 1.5 2.8 2.6
Le taux de cholestérol est-il lié à l’âge ? La relation fonctionnelle est-elle linéaire ? Peut-on
prévoir le taux de cholestérol attendu à 35 ans, 75 ans ?
1. Représentation du nuage de points.
2.8
2.6
2.4
2.2
gl

2.0
1.8
1.6
1.4

20 30 40 50 60 70

Age

Les points sont rangés le long d’une droite. On peut donc supposer l’existence d’une
relation linéaire entre l’age et le taux de cholesterol.
2. Le coefficient de corrélation est donné par :
10
X
x i yi − 12 x12 y12
i =1
rXY = v v ≈ 0.95
u 10 u 10
uX uX
t x2 − 12( x )2 t yi2 − 12( y12 )2
i 12
i =1 i =1

Le coefficient de corrélation est positif. Ce qui signifie que l’age et le taux de choles-
terol évolue dans le même sens. De plus ils sont fortement corrélés ; ce qui confirme
la relation linéaire entre l’age et le taux de cholesterol.
3. Estimation des paramètres
P10
i =1 x i yi − 12 x12 y12
a= P 10 2
= 0.03
2
i =1 x i − 12( x12 )
14 CHAPITRE 1. STATISTIQUES À DEUX VARIABLES
b = y12 − âx12 = 0.92

4. La droite de regression est


gl = 0.03 ∗ age + 0.92
. La droite de régression est en rouge.
5. Prévisions A 35 ans le taux de cholestérol prédit est gl = 0.03 ∗ 35 + 0.92 = 1.97
A 75 ans le taux de cholestérol prédit est gl = 0.03 ∗ 75 + 0.92 = 3.17

1.5 Caractère quantitatif et caractère qualitatif


1.5.1 Rapport de correlation
Soient n observations portant simultanément sur un caractère qualitatif X à k modalités
et sur un caractère quantitatif Y . Les observations du caractère quantitatif Y se répartissent
dans les k modalités de X . Nous notons n i• le nombre d’observations de Y relatifs à la i-ème
modalité de X , Yi j la j-ème mesure de Y pour la i-ème modalité de X et Y i la moyenne des
observations dans la i-ème modalité
n i•
1 X
Yi = Yi j .
n i• j=1

La moyenne des observations de Y dans la popultion entière est

1X n
Yn = n i• Y i .
n i=1

On définit :
- la variance intra-groupe
1X k
Vintra = n i• σ2i
n i=1
avec
n i•
1 X
σ2i = (Yi j − Y i )2
n i• j=1

- la variance inter-groupe
1X k
Vinter = n i• (Y i − Y n )2
n i=1

Formule de décomposistion de la variance totale σ2 :

σ2 = Vintra + Vinter .

Le rapport de corrélation est défini par


Vinter
η2Y | X =
σ2

η2X |Y est un nombre compris entre 0 et 1.

- η2X |Y = 0 ⇒ Vinter = 0 ⇒ Y i = Y n . Ce qui signifie que les moyennes de Y sont les mêmes
dans toutes les modalités de X . En moyenne, les données ne diffèrent pas selon qu’elles
se trouvent dans telle ou telle modalité de X .
1.5. CARACTÈRE QUANTITATIF ET CARACTÈRE QUALITATIF 15
- η2X |Y= 1 ⇒ Vintra = 0 ⇒ Yi j = Y i . Les données diffèrent d’un groupe à l’autre mais à
l’interieur même de chaque groupe, il n’y a aucune variabilité.

Remarque 1.5.1. Si η2X |Y est proche de 1, c’est que le caractère X explique une grande partie
de la variabilité des données alors que si sa valeur est proche de 0, elle n’en explique que
très peu.

1.5.2 Exemple
Liaison entre le sexe (caractère X ) et le salaire (caractère Y ).
Le caractère X admet deux modalités : femme et homme.

Salaire des femmes


1955 1764 1668 1441 1970 1795 1716 1911 1660 2001
1744 1676 1695 1652 1626 1698 1656 1739 1789 1716
1684 1445 1646 1617 1630 1440 1850 1252 1493 1537

Salaire des hommes


2283 2010 1970 2019 1941 2024 2046 1962 1948 2071
2108 1880 2008 2119 2030 2014 1919 1837 2094 2169
Soient n F , l’effectif des femmes ; Y F la moyenne des salaires des femmes ; σ2F la variance des
salaires des femmes ; n H , l’effectif des hommes ; Y H la moyenne des salaires des hommes ;
σ2H la variance des salaires des hommes ; Y la moyenne générale des salaires (hommes et
femmes).
Nous avons
n F = 30 Y F = 1682.2 σ2F = 26959.56

n H = 20 Y H = 2022.6 σ2F = 9925.44

30Y F + 20Y H
Y= = 1818.36
30 + 20
La variance inter-groupe est :
1
½ ³ ´2 ³ ´2 ¾
Vinter = nF Y F − Y + nH Y H − Y = 27809.32
50

La variance totale est σ2 = 47955.23. Le rapport de correlation est


Vinter
ηY | X = ≈ 0.58.
σ2

On peut considérer que le caractère sexe explique environ 58% de la variabilité des salaires
observés.
Chapitre

Analyse descriptive d’une série chro-


2 nologique

2.1 Présentation
2.1.1 Définitions
On s’intéresse à l’évolution au cours du temps d’un phénomène, dans le but de décrire,
expliquer puis prévoir ce phénomène. On dispose ainsi d’observations à des dates diffé-
rentes, c’est à dire d’une suite de valeurs numériques indicées par le temps appelée série
chronologique (chronique ou série temporelle). Les séries chronologiques sont présentes dans
de nombreux domaines d’application (démographie,économie, écologie, finance, médecine,
informatique. . .)
Exemple 2.1.1. • Température maximale journalière
• Chiffre d’affaire trimestriel d’une entreprise
• Indice mensuel des prix à la consommation
• Consommation mensuelle d’électicité.

Soit ( X t , t ∈ T) une série chronologique ; l’ensemble T est appelé espace des temps. Nous
avons en général T ⊆ N ou T ⊆ Z.
On donne deux dimensions au temps :
- le mois, unité de référence correspondant aux dates d’observation ; le mois peut être
le mois véritable mais également le trimestre, le semestre, etc.
- l’année composée d’un nombre p de mois ; le nombre p est appelé période ; par
exemple, p = 4 pour les observations trimestrielles, p = 12 pour les observations men-
suelles.
Soit X t l’observation d’une grandeur X à la date t. Si les observations sont faites sur n
années, et chaque année contenant p mois, on notera X i j l’observation du mois j de l’année
i . Nous avons
X i j = X t avec t = ( i − 1) p + j.
Le mois t est le j -ème mois de la i -ème année. Si T = {1, . . . , T } alors le nombre total d’obser-
vations est T = np. Nous avons donc deux façons de présenter unesérie chronologique sous
forme de tableau :

t 1 2 ... T
Xt X1 X2 ... XT

16
2.1. PRÉSENTATION 17
XXX
XXX Mois mois 1 mois 2 ... mois j ... mois p
Années XXX
X
année 1 X 11 X 12 ... X1 j ... X1p
année 2 X 21 X 22 ... Xij ... X2p
..
.
année i X i1 X i2 ... Xij ... Xip
..
.
année n X n1 X n2 ... Xnj ... X np

Exemple 2.1.2. Chiffre d’affaires trimestriel d’une entreprise (en millions de francs)

t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Xt 2 8 6 12,5 5 10.5 9 15 7 12 10,5 17 8.5 14.5 12 19

XXX
XXX Mois Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
Années XXX
X
1976 2 8 6 12.5
1977 5 10.5 9 15
1978 7 12 10.5 17
1979 8.5 14.5 12 19

Exemple 2.1.3. Chiffre d’affaires trimestriel d’une entreprise (en millions de francs)
XXX
XXX Mois Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
Années XXX
X
2000 5,5 6,3 16,9 32,4
2001 23,1 17,5 37,8 62,7
2002 40,6 28,7 58,7 93,3
2003 58,5 39,9 79,5 123,1

2.1.2 Les composantes d’une série chronologique


Soit ( X t , t ∈ T) une série chronologique. On distingue différentes composantes fondamen-
tales dans une série chronologique :
- la tendance ou trend ou composante tendancielle T t indiquant l’évolution à long
terme du phénomène. Elle traduit le comportement ”moyen” de la série.
- Le cycle (ou composante cyclique). Il s’agit d’un phénomène se répétant sur des
durées qui ne sont pas fixes et généralement longues. Sans informations spécifiques,
il est généralement très difficile de dissocier tendance et cycle.
- la composante saisonnière ou saisonnalité S t correspond à un comportement qui se
répète avec une certaine périodicité p ( p = 12 pour des données mensuelles, p = 4 pour
des données trimestrielles. . .). Ce sont des fluctuations s’inscrivant dans le cadre de
l’année et qui se reproduisent de façon plus ou moins identiques d’une année à l’autre ;
la période notée p des variations saisonnières est la longueur exprimée en unité de
temps séparant deux variations saisonnières dues à un même phénomène.
18 CHAPITRE 2. ANALYSE DESCRIPTIVE D’UNE SÉRIE CHRONOLOGIQUE
- la composante résiduelle ε t représentant des fluctuations irrégulières et imprévisibles ;
ces fluctuations supposées en général de faible amplitude ; elles traduisent l’effet des
facteurs perturbateurs non permanents (grèves, guerre, intempéries,...)

Remarque 2.1.1. Ces trois composantes ne sont pas toujours simultanément présentes dans
une série chronologique. Certaines séries n’ont pas de tendance, d’autres n’ont aucune com-
posante saisonnière. D’autres n’ont pas de composantes résiduelle.

Nous supposons que :


- le mouvement saisonnier est périodique de période p :

S t = S t+ p = S t+2 p = . . . ;

le mouvement saisonnier relatif au mois j est S i j = S j quelque soit l’année i.


- Principe de conservation des aires : sur une année, l’influence des variations saison-
nières est nulle.
Le traitement des séries chronologiques peut avoir pour objectifs d’isoler et estimer une
tendance, isoler et estimer une composante saisonnière, et désaisonnaliser la série, de réaliser
une prévision, de construire un modèle explicatif en terme de causalité.

2.1.3 Représentations graphiques


Les deux représentations de la série temporelle conduisent à deux types de représentations
graphiques :
− Le chronogramme : on représente dans un repère orthonormé les points ( t, X t ) que
l’on relie par des segments de droite ; ce graphique permet une analyse sur l’ensemble
2.1. PRÉSENTATION 19
des n années. l’étude d’une série chronologique commence par l’examen de son chro-
nogramme ; Il en donne une vue d’ensemble, montre certains aspects, comme des
valeurs atypiques, d’éventuelles ruptures, un changement dans la dynamique de la
série.
− On représente les points ( j, Yi j ) que l’on relie par des segments de droites, ceci pour
chacune des années i ; ce graphique permet une analyse année par année et une
comparaison entre les différentes années

2.1.4 Modélisation d’une série chronologique


Un modèle est une image simplifiée de la réalité qui vise à traduire les mécanismes
de fonctionnement du phénomène étudié et permet de mieux les [Link] distingue
deux types de modèles : les modèles déterministes et les modèles stochastiques. Dans ce
cours, nous nous limitons aux modèles déterministes. Les deux modèles déterministes les
plus utilisés sont :
1. le modèle additif correspondant à des variations saisonnières dont la composition avec
la tendance conduit à une modulation d’amplitude constante :

X t = T t + S t + εt .
Principe de conservation des aires :
p
X
S j = 0.
j =1

2. le modèle multiplicatif correspondant à une modulation d’amplitude variable crois-


sante avec la tendance :

X t = T t × (1 + S t ) × (1 + ε t ).
Principe de conservation des aires :
p
X
S j = 0.
j =1

X t = T t × S t + εt .
Principe de conservation des aires :
p
X
S j = p.
j =1

X t = T t × S t × εt .
Principe de conservation des aires :
p
X
S j = p.
j =1
20 CHAPITRE 2. ANALYSE DESCRIPTIVE D’UNE SÉRIE CHRONOLOGIQUE
Dans la suite, lorsque nous parlerons de modèle multiplicatif nous considérons la forme :

X t = T t × (1 + S t ) × (1 + ε t ).

2.1.5 Choix du modèle


[Link] Méthode de la bande

On utilise le graphe de la série et la droite passant par les minima et celle passant par
les maxima. Si ces deux droites sont parallèles, le modèle est additif. Si les deux droites ne
sont pas parallèles, le modèle est multiplicatif.

[Link] Méthode du profil

On utilise le graphique des courbes superposées. Si les différentes courbes sont parallèles,
le modèle est additif. Sinon le modèle est multiplicatif.
2.2. ESTIMATION DE LA TENDANCE 21
[Link] Méthode du tableau de Buys et Ballot

On calcule les moyennes et écarts-types pour chacune des périodes considérées et on


calcule la droite des moindres carrés σ = a x̄ + b. Si a est nul, c’est un modèle additif, sinon ,
le modèle est multiplicatif.

Exemple 2.1.4. Nous allons une application de la méthode de Buys-Ballot avec le tableau
suivant :

XX
XXX Mois
XXX Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
Années XX
1976 2 8 6 12.5
1977 5 10.5 9 15
1978 7 12 10.5 17
1979 8.5 14.5 12 19
Moyenne x 5.625 11.25 9.375 15.875
Ecart-type σ 2.43349 2.358495 2.21853 2.40767

2.2 Estimation de la tendance

2.2.1 Moyennes mobiles

Le principe de cette technique est de construire une nouvelle série en calculant des
moyennes arithmétiques successives de longueur p fixée à partir des données originales. Les
moyennes mobiles de longueur égale à la période p permettent d’éliminer ou d’amortir les
composantes saisonnière et résiduelle. On procède ainsi au lissage de la courbe pour mettre
en évidence la tendance générale.

• On appelle moyenne mobile centrée de longueur impaire p = 2 k + 1 à l’instant t la


valeur moyenne des observations

X t−k + X t−k+1 + . . . + X t−1 + X t + X t+1 + . . . + X t+k


Mt =
p

• On appelle moyenne mobile centrée de longueur paire p = 2 k à l’instant t la valeur


moyenne

0.5 X t−k + X t−k+1 + . . . + X t−1 + X t + X t+1 + . . . + 0.5 X t+k


Mt =
p
22 CHAPITRE 2. ANALYSE DESCRIPTIVE D’UNE SÉRIE CHRONOLOGIQUE

Remarque 2.2.1. La tendance à la date t peut être estimée par la moyenne mobile centrée à
la date t de longueur la période p si
- la tendance présente une faible courbure
- les variations saisonnières sont périodiques de période p et ont une influence nulle
sur l’année
- les variations résiduelles sont de faible amplitude.

Remarque 2.2.2. Les moyennes mobiles peuvent être influencées par les valeurs extrêmes.
Dans ce cas, on pourrait calculer les médianes mobiles de même ordre. Les moyennes mobiles
donnent une meilleure estimation que les moindres carrés.

2.2.2 Méthode de Mayer


On ajuste le nuage de points ( t, X t ) à une droite passant par les deux points ( t̄1 , X̄ 1 ) et
( t̄ 2 , X̄ 2 ) calculés de la manière suivante :
- on découpe la série en deux parties de même effectif
- pour chacune des deux parties, on calcule la moyenne des t et celle des X t : ( t̄1 , X̄ 1 )
et ( t̄2 , X̄ 2 ) ; on peut calculer les points médians au lieu des moyennes ; cela permet de
limiter l’influence des valeurs extrêmes.
- il reste à tracer la droite passant par les deux points.

2.2.3 Méthode des moindres carrés


[Link] Tendance linéaire
On ajuste le nuage de points ( t, X t ) à une droite d’équation at + b où le couple (a, b)
minimise la distance
T
( X t − (at + b))2 .
X
t=1

Nous obtenons
cov( t, X )
a= b = X̄ − a t̄
var ( t)
2.3. VARIATIONS SAISONNIÈRES 23
où
1 XT 1 XT
cov( t, X ) = tX t − t̄ X̄ var ( t) = t2 − t̄2
T t=1 T t=1

1 XT 1 XT
X̄ = Xt t̄ = t.
T t=1 T t=1

Remarque 2.2.3. La droite des moindres carrés ajuste au mieux au sens des moindres carrés
(c’est celle qui passe le plus près de l’ensemble des points), mais elle ne modélise pas toujours
bien la tendance.

[Link] Tendance polynomiale

On peut utiliser la méthode des moindres carrés afin d’ajuster le nuage de points ( t, X t )
à un polynôme de degré choisi. L’observation du graphe de la série donne une idée du degré
du polynôme (selon la forme de la courbe).

2.3 Variations saisonnières


2.3.1 Estimation des coefficients saisonniers du modèle additif
1. Calculer les moyennes mobiles : M i j
2. Calculer les différences entre les observations et les moyennes mobiles : X i j − M i j .

3. Calculer la moyenne S j des X i j − M i j
4. Calculer la moyenne
p
′ 1 X ′
M = S
p j=1 j

′ ′
5. Estimer S j par Se j = S j − M pour respecter le principe de conservation des aires.

2.3.2 Estimation des coefficients saisonniers du modèle multiplicatif


1. Calculer les moyennes mobiles : M i j
Xij
2. Calculer les rapports des observations aux moyennes mobiles : .
Mi j
′ Xij
3. Calculer les moyennes des rapports S j des pour j = 1, . . . , p.
Mi j
4. Calculer la moyenne des moyennes
p
′ 1 X ′
M = S .
p j=1 j


Sj
5. Estimer S j par Se j = ′ − 1.
M
24 CHAPITRE 2. ANALYSE DESCRIPTIVE D’UNE SÉRIE CHRONOLOGIQUE

2.4 Désaisonnalisation
Désaisonnaliser une série chronologique, c’est éliminer la composante saisonnière sans
modifier les autres composantes. On appelle observation corrigée des variations saisonnières
ou observation désaisonnalisés, la valeur X i∗j cdobtenue en éliminant l’effet saisonnier sur
la valeur X i j . On la notera X t∗ . La désaisonnalisation permet de comparer des observations
dont les variations saisonnières sont différentes.
• Modèle additif : X i∗j = X i j − Se j
Xij
• Modèle multiplicatif : X i∗j =
1 + Se j

Remarque 2.4.1. - Les données X t∗ sont directement comparables car débarrassées de


l’effet des saisons et donc du caractère propre de chaque mois. On peut donc comparer
par exemple les données du mois de janvier à celles du mois d’aoùt.
- On peut avoir une meilleure estimation de la tendance à partir de la série désaison-
nalisée.

2.5 Prévisions
• Modèle additif : la prévision est :
h i
p
X i j = a ( i − 1) p + j + b + Se j .

• Modèle multiplicatif : la prévision est :


³ h i ´
p
X i j = a ( i − 1) p + j + b (1 + Se j ).

2.6 Approche générale de la modélisation d’une série chrono-


logique
1. Tracer la série des données et on repère ses principales caractéristiques (tendance,
composante saisonnière, observations aberrantes, . . .).
2. Estimer la tendance, la composante saisonnière et la composnte résiduelle.
3. Choisir un modèle de série stationnaire pour les variations résiduelles (Chapitres
suivants).
4. Prévisions.

2.7 Exemple : Modèle additif


Nous revenons sur le tableau concernant le chiffre d’affaire trimestriel d’une entreprise
de 1976 à 1978.
2.7. EXEMPLE : MODÈLE ADDITIF 25

Nous avions montré par les méthodes précédentes que le modèle est additif.

1. Tableau des moyennes mobiles. Nous utilisons la formule suivante :

2. Tableau des différences bservations ( X i j ) et moyennes mobiles ( M i j )

X i j − Mi j
26 CHAPITRE 2. ANALYSE DESCRIPTIVE D’UNE SÉRIE CHRONOLOGIQUE

′ 1³ ´
S1 = − 3.875 − 3.9375 − 4.3125 = −4.042
3
′ 1³ ´
S 2 = 0.9375 + 0.625 + 1.25 = 0.935
3
′ 1³ ´
S3 = − 1.5 − 1.125 − 1.3125 = −1.3125
3
′ 1³ ´
S 4 = 4.3125 + 4.4375 + 4.6875 = 4.479
3

Comme

′ ′ ′ ′
S 1 + S 2 + S 3 + S 4 = 0.0595 ̸= 0,

le principe de conservation des aires n’est pas respectée. Nous passons à l’étape sui-
vante.

3. Principe de conservation des aires. Posons


2.7. EXEMPLE : MODÈLE ADDITIF 27

′ ′ ′ ′
Les coefficients Se1 , Se2 , Se3 et Se4 respectent leprincipe de conservation des aires.

Interprétation des coefficients saisonniers : Se1 = −4.057335 signifie qu’en moyenne
on a une baisse de 4.042 millions au trimestre 1 par rapport à l’ensemble de l’année ;

S 4 = 4.479 signifie qu’en moyenne on a une hausse de 4.463625 millions au trimestre
4 par rapport à l’ensemble de l’année.

4. Séries désaisonnalisée :


X i∗j = X i j − Se j .
28 CHAPITRE 2. ANALYSE DESCRIPTIVE D’UNE SÉRIE CHRONOLOGIQUE

5. Estimation de la composante résiduelle

6. Cas d’un modèle multiplicatif : A la main !


• Tableau des données
XX
XXX Mois
XXX Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
Années XX
2000 5,5 6,3 16,9 32,4
2001 23,1 17,5 37,8 62,7
2002 40,6 28,7 58,7 93,3
2003 58,5 39,9 79,5 123,1

• Tableau des moyennes mobiles M i j

XXX
XXX Mois Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
Années XX
XX
2000 17.475 21.075
2001 25.0875 31.4875 37.4625 41.05
2002 45.0625 51.5 57.5625 61.2
2003 65.2 71.525

Xij
• Tableau des Mi j
2.7. EXEMPLE: MODÈLE ADDITIF 29
XXX
XXX Mois Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4
Années XXX
X
2000 0.96709585 1.53736655
2001 0.92077728 0.5557761 1.00900901 1.5274056
2002 0.90097087 0.55728155 1.01976113 1.5245098
2003 0.89723926 0.55784691
S ′j 0.9063291367 0.5569681867 0.9986219967 1.52976065

• Moyenne des S ′j

0.9063291367 + 0.5569681867 + 0.9986219967 + 1.52976065


M′ =
4
= 0.99792

• Estimation des coefficients saisonniers


S 1′
S1 = − 1 = −0.09178176
M′
S 2′
S2 = − 1 = −0.4418709
M′
S 3′
S3 = − 1 = 0.0007034674
M′
S 4′
S4 = − 1 = 0.5329492
M′
$x
Qtr1 Qtr2 Qtr3 Qtr4
2000 5.5 6.3 16.9 32.4
2001 23.1 17.5 37.8 62.7
2002 40.6 28.7 58.7 93.3
2003 58.5 39.9 79.5 123.1

$seasonal
Qtr1 Qtr2 Qtr3 Qtr4
2000 0.9082182 0.5581291 1.0007035 1.5329492
2001 0.9082182 0.5581291 1.0007035 1.5329492
2002 0.9082182 0.5581291 1.0007035 1.5329492
2003 0.9082182 0.5581291 1.0007035 1.5329492

$trend
Qtr1 Qtr2 Qtr3 Qtr4
2000 NA NA 17.4750 21.0750
2001 25.0875 31.4875 37.4625 41.0500
2002 45.0625 51.5000 57.5625 61.2000
2003 65.2000 71.5250 NA NA

$random
Qtr1 Qtr2 Qtr3 Qtr4
2000 NA NA 0.9664160 1.0028816
2001 1.0138282 0.9957841 1.0082997 0.9963837
2002 0.9920202 0.9984815 1.0190443 0.9944947
30 CHAPITRE 2. ANALYSE DESCRIPTIVE D’UNE SÉRIE CHRONOLOGIQUE
2003 0.9879115 0.9994944 NA NA

$figure
[1] 0.9082182 0.5581291 1.0007035 1.5329492

$type
[1] "multiplicative"

attr(,"class")
[1] "[Link]"
[1] -0.0917817612 -0.4418709007 0.0007034661 0.5329491958
S 1 = −0.0917817612 signifie que le chiffre d’affaire du trimestre 1 baisse de 9.18%
par rapport à l’ensemble de l’année ; S 4 = 0.5329491958 signifie que le chiffre
d’affaire du trimestre 4 connaı̂t une hausse de 53.29% par rapport à l’ensemble
de l’année.
> plot(C)

Decomposition of multiplicative time series


100
observed
60
20
60
trend
40
20
1.4
seasonal
1.0
0.6
1.01
random
0.99
0.97

2000 2001 2002 2003

Time

2.8 Lissage exponentiel


Soit une série chronologique X 1 , . . . , X T . Nous sommes à la période T et nous voulons
prédire à l’horizon h i.e à la date T + h où h > 0. Les méthodes de lissage exponentiel
consiste à extrapoler une série en vue de faire des prévisions.
2.8. LISSAGE EXPONENTIEL 31
2.8.1 Lissage exponentiel simple
La prévision à la date T + h par la méthode de lissage exponentiel simple est donnée par
la formule :
TX
−1
X̂ T ( h) = (1 − α) α j X T− j 0 < α < 1.
j =0

Cette prévision ne dépend de h qu’à travers α. Si α ne dépend pas de h, la prévision à


l’horizon h sera égale à la prévision à l’horizon 1. Lorsque α est proche de 1, la prévision
tient compte d’un grand nombre de valeurs passées. Lorsque α est proche de zéro, seules les
valeurs récentes de la série ont une importance.

Remarque 2.8.1. Pour certains logiciels permettant de faire du lissage exponentiel, la constante
de lissage n’est pas α mais β = 1 − α.

Nous avons le résultat suivant :


TX
−1
X̂ T = (1 − α) X T + (1 − α) α j X T− j
j =1
T−1−1
αl +1 X T −1−l
X
= (1 − α) X T + (1 − α) (poser le changement de variables l = j − 1)
l =0
= (1 − α) X T + α X̂ T −1

où X̂ T −1 est la prévision à la date T − 1. Nous avons encore

X̂ T = X̂ T −1 + (1 − α)( X T − X̂ T −1 ) (2.8.1)

La formule (2.8.1) montre que la prévision X̂ T s’interprète comme la prévision faite à l’instant
précédent corrigée par un terme proportionnel à l’erreur de prévision correspondante. On
obtient aussi une formule de mise à jour, que l’on peut initialiser par exemple par X̂ 1 = X 1
(noter que comme 0 < α < 1, le valeur initiale aura peu d’influence lorsque T est grand). Pour
utiliser cette équation de récurrence, on peut prendre X̂ 1 = X 1 ou la moyenne de la série.
X 1 a moins d’influence sur la prévision lorsque la série est longue. Considérons le problème
suivant :
TX
−1
min α j ( X T − j − C )2 .
C j =0

La solution est
TX
−1
b = 1−α
C α j X t− j .
1 − α j=0
T

La valeur Cb correpond à peu près à X b T lorsque T est grand. Elle s’interprète comme la
constante qui approxime le mieux la série au voisinage de T (les α j pondèrent l’importance
de la T − j -ième observation). Il est donc préférable de ne pas appliquer cette méthode lorsque
la série présente une tendance non constante ou d’importantes fluctuations (de sorte qu’une
approximation localement constante soit peu réaliste).

Choix de la constante α :

TX
−1 h tX
−1 i2
α
b = arg min X t+1 − (1 − α) α j X t− j .
α
t=1 j =0
32 CHAPITRE 2. ANALYSE DESCRIPTIVE D’UNE SÉRIE CHRONOLOGIQUE
2.8.2 Lissage exponentiel double
Une façon de généraliser le lissage exponentiel simple est de supposer que la série s’ap-
proche localement par une fonction affine du temps (au lieu d’une fonction constante). On
suppose alors que X T +h ≈ A + Bh pour h petit. Pour une constante de lissage α, il s’agit
alors de résoudre le problème :
TX
−1
min α j ( X T − j − ( A j + B))2 .
A,B j =0

Par approximation, on obtient les solutions suivantes

B
b(T ) = 2S 1 (T ) − S 2 (T )

b(T ) = 1 − α (S 1 (T ) − S 2 (T ))
A
α
avec
TX
−1
S 1 (T ) = (1 − α) α j X T− j
j =0
TX
−1
S 2 (T ) = (1 − α) α j S 1 (T − j )
j =0

La prévision à l’horizon h est donnée par :

X
b T ( h) = A
b (T ) h + B
b(T ).

Nous avons les formules de mise à jour suivantes


(
B
b(T ) =Bb(T − 1) + A b(T − 1) + (1 − α2 )( X T − X
b T −1 (1))
2
(2.8.2)
A
b (T ) = A (T − 1) + (1 − α) [ X T − X
b b T −1 (1)]

avec les valeurs initiales Bb(2) = X 2 et Ab(2) = X 2 − X 1 .

2.8.3 Méthodes de Holt-Winters


[Link] Méthode non saisonnière ou méthode de Holt
La méthode de lissage exponentiel de Holt s’applique aux séries sans composante saison-
nière et pouvant être ajustées à une droite au voisinage de T + h. Dans les formules de mise
à jour (2.8.2)
La prévision à l’horizon h est donnée par :

X
b T ( h) = A
b (T ) h + B
b(T ).

Les formules de mise à jour sont :

niveau B̂(T ) = (1 − α) X T + α[B̂(T − 1) + Â (T − 1)]


pente  (T ) = (1 − γ)[B̂(T ) − B̂(T − 1)] + γ  (T − 1)

avec 0 < α < 1 et 0 < γ < 1. Les valeurs initiales  (2) = X 2 et B̂(2) = X 2 − X 1 . L’introduction
de deux constantes rend la méthode plus souple que le lissage exponentiel double. Les deux
paramètres α et γ peuvent être choisis en minimisant la somme des carrés des erreurs de
prévision, comme pour le lissage exponentiel simple ou double. L’initialisation des formules
récursives de mise à jour est identique à celle pour le lissage exponentiel double.
2.8. LISSAGE EXPONENTIEL 33
[Link] Méthode saisonnière additive
On suppose que X t+h ≈ B + Ah + S t+h où S t est un facteur saisonnier de période p. Les
formules de mise à jour sont les suivantes et dépendent de trois paramètres 0 < α, γ, δ < 1.
Les formules de mise à jour sont :

niveau b(T ) = (1 − α)( X T − SbT − p ) + α[ A


A b(T − 1) + B
b(T − 1)]

pente b(T ) = (1 − γ)[B̂(T ) − B̂(T − 1)] + γ A


A b(T − 1)

saisonnalité Ŝ T = (1 − δ)[ X T − B
b(T )] + δSbT − p

avec 0 < α < 1, 0 < γ < 1 et 0 < δ < 1. Les prévisions à l’horizon h sont données par :

X̂ T ( h) = Â (T ) h + B̂(T ) + Ŝ T +h− p 1≤h≤ p


X̂ T ( h) = Â (T ) h + B̂(T ) + Ŝ T +h−2 p p < h ≤ 2p ainsi de suite

TX
−1 h i2
Le choix des trois paramètres α, γ, δ se fait en général en minimisant b t ( h) .
X t+1 − X
t=1

[Link] Méthode saisonnière multiplicative


On suppose que X t+h ≈ (B + Ah)S t+h au voisinage de t + h ; S t est un facteur saisonnier
et p représente la période. Les formules de mise à jour sont :
XT
niveau B̂(T ) = (1 − α) + α[ Â (T − 1) + B̂(T − 1)]
Ŝ T − p
pente  (T ) = (1 − γ)[B̂(T ) − B̂(T − 1)] + γ  (T − 1)
XT
saisonnalité Ŝ T = (1 − δ) + δŜ T − p
B̂(T )

avec 0 < α < 1, 0 < γ < 1 et 0 < δ < 1.


Les prévisions à l’horizon h sont données par :

X̂ T ( h) = ( Â (T ) + hB̂(T ))Ŝ T +h−P 1≤h≤ p


X̂ T ( h) = ( Â (T ) + hB̂(T ))Ŝ T +h−2P p < h ≤ 2p ainsi de suite

[Link] Lissage et prévision de la concentration en co2


Le fichier de données co2 contenu dans R contient les concentrations en CO2 à proximité
du volcan Mauna Loa (Hawai) de 1959 à 1997. Après avoir représenté graphiquement ces
données, quel modèle de lissage exponentiel vous semble le mieux approprié ? Afin de valider
ce modèle, tester la prédiction des données de 1990 à 1997 en utilisant celles de 1959 à
1989. Si cela vous semble graphiquement correct, utilisez cette méthode pour prédire les
concentrations en co2 de 1997 à 2007. Sinon, tester d’autres méthodes de lissage exponentiel.

[Link] Lissage et prévision du CAC40


Récupérer le fichier contenant les valeurs de cloture journalière du CAC40 de 1991 à
1998 (donnéesR EuStockMarkets). Essayer de prédire par lissage exponentiel les valeurs de
cloture de 1998 en utilisant les valeurs de cloture de 1991 à 1997.
Chapitre

3 Analyse combinatoire

L’analyse combinatoire est un important outil dans de nombreuses branches des mathé-
matiques, notamment dans la théorie des probabilités et en statistique.

3.1 Principe multiplicatif


Si une expérience peut se décomposer en k phases successives, ces dernières pouvant
s’effectuer respectivement de n1 , n2 , . . . , n k manières, alors l’expérience peut se ráliser de
n 1 × n 2 . . . n k manières. différentes.

Exemple 3.1.1. Combien de possibilités avons-nous de constituer un code de 4 chiffres ?

3.2 Arrangements
Définition 3.2.1. Un arrangement de p éléments choisis parmi n éléments est une disposition
ordonnée de p de ces n éléments.

On distingue les arrangements avec répétitions et les arrangements sans répétitions.

3.2.1 Arrangements sans répétitions


C’est le nombre d’arrangements que l’on peut faire avec p éléments choisis parmi n
éléments, chacun d’eux ne peut figurer qu’une seule fois dans le même arrangement.

Définition 3.2.2. Le nombre d’arrangements sans répétitions de p éléments choisis parmi n


est
p n!
An =
( n − p)!
où n! = n × (n − 1) × . . . × 2 × 1.

Exemple 3.2.1. Le nombre d’arrangements sans répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est A 23 = 6. Ces 6 arrangements sont : (a,b),
(b,a), (a,c), (c,a), (b,c), et (c,b).

Remarque 3.2.1. Un arrangement sans répétitions est une permutation si p = n. Le nombre


de permutations de n éléments est :
A nn = n!

34
3.3. COMBINAISONS 35
Exemple 3.2.2. Le nombre de permutations de 3 éléments a, b, c est P3 = 3! = 6. Ces 6
permutations sont : (a,b,c), (a,c,b), (b,a,c), (b,c,a), (c,a,b), et (c,b,a).

Exemple 3.2.3. Tirage sans remise : Une urne U contient n boules numérotés de 1 à n. On
tire successivement p boules de U sans les remettre dans l’urne. Il y a A np tirages différents
possibles.

3.2.2 Arrangements avec répétitions


C’est le nombre d’arrangements que l’on peut faire avec p éléments choisis parmi n
éléments, chacun d’eux peut figurer plusieurs fois dans le même arrangement.

Définition 3.2.3. Le nombre d’arrangements avec répétitions de p éléments choisis parmi n


est n p .

Exemple 3.2.4. Le nombre d’arrangements avec répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est 32 = 9. Ces 9 arrangements sont : (a, a),
(a, b), ( b, a), (a, c), ( c, a), ( b, b), ( b, c), ( c, b) et ( c, c).

Exemple 3.2.5. Tirage avec remise : Une urne U contient n boules numérotés de 1 à n. On
tire successivement p boules de U en remettant chaque fois dans l’urne la boule qu’on vient
de tirer. Le nombre de tirages possibles est donc n p .

3.3 Combinaisons
Définition 3.3.1. Une combinaison de p éléments choisis parmi n éléments est une disposition
non ordonnée de p de ces n éléments.

On distingue les combinaisons avec répétitions et les combinaisons sans répétitions.

3.3.1 Combinaisons sans répétitions


C’est le nombre de combinaisons que l’on peut faire avec p éléments choisis parmi n
éléments, chacun d’eux ne peut figurer qu’une seule fois dans la même combinaison.

Définition 3.3.2. Le nombre de combinaisons sans répétitions de p éléments choisis parmi


n est :
p n!
Cn = .
p!( n − p)!

Exemple 3.3.1. Le nombre de combinaisons sans répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est C32 = 3. Ces 3 combinaisons sans répétitions
sont : (a, b), (a, c), et ( b, c).

Exemple 3.3.2. Une urne U contient n boules numérotée de 1 à n. On tire simultanément p


boules de U . Le nombre de tirages possibles vaut le nombre de combinaisons de p éléments
parmi n.

3.3.2 Combinaisons avec répétitions


C’est le nombre de combinaisons que l’on peut faire avec p éléments choisis parmi n
éléments, chacun d’eux peut figurer plusieurs fois dans la même combinaison.
36 CHAPITRE 3. ANALYSE COMBINATOIRE
Définition 3.3.3. Le nombre de combinaisons avec répétitions de p éléments choisis parmi
n est :
p p
K n = C n+ p−1 .
C’est le nombre de façons de choisir p éléments parmi n, avec répétition et sans tenir compte
de l’ordre des éléments.

Exemple 3.3.3. Le nombre de combinaisons avec répétitions que l’on peut faire avec deux
éléments choisis parmi trois éléments a, b, c est K 32 = C42 = 6. Ces 6 combinaisons sont :
(a, a), (a, b), (a, c), ( b, b), ( b, c) et ( c, c)

Exemple 3.3.4. Soit E = {R, V , B}. Alors (B, B, R, V , V ) est une combinaison avec répétition
de 5 éléments de E.

Exemple 3.3.5. On veut ranger 3 pantalons dans 2 tiroirs. Quel est le nombre de possibilités ?
Exemple 3.3.6. On souhaite répartir p chiffons dans n tiroirs. On note les tiroirs t1 , . . . , t n .
A une répartition, on associe le mot t1 , . . . , t1 , t2 , . . . , t2 , . . . , t n , . . . , t n , où chaque t i est répété
autant de fois que le nombre de chiffons rangés dans le tiroir. On obtient une combinaison
avec répétitions.
Chapitre

4 Espace probabilisé

L’objet des probabilités est de modéliser des phénomènes aléatoires et de prédire avec
certitude leur évolution ou les conséquences qu’ils peuvent engendrer.

4.1 Univers des possibles


Définition 4.1.1. Une expérience E est qualifiée d’aléatoire si on ne peut pas prévoir par
avance son résultat et si, répétée dans des conditions identiques, elle peut donner lieu à des
résultats différents.

Définition 4.1.2. L’univers des possibles (ou univers), noté Ω est défini par l’ensemble de
tous les résultats possibles qui peuvent être obtenus au cours d’une expérience aléatoire.

La description explicite de l’ensemble Ω est la première étape dans la modélisation d’un


phénomène aléatoire. On distingue les univers comprenant un nombre fini de résultats de
ceux comprenant un nombre infini de résultats. Parmi les univers infinis, on distingue les
univers infinis non dénombrables des univers infinis dénombrables. Par exemple, l’univers
Ω = {ω1 , . . . , ω i , . . .} est un univers infini dénombrable puisque l’on peut identifier chacun des
éléments de Ω, même s’il en existe une infinité. En revanche, Ω = R est un exemple d’univers
infinis non dénombrables. Dans le cas d’un univers fini ou infini dénombrable, la taille de
l’univers est appelée cardinal de Ω et est noté card (Ω).

Exemple 4.1.1. Voici quelques expériences aléatoires et les univers des possibles correspon-
dants :
1. On lance une pièce. On a Ω = {pile, face}.
2. On jette un dé. On a Ω = {1, 2, 3, 4, 5, 6}.
3. On jette deux dés. On a

Ω = {( i, j ) : 1 ≤ i, j ≤ 6} = {(1, 1), (1, 2), (1, 3), . . .}.

4. Un bus est censé passer toutes les 30 minutes à l’école de police pour se rendre à Faya.
Un passager arrive à l’arrêt de bus. On cherche à modéliser son temps d’attente. A
priori, on peut supposer que ce temps d’attente est dans l’intervalle Ω = [0, 30].

37
38 CHAPITRE 4. ESPACE PROBABILISÉ

4.2 Evénements, Tribu


Définition 4.2.1. Un événement (ou une partie) A est un sous-ensemble de l’univers des
possibles Ω vérifiant A ⊂ Ω .

Définition 4.2.2. Un événement constitué d’un seul élément est un événement élémentaire
(ou singleton).

Définition 4.2.3. Un événement certain correspond à l’univers des possibles Ω.

Définition 4.2.4. Un événement impossible est un événement qui ne se réalise jamais. Il


correspond à l’ensemble vide, noté ;

Exemple 4.2.1. On considère une expérience aléatoire correspondant au lancer d’un dé à 6
faces. L’univers est alors Ω = {1, 2, 3, 4, 5, 6}. L’événement ” nombre pair ”, noté A, correspond
au sous-ensemble de l’ univers Ω défini par A = {2, 4, 6}.

Définition 4.2.5. Soient deux événements A et B. La réalisation de l’événement C , défini


par C = A ∪ B implique la réalisation de l’événement A ou de l’événement B, ou des deux
événements A et B simultanément.

Définition 4.2.6. Soient deux événements A et B. La réalisation de l’événement D , défini


par D = A ∩ B entraı̂ne la réalisation de l’événement A et de l’événement B.

Définition 4.2.7. Deux événements A et B sont disjoints s’ils n’ont pas d’élément en com-
mun, c’est à dire, A ∩ B = ; . Ces deux événements sont donc incompatibles : la réalisation
simultanée de ces événements est impossible.

Définition 4.2.8. Deux événements A et A inclus dans un ensemble B sont complémentaires


si leur union correspond à B, c’est à dire, A ∪ A = B et leur intersection est vide.

On note P (Ω), l’ensemble de toutes les parties de Ω.

Définition 4.2.9. Soit A ⊂ P (Ω). On dit que A est une tribu sur Ω si les trois conditions
suivantes sont vérifiées :
• Ω∈A
• si A ∈ A alors Ā ∈ A (stabilité par passage au complémentaire)
• si ( A i ) i∈ I est une famille dénombrable d’éléments de A alors A i ∈ A . (stabilité par
[
i∈ I
réunion dénombrable)

Remarque 4.2.1. La tribu A sur Ω représente l’ensemble de tous les évènements suceptibles
de se produire au cours de l’expérience aléatoire E . Lorsque l’ensemble Ω est fini ou dénom-
brable, on choisira pour A l’ensemble de toutes les parties de Ω, c’est-à-dire, A = P (Ω).

Le couple (Ω, A ) est appelé espace probabilisable. Pour compléter la description d’un
phénomène aléatoire, il nous reste à introduire la notion de mesure de probabilité.

4.3 Probabilité
Pour une expérience aléatoire donnée, une fois déterminé le couple (Ω, A ) qui représente
l’univers Ω associé à cette expérience et la tribu des évènements A , on définit une application
de A à valeurs dans [0, 1] qui à chaque évènement associe sa probabilité, c’est à dire la chance
de réalisation de cet évènement.
4.4. CONDITIONNEMENT ET INDÉPENDANCE 39
Définition 4.3.1. On appelle probabilité sur (Ω, A ) une application P : A → [0, 1] telle que :
(i) P(Ω) = 1
(ii) si ( A i ) i∈ I est une famille dénombrable d’éléments de A deux à deux disjoints ou
incompatibles (i.e. ∀ i ̸= j, A i ∩ A j = ;) alors
à !
P P( A i ).
[ X
Ai =
i∈ I i∈ I

On appelle espace probabilisé le triplet (Ω, A , P).

Propriété 4.3.1. 1. P(;) = 0


2. L’évènement A tel que P( A ) = 0 est dit presque impossible.
3. L’évènement A tel que P( A ) = 1 est dit presque certain.
4. P( Ā ) = 1 − P( A ).
5. P( A 1 ∪ A 2 ) = P( A 1 ) + P( A 2 ) − P( A 1 ∩ A 2 ).
6. Si A 1 ⊆ A 2 alors P( A 1 ) ≤ P( A 2 ).

La probabilité P est dite discrète dès que l’espace Ω est fini ou infini dénombrable. La tribu
associée est alors généralement P (Ω). Une probabilité sur un ensemble dénombrable est
complètement déterminée par P({ω}) pour tout ω ∈ Ω. En effet, pour tout A ⊂ Ω :

P( A ) = P({ω}).
X
ω∈ A

Définition 4.3.2. On suppose que Ω est un ensemble fini. On dit que l’on se trouve dans un
cas d’équiprobabilité si tous les évènements élémentaires ont la même probabilité.

Dans ce cas, nous avons ∀ω ∈ Ω


1
P({ω}) =
Card (Ω)
et pour tout B ∈ P (Ω)
Card (B)
P(B) = .
Card (Ω)

4.4 Conditionnement et indépendance


Soit (Ω, A , P) un espace probabilisé. Dans ce chapitre, nous allons étudier deux notions
importantes : le conditionnement et l’indépendance. Le conditionnement permet de prendre
en compte une information supplémentaire dans le calcul d’une probabilité. L’indépendance
rend compte du fait que deux évènements n’ont aucune incidence l’un sur l’autre.

4.4.1 Probabilité conditionnelle


Définition 4.4.1. Soient A et B deux évènements tels que P(B) > 0. On appelle probabilité
conditionnelle de A sachant que B, le réel défini par

P( A ∩ B )
P( A | B ) = .
P( B )

L’application A 7−→ P( A |B) définit une probabilité sur (Ω, A ).


40 CHAPITRE 4. ESPACE PROBABILISÉ
Proposition 4.4.1. Formule des probabilités composées. oit A 0 , . . . , A n une suite d’évè-
n
\
nements telle que A i ̸= ;. Alors, on a
i =0

n
P( A i ) = P( A 0 ) × P( A 1 | A 0 ) × P( A 2 | A 0 ∩ A 1 ) × . . . × P( A n | A 0 ∩ A 1 ∩ . . . ∩ A n−1 ).
\
i =0

Exemple 4.4.1. Pour n = 1, on a

P( A 0 ∩ A 1 ) = P( A 0 ) × P( A 1 | A 0 ).

Pour n = 2, on a

P( A 0 ∩ A 1 ∩ A 2 ) = P( A 0 ) × P( A 1 | A 0 ) × P( A 2 | A 0 ∩ A 1 ).

Définition 4.4.2. Une famille finie d’évènements ( A i )1≤ i≤n deux à deux incompatibles tels
n
A i = Ω est appelée système complet d’évènements.
[
que
i =1

Théorème 4.4.1. Formule des probabilités totales.


Soit {B1 , . . . , B n } un système complet d’évènements. Alors, nous avons
n
∀A ∈ A P( A ) = P(B i )P( A |B i ).
X
i =1

Exemple 4.4.2. Une urne contient des boules blanches et nores, marquées ou non. On suppose
que parmi les boules marquées, il y a 30% de boules blanches et parmi les non marquées 60%.
Par ailleurs, on sait que 80% des boules sont marquées. Quelle est la probabilité de tirer une
boule blanche ?
Solution. On note
B =”la boule est blanche”
M =”la boule est marquée”
On a

P(B) = P(B ∩ M ) + P(B ∩ M c )


= P( M ) × P(B| M ) + P( M c ) × P(B| M c )
80 30 20 60 36
= × + × = .
100 100 100 100 100

Théorème 4.4.2. (Formule de Bayes). Soit {B1 , . . . , B n } un système complet d’évènements


et A un évènement tel que P( A ) > 0. Alors, nous avons

P(B i )P( A |B i )
P( B i | A ) = n
.
P (B k )P( A |B k )
X
k=1

Exemple 4.4.3. Le quart d’une population est vacciné contre le choléra. Au cours d’une
épidémie, on constate qu’il y a parmi les malades un vacciné pour 4 nonvaccinés, et qu’il
y a un malade sur 12 parmi les vaccinés. Quelle est la probabilité qu’un non-vacciné tombe
malade ?
4.4. CONDITIONNEMENT ET INDÉPENDANCE 41
4.4.2 Indépendance
Définition 4.4.3. Soient A et B deux évènements. On dit que A et B sont indépendants si
P( A ∩ B) = P( A )P(B).

Si A est tel que P( A ) > 0, l’indépendance de A et B s’écrit encore P(B| A ) = P(B) et on retrouve
la notion intuitive d’indépendance : le fait que A se soit réalisé ne change rien quant à la
probabilité que B se réalise.

Proposition 4.4.2. Si A et B sont indépendants, alors il en va de même pour :


- les évènements Ā et B ;
- les évènements A et B̄ ;
- les évènements Ā et B̄

Définition 4.4.4. Les évènements A 1 , . . . , A n sont dits mutuellement indépendants si


à !
P P( A i ).
\ Y
∀ I ⊂ {1, . . . , n}, Ai =
i∈ I i∈ I

Le fait que les événements A 1 , . . . , A n sont indépendants deux à deux indépendants entraı̂ne
qu’ils sont indépendants deux à deux. La ré ciproque est fausse.

Exercice 4.4.1. On lance une pièce deux fois de suite. Soit A l’événement ”obtenir face au
premier jet”, B l’événement ”obtenir face au deuxième jet” et C l’ evénement ”obtenir deux
résultats différents. Momtrer que les évènements A, B, C sont deux à deux indépendants,
mais la famille { A, B, C } n’est pas indépendamte.
Chapitre

5 Variables aléatoires discrètes

5.1 Généralités
Soit (Ω, A , P) un espace probabilisé. La variable aléatoire X traduit une situation liée à
l’expérience aléatoire modélisée par l’espace probabilisé (Ω, A , P).

Définition 5.1.1. Une variable aléatoire X réelle est une application définie sur Ω à valeurs
dans R telle que pour tout x ∈ R,
n o
X −1 (] − ∞, x]) = ω ∈ Ω : X (ω) ≤ x ∈ A .

C’est à dire que pour tout x ∈ R, X −1 (] − ∞, x]) est un événement.

Étant donnés un espace probabilisé (Ω, A , P) et une variable aléatoire réelle X , on peut
construire de façon naturelle une probabilité sur X (Ω), l’ensemble des valeurs prises par la
fonction X . Cette probabilité est appelée loi de la variable aléatoire X et est notée P X .

5.2 Variables aléatoires discrètes


Définition 5.2.1. La variable aléatoire réelle X est dite discrète si X (Ω) est fini ou infini
dénombrable.

La loi de probabilité d’une variable aléatoire réelle discrète X est déterminée par :
1. X (Ω)
2. P X ({ x}) = P( X = x), pour tout x ∈ X (Ω)
La probabilité d’un évènement A est donnée par

P X ( A ) = P( X ∈ A ) = P( X = x ) .
X
x∈ A

De plus, nous avons


P( X = x) = 1.
X
x∈ X (Ω)

42
5.3. FONCTION DE RÉPARTITION 43

5.3 Fonction de répartition


Définition 5.3.1. Soit X une variable aléatoire réelle. On appelle fonction de répartition de
X , la fonction F définie sur R à valeurs dans [0, 1] par :

F ( x ) = P( X ≤ x ) .

Proposition 5.3.1. On a :

1. F est une fonction en escaliers.


2. F est croissante ;
3. F est continue à droite ;
4. lim F ( x) = 1 et lim F ( x) = 0;
x→+∞ x→−∞

5. Pour tous réels a et b avec a < b,

P(a < X ≤ b) = F ( b) − F (a).

Proposition 5.3.2. F est continue à droite en tout x ∈ R et

P( X = x ) = F ( x + ) − F ( x − ) = F ( x ) − F ( x − )

où
F ( x+ ) = lim F ( t).
t→ x,t> x

F ( x− ) = lim F ( t).
t→ x,t< x

Pour une variable aléatoire discrète :

P( X = t) ∀ x ∈ R..
X
F ( x) =
t≤ x

Exemple 5.3.1. On lance deux dés non pipés. L’univers associé à cette expérience est

Ω = {( i, j ) : 1 ≤ i, j ≤ 6}.

Nous avons card (Ω) = 36 et la probabilité sur Ω est définie par

1
P({ω}) = .
36

On s’interesse à la variable aléatoire discrète suivante : pour tout ω = ( i, j ) ∈ Ω, X (ω) = i + j .

x 2 3 4 5 6 7 8 9 10 11 12
px 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
44 CHAPITRE 5. VARIABLES ALÉATOIRES DISCRÈTES

1.0
0.8
0.6
0.4
0.2
0.0

0 1 2 3 4 5 6 7

La fonction de répartition est

P(X = t)
X
F(x) =
t≤ x


 0 si x<2

1/36 si 2 ≤ x < 3









 3/36 si 3 ≤ x < 4

6/36


 si 4 ≤ x < 5

10/36 si 5 ≤ x < 6






15/36 si 6 ≤ x < 7
=


 21/36 si 7 ≤ x < 8

26/36 si 8 ≤ x < 9





30/36 si 9 ≤ x < 10









 33/36 si 10 ≤ x < 11

35/36 si 11 ≤ x < 12




1 si x ≥ 12

5.4 Caractéristiques des variables aléatoires discrètes

5.4.1 Espérance
Soit X et Y deux variables aléatoires réelle discrètes.
5.5. VARIANCE, ÉCART-TYPE 45
Définition 5.4.1. On appelle espérance de X , le nombre réel

E[ X ] = xP( X = x).
X
x ∈ X (Ω )

Lorsque E( X ) est fini, on dit que X admet un moment d’ordre 1.

Définition 5.4.2. La variable aléatoire X est dite centrée si E( X ) = 0.

Théorème 5.4.1. Théorème de transfert.


Soit g une application définie sur R à valeurs dans R. Nous avons

E( g( X )) = g( x)P( X = x).
X
x ∈ X (Ω )

Proposition 5.4.1. (Linéarité de l’espérance). Soit c ∈ R une constante. Alors on a

E[ cX + Y ] = cE[ X ] + E[Y ].

Proposition 5.4.2. On suppose que que X ≤ Y . Alors, nous avons

E[ X ] ≤ E[Y ].

Proposition 5.4.3. Soit X une variable aléatoire discrète positive. Alors, pour tout ε > 0,
nous avons
E( X )
P( X > ε) ≤ .
ε
L’espérance de X est la moyenne pondérée des valeurs que X peut prendre, les poids étant
les probabilités que ces valeurs soient prises. C’est un indicateur de localisation. Néanmoins,
la connaissance de l’espérance seule donne peu de renseignements sur X . Ainsi, elle s’accom-
pagne de la variance qui caractérise la dispersion de X autour de sa moyenne E( X ).

5.5 Variance, écart-type


Définition 5.5.1. Soit X une variable aléatoire discrète. On appelle moment d’ordre k ≥ 1,
la quantité
E[ X k ] = x k P( X = x).
X
x ∈ X (Ω )

Définition 5.5.2. Soit X une variable aléatoire qui admet des moments d’ordre deux i.e.
E[ X 2 ] < +∞. On appelle variance de X la quantité

var ( X ) = E[ X 2 ] − (E[ X ])2 = E[( X − E( X ))2 ].


p
Définition 5.5.3. On appelle écart-type σ X la racine carrée de la variance : σ X = var( X ).

Proposition 5.5.1. Soient X et Y deux variables aléatoires réelles, et a et b deux constantes


réelles. Alors on a
— V ar ( X ) ≥ 0
— var(aX + b) = a2 var( X )

Proposition 5.5.2. (Inégalité de Bienaymé-Chebychev). Pour tout ε > 0

var ( X )
P (| X − E[ X ]| > ε) ≤ .
ε2
46 CHAPITRE 5. VARIABLES ALÉATOIRES DISCRÈTES

5.6 Variables aléatoires discrètes indépendantes


Définition 5.6.1. On dit que les variables aléatoires discrètes X et Y sont indépendantes si
pour tout x ∈ X (Ω) et tout y ∈ Y (Ω), les événements [ X = x] et [Y = y] sont indépendants,
c’est à dire, ³ ´
P [ X = x] ∩ [Y = y] = P( X = x)P(Y = y).

Proposition 5.6.1. Soient X et Y deux variable aléatoires discrètes admettant des moments
d’ordre 1. Alors la variable aléatoire X Y admet un moment d’ordre 1. De plus, si X et Y
sont indépendantes alors
E( X Y ) = E( X )E(Y ).
Définition 5.6.2. Soient X et Y deux variable aléatoires discrètes admettant des moments
d’ordre 1. On appelle covariance entre X et X , la quqntité
Cov( X , Y ) = E( X Y ) − E( X )E(Y ).

Si X et Y sont indépendantes alors Cov( X , Y ) = 0.


Proposition 5.6.2. Si X et Y admettent un moment d’ordre deux et sont indépendantes alors
X + Y a un moment d’ordre deux et

V ar ( X + Y ) = V ar ( X ) + V ar (Y ).

Définition 5.6.3. On appelle coefficient de corrélation linéaire entre X et Y , le nombre


Cov( X , Y )
ρ( X , Y ) = p p
V ar ( X ) V ar (Y )
Le coefficient de corrélation permet de mesure l’intensité de la liaison linéaire entre les
variables X et Y .
Proposition 5.6.3. On a −1 ≤ ρ ( X , Y ) ≤ 1.
Remarque 5.6.1. • Si |ρ ( X , Y )| = 1 alors il existe une liaison linéaire entre X et Y :

Y = aX + b a, b ∈ R.

• Si ρ ( X , Y ) = 0 alors X et Y sont dits linéairement indépendantes.


• Si ρ ( X , Y ) > 0 alors X et Y évoluent dans le même sens.
• Si ρ ( X , Y ) < 0 alors X et Y évoluent en sens contraire.
• Si X et Y sont indépendantes alors ρ ( X , Y ) = 0
Nous terminons ce chapitre par un résultat très important appelé loi des grands qui
permet détudier le comportement de la moyenne empirique vue en statistique descriptive et
la moyenne théorique vue dans ce cours.
Théorème 5.6.1. Soit X 1 , . . . , X n , . . . une suite de varibales aléatoires indépendantes et de
même loi, d’espérance E( X 1 ) = E( X 2 ) = . . . et de variance V ar ( X 1 ) = V ar ( X 2 ) = . . . Alors quel
que soit ε > 0, on a
³¯ X + . . . + X ¯´
¯ 1 n
lim P ¯ − E( X 1 )¯ = 0.
¯
n→+∞ n
Cela signifie que pour tout réel ε > 0 fixé, on peut trouver un entier N (ε) tel que pour
n ≥ N (ε), la probabilité que la moyenne empirique s’écarte de la moyenne théoriaue d’au
moins ε est très petite. En d’autres termes, pour n assez grand la probabilité que la moyenne
empirique X n soit proche de la moyenne théorique dans les coditions du théorème est proche
de 1.
Chapitre

Quelques lois de probabilités dis-


6 crètes

6.1 Loi uniforme discrète


(
X (Ω) = {1, . . . , N }
X ,→ U N ⇐⇒ 1
P ( X = k) = N, ∀ k ∈ X (Ω)

N +1
E( X ) =
2
et
N2 − 1
var ( X ) = .
12
Exemple 6.1.1. Soit X le résultat d’un lancer de dé non truqué : alors ∀ i ∈ X (Ω) = {1, 2, 3, 4, 5, 6},
P ( X = i ) = 16 ; X suit la loi uniforme U 6 .

6.2 Loi de Bernouilli


(
X (Ω) = {0, 1}
X ,→ B (1, p) ⇐⇒
P ( X = 1) = p, P ( X = 0) = 1 − p

E( X ) = p

var ( X ) = p(1 − p).

Cette variable modélise l’issue d’une expérience où l’on ne s’intéresse qu’au ”succès” ou à
l’”echec” de l’expérience.

Exemple 6.2.1. Lancer d’une pièce de monnaie (pile ou face), qualité d’un produit (bon ou
defectueux), sondage elctoral (pour ou contre).

6.3 Loi binomiale


On réalise n fois successivement et d’une manière indépendante une expérience aléatoire
de Bernouilli. La variable aléatoire égale au nombre de succès obtenus au cours des n épreuves

47
48 CHAPITRE 6. QUELQUES LOIS DE PROBABILITÉS DISCRÈTES
suit la loi binomiale B (n, p).
(
X (Ω) = {0, . . . , n}
X ,→ B ( n, p) ⇐⇒
P ( X = k) = C nk p k (1 − p)n−k , ∀ k ∈ X (Ω)

E ( X ) = np

var ( X ) = np(1 − p).

Cette loi modélise une succession de ”succès” et d’”échecs”, p étant la probabilité du succès.

6.4 Loi hypergéométrique


Soit une population de N individus parmi lesquels une proportion p (donc N p individus)
possède un caractère. Il s’agit par exemple de la proportion des individus qui souffrent d’une
maladie, ou de la proportion des pièces défectueuses dans un grand lot de fabrication. On
prélève un échantillon de n individus parmi cette population (le tirage pouvant s’effectuer
d’un seul coup ou au fur et à mesure mais sans remise). On note X la variable aléatoire
égale au nombre d’individus de l’échantillon possédant le caractère envisagé. La loi de X est
appelée loi hypergéométrique de paramètre N , n, p et notée H ( N, n, p) :

 X (Ω) = { max(0, n − (1 − p) N ), min( N p, n)}
X ,→ H ( N, n, p) ⇐⇒ k C n− k
CN .
P ( X = k) = p (1− p) N
n
CN
, ∀ k ∈ X (Ω)

E ( X ) = np.

6.5 Loi géométrique


C’est la loi du nombre d’essais (ou épreuves) nécessaires pour faire apparaı̂tre un évè-
nement de probabilité p. C’est le cas de nombre d’examens necessaires pour réussir une
épreuve en supposant que la probabilité de réussir à chaque passage de l’examen est de type
p et que les résultats sont indépendants d’un examen vers un autre. Soit la variable X égale
le nombre d’essais avant d’obtenir le premier succès :
(
X (Ω) = N∗
X ,→ G ( p) ⇐⇒ .
P ( X = k) = p(1 − p)k−1 , ∀ k ∈ X (Ω)

1
E( X ) =
p

1− p
var ( X ) = .
p2

Exemple 6.5.1. On effectue des lancers indépendants d’une pièce, dont la probabilité d’obtenir
face est p, jusqu’à l’obtention d’un ”face”. On note X la v.a.r égale au nombre de lancers
nécessaires. On dit également que X est le temps d’attente du premier ”face”.
6.6. LOI DE POISSON 49

6.6 Loi de Poisson


Pour modéliser des phénomènes rares (nombre d’accidents d’avion, nombre d’appels
téléphoniques pendant un certain temps, nombre de pièces défectueuses dans une commande
importante, nombre de suicides par an dans un pays donné...), on utilise la loi de Poisson
(de paramètre λ > 0) :
(
X (Ω) = N
X ,→ P (λ) ⇐⇒ λk e−λ
P ( X = k) = k! , ∀ k ∈ X (Ω)

E ( X ) = var ( X ) = λ.

Vous aimerez peut-être aussi