Chapitre 1
Statistiques
1.1 Introduction
On peut sur une population donnée, étudier simultanément deux caractères quantitatifs. La modalité associée )
chaque individu est alors un couple de nombre réel (xi , yi ). On construit ainsi une série statistique à deux caractères
ou série double.
Exemple d’application : Une étude statistique présente le tableau suivant les dépenses (xi ) et le chiffre d’affaire (yi )
bimensuels d’une entreprise en une année donnée, les montants étant exprimés en millions de francs.
Dépenses (xi ) 12 17 11 13 31 20
Chiffre d’affaire (yi ) 99 130 92 108 232 150
1. Construire le nuage de points associé à cette série statistique.
2. Déterminer les coordonnées du point moyen G(x̄, ȳ).
3. Déterminer une équation de la droite de régression de y en x.
4. Calculer le coefficient de corrélation linéaire de cette série statistique puis conclure.
5. Quel est en deux mois le chiffre d’affaire si la dépense bimensuelle est de 300 millions ?
Cet exemple va nous servir de canevas tout au long de ce cours afin qu’à la fin de ce cours les élèves doivent être
capables de résoudre des exercices similaires.
1.2 Nuage de point
On considère un repère orthonormé, on appelle nuage de point l’ensemble des points M (xi ; yi ). Les coordonnées
(xi , yi ) étant les données un individu dans le tableau statistique.
Dans notre exemple, nous avons les 5 points de coordonnées (12; 99), (17; 130), (11; 92), (13; 108), (31; 232) et (20; 150).
Maintenant il faudra choisir un bon repère où tous ces points pourront être bien représentés.
La représentation sera faites en classe.
1.3 Point moyen G(x̄, ȳ)
n n
1X 1X
Le calcul des coordonnées du point moyen G(x̄, ȳ) consiste à calculer xG = x̄ = xi et yG = ȳ = yi où
N i=1 N i=1
N est l’effectif total de la série.
Exemple : Nous avons dans notre exemple d’application
12 + 17 + 11 + 13 + 31 + 20 99 + 130 + 92 + 108 + 232 + 150 17, 33
xG = = 17, 33 et yG = = 135, 16, d’où G
6 6 135, 16
LT de Sangmélima 1 Tournez, SVP !
1.4 Ajustement linéaire
Graphiquement nous pouvons justifier la nécessité d’effectuer un ajustement linéaire si en observant le nuage de
points, l’on pourrait tracer une droite qui toucherait un maximum de points du nuage. Cette droite s’appelle la droite
de régression.
Il existe, pour ce qui nous concerne, deux méthodes pour déterminer l’équation de la droite de régression : la méthode
de Mayer et la méthode de moindres carrées.
Dans ce cours nous allons plus nous appesantir sur la méthode de de moindres carrées.
1.4.1 Moindres carrées
La droite de régression de y en x
La droite de régression a pour équation (∆) : y = ax + b
PN N
cov (X, Y ) xi yi 1X 2
où a = et b = ȳ − ax̄, or nous savons que cov (X, Y ) = i=1 − x̄ȳ, puis V (X) = (xi − x̄)
V (X) N N i=1
cov (X, Y )
L’équation (∆) peut encore s’écrire y − ȳ = (x − x̄).
V (X)
Exemple : La droite de régression de y en x de notre série est sous la forme,
cov (X, Y )
y − ȳ = (x − x̄) or x̄ = xG = 17, 33 et ȳ = yG = 135, 16 ;
V (X)
122 + 172 + 112 + 132 + 312 + 202
V (X) = − 17, 332 = 47
6
12 × 99 + 17 × 130 + 11 × 92 + 13 × 108 + 31 × 232 + 20 × 150
et cov (X, Y ) = − 17, 33 × 135, 16 = 325, 34
6
D’où la droite de régression de y en x est : (∆) : y = 6, 92x + 15, 24
La droite de régression de x en y
La droite de régression a pour équation (∆)0 : x = a0 y + b0
PN N
cov (X, Y ) xi yi 1X 2
où a0 = et b0 = x̄ − a0 ȳ, or nous savons que cov (X, Y ) = i=1 − x̄ȳ, puis V (Y ) = (yi − ȳ)
V (Y ) N N i=1
cov (X, Y )
L’équation (∆)0 peut encore s’écrire x − x̄ = (y − ȳ).
V (Y )
cov (X, Y )
Exemple La droite de régression a pour équation x − x̄ = (y − ȳ). Or x̄ = xG = 17, 33 et ȳ = 135, 16
V (Y )
992 + 1302 + 922 + 1082 + 2322 + 1502
V (Y ) = − 135, 162 = −1076, 05893
6
12 × 99 + 17 × 130 + 11 × 92 + 13 × 108 + 31 × 232 + 20 × 150
et cov (X, Y ) = − 17, 33 × 135, 16 = 325, 34
60
D’où la droite de régression de x en y est : (∆) : x = −0, 30y − 40, 865
1.4.2 Le coefficient de corrélation
Deux variables statistiques X et Y sont dites en corrélation linéaire lorsque la courbe de régression de Y en X et
la courbe de régression de X en Y sont des droites.
cov (X, Y )
On appelle coefficient de corrélation linéaire le nombre réel r défini par r = p . On admet que |r| ≤ 1.
V (X) V (Y )
cov (X, Y )
Exemple : Calculons le coefficient de corrélation de notre exemple d’application. r = p or V (Y ) =
V (X) V (Y )
992 + 1302 + 922 + 1082 + 2322 + 1502 123153 325, 34
− 135, 162 = − 135, 162 = 2257, 27. Ainsi r = √ ≈ 0, 99.
6 6 47 × 2257, 27
Donc r = 0, 99
Remarques :
• L’ajustement linéaire est dit parfait lorsque les deux droites de régression (∆) et (∆)0 sont confondues.
LT de Sangmélima 2 Tournez, SVP !
• On dit qu’il y a bonne corrélation entre les deux variables lorsque les droites (∆) et (∆)0 sont proches l’une de
l’autre c’est à dire |r| est très proche de 1 (0, 87 ≤ |r| ≤ 1).
• On dit qu’il y a mauvaise corrélation entre les deux variables lorsque |r| n’est pas proche de 1.
Exemple : Dans notre exemple d’application, r = 0, 99 donc proche de 1, on dit donc que la corrélation est forte,
d’où un ajustement linéaire est justifié.
1.5 Estimation
Ici nous devons trouver la valeur d’une variable connaissant la valeur de l’autre. Pour ce faire nous utilisons la
droite de régression (∆) ou de (∆)0 .
Exemple : Dans le cadre de notre exemple d’application, nous allons utiliser la droite (∆), on veut le chiffre d’affaire
y si la dépense est 300 millions (x = 300),
Nous avons donc x = 300 et (∆) : y = 6, 92x + 15, 24 =⇒ y = 6, 92 × 300 + 15, 24 = 2091, 24.
Donc le chiffre d’affaire est de 2091, 24 millions.
LT de Sangmélima 3 Fin