0% ont trouvé ce document utile (0 vote)
47 vues9 pages

Statistiques : Régression et Corrélation

Transféré par

Wijdane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
47 vues9 pages

Statistiques : Régression et Corrélation

Transféré par

Wijdane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Table des matières

Introduction générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

Chapitre 1 : Statistique descriptive univariée. 2

Chapitre 2 : Caractéristiques des variables statistiques 3

Chapitre 3 : Distributions statistiques à deux dimensions 4

Chapitre 4 : Régression et corrélation 5


4.1 Régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.1.2 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.1.3 Régression linéaire par changement de variable . . . . . . . . . . . . . . . . 7
4.2 Corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.2.1 Le coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . 8
4.2.2 Interprétation du coefficient de corrélation linéaire . . . . . . . . . . . . . . 8

1
Chapitre 1 : Statistique descriptive univariée.

2
Chapitre 2 : Caractéristiques des variables
statistiques

3
Chapitre 3 : Distributions statistiques à deux
dimensions

4
Chapitre 4 : Régression et corrélation

4.1 Régression
4.1.1 Introduction
Soit (X, Y ) une statistique à deux dimensions. On s’ intéresse ici à une liaison éventuelle entre
ces deux caractères (supposés quantitatifs).
La régression fournit une expression de cette liaison sous forme d’une fonction mathématique.
La corrélation renseigne sur l’intensité de cette liaison. La liaison entre X et Y peut être :
— nulle : X et Y sont non corrélés.
— intermédiaire (cas le plus fréquent)
— fonctionnelle : Il existe une fonction f et / ou une fonction g telles que :
Y = f (X) , X = g(Y )

4.1.2 Régression linéaire


Déterminer la droite de régression de Y en fonction de X revient à ajuster à l’ensemble des points
représentant les couples (xi , yi ) avec i = 1, 2, . . . , n.
Une telle droite sera définie par l’équation :
y = ax + b
dont il faut déterminer les paramètres a et b.
Deux méthode d’ajustements possible :

Méthode graphique
Dans une repère orthonormé, on place les points représentant les couples (xi , yi ), puis on trace
une droite de telle sorte que se compensent les écarts positifs et négatifs. On choisit deux points
appartenant à la droite A(x0 , y0 ) et B(x1 , x1 ) (voir graphe 1), ils doivent vérifier les 2 équations

y0 = ax0 + b
y1 = ax1 + b
La résolution de ce système de 2 équations à 2 inconnues a et b détermine la droite de régression, est
qui a la forme suivante :    
y1 − y0 y1 − y0
y= x + y0 − x0
x1 − x0 x1 − x0
Cette méthode graphique ne fournit que des résultats très approximatifs.

5
Régression et corrélation 6

Méthode analytique : des moindres carrés


En général, le problème de l’ajustement analytique consiste à trouver une fonction y ∗ = f (x)
qui corresponde le plus exactement possible aux données de la série statistique. La méthode la plus
optimale qui permet de trouver cette fonction y ∗ = f (x) est la méthode dite des moindres carrés.
Dans le cas de la droite de régression, cette méthode consiste à déterminer les paramètres a et
b de la droite d’ajustement de Y en fonction de X qui a pour équation y ∗ = ax + b, telle que la
somme des carrées des écarts entre les valeurs observées yi et les valeurs yi∗ ajustées par la droite soit
minimum (voir figure 2).
La différence entre la valeur observée yi et la valeur yi∗ ajustée est un écart ou un résidu, noté ϵ.
Pour la valeur observée yi on a : ϵ2i = (yi − yi∗ )2
Pour les n-valeur observées y1 , y2 , . . . , yn on a :
n
X n
X
ϵ2i = (yi − yi∗ )2
i=1 i=1

Comme yi∗ = axi + b, donc minimiser i=1 ϵ2i revient à minimiser la fonction ni=1 (yi − axi − b)2 .
Pn P
On doit alors chercher les paramètres a et b (qui sont les inconnues) qui minimisent la fonction :
n
X
g(a, b) = (yi − axi − b)2
i=1

La fonction g étant continue et dérivable sur R, donc pour que g soit minimum, il faut que les dérivées
partielles par rapport à a et b soient nulles c-à-d :

∂g
 ∂a = 0



 ∂g

 =0
∂b
ce qui équivalent à  n
∂g X
 ∂a = 2 xi (yi − axi − b) = 0



i=1
n
 ∂g X

 =2 (yi − axi − b) = 0
∂b

i=1

La résolution de ce système donne :


( Pn
i i x y −nxy
a = Pi=1
n 2 2
i=1 xi −x
b = y − ax

Et donc on peut déduire l’expression de la droite.


La droite ainsi définie est appelée droite de régression de Y par rapport à X, on la note par DY /X ,
le paramètre a est dit le coefficient de régression de Y par rapport à X. C’est la pente de la droite
DY /X .
On peut ainsi chercher à exprimer la droite de régression de X en fonction de Y , elle se note
DX/Y , elle a pour équation x = a′ y + b′ , avec

6
Régression et corrélation 7

( Pn
x y −nxy
a′ = Pi=1 i i
n 2 2
i=1 yi −y

b = x − ay
le paramètre a′ est dit le coefficient de régression de X par rapport à Y . C’est la pente de la droite
DX/Y .
Exemple :
En utilisant la méthode des moindres carrés, déterminer à l’aide la droite de régression de la série
statistique suivante :

xi 0 2 3 5 10
yi 2 3 4 7 14

Solution :

xi y i x i y i x2i
0 2 0 0
2 3 6 4
3 4 12 9
5 7 35 25
10 14 140 100
20 30 193 138

On trouve : y = 1.26x + 0.96.

4.1.3 Régression linéaire par changement de variable


De nombreux ajustement peuvent se ramener à des ajustements linéaire par des changements de
variable. Par exemple, si on cherche une régression de type : y = bax (avec x, y, a et b sont positifs).
En prenant le logarithme de chaque membre il vient :
log(y) = log(b) + x log(a)
En posant : Y = log(y), A = log(a) et B = log(b), donc on obtient
Y = Ax + B
Et donc par la méthode des moindres carrés on peut obtenir A et B et en déduire en suite les valeurs
de a et b par les relations
a = eA et b = eB

4.2 Corrélation
L’étude de corrélation a pour objet de mesurer l’intensité de la liaison entre les deux variables.

7
Régression et corrélation 8

4.2.1 Le coefficient de corrélation linéaire


Définition 4.2.1. Le coefficient de corrélation linéaire est la racine carrée du produit des deux coef-
ficients de régression, on le désigne par r
 Pn  Pn 2
( ni=1 xi yi − nxy)
 P
2 ′ i=1 xi yi − nxy i=1 xi yi − nxy
r = aa = Pn 2 n =
2 2 2
( ni=1 x2i − x2 ) ( ni=1 yi2 − y 2 )
P P P
i=1 xi − x i=1 yi − y

On a donc : n
X
xi yi − nxy
i=1
r=v v
u n u n
uX uX
2
t x2 − nx t
i y 2 − ny 2 i
i=1 i=1

En divisant le numérateur et le dénominateur par n il vient :

Cov(X, Y )
r=
σ(X)σ(Y )
r est un nombre sans dimension, donc indépendant des unités de mesure.

Exemple 4.2.1. Reprenons l’exemple précédent on a :

193 − (5)(4)(6)
r=p p = 0.98
138 − (5)(16) 274 − (5)(35)

Le coefficient r = 0.98 est très proche de l’unité, on en déduit que la corrélation est très forte,
positive entre X et Y .
σ(X)
Remarque 4.2.1. On peut démonter que r = a. σ(X) et donc le coefficient de régression et le coeffi-
cient de corrélation sont de même signe.
Ceci veut dire que si les deux variables X et Y ont tendance à évoluer dans le même sens le
coefficient a est positif et r est positif (liaison positive).
Par contre, si les deux variables X et Y ont tendance à évoluer dans le sens contraire le coeffi-
cient a est négatif et r est négatif (liaison négative).

4.2.2 Interprétation du coefficient de corrélation linéaire


Le coefficient de corrélation linéaire r est compris entre -1 et 1 : −1 ≤ r ≤ 1. Cette propriété
fondamentale de r peut être explicitée dans les cas suivants : (voir figures de 1 à 5)
1. r = −1 : Les droites sont confondues et la corrélation entre les 2 variables est parfaitement
négative.
2. r < 0 : Les deux droite de régression forment un angle noté θ appelé angle de régression. La
corrélation entre les 2 variables est négative.
3. r = 0 : l Les deux droites de régression sont perpendiculaires, il y a absence de liaison linéaire
entre les deux variables X et Y

8
Régression et corrélation 9

4. r < 1 : La corrélation entre les 2 variables est d’autant plus positive et importante que l’angle
de régression devient plus petit.
5. r = 1 : Les 2 droites sont confondues. La corrélation entre les 2 variables est parfaitement
positive.

Remarque 4.2.2. Si le coefficient de corrélation r = 0 signifie une absence de liaison de type linéaire
mais peut révéler une autre forme de liaison.

Exemple 4.2.2. On considère la série statistique suivante :

xi 0 1 -1 2 -2 3 -3
yi 0 1 1 4 4 9 9

On a r = 0 mais les deux variables ont une liaison de type parabolique y = x2 .

Vous aimerez peut-être aussi