0% ont trouvé ce document utile (0 vote)
53 vues15 pages

Corrélation et Régression : Concepts et Applications

Transféré par

Maachi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
53 vues15 pages

Corrélation et Régression : Concepts et Applications

Transféré par

Maachi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 5 : Corrélation et régression

Section 1. : À Washington, ce sont les cigognes qui apportent les bébés


L'étude des corrélations entre deux variables est un domaine qui peut parfois révéler beaucoup sur
les mécanismes sous-jacents. Par exemple, chez les conducteurs automobiles, il existe une très forte
corrélation entre le fait de posséder un téléphone cellulaire et le nombre d'accident automobile.
Évidemment, la cause de cette corrélation est très simple: les conducteurs qui parlent dans leur
cellulaire sont beaucoup moins attentifs à la route et ont donc des réactions plus lentes en cas de
danger, ce qui augmente la probabilité d'accidents. On peut presque dire que la possession d'un
cellulaire cause un accroissement des accidents. Cependant, toutes les corrélations ne sont pas aussi
faciles à comprendre. À Washington, un journaliste a découvert qu'il existe une très forte corrélation
entre le fait d'avoir un nid de cigogne sur sa demeure et le fait d'avoir des enfants. D'où la conclusion
(erronée) que les cigognes apportent les bébés.

En fait, pour comprendre cette corrélation, il faut faire intervenir un grand nombre de facteurs
indirects (qui n'ont pas été inclus dans la recherche du journaliste) qui ont aussi un effet sur le fait
d'avoir des enfants: Pour avoir un nid de cigogne, il faut une cheminée et donc, une maison. Les
maisons sont très dispendieuses dans cette région des États-Unis. Les couples aisés sont plus à même
d'avoir des enfants aux États-Unis que les couples plus pauvres. Tout ces facteurs mis ensemble
montre que le fait d'avoir un nid de cigogne ne démontre seulement que le couple est plus aisé, et
donc, plus à même d'avoir des enfants. La présence d'une cigogne est un signe très indirect, et
certainement pas la cause, du nombre d'enfants.
Chapitre 5 : Corrélation et régression
Section 2. : Statistique de corrélation

Supposons deux variables sur un groupe, par exemple, quotient


intellectuel (QI) et habilité en lecture. On s’attend à ce que ces deux
mesures varient ensembles. C’est à dire que si une personne a un score élevé
sur une mesure, l’autre mesure devrait aussi être élevée. Inversement, si une
personne a un score faible sur une mesure, l’autre devrait aussi être faible.
Dans ce cas, les mesures sont dites positivement corrélée

Imaginons par opposition, deux autres mesures, l’habilité en lecture et le


temps pour lire un passage donné. Dans ce cas-ci, on s’attend plutôt à ce
qu’une personne avec un score élevé dans l’habileté en lecture montre un
score petit (rapide) en lecture, et vice-versa. Dans ce second cas, les
mesures sont dites négativement corrélée.
y 1 2 3 4 5

x
r  1 1  r  0 r 0 r 1
0  r 1 7
6
Cas n° 06 : le coefficient de
corrélation est égal à 0, mais
attention il ne faut pas dire que les
variables x et y sont indépendantes
car elles sont liées par une relation
fonctionnelle (la parabole). Ce qu’on
peut dire c’est qu’il n’ya pas de
relation linéaire. Cas n° 07 : à cause du point atypique le coefficient
de corrélation se situe entre 0 et 1. Mais attention,
hormis ce point il ya une relation négative entre x
et y.
x 2 3 4 5
1

y
1  r  0 r 0 r 1
r  1 0  r 1

Observation: cette slide vient répondre à la question posée par les étudiants pour le
choix des variables à mettre sur les axes. C’est-à-dire mettre X sur l’axe des abscisses
et Y sur l’axe des ordonnées ou inversement.
La réponse c’est qu’il n’y a pas de différence dans un raisonnement de corrélation :
les deux nuages de points diffèrent un peut mais la corrélation elle reste identique. Par
contre en régression la question devient pertinente car les deux variables jouent deux
rôles différents : une est explicative et l’autre à expliquer.
Chapitre 5 : Corrélation et régression
Section 3. : Corrélation simple
Nous noterons r le coefficient de corrélation entre deux variables X et Y. Il est aussi
souvent appelé le coefficient de corrélation de Pearson, du nom de son inventeur, pour le
distinguer d’autres indices de corrélations (tel le coefficient de Spearman).
3.1 Calcule du r
Pour calculer le coefficient de corrélation, il faut premièrement pouvoir calculer la
covariance entre deux variables.

 x  x  y
i i  y
Cov ( x, y )
r i
r

 ix  x 2

 iy  y 2
sx s y
i i

1
Cov ( x, y )   xi  x  yi  y 
n i
Chapitre 5 : Corrélation et régression
Exemple
Individus (𝑋𝑖 ) (𝑌𝑖 )
Soit une recherche où un
chercheur désire examiner la relation 1 20 5
qu’il peut exister entre l’habilité en 2 5 1
lecture (X) et le nombre d’heures de 3 5 2
lecture par semaine (Y). X est 4 40 7
mesuré en laboratoire à l’aide d’un 8
5 30
test d’habilité en lecture alors que Y 9
6 35
est estimé par les sujets eux mêmes.
7 5 3
10 sujets ont été échantillonnés. Les
8 5 2
résultats sont
9 15 5
10 40 8
Moyenne 20 5
Ecart-type 14,32 2,76
Chapitre 5 : Corrélation et régression
Exemple
Individus (𝑋𝑖 ) (𝑌𝑖 ) (𝑋𝑖 − 𝑋) (𝑌𝑖 − 𝑌) (𝑋𝑖 − 𝑋) x Cov ( x, y )
(𝑌𝑖 − 𝑌) r
1 20 5 sx s y
0 0 0
2 5 1 -15 -4 60 370 / 10
2
r
3 5 -15 -3 45 14.32  2.76
4 40 7 20 2 40
5 30 8 10 3 30 r  0.94
6 35 9 15 4 60
3 C’est à dire une
7 5 -15 -2 30 corrélation positive très
8 5 2 -15 -3 45 proche de 1.
9 15 5 -5 0 0
10 40 8 Est-elle significative?
20 3 60
Moyenne 20 5 = 𝟑𝟕𝟎

Ecart-type 14,32 2,76


Chapitre 5 : Corrélation et régression
Student t(n-2)ddl
3.2 Test de signification du coefficient de corrélation
Sous H0
H0 : r  0 H1 : r  0 vraie :
1 r n2 
r n2  L   t n 2
2 
Si Ho est vraie Loi   t n2
2 
 1 r 
 1  r 

 
Pour notre cas on prend toujours 2 2
𝛼 = 5% → C’est le risque de se tromper
t v n  2

0
t v n2
1
r n2   2 2
   t  n  2 (1  )  acceptation de H
 2  0
 1 r  2
Rejet de Acceptation de Rejet de
H0 H0 H0
r n2  
   t  n  2 (1  )  rejet de H0
 2 
 1 r  2
Chapitre 5 : Corrélation et régression
3.2 Test de signification du coefficient de corrélation
H0 : r  0 H1 : r  0
Ici, n est le nombre d’observations dans les échantillons X et Y. On soustrait par deux car le
calcul du coefficient r nécessite le calcul de deux moyennes. Pour notre exemple
précédent, un regard dans la table t nous donne comme valeur critique (5%/2) avec 8
degrés de liberté : 2.306. (sur Excel : =[Link](0,05;8))

 r n  2  0.94  8
   7 .6
 2 
 1 r  1  0.94 2

La valeur obtenue est bien plus grande que la valeur critique. Nous
pouvons rejeter H0 et conclure qu’il existe bel et bien une corrélation
significative entre l’habilité en lecture et le nombre d’heures de lecture
par semaine et que cette corrélation est positive.
Chapitre 5 : Corrélation et régression
Section 4. : La droite de régression
Soit la situation où nous observons bel et bien une corrélation significative entre une
variable Y et une variable X. L’étape suivante est de quantifier la relation. Par exemple,
pour chaque changement d’une unité en X, de combien change la valeur attendue en Y?

Une façon d’y parvenir est de trouver la droite idéale qui traverse le mieux les données. La
droite la plus proche de tous les points est appelée la droite de régression. Comme
toujours, l’équation d’une droite est donnée par :
yi  a  bxi
dans laquelle b est la pente de la droite, et a, l’ordonné à l’origine (l’endroit où la droite
coupe l’axe des Y). Il existe une méthode simple pour calculer ces paramètres de la droite
de régression c’est la méthode des moindres carrés. En effet, la pente (le degré d’élévation
de Y en fonction de X) est donnée comme le rapport de la covariance sur la variance des X.
 ( x  x )( y  y ) Cov ( x, y)
a  y  bx
i i
b i

(x  x)
i
i
2
Var( x)
Chapitre 5 : Corrélation et régression
Section 4. : La droite de régression
Dans notre exemple précédent, on trouve que :

 ( x  x )( y  y ) Cov( x, y) 37
i i
b i
   0.18
 (x  x)
i
i
2
Var ( x) 205

a  y  bx  5  (0.18 * 20)  1.39


Donc, on trouve une droite de régression : yi  1.4  0.2 xi
Donc, on trouve que pour chaque point d’accroissement de X, Y s’accroit
de près de 0.2 unité. De plus, si X est égale zéro, on s’attend à ce que Y soit
de près de 1.4.
Faîtes le graphique des données et de la droite de régression, et vérifiez
que les valeurs sont appropriées.
Chapitre 5 : Corrélation et régression
Section 4. : La droite de régression

10 X
9 y = 0,2x + 1,4
8
7
6
5
4
3
2
1
Y
0
0 10 20 30 40 50
Chapitre 5 : Corrélation et régression
4.1 : Test sur la pente de la régression
H0 : b  0 H1 : b  0

Le test est de la forme : Pour notre cas on prend toujours


𝛼 = 5% → C’est le risque de se tromper
Student t(n-2)ddl
Sous H0 vraie : β =
b  0
 t  n  2 (1  )  1
 sy   1 r²  2
     rejet de H0

 x 
s n  2   
2 2

b  t v n  2
 t  n  2 (1  )  tv n  2 0
 sy   1 r²  2 1

    
2 2

  acceptation de H0 Rejet de H0 Acceptation de Rejet de H0


 x 
s n 2  H0
Chapitre 5 : Corrélation et régression
4.1 : Test sur la pente de la régression
Ici, n est le nombre d’observations dans les échantillons X et Y. On soustrait par deux car
le calcul du coefficient r nécessite le calcul de deux moyennes. Pour notre exemple
précédent, un regard dans la table t nous donne comme valeur critique (5%/2) avec 8
degrés de liberté : 2.306. (sur Excel : =[Link](0,05;8))

Appliquer le test et conclure :


La valeur obtenue est bien plus grande que
la valeur critique. Nous pouvons rejeter H0
0 .2 et conclure que la pente est
 7 .6
 2.76   1  0.94² 
significativement différente de zéro.
 
 14.32   10  2 
Chapitre 5 : Corrélation et régression
4.1 : Test sur la pente de la régression
Il existe un autre indicateur que nous pouvons utiliser pour faire le test. Ce dernier se
base sur le calcul des résidus.

e 2
i (y i  yˆ i ) 2
b 
i
 i
 t  n  2 (1  ) rejet de H0 n2 n2
 e 2
 2
 i
 / ns x2
 n2 
 

b 
 t  n  2 (1  ) acceptation de H0
 e 2
 2
 i
 / ns x2
 n2 
 

Vous aimerez peut-être aussi