0% ont trouvé ce document utile (0 vote)
38 vues14 pages

Analyse de la régression linéaire et corrélation

Le document traite des séries statistiques à deux dimensions, en se concentrant sur l'analyse des relations entre deux variables, X et Y, à l'aide de la courbe de régression. Il explique comment calculer la droite de régression linéaire, le coefficient de corrélation, et souligne que la corrélation ne signifie pas nécessairement causalité. Enfin, il aborde les méthodes d'analyse pour les données groupées par valeurs et par classes.

Transféré par

Arwen Hmissi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
38 vues14 pages

Analyse de la régression linéaire et corrélation

Le document traite des séries statistiques à deux dimensions, en se concentrant sur l'analyse des relations entre deux variables, X et Y, à l'aide de la courbe de régression. Il explique comment calculer la droite de régression linéaire, le coefficient de corrélation, et souligne que la corrélation ne signifie pas nécessairement causalité. Enfin, il aborde les méthodes d'analyse pour les données groupées par valeurs et par classes.

Transféré par

Arwen Hmissi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

3755_C06XP 21/11/2005 10:54 Page 111

Les séries statistiques à deux dimensions


II : Outils d’analyse
1 x SÉRIES QUANTITATIVES AVEC OBSERVATIONS
CONNUES INDIVIDUELLEMENT

A – Liaison linéaire, liaison non linéaire, absence de liaison

On s’intéresse à une statistique ayant deux dimensions que nous désignons par
les variables X et Y. La notion de courbe de régression est un concept général
qui va nous permettre de mettre en évidence au moyen d’un graphique s’il existe
une relation entre ces deux variables et quelle est la nature de cette relation.
La courbe de régression est en fait un tracé que l’on fait passer entre les
observations d’un nuage de points. Le plus souvent, on essaie de tracer une droite
que l’on désigne alors par droite de régression ou, plus simplement par
l’expression droite de tendance.

Exemple 1 : Soit S la série de données ci-dessous relatives aux deux variables X et


Y, présentées par paires. Le premier élément de la paire correspond à la valeur de
X et le second à la valeur de Y. Les éléments de chaque paire sont séparés par
des points virgules afin de ne pas confondre la séparation des valeurs au sein de
la paire, avec les décimales d’une valeur.
S = {{1 ; 3,5} ; {3 ; 3,6} ; {4 ; 4} ; {6 ; 5} ; {7 ; 6,6} ; {8 ; 6,8}}
Représentons ces données à l’aide d’un nuage de points (figure 1) où,
par convention, la valeur X se lit en abscisse et la valeur Y en ordonnée. Ainsi, la
paire qui correspond au point A sur le nuage de points est la première paire de S.
La valeur X = 1 se lit en abscisse et la valeur Y = 3,5 se lit en ordonnée. Il en va
de même des cinq autres paires. Une main « experte » (celle du logiciel) a
également tracé une droite entre les points : c’est la droite de régression ou droite
de tendance
Y Figure 1

X
3755_C06XP 21/11/2005 10:54 Page 114

B – La droite de régression linéaire


1) Définition

Le point moyen est le point qui a pour coordonnées la moyenne de X et la moyenne de Y.


On l’appelle aussi le centre de gravité.

La droite de régression est une droite qui passe par le point moyen. C'est aussi la
droite qui minimise la somme des carrés des écarts des observations. Une fois
connue, l'équation de cette droite permet de résumer la série et de faire des prévisions.

Exemple : Soit la série S déjà étudiée au paragraphe A

S = {{1 ; 3,5} ; {3 ; 3,6} ; {4 ; 4} ; {6 ; 5} ; {7 ; 6,6} ; {8 ; 6,8}}

La moyenne de X est donnée par (le « double barre » sur le X indique qu’il s’agit
d’une moyenne marginale) :

La moyenne marginale de Y est donnée par :

Le graphique de la figure, illustre le point moyen :

Point moyen = { 4,83 ; 4,91}

2)) Calcul des coefficien

L'équation de la droite de régression se calcule ainsi. Soit la droite d’équation :

Si nous voulons que cette droite soit ajustée à un nuage de points dans le plan {X,Y}, il faut
calculer les coefficients a et b en appliquant les formules suivantes :
3755_C06XP 21/11/2005 10:54 Page 115

où cov(x,y) représente la covariance de (x,y) et se calcule ainsi :

Par conséquent, la formule détaillée de a est :

Exemple : calculons a et b dans le cas de la série

S = {{1 ; 3,5} , {3 ; 3,6} , {4 ; 4} S, {6


: ; 5} , {7 ; 6,6} , {8 ; 6,8}}

Pour faciliter les calculs, adoptons la disposition en tableau suivante :

X Y XY X2 Y2
1 3,5 3,5 1 12,25
3 3,6 10,8 9 12,96
4 4 16 16 16
6 5 30 36 25
7 6,6 46,2 49 43,56
8 6,8 54,4 64 46,24
Sommes

Ensuite, calculons les sommes dont nous avons besoin dans la formule de a :

calculons a :

Une fois a connu, on en déduit b :


3755_C06XP 21/11/2005 10:54 Page 116

L’équation de la droite de régression est donc :

La figure ci-dessous illustre l’équation de cette droite. Nous vérifions à nouveau que cette
droite passe par le point moyen.

Point moyen = { 4,83 ; 4,91}

y ax  b 0,5258 x  2,37512

3) Utilité de la droite de régression

La droite de régression sert d’abord à vérifier l’existence d’une relation linéaire


et la nature de celle-ci. Ainsi, dans notre exemple, le coefficient directeur de
la droite a=0,5258 est positif ce qui dénote une relation positive : x et y varient
dans le même sens.

La droite de régression sert ensuite à faire des prévisions. Ainsi, nous


pouvons utiliser l’équation de la droite de régression pour calculer des valeurs de
Y associées à une valeur de X que l’on se donne.

Exemple 1 : Soit la série S, déjà étudiée précédemment et supposons que l’on


veuille connaître la valeur Y qui correspond à X = 12 que l’on se donne et qui ne
figure pas dans S. Dans ce cas, il suffit de remplacer X par dans l’équation de
la droite pour obtenir Y :

Exemple 2 : Soit la série S, déjà étudiée précédemment et supposons que l’on


veuille connaître la valeur X qui correspond à Y = 5 que l’on se donne. Dans ce
cas, il suffit de remplacer Y par dans l’équation de la droite pour obtenir X :
3755_C06XP 21/11/2005 10:54 Page 117

C – Le coefficient de corrélation

1) Définition et calcul

Le coefficient de corrélation mesure la plus ou moins grande dépendance entre les deux
caractères X et Y. On le désigne par la lettre "r" et il varie entre -1 et +1 :

Plus r est proche de +1 ou de -1, plus les deux caractères sont dépendants. Plus il est
proche de 0, plus les deux caractères sont indépendants.

Exemple : Calculons le coefficient de corrélation de la série S :

2) Coefficient de corrélation et coefficient de détermination

Il existe un lien entre le coefficient de corrélation et la droite de régression. Ce lien est


donné par la formule :

où a est le coefficient de la droite de régression de y en x (c’est-à-dire la droite de


régression de la forme y = ax+b) et où a’ est le coefficient de la droite de régression de
x en y (c’est-à-dire le coefficient de la droite de régression de x en y).

Le terme R2 est appelé coefficient de détermination. En pratique, il n’est pas


nécessaire de passer par la formule Il suffit enaa effet de calculer r et de
l’élever au carré.
Exemple : Calculons le coefficient de détermination de la série S :

Contrairement ou coefficient de corrélation, qui varie entre -1 et +1, le


coefficient de corrélation varie entre 0 et 1. Il sert aussi à mesurer la corrélation
des deux variables, mais ne donne aucune indication sur le sens (positif ou
négatif) de la corrélation. Plus il est proche de 0, plus la corrélation est faible. Plus
il est proche de 1, plus la corrélation est élevée.
3755_C06XP 21/11/2005 10:54 Page 118

3) Corrélation et causalité

Le plus souvent, l’étude des relations entre deux variables a pour but plus ou moins
avoué d’apprécier dans quelle mesure l’une des deux variables – dite variable
explicative – exerce une influence causale sur l’autre – dite variable expliquée.

Malheureusement, ainsi que nous l’avons indiqué en introduction, la corrélation


n’implique pas la causalité, pour diverses raisons que nous allons maintenant
approfondir.

La figure illustre trois liens possibles entre les deux variables X et Y, liens qui sont tous
compatibles avec un coefficient de corrélation identique, lequel ne permettra donc pas de
discriminer entre les trois.

X Y X Y X Y

Z Z

(a) causalité (b) Variable Z (c) Variable Z


influençant influençant Y
X et Y

Sur la figure 6, les lignes en pointillés indiquent l’existence d’une corrélation ente les
variables X et Y. Les lignes en trait plein indiquent l’existence d’une causalité et la flèche
indique le sens de la causalité. Dans le cas (a), nous voyons que la causalité sous-
jacente va de X vers Y, c’est-à-dire que les variations de X expliquent celles de Y. La
corrélation observée est donc bien le résultat d’une causalité directe.

Cependant, comme la causalité n’est pas observable, on ne peut pas conclure à


l’existence d’une causalité de X vers Y à la simple mise en évidence d’une corrélation. En
effet, comme l’illustrent les cas (b) et (c) de la figure 6, la corrélation peut aussi
s’expliquer différemment.

Dans le cas (b), c’est une variable Z, qui peut être inconnue ou connue mais non prise en
compte, qui influence simultanément X et Y. Dans ce cas, on observera
effectivement une corrélation entre X et Y, mais cette corrélation n’impliquera pas de
causalité de X vers Y.

Dans le cas (c), c’est une variable Z, qui peut être inconnue ou connue mais non prise en
compte, qui influence uniquement Y. Dans ce cas, on observera effectivement une
corrélation entre X et Y, mais cette corrélation n’impliquera pas de causalité de X vers Y,
puisque la variation de X est autonome et celle de Y causée par la variable Z.

En conclusion, il faut retenir que corrélation n’est pas causalité.


3755_C06XP 21/11/2005 10:54 Page 120

2 x Séries quantitatives avec observations groupées

Lorsque les observations sont fournies groupées par valeurs, il est possible de se
ramener au cas d’une série quantitative où les observations sont connues
individuellement.
En revanche, lorsque les observations sont fournies groupées par classes, une partie de
l’information a été détruite au profit d’une information plus synthétique, mais on ne peut pas
revenir aux paires de valeurs individuelles. On est alors obligé d’analyser les
tableaux avec des formules modifiées, que ce soit pour la droite ou la courbe de
régression ou pour le coefficient de corrélation. En fait, étant donné la lourdeur des
calculs, il est sage de s’en tenir au calcul du coefficient de corrélation. En outre,
comme nous le verrons, il existe un autre moyen de vérifier l’existence d’une corrélation,
basé sur le calcul du produit des fréquences conditionnelles et appelé « test
d’indépendance ».

A – Cas des données groupées par valeurs

Lorsque les observations sont fournies groupées par valeurs, on a le choix entre deux
procédures :
1) Se ramener au cas des données connues individuellement.

2) Utiliser la même procédure que lorsque les données sont groupées par classes.
Exemple : Soit le tableau de données suivant où les observations sont groupées par
valeurs :

y
x
3 1
2 5

On peut sans difficulté se ramener au tableau 1 et calculer le coefficient de corrélation


comme expliqué dans la section 1.

2 2 2 2 4 4 4 4 4 4 4
4 4 4 6 4 4 6 6 6 6 6
8 8 8 12 16 16 24 24 24 24 24
4 4 4 4 16 16 16 16 16 16 16
16 16 16 36 16 16 36 36 36 36 36

On calcule ensuite le coefficient de corrélation :


3755_C06XP 21/11/2005 10:54 Page 121

B – Cas des données groupées par classes


Lorsque les observations sont fournies groupées par classes, on peut soit calculer un
coefficient de corrélation avec une formule modifiée pour tenir compte des effectifs
groupés, soit faire un test d’indépendance.

1) Le coefficient de corrélation

Exemple : Soit le tableau statistique ci-dessous :


Tableau 4
x y [0-3[ [3-9]
[0-4[ 2 4
[4-12] 8 3

Pour effectuer les calculs, il est nécessaire de faire un tableau disposé comme ci-après :
3755_C06XP 21/11/2005 10:55 Page 122
3755_C06XP 21/11/2005 10:55 Page 123

La partie en pointillés du tableau 5, reprise ci-après dans le tableau 6, contient les


informations initiales du tableau 4, ainsi que :
Tableau 6

Y
x [0-3[ [3-9]

2 4
[0-4[
3 12

8 3
[4-12] 48
12

1) Les centres de classes qui ont été cerclés.

2) Le produit des centres de classes en gras à l’intersection des lignes et des colonnes.

À noter que le tableau 5 facilite également les calculs des moyennes et des variances
conditionnelles (voir les calculs ci-après) :

c) Moyennes conditionnelles

d) Variances conditionnelles

Comme nous l’avons déjà indiqué, lorsque les données sont groupées par valeurs, on
peut aussi appliquer la procédure juste décrite pour le cas des données groupées par
classe. On obtient alors le même résultat qu’en appliquant la procédure d’identification
des données individuelles, mais les calculs sont plus fastidieux.
3755_C06XP 21/11/2005 10:55 Page 124

2) Le test d‘indépendance

Deux variables sont indépendantes si et seulement si :

Il suffit donc a contrario qu’un nij quelconque soit tel que :

Pour que l’on puisse conclure à l’absence d’indépendance. Il est donc généralement
plus rapide de vérifier l’absence d’indépendance que d’établir l’indépendance.
Exemple : Soit le tableau statistique ci-dessous :

Tableau 7

x
y y1 y2 ni x
x1 6 10
x2 12 120
nx j

Vérifions que les deux variables X et Y sont totalement indépendantes :

Remarques :
1) Le test d’indépendance convient bien pour des petits tableaux. Il devient fastidieux
pour tableaux supérieurs à 2 x 2.
2) Le test d’indépendance peut être utilisé aussi bien pour des séries quantitatives
que pour des séries qualitatives.

3 x SÉRIES QUALITATIVES
A – Le coefficient de corrélation de rang de SPEARMAN

Lorsque les séries sont qualitatives, il arrive que les modalités d’un des deux
caractères soient ordinales (voir le chapitre 1), autrement dit que l’on puisse opérer
un classement sur ces modalités. Dans ce cas, au lieu de calculer la corrélation entre
les valeurs comme on le fait pour une variable, on calcule la corrélation entre les rangs des
modalités. On calcule alors un coefficient appelé coefficient de corrélation de rang de
SPEARMAN.

Voici la formule :
3755_C06XP 21/11/2005 10:55 Page 125

où di est la différence entre les rangs des valeurs correspondantes de X et de Y et n le


nombre d'observations.

Exemple : ci-dessous, les notes attribuées par deux enseignants à 5 copies.


Tableau 8

Enseignant 1 Enseignant 2
A 10 11
B 12 15
C 8 6
D 5 7
E 16 14

On veut savoir si le classement qui résulte de la notation de l'enseignant 1 est


cohérent avec le classement qui résulte de la notation de l'enseignant 2
On crée alors un tableau où les rangs des notes remplacent les notes. On calcule
ensuite la formule de SPEARMAN.

Tableau 9

Rang Classement de 1 Classement de 2

1 1

2 2

3 3

4 4

5 5

Enseignant 1 Enseignant 2

A 3 3

B 4 5

C 2 1

D 1 2

E 5 4
3755_C06XP 21/11/2005 10:55 Page 126

Interprétation : si la corrélation est parfaite, rsp=1. Plus les rangs sont différents, plus
rsp tend vers 0.

B – Le test du Khi-carré de PEARSONS

Lorsque les caractères sont qualitatifs l'étude de la corrélation se fait par un test
statistique développé par Karl PEARSONS et appelé test d'indépendance du "Khi
deux". Pour introduire ce test, considérons l’exemple suivant.

Exemple : 100 consommateurs sont questionnés sur leurs préférences à l'égard de


4 variétés d'un produit (A, B, C et D). On leur demande : "Parmi ces 4 produits, quel est celui
que vous préférez ?". Ces consommateurs sont groupés en deux catégories, les moins de
20 ans et les plus de 20 ans, afin de déterminer si l'âge a une influence sur
la préférence.

Tableau 10

Moins Plus
Produits Total
de 20 ans de 20 ans

A 10 15 25

B 10 25 35

C 15 5 20

D 20 0 20
Total 55 45 100

Le tableau se lit ainsi : 10 personnes de moins de 20 ans préfèrent le produit A, 15


personnes de plus de 20 ans préfèrent le produit A, 25 en tout préfèrent le produit A.

Si l'âge n'a aucune influence sur le choix, les 2 premières colonnes devraient être
proportionnelles à la troisième. On va donc calculer deux colonnes fictives, mais
proportionnelles à la troisième, afin d'avoir les effectifs qui correspondent à une
indépendance de l'âge sur le choix.

Dans la formule ci-après, la fréquence des plus de 20 ans est 45/100. Celle des moins de
20 ans : est 55/100. Ni est l’effectif théorique correspondant à une répartition
homogène. Enfin, ni est l’effectif observé.
3755_C06XP 21/11/2005 10:55 Page 128

Tableau 11

Par définition :

2
En appliquant cette définition aux données du tableau 11, on obtient : F calculé 31,74

Une fois que l’on connaît le khi-carré calculé, on doit le comparer avec la valeur du
khi-deux issue de la distribution du khi-carré (voir le tableau 12 ci-dessous). Ici, le
nombre de « degrés de liberté » est égal à [8 (nombre d’observations) moins 2
(nombres de variables)], ce qui donne 6. Ensuite, nous devons choisir la
probabilité de fiabilité du test : 5% de chances de se tromper (deuxième
colonne), 1% (troisième colonne) et 1 pour 1000 (quatrième colonne). Si nous
choisissons P = 0,05, nous avons donc :

Tableau 12

Ce qui nous permet de conclure que la


répartition des préférences est
suffisamment différente d’une répartition
homogène pour qu’on puisse
raisonnablement se fier à l’idée que l'âge a
une influence sur le choix du produit
(avec 5% de chances de nous tromper).

Vous aimerez peut-être aussi