0% ont trouvé ce document utile (0 vote)
20 vues24 pages

REGRESION

Ce document présente une analyse détaillée de la régression multiple, incluant les principes de base, les types d'analyses, et les considérations pratiques. Il explique comment la régression multiple permet de prédire une variable dépendante à partir de plusieurs variables indépendantes, tout en abordant les méthodes d'évaluation et les tests statistiques associés. Des recommandations sur le nombre de cas nécessaires et la gestion des valeurs extrêmes sont également fournies.

Transféré par

TOUFIK Dissante
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
20 vues24 pages

REGRESION

Ce document présente une analyse détaillée de la régression multiple, incluant les principes de base, les types d'analyses, et les considérations pratiques. Il explique comment la régression multiple permet de prédire une variable dépendante à partir de plusieurs variables indépendantes, tout en abordant les méthodes d'évaluation et les tests statistiques associés. Des recommandations sur le nombre de cas nécessaires et la gestion des valeurs extrêmes sont également fournies.

Transféré par

TOUFIK Dissante
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Montréal

département de sociologie

L'analyse de régression multiple

notes de cours

© Claire Durand, 1997


Table des matières

A) Rappel des principes de base: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1


1) La corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2) La ligne de régression, la régression simple . . . . . . . . . . . . . . . . . . . . . . . 2

B) La régression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1) Ce que l'on peut savoir avec une régression multiple . . . . . . . . . . . . . . . . 4
2) Considérations pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3) Sommes des carrés, équations, test F, r2 . . . . . . . . . . . . . . . . . . . . . . . . . 6
4) Les trois grands types d'analyse, utilité et conséquences . . . . . . . . . . . . . 7
5) La régression, la présentation et l'interprétation des informations . . . . . . 10

Annexe aux notes de cours :

De certaines procédures de SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14


Commandes utiles pour la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Commandes de régression (SPSS PC et UNIX). . . . . . . . . . . . . . . . . . . . . 20
Commandes de régression avec SPSS Windows . . . . . . . . . . . . . . . . . . . . 21

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 1


A) Rappel des principes de base:

1) La corrélation:

La corrélation est un indice de la force d'une relation linéaire ou linéarisée (après transformation)
entre deux ou plusieurs variables. La corrélation donne aussi le sens (positif, négatif) de la relation.

La corrélation est un indice standardisé de la relation, ce qui permet de comparer les corrélations
entre elles.

La corrélation égale :

a) la covariance divisée par le produit des écarts-type de x et y

r=covarXY/sxsy
ou...

b) le coefficient de régression (b) divisé par l'écart-type de la variable dépendante


b
r '
sy

La corrélation au carré (la "variance expliquée") égale

- le ratio de la somme des carrés expliquée sur la somme des carrés totale et donc la variance de la
ligne de régression.

SC expliquée
r 2'
SC totale

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 1


2) La ligne de régression, la régression simple

On est intéressé à la régression quand on veut savoir jusqu'à quel point on peut prédire la valeur d'une
variable en connaissant la valeur d'une autre variable. L'équation de la régression simple est:

Y )'a%bx

"Y’" peut être conceptualisé comme la valeur attendue, pour une valeur de X donnée "E(Y|X)".

Comme il y a des écarts autour de la moyenne, chaque valeur de y, yi se calcule selon l'équation
suivante:

yi = a+bxi+ei

"a" peut être conceptualisé comme l'intercept de Y, soit la valeur moyenne que prend Y quand
la valeur de X =0;

"b" est le coefficient assigné à la variable indépendante X.


Il peut donc être conceptualisé comme le poids donné à la variable indépendante X, pour
prédire la variable dépendante Y.

"e" peut être conceptualisé comme l'"erreur" comprenant l'erreur de mesure (voir alpha de
Cronbach) ainsi que l'effet non contrôlé d'autres variables qui ne sont pas dans l'équation. La
valeur de "ei" pour un cas donné est l'écart entre la valeur yi prédite par l'équation "a +bxi" et
la valeur réelle yi.

B) La régression multiple:

Dans la régression multiple, on cherche la combinaison de poids (b) pour les variables indépendantes
(Xi) qui amènerait les valeurs de Y prédites par l'équation aussi près que possible des valeurs de Y
mesurées. L'équation est la suivante:

Y'a%b1x1%b2x2%...%bnxn

On cherche toujours à minimiser les écarts entre les valeurs prédites et les valeurs mesurées mais

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 2


en recourant à plusieurs variables qui nous aident à prédire; la corrélation multiple est un indice
de la relation entre ces valeurs prédites et les valeurs mesurées.

Notons que l'analyse de variance est un cas spécial d'une régression multiple dans laquelle les
variables multi-nominales ayant k catégories seraient dichotomisées en k-1 variables.

Il y a quatre types de régression multiple (Tabachnik et Fidell, 1989, p. 124); seulement les trois
premiers seront abordés dans le cadre de ce cours. Ces quatre types diffèrent par la manière dont les
variables entrent dans l'équation et donc par la façon dont est traitée la variance commune à une ou
plusieurs variables.

1. La régression standard: Toutes les variables sont entrées en même temps dans l'équation. La
variance commune à plusieurs variables n'est pas attribuée à aucune des variables. On cherche à
estimer le degré de relation entre chaque variable indépendante et la variable dépendante. Ce type
de régression permet de connaître la contribution unique (corrélation semi-partielle) de chaque
variable indépendante à la prédiction de la V.D.

2. La régression hiérarchique: Les variables sont entrées une à une ou par groupe de variables
selon un ordre déterminé par le chercheur.. La variance commune à plusieurs variables est attribuée
séquentiellement selon l'ordre d'entrée des variables. On cherche à estimer si et jusqu'à quel point une
variable indépendante ou un groupe de variables indépendantes ajoute à la prédiction, au-delà des
autres variables déjà dans l'équation. Ce type de régression permet de connaître la contribution
ajoutée d'une ou de plusieurs variables. On fait l'équivalent d'une analyse de covariance.

3. La régression statistique ou pas-à-pas: Les variables indépendantes entrent dans l'équation


uniquement en fonction de critères statistiques (probabilité statistique de signification du coefficient
"b"). On cherche la meilleure équation de prédiction, sans égard à la signification des variables. Ce
type de régression est utilisé surtout à titre exploratoire.

4. La régression SETWISE: Les variables sont entrées par bloc dont on compare la contribution
globale. On cherche le meilleur ensemble de prédicteurs, par exemple si l'utilisation de valium peut
être mieux prédite par un ensemble de variables subjectives (attitudes ) ou par un ensemble de
variables relatives à la santé.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 3


1) Ce que l'on peut savoir avec une régression multiple (Tabachnik et Fidell, 1989, p. 124-127):

- si il existe une relation significative entre les prédicteurs et la V.D i.e. si, dans la population, la
relation est différente de 0.

H0: r=0; H1: r…0

- si chacune des variables contribue de façon significative à la prédiction

H0: bi=0; H1: bi…0

- si l'addition d'une variable (k) à un ensemble existant contribue de façon significative à la prédiction.
(Différence des R2)

H0: bk=0; H1: bk…0

- si une relation autre que linéaire (curvilinéaire, logarithmique,...) prédirait mieux qu'une relation
linéaire.
( en transformant les variables et en comparant les coefficients, les résidus, ...)

- si un ensemble de prédicteurs est meilleur qu'un autre (Setwise)

- pour prédire les valeurs de la V.D. dans un nouvel ensemble de données pour lesquelles seules les
V.I ont été mesurées.

- pour effectuer des analyses de cheminement de causalité (surtout effectués maintenant avec des
procédures permettant l'évaluation simultanée des équations i.e Lisrel, EQS).

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 4


2) Considérations pratiques (Tabachnik et Fidell, 1989, p. 128-133):

- nombre de cas par variable.

Il devrait y avoir au minimum:

Régression standard et hiérarchique: 20 cas par variable

Régression statistique: 40 cas par variable, ceci parce que ce type de régression fortement
dépendante de l'échantillon est moins stable et donc plus difficilement généralisable à la population.

Plus l'effet est présumé faible, moins la distribution des variables est normale, moins la fidélité est
bonne, plus il faut de cas par variable.

Par ailleurs, lorsque l'on a beaucoup de variables et que certaines combinaisons de ces variables
peuvent constituer une échelle, il devient d'autant plus judicieux de réduire le nombre de variables
dans l'équation par la création d'échelles dont la fidélité (comme nous le verrons ultérieurement) peut
être mesurée.

- valeurs extrêmes (outliers)

Les valeurs extrêmes ont un impact très important sur les solutions (ensemble de coefficients). Il est
d'autant plus important de les identifier et d'agir en conséquence (transformer la variable ou retirer
les cas de l'analyse).

- Multicollinéarité et singularité

On dit qu'il y a un problème de singularité


lorsqu'une variable donnée est l'exacte combinaison d'une ou de plusieurs autres variables.

Comme dans l'analyse de régression on cherche à ce que chaque variable apporte le plus de variance
unique possible, il devient évident qu'une variable indépendante pouvant être exactement prédite par
les autres variables indépendantes ne nous intéresse pas, puisqu'elle n'ajoute rien à la prédiction. Si
un tel cas se produit, il faut identifier la variable indépendante pouvant être prédite par les autres
variables indépendantes et la retirer de l'analyse (sur des bases théoriques, logiques et statistiques).

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 5


- Normalité, linéarité, homoscédasticité(homogénéité des variances), indépendance des résidus

Les postulats du modèle linéaire que nous avons déjà vus sont évidemment tout aussi importants en
régression multiple. Il est toutefois difficile sinon impossible d'examiner ces questions de façon
multivariée en examinant les distributions univariées et bi-variées. L'analyse des résidus nous
permettra d'évaluer si les postulats sont respectés.

3) Sommes des carrés, équations, test F, r2:

Il faut comprendre que la même équation de répartition de la somme des carrés (voir cours sur
l'analyse de variance) est valable pour la régression i.e.:

La somme des carrés totale (Somme des écarts de chaque valeur de Y à la moyenne de Y, Y &) égale
la somme des carrés de la régression (Écarts de chaque valeur prédite à la moyenne de Y) additionnée
à la somme des carrés des résidus (Écarts de chaque valeur de Y à la valeur prédite par l'équation).

&)= (Y'-Y
(Y-Y &)+(Y-Y') où Y' est la valeur prédite de Y

et
SStotal= SSreg+SSres

De la même manière que pour l'analyse de variance, les degrés de liberté se répartissent en degrés de
liberté expliqués par les V.I. (un degré de liberté pour chaque variable indépendante) et en degrés
de libertés de l'erreur (N-k-1 où k est le nombre de V.I.)

DLtotal= DLreg+DLres

La variance est évidemment toujours égale à la somme des carrés divisée par les degrés de liberté.
CM=SS/DL

Le test F que l'on retrouve généralement par défaut dans la présentation des résultats égale le rapport
entre la variance due à la régression et la variance due à l'erreur...

F=CMreg/CMres

La valeur de R2 égale le rapport de la Somme des écarts à la moyenne au carré (somme des carrés)
due à la régression sur la Somme des carrés totale. Cette valeur constitue un indice de la proportion
de la variance totale expliquée par les variables qui sont dans l'équation.

r2=SSreg/SStotal

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 6


4) Les trois grands types d'analyse, utilité et conséquences:

a) L'analyse de régression standard

Dans ce que l'on appelle l'analyse de régression standard, toutes les variables indépendantes sont
entrées en même temps dans l'analyse. Cette méthode nous permet
- d'évaluer la variance expliquée par un ensemble de variables.
- d'évaluer la contribution unique de chaque variable entre autres en comparant les coefficients de
corrélation, de corrélation semi-partielle (part corr) et partielle (partial corr)
- d'estimer la signification statistique de la contribution de chaque variable lorsque toutes les variables
sont dans l'analyse.

b) L'analyse de régression hiérarchique

Ce type d'analyse permet de répondre aux questions concernant la contribution d'une variable ou d'un
ensemble de variables au-delà de la contribution des variables qui sont déjà dans l'équation.

Elle permet de répondre à des questions théoriques du type: Est-ce que l'âge explique le
comportement au-delà de l'ancienneté dans l'organisation; est-ce que les valeurs de travail expliquent
au-delà de la contribution des variables socio-démographiques, etc...

L'analyse de régression hiérarchique est similaire à l'analyse de covariance et donnera les mêmes
résultats. On aura tendance à utiliser l'analyse de covariance lorsqu'il y a plusieurs (mais pas trop de)
variables multi-nominales et lorsqu'il y a des possibilités connues ou théoriques d'effets d'interaction:
il est plus facile d'analyser les effets d'interaction avec l'analyse de covariance et on n'a pas à créer des
variables dichotomiques avec les variables multi-nominales. Toutefois, l'analyse de covariance est
moins appropriée ou devient plus difficile à analyser lorsque les variables sont particulièrement
nombreuses.

Ce qui nous intéresse le plus dans les résultats de l'analyse hiérarchique, c'est la différence de variance
expliquée lorsque l'on entre de nouvelles variables ou des ensembles de variables. Il nous intéresse
évidemment de savoir aussi si cet ajout est significatif, c'est-à-dire s'il est susceptible d'ajouter à
l'explication du phénomène à l'étude dans la population.

Donc, avec l'analyse hiérarchique, on émet des hypothèses et on les vérifie.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 7


c) L'analyse de régression statistique.

Ce type d'analyse est souvent utilisé à titre exploratoire et trop souvent à titre d'analyse finale et
définitive. Dans la régression statistique, c'est en fait le BETA qui détermine quelle variable sera
inclue dans l'analyse et quand elle sera inclue dans l'analyse. Il suffit donc d'une fraction dans les
calculs pour que, dans le cas où deux variables d'importance théorique et empirique équivalente
reliées entre elles, une seule des deux soit inclue dans l'analyse. Il faut souligner que cette méthode
est intéressante à titre exploratoire et qu'elle donnera les mêmes résultats finaux que les autres
méthodes lorsque les variables indépendantes sont peu reliées entre elles.

Ce type d'analyse étant fortement dépendant de l'échantillon, on demande un plus grand nombre de
cas par variable (normalement 40).

Ce que nous donne la régression statistique, c'est le meilleur ensemble de prédicteurs statistiques
parmi les V.I. considérées; c'est la prédiction maximale avec les V.I. que l'on a, mais non pas la
prédiction optimale, particulièrement au plan théorique.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 8


REMARQUES:

- Quelque soit la méthode utilisée, si on retrouve les mêmes prédicteurs dans l'équation finale,
les coefficients de régression seront les mêmes. Ce qui distingue les méthodes, c'est l'ordre d'entrée
des variables, l'identité des variables qui seront gardées dans l'équation de prédiction (particulièrement
quand il y a multi-collinéarité) et le type de questions auxquelles elles permettent de répondre.

- Il faut se souvenir que l'équation de régression est constituée d'une addition. On postule donc que
les effets sont additifs.

- Plus la combinaison de prédicteurs est bonne, moins il y aura de résidus et moins ceux-ci seront
importants. L'analyse des résidus est donc essentielle. Elle permet de vérifier la justesse de la
prédiction, d'identifier les problèmes quant aux postulats de l'analyse (normalité, linéarité,
homoscédasticité, absence d'auto-corrélation) et d'examiner les valeurs extrêmes (OUTLIERS).

Les informations qui nous intéresseront dans un "listing" seront donc:

- R multiple et R2

- Test F de signification de R2

- Coefficients de régression (b), Erreur-type des coefficients et coefficients standardisés (BETA)

- Test T de signification de B (=B/SE(B))

- Changement de R2 après ajout d'une variable -- régressions statistique ou hiérarchique -- ou de


plusieurs variables (régression hiérarchique).

- Corrélations de départ entre les variables indépendantes et dépendante

- Corrélation semi-partielle et partielle (surtout régression standard)

- Patrons et graphiques des résidus.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 9


5) La régression, la présentation et l'interprétation des informations

- Qu'est-ce que la corrélation multiple (R)?

La corrélation multiple est une indice standardisé, variant entre -1 et +1, de la force de la relation
entre l'ensemble des variables indépendantes et la variable dépendante. C'est la corrélation entre les
valeurs prédites et les valeurs réelles. La corrélation multiple s'interprète comme la corrélation simple:
Plus la corrélation est élevée, plus la relation linéaire entre les variables indépendantes et la variable
dépendante est élevée.

"Il existe une relation forte (r=.75) entre l'ensemble des variables indépendantes et la satisfaction
en emploi".

- Qu'est-ce que la corrélation multiple au carré (R2)?

La corrélation multiple au carré est un indice de la part de variance de la variable dépendante


expliquée par les variables indépendantes qui sont dans l'équation. Ainsi, on dira que les variables
entrées dans l'équation expliquent 25% de la variance de la variable dépendante.

"Le bloc des variables socio-démographiques explique 5% de la variance de la satisfaction en


emploi".

Qu'est que l'ajout de corrélation multiple au carré (? R2)?

Ce qu'on appelle le changement de R2 indique la proportion de l'explication de la variance de la


variable dépendante ajoutée par la-les variables indépendantes qui sont entrées dans l'équation.

"Les valeurs de travail expliquent 10% de la variance de la satisfaction en emploi, au-delà de


l'explication fournie par le bloc des variables socio-démographiques (5%)".

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 10


Que signifie le test F?

La valeur du test F indique si la variance ou l'ajout de variance expliquée sont significatifs, c'est-à-dire
si, quelque soit la force de la relation entre les variables indépendantes et la variable dépendante,
cette relation est susceptible d'exister dans la population et n'est pas due simplement au hasard de
l'échantillonnage.

Au-delà de la prédiction déjà expliquée par le bloc des variables socio-démographiques, les valeurs
de travail ajoutent de façon significative à la prédiction de la satisfaction en emploi tel qu'en
témoigne le test F (F(dlreg, dlres)= , p=.002).

"On peut rejeter l'hypothèse que la relation constatée dans l'échantillon est due au hasard"

- Qu'est-ce qu'un coefficient de régression?

Le coefficient de régression ordinaire (non standardisé) indique quelle est l'augmentation prévue dans
la variable dépendante à chaque unité d'augmentation de la variable indépendante. Dans une
régression multiple, il s'agit de l'augmentation prévue toutes choses égales par ailleurs, c'est-à-dire
comme si toutes les autres variables avaient une valeur fixe. Les coefficients des différentes
variables ne peuvent être comparés entre eux puisqu'ils sont dépendants de l'échelle de mesure
de chaque variable.

Un coefficient de régression qui a une valeur de 2 veut dire que à chaque fois que la valeur de la
variable indépendante augmente de 1, la variable dépendante augmente de 2, toutes choses égales par
ailleurs..

Si la variable dépendante est la satisfaction (sur une échelle de 1 à 10) et la variable indépendante le
salaire (en milliers de dollars),

"Le coefficient de régression "b" de .5 signifie qu'à chaque tranche de 1,000$ d'augmentation du
salaire, la satisfaction prédite est de ½ point plus élevée; il faut donc 2,000$ de plus en salaire pour
que la satisfaction prédite soit de 1 point plus élevée et 10,000$ pour qu'elle soit 5 points plus
élevée."

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 11


- Qu'est-ce qu'un coefficient standardisé (Beta)?

Le coefficient standardisé permet de comparer la contribution de chaque variable puisqu'il s'agit du


coefficient de régression ramené sur une échelle standard (variant de -1 à +1).

"Le coefficient standardisé de .5 pour la variable mesurant l'importance accordée à la nature du


travail est le plus haut coefficient ce qui montre que cette variable est celle qui contribue le plus à
la prédiction de la satisfaction en emploi."

Que signifient les tests T pour les coefficients?

Les valeurs des tests T pour les coefficients sont constituées par la division de la valeur du coefficient
de régression "b" par son erreur-type. Cette valeur doit être plus grande que 2 (. 1.96 écart-type)
pour être significative. Elle indique si chacun des coefficients des variables présentes dans l'équation
sont significatifs, c'est-à-dire si, quelque soit l'importance de la contribution de chaque variable, cette
contribution est susceptible d'exister vraiment dans la population à laquelle on veut inférer les
résultats. Il faut souligner que cette information est inscrite dans l'univers des variables présentes dans
l'équation; la contribution d'une variable est considérée comme significative, compte tenu de la
présence des autres variables dans l'équation.

La valeur du test T pour le coefficient de régression de l'âge (T= "$2", p=.03) indique que la
contribution de cette variable à l'explication de la satisfaction en emploi est significative.

"On peut rejeter l'hypothèse que la relation constatée dans l'échantillon est due au hasard"

Que signifie la corrélation semi-partielle (Part corr) dans la régression standard?

La corrélation semi-partielle dans la régression standard représente la contribution unique d'une


variable à l'explication de la variable dépendante, compte tenu des autres variables présentes.

La corrélation semi-partielle (r=.02) entre l'âge et la satisfaction en emploi montre que l'explication
contribuée par l'âge seul est peu importante. La corrélation relativement forte (r=.50) entre l'âge
et la satisfaction en emploi s'explique donc presque entièrement par les autres variables présentes
dans l'équation, nommément l'ancienneté et le niveau de scolarité et surtout, les valeurs de travail
ainsi que la région de travail.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 12


Qu'est-ce qu'un résidu? qu'est-ce que çà veut dire?

Le résidu, c'est l'écart entre chaque valeur de la variable dépendante et la valeur que l'on a prédite
étant donné les valeurs des variables indépendantes. Plus cet écart est important, moins la prédiction
est juste; lorsqu'un résidu est plus grand que 3.16, on dit qu'il s'écarte anormalement de la distribution
des résidus. Cette distribution devrait approcher celle de la distribution normale. Elle devrait aussi
être la même quelque soient les valeurs des variables indépendantes ou dépendante.

"Trois résidus sont supérieurs à 3,16; un est très supérieur. En examinant ce cas de façon plus
poussée, il est apparu qu'il possédait des caractéristiques particulières.... Si le cas est retiré de
l'analyse, les valeurs des coefficients sont légèrement modifiées, surtout pour la variable X, et il n'y
a plus de résidus plus grand que 3.16."

ou:
"Un examen attentif des résidus montre que ceux-ci se distribuent normalement et qu'aucun résidu
ne présente une valeur statistiquement trop élevée. Ceci amène à conclure que la prédiction est
valable et appropriée pour tous les patrons de réponse."

L'interprétation:

L'interprétation fait référence à la problématique de recherche, à la population, à la "vraie vie". Elle


réfère aux hypothèses de départ et peut nous permettre de conclure sur des interventions à effectuer
pour régler le problème qui était à la source de notre étude, les nouvelles recherches qu'il faudrait
effectuer pour améliorer la compréhension de la situation, les raisons qui peuvent expliquer que les
résultats présentés sont différents de ceux présentés par d'autres chercheurs auparavant.

"Les résultats ont montré que les valeurs de travail sont des prédicteurs importants de la satisfaction
en emploi et qu'en fait une bonne partie de l'explication généralement attribuée à l'âge et à la
scolarité passe par une différentiation des valeurs de travail. Les valeurs de travail avaient été
rarement étudiées par les chercheurs qui se sont penché sur la satisfaction en emploi. Notre étude
démontre la pertinence de faire intervenir ces valeurs dans l'explication.

Parmi les valeurs qui apparaissent expliquer de la façon la plus probante la satisfaction en emploi,
l'importance accordée à la nature même du travail apparaît la plus importante. Ce résultat
apparaît très important au vu d'un certain discours économiste qui prétend que la valorisation du
salaire et le salaire lui-même sont presque les facteurs explicatifs uniques de la satisfaction en
emploi ...

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 13


Université de Montréal

département de sociologie

L'analyse de régression multiple

Annexe aux notes de cours :

De certaines procédures de SPSS

© Claire Durand, 1995


Cours sur la régression - De certaines procédures de SPSS

Certaines procédures de SPSS permettent de modifier les codes de valeurs attribuées aux réponses.
Certaines procédures conviennent aux opérations simples (EXEMPLE: procédure RECODE);
d'autres procédures permettent d'effectuer des transformations plus complexes et des transformations
conditionnelles. Ces procédures sont très utiles pour créer des échelles ou pour "dichotomiser des
variables multi-nominales".

COMPUTE: permet de créer une nouvelle variable et de lui donner une valeur; COMPUTE
permet aussi de modifier les valeurs d'une variable existante.

IF: permet d'effectuer les opérations conditionnelles.

Exemple concret: Dichotomisation de variables multi-nominales:

Variable AGE: 5 catégories:

code 1: moins de 25 ans


code 2: 25-34 ans
code 3: 35-44 ans
code 4: 45-54 ans
code 5: 55 ans et plus

Dans une équation de régression, je ne peux utiliser que des variables continues ou des variables
dichotomiques de type 0,1. Il devient donc nécessaire de créer, à partir de la variable multinominale,
de nouvelles variables codées 0,1. Le code 0 représente l'absence de la caractéristique et le code 1,
la présence de la caractéristique.

Noter: On ne peut créer qu'un nombre de variables égal au nombre de catégories moins une
(k-1).

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 15


Ainsi, on créera 4 nouvelles variables à partir de la variable originale âge:

- AGE2: le fait d'avoir entre 25 et 34 ans ;


- AGE3: le fait d'avoir entre 35 et 44 ans ;
- AGE4: le fait d'avoir entre 45 et 54 ans ;
- AGE5: le fait d'avoir plus de 55 ans ;

Chacune de ces variables prendra la valeur "0" lorsque l'individu n'a pas la caractéristique i.e.
n'appartient pas au groupe d'âge déterminé ou la valeur "1" lorsque l'individu appartient au groupe
d'âge déterminé.

Il est possible de déduire que les personnes qui ont un code 0 pour chacune de ces quatre nouvelles
variables sont des jeunes de moins de 25 ans.

Comment créer les nouvelles variables:

1) Il faut d'abord initialiser les variables, c'est-à-dire donner la même valeur à tout le monde (sinon
par défaut SPSS déciderait que tout le monde a la valeur manquante (missing)). Pour ce faire on
utilise la commande COMPUTE.

COMPUTE AGE2=0.
COMPUTE AGE3=0.
COMPUTE AGE4=0.
COMPUTE AGE5=0.

2) Il faut attribuer les valeurs "1" pour chacune des variables créées selon les réponses à la variable
AGE originale. Pour ce faire, on utilise le IF (dans le "tableau" du COMPUTE dans SPSS WIndows)

IF (AGE=2) AGE2=1.
IF (AGE=3) AGE3=1.
IF (AGE=4) AGE4=1.
IF (AGE=5) AGE5=1.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 16


Les commandes COMPUTE et IF servent de multiples usages.

Exemples de COMPUTE:

COMPUTE age=95-annais.

6 La nouvelle variable (que j'ai appelé "age") donne l'âge des personnes puisque l'âge est l'année
actuelle (95) à laquelle on soustrait l'année de naissance (annais).

COMPUTE nouv1=(vieil1+vieil2+vieil3)/3.

6 La nouvelle variable (que j'ai appelé "nouv1") est constituée de la somme de trois variables
préexistantes (vieil1, vieil2 et vieil3), somme que l'on divise ensuite par le nombre de variables (3).
La nouvelle variable est donc la moyenne des trois anciennes variables. Noter que l'addition doit être
entre parenthèses si l'on veut que la somme soit divisée par 3 (et non pas seulement la dernière
variable) à cause de la priorité d'opération.

COMPUTE nouv2= lg10(taille).

6 La nouvelle variable (nouv2) est constituée du logarithme en base 10 de la variable "taille".

COMPUTE vieil1=vieil1-22.

6 La variable vieil1 est modifiée; on soustrait 22 à la valeur de chaque cas.

- Les principaux opérateurs:

addition: +
soustraction: -
multiplication: *
division: /

- Les principales fonctions:

racine carrée SQRT


puissance **
log base 10: LG10
log naturel: LN

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 17


Exemples de IF:

IF (vieil1=2) nouv1=1.
6 Pour chaque cas où la variable "vieil1" égale 2, la variable nouv1 prendra la valeur 1.

IF (vieil1=2 or vieil2=1) nouv2=3


6 Pour chaque cas où la variable "vieil1" égale 2 ou que la variable vieil2 égale 1, la variable nouv2
prendra la valeur 3.

IF (age lt 27) jeune=1.


6 Pour chaque cas où la variable "age" prend une valeur inférieure à 27 (27 ans), la varaible jeune
prend la valeur 1 (présence de la caractéristique définie par la variable "jeune").

6principaux opérateurs:

égalité: EQ ou =
non égalité: NE ou ~=
moins que: LT ou <
moins que ou égal: LE ou <=
plus que GT ou >
plus que ou égal GE ou >=

Il faut aussi retenir que l'on peut utiliser

et: AND ou &


ou: OR ou |

Remarques relatives à la régression:

Note1: Suite à la création des variables dans le cas du processus de multidichotomisation, on entrera
habituellement ensemble toutes les nouvelles variables relatives à une même variable multinominale
d'origine.

Note2: Comme les variables nominales doivent être codées (0,1) dans une régression, on recodera
de la même manière les variables codées (1,2) comme le sexe, par exemple.

Note2: Lorsqu'une variable s'avère significativement reliée à la variable dépendante, l'interprétation


que l'on fera est que la présence de la caractéristique explique telle proportion de la variance de la
V.D. Par exemple, on dira que le fait d'être âgé de 35 à 44 ans est significativement relié à la V.D.
et explique X% de la variance...
REGRESSION: permet de demander la procédure régression

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 18


Commandes utiles pour la régression:

PLOT (dans SPSS PC ou Unix): permet de produire un graphique des relations entre deux variables
continues et donne, sur demande, l'équation de la droite de régression.

PLOT
/FORMAT REGRESSION
/TITLE 'résultats vs pretest'
/VERTICAL MIN (0) MAX (50) /HORIZONTAL MIN (0) MAX (30)
/PLOT result with pretest
/FORMAT REGRESSION
/TITLE 'résultats vs moyenne au CEGEP'
/VERTICAL MIN (0) MAX (50) /HORIZONTAL MIN (0) MAX (100)
/PLOT result with restot.

6 On peut demander plusieurs graphiques dans la même commande.


6 Pour chaque graphique, on peut demander un titre et définir le minimum et le maximum de chaque
axe; on peut aussi déterminer la hauteur et la largeur et les symboles utilisés.
6 Lorsque l'on indique FORMAT REGRESSION, on obtient l'équation de régression et les points
où la droite de régression "traverse" les axes.

Dans SPSS WINDOWS :

On utilise GRAPH, SCATTER.

Après avoir fait produire le graphique, on peut obtenir la droite de régression, demander le r2 et
l'intervalle de confiance de la droite; on peut modifier les largeurs, mettre des titres, etc. On ne pourra
pas toutefois obtenir l'équation de la droite de régression. Il faut pour cela demander la commande
REGRESSION.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 19


Commandes de régression (SPSS PC et UNIX).

REGRESSION
/VARIABLES result pretest restot grscol anglo latino arabe
/STATISTICS DEFAULTS CHANGE ZPP COEFF OUTS HISTORY
/dependent result/method enter
/RESIDUALS DEFAULTS OUTLIERS
/dependent result/method stepwise restot anglo latino arabe
/RESIDUALS DEFAULTS OUTLIERS
/SCATTERPLOT (*PRED *RESID)
/dependent result
/method enter restot/enter anglo latino arabe/enter pretest
/RESIDUALS DEFAULTS OUTLIERS
/SCATTERPLOT (*PRED *RESID).

Comme pour la procédure PLOT, on peut demander plusieurs analyses dans une même procédure
à condition toutefois qu'elles portent sur les mêmes variables.
6 /VARIABLES donne la liste des variables qui pourront être utilisées.
6 /STATISTICS donne les statistiques par défaut qui seront requises pour toutes les analyses
subséquentes
6 /DEPENDENT donne le nom de la variable dépendante pour une équation donnée
6 /METHOD indique le mode d'entrée requis pour l'équation ainsi que les variables qui seront entrées
à chaque étape; par défaut toutes les variables apparaissant dans la liste du début (/VARIABLES)
sont entrées sauf la variable désignée comme V.D.
6 /RESIDUALS indique les informations requises sur les résidus
6 /SCATTERPLOT permet de demander des graphiques des relations entres les variables prédites
ou réelles de même que les résidus.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 20


Commandes de régression avec SPSS Windows;

On ne peut demander qu'une équation de régression à la fois, sinon il faut éditer la fenêtre de syntaxe:

Voilà de quoi auront l'air les commandes une fois toutes les options, statistiques, "plots", demandés
ou édités:

6Régression standard

REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA HISTORY ZPP
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT result
/METHOD=ENTER pretest restot
/SCATTERPLOT=(result ,*ZPRED ) (*ZPRED ,*ZRESID )
/RESIDUALS HIST(ZRESID) NORM(ZRESID) .

***Note: Lorsque l'on veut une régression standard, il faut éditer la commande pour rajouter
"ZPP" dans la sous-procédure /STATISTICS , ce qui permet d'obtenir les corrélations semi-
partielles..

6Régression hiérarchique

REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA HISTORY CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT result
/METHOD=ENTER restot /METHOD=ENTER pretest
/SCATTERPLOT=(result ,*ZPRED ) (*ZPRED ,*ZRESID )
/RESIDUALS HIST(ZRESID) NORM(ZRESID) .

***Note: Lorsque l'on veut une régression hiérarchique, il faut éditer la commande pour
rajouter "CHANGE" dans la sous-procédure /STATISTICS, ce qui permet d'obtenir les
informations sur la variance expliquée en plus à chaque étape.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 21


6Régression statistique (pas à pas):

REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA HISTORY CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT result
/METHOD=STEPWISE pretest restot
/SCATTERPLOT=(result ,*ZPRED ) (*ZPRED ,*ZRESID )
/RESIDUALS HIST(ZRESID) NORM(ZRESID) .

***Note: Lorsque l'on veut une régression statistique, il faut éditer la commande pour
rajouter "CHANGE" dans la sous-procédure /STATISTICS, ce qui permet d'obtenir les
informations sur la variance expliquée en plus à chaque étape.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 22

Vous aimerez peut-être aussi