0% ont trouvé ce document utile (0 vote)

20 vues24 pages

REGRESION

Ce document présente une analyse détaillée de la régression multiple, incluant les principes de base, les types d'analyses, et les considérations pratiques. Il explique comment la régression multiple permet de prédire une variable dépendante à partir de plusieurs variables indépendantes, tout en abordant les méthodes d'évaluation et les tests statistiques associés. Des recommandations sur le nombre de cas nécessaires et la gestion des valeurs extrêmes sont également fournies.

Transféré par

TOUFIK Dissante

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

20 vues24 pages

REGRESION

Transféré par

TOUFIK Dissante

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Montréal

département de sociologie

L'analyse de régression multiple

notes de cours

© Claire Durand, 1997

Table des matières

A) Rappel des principes de base: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1) La corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2) La ligne de régression, la régression simple . . . . . . . . . . . . . . . . . . . . . . . 2

B) La régression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1) Ce que l'on peut savoir avec une régression multiple . . . . . . . . . . . . . . . . 4
2) Considérations pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3) Sommes des carrés, équations, test F, r2 . . . . . . . . . . . . . . . . . . . . . . . . . 6
4) Les trois grands types d'analyse, utilité et conséquences . . . . . . . . . . . . . 7
5) La régression, la présentation et l'interprétation des informations . . . . . . 10

Annexe aux notes de cours :

De certaines procédures de SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

Commandes utiles pour la régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Commandes de régression (SPSS PC et UNIX). . . . . . . . . . . . . . . . . . . . . 20
Commandes de régression avec SPSS Windows . . . . . . . . . . . . . . . . . . . . 21

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 1

A) Rappel des principes de base:

1) La corrélation:

La corrélation est un indice de la force d'une relation linéaire ou linéarisée (après transformation)
entre deux ou plusieurs variables. La corrélation donne aussi le sens (positif, négatif) de la relation.

La corrélation est un indice standardisé de la relation, ce qui permet de comparer les corrélations
entre elles.

La corrélation égale :

a) la covariance divisée par le produit des écarts-type de x et y

r=covarXY/sxsy
ou...

b) le coefficient de régression (b) divisé par l'écart-type de la variable dépendante

b
r '
sy

La corrélation au carré (la "variance expliquée") égale

- le ratio de la somme des carrés expliquée sur la somme des carrés totale et donc la variance de la
ligne de régression.

SC expliquée
r 2'
SC totale

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 1

2) La ligne de régression, la régression simple

On est intéressé à la régression quand on veut savoir jusqu'à quel point on peut prédire la valeur d'une
variable en connaissant la valeur d'une autre variable. L'équation de la régression simple est:

Y )'a%bx

"Y’" peut être conceptualisé comme la valeur attendue, pour une valeur de X donnée "E(Y|X)".

Comme il y a des écarts autour de la moyenne, chaque valeur de y, yi se calcule selon l'équation
suivante:

yi = a+bxi+ei

"a" peut être conceptualisé comme l'intercept de Y, soit la valeur moyenne que prend Y quand
la valeur de X =0;

"b" est le coefficient assigné à la variable indépendante X.

Il peut donc être conceptualisé comme le poids donné à la variable indépendante X, pour
prédire la variable dépendante Y.

"e" peut être conceptualisé comme l'"erreur" comprenant l'erreur de mesure (voir alpha de
Cronbach) ainsi que l'effet non contrôlé d'autres variables qui ne sont pas dans l'équation. La
valeur de "ei" pour un cas donné est l'écart entre la valeur yi prédite par l'équation "a +bxi" et
la valeur réelle yi.

B) La régression multiple:

Dans la régression multiple, on cherche la combinaison de poids (b) pour les variables indépendantes
(Xi) qui amènerait les valeurs de Y prédites par l'équation aussi près que possible des valeurs de Y
mesurées. L'équation est la suivante:

Y'a%b1x1%b2x2%...%bnxn

On cherche toujours à minimiser les écarts entre les valeurs prédites et les valeurs mesurées mais

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 2

en recourant à plusieurs variables qui nous aident à prédire; la corrélation multiple est un indice
de la relation entre ces valeurs prédites et les valeurs mesurées.

Notons que l'analyse de variance est un cas spécial d'une régression multiple dans laquelle les
variables multi-nominales ayant k catégories seraient dichotomisées en k-1 variables.

Il y a quatre types de régression multiple (Tabachnik et Fidell, 1989, p. 124); seulement les trois
premiers seront abordés dans le cadre de ce cours. Ces quatre types diffèrent par la manière dont les
variables entrent dans l'équation et donc par la façon dont est traitée la variance commune à une ou
plusieurs variables.

1. La régression standard: Toutes les variables sont entrées en même temps dans l'équation. La
variance commune à plusieurs variables n'est pas attribuée à aucune des variables. On cherche à
estimer le degré de relation entre chaque variable indépendante et la variable dépendante. Ce type
de régression permet de connaître la contribution unique (corrélation semi-partielle) de chaque
variable indépendante à la prédiction de la V.D.

2. La régression hiérarchique: Les variables sont entrées une à une ou par groupe de variables
selon un ordre déterminé par le chercheur.. La variance commune à plusieurs variables est attribuée
séquentiellement selon l'ordre d'entrée des variables. On cherche à estimer si et jusqu'à quel point une
variable indépendante ou un groupe de variables indépendantes ajoute à la prédiction, au-delà des
autres variables déjà dans l'équation. Ce type de régression permet de connaître la contribution
ajoutée d'une ou de plusieurs variables. On fait l'équivalent d'une analyse de covariance.

3. La régression statistique ou pas-à-pas: Les variables indépendantes entrent dans l'équation

uniquement en fonction de critères statistiques (probabilité statistique de signification du coefficient
"b"). On cherche la meilleure équation de prédiction, sans égard à la signification des variables. Ce
type de régression est utilisé surtout à titre exploratoire.

4. La régression SETWISE: Les variables sont entrées par bloc dont on compare la contribution
globale. On cherche le meilleur ensemble de prédicteurs, par exemple si l'utilisation de valium peut
être mieux prédite par un ensemble de variables subjectives (attitudes ) ou par un ensemble de
variables relatives à la santé.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 3

1) Ce que l'on peut savoir avec une régression multiple (Tabachnik et Fidell, 1989, p. 124-127):

- si il existe une relation significative entre les prédicteurs et la V.D i.e. si, dans la population, la
relation est différente de 0.

H0: r=0; H1: r…0

- si chacune des variables contribue de façon significative à la prédiction

H0: bi=0; H1: bi…0

- si l'addition d'une variable (k) à un ensemble existant contribue de façon significative à la prédiction.
(Différence des R2)

H0: bk=0; H1: bk…0

- si une relation autre que linéaire (curvilinéaire, logarithmique,...) prédirait mieux qu'une relation
linéaire.
( en transformant les variables et en comparant les coefficients, les résidus, ...)

- si un ensemble de prédicteurs est meilleur qu'un autre (Setwise)

- pour prédire les valeurs de la V.D. dans un nouvel ensemble de données pour lesquelles seules les
V.I ont été mesurées.

- pour effectuer des analyses de cheminement de causalité (surtout effectués maintenant avec des
procédures permettant l'évaluation simultanée des équations i.e Lisrel, EQS).

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 4

2) Considérations pratiques (Tabachnik et Fidell, 1989, p. 128-133):

- nombre de cas par variable.

Il devrait y avoir au minimum:

Régression standard et hiérarchique: 20 cas par variable

Régression statistique: 40 cas par variable, ceci parce que ce type de régression fortement
dépendante de l'échantillon est moins stable et donc plus difficilement généralisable à la population.

Plus l'effet est présumé faible, moins la distribution des variables est normale, moins la fidélité est
bonne, plus il faut de cas par variable.

Par ailleurs, lorsque l'on a beaucoup de variables et que certaines combinaisons de ces variables
peuvent constituer une échelle, il devient d'autant plus judicieux de réduire le nombre de variables
dans l'équation par la création d'échelles dont la fidélité (comme nous le verrons ultérieurement) peut
être mesurée.

- valeurs extrêmes (outliers)

Les valeurs extrêmes ont un impact très important sur les solutions (ensemble de coefficients). Il est
d'autant plus important de les identifier et d'agir en conséquence (transformer la variable ou retirer
les cas de l'analyse).

- Multicollinéarité et singularité

On dit qu'il y a un problème de singularité

lorsqu'une variable donnée est l'exacte combinaison d'une ou de plusieurs autres variables.

Comme dans l'analyse de régression on cherche à ce que chaque variable apporte le plus de variance
unique possible, il devient évident qu'une variable indépendante pouvant être exactement prédite par
les autres variables indépendantes ne nous intéresse pas, puisqu'elle n'ajoute rien à la prédiction. Si
un tel cas se produit, il faut identifier la variable indépendante pouvant être prédite par les autres
variables indépendantes et la retirer de l'analyse (sur des bases théoriques, logiques et statistiques).

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 5

- Normalité, linéarité, homoscédasticité(homogénéité des variances), indépendance des résidus

Les postulats du modèle linéaire que nous avons déjà vus sont évidemment tout aussi importants en
régression multiple. Il est toutefois difficile sinon impossible d'examiner ces questions de façon
multivariée en examinant les distributions univariées et bi-variées. L'analyse des résidus nous
permettra d'évaluer si les postulats sont respectés.

3) Sommes des carrés, équations, test F, r2:

Il faut comprendre que la même équation de répartition de la somme des carrés (voir cours sur
l'analyse de variance) est valable pour la régression i.e.:

La somme des carrés totale (Somme des écarts de chaque valeur de Y à la moyenne de Y, Y &) égale
la somme des carrés de la régression (Écarts de chaque valeur prédite à la moyenne de Y) additionnée
à la somme des carrés des résidus (Écarts de chaque valeur de Y à la valeur prédite par l'équation).

&)= (Y'-Y
(Y-Y &)+(Y-Y') où Y' est la valeur prédite de Y

et
SStotal= SSreg+SSres

De la même manière que pour l'analyse de variance, les degrés de liberté se répartissent en degrés de
liberté expliqués par les V.I. (un degré de liberté pour chaque variable indépendante) et en degrés
de libertés de l'erreur (N-k-1 où k est le nombre de V.I.)

DLtotal= DLreg+DLres

La variance est évidemment toujours égale à la somme des carrés divisée par les degrés de liberté.
CM=SS/DL

Le test F que l'on retrouve généralement par défaut dans la présentation des résultats égale le rapport
entre la variance due à la régression et la variance due à l'erreur...

F=CMreg/CMres

La valeur de R2 égale le rapport de la Somme des écarts à la moyenne au carré (somme des carrés)
due à la régression sur la Somme des carrés totale. Cette valeur constitue un indice de la proportion
de la variance totale expliquée par les variables qui sont dans l'équation.

r2=SSreg/SStotal

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 6

4) Les trois grands types d'analyse, utilité et conséquences:

a) L'analyse de régression standard

Dans ce que l'on appelle l'analyse de régression standard, toutes les variables indépendantes sont
entrées en même temps dans l'analyse. Cette méthode nous permet
- d'évaluer la variance expliquée par un ensemble de variables.
- d'évaluer la contribution unique de chaque variable entre autres en comparant les coefficients de
corrélation, de corrélation semi-partielle (part corr) et partielle (partial corr)
- d'estimer la signification statistique de la contribution de chaque variable lorsque toutes les variables
sont dans l'analyse.

b) L'analyse de régression hiérarchique

Ce type d'analyse permet de répondre aux questions concernant la contribution d'une variable ou d'un
ensemble de variables au-delà de la contribution des variables qui sont déjà dans l'équation.

Elle permet de répondre à des questions théoriques du type: Est-ce que l'âge explique le
comportement au-delà de l'ancienneté dans l'organisation; est-ce que les valeurs de travail expliquent
au-delà de la contribution des variables socio-démographiques, etc...

L'analyse de régression hiérarchique est similaire à l'analyse de covariance et donnera les mêmes
résultats. On aura tendance à utiliser l'analyse de covariance lorsqu'il y a plusieurs (mais pas trop de)
variables multi-nominales et lorsqu'il y a des possibilités connues ou théoriques d'effets d'interaction:
il est plus facile d'analyser les effets d'interaction avec l'analyse de covariance et on n'a pas à créer des
variables dichotomiques avec les variables multi-nominales. Toutefois, l'analyse de covariance est
moins appropriée ou devient plus difficile à analyser lorsque les variables sont particulièrement
nombreuses.

Ce qui nous intéresse le plus dans les résultats de l'analyse hiérarchique, c'est la différence de variance
expliquée lorsque l'on entre de nouvelles variables ou des ensembles de variables. Il nous intéresse
évidemment de savoir aussi si cet ajout est significatif, c'est-à-dire s'il est susceptible d'ajouter à
l'explication du phénomène à l'étude dans la population.

Donc, avec l'analyse hiérarchique, on émet des hypothèses et on les vérifie.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 7

c) L'analyse de régression statistique.

Ce type d'analyse est souvent utilisé à titre exploratoire et trop souvent à titre d'analyse finale et
définitive. Dans la régression statistique, c'est en fait le BETA qui détermine quelle variable sera
inclue dans l'analyse et quand elle sera inclue dans l'analyse. Il suffit donc d'une fraction dans les
calculs pour que, dans le cas où deux variables d'importance théorique et empirique équivalente
reliées entre elles, une seule des deux soit inclue dans l'analyse. Il faut souligner que cette méthode
est intéressante à titre exploratoire et qu'elle donnera les mêmes résultats finaux que les autres
méthodes lorsque les variables indépendantes sont peu reliées entre elles.

Ce type d'analyse étant fortement dépendant de l'échantillon, on demande un plus grand nombre de
cas par variable (normalement 40).

Ce que nous donne la régression statistique, c'est le meilleur ensemble de prédicteurs statistiques
parmi les V.I. considérées; c'est la prédiction maximale avec les V.I. que l'on a, mais non pas la
prédiction optimale, particulièrement au plan théorique.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 8

REMARQUES:

- Quelque soit la méthode utilisée, si on retrouve les mêmes prédicteurs dans l'équation finale,
les coefficients de régression seront les mêmes. Ce qui distingue les méthodes, c'est l'ordre d'entrée
des variables, l'identité des variables qui seront gardées dans l'équation de prédiction (particulièrement
quand il y a multi-collinéarité) et le type de questions auxquelles elles permettent de répondre.

- Il faut se souvenir que l'équation de régression est constituée d'une addition. On postule donc que
les effets sont additifs.

- Plus la combinaison de prédicteurs est bonne, moins il y aura de résidus et moins ceux-ci seront
importants. L'analyse des résidus est donc essentielle. Elle permet de vérifier la justesse de la
prédiction, d'identifier les problèmes quant aux postulats de l'analyse (normalité, linéarité,
homoscédasticité, absence d'auto-corrélation) et d'examiner les valeurs extrêmes (OUTLIERS).

Les informations qui nous intéresseront dans un "listing" seront donc:

- R multiple et R2

- Test F de signification de R2

- Coefficients de régression (b), Erreur-type des coefficients et coefficients standardisés (BETA)

- Test T de signification de B (=B/SE(B))

- Changement de R2 après ajout d'une variable -- régressions statistique ou hiérarchique -- ou de

plusieurs variables (régression hiérarchique).

- Corrélations de départ entre les variables indépendantes et dépendante

- Corrélation semi-partielle et partielle (surtout régression standard)

- Patrons et graphiques des résidus.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 9

5) La régression, la présentation et l'interprétation des informations

- Qu'est-ce que la corrélation multiple (R)?

La corrélation multiple est une indice standardisé, variant entre -1 et +1, de la force de la relation
entre l'ensemble des variables indépendantes et la variable dépendante. C'est la corrélation entre les
valeurs prédites et les valeurs réelles. La corrélation multiple s'interprète comme la corrélation simple:
Plus la corrélation est élevée, plus la relation linéaire entre les variables indépendantes et la variable
dépendante est élevée.

"Il existe une relation forte (r=.75) entre l'ensemble des variables indépendantes et la satisfaction
en emploi".

- Qu'est-ce que la corrélation multiple au carré (R2)?

La corrélation multiple au carré est un indice de la part de variance de la variable dépendante

expliquée par les variables indépendantes qui sont dans l'équation. Ainsi, on dira que les variables
entrées dans l'équation expliquent 25% de la variance de la variable dépendante.

"Le bloc des variables socio-démographiques explique 5% de la variance de la satisfaction en

emploi".

Qu'est que l'ajout de corrélation multiple au carré (? R2)?

Ce qu'on appelle le changement de R2 indique la proportion de l'explication de la variance de la

variable dépendante ajoutée par la-les variables indépendantes qui sont entrées dans l'équation.

"Les valeurs de travail expliquent 10% de la variance de la satisfaction en emploi, au-delà de

l'explication fournie par le bloc des variables socio-démographiques (5%)".

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 10

Que signifie le test F?

La valeur du test F indique si la variance ou l'ajout de variance expliquée sont significatifs, c'est-à-dire
si, quelque soit la force de la relation entre les variables indépendantes et la variable dépendante,
cette relation est susceptible d'exister dans la population et n'est pas due simplement au hasard de
l'échantillonnage.

Au-delà de la prédiction déjà expliquée par le bloc des variables socio-démographiques, les valeurs
de travail ajoutent de façon significative à la prédiction de la satisfaction en emploi tel qu'en
témoigne le test F (F(dlreg, dlres)= , p=.002).

"On peut rejeter l'hypothèse que la relation constatée dans l'échantillon est due au hasard"

- Qu'est-ce qu'un coefficient de régression?

Le coefficient de régression ordinaire (non standardisé) indique quelle est l'augmentation prévue dans
la variable dépendante à chaque unité d'augmentation de la variable indépendante. Dans une
régression multiple, il s'agit de l'augmentation prévue toutes choses égales par ailleurs, c'est-à-dire
comme si toutes les autres variables avaient une valeur fixe. Les coefficients des différentes
variables ne peuvent être comparés entre eux puisqu'ils sont dépendants de l'échelle de mesure
de chaque variable.

Un coefficient de régression qui a une valeur de 2 veut dire que à chaque fois que la valeur de la
variable indépendante augmente de 1, la variable dépendante augmente de 2, toutes choses égales par
ailleurs..

Si la variable dépendante est la satisfaction (sur une échelle de 1 à 10) et la variable indépendante le
salaire (en milliers de dollars),

"Le coefficient de régression "b" de .5 signifie qu'à chaque tranche de 1,000$ d'augmentation du
salaire, la satisfaction prédite est de ½ point plus élevée; il faut donc 2,000$ de plus en salaire pour
que la satisfaction prédite soit de 1 point plus élevée et 10,000$ pour qu'elle soit 5 points plus
élevée."

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 11

- Qu'est-ce qu'un coefficient standardisé (Beta)?

Le coefficient standardisé permet de comparer la contribution de chaque variable puisqu'il s'agit du

coefficient de régression ramené sur une échelle standard (variant de -1 à +1).

"Le coefficient standardisé de .5 pour la variable mesurant l'importance accordée à la nature du

travail est le plus haut coefficient ce qui montre que cette variable est celle qui contribue le plus à
la prédiction de la satisfaction en emploi."

Que signifient les tests T pour les coefficients?

Les valeurs des tests T pour les coefficients sont constituées par la division de la valeur du coefficient
de régression "b" par son erreur-type. Cette valeur doit être plus grande que 2 (. 1.96 écart-type)
pour être significative. Elle indique si chacun des coefficients des variables présentes dans l'équation
sont significatifs, c'est-à-dire si, quelque soit l'importance de la contribution de chaque variable, cette
contribution est susceptible d'exister vraiment dans la population à laquelle on veut inférer les
résultats. Il faut souligner que cette information est inscrite dans l'univers des variables présentes dans
l'équation; la contribution d'une variable est considérée comme significative, compte tenu de la
présence des autres variables dans l'équation.

La valeur du test T pour le coefficient de régression de l'âge (T= "$2", p=.03) indique que la
contribution de cette variable à l'explication de la satisfaction en emploi est significative.

"On peut rejeter l'hypothèse que la relation constatée dans l'échantillon est due au hasard"

Que signifie la corrélation semi-partielle (Part corr) dans la régression standard?

La corrélation semi-partielle dans la régression standard représente la contribution unique d'une

variable à l'explication de la variable dépendante, compte tenu des autres variables présentes.

La corrélation semi-partielle (r=.02) entre l'âge et la satisfaction en emploi montre que l'explication
contribuée par l'âge seul est peu importante. La corrélation relativement forte (r=.50) entre l'âge
et la satisfaction en emploi s'explique donc presque entièrement par les autres variables présentes
dans l'équation, nommément l'ancienneté et le niveau de scolarité et surtout, les valeurs de travail
ainsi que la région de travail.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 12

Qu'est-ce qu'un résidu? qu'est-ce que çà veut dire?

Le résidu, c'est l'écart entre chaque valeur de la variable dépendante et la valeur que l'on a prédite
étant donné les valeurs des variables indépendantes. Plus cet écart est important, moins la prédiction
est juste; lorsqu'un résidu est plus grand que 3.16, on dit qu'il s'écarte anormalement de la distribution
des résidus. Cette distribution devrait approcher celle de la distribution normale. Elle devrait aussi
être la même quelque soient les valeurs des variables indépendantes ou dépendante.

"Trois résidus sont supérieurs à 3,16; un est très supérieur. En examinant ce cas de façon plus
poussée, il est apparu qu'il possédait des caractéristiques particulières.... Si le cas est retiré de
l'analyse, les valeurs des coefficients sont légèrement modifiées, surtout pour la variable X, et il n'y
a plus de résidus plus grand que 3.16."

ou:
"Un examen attentif des résidus montre que ceux-ci se distribuent normalement et qu'aucun résidu
ne présente une valeur statistiquement trop élevée. Ceci amène à conclure que la prédiction est
valable et appropriée pour tous les patrons de réponse."

L'interprétation:

L'interprétation fait référence à la problématique de recherche, à la population, à la "vraie vie". Elle

réfère aux hypothèses de départ et peut nous permettre de conclure sur des interventions à effectuer
pour régler le problème qui était à la source de notre étude, les nouvelles recherches qu'il faudrait
effectuer pour améliorer la compréhension de la situation, les raisons qui peuvent expliquer que les
résultats présentés sont différents de ceux présentés par d'autres chercheurs auparavant.

"Les résultats ont montré que les valeurs de travail sont des prédicteurs importants de la satisfaction
en emploi et qu'en fait une bonne partie de l'explication généralement attribuée à l'âge et à la
scolarité passe par une différentiation des valeurs de travail. Les valeurs de travail avaient été
rarement étudiées par les chercheurs qui se sont penché sur la satisfaction en emploi. Notre étude
démontre la pertinence de faire intervenir ces valeurs dans l'explication.

Parmi les valeurs qui apparaissent expliquer de la façon la plus probante la satisfaction en emploi,
l'importance accordée à la nature même du travail apparaît la plus importante. Ce résultat
apparaît très important au vu d'un certain discours économiste qui prétend que la valorisation du
salaire et le salaire lui-même sont presque les facteurs explicatifs uniques de la satisfaction en
emploi ...

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 13

Université de Montréal

département de sociologie

L'analyse de régression multiple

Annexe aux notes de cours :

De certaines procédures de SPSS

© Claire Durand, 1995

Cours sur la régression - De certaines procédures de SPSS

Certaines procédures de SPSS permettent de modifier les codes de valeurs attribuées aux réponses.
Certaines procédures conviennent aux opérations simples (EXEMPLE: procédure RECODE);
d'autres procédures permettent d'effectuer des transformations plus complexes et des transformations
conditionnelles. Ces procédures sont très utiles pour créer des échelles ou pour "dichotomiser des
variables multi-nominales".

COMPUTE: permet de créer une nouvelle variable et de lui donner une valeur; COMPUTE
permet aussi de modifier les valeurs d'une variable existante.

IF: permet d'effectuer les opérations conditionnelles.

Exemple concret: Dichotomisation de variables multi-nominales:

Variable AGE: 5 catégories:

code 1: moins de 25 ans

code 2: 25-34 ans
code 3: 35-44 ans
code 4: 45-54 ans
code 5: 55 ans et plus

Dans une équation de régression, je ne peux utiliser que des variables continues ou des variables
dichotomiques de type 0,1. Il devient donc nécessaire de créer, à partir de la variable multinominale,
de nouvelles variables codées 0,1. Le code 0 représente l'absence de la caractéristique et le code 1,
la présence de la caractéristique.

Noter: On ne peut créer qu'un nombre de variables égal au nombre de catégories moins une
(k-1).

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 15

Ainsi, on créera 4 nouvelles variables à partir de la variable originale âge:

- AGE2: le fait d'avoir entre 25 et 34 ans ;

- AGE3: le fait d'avoir entre 35 et 44 ans ;
- AGE4: le fait d'avoir entre 45 et 54 ans ;
- AGE5: le fait d'avoir plus de 55 ans ;

Chacune de ces variables prendra la valeur "0" lorsque l'individu n'a pas la caractéristique i.e.
n'appartient pas au groupe d'âge déterminé ou la valeur "1" lorsque l'individu appartient au groupe
d'âge déterminé.

Il est possible de déduire que les personnes qui ont un code 0 pour chacune de ces quatre nouvelles
variables sont des jeunes de moins de 25 ans.

Comment créer les nouvelles variables:

1) Il faut d'abord initialiser les variables, c'est-à-dire donner la même valeur à tout le monde (sinon
par défaut SPSS déciderait que tout le monde a la valeur manquante (missing)). Pour ce faire on
utilise la commande COMPUTE.

COMPUTE AGE2=0.
COMPUTE AGE3=0.
COMPUTE AGE4=0.
COMPUTE AGE5=0.

2) Il faut attribuer les valeurs "1" pour chacune des variables créées selon les réponses à la variable
AGE originale. Pour ce faire, on utilise le IF (dans le "tableau" du COMPUTE dans SPSS WIndows)

IF (AGE=2) AGE2=1.
IF (AGE=3) AGE3=1.
IF (AGE=4) AGE4=1.
IF (AGE=5) AGE5=1.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 16

Les commandes COMPUTE et IF servent de multiples usages.

Exemples de COMPUTE:

COMPUTE age=95-annais.

6 La nouvelle variable (que j'ai appelé "age") donne l'âge des personnes puisque l'âge est l'année
actuelle (95) à laquelle on soustrait l'année de naissance (annais).

COMPUTE nouv1=(vieil1+vieil2+vieil3)/3.

6 La nouvelle variable (que j'ai appelé "nouv1") est constituée de la somme de trois variables
préexistantes (vieil1, vieil2 et vieil3), somme que l'on divise ensuite par le nombre de variables (3).
La nouvelle variable est donc la moyenne des trois anciennes variables. Noter que l'addition doit être
entre parenthèses si l'on veut que la somme soit divisée par 3 (et non pas seulement la dernière
variable) à cause de la priorité d'opération.

COMPUTE nouv2= lg10(taille).

6 La nouvelle variable (nouv2) est constituée du logarithme en base 10 de la variable "taille".

COMPUTE vieil1=vieil1-22.

6 La variable vieil1 est modifiée; on soustrait 22 à la valeur de chaque cas.

- Les principaux opérateurs:

addition: +
soustraction: -
multiplication: *
division: /

- Les principales fonctions:

racine carrée SQRT

puissance **
log base 10: LG10
log naturel: LN

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 17

Exemples de IF:

IF (vieil1=2) nouv1=1.
6 Pour chaque cas où la variable "vieil1" égale 2, la variable nouv1 prendra la valeur 1.

IF (vieil1=2 or vieil2=1) nouv2=3

6 Pour chaque cas où la variable "vieil1" égale 2 ou que la variable vieil2 égale 1, la variable nouv2
prendra la valeur 3.

IF (age lt 27) jeune=1.

6 Pour chaque cas où la variable "age" prend une valeur inférieure à 27 (27 ans), la varaible jeune
prend la valeur 1 (présence de la caractéristique définie par la variable "jeune").

6principaux opérateurs:

égalité: EQ ou =
non égalité: NE ou ~=
moins que: LT ou <
moins que ou égal: LE ou <=
plus que GT ou >
plus que ou égal GE ou >=

Il faut aussi retenir que l'on peut utiliser

et: AND ou &

ou: OR ou |

Remarques relatives à la régression:

Note1: Suite à la création des variables dans le cas du processus de multidichotomisation, on entrera
habituellement ensemble toutes les nouvelles variables relatives à une même variable multinominale
d'origine.

Note2: Comme les variables nominales doivent être codées (0,1) dans une régression, on recodera
de la même manière les variables codées (1,2) comme le sexe, par exemple.

Note2: Lorsqu'une variable s'avère significativement reliée à la variable dépendante, l'interprétation

que l'on fera est que la présence de la caractéristique explique telle proportion de la variance de la
V.D. Par exemple, on dira que le fait d'être âgé de 35 à 44 ans est significativement relié à la V.D.
et explique X% de la variance...
REGRESSION: permet de demander la procédure régression

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 18

Commandes utiles pour la régression:

PLOT (dans SPSS PC ou Unix): permet de produire un graphique des relations entre deux variables
continues et donne, sur demande, l'équation de la droite de régression.

PLOT
/FORMAT REGRESSION
/TITLE 'résultats vs pretest'
/VERTICAL MIN (0) MAX (50) /HORIZONTAL MIN (0) MAX (30)
/PLOT result with pretest
/FORMAT REGRESSION
/TITLE 'résultats vs moyenne au CEGEP'
/VERTICAL MIN (0) MAX (50) /HORIZONTAL MIN (0) MAX (100)
/PLOT result with restot.

6 On peut demander plusieurs graphiques dans la même commande.

6 Pour chaque graphique, on peut demander un titre et définir le minimum et le maximum de chaque
axe; on peut aussi déterminer la hauteur et la largeur et les symboles utilisés.
6 Lorsque l'on indique FORMAT REGRESSION, on obtient l'équation de régression et les points
où la droite de régression "traverse" les axes.

Dans SPSS WINDOWS :

On utilise GRAPH, SCATTER.

Après avoir fait produire le graphique, on peut obtenir la droite de régression, demander le r2 et
l'intervalle de confiance de la droite; on peut modifier les largeurs, mettre des titres, etc. On ne pourra
pas toutefois obtenir l'équation de la droite de régression. Il faut pour cela demander la commande
REGRESSION.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 19

Commandes de régression (SPSS PC et UNIX).

REGRESSION
/VARIABLES result pretest restot grscol anglo latino arabe
/STATISTICS DEFAULTS CHANGE ZPP COEFF OUTS HISTORY
/dependent result/method enter
/RESIDUALS DEFAULTS OUTLIERS
/dependent result/method stepwise restot anglo latino arabe
/RESIDUALS DEFAULTS OUTLIERS
/SCATTERPLOT (*PRED *RESID)
/dependent result
/method enter restot/enter anglo latino arabe/enter pretest
/RESIDUALS DEFAULTS OUTLIERS
/SCATTERPLOT (*PRED *RESID).

Comme pour la procédure PLOT, on peut demander plusieurs analyses dans une même procédure
à condition toutefois qu'elles portent sur les mêmes variables.
6 /VARIABLES donne la liste des variables qui pourront être utilisées.
6 /STATISTICS donne les statistiques par défaut qui seront requises pour toutes les analyses
subséquentes
6 /DEPENDENT donne le nom de la variable dépendante pour une équation donnée
6 /METHOD indique le mode d'entrée requis pour l'équation ainsi que les variables qui seront entrées
à chaque étape; par défaut toutes les variables apparaissant dans la liste du début (/VARIABLES)
sont entrées sauf la variable désignée comme V.D.
6 /RESIDUALS indique les informations requises sur les résidus
6 /SCATTERPLOT permet de demander des graphiques des relations entres les variables prédites
ou réelles de même que les résidus.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 20

Commandes de régression avec SPSS Windows;

On ne peut demander qu'une équation de régression à la fois, sinon il faut éditer la fenêtre de syntaxe:

Voilà de quoi auront l'air les commandes une fois toutes les options, statistiques, "plots", demandés
ou édités:

6Régression standard

REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA HISTORY ZPP
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT result
/METHOD=ENTER pretest restot
/SCATTERPLOT=(result ,*ZPRED ) (*ZPRED ,*ZRESID )
/RESIDUALS HIST(ZRESID) NORM(ZRESID) .

***Note: Lorsque l'on veut une régression standard, il faut éditer la commande pour rajouter
"ZPP" dans la sous-procédure /STATISTICS , ce qui permet d'obtenir les corrélations semi-
partielles..

6Régression hiérarchique

REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA HISTORY CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT result
/METHOD=ENTER restot /METHOD=ENTER pretest
/SCATTERPLOT=(result ,*ZPRED ) (*ZPRED ,*ZRESID )
/RESIDUALS HIST(ZRESID) NORM(ZRESID) .

***Note: Lorsque l'on veut une régression hiérarchique, il faut éditer la commande pour
rajouter "CHANGE" dans la sous-procédure /STATISTICS, ce qui permet d'obtenir les
informations sur la variance expliquée en plus à chaque étape.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 21

6Régression statistique (pas à pas):

REGRESSION
/DESCRIPTIVES MEAN STDDEV CORR SIG N
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA HISTORY CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT result
/METHOD=STEPWISE pretest restot
/SCATTERPLOT=(result ,*ZPRED ) (*ZPRED ,*ZRESID )
/RESIDUALS HIST(ZRESID) NORM(ZRESID) .

***Note: Lorsque l'on veut une régression statistique, il faut éditer la commande pour
rajouter "CHANGE" dans la sous-procédure /STATISTICS, ce qui permet d'obtenir les
informations sur la variance expliquée en plus à chaque étape.

Claire Durand - L'analyse de régression multiple - 10 janvier 1996 - 22

Vous aimerez peut-être aussi

Régression multiple en gestion d'entreprise
Pas encore d'évaluation
Régression multiple en gestion d'entreprise
3 pages
Chapitre 7-2 Analyse Des Donnees New-Finale 2025
Pas encore d'évaluation
Chapitre 7-2 Analyse Des Donnees New-Finale 2025
77 pages
Modèles de régression en entreprise
Pas encore d'évaluation
Modèles de régression en entreprise
7 pages
Statistique Avancée
Pas encore d'évaluation
Statistique Avancée
9 pages
Statistiques et Prédictions SPSS
Pas encore d'évaluation
Statistiques et Prédictions SPSS
3 pages
Régression Linéaire
Pas encore d'évaluation
Régression Linéaire
18 pages
Prévisions Quantitatives et Régression
100% (6)
Prévisions Quantitatives et Régression
25 pages
Intro RLS
Pas encore d'évaluation
Intro RLS
4 pages
Document From Jaber Khlie
Pas encore d'évaluation
Document From Jaber Khlie
3 pages
Document From Jaber Khlie
Pas encore d'évaluation
Document From Jaber Khlie
3 pages
Régression Multiple: Principes Et Exemples D'application Dominique Laffly Umr 5 603 Cnrs Université de Pau Et Des Pays de L'adour Octobre 2006
Pas encore d'évaluation
Régression Multiple: Principes Et Exemples D'application Dominique Laffly Umr 5 603 Cnrs Université de Pau Et Des Pays de L'adour Octobre 2006
17 pages
Régression Multiple: Principes Et Exemples D'application Dominique Laffly Umr 5 603 Cnrs Université de Pau Et Des Pays de L'adour Octobre 2006
Pas encore d'évaluation
Régression Multiple: Principes Et Exemples D'application Dominique Laffly Umr 5 603 Cnrs Université de Pau Et Des Pays de L'adour Octobre 2006
17 pages
Introduction à la régression linéaire
100% (3)
Introduction à la régression linéaire
42 pages
Régression Linéaire
Pas encore d'évaluation
Régression Linéaire
6 pages
Laffly Regression Multiple
Pas encore d'évaluation
Laffly Regression Multiple
33 pages
Reponses Detaillees Analyse Donnees
Pas encore d'évaluation
Reponses Detaillees Analyse Donnees
4 pages
Guide SPSS pour la Régression Linéaire
Pas encore d'évaluation
Guide SPSS pour la Régression Linéaire
103 pages
Introduction à la régression linéaire simple
100% (1)
Introduction à la régression linéaire simple
57 pages
Séance 03
Pas encore d'évaluation
Séance 03
18 pages
Chapitre I RLS .
Pas encore d'évaluation
Chapitre I RLS .
4 pages
Régression Linéaire Simple Et Multiple
Pas encore d'évaluation
Régression Linéaire Simple Et Multiple
13 pages
Régression Linéaire et Logistique expliquées
Pas encore d'évaluation
Régression Linéaire et Logistique expliquées
51 pages
Exercice de Régression Linéaire Simple
Pas encore d'évaluation
Exercice de Régression Linéaire Simple
6 pages
RégressionLineaire VF
100% (1)
RégressionLineaire VF
32 pages
Chapitre 2 - R├йgression Lin├йaire
100% (1)
Chapitre 2 - R├йgression Lin├йaire
38 pages
Chapitre 5-Statistique
Pas encore d'évaluation
Chapitre 5-Statistique
8 pages
TD 3
Pas encore d'évaluation
TD 3
6 pages
REGRESSION
Pas encore d'évaluation
REGRESSION
16 pages
Chap2 Regression
Pas encore d'évaluation
Chap2 Regression
78 pages
QM - Leçon 6-vbb
Pas encore d'évaluation
QM - Leçon 6-vbb
16 pages
Méthodes de Prévision Quantitatives
Pas encore d'évaluation
Méthodes de Prévision Quantitatives
64 pages
Modèle de Régression Linéaire Multiple
Pas encore d'évaluation
Modèle de Régression Linéaire Multiple
30 pages
MP1 S2 Analyse Statistique Des Données
Pas encore d'évaluation
MP1 S2 Analyse Statistique Des Données
12 pages
Chap 3 Régression
100% (1)
Chap 3 Régression
17 pages
L'analyse Multivariée Avec Sphinx
Pas encore d'évaluation
L'analyse Multivariée Avec Sphinx
21 pages
Régression Linéaire Simple: Concepts et Applications
Pas encore d'évaluation
Régression Linéaire Simple: Concepts et Applications
32 pages
Chapitre. Régression Linéaire Simple - 19-20 - Part01
Pas encore d'évaluation
Chapitre. Régression Linéaire Simple - 19-20 - Part01
10 pages
Régression linéaire simple
Pas encore d'évaluation
Régression linéaire simple
10 pages
Compte Rendu 2 Statistique
Pas encore d'évaluation
Compte Rendu 2 Statistique
16 pages
Modèle de régression linéaire simple
100% (1)
Modèle de régression linéaire simple
69 pages
Régression Linéaire Simple et Modèles Statistiques
100% (1)
Régression Linéaire Simple et Modèles Statistiques
51 pages
Econométrie Régression Linéaire Multiple 1
Pas encore d'évaluation
Econométrie Régression Linéaire Multiple 1
19 pages
Notes D'étude Sur Les Méthodes Quantitatives Du CFA Niveau II
Pas encore d'évaluation
Notes D'étude Sur Les Méthodes Quantitatives Du CFA Niveau II
10 pages
Analyse Statistique et Géostatistique des Données
Pas encore d'évaluation
Analyse Statistique et Géostatistique des Données
25 pages
Regression Multiple Annexes18-02-2007 PDF
Pas encore d'évaluation
Regression Multiple Annexes18-02-2007 PDF
83 pages
2 - Apprentissage Supervisé
Pas encore d'évaluation
2 - Apprentissage Supervisé
10 pages
Explo V2
Pas encore d'évaluation
Explo V2
20 pages
Mémoire Régression Simple Et Multiple
100% (1)
Mémoire Régression Simple Et Multiple
66 pages
Analyse Regression Linéaire2024
Pas encore d'évaluation
Analyse Regression Linéaire2024
18 pages
Regression Simple
Pas encore d'évaluation
Regression Simple
55 pages
Régression Linéaire et Moindres Carrés
Pas encore d'évaluation
Régression Linéaire et Moindres Carrés
53 pages
Regression Linéaire
Pas encore d'évaluation
Regression Linéaire
33 pages
Chapitre 12
Pas encore d'évaluation
Chapitre 12
67 pages
Question de Cours en Analyse Des Donnees S5
Pas encore d'évaluation
Question de Cours en Analyse Des Donnees S5
5 pages
Les Six Leviers Qui Attirent Le Client
Pas encore d'évaluation
Les Six Leviers Qui Attirent Le Client
3 pages
Box Jenkins
Pas encore d'évaluation
Box Jenkins
11 pages
Durée Eviction Par Maladie
Pas encore d'évaluation
Durée Eviction Par Maladie
1 page
ISO 22716.docx+++++++++++++++++++
Pas encore d'évaluation
ISO 22716.docx+++++++++++++++++++
13 pages
Echelle Algoplus
Pas encore d'évaluation
Echelle Algoplus
2 pages
Bupsy 0007-4403 2000 Num 53 448 14939 t1 0513 0000 3
Pas encore d'évaluation
Bupsy 0007-4403 2000 Num 53 448 14939 t1 0513 0000 3
3 pages
ACV Fairphone 3 : Étude avec SimaPro
Pas encore d'évaluation
ACV Fairphone 3 : Étude avec SimaPro
7 pages
Créez un Cahier de Charges Efficace
100% (1)
Créez un Cahier de Charges Efficace
2 pages
Exercices de Génétique Formelle 7D
Pas encore d'évaluation
Exercices de Génétique Formelle 7D
4 pages
COURS IOT SUPTECH - Edited - PPTX - Removed
Pas encore d'évaluation
COURS IOT SUPTECH - Edited - PPTX - Removed
24 pages
Transformation Numérique en Entreprise
Pas encore d'évaluation
Transformation Numérique en Entreprise
2 pages
Découverte des Éléments Chimiques
100% (1)
Découverte des Éléments Chimiques
2 pages
Edt SJP 19 Au 24 Mai 2025
Pas encore d'évaluation
Edt SJP 19 Au 24 Mai 2025
11 pages
Pedologie SGM
Pas encore d'évaluation
Pedologie SGM
20 pages
Test de 3ème Année de Base - Caractéristiques de La Lumière
Pas encore d'évaluation
Test de 3ème Année de Base - Caractéristiques de La Lumière
5 pages
Linguistique Descriptive
Pas encore d'évaluation
Linguistique Descriptive
19 pages
Les Ondes Avec Correction
Pas encore d'évaluation
Les Ondes Avec Correction
11 pages
Examen Final - Semaine 8 Mio
Pas encore d'évaluation
Examen Final - Semaine 8 Mio
12 pages
Exercices Corrigés en Contrôle de Gestion
Pas encore d'évaluation
Exercices Corrigés en Contrôle de Gestion
57 pages
Cons Meca s3 1er GR 2017 PDF
100% (1)
Cons Meca s3 1er GR 2017 PDF
7 pages
Randonnée Belvédère de las Buitreras
Pas encore d'évaluation
Randonnée Belvédère de las Buitreras
4 pages
Liste Des Projets Tutores 2016 2023
Pas encore d'évaluation
Liste Des Projets Tutores 2016 2023
5 pages
Methodes Et Astuces Et Remarques Et Conseils Equation Du Second Degre
Pas encore d'évaluation
Methodes Et Astuces Et Remarques Et Conseils Equation Du Second Degre
1 page
WP 120730 Simulateurevoluedeprocessusindustriels ASIMA
Pas encore d'évaluation
WP 120730 Simulateurevoluedeprocessusindustriels ASIMA
4 pages
Estimation des paramètres avec l'algorithme EM
Pas encore d'évaluation
Estimation des paramètres avec l'algorithme EM
16 pages
Rapport La Négociation Internationale Final
Pas encore d'évaluation
Rapport La Négociation Internationale Final
61 pages
Avant Propos Manuel PC - 1
Pas encore d'évaluation
Avant Propos Manuel PC - 1
7 pages
C4 L'Adjectif Qualificatif
100% (2)
C4 L'Adjectif Qualificatif
14 pages
Dimensionnement d'une dalle en béton armé
Pas encore d'évaluation
Dimensionnement d'une dalle en béton armé
21 pages
005-5-Dars Oddiy Kasrlar Ustida Amallar
100% (1)
005-5-Dars Oddiy Kasrlar Ustida Amallar
11 pages
Est-Ce Réel ? Phénoménologies de L'imaginaire Par Annabelle Dufourcq
Pas encore d'évaluation
Est-Ce Réel ? Phénoménologies de L'imaginaire Par Annabelle Dufourcq
306 pages
Lot 01 Plan Bibliotheque
Pas encore d'évaluation
Lot 01 Plan Bibliotheque
52 pages
00012-TAP Art. OSONGO OKONGAKOYI Marcel
Pas encore d'évaluation
00012-TAP Art. OSONGO OKONGAKOYI Marcel
23 pages