|
Accueil || Version15 || Nouvelles || Contactez-nous || Carte du site |
INTRODUCTION
GESTION
VARIABLES
STAT DESCRIPTIVES
STAT INFÉRENTIELLES
INTERDÉPENDANCE
Interprétation
Dans cet exemple, nous chercherons à identifier les variables qui permettent de prédire le
plus efficacement la probabilité de vivre un épuisement professionnel chez les enseignants
(ÉPUISEMENT). Nous vérifierons donc l’effet du stress généré par les élèves (ÉLÈVES), par
les parents (PARENTS) et la direction (DIRECTION), le sentiment d’auto-contrôle
(CONTRÔLE), les stratégies d’adaptation (ADAPTATION) et la présence d’un trouble
anxieux (ANXIÉTÉ) sur la présence ou non d’un épuisement professionnel. Toutes les
variables prédictrices évaluées sont continues, mise à part la variable anxiété qui est
catégorielle.
Étape 0 : le modèle de base
Le premier tableau indique simplement que SPSS a conservé les mêmes valeurs que celles
utilisées pour coder les variables, soit 0 pour les individus qui ne sont pas épuisés et 1 pour
ceux qui le sont.
Le tableau suivant illustre les valeurs utilisées pour la variable prédictrice catégorielle.
Puisque nous avons choisi le contraste indicateur, nous conservons également les mêmes
valeurs que pour coder la variable.
Le troisième tableau présente l’historique des itérations pour le modèle de base. Nous
retenons particulièrement la probabilité log (-2LL) initiale. Elle est de 530,107 et représente
la probabilité que nous chercherons à améliorer (réduire) en ajoutant des variables
prédictrices.
Le tableau de classement montre pour sa part que la prédiction en se basant sur la catégorie
la plus fréquente permet de classifier correctement 74,5 % des participants.
Le tableau des variables dans l’équation nous indique la valeur du coefficient b0. Dans notre
cas, il est de – 1,073.
Enfin, le dernier tableau montre les valeurs de la statistique Score pour chaque variable
prédictrice hors de l’équation qui s’apparente aux valeurs de corrélation partielle dans la
régression multiple. Comme elles sont toutes significatives, elles contribueraient donc
probablement toutes à l’amélioration du modèle.
P
Étape 1 : Évaluation de la signification du modèle de régression
Le tableau récapitulatif des modèles fournit les valeurs -2LL pour chaque étape du modèle.
Nous pouvons déterminer si la probabilité – 2LL de chaque étape du modèle est inférieure à
la probabilité – 2LL de base (530,11) et si cette différence est significative, ce qui nous
indiquera si les termes de l’équation logistique finale prédisent mieux la probabilité de vivre
un épuisement professionnel que ne le fait la probabilité initiale observée.
Par exemple, pour l’étape 1, nous pouvons calculer 530,11 – 399,033, ce qui donne 131,74.
Cette valeur est évaluée dans une distribution χ2 et sa signification est présentée dans le
tableau tests de spécification du modèle. Nous constatons que l’étape (soit l’ajout de la
variable adaptation) et le modèle complet sont significatifs. Bien sûr, à l’étape 1, le modèle
ne comprend qu’une variable, donc nécessairement, la valeur χ2 est identique pour les deux
éléments. La ligne bloc ne sera examinée que dans une régression hiérarchique où on
introduirait plus d’une variable (donc un bloc de variables) par étape.
Nous pouvons voir aux étapes suivantes que la ligne «étape» et la ligne «modèle»
n’indiquent pas les mêmes valeurs. La ligne étape montre en effet la différence entre la
probabilité -2LL de l’étape précédente et celle obtenue par l’ajout du nouveau prédicteur.
Nous cherchons à ce qu’à chaque étape, le modèle présente une diminution significative du -
2LL.
À la lumière de ces deux tableaux, nous pouvons dire que le modèle final permet de prédire
significativement mieux la probabilité de vivre un épuisement professionnel que le fait le
modèle incluant seulement la constante.
Nous pouvons ensuite examiner le test de Hosmer-Lemeshow. Celui-ci indique s’il existe un
écart important entre les valeurs prédites et observées. Nous constatons à la lecture du
tableau qu’il existe une différence significative entre les valeurs prédites et observées pour
les étapes 1 à 3, mais que lorsque la 4e variable est introduite, les valeurs prédites et
observées sont cohérentes.
Étape 2 : Évaluation de l'ajustement des données au modèle de régression
Ensuite, il faut évaluer la signification statistique des coefficients estimés des variables
indépendantes conservées afin de s’assurer que chacune contribue à mieux prédire P(y)
qu’un modèle qui ne l’inclurait pas. Pour ce faire, nous nous basons sur la statistique Wald.
Cette dernière illustre la différence dans le modèle avant et après l’ajout de la dernière
variable. On observe qu’à l’étape finale, tous les coefficients sont significatifs, même si
plusieurs variables ont été introduites. On rejette donc pour chaque variable que le
coefficient est égal à 0. Par conséquent, chacune contribue à l’amélioration du modèle.
Le sens des coefficients b et de Exp(b) indiquent le sens de la relation. On constate donc
que la relation est positive pour les variables contrôle, élèves et direction, soit que le faible
sentiment de contrôle et le stress engendré par les élèves et la direction prédisent
l’épuisement professionnel. Par contre, la relation est négative pour la variable adaptation,
c’est donc dire que meilleures sont les stratégies d’adaptation de l’enseignant face au stress,
moins il est probable qu’il vive un épuisement professionnel.
Le tableau suivant permet d’évaluer à chaque étape la présence d’un changement significatif
de la probabilité -2LL lorsqu’une variable est retirée du modèle (la valeur doit être
significative pour que la variable soit conservée).
Le tableau des variables hors de l’équation est aussi produit pour chacune des étapes.
Comme lors du modèle initial, on peut observer que la ligne statistique globale est
significative pour les étapes 1 à 3, donc que l’ajout d’une variable contribuerait à améliorer le
modèle. À chaque étape, la variable qui a été incluse par SPSS est celle ayant la variable
score la plus élevée dans la mesure où elle était significative.
Étape 3 : Évaluation de l’ajustement du modèle final
Nous savons maintenant que le modèle final est significatif et que chacune des variables
indépendantes contribue significativement à mieux prédire P(y) qu’un modèle qui ne les
inclut pas. Nous nous intéressons maintenant à savoir si le modèle est bien ajusté aux
données. Pour ce faire, nous revenons au tableau récapitulatif du modèle pour voir les
valeurs des R2 de Cox et Snell et de Nalgelkerke. Comme le R2 de la régression multiple,
plus la valeur est élevée, mieux le modèle est ajusté aux données. Nous observons que la
valeur augmente pour chaque étape et pouvons conclure que le modèle final est le mieux
ajusté.
Il est également possible de calculer la valeur du Pseudo-R 2 pour obtenir un estimé de la
variabilité expliqué.
0,39 = 530,107-324,710
530,107
Le modèle final prédit donc 39 % de la variance de la probabilité de vivre un épuisement
professionnel.
Étape 4 : Évaluation de la justesse de l’ajustement du modèle
Il est maintenant possible d’examiner si le modèle permet de bien classer les sujets dans
leur groupe d’appartenance à partir de l’équation finale. Nous nous rappelons que le hasard
permettait de classer correctement 74,5 % des participants. Nous voyons que le
pourcentage correct de classification passe de 78,8 % avec une seule variable indépendante
et monte à 83,1 % pour l’étape 3. Il redescend minimalement à 82,9 % pour l’étape 4 où 92,2
% des enseignants non épuisés sont classés correctement, mais que seulement 55,5 % des
épuisés le sont. Selon les résultats précédents, cette amélioration est significative.
Le graphique des probabilités
Nous pouvons finalement examiner le graphique des probabilités. Il faut savoir que si le
modèle était parfait, tous les participants épuisés (É) seraient situés vers la droite alors que
tous ceux non épuisés (N) seraient vers la gauche. Idéalement, le moins d’individus
possibles doivent être situés près du 0,5, puisque si plusieurs points sont près du centre, la
probabilité est de 50/50, soit équivalente au hasard.
Nous constatons que la majorité des N sont à gauche, mais que la répartition des É est
beaucoup plus étendue, ce qui nous confirme les résultats déjà analyses dans le tableau de
classification.
Les résiduels
Finalement, on peut regarder le dernier tableau produit par SPSS, soit la liste des
observations ayant une valeur résiduelle standardisée plus élevée que 2. Toujours dan
l’optique de s’assurer que le modèle est bien ajusté aux données et qu’il prédit efficacement
le groupe d’appartenance, nous conservons toujours les paramètres de la distribution
normale, soit un maximum de
5 % des observations à l’extérieur des limites de ±1,96
1 % des observations à l’extérieur des limites de ±2,58
et nous portons une attention particulière à celle situées à plus 3 écart-types.
Nous constatons que 7 observations sur le total de 467 participants ont des valeurs
résiduelles de plus de 3 écarts-types, ce qui représente 1 % de l’échantillon. Il pourrait donc
être intéressant de réaliser à nouveau l’analyse sans ces participants afin de vérifier si les
coefficients estimés par le modèle varient beaucoup. Si c’était le cas, ces individus
pourraient être considérés comme influençant l’ajustement du modèle.