Cours Add 2020
Cours Add 2020
Année universitaire
2020 / 2021
1
1. Études et recherche en marketing
3
découverte de l'information: décrire, expliquer, prédire, pour améliorer la performance de sa structure.
comparer, etc.
Les études prédictives, quant à elles, ont notamment pour
Les études descriptives ont pour but de créer des structures objet de transformer les données brutes collectées sur les
décrivant les caractéristiques d'une population cible ou caractéristiques comportementales des consommateurs ou
d'un marché. Ce type d’analyse pourrait être utilisé pour des entreprises/marchés pour créer des modèles prédisant
mesurer le niveau de satisfaction d’une certaine clientèle, certaines variables. Il s'agit par exemple de prédire une
le niveau d’ambition des managers, la notoriété d'une probabilité de ré-achat ou au contraire d'interruption de la
marque, etc. Le volet descriptif est l’étape traditionnelle relation. Pour ce semestre 5, nous nous concentrerons
assignée aux études. L’analyse descriptive peut-être principalement sur les deux premiers types d'étude en plus
unidimensionnelle (Chapitre zéro : Décrire les données), des études comparatives (Chapitre 5 : test d’hypothèses)
comme elle pourrait être multidimensionnelle (Chapitre 4 :
Analyse factorielle exploratoire).
2. Données primaires et données
Les études explicatives ont pour objet de transformer des
données brutes en structures ou en modèle mathématique secondaires
expliquant des relations de cause à effet entre deux ou
plusieurs variables. Essayant de comprendre les causes En se basant sur la source des données nous pouvons
directes d'un phénomène, l'approche explicative est distinguer entre données primaires et les données
indispensable, et ce type d'étude peut permettre, par secondaires.
exemple, de vérifier l’existence d’impact du niveau de Les données primaires sont des données qui vont être
motivation sur le rendement, ou de modéliser l'impact des collectées pour la première fois pour répondre à un
dépenses en publicité sur le chiffre d’affaire, etc. (Chapitre problème d’ordre managérial et propre à l'étude. Ces
3 : La régression et l’analyse de la variance). L'approche données brutes doivent être traitées avant de les analyser
explicative est particulièrement utile dans un contexte et de les interpréter. Lors de la collecte de données à travers
d'aide à la prise de décision, où le but est de repérer les une échelle de mesure, certaines précautions aussi bien de
facteurs déterminants sur lesquels le décideur doit reposer forme (Type de questions, ordre, questions contrôle, etc.)
4
que de fond (validité externe, validité discriminante, validité à titre d’exemple).
convergente, etc.) devraient être prises en considération.
- Les occurrences d’une variable quantitative ou
métrique sont des quantités mesurables et pourraient
Les données secondaires par contre, d'accès facile et peu
être continues (par exemple, le chiffre d’affaire d’une
coûteux, sont perçues comme des données à faible valeur
firme) ou discrètes (le nombre d’enfants par ménage
ajoutée. Ces données sont absolument abondantes et
par exemple).
devraient être consultées et examinées avant toute
collecte de données primaires. Les données secondaires
sont soit internes, issues de l'entreprise (données
comptables, reporting, etc.) soit externes (données
gouvernementales tels que les données du haut-
commissariat aux plans, banque mondiale, etc.).
5
Échelle d’intention
L'échelle nominale consiste à codifier les modalités
Si la marque « Y » lançait cette nouvelle application:
d'une variable qualitative nominale en utilisant des
Je n’achèterai 1 2 3 4 5 J’achèterai
nombres comme valeurs.
certainement pas ce Certainement ce
Exemple: Êtes-vous 1. Célibataire 2. produit produit
Marié(e)
L'échelle ordinale est une échelle de classement qui, en 2.2. Modélisation mathématique
affectant des nombres aux modalités, reflète un ordre sous- Le modèle, dans sa forme la plus simple, vise à exprimer une
jacent. relation de causalité entre une variable indépendante et
une autre dépendante.
Exemple: Notez de 1 à 5 votre niveau de satisfaction à
Relation causale simple :
l’égard de la formation X (l : Très mauvais; 2 : Mauvais; 3 :
Moyen; 4: Bon; 5: Très bon).
X Y
L'échelle métrique possède les propriétés des échelles
nominales et ordinales, et les modalités étant séparées par
des espaces équidistants. Pour les mesures d'attitudes par Dans cette relation directe, d'autres variables peuvent
exemple, nous supposons que les intervalles sont intervenir entre la (ou les) variable(s) indépendante(s) et la
équidistants. (ou les) variable(s) dépendante(s) [Théâtre et al. 1999]. Dans
Exemples d’échelles : un premier cas de figure, l'effet de la variable indépendante
Échelle d'Osgood X sur la variable dépendante Y se mesure par l'intermédiaire
Avez-vous trouvé que la qualité du service X était ? d'une troisième variable dite « médiatrice ». La causalité
Mauvaise 1 2 3 4 5 Bonne étudiée entre X et Y résulte du fait que X influence Z qui à
Échelle de Likert son tour influence Y. Dans le second cas, l'intensité et/ou le
La décoration est bien soignée. signe de la relation entre la variable explicative et la
Pas du tout 1 2 3 4 5 Tout à fait d’accord variable à expliquer peut-être influencer par une variable
d’accord modératrice. Si cette variable modératrice est le sexe, nous
essayerons dans certains cas de vérifier la relation entre le
6
nombre de grammes de chocolat mangé et la prise de représenter les différentes facettes du phénomène. Mais,
poids, et cette relation est, dans la majorité des cas contrairement aux instruments multi-items respectant les
influencée par le genre. Dans ce cas, cet effet peut être mis normes de validité et de fiabilité suivant les différentes
en évidence en décomposant notre échantillon en sous- étapes et procédures proposées par Churchill, les
échantillons (les hommes d'un côté, les femmes de l'autre) instruments mono-items de satisfaction proposent des
et en testant l’intensité de la corrélation dans les sous- qualités psychométriques suffisantes [KEKRE et al. ,1995].
groupes.
3.1. L’échelle de mesure2
Pour élaborer une échelle tendant vers l’obtention d’une
mesure parfaite (vraie valeur) tout en réduisant l'erreur
X Y systématique (erreur dépendant de l'instrument de mesure)
X Y
et l'erreur aléatoire (erreur dépendant des circonstances de
Z
Z mesure), Churchill propose certaines étapes à suivre3.
[Evrard et al. 2000]
2 3
Voir le chapitre : Construction d’une échelle de mesure en étude de marché ; Voir le chapitre : Construction d’une échelle de mesure en étude de marché ;
semestre six. semestre six
7
La validité de l’instrument de mesure est vérifiée s’il permet
d'appréhender le mieux possible le phénomène étudié ou
M = V + Es + Ea
mesuré.
M : Mesure obtenue
Il s'agit de répondre à la question suivante: « Mesurons-nous
V : Vraie valeur
Es : Erreur systématique
bien ce que nous cherchons à mesurer ? »
Ea : Erreur aléatoire
La fiabilité fait référence à la régularité de la mesure. Si nous
Dans le cadre des sciences sociales surtout, la mesure idéale mesurons, à plusieurs reprises, et avec le même instrument,
« M » qui correspondrait parfaitement à notre phénomène nous devons avoir le même résultat. Ce problème est
est le plus souvent impossible à atteindre, vu la présence concerné par l'erreur aléatoire. Nous parlons aussi de
d'une erreur systématique dû à titre d’exemple au manque fiabilité de cohérence interne pour les construits comportant
de clarté de l'échelle, à la longueur du questionnaire, etc. plusieurs items.
Ainsi qu’à une erreur aléatoire due aux aléas tels que la
fatigue du répondant, l'humeur, etc.
3.3. Méthodes d'analyse
La qualité de l'instrument de mesure que l’analyste élabore
et met en œuvre doit être vérifiée. La validation d'un L'analyse des données n'est pas une finalité; c’est une clé
questionnaire doit répondre à deux critères principaux: la d’accès à la prise de décisions à partir d'informations déjà
fiabilité et la validité. La fiabilité renvoie à la cohérence existantes, nécessairement fiables et valides. C'est cette
entre les indicateurs censés mesurer le même concept, alors prise de décision qui guidera la stratégie d'analyse et la
que la validité désigne la capacité de l’instrument de modélisation.
mesure à appréhender le phénomène en question.
Le chercheur peut tenir pour acquis que les mesures qu’il a La stratégie d'analyse à son tour, impose l’utilisation de
élaboré dans son questionnaire d’enquête vont refléter différentes techniques. Quelques techniques sont
avec exactitude et assurance la réalité recherchée. Cette indispensables pour l’étude de différences entre les
validité hypothétique peut mettre en doute les résultats variables, d'autres pour la mise en valeur de leur
obtenus et par la suite les décisions prises. En tout cas, il serait dépendance, d'autres encore pour la classification
difficile de croire que ces résultats ne sont pas (supervisée ou non supervisée) ...
8
La majorité de ces analyses se basent sur des hypothèses à
tester.
La stratégie d'analyse à son tour est contrainte par le type
de variables utilisées (quantitatives ou qualitatives).
Généralement, la représentation des types de ces
techniques d'analyse est soit descriptive, explicative,
prédictive, comparative, etc.
9
Économiste (Expert du domaine)
Exprime une théorie sur un phénomène économique
Ex. La demande dépend du prix
ANALYSE
DE
DONNEES
Mathématicien (Modélisation) Statisticien (Estimation)
Propose une formulation Estime les paramètres du
algébrique de la théorie. modèle à partir de données.
Ex. Demande =ß0+ (ß1*prix) + (ß2 *type du bien) Validation statistique.
Ex.: (ß0=2) ; (ß1=12) ; (ß2 =5)
7
CHAPITRE INTRODUCTIF
ETAPES D’UNE ÉTUDE DE MARCHÉ
9
10
Recherche documentaire
11
QUOI TRAITER ?
NON Sondage
α
Q2 : QU’ELLE EST SA TAILLE ? N
Z
ɛ
σ
Q3 : COMMENT CHOISIR LES ELEMENTS .
12
MAINTENANT QUE NOUS AVONS LES ELEMENTS A DECRIRE
COMMENT FAIRE ? ( CHAPITRE 0)
ANALYSE DESCRIPTIVE
Unidimensionnelle
CARACTERISTIQUES DE CARACTERISTIQUES DE CARACTERISTIQUES DE
TENDANCE DISPERTION DISTRIBUTION
CENTRALE
10 11 12
1 1
13
Q4 : NOUS AVONS CALCULER LES INDICATEURS, MAIS
POURQUI FAIRE?
Moyenne m ou µ
Taille n N
++++++
Ecart-type s σ
+++++++++++
+ + + + + + + + +µ + + Variance s2 σ2
++++ ++++++++
++ ++++++++++ Pourcentage p π
++++ +++++ +++
+++++++++ CALCULER
++++++++
ESTIMER ESTIMER
14
LA
REGRESSION
15
L’analyse de la régression est une méthode statistique qui permet d’étudier le type de
relation pouvant exister entre une certaine variable (dépendante) dont on veut
expliquer les valeurs et une ou plusieurs autres variables qui servent à cette
explication (variables indépendantes)
16
MODÈLE ÉCONOMIQUE
ANALYSE EXPLICATIVE
Inférence statistique
Elle consiste alors à effectuer des études sur l’échantillon et
transposer les résultats sur la population.
Cette transposition n’est pas stricte, elle attache toujours
une probabilité aux résultats et aux conclusions émises.
17
17
L’âge du conducteur et le nombre d’accidents d’auto ;
Le volume des ventes et les dépenses en publicité ;
Le nombre d’heures d’études et les résultats aux examens ;
…
Existe-il une relation ou une dépendance entre les variables statistiques?
Cette relation, si elle existe, est-elle linéaire ou non ?
Si une dépendance existe, peut-on la traduire par une équation mathématique ?
La corrélation, si elle existe, est-elle forte ou faible ?
Si l’équation mathématique de la relation entre les variables existe,
comment prévoir les valeurs d’une certaine variable à partir
de la connaissance des valeurs des autres variables ?
- dite multiple si elle permet de prédire les valeurs d’une variable dite
dépendante à partir des valeurs prises par plusieurs autres variables dites
indépendantes Xi).
20
Nombre de pièces
Coût du loyer
Services offerts
(piscine, stationnement intérieur, etc.)
21
Définition : Nous appelons régression linéaire l’ajustement d’une droite au
nuage statistique d’une série de couples de données.
22
Objectif de la représentation graphique du nuage de point
Y f (x)
23
Les différentes étapes d’une étude de régression
1- Spécification du modèle
2- Validation du modèle
3- Estimation des paramètres
4- Test des hypothèses
5- Développement des normes
24
24
Exemple : Nuage de points ou diagramme de dispersion
40
35
y
30
25
20
15
10
5
0
0 2 4 6 8
x
25
LA REGRESSION LINEAIRE VOUS DITES !!!
ERREUR D’ESTIMATION
Y
2000,00
1800,00 x
1600,00
1400,00
1200,00
1000,00
800,00
600,00
400,00
200,00
0,00
0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00
X
26
LA REGRESSION LINEAIRE VOUS DITES !!!
27
La régression linéaire simple
28
Chapitre I : la régression linéaire par une ou un ensemble de variables indépendantes quantitatives.
La régression vise à expliquer, à estimer ou à prédire la valeur d'une
Analyse de données
simple variable à partir des valeurs d’une autre variable explicative. Par exemple,
on peut expliquer le nombre d’SMS envoyé par l'âge du client.
Les différentes étapes d’une régression linéaire sont au nombre de quatre :
Les modèles de régression ont pour objectif d'expliquer la variation d'un
phénomène mesurable par celle d'une ou de plusieurs autres variables, et 1- Spécification du modèle
dans la vie de l'entreprise, nous essayons fréquemment de détecter et L'approche linéaire est inadéquate lorsque la variable dépendante est de
d'analyser les causes de certains phénomènes, comme la variation des ventes nature qualitative. Nous préférerons alors un modèle de régression logistique
par exemple. Différents modèles de régression sont possibles. binaire ou multinomiale lorsque la variable dépendante en comprend plus
La régression linéaire (simple ou multiple) estime les paramètres de de deux modalités. A noter aussi que deux variables peuvent être
l'équation théorique permettant de calculer le niveau de la variable parfaitement liées mais, si leur rapport n'est pas linéaire, le coefficient de
dépendante en fonction des niveaux des variables indépendantes. corrélation n'est pas une statistique adaptée pour mesurer leur association.
1. La corrélation Alors il est recommandé de tracer le diagramme de dispersion pour
soupçonner le type de relation existante entre nos deux variables.
Le coefficient de corrélation de Pearson est une mesure d'association qui
permet d'établir si deux variables mesurées sur le même ensemble
d'observations varient de façon analogue ou non. C’est une mesure de la
force et du sens du lien entre deux variables métriques.
Une corrélation proche de 1 en valeur absolue signifie que deux variables
sont linéairement liées entre elles et peuvent s'expliquer mutuellement.
Exemple de régression logistique
1
par une droite dite empirique, ou b0 et b1 sont respectivement des estimations Nous appelons résidu ou erreur empirique ou écart de prévision ( ei ) la
différence (l’écart vertical) entre la valeur observée yi de y et la valeur
ponctuelles de β0 et β1.
Analyse de données
estimée de y obtenue à partir de la droite de régression, lorsque x= xi.
2- Validation du modèle
La deuxième étape consiste à vérifier le modèle dans sa globalité.
Il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y: 3- Estimation des paramètres
– Le coefficient de détermination de Y en fonction de X Plusieurs méthodes permettent d’estimer notre droite théorique, nous citons
– Le coefficient de corrélation entre X et Y à titre d’exemple : La méthode des moindres carrés et la méthode de la
– La covariance entre X et Y vraisemblance. L’idée de base de la première méthode, qui est la plus précise,
Le coefficient de détermination théorique de Y en fonction de X, noté ρ2 mesure la est de trouver la fonction de la droite qui minimise la somme des carrés des
proportion de la variance de Y qui est expliquée par la variable X au niveau de toute
résidus.
la population. A noter que 0≤ ρ2 ≤1.
En pratique ρ2 est inconnu, car nous ne possédons pas d’information sur toute la
4- Test des hypothèses
population mais seulement sur un échantillon de taille n, alors nous Pour vérifier si l’influence de la variable indépendante est significative, on procède
l’estimerons par la statistique r2.
à un test d’hypothèses sur β 1. Parce que si la β1 = 0 alors peu importe les valeurs de
x, elles n’aura pas d’impact sur y.
Autrement nous allons opter pour une estimation par intervalle de confiance, au
seuil de signification choisit lors de la détermination de la taille de l’échantillon, et
si la valeur 0 appartient à l’intervalle de confiance, nous acceptons l’hypothèse
nulle: β1=0 au niveau de signification α et on conclut qu’il n’existe pas de relation
2
A- Les étapes d’un test z ou t d’hypothèses sur β1 L'indépendance des termes d'erreur est une autre condition de l'analyse de
1. Énoncer les hypothèses H0 et H1.
Analyse de données
régression multiple. Outre l'examen du graphique des résidus peut aussi être
2. Préciser les conditions du test validée par le test de Durbin-Watson, notamment dans le cas de données
La population des erreurs est normale
temporelles.
La variance résiduelle est inconnue
Le niveau de signification
Loi de distribution : normale si le degré de liberté est supérieur à
30 , et une loi de Student si le degré de liberté est inférieur à 30 .
3. Calculer la statistique du test.
4. Trouver la région critique au niveau de signification α.
3
Modèle théorique de régression linéaire simple
y = 0 + 1x +
Équation de la régression linéaire simple (comment l'espérance de y est liée à x)
E(y) = 0 + 1x
Équation estimée de la régression linéaire simple (modèle empirique)
y^ b 0 b 1 x
x = Variable indépendante
= Erreur (d’autres facteurs influencent Y)
ou explicative
théorique aléatoire
29
L'équation estimée de la régression linéaire simple (droite de la régression
estimée, modèle empirique) peut être utilisée pour une estimation ponctuelle
de la valeur moyenne de y pour une valeur particulière de x ou pour prévoir
la valeur ponctuelle de y associée à une valeur particulière de x
y^ b 0 b 1 x
y = Variable dépendante
^y = valeur de prévision de y pour une valeur x;
30
1- Spécification du modèle
Diagramme de dispersion
10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10
Heures d'études
31
Il existe plusieurs méthodes permettant d’estimer le modèle théorique
par le modèle empirique y 0 1 x
ŷ b0 b1 x
Méthode des moindres carrés
Méthode de la vraisemblance
…
32
La méthode des moindres carrés
n
min
i 1
( Y i Yˆi ) 2
33
246
ei
n
min
i 1
( Y i Yˆi ) 2
Heures d’études 5 28 16 39 56 80 75 84 25 64 10 50 50
Bonnes réponses 50 80 17 59 120 270 220 270 80 200 60 120 190
34
34
Définition : nous appelons résidu ou erreur empirique ou écart de prévision, la
valeur ei = yi – ^yi , soit la différence (l’écart vertical) entre la valeur observée yi
et la valeur estimée y^i obtenue à partir de la droite de régression, lorsque x = xi .
n
i 1
ei
L’objectif de la méthode des moindres carrés est de n
35
La méthode des moindres carrés …
n
S C res e 2
1 e 2
2 e 2
3 ... e 2
n
i 1
e i2
Cette mesure donne
l’ordre de grandeur de la
n
y i ˆy i dispersion des
2
S C res observations Yi autour de
i 1
la droite de régression
n
y i b 0 b1 x i
2
S C res
i 1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).
« Dérivée première devrait être égale à zéro. »
36
3- Estimation des paramètres
Taille de l’échantillon
37
À partir des données ci-dessous, déterminez les estimations ponctuelles
des paramètres de la droite de régression selon la méthode des
moindres carrés :
38
39
EXEMPLE
Une entreprise veut mener une étude sur la relation entre les dépenses
hebdomadaires en publicité et le volume de ventes qu’elle réalise. Nous avons
recueilli au cours des dix dernières semaines les données suivantes :
40
Les résultats intermédiaires suivants servent à calculer les estimations ponctuelles
des paramètres de la droite de régression :
41
En appliquant les formules ci-dessous, nous obtenons les valeurs numériques de
b0 et b1
42
La droite de régression qui permet de déterminer le volume moyen des ventes
pour un coût publicitaire donné x.
yˆ 3 3 , 3 1 3 , 9 5 x
Ordonnée à l’origine
(volume de vente moyen Dépenses
sans dépenser aucun dh en en publicité
publicité)
43
Interprétation des résultats et remarques…
44
Rq3 : Pour la valeur x = 3,5 (située entre 1 et 5,5), nous pouvons utiliser la
droite de régression pour calculer la valeur moyenne correspondante de Y.
45
2- Validation du modèle
46
Coefficient de détermination de Y en fonction de X
LE COEFFICIENT DE DETERMINATION.
47
En pratique est inconnu, car nous ne possédons pas d’information sur toute la
population mais seulement sur un échantillon de taille n, alors on estimera par rYX2 .
rYX2 fournit une indication de la force de la liaison possible pouvant exister entre Y et X au niveau de la
population. De plus, c’est un indice de la qualité de l’ajustement de la droite aux points
expérimentaux. 2
n
Rappel: n n yi
( y i y )2 yi2 i 1
i 1 i 1 n
48
Dans quelle mesure l’équation estimée de la régression s’ajuste-t-elle aux données ?
r2 = SCreg/SCT
( yi y
ˆ i )2
SCT = Somme des carrés totale (variation totale)
SCreg = Somme des carrés de la régression (variation expliquée)
SCres = Somme des carrés des résidus
49
50
Calculez rYX2 pour l’exemple d’application des coûts publicitaires et des ventes:
51
v a r ia t io n e x p l iq u é e 298, 008
r2
YX 0,9692
v a r ia t io n t o t a le 307,525
52
Différence entre régression et corrélation ?
53
Le coefficient de corrélation peut être déterminé de la manière suivante (ou
encore en prenant la racine carrée du coefficient de détermination):
1 r XY 1 r XY 0
• On a toujours:
• Si r XY 1 alors il existe une relation linéaire exacte entre X et Y.
• Si r XY 0 alors soit que X et Y sont indépendantes, soit qu’il y a une
dépendance non linéaire entre les deux variables.
• Si r XY 0 ou r XY 1 alors il existe une relation linéaire plus ou
moins forte entre X et Y .
• Le coefficient de corrélation permet de voir s'il est facile d'approcher les
données par une droite.
54
Toujours en utilisant l’exemple numérique de la publicité et les ventes d'autos,
mesurez le degré de dépendance linéaire entre X et Y.
Réponse
Les dépenses en publicité et les ventes varient dans le même sens
55
56
4- Test d’hypothèse ou Validation de
la droite de régression Empirique
Y 0 1X
Si β1 = 0 alors peu importe les valeurs
de X, elles n’auront pas d’impact sur Y
57
Étapes contribuant à la validation de la droite de régression empirique
58
Validation de la droite de régression empirique…
Estimation de la variance des erreurs théoriques
La précision des estimateurs b0 et b1 dépend de la valeur de la variance des erreurs
théoriques : plus sera petite, plus ces estimateurs sont précis.
2
59
Estimation de et
En pratique, les variances et sont inconnues, alors nous les estimons par :
60
Exemple d’application …
Compléter le tableau suivant : 33,31 + 3,95 x 2 = 41,21
61
Estimation de 1 par intervalle de confiance
Si n-2 < 30
Si n-2 ≥ 30
62
D’après les données de l’exemple numérique de la publicité et le volume de ventes
d'autos, construisez un intervalle de confiance pour 1 au niveau 95% :
63
Le test d’hypothèses va nous permettre de vérifier si l’intervalle de confiance de β1 ne
contient pas la valeur zéro.
Deux tests sont couramment utilizes
Test t ou z
Test F ( Fischer)
N.B: les deux tests nécessitent une estimation de se2, la variance des erreurs du modèle de
régression
64
Les étapes d’un test z ou t d’hypothèses sur
H0 : 1 = 0
1. Énoncer les hypothèses H0 et Ha. H1 : 1 ≠ 0
2. Préciser les conditions du test
La normalité de la distribution des erreurs 2 4 6
Le niveau de signification α
2;4 3
La variance résiduelle 2 est théoriquement inconnue 2;6 4
La loi que suit notre variable : 4;6 5
Si n – 2 ≥ 30, nous utilisons (Normale)
b1 1 b
Si n – 2 < 30, nous utilisons t (Student) z 1
s b1 s b1
3. Calculer la statistique de test. b1 1 b
t 1
s b1 s b1
Étape 1
Étape 2
H0 : 1 = 0 n – 2 = 8 < 30, population normale, 2 inconnue
H1 : 1 ≠ 0
Étape 3 Étape 4
b1 1 b 3 , 95 0 t 0 , 025 2 , 306
t 1 15 , 86 ,8
s b1 s b1 0 , 062
66
Déclaration des valeurs
Description de la variable possibles des données
manquantes
le NOM de la variable
maximum 8 caractères).
Décrit le format de la variable
Numérique : Donnée numérique
Chaîne : Donnée alpha-numérique
67
La régression linéaire multiple
68
En analyse explicative simple, nous avons essayé de définir la relation
qui existe entre deux variables statistiques.
Exemples :
*Le nombre d’années d’expérience et le nombre d’erreurs commises ;
*Le volume des ventes et les dépenses en publicité ;
Rappel
69
LA REGRESSION MULTIPLE
Exemple introductif
70
71
71
L’encadré Coefficients
Estimations : Valeurs b pour chaque
VI et son test de signification
Intervalles de confiance : Intervalle
pour chaque coefficient dans la
population,
L’encadré Résidus
Durbin-Watson : Evaluation de
l’indépendance des erreurs
Diagnostic des observations : Indique
quelles observations ont un résiduel
standardisé de plus de 2 ou 3 é.-t.
Les autres statistiques
Qualité de l’ajustement : Fournit le test pour évaluer l’ensemble du modèle (F), le R multiple, le
R2 correspondant et le R2 ajusté ( ANOVA)
Variation de R-deux : Changement du R2 après l’ajout d’un nouveau bloc de VI
Caractéristiques: Moyenne, é.-t. et N pour toutes les variables du modèle.
Mesure et corrélations partielles : Corrélation entre chaque VI et la VD
72
INTERPRETETATION DES RESULTATS OBTENU
Statistiques descriptives
Examinons d’abord les statistiques descriptives. Notre base de données est composée de
19294 clients qui gagnent en moyenne 4712,4855 par mois et dont le taux d’endettement
moyen est de 32,9%. Le montant moyen d’impayé par personne est de l’ordre de près de
3411dhs près.
Statistiques
taux
Impayés brut revenu d'endetement
N Valide 19294 19294 19294
Manquant 0 0 0
Moyenne 3410,97 4712,4855 32,9006
Médiane 1408,52 3571,0000 30,0000
Mode 0 3000,00 39,00
Ecart type 6810,121 4735,79965 29,77650
Asymétrie 8,871 18,714 11,354
Erreur standard d'asymétrie ,018 ,018 ,018
Kurtosis 165,465 930,373 220,614
Erreur standard de Kurtosis ,035 ,035 ,035
73
Corrélations
Impayés taux
brut revenu d'endettement
R 0,70 Relation très forte
Impayés bruts Corrélation de Pearson 1 ,654** ,899** 0,50 R 0,69 Relation forte
Sig. (bilatérale) ,000 ,0000,30 R 0,49 Relation modérée
N 19294 19294 19294 0,10 R 0,29 Relation faible
0,01 R 0,09 Relation très faible
revenu Corrélation de Pearson ,654** 1 ,025**
R = 0,00 Relation nulle
Sig. (bilatérale) ,000 ,000
N 19294 19294 19294
taux d'endetement Corrélation de Pearson ,899** ,025** 1
Sig. (bilatérale) ,000 ,000
N 19294 19294 19294
Le deuxième tableau fournit par SPSS concerne les corrélations entre les
variables étudiées. Nous voyons qu’il y a une très forte corrélation le taux
d’endettement et les impayés bruts (0,899), alors qu’entre le revenu et les
impayés la relation est forte (0,654). Nous devons porter attention aux
relations entre les variables indépendantes. Si la corrélation entre deux de ces
variables se situait à 0,7 (ou – 0,7), il y aurait un risque important de multi-
colinéarité. Nous aurions introduit deux variables qui mesuraient
sensiblement la même chose pour prédire le montant de l’impayé. Dans notre
cas la relation entre le revenu et le taux d’endettement la relation est très
faible (0,025).
74
Étape 1 : Évaluation de la pertinence du
modèle de régression
75
Analyse de variance
76
ANOVAa
77
Étape 2 : Évaluation de l'ajustement du modèle
de régression aux données
RÉCAP. 78
Récapitulatif des modèles
Erreur standard de
Modèle R R-deux R-deux ajusté l'estimation
1
,900a ,810 ,064 6588,587
79
Étape 3 : Évaluation de la performance
du modèle de régression
Le tableau permet également d’évaluer la performance du modèle
en termes de proportion de la variance expliquée par la
combinaison des variables indépendantes avec le calcul de la valeur
de R². rappelons que la valeur du R², lorsqu’elle est multipliée par
100, indique le pourcentage de variabilité de Y expliquée par le
modèle (la combinaison de tous les prédicteurs)..
Erreur standard de
Modèle R R-deux R-deux ajusté l'estimation
1
,900a ,810 ,064 6588,587
80
Étape 4 : Estimation des paramètres
du modèle
Maintenant que nous savons que notre modèle est significatif, il est possible
de construire l’équation de régression pour prédire une valeur de l’impayé
brut. L’équation de base était la suivante : Ý = b 0 + b 1X1 + b 2X2 + b3X 3
81
L’erreur standard nous renseigne sur la variabilité du coefficient dans la
population. Elle permet également d’indiquer si le coefficient est significatif. La
signification de t nous permet de répondre à la question «est-ce que Bêta est
différent de 0 ? »
Coefficients
Coefficients non standardisés Coefficients standardisés
Erreur
Modèle B standard Bêta t Sig.
1 (Constante) 1083,548 84,276 12,857 ,000
revenu ,328 ,010 ,228 32,779 ,000
taux d'endetement 23,700 1,594 ,104 14,873 ,000
82
La valeur du Beta standardisé (β) apporte aussi une information
intéressante en plus d’indiquer le sens de la relation (+/-) et le poids relatif
de la variable dans le modèle.
Elle indique le changement en écart-type de la VD pour chaque
augmentation d’un écart-type de la VI quand toutes les autres valeurs sont
constantes.
83
Un autre tableau présente également la valeur des corrélations et
des corrélations partielles. Ce sont ces valeurs sur lesquelles se base
SPSS lorsqu’il choisit d’introduire des variables lorsque nous
sélectionnons une méthode progressive. La première variable est
choisie à partir de la corrélation simple la plus forte. Le choix des
variables suivantes est par contre basé sur la corrélation partielle,
c'est-à-dire la plus forte corrélation entre les variables toujours
disponibles et la partie de variance qui reste à expliquer une fois
que l’on a retiré ce qui est expliqué par la première VI.
84
Finalement, la valeur VIF (ou la tolérance qui est l’inverse du
VIF ) permet de vérifier la prémisse de multi-colinéarité. Nous
cherchons à obtenir une valeur VIF près de 1. Si elle est de 10,
c’est problématique. Inversement, si la valeur de la tolérance est
équivalente à 0,1, il y a un problème sérieux de colinéarité dans
le modèle. Probablement que les corrélations entre deux variables
indépendantes ou plus sont trop élevées.
85
Le diagnostic des observations et la vérification des prémisses
Ce dernier tableau nous renseigne sur la présence de valeurs extrêmes qui
influenceraient le modèle, notamment sur la qualité de l’ajustement des
données. Les valeurs extrêmes font varier les coefficients b et sont mal
prédites par le modèle. Ces valeurs produisent une valeur résiduelle
importante. Comme nous avons vu précédemment dans le rappel
théorique, nous ne voulons aucune valeur résiduelle standardisée de plus de
3,29 (ou de moins de -3,29), pas plus de 1 % de l’échantillon ayant une
valeur de plus de 2,58 (ou de moins de -2,58) ainsi que pas plus de 5 %
des observations ayant une valeur de plus de 1,96 (ou de moins de –
1,96).
86
87
En examinant le diagnostic des observations, nous constatons que 7 individus ont
des salaires de plus de 83 750 dhs. Ils s’écartent vraiment des valeurs moyennes,
car la valeur résiduelle standardisée pour chacun est de plus de 3 écart-types. Les
employés gagnant plus de 100 000 dhs annuellement présentent un problème
majeur. Il serait probablement judicieux de refaire l’analyse en excluant ces hauts
salariés et de vérifier la variation des coefficients.
88
88
PIC
Nous pouvons confirmer avec le test de
normalité de Shapiro-Wilks ou de Kolmogorov-
Smirnov. Ces tests sont disponibles dans les
options de la procédure Explorer, Cochez
«Graphes de répartition gaussiens avec tests».
Les deux tests sont significatifs. Nous devons
donc rejeter l'hypothèse nulle de normalité de la
distribution. Encore une fois, nous constatons
qu'il pourrait être judicieux de retirer les valeurs
extrêmes de l’analyse.
89
Toutes les options disponibles dans ce menu permettent de créer des
nouvelles variables ayant les valeurs calculées par le modèle. Il
s’agit donc de choisir les variables diagnostiques permettant
d’évaluer la qualité du modèle et celles qui permettent de détecter
les variables ayant une importante influence sur le modèle. Nous
choisirons donc minimalement les résidus standardisés, mais on
peut également ajouter les prévisions non standardisées et/ou
standardisées ainsi que la distance de Cook et les DfBêta(s)
standardisés. Notez qu’en cochant des options dans la boite de
dialogue Enregistrer, vous allez obtenir un tableau de résultats de
plus portant sur les statistiques des résidus et comprenant
minimalement la moyenne, l’écart-type, les valeurs minimales et
maximales ainsi que le N.
90
La dernière fenêtre, obtenu depuis le bouton « option » vous permet de
déterminer les paramètres de sélection des méthodes progressives. Vous
identifiez la probabilité ou la valeur de F pour introduire ou retirer des
variables. Idéalement, vous conservez les valeurs par défaut à moins que
vous ne vouliez que votre modèle soit plus sévère.
91
91
Finalement, nous pouvons tout de même jeter un coup d’œil aux prémisses
d’homsédasticité et de linéarité avec le graphique de dispersion. Pour la
première prémisse, les points doivent être répartis aléatoirement autour de
0 (ne pas former d’entonnoir), ce qui semble le cas ici, bien que les points
soient répartis en colonnes. Pour la deuxième, nous voulons éviter que
l’agglomération de points suive une courbe. Cette prémisse semble aussi
respectée. Nous respectons donc la plupart des prémisses, le modèle est donc
probablement valide, mais gagnerait certainement en précision en
éliminant les valeurs extrêmes.
92
92
Test d’association
93
ANALYSES BIVARIÉE
Les descriptions faites sur les variables soulèvent toute une série de
questions sur leurs relations, qui devront être mises en lumière en les
rapprochant deux à deux dans des analyses bivariée. Les tris croisés, par
exemple, permettent d'examiner les relations entre deux ou plusieurs
variables. Ces relations peuvent être symétriques - l'analyse cherche à
mesurer la liaison entre les deux variables et à en tester la signification -
, ou dissymétriques - l'analyse cherche à expliquer les variations d'une
variable dépendante par les variations d'une variable indépendante. Ce
dernier cas appelle des méthodes explicatives (ANOVA, régression, etc.)
94
94
1. TRIS CROISÉS
95
95
Tests et mesures d'association
de deux variables à caractère qualitatif
96
Test d'indépendance : Le test de Khi-deux
97
PRINCIPE DU TEST
Le principe est de comparer la distribution observée (Oij)' c'est-à-dire les
effectifs que l'on peut lire dans le tableau croisé, à une distribution
théorique (Tij) qui correspond à l'hypothèse selon laquelle les deux
variables sont indépendantes. Normalement, si les variables étaient
indépendantes, l'effectif observé ne devrait dépendre que des effectifs
marginaux, c'est-à-dire de l'effectif total de chaque modalité.
98
98
EXEMPLE DE CALCUL DE LA « DISTRIBUTION THÉORIQUE (TIJ) »
200
Hommes
400
Femmes
99
99
TAF: CALCULER LES FRÉQUENCES THÉORIQUES
Possèdent Possèdent pas Total
une carte de carte fidélité
fidélité
250 750 1 000
Hommes
100
La statistique 2
2
r c O ij Tij
2
i 1 j 1 Tij
Où:
i = numéro de la ligne;
j = numéro de la colonne;
r = nombre de lignes, c'est-à-dire le nombre de modalités de la variable présentée en
lignes;
c = nombre de colonnes, c'est-à-dire le nombre de modalités de la variable présentée en
colonnes.
101
101
r c O Tij
2
Tij
Reprenons le même exemple des clients fidèle sachant que les données collectées auprès de
l’échantillon sont les suivantes:
T O T O
2 220 250 780 750 180 150 420 450
2
2
2
2
12,8 102
250 750 150 450 102
Procédure de test
103
103
La loi du 2 suit une distribution asymétrique dont la forme dépend
du nombre de degrés de liberté n. Le nombre de degrés de liberté varie
en fonction du nombre de modalités des variables et se calcule de la
manière suivante: (r-1)(c -1).
dl=1
dl=2
dl=3
dl=5
104
EXTRAIT DE LA LOI DU KHI-DEUX
ddl \ α 0.01 0.02 0.05 0.1 0.15 0.2
2 220 250 780 750 180 150 420 450
2
2
2
2
12,8
250 750 150 450 105
105
Pour notre exemple nous rejetons l'hypothèse nulle d'indépendance
entre les variables puisque 2 calculé est supérieur à la valeur de
référence du 2 se trouvant dans la table de khi-Deux pour 1
degrés de liberté (en lignes dans la table) et pour un (niveau de
risque fixé généralement à 5).
106
Les logiciels statistiques, dont SPSS, donnent une signification ou p-
value, s'interprétant comme le niveau risque de se tromper en rejetant
H0 . Ainsi, si elle est inférieure à 5 %, on rejette l'hypothèse
d'indépendance entre les deux variables, qui sont alors
significativement associées.
Il est important de noter que ce test est assez sensible à la taille de
l'échantillon, à la taille du tableau croisé et que, normalement,
chaque case du tableau devrait avoir un effectif théorique au moins
égal à cinq. Si l'on cherche à établir le profil des clients les plus
fidèles en croisant le statut marital et la possession d'une carte de
fidélité, par exemple, le test du khi-deux permettra de définir si ces
deux variables sont indépendantes.
107
108
109
Puisque la signification du
test de Khi-Deux est
inférieure au seuil classique
5% nous rejetons l’hypothèse
nulle indépendance du
statut marital et de la
possession d’une carte
fidélité.
110
Nous avons créé un tableau croisé dans SPSS selon la procédure
présentée plus haut et sélectionné le test du khi-deux dans le menu
Statistiques de la boîte de dialogue Tableaux croisés. La valeur du t est à
la fois élevée et supérieure à la valeur critique correspondant au seuil de
signification statistique de 0,05 (nous obtenons 0,035). Ce résultat nous
permet de rejeter l'hypothèse nulle (<< Marital et carte sont
indépendantes ») et de conclure qu'il existe bien une relation entre le
statut marital et la possession d'une carte de fidélité dans la population
observée.
111
Indicateurs mesurant la force de l'association
115
ANALYSE FACTORIELLE EXPLORATOIRE
116
ANALYSE FACTORIELLE EXPORATOIRE
117
Simplification de données
118
1 - Principes de validation d'une échelle de
mesure (Etude de marché)
119
Les utilisations de l'analyse factorielle
L'analyse factorielle fait ressortir les dimensions sous-
jacentes en regroupant différentes variables. Une fois
interprétés, ces regroupements décrivent les données de
manière synthétique.
120
Les conditions et options de l'analyse
factorielle
121
B- L’adéquation des données
Avant de réaliser l'analyse, il est important de s'assurer
que les données sont factorisables. Elles doivent former un
ensemble cohérent pour pouvoir y chercher des dimensions
communes qui aient un sens (Evrard et al., 2009).
Plusieurs indicateurs peuvent être utilisés, notamment:
La « Measure of Sampling Adequacy » (MSA) ou
Kaiser- Meyer-Olkin (KMO) teste si les corrélations
partielles entre les variables ne sont pas trop faibles.
Des valeurs de KMO comprises entre 0,3 et 0,7
représentent des solutions factorielles tout juste
acceptables. Il est préférable que le KMO dépasse le
seuil de 0,7.
Le test de Sphéricité de Bartlett est assez peu utile.
122
C- Le critère du pourcentage de variance:
124
La méthode d'extraction utilisée
125
125
La rotation permet d'identifier des groupes de
variables fortement liés les uns aux autres. En faisant
tourner le système d'axe, la rotation minimise la distance
entre les variables et les axes de telle sorte que chaque item
initial ne soit fortement corrélé qu'à un seul facteur.
Lorsque les axes sont maintenus à 90 degrés, on
parle de rotation orthogonale; lorsque les axes ne sont
pas contraints à être indépendants, c'est-àdire non corrélés
entre eux, on parle de rotation oblique. À noter que dans la
solution factorielle obtenue sans rotation, les axes sont
orthogonaux, c'est-à-dire que les composantes principales
partagent une corrélation nulle.
126
126
Il existe plusieurs méthodes de rotation:
Varimax: (méthode la plus courante) rotation
orthogonale qui minimise le nombre de variables ayant de fortes
corrélations sur chaque facteur. Simplifie l'interprétation des
facteurs .
Oblimin direct: Rotation oblique, c'est-à-dire dans
laquelle les axes se positionnent en fonction des items et ne sont
donc pas orthogonaux.
Quartimax: Méthode qui minimise le nombre de
facteurs requis pour expliquer chaque variable. Simplifie
l'interprétation des variables observées.
Equamax : Méthode de rotation qui minimise à la fois le
nombre de variables qui pèsent fortement sur un facteur et le
nombre de facteurs requis pour expliquer une variable.
(combinaison des méthodes Varimax et
Quartimax)
127
Résumé : RLS
indépendante.
Exemple : Variable dépendante : Rendement
Variable indépendante : Motivation.
Si R2 est égale à 0,76 veut dire que 76% de la variance du rendement est expliquée par la variance de la motivation.
1- La spécification du modèle consistant à tracer le nuage de point - dit encore diagramme de dispersion - et à soupçonner l’existence et le
type de la relation entre les deux variables.
Procédure sous SPSS : Analyse – Régression – Ajustement de fonction.
2- La validation du modèle se fait à travers plusieurs indicateurs et nous retenons l’analyse de la variance(ANOVA)
Règle de décision : Si la signification de l’ANOVA est inférieure au seuil choisi (α) nous acceptons le modèle, autrement nous confirmons
l’existence de relation entre la variable à expliquer et la variable explicative.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Qualité de l’ajustement.
N.B : Dans le cas de la régression linéaire simple, la signification de la variable explicative et la signification de l’ANOVA sont égales.
1
Pr. BOULAHOUAL Adil
Récapitulatif des modèles
Exercice d’application : Voulons vérifier l’impact du revenu sur le Modèle R R-deux R-deux ajusté Erreur standard de
rendement au seuil de confiance de 95% nous avons opté pour une régression
l'estimation
linéaire simple entre ces deux variables et nous avons obtenu les tableaux
suivants : 1 ,837a ,700 ,691 186,174
a. Valeurs prédites : (constantes), REVENU
Total 3701668,235 33
a. Variable dépendante : RENDEMENT
b. Valeurs prédites : (constantes), REVENU
Le modèle linéaire exprimant le rendement en fonction de la constante et du revenu doit être retenu puisque la signification de l’ANOVA
(0,000) est largement inferieur au seuil de signification fixé au départ (0,05).
a
Coefficients
Statistiques
Modèle Coefficients non standardisés Coefficients t Sig. 95,0% % intervalles de confiance pour B
RENDEMENT REVENU
standardisés
2
d’auto-corrélation est recommandé. Pour vérifier la normalité de distribution des termes d’erreurs ; la signification du test de Kolmogrov-
Smirnov ou selui de Shapiro-Wilks doivent être supérieures au seuil choisi.
Procédure sous SPPS : Analyse – Régression – Linéaire – Diagramme ( Y : ZRESID ; X : ZPRED) - Graphes de répartition gaussiens avec tests
- résidus standardisés. Pour l’homoscédasticité les points doivent être répartis aléatoirement autour de 0 (ne pas former d’entonnoir) et
leur agglomération ne suit pas une courbe.
Cas possibles :
1- Le seuil de l’ANOVA α avec respect des prémisses: Rejeter le modèle;
2- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi, nous les gardons dans le modèle
avec possibilité d’amélioration si leurs significations sont supérieures à la signification de l’ANOVA;
3- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi sauf une nous la retirons de notre
modèle ;
4- Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons vérifier si
elles sont corrélées (présence de colinéarité). Si elles ne le sont pas nous les retirerons de notre modèle, si elles le sont, soit nous
éliminerons une d’elles soit nous les remplacerons par leur moyenne. Nous retenons le modèle qui expliquerait la plus grande part
de la variance de variable dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations
inférieures à α ;
5- Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes nous les
remplacerons par une variable qui les représente ( facteur, score, moyenne, etc,) si elles sont corrélées sinon nous les supprimons.
N.B : Il ne faut pas oublier de vérifier les prémisses pour que le modèle soit opérationnel.
1er cas : Seuil de l’ANOVA α : Rejeter le modèle et retourner à la table à dessin pour construire et tester un autre modèle.
ANOVAa
Modèle Somme des carrés ddl Moyenne des carrés D Sig.
Régression ,559 2 ,280 ,059 ,944b
<1 Résidu 9,441 2 4,720 La signification de l’ANOVA ( La probabilité de se
Total 10,000 4 tromper en acceptant la relation linéaire entre le montant
a. Variable dépendante : Montat.de.la.facture de la facture d’un côté et le Revenu et le nombre d’enfants
b. Valeurs prédites : (constantes), nombre d’enfants, Revenu d’un autre) est de 94,4% !!! Le modèle est rejeté d’office.
2ème cas : Le modèle est admis dans sa globalité et toutes NB : La signification de l’ANOVA ne devrait en aucun
les variables
explicatives ont des significations inférieures au seuil choisi : cas être supérieure à 50%.
2
Résumé : RLM
1- La validation du modèle
Règle de décision : Si la signification de l’ANOVA est inférieure au seuil choisi (α) nous acceptons le modèle dans sa globalité, autrement,
nous confirmons l’existence de relation entre la variable à expliquer et au moins une des variables explicatives.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Qualité de l’ajustement
N.B : Dans le cas de la régression linéaire multiple, même si la signification de l’ANOVA est inférieure au seuil choisi, celà ne veut pas
dire que toutes les variables dans le modèle sont explicatives. Alors il faut vérifier la signification de chaque variable indépendante.
2- L’estimation des paramètres β0, β1 , β3 , β4 ….. βn : Autrement calculer la b0, b1 , b2 , b1....... bn
Deux types d'estimations existent : Des estimations ponctuelles et d’autres par intervalle de confiance.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Estimation –Intervalle de confiance.
N.B : Pour le modèle linéaire multiple, même s’il est validé par l’analyse de la variance nous devons tester les hypothèses. Mentionnons
que si l’intervalle de confiance de la β0 contient la valeur zéro(0) ceci n’influence en aucun cas l’existence de relation entre la variable
explicative et expliquée, autrement la fonction Y= β0+ β1x1 + β2x2 + β3x3 + β4x4 +……βnxn deviendrait Y= β1x1 + β2x2 + β3x3 + β4x4 +… βnxn.
Par contre si les intervalles des βi contiennent la valeur zéro la fonction s’écrirait y= β0 ce qui veut dire qu’il n’existe pas de lien entre les
variables Xi et la Y.
3- Vérification des prémisses de la régression linéaire
Remarque : Parfois, la signification de l’ANOVA est inférieure au seuil choisi mais les significations des variables indépendantes sont
presque toutes supérieures à la signification de l’ANOVA ce qui est contradictoire. Là, avant la vérification des prémisses de la régression
linéaire, il faut tester la colinéarité ou la multi-colinéarité, autrement s’assurer de l’indépendance des variables explicatives.
La valeur du facteur d’inflation de la variance « VIF » (ou la tolérance qui est l’inverse du VIF (1/VIF)) permet de vérifier la prémisse de
multi-colinéarité. Une valeur VIF proche de 1 est souhaitable. Si elle est égale à dix (10) il y à un problème sérieux de colinéarité.
Si la corrélation entre deux de ces variables se situait à 0,9 (ou – 0,9) nous aurions introduit deux variables qui mesuraient sensiblement
la même chose.
Solutions : Lorsque nous avons deux variables indépendantes fortement corrélées nous devons éliminer une des deux variables ou les
remplacer par une variable qui les représente et choisir le modèle qui arriverait à expliquer la plus grande part de la variance de notre
variable dépendante. Par contre lorsque plusieurs variables indépendantes sont corrélées nous serons dans l’obligation de faire appel
à l’ACP (Analyse en composantes multiples) pour les regrouper puis les remplacer une variable qui les représente ( plusieurs solution sont
envisageables : facteur, moyenne, sommation, etc.) Attention, ce ne sont que des procédures automatiques. Il faut les voir comme des scénarios que nous soumettons
(faire valider) à l’expertise du domaine.
Plus la valeur de la statistique de Durbin-Watson est près de deux (2), moins il y a de problème au niveau de l’indépendance des termes
d’erreurs. Pour une interprétation plus précise se référer à la table de Durbin-Watson, puis un corrélogramme pour compléter l’analyse
1
d’auto-corrélation est recommandé. Pour vérifier la normalité de distribution des termes d’erreurs ; la signification du test de Kolmogrov-
Smirnov ou selui de Shapiro-Wilks doivent être supérieures au seuil choisi.
Procédure sous SPPS : Analyse – Régression – Linéaire – Diagramme ( Y : ZRESID ; X : ZPRED) - Graphes de répartition gaussiens avec tests
- résidus standardisés. Pour l’homoscédasticité les points doivent être répartis aléatoirement autour de 0 (ne pas former d’entonnoir) et
leur agglomération ne suit pas une courbe.
Cas possibles :
1- Le seuil de l’ANOVA α avec respect des prémisses: Rejeter le modèle;
2- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi, nous les gardons dans le modèle
avec possibilité d’amélioration si leurs significations sont supérieures à la signification de l’ANOVA;
3- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi sauf une nous la retirons de notre
modèle ;
4- Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons vérifier si
elles sont corrélées (présence de colinéarité). Si elles ne le sont pas nous les retirerons de notre modèle, si elles le sont, soit nous
éliminerons une d’elles soit nous les remplacerons par leur moyenne. Nous retenons le modèle qui expliquerait la plus grande part
de la variance de variable dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations
inférieures à α ;
5- Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes nous les
remplacerons par une variable qui les représente ( facteur, score, moyenne, etc,) si elles sont corrélées sinon nous les supprimons.
N.B : Il ne faut pas oublier de vérifier les prémisses pour que le modèle soit opérationnel.
1er cas : Seuil de l’ANOVA α : Rejeter le modèle et retourner à la table à dessin pour construire et tester un autre modèle.
ANOVAa
Modèle Somme des carrés ddl Moyenne des carrés D Sig.
Régression ,559 2 ,280 ,059 ,944b
<1 Résidu 9,441 2 4,720 La signification de l’ANOVA ( La probabilité de se
Total 10,000 4 tromper en acceptant la relation linéaire entre le montant
a. Variable dépendante : Montat.de.la.facture de la facture d’un côté et le Revenu et le nombre d’enfants
b. Valeurs prédites : (constantes), nombre d’enfants, Revenu d’un autre) est de 94,4% !!! Le modèle est rejeté d’office.
2ème cas : Le modèle est admis dans sa globalité et toutes NB : La signification de l’ANOVA ne devrait en aucun
les variables
explicatives ont des significations inférieures au seuil choisi : cas être supérieure à 50%.
2
ANOVAa Coefficientsa
Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle Coefficients non Coefficients t Sig.
Régression 37793146,076 2 18896573,038 68,3542 ,000b standardisés standardisés
A Erreur Bêta
1 Résidu 85699,8042 31 2764,509
standard
Total 38650144,118 33 (Constante) 1340,800 81,000 13,916 ,000
a. Variable dépendante : Rendement -
b. Valeurs prédites : (constantes), malaise personnel, congés, moyenne Malaise personnel 15,198 -,229 -6,568 ,000
1 90,151
CONGéS 13,324 1,472 1,109 11,766 ,000
MOYNNE.MOT.AMBIT 1,727 ,315 1,133 5,485 ,032
a. Variable dépendante : Rendement
3èmecas : Le modèle est admis dans sa globalité et toutes les variables explicatives ont des significations inferieurs au seuil choisi
sauf une : IL FAUT LA RETIRER ET REFAIRE L’ANALYSE.
ANOVA Coefficients
Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle Coefficients non Coefficients t Sig.
Régression 37637408,077 2 18818704,038 576,043 ,000b standardisés standardisés
A Erreur standard Bêta
Résidu 1012736,041 31 32668,905
1
(Constante) 1366,839 94,641 14,442 ,000
Total 38650144,118 33 1 MOTIVATION 674,274 22,523 -,242 -7,738 ,000
a. Variable dépendante : RENDEMENT b. Valeurs prédites : Constante, Mtivation, Primes 16,398 ,488 1,049 33,586 ,000
primes
a. Variable dépendante : RENDEMENT
La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique 5%) donc le modèle est admis dans sa globalité au niveau de confiance de 95% mais il faut
vérifier les significations des prédictuers. Puisque toutes les significations sont ≤ 5%, il faut alors juste vérifier les prémisses de la régression linéaire.
Le rendement = 1366,839 + 174,274*MOTIVATION + 16,398*Primes
4èmecas Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons
vérifier si elles sont corrélées (présence de colinéarité).
3
Le modèle est admis mais certaines variables ont des significations supérieures au seuil choisi. Tableau ci-après. Nous soupçonnons
l’existence de multi-colinéarité entre celles-ci. Alors nous devons calculer le coefficient de corrélation, le VIF, ou la tolérance pour
vérifier ce constat.
Si la MOTIVATION et l’AMBITION ne sont pas corrélées nous devons les retirer et estimer les paramètres retenus dès le début.
Si par contre nous constatons une forte relation entre MOTIVATION et l’AMBITION, soit nous éliminerons LA MOTIVATION soit l’AMBITION,
La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique ) donc le modèle est admis dans sa globalité au niveau de confiance de 95 % ainsi que les signification des
variables indépendantes. Il faut vérifier les prémisses de la régression linéaire.
MOTIVATION+AMBITION
Le rendement = 1340,800 - 90,151*malaise personnel + 13,324*Congés+ 1,727* ( )
2
ou encore nous les remplacerons par leur moyenne et nous retenons le modèle qui expliquerait la plus grande part de la variance de
variable dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations inférieures à α.
5èmecas Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes.
Nous les remplacerons par une variable qui les représente ( facteur, score, moyenne, etc,) si elles sont corrélées, sinon nous les
supprimerons.
4