0% ont trouvé ce document utile (0 vote)
106 vues145 pages

Cours Add 2020

Transféré par

Rihab Sououd
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
106 vues145 pages

Cours Add 2020

Transféré par

Rihab Sououd
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Hassan II Mohammedia – Casablanca

Ecole Nationale de Commerce et de Gestion


‫المدرسة الوطنية للتجارة والتسيير الدار البيضاء‬

Chapitre introductif aux


analyses de données et aux
études de marché.

Pr. BOULAHOUAL Adil

Année universitaire
2020 / 2021

1
1. Études et recherche en marketing

D e nos jours, l’utilisation des méthodes d’analyse


des données couvre différents domaines.
Le domaine de la météorologie et son nombre
étendu de données fut la source de motivation
pour le développement des méthodes d’analyse de
données ; ceci dit, tout domaine scientifique ou industriel,
Les études et les recherches ont pour finalité d'aider les
structures à prendre les décisions adéquates et à résoudre
certains problèmes spécifiques. L’objectif étant la prise en
considération de toutes les circonstances et de toutes les
variables en relation avec l’entreprise pour développer des
instruments de mesure, collecter et analyser les données,
contraint de gérer une multitude de données variées, a interpréter les résultats et ainsi prendre de bonnes décisions.
recours à ces approches. Ces dernières couvrent aussi le
traitement des signaux et des images (utilisées comme 1.1. La démarche d'étude
prétraitements et vus comme filtres). L’ingénierie La première étape de la démarche d'étude est
mécanique peut être aussi considérée comme champ l'identification du problème managérial : l’objectif de
d’application, puisque ces approches permettent de l'étude.
générer des informations indispensables sans passer par des Une bonne formulation des hypothèses permettrait de
modèles complexes. définir la forme que prendrait la collecte des données et
guidera l'analyste à choisir la technique à adopter pour
passer des données brutes aux données riches en
Les bonnes décisions managériales sont celles qui sont
informations.
fondées sur des informations fiables et valides. La
sophistication des données de panel ainsi que la montée en
1.2. Les techniques d'études
puissance du data mining ont favorisé l'apparition d'une
Les études qualitatives associées à une étude
information marketing de grande qualité et d'analyses
quantitative visent à compléter des connaissances ou des
explicatives et prédictives des comportements. A travers ce
informations, à explorer une piste de recherche, à émettre
chapitre introductif, nous allons présenter les familles
des hypothèses, à mieux connaître le vocabulaire utilisé par
d'études de marchés et nous allons éclaircir certaines
la population interrogée, etc. Si l'étude qualitative est
notions de base concernant l'analyse de données.
2
lancée avant l'étude quantitative, elle peut aider à propos), semi directif (intervention et thèmes), directif
l'élaboration de la méthodologie: population à interroger, (guide d'entretien strict, questions ouvertes), associatif ou
mode d'administration du questionnaire, formulation des projectif (analogie, associations de mots, compléments de
questions, etc. Certes, les études quantitatives dominent phrases, jeux de rôle, etc.).
largement le marché des études, mais, dernièrement, les La réunion de groupe est une étude qualitative libre et non
départements marketing ont manifesté un intérêt croissant structurée d'un groupe de 8 à 12 participants, conduite par
pour les études qualitatives. un animateur. La discussion libre repose sur les phénomènes
de psychologie collective des groupes restreints.1
L'offre des instituts se structure généralement autour des En effet, les études qualitatives sont utilisées dans une
outils suivants: logique essentiellement exploratoire. Et même si elles ne
L'étude ad hoc est une étude quantitative ou qualitative permettent pas de généraliser les résultats, elles permettent
réalisée pour le compte d'un seul client. d'étudier de manière approfondie les phénomènes étudiés
L'étude omnibus est une étude quantitative réalisée à date et ce, à travers la recherche documentaire et les entretiens.
régulière et le questionnaire utilisé regroupe l'ensemble des Les études qualitatives sont souvent considérées comme un
questions de différents souscripteurs. préalable à l'étude quantitative.
Le baromètre est réalisé à date fixe comme l'omnibus, mais Les techniques quantitatives, auxquelles ce module
le questionnaire ne change pas d'une étude à l'autre, et (analyse des données) est essentiellement consacré,
pour le compte d'un ou de plusieurs clients. consistent à mesurer, à quantifier et à généraliser les
Le panel est une enquête approfondie réalisée résultats à partir d'un échantillon. Ce type d'étude repose
périodiquement sur les mêmes clients. S'appuie sur des généralement sur un grand nombre d'observations. Ces
échantillons importants de 2 000 à dernières peuvent être structurées (valeurs numériques,
10 000 individus. échelles ou valeurs nominales) ou non structurées (discours,
Le marché-test est une étude quantitative visant à prévoir texte libre/questions ouvertes, etc.).
les ventes et les parts de marché d'un nouveau produit.
L'entretien individuel a pour objectif de recueillir le discours Plus précisément, plusieurs types d'études quantitatives
individuel. Nous distinguons l'entretien non directif (libre peuvent être distingués, en fonction du contexte de la

1Travaux de Kurt Lewin.

3
découverte de l'information: décrire, expliquer, prédire, pour améliorer la performance de sa structure.
comparer, etc.
Les études prédictives, quant à elles, ont notamment pour
Les études descriptives ont pour but de créer des structures objet de transformer les données brutes collectées sur les
décrivant les caractéristiques d'une population cible ou caractéristiques comportementales des consommateurs ou
d'un marché. Ce type d’analyse pourrait être utilisé pour des entreprises/marchés pour créer des modèles prédisant
mesurer le niveau de satisfaction d’une certaine clientèle, certaines variables. Il s'agit par exemple de prédire une
le niveau d’ambition des managers, la notoriété d'une probabilité de ré-achat ou au contraire d'interruption de la
marque, etc. Le volet descriptif est l’étape traditionnelle relation. Pour ce semestre 5, nous nous concentrerons
assignée aux études. L’analyse descriptive peut-être principalement sur les deux premiers types d'étude en plus
unidimensionnelle (Chapitre zéro : Décrire les données), des études comparatives (Chapitre 5 : test d’hypothèses)
comme elle pourrait être multidimensionnelle (Chapitre 4 :
Analyse factorielle exploratoire).
2. Données primaires et données
Les études explicatives ont pour objet de transformer des
données brutes en structures ou en modèle mathématique secondaires
expliquant des relations de cause à effet entre deux ou
plusieurs variables. Essayant de comprendre les causes En se basant sur la source des données nous pouvons
directes d'un phénomène, l'approche explicative est distinguer entre données primaires et les données
indispensable, et ce type d'étude peut permettre, par secondaires.
exemple, de vérifier l’existence d’impact du niveau de Les données primaires sont des données qui vont être
motivation sur le rendement, ou de modéliser l'impact des collectées pour la première fois pour répondre à un
dépenses en publicité sur le chiffre d’affaire, etc. (Chapitre problème d’ordre managérial et propre à l'étude. Ces
3 : La régression et l’analyse de la variance). L'approche données brutes doivent être traitées avant de les analyser
explicative est particulièrement utile dans un contexte et de les interpréter. Lors de la collecte de données à travers
d'aide à la prise de décision, où le but est de repérer les une échelle de mesure, certaines précautions aussi bien de
facteurs déterminants sur lesquels le décideur doit reposer forme (Type de questions, ordre, questions contrôle, etc.)

4
que de fond (validité externe, validité discriminante, validité à titre d’exemple).
convergente, etc.) devraient être prises en considération.
- Les occurrences d’une variable quantitative ou
métrique sont des quantités mesurables et pourraient
Les données secondaires par contre, d'accès facile et peu
être continues (par exemple, le chiffre d’affaire d’une
coûteux, sont perçues comme des données à faible valeur
firme) ou discrètes (le nombre d’enfants par ménage
ajoutée. Ces données sont absolument abondantes et
par exemple).
devraient être consultées et examinées avant toute
collecte de données primaires. Les données secondaires
sont soit internes, issues de l'entreprise (données
comptables, reporting, etc.) soit externes (données
gouvernementales tels que les données du haut-
commissariat aux plans, banque mondiale, etc.).

2.1. La notion de variable


Les données sont transformées en variables qui pourraient
être à caractère qualitatif ou à caractère quantitatif.
Comprendre les différents types de données est donc une
phase essentielle dans votre recherche.
Les variables sont de deux types:
Le neuro-marketing à tire d’exemple et les sciences sociales
- Les valeurs d’une variable à caractère qualitatif (les en général, s'intéressent de plus en plus à la mesure de
modalités), ne peuvent être quantifiées. phénomènes mentaux, tels que les attitudes, les ambitions
Les modalités de ce type de variables à caractère qualitatif … et ce, à travers des échelles de mesure. Ces dernières ont
mais de nature ordinale peuvent être ordonnées (le niveau pour objet de fournir au répondant un support d'expression
d’ambition des managers par exemple), ce qui n’est pas le de ces phénomènes abstraits, subjectifs et complexes à
cas pour les variables nominales, celles pour lesquelles les mesurer, le plus habituellement sous la forme d'échelles de
modalités ne peuvent être rangées (la couleur des cheveux notation:

5
Échelle d’intention
 L'échelle nominale consiste à codifier les modalités
Si la marque « Y » lançait cette nouvelle application:
d'une variable qualitative nominale en utilisant des
Je n’achèterai 1 2 3 4 5 J’achèterai
nombres comme valeurs.
certainement pas ce Certainement ce
Exemple: Êtes-vous 1. Célibataire 2. produit produit
Marié(e)
 L'échelle ordinale est une échelle de classement qui, en 2.2. Modélisation mathématique
affectant des nombres aux modalités, reflète un ordre sous- Le modèle, dans sa forme la plus simple, vise à exprimer une
jacent. relation de causalité entre une variable indépendante et
une autre dépendante.
Exemple: Notez de 1 à 5 votre niveau de satisfaction à
Relation causale simple :
l’égard de la formation X (l : Très mauvais; 2 : Mauvais; 3 :
Moyen; 4: Bon; 5: Très bon).
X Y
 L'échelle métrique possède les propriétés des échelles
nominales et ordinales, et les modalités étant séparées par
des espaces équidistants. Pour les mesures d'attitudes par Dans cette relation directe, d'autres variables peuvent
exemple, nous supposons que les intervalles sont intervenir entre la (ou les) variable(s) indépendante(s) et la
équidistants. (ou les) variable(s) dépendante(s) [Théâtre et al. 1999]. Dans
Exemples d’échelles : un premier cas de figure, l'effet de la variable indépendante
Échelle d'Osgood X sur la variable dépendante Y se mesure par l'intermédiaire
Avez-vous trouvé que la qualité du service X était ? d'une troisième variable dite « médiatrice ». La causalité
Mauvaise 1 2 3 4 5 Bonne étudiée entre X et Y résulte du fait que X influence Z qui à
Échelle de Likert son tour influence Y. Dans le second cas, l'intensité et/ou le
La décoration est bien soignée. signe de la relation entre la variable explicative et la
Pas du tout 1 2 3 4 5 Tout à fait d’accord variable à expliquer peut-être influencer par une variable
d’accord modératrice. Si cette variable modératrice est le sexe, nous
essayerons dans certains cas de vérifier la relation entre le
6
nombre de grammes de chocolat mangé et la prise de représenter les différentes facettes du phénomène. Mais,
poids, et cette relation est, dans la majorité des cas contrairement aux instruments multi-items respectant les
influencée par le genre. Dans ce cas, cet effet peut être mis normes de validité et de fiabilité suivant les différentes
en évidence en décomposant notre échantillon en sous- étapes et procédures proposées par Churchill, les
échantillons (les hommes d'un côté, les femmes de l'autre) instruments mono-items de satisfaction proposent des
et en testant l’intensité de la corrélation dans les sous- qualités psychométriques suffisantes [KEKRE et al. ,1995].
groupes.
3.1. L’échelle de mesure2
Pour élaborer une échelle tendant vers l’obtention d’une
mesure parfaite (vraie valeur) tout en réduisant l'erreur
X Y systématique (erreur dépendant de l'instrument de mesure)
X Y
et l'erreur aléatoire (erreur dépendant des circonstances de
Z
Z mesure), Churchill propose certaines étapes à suivre3.
[Evrard et al. 2000]

Effet modérateur Effet médiateur 3.2. Mesurer


La représentation d’un quelconque phénomène consiste à
lui faire correspondre une grandeur à travers une donnée
3. Mesurer à l'aide d'un questionnaire collectée. Toutefois, cette collecte de données est
perturbée par des facteurs qui éloignent la mesure
souhaitée du phénomène, de la mesure obtenue. Le
Elaborer une échelle de mesure consiste à respecter
modèle de la vraie valeur [Evrard et al. 2009] consiste à
certaines conditions de forme (type de question, style de
décomposer le résultat d'une mesure en différents éléments:
rédaction, ordre des questions, codification des questions,
la vraie valeur (censée représenter la mesure parfaite) et les
nombre de questions contrôle, etc.) et d’autres de fond
termes d'erreur (erreur aléatoire et erreur systématique).
(validité et fiabilité du questionnaire). Tout en essayant de

2 3
Voir le chapitre : Construction d’une échelle de mesure en étude de marché ; Voir le chapitre : Construction d’une échelle de mesure en étude de marché ;
semestre six. semestre six
7
La validité de l’instrument de mesure est vérifiée s’il permet
d'appréhender le mieux possible le phénomène étudié ou
M = V + Es + Ea
mesuré.
M : Mesure obtenue
Il s'agit de répondre à la question suivante: « Mesurons-nous
V : Vraie valeur
Es : Erreur systématique
bien ce que nous cherchons à mesurer ? »
Ea : Erreur aléatoire
La fiabilité fait référence à la régularité de la mesure. Si nous
Dans le cadre des sciences sociales surtout, la mesure idéale mesurons, à plusieurs reprises, et avec le même instrument,
« M » qui correspondrait parfaitement à notre phénomène nous devons avoir le même résultat. Ce problème est
est le plus souvent impossible à atteindre, vu la présence concerné par l'erreur aléatoire. Nous parlons aussi de
d'une erreur systématique dû à titre d’exemple au manque fiabilité de cohérence interne pour les construits comportant
de clarté de l'échelle, à la longueur du questionnaire, etc. plusieurs items.
Ainsi qu’à une erreur aléatoire due aux aléas tels que la
fatigue du répondant, l'humeur, etc.
3.3. Méthodes d'analyse
La qualité de l'instrument de mesure que l’analyste élabore
et met en œuvre doit être vérifiée. La validation d'un L'analyse des données n'est pas une finalité; c’est une clé
questionnaire doit répondre à deux critères principaux: la d’accès à la prise de décisions à partir d'informations déjà
fiabilité et la validité. La fiabilité renvoie à la cohérence existantes, nécessairement fiables et valides. C'est cette
entre les indicateurs censés mesurer le même concept, alors prise de décision qui guidera la stratégie d'analyse et la
que la validité désigne la capacité de l’instrument de modélisation.
mesure à appréhender le phénomène en question.
Le chercheur peut tenir pour acquis que les mesures qu’il a La stratégie d'analyse à son tour, impose l’utilisation de
élaboré dans son questionnaire d’enquête vont refléter différentes techniques. Quelques techniques sont
avec exactitude et assurance la réalité recherchée. Cette indispensables pour l’étude de différences entre les
validité hypothétique peut mettre en doute les résultats variables, d'autres pour la mise en valeur de leur
obtenus et par la suite les décisions prises. En tout cas, il serait dépendance, d'autres encore pour la classification
difficile de croire que ces résultats ne sont pas (supervisée ou non supervisée) ...

8
La majorité de ces analyses se basent sur des hypothèses à
tester.
La stratégie d'analyse à son tour est contrainte par le type
de variables utilisées (quantitatives ou qualitatives).
Généralement, la représentation des types de ces
techniques d'analyse est soit descriptive, explicative,
prédictive, comparative, etc.

9
Économiste (Expert du domaine)
Exprime une théorie sur un phénomène économique
Ex. La demande dépend du prix

ANALYSE
DE
DONNEES
Mathématicien (Modélisation) Statisticien (Estimation)
Propose une formulation Estime les paramètres du
algébrique de la théorie. modèle à partir de données.
Ex. Demande =ß0+ (ß1*prix) + (ß2 *type du bien) Validation statistique.
Ex.: (ß0=2) ; (ß1=12) ; (ß2 =5)

Sous le contrôle de l’Économiste


Validation de l’Expert du domaine (ex. a est forcément négatif)
2
2
3
4
5
6
LA SEGMENTATION
LA PREDICTION
L’EXPLICATION
LA COMPARAISON

7
CHAPITRE INTRODUCTIF
ETAPES D’UNE ÉTUDE DE MARCHÉ

interviews Elaboration du Analytics


. questionnaire

Recherche Analyse de Echantillonnage Confirmatoire


documentaire contenu Analyse de
données.

9
10
Recherche documentaire

11
QUOI TRAITER ?

COMMENT DECRIRE UNE POPULATION ?

Q1: EST- IL POSSIBLE ?


OUI Recensement

NON Sondage
α
Q2 : QU’ELLE EST SA TAILLE ? N
Z
ɛ
σ
Q3 : COMMENT CHOISIR LES ELEMENTS .

Méthodes probabilistes Méthodes non


probabilistes

12
MAINTENANT QUE NOUS AVONS LES ELEMENTS A DECRIRE
COMMENT FAIRE ? ( CHAPITRE 0)

ANALYSE DESCRIPTIVE

Unidimensionnelle
CARACTERISTIQUES DE CARACTERISTIQUES DE CARACTERISTIQUES DE
TENDANCE DISPERTION DISTRIBUTION
CENTRALE

10 11 12

1 1

13
Q4 : NOUS AVONS CALCULER LES INDICATEURS, MAIS
POURQUI FAIRE?

Pour décrire Pour estimer

Nom du groupe ECHANTILLON POPULATION

Moyenne m ou µ
Taille n N
++++++
Ecart-type s σ
+++++++++++
+ + + + + + + + +µ + + Variance s2 σ2
++++ ++++++++
++ ++++++++++ Pourcentage p π
++++ +++++ +++
+++++++++ CALCULER
++++++++
ESTIMER ESTIMER

14
LA
REGRESSION
15
L’analyse de la régression est une méthode statistique qui permet d’étudier le type de
relation pouvant exister entre une certaine variable (dépendante) dont on veut
expliquer les valeurs et une ou plusieurs autres variables qui servent à cette
explication (variables indépendantes)

En d’autres termes, l’analyse de la régression permet d’étudier les variations de la


variable dépendante en fonction des variations connues des variables indépendantes.

16
MODÈLE ÉCONOMIQUE
ANALYSE EXPLICATIVE

Un modèle consiste en une présentation formalisée


d’un phénomène sous forme d’équations
mathématiques.( normalement en économétrie et comme toutes les variables
économiques sont interdépendantes (notion de système), il n'est pas suffisant de construire des équations
isolées mais plutôt il faut établir un système complet d‘équations.)

Inférence statistique
Elle consiste alors à effectuer des études sur l’échantillon et
transposer les résultats sur la population.
Cette transposition n’est pas stricte, elle attache toujours
une probabilité aux résultats et aux conclusions émises.
17

17
L’âge du conducteur et le nombre d’accidents d’auto ;
Le volume des ventes et les dépenses en publicité ;
Le nombre d’heures d’études et les résultats aux examens ;

 Existe-il une relation ou une dépendance entre les variables statistiques?
 Cette relation, si elle existe, est-elle linéaire ou non ?
 Si une dépendance existe, peut-on la traduire par une équation mathématique ?
 La corrélation, si elle existe, est-elle forte ou faible ?
 Si l’équation mathématique de la relation entre les variables existe,
 comment prévoir les valeurs d’une certaine variable à partir
 de la connaissance des valeurs des autres variables ?

REGRESSION LINEAIRE SIMPLE 18


19
Une analyse de régression est :
- dite simple si elle permet de prédire les valeurs d’une variable dite
dépendante (expliquée, endogène,Y ) à partir des valeurs prises par une
autre variable dite indépendante (exogène, explicative, X ).

- dite multiple si elle permet de prédire les valeurs d’une variable dite
dépendante à partir des valeurs prises par plusieurs autres variables dites
indépendantes Xi).

20
Nombre de pièces
Coût du loyer
Services offerts
(piscine, stationnement intérieur, etc.)

L’étage dans l’immeuble …

Coût du loyer en fonction du nombre de pièces, du niveau d’étage dans


l’immeuble, des services offerts ...

21
Définition : Nous appelons régression linéaire l’ajustement d’une droite au
nuage statistique d’une série de couples de données.

Ainsi, une régression linéaire simple va permettre de résumer, d’interpréter et


de prévoir les variations d’un caractère dit dépendant (Y) en fonction d’un autre
dit indépendant (X) et ce en utilisant une droite.

22
Objectif de la représentation graphique du nuage de point

Une fois la représentation graphique effectuée, il est facile de soupçonner


l’existence d’une certaine relation entre les deux variables (caractères étudiés). Il
faut maintenant chercher à exprimer cette relation à l’aide d’une équation
mathématique.

Y  f (x)

Nous essayerons de trouver la forme mathématique de la fonction f

23
Les différentes étapes d’une étude de régression

1- Spécification du modèle
2- Validation du modèle
3- Estimation des paramètres
4- Test des hypothèses
5- Développement des normes

24

24
Exemple : Nuage de points ou diagramme de dispersion

40
35
y
30
25
20
15
10
5
0
0 2 4 6 8
x

25
LA REGRESSION LINEAIRE VOUS DITES !!!

ERREUR D’ESTIMATION

Y
2000,00
1800,00 x
1600,00
1400,00
1200,00
1000,00
800,00
600,00
400,00
200,00
0,00
0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00
X

26
LA REGRESSION LINEAIRE VOUS DITES !!!

27
La régression linéaire simple

28
Chapitre I : la régression linéaire par une ou un ensemble de variables indépendantes quantitatives.
La régression vise à expliquer, à estimer ou à prédire la valeur d'une

Analyse de données
simple variable à partir des valeurs d’une autre variable explicative. Par exemple,
on peut expliquer le nombre d’SMS envoyé par l'âge du client.
Les différentes étapes d’une régression linéaire sont au nombre de quatre :
Les modèles de régression ont pour objectif d'expliquer la variation d'un
phénomène mesurable par celle d'une ou de plusieurs autres variables, et 1- Spécification du modèle
dans la vie de l'entreprise, nous essayons fréquemment de détecter et L'approche linéaire est inadéquate lorsque la variable dépendante est de
d'analyser les causes de certains phénomènes, comme la variation des ventes nature qualitative. Nous préférerons alors un modèle de régression logistique
par exemple. Différents modèles de régression sont possibles. binaire ou multinomiale lorsque la variable dépendante en comprend plus
La régression linéaire (simple ou multiple) estime les paramètres de de deux modalités. A noter aussi que deux variables peuvent être
l'équation théorique permettant de calculer le niveau de la variable parfaitement liées mais, si leur rapport n'est pas linéaire, le coefficient de
dépendante en fonction des niveaux des variables indépendantes. corrélation n'est pas une statistique adaptée pour mesurer leur association.
1. La corrélation Alors il est recommandé de tracer le diagramme de dispersion pour
soupçonner le type de relation existante entre nos deux variables.
Le coefficient de corrélation de Pearson est une mesure d'association qui
permet d'établir si deux variables mesurées sur le même ensemble
d'observations varient de façon analogue ou non. C’est une mesure de la
force et du sens du lien entre deux variables métriques.
Une corrélation proche de 1 en valeur absolue signifie que deux variables
sont linéairement liées entre elles et peuvent s'expliquer mutuellement.
Exemple de régression logistique

Pr. BOULAHOUAL Adil


Lorsque r est proche de + l, cela veut dire que les deux variables varient
dans le même sens. Lorsque r est proche de -l, cela signifie que les deux
variables varient en sens inverse l'une de l'autre. Et quand r est proche de 0,
Dans notre cas de régression simple, normalement les valeurs de la variable
il y a une faible corrélation.
2. La régression linéaire simple dépendante (Y) sont calculées à partir des valeurs de la variable
indépendante (X) par l’équation linéaire théorique y = β0 + β 1x + ε , et si
La régression linéaire vise à expliquer et à prédire une variable dépendante jamais nous n’avons pas accès à l’information nous estimons cette dernière

1
par une droite dite empirique, ou b0 et b1 sont respectivement des estimations Nous appelons résidu ou erreur empirique ou écart de prévision ( ei ) la
différence (l’écart vertical) entre la valeur observée yi de y et la valeur
ponctuelles de β0 et β1.

Analyse de données
estimée de y obtenue à partir de la droite de régression, lorsque x= xi.

2- Validation du modèle
La deuxième étape consiste à vérifier le modèle dans sa globalité.
Il existe trois mesures possibles pour quantifier l’intensité de la relation entre X et Y: 3- Estimation des paramètres
– Le coefficient de détermination de Y en fonction de X Plusieurs méthodes permettent d’estimer notre droite théorique, nous citons
– Le coefficient de corrélation entre X et Y à titre d’exemple : La méthode des moindres carrés et la méthode de la
– La covariance entre X et Y vraisemblance. L’idée de base de la première méthode, qui est la plus précise,
Le coefficient de détermination théorique de Y en fonction de X, noté ρ2 mesure la est de trouver la fonction de la droite qui minimise la somme des carrés des
proportion de la variance de Y qui est expliquée par la variable X au niveau de toute
résidus.
la population. A noter que 0≤ ρ2 ≤1.
En pratique ρ2 est inconnu, car nous ne possédons pas d’information sur toute la
4- Test des hypothèses
population mais seulement sur un échantillon de taille n, alors nous Pour vérifier si l’influence de la variable indépendante est significative, on procède
l’estimerons par la statistique r2.
à un test d’hypothèses sur β 1. Parce que si la β1 = 0 alors peu importe les valeurs de
x, elles n’aura pas d’impact sur y.
Autrement nous allons opter pour une estimation par intervalle de confiance, au
seuil de signification choisit lors de la détermination de la taille de l’échantillon, et
si la valeur 0 appartient à l’intervalle de confiance, nous acceptons l’hypothèse
nulle: β1=0 au niveau de signification α et on conclut qu’il n’existe pas de relation

Pr. BOULAHOUAL Adil


ei linéaire significative entre x et y.
Deux tests sont couramment utilisés
◦ Test t ou z (selon la taille de l'échantillon)
ei Exemple de régression linéaire ◦ Test F
Les deux tests nécessitent une estimation de se 2, la variance des erreurs e du modèle
de régression.

2
A- Les étapes d’un test z ou t d’hypothèses sur β1 L'indépendance des termes d'erreur est une autre condition de l'analyse de
1. Énoncer les hypothèses H0 et H1.

Analyse de données
régression multiple. Outre l'examen du graphique des résidus peut aussi être
2. Préciser les conditions du test validée par le test de Durbin-Watson, notamment dans le cas de données
La population des erreurs est normale
temporelles.
La variance résiduelle est inconnue
Le niveau de signification
Loi de distribution : normale si le degré de liberté est supérieur à
30 , et une loi de Student si le degré de liberté est inférieur à 30 .
3. Calculer la statistique du test.
4. Trouver la région critique au niveau de signification α.

B- Les conditions d'application de la régression

Le modèle de la régression pose un certain nombre d'hypothèses lors de


l'estimation des paramètres et des tests d'hypothèses. Ces conditions
d'application de la régression sont:
1. La linéarité du phénomène mesuré;
2. La variance constante du terme d'erreur ou homoscédasticité,
3. L'indépendance des termes d'erreur,
4. La normalité de la distribution du terme d'erreur.

Pr. BOULAHOUAL Adil


La linéarité est importante car le concept de corrélation est fondé sur une
relation linéaire. La linéarité d'une relation bivariée est vérifiée par
l'examen des résidus.
L'homoscédasticité est vérifiée par l'examen des résidus ou par des tests
statistiques. Son utilisation est souvent recommandée.

3
Modèle théorique de régression linéaire simple
y = 0 + 1x + 
Équation de la régression linéaire simple (comment l'espérance de y est liée à x)
E(y) = 0 + 1x
Équation estimée de la régression linéaire simple (modèle empirique)

y^  b 0  b 1 x

y^ : = Variable dépendante ou expliquée


= valeur estimée de y pour une valeur x
0 et 1 = Coefficients théoriques de régression (à estimer à l’aide d’un échantillon par b0 et b1 )

 x = Variable indépendante
= Erreur (d’autres facteurs influencent Y)
ou explicative
théorique aléatoire

29
L'équation estimée de la régression linéaire simple (droite de la régression
estimée, modèle empirique) peut être utilisée pour une estimation ponctuelle
de la valeur moyenne de y pour une valeur particulière de x ou pour prévoir
la valeur ponctuelle de y associée à une valeur particulière de x

y^  b 0  b 1 x
y = Variable dépendante
^y = valeur de prévision de y pour une valeur x;

x = Variable indépendante ou explicative

30
1- Spécification du modèle

Diagramme de dispersion

10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10

Heures d'études

Extrapolation Estimation Extrapolation

31
Il existe plusieurs méthodes permettant d’estimer le modèle théorique
par le modèle empirique y   0  1 x  

ŷ  b0  b1 x
 Méthode des moindres carrés
 Méthode de la vraisemblance
…

32
La méthode des moindres carrés

Idée de base : Cette méthode essaie de construire une droite de régression


empirique qui minimise la somme des carrés des distances verticales entre cette
droite et chacun des points observés.

n
min 
i 1
( Y i  Yˆi ) 2

33
246

ei

n
min 
i 1
( Y i  Yˆi ) 2

Heures d’études 5 28 16 39 56 80 75 84 25 64 10 50 50
Bonnes réponses 50 80 17 59 120 270 220 270 80 200 60 120 190
34

34
Définition : nous appelons résidu ou erreur empirique ou écart de prévision, la
valeur ei = yi – ^yi , soit la différence (l’écart vertical) entre la valeur observée yi
et la valeur estimée y^i obtenue à partir de la droite de régression, lorsque x = xi .
n


i 1
ei
L’objectif de la méthode des moindres carrés est de n

déterminer la droite de régression qui minimise 


i 1
e i2

35
La méthode des moindres carrés …

n
S C res  e 2
1  e 2
2  e 2
3  ...  e 2
n  
i 1
e i2
Cette mesure donne
l’ordre de grandeur de la
n

  y i  ˆy i  dispersion des
2
S C res  observations Yi autour de
i 1
la droite de régression
n

  y i  b 0  b1 x i 
2
S C res 
i 1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).
« Dérivée première devrait être égale à zéro. »

36
3- Estimation des paramètres

Principes de la méthode des moindres carrés …


Comment calculer les coefficients b0 et b1?
Les estimateurs ponctuelles des paramètres de la droite de régression obtenues par la
méthode des moindres carrés sont :

Autre formule pour b1

Taille de l’échantillon

37
À partir des données ci-dessous, déterminez les estimations ponctuelles
des paramètres de la droite de régression selon la méthode des
moindres carrés :

38
39
EXEMPLE
Une entreprise veut mener une étude sur la relation entre les dépenses
hebdomadaires en publicité et le volume de ventes qu’elle réalise. Nous avons
recueilli au cours des dix dernières semaines les données suivantes :

À partir des données ci-dessus, déterminez les estimations ponctuelles des


paramètres de la droite de régression selon la méthode des moindres carrés.

40
Les résultats intermédiaires suivants servent à calculer les estimations ponctuelles
des paramètres de la droite de régression :

41
En appliquant les formules ci-dessous, nous obtenons les valeurs numériques de
b0 et b1

42
La droite de régression qui permet de déterminer le volume moyen des ventes
pour un coût publicitaire donné x.

yˆ  3 3 , 3 1  3 , 9 5 x
Ordonnée à l’origine
(volume de vente moyen Dépenses
sans dépenser aucun dh en en publicité
publicité)

C’est l’augmentation du volume des


ventes (Y) pour une augmentation
unitaire du coût en publicité (X)

43
Interprétation des résultats et remarques…

Rq1 : Le point de cordonnées se trouve sur la droite de régression.


Rq2 : Cette relation linéaire entre X et Y est valide pour l’intervalle des valeurs
de X considérée dans l’énoncé, c’est-à-dire de 1 à 5,5.
La droite de régression s’applique à l’intérieur de l’étendue des valeurs
expérimentales qui ont été observées pour la variable explicative (X). Nous
devrons donc éviter toute extrapolation en dehors de ce domaine à moins d’être
certain que le phénomène se comporte de façon identique.

44
Rq3 : Pour la valeur x = 3,5 (située entre 1 et 5,5), nous pouvons utiliser la
droite de régression pour calculer la valeur moyenne correspondante de Y.

Exemple : Estimation du volume des ventes moyen pour un coût de 3,5


millions de dollars en publicité hebdomadaire.

= 33,31 + 3,95 (3,5) = 47,14 millions de dollars

45
2- Validation du modèle

Il existe trois mesures possibles pour quantifier l’intensité de la relation entre


X et Y:
– Le coefficient de détermination de Y en fonction de X
– Le coefficient de corrélation entre X et Y
– La covariance entre X et Y
–…

46
Coefficient de détermination de Y en fonction de X

LE COEFFICIENT DE DETERMINATION.

Le coefficient de détermination théorique de Y en fonction de X, noté mesure


la proportion de la variation de Y qui est expliquée par la régression ou qui est
expliquée par la variable X au niveau de toute la population.

Le coefficient de détermination indique si le modèle linéaire défini


colle aux données .

47
En pratique est inconnu, car nous ne possédons pas d’information sur toute la
population mais seulement sur un échantillon de taille n, alors on estimera par rYX2 .

rYX2 fournit une indication de la force de la liaison possible pouvant exister entre Y et X au niveau de la
population. De plus, c’est un indice de la qualité de l’ajustement de la droite aux points
expérimentaux. 2
 n 
Rappel: n n   yi 
( y i  y )2   yi2   i 1 
i 1 i 1 n

48
Dans quelle mesure l’équation estimée de la régression s’ajuste-t-elle aux données ?

Le coefficient de détermination permet de mesurer le degré d’adéquation


Formule pour le coefficient de détermination

r2 = SCreg/SCT

où: SCT = SCreg + SCres

  ( yi  y
ˆ i )2
SCT = Somme des carrés totale (variation totale)
SCreg = Somme des carrés de la régression (variation expliquée)
SCres = Somme des carrés des résidus

49
50
Calculez rYX2 pour l’exemple d’application des coûts publicitaires et des ventes:

51
v a r ia t io n e x p l iq u é e 298, 008
r2
YX    0,9692
v a r ia t io n t o t a le 307,525

Puisque rYX2 est proche de 1, on peut dire que la droite de régression


s’ajuste très bien au nuage de points.

52
Différence entre régression et corrélation ?

où: b1 est la pente de l’équation estimée de régression estimée (empirique)

Le coefficient de corrélation théorique (au niveau de la population) est dénoté


ou simplement

53
Le coefficient de corrélation peut être déterminé de la manière suivante (ou
encore en prenant la racine carrée du coefficient de détermination):

 1  r XY  1 r XY  0
• On a toujours:
• Si r XY   1 alors il existe une relation linéaire exacte entre X et Y.
• Si r XY  0 alors soit que X et Y sont indépendantes, soit qu’il y a une
dépendance non linéaire entre les deux variables.
• Si r XY  0 ou r XY   1 alors il existe une relation linéaire plus ou
moins forte entre X et Y .
• Le coefficient de corrélation permet de voir s'il est facile d'approcher les
données par une droite.

54
Toujours en utilisant l’exemple numérique de la publicité et les ventes d'autos,
mesurez le degré de dépendance linéaire entre X et Y.

Réponse
Les dépenses en publicité et les ventes varient dans le même sens

Il existe une relation linéaire très forte entre


les dépenses en publicité et les ventes

55
56
4- Test d’hypothèse ou Validation de
la droite de régression Empirique

Test d’hypothèse sur β1


Pour vérifier si l’influence de la variable indépendante X est significative,
nous procédons à un test d’hypothèses sur β1

Y   0  1X  
Si β1 = 0 alors peu importe les valeurs
de X, elles n’auront pas d’impact sur Y

57
Étapes contribuant à la validation de la droite de régression empirique

Estimer la variance des erreurs théoriques  


2

Estimer  0 et  1 par intervalle de confiance

Test d’hypothèses sur  1

58
Validation de la droite de régression empirique…
Estimation de la variance des erreurs théoriques
La précision des estimateurs b0 et b1 dépend de la valeur de la variance des erreurs
théoriques : plus   sera petite, plus ces estimateurs sont précis.
2

Puisque, en pratique, la variance 


2
 est inconnue, on l’estime par le terme suivant :

59
Estimation de et

En pratique, les variances et sont inconnues, alors nous les estimons par :

60
Exemple d’application …
Compléter le tableau suivant : 33,31 + 3,95 x 2 = 41,21

0.49 49.11 0.39 0.1521 7.6176


1.69 41.21 - 0.21 0.0441 26.4196

61
Estimation de 1 par intervalle de confiance

L’intervalle de confiance pour estimer b1, la pente du modèle de régression


théorique, au niveau de confiance (1 - α) est donné par:

Si n-2 < 30

Si n-2 ≥ 30

Si la valeur 0 appartient à l’intervalle de confiance, nous devons accepter l’hypothèse


nulle:  =0 au niveau de signification choisit et nous concluons qu’il n’existe pas de
1

relation linéaire significative entre Y et X

62
D’après les données de l’exemple numérique de la publicité et le volume de ventes
d'autos, construisez un intervalle de confiance pour  1 au niveau 95% :

Puisque n-2 = 10 -2 = 8 < 30, alors


Table de Student
 b 1  t  /2 s b1 

63
Le test d’hypothèses va nous permettre de vérifier si l’intervalle de confiance de β1 ne
contient pas la valeur zéro.
Deux tests sont couramment utilizes

Test t ou z
Test F ( Fischer)

N.B: les deux tests nécessitent une estimation de se2, la variance des erreurs du modèle de
régression

64
Les étapes d’un test z ou t d’hypothèses sur
H0 :  1 = 0
1. Énoncer les hypothèses H0 et Ha. H1 :  1 ≠ 0
2. Préciser les conditions du test
La normalité de la distribution des erreurs 2 4 6
Le niveau de signification α
2;4 3
La variance résiduelle  2 est théoriquement inconnue 2;6 4
La loi que suit notre variable : 4;6 5
Si n – 2 ≥ 30, nous utilisons (Normale)
b1   1 b
Si n – 2 < 30, nous utilisons t (Student) z   1
s b1 s b1
3. Calculer la statistique de test. b1   1 b
t   1
s b1 s b1

4. Trouver la région critique au niveau de signification 

Nous rejetons H0 si z  z  /2 ou z   z /2 Si n-2 ≥ 30

Nous rejetons H0 si t  t  / 2 , ( n  2 ) dl ou t   t / 2 , ( n  2 ) dl Si n-2 < 30


65
D’après les données de l’exemple d’application sur la publicité et le volume de
ventes d'autos, vérifiez au niveau de signification a = 0,05 si la variance de X
explique la variance Y, à partir de la droite de régression linéaire obtenue

Étape 1
Étape 2
H0 :  1 = 0 n – 2 = 8 < 30, population normale,  2 inconnue
H1 :  1 ≠ 0

Étape 3 Étape 4

b1   1 b 3 , 95  0 t 0 , 025  2 , 306
t   1   15 , 86 ,8
s b1 s b1 0 , 062

Puisque : t  t 0 , 025 , 8 dl  15 , 86  2 , 306


Nous rejetons l’hypothèse nulle.
Cela implique que la variance de X explique la variance de Y au niveau  = 0,05

66
Déclaration des valeurs
Description de la variable possibles des données
manquantes

Représente le nombre de caractères


maximum de la donnée

le NOM de la variable
maximum 8 caractères).
Décrit le format de la variable
Numérique : Donnée numérique
Chaîne : Donnée alpha-numérique

67
La régression linéaire multiple

68
En analyse explicative simple, nous avons essayé de définir la relation
qui existe entre deux variables statistiques.
Exemples :
*Le nombre d’années d’expérience et le nombre d’erreurs commises ;
*Le volume des ventes et les dépenses en publicité ;

analyse explicative multiple


la tranche d’âge du conducteur
Sa santé Le nombre d’accidents d’auto
Son état d’ébriété

Rappel
69
LA REGRESSION MULTIPLE
Exemple introductif

Voulons limiter les risques liés à l’octroi de crédit, la revue de littérature


nous mène à prendre en considération toute une série de variables tels
que le taux d’endettement, le nombre d’anciens incidents, l’ancienneté
professionnelle, la catégorie socioprofessionnelle, etc.

Pour facilité la compréhension nous n’avons retenu que deux variables


dans un premier temps.

70
71
71
L’encadré Coefficients
Estimations : Valeurs b pour chaque
VI et son test de signification
Intervalles de confiance : Intervalle
pour chaque coefficient dans la
population,

L’encadré Résidus
Durbin-Watson : Evaluation de
l’indépendance des erreurs
Diagnostic des observations : Indique
quelles observations ont un résiduel
standardisé de plus de 2 ou 3 é.-t.
Les autres statistiques
Qualité de l’ajustement : Fournit le test pour évaluer l’ensemble du modèle (F), le R multiple, le
R2 correspondant et le R2 ajusté ( ANOVA)
Variation de R-deux : Changement du R2 après l’ajout d’un nouveau bloc de VI
Caractéristiques: Moyenne, é.-t. et N pour toutes les variables du modèle.
Mesure et corrélations partielles : Corrélation entre chaque VI et la VD

72
INTERPRETETATION DES RESULTATS OBTENU

Statistiques descriptives
Examinons d’abord les statistiques descriptives. Notre base de données est composée de
19294 clients qui gagnent en moyenne 4712,4855 par mois et dont le taux d’endettement
moyen est de 32,9%. Le montant moyen d’impayé par personne est de l’ordre de près de
3411dhs près.
Statistiques
taux
Impayés brut revenu d'endetement
N Valide 19294 19294 19294
Manquant 0 0 0
Moyenne 3410,97 4712,4855 32,9006
Médiane 1408,52 3571,0000 30,0000
Mode 0 3000,00 39,00
Ecart type 6810,121 4735,79965 29,77650
Asymétrie 8,871 18,714 11,354
Erreur standard d'asymétrie ,018 ,018 ,018
Kurtosis 165,465 930,373 220,614
Erreur standard de Kurtosis ,035 ,035 ,035

73
Corrélations
Impayés taux
brut revenu d'endettement
R  0,70 Relation très forte
Impayés bruts Corrélation de Pearson 1 ,654** ,899** 0,50  R  0,69 Relation forte
Sig. (bilatérale) ,000 ,0000,30  R  0,49 Relation modérée
N 19294 19294 19294 0,10  R  0,29 Relation faible
0,01  R  0,09 Relation très faible
revenu Corrélation de Pearson ,654** 1 ,025**
R = 0,00 Relation nulle
Sig. (bilatérale) ,000 ,000
N 19294 19294 19294
taux d'endetement Corrélation de Pearson ,899** ,025** 1
Sig. (bilatérale) ,000 ,000
N 19294 19294 19294

Le deuxième tableau fournit par SPSS concerne les corrélations entre les
variables étudiées. Nous voyons qu’il y a une très forte corrélation le taux
d’endettement et les impayés bruts (0,899), alors qu’entre le revenu et les
impayés la relation est forte (0,654). Nous devons porter attention aux
relations entre les variables indépendantes. Si la corrélation entre deux de ces
variables se situait à 0,7 (ou – 0,7), il y aurait un risque important de multi-
colinéarité. Nous aurions introduit deux variables qui mesuraient
sensiblement la même chose pour prédire le montant de l’impayé. Dans notre
cas la relation entre le revenu et le taux d’endettement la relation est très
faible (0,025).

74
Étape 1 : Évaluation de la pertinence du
modèle de régression

l’interprétation débute en évaluant la pertinence du modèle. Nous


vérifions si la première étape du modèle explique significativement plus
de variabilité qu’un modèle sans prédicteur. Ceci revient à prendre une
décision sur l'hypothèse nulle d'absence de relation entre la variable
dépendante et la combinaison de variables indépendantes, i.e. le
modèle. Le travail consiste ensuite à interpréter la contribution relative
de chaque variable indépendante significative à l’explication de la
variance de la variable dépendante. Dans la mesure où un modèle est
non significatif, malgré le respect de toutes les prémisses,
l’interprétation s’arrête avec ce constat. Il faut alors retourner à la
table à dessin pour construire et tester un autre modèle.

75
Analyse de variance

Le tableau d’ ANOVA nous donne les informations nécessaires pour prendre


une décision sur l’hypothèse nulle (H0) à l’effet que notre modèle n’explique
pas significativement plus de variance qu’un modèle sans prédicteur.

Règle de décision : si la signification de l’ ANOVA est inferieur au seuil


choisi nous conclusion qu’il existe au moins une variable qui explique le
montant des impayés bruts. Le cas contraire nous devons rejeter le modèle est
conclure qu’aucune des variables retenues dans l’analyse n’explique notre
variable dépendante.
NB: Attention aux prémisses.

76
ANOVAa

Modèle Somme des carrés ddl Carré moyen F Sig.


1 Régression 57353500180,000 2 28676750090,00 660,610 ,000b
0
Résidu 837412377400,000 19291 43409485,120

Total 894765877500,000 19293

Nous constatons à la lecture du tableau que selon la valeur F


obtenue pour les deux modèles, on peut rejeter l’hypothèse nulle.
En effet, si la signification de l’ ANOVA est inferieure au seuil
choisi, nous pouvons conclure qu’au moins une des variables
explique le montant des impayé.

77
Étape 2 : Évaluation de l'ajustement du modèle
de régression aux données

Maintenant que nous savons que le modèle final est significatif,


nous pouvons estimer dans quelle mesure ce modèle est ajusté
aux données observées. Cette information est contenue dans le
tableau «Récapitulatif des modèles». Dans le cas d’une régression
multiple à entrée forcée, rappelons qu’un seul modèle ferait
l’objet du tableau.

RÉCAP. 78
Récapitulatif des modèles

Erreur standard de
Modèle R R-deux R-deux ajusté l'estimation
1
,900a ,810 ,064 6588,587

Ce tableau contient plusieurs informations utiles. Premièrement, la


valeur de la corrélation multiple (R) nous renseigne sur
l’ajustement du modèle. Cet indice varie entre 0 et 1 et représente
en valeur absolue la corrélation entre la variable dépendante et la
combinaison de toutes les variables indépendantes du modèle. Plus
la valeur de R est proche de 1, plus le modèle est ajusté aux
données. Dans notre exemple, le modèle final a une valeur de R de
0,90 ce qui est relativement élevé et qui suggère que le
modèle est bien ajusté.

79
Étape 3 : Évaluation de la performance
du modèle de régression
Le tableau permet également d’évaluer la performance du modèle
en termes de proportion de la variance expliquée par la
combinaison des variables indépendantes avec le calcul de la valeur
de R². rappelons que la valeur du R², lorsqu’elle est multipliée par
100, indique le pourcentage de variabilité de Y expliquée par le
modèle (la combinaison de tous les prédicteurs)..

Récapitulatif des modèles

Erreur standard de
Modèle R R-deux R-deux ajusté l'estimation
1
,900a ,810 ,064 6588,587

80
Étape 4 : Estimation des paramètres
du modèle
Maintenant que nous savons que notre modèle est significatif, il est possible
de construire l’équation de régression pour prédire une valeur de l’impayé
brut. L’équation de base était la suivante : Ý = b 0 + b 1X1 + b 2X2 + b3X 3

Y = β 0 + β 1X1 + β 2X2 + … + β nXn

Impayé = 1083,548 + 0,328 x revenu + 23,700 x taux d’endettement


Coefficientsa
Coefficients
Coefficients non standardisés standardisés
Erreur
Modèle B standard Bêta t Sig.
1 (Constante) 1083,548 84,276 12,857 ,000
revenu ,328 ,010 ,228 32,779 ,000
taux d'endetement 23,700 1,594 ,104 14,873 ,000

81
L’erreur standard nous renseigne sur la variabilité du coefficient dans la
population. Elle permet également d’indiquer si le coefficient est significatif. La
signification de t nous permet de répondre à la question «est-ce que Bêta est
différent de 0 ? »
Coefficients
Coefficients non standardisés Coefficients standardisés
Erreur
Modèle B standard Bêta t Sig.
1 (Constante) 1083,548 84,276 12,857 ,000
revenu ,328 ,010 ,228 32,779 ,000
taux d'endetement 23,700 1,594 ,104 14,873 ,000

82
La valeur du Beta standardisé (β) apporte aussi une information
intéressante en plus d’indiquer le sens de la relation (+/-) et le poids relatif
de la variable dans le modèle.
Elle indique le changement en écart-type de la VD pour chaque
augmentation d’un écart-type de la VI quand toutes les autres valeurs sont
constantes.

83
Un autre tableau présente également la valeur des corrélations et
des corrélations partielles. Ce sont ces valeurs sur lesquelles se base
SPSS lorsqu’il choisit d’introduire des variables lorsque nous
sélectionnons une méthode progressive. La première variable est
choisie à partir de la corrélation simple la plus forte. Le choix des
variables suivantes est par contre basé sur la corrélation partielle,
c'est-à-dire la plus forte corrélation entre les variables toujours
disponibles et la partie de variance qui reste à expliquer une fois
que l’on a retiré ce qui est expliqué par la première VI.

84
Finalement, la valeur VIF (ou la tolérance qui est l’inverse du
VIF ) permet de vérifier la prémisse de multi-colinéarité. Nous
cherchons à obtenir une valeur VIF près de 1. Si elle est de 10,
c’est problématique. Inversement, si la valeur de la tolérance est
équivalente à 0,1, il y a un problème sérieux de colinéarité dans
le modèle. Probablement que les corrélations entre deux variables
indépendantes ou plus sont trop élevées.

85
Le diagnostic des observations et la vérification des prémisses
Ce dernier tableau nous renseigne sur la présence de valeurs extrêmes qui
influenceraient le modèle, notamment sur la qualité de l’ajustement des
données. Les valeurs extrêmes font varier les coefficients b et sont mal
prédites par le modèle. Ces valeurs produisent une valeur résiduelle
importante. Comme nous avons vu précédemment dans le rappel
théorique, nous ne voulons aucune valeur résiduelle standardisée de plus de
3,29 (ou de moins de -3,29), pas plus de 1 % de l’échantillon ayant une
valeur de plus de 2,58 (ou de moins de -2,58) ainsi que pas plus de 5 %
des observations ayant une valeur de plus de 1,96 (ou de moins de –
1,96).

86
87
En examinant le diagnostic des observations, nous constatons que 7 individus ont
des salaires de plus de 83 750 dhs. Ils s’écartent vraiment des valeurs moyennes,
car la valeur résiduelle standardisée pour chacun est de plus de 3 écart-types. Les
employés gagnant plus de 100 000 dhs annuellement présentent un problème
majeur. Il serait probablement judicieux de refaire l’analyse en excluant ces hauts
salariés et de vérifier la variation des coefficients.

Les graphiques offerts peuvent vous permettre de vérifier par un examen


visuel les prémisses de la régression linéaire multiple. Celui croisant les
valeurs prédites (*ZPRED) et résiduelles (*ZRESID) standardisées,
depuis le menu diagramme, illustre le respect (ou le non respect) de la
prémisse d’homogénéité (répartition aléatoire des points autour de 0) et
de linéarité (tendance des points à se concentrer autour d’une ligne).

88
88
PIC
Nous pouvons confirmer avec le test de
normalité de Shapiro-Wilks ou de Kolmogorov-
Smirnov. Ces tests sont disponibles dans les
options de la procédure Explorer, Cochez
«Graphes de répartition gaussiens avec tests».
Les deux tests sont significatifs. Nous devons
donc rejeter l'hypothèse nulle de normalité de la
distribution. Encore une fois, nous constatons
qu'il pourrait être judicieux de retirer les valeurs
extrêmes de l’analyse.

89
Toutes les options disponibles dans ce menu permettent de créer des
nouvelles variables ayant les valeurs calculées par le modèle. Il
s’agit donc de choisir les variables diagnostiques permettant
d’évaluer la qualité du modèle et celles qui permettent de détecter
les variables ayant une importante influence sur le modèle. Nous
choisirons donc minimalement les résidus standardisés, mais on
peut également ajouter les prévisions non standardisées et/ou
standardisées ainsi que la distance de Cook et les DfBêta(s)
standardisés. Notez qu’en cochant des options dans la boite de
dialogue Enregistrer, vous allez obtenir un tableau de résultats de
plus portant sur les statistiques des résidus et comprenant
minimalement la moyenne, l’écart-type, les valeurs minimales et
maximales ainsi que le N.

90
La dernière fenêtre, obtenu depuis le bouton « option » vous permet de
déterminer les paramètres de sélection des méthodes progressives. Vous
identifiez la probabilité ou la valeur de F pour introduire ou retirer des
variables. Idéalement, vous conservez les valeurs par défaut à moins que
vous ne vouliez que votre modèle soit plus sévère.

91
91
Finalement, nous pouvons tout de même jeter un coup d’œil aux prémisses
d’homsédasticité et de linéarité avec le graphique de dispersion. Pour la
première prémisse, les points doivent être répartis aléatoirement autour de
0 (ne pas former d’entonnoir), ce qui semble le cas ici, bien que les points
soient répartis en colonnes. Pour la deuxième, nous voulons éviter que
l’agglomération de points suive une courbe. Cette prémisse semble aussi
respectée. Nous respectons donc la plupart des prémisses, le modèle est donc
probablement valide, mais gagnerait certainement en précision en
éliminant les valeurs extrêmes.

92
92
Test d’association

93
ANALYSES BIVARIÉE

Les descriptions faites sur les variables soulèvent toute une série de
questions sur leurs relations, qui devront être mises en lumière en les
rapprochant deux à deux dans des analyses bivariée. Les tris croisés, par
exemple, permettent d'examiner les relations entre deux ou plusieurs
variables. Ces relations peuvent être symétriques - l'analyse cherche à
mesurer la liaison entre les deux variables et à en tester la signification -
, ou dissymétriques - l'analyse cherche à expliquer les variations d'une
variable dépendante par les variations d'une variable indépendante. Ce
dernier cas appelle des méthodes explicatives (ANOVA, régression, etc.)

94
94
1. TRIS CROISÉS

Les tableaux croisés à deux ou plusieurs modalités sont en


général complétés par des mesures d'association qui permettent de
démontrer la signification statistique d'une association observée
entre les variables.
Les tris croisés ont pour objet de rassembler dans un tableau
unique les distributions de fréquences ou d'effectifs de deux ou
plusieurs variables. Ce premier outil d'analyse des relations entre
deux variables, ou relations bi-variée, permet de soupçonner
l’existence d’association entre les variables. (par exemple: « Les
hommes dépensent-ils plus que les femmes sur le point de vente? » ;
voir même « Le sexe et le nom ont-ils une influence sur le montant
moyen dépensé? »)…

95
95
Tests et mesures d'association
de deux variables à caractère qualitatif

Les tris croisés ne permettent pas de démontrer l'existence


d'une association de deux variables du point de vue
statistique. Pour mesurer véritablement la relation entre les
variables, il est nécessaire de mettre en place des tests de
signification statistique de l'association.

96
Test d'indépendance : Le test de Khi-deux

Le test de khi-deux couramment utilisé cherche à tester


l'indépendance des variables qualitatives présentées dans un tableau
croisé. Nous cherchons à vérifier si l'association des deux variables
est suffisamment forte pour que l'hypothèse nulle de leur
indépendance puisse être rejetée.

97
PRINCIPE DU TEST
Le principe est de comparer la distribution observée (Oij)' c'est-à-dire les
effectifs que l'on peut lire dans le tableau croisé, à une distribution
théorique (Tij) qui correspond à l'hypothèse selon laquelle les deux
variables sont indépendantes. Normalement, si les variables étaient
indépendantes, l'effectif observé ne devrait dépendre que des effectifs
marginaux, c'est-à-dire de l'effectif total de chaque modalité.

98
98
EXEMPLE DE CALCUL DE LA « DISTRIBUTION THÉORIQUE (TIJ) »

Possèdent Possèdent Total


une carte pas de carte
fidélité fidélité

200
Hommes

400
Femmes

300 300 600


Total

99
99
TAF: CALCULER LES FRÉQUENCES THÉORIQUES
Possèdent Possèdent pas Total
une carte de carte fidélité
fidélité
250 750 1 000
Hommes

150 450 600


Femmes

400 1 200 1 600


Total

25% des clients possèdent une carte fidélité

100
La statistique 2

Le 2 observé sur l'échantillon se calcule de la manière suivante:

  
2
r c O ij  Tij 
2

i 1 j 1 Tij
Où:
i = numéro de la ligne;
j = numéro de la colonne;
r = nombre de lignes, c'est-à-dire le nombre de modalités de la variable présentée en
lignes;
c = nombre de colonnes, c'est-à-dire le nombre de modalités de la variable présentée en
colonnes.

101
101
r c O  Tij 
2

TAF: CALCULER LA VALEUR DE  


2

i 1 j 1
ij

Tij

Reprenons le même exemple des clients fidèle sachant que les données collectées auprès de
l’échantillon sont les suivantes:

Possèdent Possèdent pas Total


une carte de carte fidélité
fidélité
T O T O

250 220 750 780 1 000


Hommes

T O T O

150 180 450 420 600


Femmes

400 1 200 1 600


Total

 
2 220  250  780  750  180  150  420  450 
2

2

2

2
 12,8 102
250 750 150 450 102
Procédure de test

1- Emission des hypothèses.


H0 : Il n’y a pas d’association entre les deux variables.
H1 ; Il existe une relation statistiquement significative entre
les deux variables.

2- Règle de décision : Nous rejetons l’hypothèse nulle (Nous


concluons que la relation existe) si :
2 > 2 0,05 [(r-1)(c-1)]

103
103
La loi du 2 suit une distribution asymétrique dont la forme dépend
du nombre de degrés de liberté n. Le nombre de degrés de liberté varie
en fonction du nombre de modalités des variables et se calcule de la
manière suivante: (r-1)(c -1).

dl=1
dl=2
dl=3
dl=5

104
EXTRAIT DE LA LOI DU KHI-DEUX
ddl \ α 0.01 0.02 0.05 0.1 0.15 0.2

1 0.000 0.001 0.004 0.016 0.036 0.064

2 0.020 0.040 0.103 0.211 0.325 0.446

3 0.115 0.185 0.352 0.584 0.798 1.005

4 0.297 0.429 0.711 1.064 1.366 1.649

5 0.554 0.752 1.145 1.610 1.994 2.343

6 0.872 1.134 1.635 2.204 2.661 3.070

7 1.239 1.564 2.167 2.833 3.358 3.822

8 1.647 2.032 2.733 3.490 4.078 4.594

9 2.088 2.532 3.325 4.168 4.817 5.380

10 2.558 3.059 3.940 4.865 5.570 6.179

11 3.053 3.609 4.575 5.578 6.336 6.989

12 3.571 4.178 5.226 6.304 7.114 7.807

13 4.107 4.765 5.892 7.041 7.901 8.634

14 4.660 5.368 6.571 7.790 8.696 9.467

 
2 220  250  780  750  180  150  420  450 
2

2

2

2
 12,8
250 750 150 450 105
105
Pour notre exemple nous rejetons l'hypothèse nulle d'indépendance
entre les variables puisque 2 calculé est supérieur à la valeur de
référence du 2 se trouvant dans la table de khi-Deux pour 1
degrés de liberté (en lignes dans la table) et pour un (niveau de
risque fixé généralement à 5).

2 > 20,05 [(r-1)(c-1)]


12,8 > 0,004

Conclusion: Les deux variables sont significativement associées.

106
Les logiciels statistiques, dont SPSS, donnent une signification ou p-
value, s'interprétant comme le niveau risque de se tromper en rejetant
H0 . Ainsi, si elle est inférieure à 5 %, on rejette l'hypothèse
d'indépendance entre les deux variables, qui sont alors
significativement associées.
Il est important de noter que ce test est assez sensible à la taille de
l'échantillon, à la taille du tableau croisé et que, normalement,
chaque case du tableau devrait avoir un effectif théorique au moins
égal à cinq. Si l'on cherche à établir le profil des clients les plus
fidèles en croisant le statut marital et la possession d'une carte de
fidélité, par exemple, le test du khi-deux permettra de définir si ces
deux variables sont indépendantes.

107
108
109
Puisque la signification du
test de Khi-Deux est
inférieure au seuil classique
5% nous rejetons l’hypothèse
nulle indépendance du
statut marital et de la
possession d’une carte
fidélité.

110
Nous avons créé un tableau croisé dans SPSS selon la procédure
présentée plus haut et sélectionné le test du khi-deux dans le menu
Statistiques de la boîte de dialogue Tableaux croisés. La valeur du t est à
la fois élevée et supérieure à la valeur critique correspondant au seuil de
signification statistique de 0,05 (nous obtenons 0,035). Ce résultat nous
permet de rejeter l'hypothèse nulle (<< Marital et carte sont
indépendantes ») et de conclure qu'il existe bien une relation entre le
statut marital et la possession d'une carte de fidélité dans la population
observée.

111
Indicateurs mesurant la force de l'association

Dans le cas particulier des tableaux carrés 2 x 2 (2 lignes et 2 colonnes),


qui comparent deux variables à deux modalités, il est recommandé
d'appliquer une correction au 2 , ou d'utiliser le coefficient phi .
Celui-ci correspond à la racine carrée du 2 divisé par la taille de
l'échantillon, soit:
2

n
Le coefficient de contingence (C) peut être appliqué pour des mesures
d'association sans contrainte de taille de tableau.
2
C
2 n
Le coefficient d'association prédictive (lambda) permet de mesurer
dans quelle proportion une variable qualitative indépendante
influence une variable qualitative dépendante. C'est donc une
mesure dissymétrique qui - contrairement aux précédentes - a
pour objet une force de prédiction.
On peut mesurer la force de la relation entre les deux variables
par le biais de l’indice V de Cramer :
2
V 
n( L  1)
n =nombre d’observations (total des fréquences)
L = minimum des lignes et des colonnes du tableau
0 <V<1
114
INTERPRÉTATION QUALITATIVE DE LA STATISTIQUE V

115
ANALYSE FACTORIELLE EXPLORATOIRE

116
ANALYSE FACTORIELLE EXPORATOIRE

Dans les autres méthodes (régressions, analyse de variance,


etc.), les variables sont considérées soit dépendantes, soit
indépendantes, alors que dans l'analyse factorielle, toutes
les variables sont considérées chacune par rapport aux
autres. Les facteurs sont formés pour expliquer l'ensemble
des variables et non pour prédire des variables
dépendantes. Dès lors, l'analyse factorielle est appropriée
dans une optique exploratoire (analyse factorielle
exploratoire: AFE).

117
Simplification de données

118
1 - Principes de validation d'une échelle de
mesure (Etude de marché)

1.1. La validité d'une échelle de mesure

1.2. La fiabilité d'une échelle de mesure

Les principes de validation d'une échelle de mesure, les notions de validité


et de fiabilité serons traités en ETUDES DE MARCHE. Seule l'analyse
factorielle et ses applications sont développées

119
Les utilisations de l'analyse factorielle
L'analyse factorielle fait ressortir les dimensions sous-
jacentes en regroupant différentes variables. Une fois
interprétés, ces regroupements décrivent les données de
manière synthétique.

Autrement, lanalyse factorielle est utilisée pour décrire les


données en un nombre restreint de facteurs. Elle sert aussi à
donner des représentations graphiques simplifiées de matrices de
nombres difficiles à lire .

120
Les conditions et options de l'analyse
factorielle

En fonction des caractéristiques de l'échantillon et des


données collectées, plusieurs options sont possibles pour la
réalisation d'une AFE.

A- La taille de L'échantillon nécessaire


La taille de l'échantillon dépend du nombre d'items
soumis à l'AFE. Il faut un minimum de 5 observations par
item (un ratio de 10 pour 1 est préférable). Le nombre total
d'observations doit être d'au moins 50 et il est souhaitable
d'interroger au moins 100 individus.

121
B- L’adéquation des données
Avant de réaliser l'analyse, il est important de s'assurer
que les données sont factorisables. Elles doivent former un
ensemble cohérent pour pouvoir y chercher des dimensions
communes qui aient un sens (Evrard et al., 2009).
Plusieurs indicateurs peuvent être utilisés, notamment:
La « Measure of Sampling Adequacy » (MSA) ou
Kaiser- Meyer-Olkin (KMO) teste si les corrélations
partielles entre les variables ne sont pas trop faibles.
Des valeurs de KMO comprises entre 0,3 et 0,7
représentent des solutions factorielles tout juste
acceptables. Il est préférable que le KMO dépasse le
seuil de 0,7.
Le test de Sphéricité de Bartlett est assez peu utile.
122
C- Le critère du pourcentage de variance:

Il s'agit d'une approche par laquelle nous observons les


pourcentages cumulés de la variance extraite par les
facteurs successifs. L'objectif est de s'assurer que l'ensemble
des facteurs retenus explique une quantité significative de
variance en dépassant un certain seuil fixé au préalable.
Il est souvent conseillé d'imposer un pourcentage
de variance expliquée égal à 60%*, mais ce seuil doit
être adapté aux objectifs poursuivis. Ce critère, qui a pour
objectif d'éviter une forte déformation de l'information,
peut parfois être celui à privilégier.

* Hair et al., 2006


123
D- L’extraction des facteurs

Il n'existe pas de base quantitative exacte pour déterminer le nombre


de composantes principales à retenir.
Choisir un nombre de composantes principales, c'est arbitrer entre:
- La volonté de résumer les données qui pousse à en retenir peu et
celle de
- Ne pas déformer excessivement l'information.
Trois critères peuvent être utilisés: L'« eigenvalue », ou règle des
valeurs propres ou règle de Kaiser-Guttman : Une valeur
propre représente la quantité d'informations capturée par un
facteur. Un facteur qui aurait une valeur propre inférieure à 1
représenterait moins d'informations qu'un simple item initial.

124
La méthode d'extraction utilisée

La méthode d'extraction la plus employée est l'analyse en composantes


principales (ACP). En effet, l'ACP substitue à N variables initiales n
composantes. Ce petit nombre de variables nouvelles synthétisent les
données et autorisent des représentations graphiques sur des plans.

125
125
La rotation permet d'identifier des groupes de
variables fortement liés les uns aux autres. En faisant
tourner le système d'axe, la rotation minimise la distance
entre les variables et les axes de telle sorte que chaque item
initial ne soit fortement corrélé qu'à un seul facteur.
Lorsque les axes sont maintenus à 90 degrés, on
parle de rotation orthogonale; lorsque les axes ne sont
pas contraints à être indépendants, c'est-àdire non corrélés
entre eux, on parle de rotation oblique. À noter que dans la
solution factorielle obtenue sans rotation, les axes sont
orthogonaux, c'est-à-dire que les composantes principales
partagent une corrélation nulle.

126
126
Il existe plusieurs méthodes de rotation:
Varimax: (méthode la plus courante) rotation
orthogonale qui minimise le nombre de variables ayant de fortes
corrélations sur chaque facteur. Simplifie l'interprétation des
facteurs .
Oblimin direct: Rotation oblique, c'est-à-dire dans
laquelle les axes se positionnent en fonction des items et ne sont
donc pas orthogonaux.
Quartimax: Méthode qui minimise le nombre de
facteurs requis pour expliquer chaque variable. Simplifie
l'interprétation des variables observées.
Equamax : Méthode de rotation qui minimise à la fois le
nombre de variables qui pèsent fortement sur un facteur et le
nombre de facteurs requis pour expliquer une variable.
(combinaison des méthodes Varimax et
Quartimax)

127
Résumé : RLS

Pr. BOULAHOUAL Adil


R  0,70 Relation très forte
0,50  R  0,69 Relation forte
0,30  R  0,49 Relation modérée
0,10  R  0,29 Relation faible
R : Le coefficient de corrélation mesure la force de la relation entre deux variables. 0,01  R  0,09 Relation très faible
R 0,00 Relation nulle
R2 ou R-Deux : Mesure la part expliquée de la variable dépendante par la variance de la variable =

indépendante.
Exemple : Variable dépendante : Rendement
Variable indépendante : Motivation.
Si R2 est égale à 0,76 veut dire que 76% de la variance du rendement est expliquée par la variance de la motivation.

ETAPE DE LA REGRESSION LINEAIRE SIMPLE

1- La spécification du modèle consistant à tracer le nuage de point - dit encore diagramme de dispersion - et à soupçonner l’existence et le
type de la relation entre les deux variables.
Procédure sous SPSS : Analyse – Régression – Ajustement de fonction.

2- La validation du modèle se fait à travers plusieurs indicateurs et nous retenons l’analyse de la variance(ANOVA)
Règle de décision : Si la signification de l’ANOVA est inférieure au seuil choisi (α) nous acceptons le modèle, autrement nous confirmons
l’existence de relation entre la variable à expliquer et la variable explicative.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Qualité de l’ajustement.
N.B : Dans le cas de la régression linéaire simple, la signification de la variable explicative et la signification de l’ANOVA sont égales.

3- L’estimation des paramètres β0 et β1 : Autrement calculer la b0 et la b1 .

Chapitre I : régression linéaire simple « résumé »


Deux types d'estimations existent : Des estimations ponctuelles et d’autres par intervalle de confiance.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Estimation –Intervalle de confiance.
N.B : Pour le modèle linéaire simple, lorsqu’il est validé par l’analyse de la variance nous n’avons pas à tester les hypothèses car d’office la
signification de la variable indépendante serait inférieure au seuil choisi. De plus, si l’intervalle de confiance de la β0 contient la valeur zéro(0)
ceci n’influence en aucun cas l’existence de relation entre la variable explicative et expliquée, autrement la fonction y= β0+ β1x
deviendrait y= β1x .
Par contre si l’intervalle de la β1 contient la valeur zéro, la fonction s’écrirait y= β0 ce qui veut dire qu’il n’existe pas de lien entre la variable x
et la y.

1
Pr. BOULAHOUAL Adil
Récapitulatif des modèles
Exercice d’application : Voulons vérifier l’impact du revenu sur le Modèle R R-deux R-deux ajusté Erreur standard de
rendement au seuil de confiance de 95% nous avons opté pour une régression
l'estimation
linéaire simple entre ces deux variables et nous avons obtenu les tableaux
suivants : 1 ,837a ,700 ,691 186,174
a. Valeurs prédites : (constantes), REVENU

R = 0,837 : La relation entre le rendement et le revenu est très forte.


R2 = 0,700 : 70% de la variance du rendement est expliquée par la variance de la motivation.
a
ANOVA

Modèle Somme des carrés ddl Moyenne des carrés D Sig.

Régression 2592523,203 1 2592523,203 74,797 ,000b

1 Résidu 1109145,033 32 34660,782

Total 3701668,235 33
a. Variable dépendante : RENDEMENT
b. Valeurs prédites : (constantes), REVENU
Le modèle linéaire exprimant le rendement en fonction de la constante et du revenu doit être retenu puisque la signification de l’ANOVA
(0,000) est largement inferieur au seuil de signification fixé au départ (0,05).
a
Coefficients
Statistiques
Modèle Coefficients non standardisés Coefficients t Sig. 95,0% % intervalles de confiance pour B
RENDEMENT REVENU
standardisés

Chapitre I : régression linéaire simple « résumé »


Ecart-
A Erreur standard Bêta Borne inférieure Limite supérieure 334,921 1082,228
type
(Constante) -425,163 124,930 -3,403 ,002 -679,636 -170,689
1
REVENU ,259 ,030 ,837 8,649 ,000 ,198 ,320
a. Variable dépendante : RENDEMENT
La b1 est égale à -425,163 et la b0 est égale à 0,259, et au niveau de confiance de 95% : - 679,636 ≤ β0 ≤ - 170,689 et 0,198 ≤ β1 ≤ 0, 320
La relation entre le rendement et le revenu peut-être écrite comme suit :
Selon la vision médiane : Le rendement = - 425,163 + 0,259 * le revenu
Selon la vision ‘‘pessimiste’’ : Le rendement = - 679,636 + 0,198* le revenu
Selon la vision ‘‘optimiste’’ : Le rendement = - 170,689 + 0,320* le revenu
Nous pouvons dire encore que lorsque le revenu augmente de 1082,228 le rendement augmente de 334,921*0,837.

2
d’auto-corrélation est recommandé. Pour vérifier la normalité de distribution des termes d’erreurs ; la signification du test de Kolmogrov-
Smirnov ou selui de Shapiro-Wilks doivent être supérieures au seuil choisi.
Procédure sous SPPS : Analyse – Régression – Linéaire – Diagramme ( Y : ZRESID ; X : ZPRED) - Graphes de répartition gaussiens avec tests
- résidus standardisés. Pour l’homoscédasticité les points doivent être répartis aléatoirement autour de 0 (ne pas former d’entonnoir) et
leur agglomération ne suit pas une courbe.

Cas possibles :
1- Le seuil de l’ANOVA  α avec respect des prémisses: Rejeter le modèle;
2- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi, nous les gardons dans le modèle
avec possibilité d’amélioration si leurs significations sont supérieures à la signification de l’ANOVA;
3- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi sauf une nous la retirons de notre
modèle ;
4- Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons vérifier si
elles sont corrélées (présence de colinéarité). Si elles ne le sont pas nous les retirerons de notre modèle, si elles le sont, soit nous
éliminerons une d’elles soit nous les remplacerons par leur moyenne. Nous retenons le modèle qui expliquerait la plus grande part
de la variance de variable dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations
inférieures à α ;
5- Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes nous les
remplacerons par une variable qui les représente ( facteur, score, moyenne, etc,) si elles sont corrélées sinon nous les supprimons.
N.B : Il ne faut pas oublier de vérifier les prémisses pour que le modèle soit opérationnel.

1er cas : Seuil de l’ANOVA  α : Rejeter le modèle et retourner à la table à dessin pour construire et tester un autre modèle.

ANOVAa
Modèle Somme des carrés ddl Moyenne des carrés D Sig.
Régression ,559 2 ,280 ,059 ,944b
<1 Résidu 9,441 2 4,720 La signification de l’ANOVA ( La probabilité de se
Total 10,000 4 tromper en acceptant la relation linéaire entre le montant
a. Variable dépendante : Montat.de.la.facture de la facture d’un côté et le Revenu et le nombre d’enfants
b. Valeurs prédites : (constantes), nombre d’enfants, Revenu d’un autre) est de 94,4% !!! Le modèle est rejeté d’office.

2ème cas : Le modèle est admis dans sa globalité et toutes NB : La signification de l’ANOVA ne devrait en aucun
les variables
explicatives ont des significations inférieures au seuil choisi : cas être supérieure à 50%.
2
Résumé : RLM

1- La validation du modèle
Règle de décision : Si la signification de l’ANOVA est inférieure au seuil choisi (α) nous acceptons le modèle dans sa globalité, autrement,
nous confirmons l’existence de relation entre la variable à expliquer et au moins une des variables explicatives.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Qualité de l’ajustement
N.B : Dans le cas de la régression linéaire multiple, même si la signification de l’ANOVA est inférieure au seuil choisi, celà ne veut pas
dire que toutes les variables dans le modèle sont explicatives. Alors il faut vérifier la signification de chaque variable indépendante.
2- L’estimation des paramètres β0, β1 , β3 , β4 ….. βn : Autrement calculer la b0, b1 , b2 , b1....... bn
Deux types d'estimations existent : Des estimations ponctuelles et d’autres par intervalle de confiance.
Procédure sous SPSS : Analyse – Régression – Linéaire – Statistiques – Estimation –Intervalle de confiance.
N.B : Pour le modèle linéaire multiple, même s’il est validé par l’analyse de la variance nous devons tester les hypothèses. Mentionnons
que si l’intervalle de confiance de la β0 contient la valeur zéro(0) ceci n’influence en aucun cas l’existence de relation entre la variable
explicative et expliquée, autrement la fonction Y= β0+ β1x1 + β2x2 + β3x3 + β4x4 +……βnxn deviendrait Y= β1x1 + β2x2 + β3x3 + β4x4 +… βnxn.
Par contre si les intervalles des βi contiennent la valeur zéro la fonction s’écrirait y= β0 ce qui veut dire qu’il n’existe pas de lien entre les
variables Xi et la Y.
3- Vérification des prémisses de la régression linéaire
Remarque : Parfois, la signification de l’ANOVA est inférieure au seuil choisi mais les significations des variables indépendantes sont
presque toutes supérieures à la signification de l’ANOVA ce qui est contradictoire. Là, avant la vérification des prémisses de la régression
linéaire, il faut tester la colinéarité ou la multi-colinéarité, autrement s’assurer de l’indépendance des variables explicatives.
La valeur du facteur d’inflation de la variance « VIF » (ou la tolérance qui est l’inverse du VIF (1/VIF)) permet de vérifier la prémisse de
multi-colinéarité. Une valeur VIF proche de 1 est souhaitable. Si elle est égale à dix (10) il y à un problème sérieux de colinéarité.
Si la corrélation entre deux de ces variables se situait à 0,9 (ou – 0,9) nous aurions introduit deux variables qui mesuraient sensiblement
la même chose.
Solutions : Lorsque nous avons deux variables indépendantes fortement corrélées nous devons éliminer une des deux variables ou les
remplacer par une variable qui les représente et choisir le modèle qui arriverait à expliquer la plus grande part de la variance de notre
variable dépendante. Par contre lorsque plusieurs variables indépendantes sont corrélées nous serons dans l’obligation de faire appel
à l’ACP (Analyse en composantes multiples) pour les regrouper puis les remplacer une variable qui les représente ( plusieurs solution sont
envisageables : facteur, moyenne, sommation, etc.) Attention, ce ne sont que des procédures automatiques. Il faut les voir comme des scénarios que nous soumettons
(faire valider) à l’expertise du domaine.
Plus la valeur de la statistique de Durbin-Watson est près de deux (2), moins il y a de problème au niveau de l’indépendance des termes
d’erreurs. Pour une interprétation plus précise se référer à la table de Durbin-Watson, puis un corrélogramme pour compléter l’analyse

1
d’auto-corrélation est recommandé. Pour vérifier la normalité de distribution des termes d’erreurs ; la signification du test de Kolmogrov-
Smirnov ou selui de Shapiro-Wilks doivent être supérieures au seuil choisi.
Procédure sous SPPS : Analyse – Régression – Linéaire – Diagramme ( Y : ZRESID ; X : ZPRED) - Graphes de répartition gaussiens avec tests
- résidus standardisés. Pour l’homoscédasticité les points doivent être répartis aléatoirement autour de 0 (ne pas former d’entonnoir) et
leur agglomération ne suit pas une courbe.

Cas possibles :
1- Le seuil de l’ANOVA  α avec respect des prémisses: Rejeter le modèle;
2- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi, nous les gardons dans le modèle
avec possibilité d’amélioration si leurs significations sont supérieures à la signification de l’ANOVA;
3- Le seuil de l’ANOVA ≤ α et toutes les variables ont des significations inférieures au seuil choisi sauf une nous la retirons de notre
modèle ;
4- Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons vérifier si
elles sont corrélées (présence de colinéarité). Si elles ne le sont pas nous les retirerons de notre modèle, si elles le sont, soit nous
éliminerons une d’elles soit nous les remplacerons par leur moyenne. Nous retenons le modèle qui expliquerait la plus grande part
de la variance de variable dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations
inférieures à α ;
5- Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes nous les
remplacerons par une variable qui les représente ( facteur, score, moyenne, etc,) si elles sont corrélées sinon nous les supprimons.
N.B : Il ne faut pas oublier de vérifier les prémisses pour que le modèle soit opérationnel.

1er cas : Seuil de l’ANOVA  α : Rejeter le modèle et retourner à la table à dessin pour construire et tester un autre modèle.

ANOVAa
Modèle Somme des carrés ddl Moyenne des carrés D Sig.
Régression ,559 2 ,280 ,059 ,944b
<1 Résidu 9,441 2 4,720 La signification de l’ANOVA ( La probabilité de se
Total 10,000 4 tromper en acceptant la relation linéaire entre le montant
a. Variable dépendante : Montat.de.la.facture de la facture d’un côté et le Revenu et le nombre d’enfants
b. Valeurs prédites : (constantes), nombre d’enfants, Revenu d’un autre) est de 94,4% !!! Le modèle est rejeté d’office.

2ème cas : Le modèle est admis dans sa globalité et toutes NB : La signification de l’ANOVA ne devrait en aucun
les variables
explicatives ont des significations inférieures au seuil choisi : cas être supérieure à 50%.
2
ANOVAa Coefficientsa
Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle Coefficients non Coefficients t Sig.
Régression 37793146,076 2 18896573,038 68,3542 ,000b standardisés standardisés
A Erreur Bêta
1 Résidu 85699,8042 31 2764,509
standard
Total 38650144,118 33 (Constante) 1340,800 81,000 13,916 ,000
a. Variable dépendante : Rendement -
b. Valeurs prédites : (constantes), malaise personnel, congés, moyenne Malaise personnel 15,198 -,229 -6,568 ,000
1 90,151
CONGéS 13,324 1,472 1,109 11,766 ,000
MOYNNE.MOT.AMBIT 1,727 ,315 1,133 5,485 ,032
a. Variable dépendante : Rendement

3èmecas : Le modèle est admis dans sa globalité et toutes les variables explicatives ont des significations inferieurs au seuil choisi
sauf une : IL FAUT LA RETIRER ET REFAIRE L’ANALYSE.
ANOVA Coefficients
Modèle Somme des carrés ddl Moyenne des carrés D Sig. Modèle Coefficients non Coefficients t Sig.
Régression 37637408,077 2 18818704,038 576,043 ,000b standardisés standardisés
A Erreur standard Bêta
Résidu 1012736,041 31 32668,905
1
(Constante) 1366,839 94,641 14,442 ,000
Total 38650144,118 33 1 MOTIVATION 674,274 22,523 -,242 -7,738 ,000
a. Variable dépendante : RENDEMENT b. Valeurs prédites : Constante, Mtivation, Primes 16,398 ,488 1,049 33,586 ,000
primes
a. Variable dépendante : RENDEMENT

La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique 5%) donc le modèle est admis dans sa globalité au niveau de confiance de 95% mais il faut
vérifier les significations des prédictuers. Puisque toutes les significations sont ≤ 5%, il faut alors juste vérifier les prémisses de la régression linéaire.
Le rendement = 1366,839 + 174,274*MOTIVATION + 16,398*Primes

4èmecas Le seuil de l’ANOVA ≤ α et toutes et les variables ont des significations inférieures au seuil choisi sauf deux, nous devons
vérifier si elles sont corrélées (présence de colinéarité).

3
Le modèle est admis mais certaines variables ont des significations supérieures au seuil choisi. Tableau ci-après. Nous soupçonnons
l’existence de multi-colinéarité entre celles-ci. Alors nous devons calculer le coefficient de corrélation, le VIF, ou la tolérance pour
vérifier ce constat.

Somme des carrés ddl Moyenne D Sig. Modèle A Bêta sig


Modèle des carrés (Constante) 1359,603 ,000
Régression 37667618,627 4 9416904,657 277,947 ,000b MOTIVATION ,067 ,022 ,503
1 Résidu 982525,491 29 33880,189 1 Malaise personnel -164,951 -,229 ,000
Total 38650144,118 33 Congés 17,324 1,109 ,000
a. Variable dépendante : Rendement AMBITION 1,151 -,072 ,461
b. Valeurs prédites : (constantes), Primes mensuelles, MOTIVATION, Malaise personnel, CONGéS

LA MOYENNE N’EST TOUJOURS PAS UNE SOLUTION ADMISE !!!!!!

Si la MOTIVATION et l’AMBITION ne sont pas corrélées nous devons les retirer et estimer les paramètres retenus dès le début.
Si par contre nous constatons une forte relation entre MOTIVATION et l’AMBITION, soit nous éliminerons LA MOTIVATION soit l’AMBITION,

La signification de l’ANOVA est de 0,000 ≤ 5% ( Seuil classique ) donc le modèle est admis dans sa globalité au niveau de confiance de 95 % ainsi que les signification des
variables indépendantes. Il faut vérifier les prémisses de la régression linéaire.
MOTIVATION+AMBITION
Le rendement = 1340,800 - 90,151*malaise personnel + 13,324*Congés+ 1,727* ( )
2

ou encore nous les remplacerons par leur moyenne et nous retenons le modèle qui expliquerait la plus grande part de la variance de
variable dépendante (R-Deux le plus élevé) à condition que toutes les variables aient des significations inférieures à α.

Focus : Calcul de la moyenne de deux ou plusieurs variables


Procédure sous SPPS : Transformer – Calculer la variable – groupe de fonctions- statistique- double clic sur Mean – saisir le nom ou faire
glisser les variables corrélées entre parenthèses séparées par de virgules- saisir le nom de la nouvelle variable à créer – ok.
Maintenant que nous avons nos trois créé la nouvelle variable (moyenne de la MOTIVATION et de l’AMBITION) nous devons estimer les
paramètres retenus dès le début.

5èmecas Le seuil de l’ANOVA ≤ α et presque toutes les variables ont des significations inférieures au seuil choisi sauf quelques unes.
Nous les remplacerons par une variable qui les représente ( facteur, score, moyenne, etc,) si elles sont corrélées, sinon nous les
supprimerons.
4

Vous aimerez peut-être aussi