Mise en contexte
Le nombre d’années d’expérience et le
nombre d’erreurs commises ;
L’âge du conducteur et le nombre
d’accidents d’auto ;
Le volume des ventes et les dépenses en
publicité ;
Le nombre d’heures d’études et les résultats
aux examens ;
…
2
Pr. BOULAHOUAL Adil
Mise en contexte
◦ Existe-il une relation ou une dépendance
entre les variables statistiques?
◦ Cette relation, si elle existe, est-elle linéaire
ou non ?
◦ Si une dépendance linéaire existe, de quelle
façon peut-on la traduire par une équation
mathématique ?
◦ La corrélation, si elle existe, est-elle forte ou
faible ?
◦ Si l’équation mathématique de la relation
entre les variables existe, comment prévoir
les valeurs d’une certaine variable à partir de
la connaissance de valeurs de l’autre variable 3
Pr. BOULAHOUAL Adil
Modèle Économique
Un modèle consiste en une présentation
formalisée d’un phénomène sous forme
d’équations mathématiques.( normalement en
économétrie et comme toutes les variables économiques sont
Inférence statistique
interdépendantes (notion de système), il n'est pas suffisant de construire des
équations isolées mais plutôt il faut établir un système complet d‘équations.)
Elle consiste alors à effectuer des études
sur l’échantillon et transposer les résultats
sur la population.
Cette transposition n’est pas stricte, elle
attache toujours une probabilité aux
résultats et aux conclusions émises.
4
Pr. BOULAHOUAL Adil
CHAPITRE I
La régression linéaire
5
Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil
L’analyse de la régression est une
méthode statistique qui permet d’étudier
le type de relation pouvant exister entre
une certaine variable (dépendante) dont
on veut expliquer les valeurs et une ou
plusieurs autres variables qui servent à
cette explication (variables
indépendantes)
En d’autres termes, l’analyse de la
régression permet d’étudier les variations
de la variable dépendante en fonction des
6
Pr. BOULAHOUAL Adil
Le coût du loyer en fonction du nombre de pièces, du
niveau d’étage dans l’immeuble, des services offerts ...
Y f ( X 1 , X 2 , X 3 ,..., X n )
Nombre de pièces
Coût du loyer
Services offerts
(piscine, stationnement intérieur, etc.)
L’étage dans l’immeuble …
Pr. BOULAHOUAL Adil
Une analyse de régression est :
- dite simple si elle permet de prédire
les valeurs d’une variable dite
dépendante (expliquée, endogène,Y ) à
partir des valeurs prises par une autre
variable dite indépendante (exogène,
explicative, X ).
- dite multiple si elle permet de prédire
les valeurs d’une variable dite
dépendante à partir des valeurs prises
par plusieurs autres variables dites
indépendantes Xi).Pr. BOULAHOUAL Adil 8
Nuage de points ou
diagramme de dispersion
Exemple : Nuage de points ou diagramme de dispersion
Supposons que le nombre d’heures
d’études nécessaires pour préparer
l’examen final en statistiques et le nombre
de bonnes réponses obtenues par chaque
étudiant sont donnés dans le tableau
suivant
Heures d’études : 5 8 6 9 10 8 5 4 10 4 10 7 9
Bonnes réponses 5 8 7 9 10 7 4 4 8 2 9 6 8
9
Pr. BOULAHOUAL Adil
Exemple : Nuage de points ou
diagramme de dispersion
10
Pr. BOULAHOUAL Adil
Objectif de la représentation graphique du nuage de point
Une fois la représentation graphique
effectuée, il est facile de soupçonner
l’existence d’une certaine relation entre
les deux variables (caractères étudiés). Il
faut maintenant chercher à exprimer cette
relation à l’aide d’une équation
mathématique. Y f ( X )
Nous essayerons de trouver la forme mathématique de la fonction f
11
Pr. BOULAHOUAL Adil
Définition : Nous appelons régression
linéaire l’ajustement d’une droite au
nuage statistique d’une série de couples
de données.
Ainsi, une régression linéaire simple va
permettre de résumer, d’interpréter et de
prévoir les variations d’un caractère dit
dépendant (Y) en fonction d’un autre dit
indépendant (X) et ce en utilisant une
droite.
12
Pr. BOULAHOUAL Adil
Modèle théorique de régression linéaire
simple
y = 0 + 1x +
Équation de la régression linéaire
simple (comment l'espérance de y est
liée à x)
E(y) ^ = 0 + 1x
y b0 b1 x
Équation estimée de la régression
linéaire simple
y^ : = Variable dépendante (modèle empirique)
ou expliquée
= valeur estimée de y pour une valeur x
0 et 1 = Coefficients théoriques de régression (à estimer à l’aide d’un échantillon par b0 et b1 )
= Erreur théorique
x = Variable aléatoire (d’autres
indépendante facteurs influencent Y)
ou explicative
Pr. BOULAHOUAL Adil
L'équation estimée de la régression
linéaire simple (droite de la régression
estimée, modèle empirique) peut être
utilisée pour une estimation ponctuelle
de la valeur moyenne de y pour une
valeur particulière de x ou pour prévoir
la valeur ponctuelle
y^ b0 de
b1 xy associée à une
valeur particulière de x
y = Variable dépendante
^
y = valeur de prévision de y pour une valeur x;
x = Variable indépendante ou explicative
14
Pr. BOULAHOUAL Adil
Les différentes étapes d’une étude de régression
1- Spécification du
modèle
2- Validation du modèle
3- Estimation des
paramètres
4- Test des hypothèses
5- Application du modèle
15
Pr. BOULAHOUAL Adil
1- Spécification du modèle
Diagramme de dispersion
10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8 10
Heures d'études
Extrapolation Estimation Extrapolation
16
Pr. BOULAHOUAL Adil
Il existe plusieurs méthodes permettant
0 modèle
y le
d’estimer 1 x théorique
par le modèle empirique
ŷ b0 b1 x
Méthode des moindres carrés
Méthode de la vraisemblance
…
17
Pr. BOULAHOUAL Adil
La méthode des moindres carrés
Idée de base : Cette méthode essaie de
construire une droite de régression
empirique qui minimise la somme des
carrés des distances verticales entre
cette droite et chacun des points
observés. min (yi yˆ i ) 2
18
Pr. BOULAHOUAL Adil
Heures d’études 5 8 6 9 10 8 5 4 10 4 10 7 9
Bonnes réponses 5 8 7 9 10 7 4 4 8 2 9 6 8
Illustration graphique
Diagramme de dispersion
10
9
8
7 ( xi , yˆ i )
6
5 ( xi , yi )
4
3
2
1
0
0 2 4 6 8 10
Heures d'études
min (yi yˆ i ) 2
19
Pr. BOULAHOUAL Adil
Définition : nous appelons résidu ou
erreur empirique ou écart de ^ prévision, la
valeur ei = yi – yi , soit la différence
^
(l’écart vertical) entre la valeur observée
yi et la valeur estimée yi obtenue à
partir de la droite de régression, lorsque
x = L’objectif
xi . de la méthode des moindres carrés est de n
déterminer la droite de régression qui minimise i
2
e
i 1
20
Pr. BOULAHOUAL Adil
La méthode des moindres carrés …
n
SCres e 2
1 e 2
2 e 2
3 ... e e
2 2
n
i 1
i Cette mesure donne
l’ordre de grandeur
n
de la dispersion des
SCres yi ˆyi
2
observations Yi
i 1
autour de la droite
n
de régression
SCres yi b0 b1 xi
2
i 1
Il s’agit de trouver bo et b1 de sorte
que la somme des carrés des résidus SCres
soit la plus petite possible (minimale).
21
Pr. BOULAHOUAL Adil
3- Estimation des paramètres
Principes de la méthode des moindres carrés …
Comment calculer les coefficients b0 et b1?
Les estimateurs ponctuelles des paramètres de la droite de
régression obtenues par la méthode des moindres carrés sont :
b0 y b1 x
n
Autre formule pour b1
x i y i n x y
i 1
b1 n
x i
2
n x 2
i 1
b 0 y b1 x
n
b1
( x x )( y y )
i i
( x x )
xi yi n x y 2
i 1
b1 n
i
x i2 n x 2
i 1 Taille de l’échantillon
22
Pr. BOULAHOUAL Adil
À partir des données ci-dessous,
déterminez les estimations ponctuelles
des paramètres de la droite de régression
selon la méthode des moindres carrés :
23
Pr. BOULAHOUAL Adil
n
x i y i nxy
6670 5 30 40
b1 i 1
0 , 67
n
5500 5 ( 30 ) 2
i
x 2
i 1
nx 2
yˆ 19, 9 0, 67 x
b0 y b1 x 40 0, 67 30 19, 9
24
Pr. BOULAHOUAL Adil
EXEMPLE
Une entreprise veut mener une étude sur la
relation entre les dépenses hebdomadaires en
publicité et le volume de ventes qu’elle réalise.
Nous avons recueilli au cours des dix dernières
semaines les données suivantes :
À partir des données ci-dessus, déterminez les
estimations ponctuelles des paramètres de la
droite de régression selon la méthode des
moindres carrés.
25
Pr. BOULAHOUAL Adil
À partir de ces données, il est possible de tracer
le diagramme de dispersion :
26
Pr. BOULAHOUAL Adil
Les résultats intermédiaires suivants
servent à calculer les estimations
ponctuelles des paramètres de la droite de
régression :
27
Pr. BOULAHOUAL Adil
En appliquant les formules ci-dessous,
nous obtenons les valeurs numériques de
n b0 et b1
x y i i nxy
1605 10 3, 3 46, 35
b1 i 1
3, 95
n
128 10 (3, 3) 2
i
x 2
i 1
nx 2
b0 y b1 x 46, 35 3, 95 3, 3 33, 31
yˆ 33, 31 3, 95 x
28
Pr. BOULAHOUAL Adil
La droite de régression qui permet de déterminer le volume moyen
des ventes pour un coût publicitaire donné x.
yˆ 33, 31 3, 95 x
Ordonnée à l’origine
(volume de vente Dépenses
moyen en
sans dépenser publicité
aucun dh en
publicité)
C’est
l’augmentation du
volume des ventes
(Y) pour une
augmentation Pr. BOULAHOUAL Adil 29
Interprétation des résultats et remarques…
Rq1 : Le point de cordonnées
( x, y) se
trouve sur la droite de régression.
Rq2 : Cette relation linéaire entre X et Y
est valide pour l’intervalle des valeurs de
X considérée dans l’énoncé, c’est-à-dire
de 1 à 5,5.
La droite de régression s’applique à
l’intérieur de l’étendue des valeurs
expérimentales qui ont été observées
pour la variable explicative (X). Nous
devrons donc éviter toute extrapolation
en dehors de ce domaine à moins d’être
Pr. BOULAHOUAL Adil 30
Rq3 : Pour la valeur x = 3,5 (située entre
1 et 5,5), nous pouvons utiliser la droite
de régression pour calculer la valeur
moyenne correspondante de Y
Exemple : Estimation du volume des
ventes moyen pour un coût de 3,5
millions de dollars en publicité
ŷ
hebdomadaire.
= 33,31 + 3,95 (3,5) = 47,14 millions
de dollars 31
Pr. BOULAHOUAL Adil
2- Validation du modèle
Il existe trois mesures possibles pour
quantifier l’intensité de la relation entre
X et Y:
– Le coefficient de détermination de Y
en fonction de X
– Le coefficient de corrélation entre X
et Y
– La covariance entre X et Y
32
Pr. BOULAHOUAL Adil
Coefficient
Le coefficient de détermination de Y en
de détermination
fonction de X
Le coefficient de détermination
théoriqueYX
2
de Y en fonction de X, noté
mesure la proportion de la variation de Y
qui est expliquée par la régression ou qui
est expliquée par la variable X au niveau
0
de toute la population.2
YX 1
Le coefficient de détermination indique si le
modèle linéaire défini colle aux données .
33
Pr. BOULAHOUAL Adil
En pratique YX
2
est inconnu, car nous ne
possédons pas d’information sur toute la
population mais seulement sur 2
YX un rYX2 échantillon
de taille n, alors on estimera
n
par n
.
variation expliquée ( yˆi y )
2 2
b1 ( xi x ) 2
r r
2
YX
2
i 1
n
i 1
2
variation totale
( yi y )
n
yi
2
n
i 1
i 1
i 1
y 2
i
n
rYX2 fournit une indication de la force de la liaison
possible pouvant exister entre Y et X au niveau
de la population. De plus, c’est un indice de la
2
qualité de l’ajustement
n
de la droite aux points
Rappel: expérimentaux.
n n yi
i 1
i
( y
i 1
y )2
i
y 2
i 1
n 34
Pr. BOULAHOUAL Adil
Dans quelle mesure l’équation estimée de la
régression s’ajuste-t-elle aux données?
◦ Le coefficient de détermination permet de mesurer
le degré d’adéquation
Formule pour le coefficient de détermination
r2 = SCreg/SCT
où: SCT = SCreg + SCres
i
( y y )2
i
( ˆ
y y )2
i i
( y ˆ
y )2
SCT = Somme des carrés totale (variation
totale)
SCreg = Somme des carrés de la régression 35
Pr. BOULAHOUAL Adil
n n n
( ˆyi y )
2
SCreg SCT SCres i
( y y ) i
( y 2
ˆ
y )2
r
2 i 1
n
i 1
n
i 1
SCT SCT
( yi y )
i 1
2
i
( y
i 1
y )2
n
x i2 n x 2
2 i1
r b 12 n 2 2
y i ny
i1
36
Pr. BOULAHOUAL Adil
2
Calculez
rYX pour l’exemple d’application des
coûts publicitaires et des ventes:
n
yˆ y
2
i
SCreg
r2
YX i 1
n
SCT
y y
2
i
i 1
37
Pr. BOULAHOUAL Adil
variation expliquée 298, 008
r2
YX 0, 9692
variation totale 307, 525
Puisque rYX2
est proche de 1, on peut dire que la
droite de régression s’ajuste très bien au
nuage de points.
38
Pr. BOULAHOUAL Adil
Différence entre régression et corrélation ?
39
Pr. BOULAHOUAL Adil
ryx (signe de b1 ) r 2
ryx (signe de b1 ) coefficient de détermination
où: b1 est la pente de l’équation estimée
de régression estimée (empirique)
Le coefficient de corrélation théorique
(au niveau de la population)
yx dénoté
est
ou simplement
40
Pr. BOULAHOUAL Adil
Le coefficient de corrélation peut être
déterminé de la manière suivante (ou
encore en prenant la racine carrée du
n
coefficient
( x de
x )( détermination):
y y) i i n x i yi x i yi
rXY i 1
n x xi n y yi
n n 2 2 2 2
( x
i 1
i x ) . ( yi y )
2
i 1
2
i i
• On a toujours: 1 rXY 1
• Si rXY 1 alors il existe une relation linéaire exacte entre X et Y
• Si rXY alors
0 soit que X et Y sont indépendantes, soit qu’il y a une dépendance
non linéaire entre les deux variables
• Si rXY 0 ou rXY alors
1 il existe une relation linéaire plus ou moins forte
entre X et Y
• Le coefficient de corrélation permet de voir s'il est
facile d'approcher les données par une droite.
41
Pr. BOULAHOUAL Adil
Toujours en utilisant l’exemple numérique
de la publicité et les ventes d'autos,
mesurez le degré de dépendance linéaire
entre X et Y.
Réponse
Les dépenses en publicité et les ventes varient dans le même sens
n 10
( x i x )( yi y ) ( x i 3, 3)( y i 46, 35)
75, 45
rXY i 1
i 1
0, 9845
n n 10 10
19,10 * 307, 53
( x
i 1
i x ) . ( yi y )
2
i 1
2
( x
i 1
i 3, 3) . ( y i 46, 35) 2
2
i 1
Il existe une relation linéaire très forte entre
les dépenses en publicité et les ventes
42
Pr. BOULAHOUAL Adil
Pr. BOULAHOUAL Adil
4- Test d’hypothèse ou Validation de
la droite de régression Empirique
Test d’hypothèse sur β1
Pour vérifier si l’influence de la
variable indépendante X est
significative, nous procédons à un test
d’hypothèses sur β1
Y 0 1 X
Si β1 = 0 alors peu importe les
valeurs de X, elles n’auront
pas d’impact sur Y
44
Pr. BOULAHOUAL Adil
Étapes contribuant à la validation de la droite de régression
empirique
2 théoriques
Estimer la variance des erreurs
Estimer
0 1 et par intervalle de
confiance
1
Test d’hypothèses sur
45
Pr. BOULAHOUAL Adil
Validation de la droite de régression empirique…
Estimation de la variance des erreurs théoriques 2
La précision des estimateurs b0 et b1 dépend de la valeur de la
variance des erreurs théoriques : plus sera petite, plus ces
2
estimateurs sont précis.
Puisque, en pratique, la variance
2
est inconnue, on l’estime
par le terme suivant :
n n
e 2
i ( yi yi )
ˆ 2
se2 s 2 i 1
i 1
n2 n2
46
Pr. BOULAHOUAL Adil
Estimation de b20 et b21
En pratique, les variances b20 et b21 sont inconnues, alors nous
les estimons par :
1 x 2
sb0 s n
2 2
n 2
i 1
( xi x )
s 2
sb1 n
2
( x x )2
i 1
i
47
Pr. BOULAHOUAL Adil
Yˆ 33, 31 3, 95 X
Exemple d’application …
Compléter le tableau suivant : 33,31 + 3,95 x 2 = 41,21
0.49 49.11 0.39 0.1521 7.6176
1.69 41.21 - 0.21 0.0441 26.4196
s 2
1 ,1 8 4 7
s b20 0 , 7 9 3 9
s b21 0 , 0 6 2
48
Pr. BOULAHOUAL Adil
Estimation de b1 par intervalle de confiance
L’intervalle de confiance pour estimer b1,
la pente du modèle de régression
théorique, au niveau de confiance (1 - α)
est donné
par:
b1 t / 2 sb1 Si n-2 < 30 t / 2 t ( n 2 ) d .l
b1 z / 2 sb1 Si n-2 ≥ 30 z / 2 N (0,1)
Si la valeur 0 appartient à l’intervalle de
confiance, nous devons
accepter
1
l’hypothèse nulle: =0 au niveau de
signification choisit et nous concluons qu’il
n’existe pas de relation linéaire significative 49
Pr. BOULAHOUAL Adil
D’après les données de l’exemple numérique de
la publicité et le volume de ventes d'autos,
1 intervalle de confiance pour
construisez un
au niveau 95% :
Puisque n-2 = 10 -2 = 8 < 30, alors
Table de Student
b1 t / 2 sb1
3, 95 t0 ,025 0, 062
3, 95 2, 306 0, 062
3, 3758 à 4, 5242
50
Pr. BOULAHOUAL Adil
Le test d’hypothèses va nous permettre
de vérifier si l’intervalle de confiance de
β1 ne contient pas la valeur zéro.
Deux tests sont couramment utilisés
◦ Test t ou z
◦ Test F ( Fischer)
N.B: les deux tests nécessitent une
estimation de se2, la variance des erreurs du
modèle de régression
51
Pr. BOULAHOUAL Adil
Les étapes d’un test z ou t d’hypothèses sur 1
H0 : =0
1. Énoncer les hypothèses H0 et Ha.
H1 : 1 ≠ 0
2. Préciser les conditions du test 1
La normalité de la distribution des erreurs
Le niveau de signification α
variance résiduelle
2
La est théoriquement inconnue
La loi que suit notre variable :
Si n – 2 ≥ 30, nous utilisons (Normale)
Si n – 2 < 30, nous utilisons t (Student)
b 1 b1
3. Calculer la statistique de test. z 1 Si n-2 ≥ 30
sb1 sb1
b 1 b1
t 1 Si n-2 < 30
sb1 sb1
Nous4. rejetons H0 t critique
Trouver la région sit / 2,( n au2) dlniveau det signification
t / 2,( nou
2 ) dl
a
Nous rejetons H0 si
z z / 2 z zou
/2
52
Pr. BOULAHOUAL Adil
D’après les données de l’exemple
d’application sur la publicité et le volume de
ventes d'autos, vérifiez au niveau de
signification a = 0,05 si la variance de X
explique la variance Y, à partir de la droite
de régression
Étape 1 linéaire obtenueÉtape 2
H0 : 1 = 0 n – 2 = 8 < 30, population normale, inconnue
2
H1 : 1 ≠ 0
Étape 3 Étape 4
b1 1 b1 3,95 0 t 0, 025,8 2,306
t 15,86
sb1 sb1 0,062
Puisque : t t 0,025,8 dl 15,86 2,306
Nous rejetons l’hypothèse nulle.
Cela implique que la variance de X explique la variance de Y au niveau a = 0,05
53
Pr. BOULAHOUAL Adil
Hypothèses du modèle
54
Pr. BOULAHOUAL Adil
TP n° I
Applications sous SPSS
POINT DE VENTE
55
Pr. BOULAHOUAL Adil
Déclaration des
Description de la valeurs possibles
variable des données
manquantes
Représente le nombre de
caractères maximum de la
donnée
le NOM de la
variable maximum
8 caractères). Décrit le format de la
variable
Numérique : Donnée numérique
Chaîne : Donnée alpha-numérique
56
Pr. BOULAHOUAL Adil