Régression linéaire simple
Méthode des moindres carrés
1
L’analyse des données est une des branches les plus
vivantes de la statistique.
Les principales méthodes de l’analyse des données se
séparent en deux groupes:
◦Les méthodes de classification,
◦Les méthodes factorielles.
2
Elles visent a réduire la taille de l’ensemble des
individus en formant des groupes homogènes
d’individus ou de variables.
Ces groupes sont appelés aussi des classes, ou
familles, ou segments, ou clusters.
Parmi les méthodes descriptives ou non supervisées
du Datamining, on trouve les méthodes factorielles de
l’Analyse des données.
les méthodes factorielles consistent en la projection
sur un espace de dimension inferieure pour obtenir
une visualisation de l’ensemble des liaisons entre
variables tout en minimisant la perte de l’information.
Statistiques à plusieurs dimensions
Analyse de régression et de corrélation multiple (ARCM)
Introduction au logiciel R
Analyse en composante principale (ACP)
Analyse de la variance (ANOVA)
Analyse factorielle de correspondance (AFC)
Analyse discriminante (AD)
Classification hiérarchique (CA)
Classification dynamique (CD)
Arbres de Décision
5
Soit deux ensembles de données de taille n, {y1, y2, . . . ,
yn} et {x1, x2, . . . , xn}, obtenus expérimentalement ou
mesurés sur une population.
Le problème de la régression consiste à rechercher une
relation pouvant éventuellement exister entre les x et les
y, par exemple de la forme y = f(x).
6
Lorsque la relation recherchée est affine, c’est-à-dire de
la forme y = ax + b, on parle de régression linéaire.
b et a sont les coefficients (ordonnée à l’origine et
pente).
On dit que la variable y est la variable dépendante ou
variable expliquée et que la variable x est la variable
explicative.
7
Trois interprétations principales
Corrélation :
Négative Null Positive
8
Liaison linéaire entre X et Y
Avant d’estimer la droite de régression, il faut vérifier
- empiriquement (graphiquement) - que la liaison
entre les 2 variables est de nature linéaire.
Sinon, l’interprétation du coefficient de corrélation
ou de la pente de la droite de régression peut être
erronée.
9
La nature de la liaison est linéaire (droite horizontale d’équation y = a)
La condition d’application est vérifiée
Il est possible d’utiliser le coefficient de corrélation et la régression
linéaire simple pour quantifier la liaison entre les 2 variables (conclusion
: X et Y sont indépendants)
10
Il existe une liaison entre X et Y mais cette liaison n’est pas
linéaire. Le nuage de points est résumé par une fonction
quadratique.
La condition d’application n’est pas vérifiée → Il ne faut pas
utiliser le coefficient de corrélation ni la régression linéaire simple
pour quantifier la liaison entre les 2 variables
11
La nature de la liaison est linéaire (le nuage de points est résumé
par une droite d’équation y = a+bx)
La condition d’application est vérifiée
Il est possible d’utiliser le coefficient de corrélation et la régression
linéaire simple pour quantifier la liaison entre les 2 variables
(conclusion : il existe une liaison linéaire entre X et Y)
12
La nature de la liaison n’est pas linéaire (le nuage de points est
résumé par une fonction exponentielle)
La condition d’application n’est pas vérifiée → Il ne faut pas
utiliser le coefficient de corrélation ni la régression linéaire simple
pour quantifier la liaison entre les 2 variables
13
Méthodes des moindres carrés
• Est la ligne la mieux adaptée pour
un groupe de points
• Il cherche à minimiser la somme
des différences carrées entre les
valeurs estimées et les valeurs
observées.
• C'est la plus ancienne forme de
régression linéaire
14
Notation
• (x1, y1), (x2, y2), . . . , (xn, yn)
• tracer la ligne y = b0 + b1x à travers le nuage de
points, le point de la ligne correspondant à xi est
15
y observé, y prédit
FUEL CONSUMPTION vs CAR WEIGHT
7
6.5
FUEL CONSUMPTION
6
predicted y when x=2.7
5.5 y = a + bx
5 = a + b*2.7
4.5
4 (2.7, 3.6)
3.5
2.7 3.6 = observed y
3
2.5
2
1.5 2 2.5 3 3.5 4 4.5
CAR WEIGHT
16
Comment pouvons-nous tracer la
ligne?
Résidus
le ième résidu est la déviation verticale
du ième point de donnée par rapport à la droite :
ième résidu = y observé – y prédit
= yi – (b0 + bi xi)
17
Résidus: graphiquement
Graphical Display of Residuals
positive residual
Yi negative residual
Yi ei=Yi - Yi
Xi X
18
Critère de choix de la ligne à tracer
: méthode des moindres carrés
• La méthode des moindres carrés choisit la ligne qui rend la somme
des carrés des résidus aussi petite que possible
• Cette ligne a la pente b1 et l’intercept b0 qui minimise
• Pour des observation (xi, yi) données
19
Droite des moindres carrés y = b0 + b1x:
pente b1 and Intercept b0
20
Consumption
Income (x)
Expenditure (y)
1 7
5 6
9 9
13 8
17 10
21
Construire le nuage des points;
déterminer si le modèle linéaire est approprié. Si c'est le
cas?
◦ Trouver la ligne de prédiction des moindres carrés
◦ Estimez les dépenses de consommation dans une
maison ayant un revenu de (i) 6 000 USD (ii) de 25
000 USD.
◦ Calculer les résidus
22
Consumption Expenditure
11
Expenditure ($1,000's)
10
9
8
7
6
5
0 5 10 15 20
Household Income ($1,000's)
23
25
yˆ = b0 + b1 x = 6.2 + .2 x
income = $6, 000, x = 6
yˆ = 6.2 + .2(6) = 7.4 ($7, 400)
income = $25, 000, x = 25
yˆ = 6.2 + .2(25) = 11.2 ($11, 200)
26
Consumption Expenditure
11
Expenditure ($1,000's)
10 y = 6.2 + 0.2x
9
8
7
6
5
0 5 10 15 20
Household Income ($1,000's)
27
Consumption Expenditure
11
Expenditure ($1,000's)
10 y = 6.2 + 0.2x
9
8
7.4 7
6
5
0 5 6 10 15 20
Household Income ($1,000's)
28
Consumption Expenditure
11.2 12
Expenditure ($1,000's)
11
10 y = 6.2 + 0.2x
9
8
7
6
5
0 5 10 15 20 25
25
Household Income ($1,000's)
29
Least Squares Line Goes Through ( x , y )
11
Consumption Expenditure
10
( x, y ) = ( 9, 8 )
9
8 y = 0.2x + 6.2
7
6
5
0 5 10 15 20
Income
30
• Considérez le jeu de données bivariées suivant:
(1, 2) (3, 1.8) (5, 1).
1. Déterminer les estimations des moindres carrés b0 et b1
des paramètres de la droite de régression
y=b0 + b1x.
1. Tracer sur une figure le nuage de points des données et
la droite de régression estimée y=b0 + b1x.
31
Il existe 6 spécimens de fossiles d'un animal éteint
et qui sont de tailles différentes.
On pense que si ces animaux appartiennent à la
même espèce, il doit exister une relation linéaire
entre la longueur de deux de leurs os, le fémur et
l'humérus.
Voici les données de ces longueurs en cm pour les
5 spécimens possédant ces deux os intacts:
32
Pour étudier les problèmes de malnutrition dans un pays pauvre,
on a calculé le poids moyen par âge d’un échantillon de 2400
enfants répartis uniformément en 12 classes d’âge.
On a obtenu les données suivantes :
Un statisticien pressé a fait calculer par sa machine la droite des
moindres carrés pour ces données et a trouvé la relation
◦ poids = 4, 88 + 0, 267age. S’est-il trompé ?
Calculer puis tracer les résidus.
33