0% ont trouvé ce document utile (0 vote)
305 vues33 pages

Regression Linéaire

Ce document décrit la méthode des moindres carrés pour la régression linéaire simple. Il explique comment trouver la ligne de meilleure prédiction en minimisant la somme des carrés des résidus.

Transféré par

Aimad Benzakry
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
305 vues33 pages

Regression Linéaire

Ce document décrit la méthode des moindres carrés pour la régression linéaire simple. Il explique comment trouver la ligne de meilleure prédiction en minimisant la somme des carrés des résidus.

Transféré par

Aimad Benzakry
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Régression linéaire simple

Méthode des moindres carrés

1
 L’analyse des données est une des branches les plus
vivantes de la statistique.
 Les principales méthodes de l’analyse des données se
séparent en deux groupes:
◦Les méthodes de classification,
◦Les méthodes factorielles.

2
 Elles visent a réduire la taille de l’ensemble des
individus en formant des groupes homogènes
d’individus ou de variables.
 Ces groupes sont appelés aussi des classes, ou
familles, ou segments, ou clusters.
 Parmi les méthodes descriptives ou non supervisées
du Datamining, on trouve les méthodes factorielles de
l’Analyse des données.
 les méthodes factorielles consistent en la projection
sur un espace de dimension inferieure pour obtenir
une visualisation de l’ensemble des liaisons entre
variables tout en minimisant la perte de l’information.
 Statistiques à plusieurs dimensions
 Analyse de régression et de corrélation multiple (ARCM)
 Introduction au logiciel R
 Analyse en composante principale (ACP)
 Analyse de la variance (ANOVA)
 Analyse factorielle de correspondance (AFC)
 Analyse discriminante (AD)
 Classification hiérarchique (CA)
 Classification dynamique (CD)
 Arbres de Décision

5
 Soit deux ensembles de données de taille n, {y1, y2, . . . ,
yn} et {x1, x2, . . . , xn}, obtenus expérimentalement ou
mesurés sur une population.
 Le problème de la régression consiste à rechercher une
relation pouvant éventuellement exister entre les x et les
y, par exemple de la forme y = f(x).

6
 Lorsque la relation recherchée est affine, c’est-à-dire de
la forme y = ax + b, on parle de régression linéaire.
 b et a sont les coefficients (ordonnée à l’origine et
pente).
 On dit que la variable y est la variable dépendante ou
variable expliquée et que la variable x est la variable
explicative.

7
 Trois interprétations principales

Corrélation :
Négative Null Positive
8
 Liaison linéaire entre X et Y
 Avant d’estimer la droite de régression, il faut vérifier
- empiriquement (graphiquement) - que la liaison
entre les 2 variables est de nature linéaire.
 Sinon, l’interprétation du coefficient de corrélation
ou de la pente de la droite de régression peut être
erronée.
9
 La nature de la liaison est linéaire (droite horizontale d’équation y = a)
 La condition d’application est vérifiée
 Il est possible d’utiliser le coefficient de corrélation et la régression
linéaire simple pour quantifier la liaison entre les 2 variables (conclusion
: X et Y sont indépendants)

10
 Il existe une liaison entre X et Y mais cette liaison n’est pas
linéaire. Le nuage de points est résumé par une fonction
quadratique.
 La condition d’application n’est pas vérifiée → Il ne faut pas
utiliser le coefficient de corrélation ni la régression linéaire simple
pour quantifier la liaison entre les 2 variables
11
 La nature de la liaison est linéaire (le nuage de points est résumé
par une droite d’équation y = a+bx)
 La condition d’application est vérifiée
 Il est possible d’utiliser le coefficient de corrélation et la régression
linéaire simple pour quantifier la liaison entre les 2 variables
(conclusion : il existe une liaison linéaire entre X et Y)
12
 La nature de la liaison n’est pas linéaire (le nuage de points est
résumé par une fonction exponentielle)
 La condition d’application n’est pas vérifiée → Il ne faut pas
utiliser le coefficient de corrélation ni la régression linéaire simple
pour quantifier la liaison entre les 2 variables

13
Méthodes des moindres carrés
• Est la ligne la mieux adaptée pour
un groupe de points
• Il cherche à minimiser la somme
des différences carrées entre les
valeurs estimées et les valeurs
observées.
• C'est la plus ancienne forme de
régression linéaire

14
Notation
• (x1, y1), (x2, y2), . . . , (xn, yn)
• tracer la ligne y = b0 + b1x à travers le nuage de
points, le point de la ligne correspondant à xi est

15
y observé, y prédit
FUEL CONSUMPTION vs CAR WEIGHT

7
6.5
FUEL CONSUMPTION

6
predicted y when x=2.7
5.5 y = a + bx
5 = a + b*2.7
4.5
4 (2.7, 3.6)
3.5
2.7 3.6 = observed y
3
2.5
2
1.5 2 2.5 3 3.5 4 4.5

CAR WEIGHT

16
Comment pouvons-nous tracer la
ligne?
Résidus
le ième résidu est la déviation verticale
du ième point de donnée par rapport à la droite :
ième résidu = y observé – y prédit

= yi – (b0 + bi xi)

17
Résidus: graphiquement
Graphical Display of Residuals

positive residual

Yi negative residual
Yi ei=Yi - Yi

Xi X

18
Critère de choix de la ligne à tracer
: méthode des moindres carrés
• La méthode des moindres carrés choisit la ligne qui rend la somme
des carrés des résidus aussi petite que possible
• Cette ligne a la pente b1 et l’intercept b0 qui minimise

• Pour des observation (xi, yi) données

19
Droite des moindres carrés y = b0 + b1x:
pente b1 and Intercept b0

20
Consumption
Income (x)
Expenditure (y)
1 7
5 6
9 9
13 8
17 10

21
 Construire le nuage des points;
 déterminer si le modèle linéaire est approprié. Si c'est le
cas?
◦ Trouver la ligne de prédiction des moindres carrés
◦ Estimez les dépenses de consommation dans une
maison ayant un revenu de (i) 6 000 USD (ii) de 25
000 USD.
◦ Calculer les résidus

22
Consumption Expenditure

11
Expenditure ($1,000's)

10
9
8
7
6
5
0 5 10 15 20
Household Income ($1,000's)

23
25
yˆ = b0 + b1 x = 6.2 + .2 x
income = $6, 000, x = 6
yˆ = 6.2 + .2(6) = 7.4 ($7, 400)
income = $25, 000, x = 25
yˆ = 6.2 + .2(25) = 11.2 ($11, 200)
26
Consumption Expenditure

11
Expenditure ($1,000's)

10 y = 6.2 + 0.2x
9
8
7
6
5
0 5 10 15 20
Household Income ($1,000's)

27
Consumption Expenditure

11
Expenditure ($1,000's)

10 y = 6.2 + 0.2x
9
8
7.4 7
6
5
0 5 6 10 15 20
Household Income ($1,000's)

28
Consumption Expenditure

11.2 12
Expenditure ($1,000's)

11
10 y = 6.2 + 0.2x
9
8
7
6
5
0 5 10 15 20 25
25
Household Income ($1,000's)

29
Least Squares Line Goes Through ( x , y )
11
Consumption Expenditure

10
( x, y ) = ( 9, 8 )
9
8 y = 0.2x + 6.2

7
6
5
0 5 10 15 20

Income

30
• Considérez le jeu de données bivariées suivant:
(1, 2) (3, 1.8) (5, 1).
1. Déterminer les estimations des moindres carrés b0 et b1
des paramètres de la droite de régression
y=b0 + b1x.
1. Tracer sur une figure le nuage de points des données et
la droite de régression estimée y=b0 + b1x.

31
Il existe 6 spécimens de fossiles d'un animal éteint
et qui sont de tailles différentes.
On pense que si ces animaux appartiennent à la
même espèce, il doit exister une relation linéaire
entre la longueur de deux de leurs os, le fémur et
l'humérus.
Voici les données de ces longueurs en cm pour les
5 spécimens possédant ces deux os intacts:

32
 Pour étudier les problèmes de malnutrition dans un pays pauvre,
on a calculé le poids moyen par âge d’un échantillon de 2400
enfants répartis uniformément en 12 classes d’âge.
 On a obtenu les données suivantes :

 Un statisticien pressé a fait calculer par sa machine la droite des


moindres carrés pour ces données et a trouvé la relation
◦ poids = 4, 88 + 0, 267age. S’est-il trompé ?
 Calculer puis tracer les résidus.

33

Vous aimerez peut-être aussi