Statistica I
Unità K: regressione lineare semplice
Tommaso Rigon
Università Milano-Bicocca
Tommaso Rigon (Milano-Bicocca) 1 / 22
Unità K
Argomenti affrontati
Modello di regressione lineare semplice
Minimi quadrati
Media e varianza residua, coefficiente di determinazione (R 2 )
Riferimenti al libro di testo
§22.1 — §22.4
§22.8
Nota. Alcuni paragrafi richiedono la conoscenza di nozioni di calcolo delle probabilità.
Tali passaggi non sono materia d’esame.
Tommaso Rigon (Milano-Bicocca) 2 / 22
Descrizione del problema
Per n = 31 alberi di ciliegio nero sono disponibili le misure del diametro del tronco
(misurato a circa 1m dal suolo) ed il volume ricavato dall’albero dopo l’abbattimento.
Si vogliono utilizzare i dati per ottenere un’equazione che permetta di prevedere il
volume, ottenibile solo dopo l’abbattimento dell’albero, avendo a disposizione il
diametro, che è invece facilmente misurabile.
In altri termini, stiamo cercando una qualche funzione f (·) tale che
(volume) ≈ f (diametro).
Una simile equazione ha differenti utilizzi.
Ad esempio, può essere utilizzata per decidere quanti e quali alberi tagliare per ricavare
un certo ammontare di legno, oppure per determinare il “prezzo” di un bosco.
Tommaso Rigon (Milano-Bicocca) 3 / 22
I dati grezzi
Diametro
[1] 8.3 8.6 8.8 10.5 10.7 10.8 11.0 11.0 11.1 11.2 20.6 11.3
[13] 11.4 11.4 11.7 12.0 12.9 12.9 13.3 13.7 13.8 14.0 14.2 14.5
[25] 16.0 16.3 17.3 17.5 17.9 18.0 18.0
Volume
[1] 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 77.0 24.2
[13] 21.0 21.4 21.3 19.1 22.2 33.8 27.4 25.7 24.9 34.5 31.7 36.3
[25] 38.3 42.6 55.4 55.7 58.3 51.5 51.0
Tommaso Rigon (Milano-Bicocca) 4 / 22
Diagramma di dispersione
80
60
Volume
40
20
8 12 16 20
Diametro
Possiamo quindi calcolare la correlazione:
cor(diametro, volume) = 0.967.
È quindi evidente una forte relazione di tipo sostanzialmente lineare.
Tommaso Rigon (Milano-Bicocca) 5 / 22
Un primo modello
Adottiamo per il momento l’ipotesi di una relazione lineare.
Possiamo allora definire un modello lineare del tipo
(volume) = α + β (diametro) + (errore).
L’ultima componente esprime la parte delle oscillazioni del volume non legate al
diametro o che non è catturata dalla relazione lineare.
Se y1 , . . . , yn rappresentano i volumi e x1 , . . . , xn rappresentano i diametri, allora
scriveremo:
yi = α + βxi + ϵi , i = 1, . . . , n,
dove ϵ1 , . . . , ϵn rappresentano invece gli errori.
Tommaso Rigon (Milano-Bicocca) 6 / 22
Modello di regressione lineare: terminologia
Il modello che abbiamo appena descritto viene tipicamente chiamato modello di
regressione lineare semplice.
In generale, vogliamo spiegare una variabile y utilizzando un’altra variabile x , mediante
un modello del tipo
y = α + βx + ϵ.
La variabile y viene tipicamente chiamata variabile risposta o variabile dipendente.
La variabile x viene chiamata variabile esplicativa, regressore oppure variabile
indipendente.
I valori α, β ∈ R sono i parametri del modello.
Tommaso Rigon (Milano-Bicocca) 7 / 22
Metodo dei minimi quadrati: idea
In pratica, è necessario determinare il valore dei parametri α e β.
Se avessimo a disposizione un valore ragionevole dei parametri, diciamo α̂ e β̂,
potremmo prevedere il volume del legno usando
(volume) ≈ α̂ + β̂(diametro).
Sembra ragionevole cercare di determinare α̂ e β̂ in modo tale da ottenere buone
previsioni sull’insieme di dati osservato.
Vogliamo quindi trovare dei valori per i parametri tali che
y1 ≈ α̂ + β̂x1 ,
y2 ≈ α̂ + β̂x2 ,
..
.
yn ≈ α̂ + β̂xn .
Tommaso Rigon (Milano-Bicocca) 8 / 22
Differenti scelte dei parametri
80
60
Volume
40
20
8 12 16 20
Diametro
Le linee arancioni rappresentano delle scelte non ottimali a fini previsivi.
Viceversa, la linea nera attraversa la nuvola di punti e sembra una scelta appropriata.
Tommaso Rigon (Milano-Bicocca) 9 / 22
Metodo dei minimi quadrati: la funzione di perdita
Per rendere operativa la precedente intuizione, dobbiamo decidere cosa si intende
precisamente per
yi ≈ α̂ + β̂xi , i = 1, . . . , n.
Una possibile soluzione, è scegliere i parametri che minimizzano la funzione di perdita
n
X
ℓ(α, β) = (yi − α − βxi )2 ,
i=1
ovvero scegliendo α̂ e β̂ tali che
(α̂, β̂) = arg min ℓ(α, β).
α,β
Questo criterio viene detto il metodo dei minimi quadrati, poiché minimizza la
somma degli scarti al quadrato, ovvero la somma degli errori al quadrato.
Tommaso Rigon (Milano-Bicocca) 10 / 22
Minimi quadrati: determinazione dei parametri
Il criterio dei minimi quadrati è molto popolare perché la soluzione del problema di
minimizzazione è semplice da calcolare.
Minimi quadrati
L’unica soluzione al problema
n
X
(α̂, β̂) = arg min (yi − α − βxi )2
α,β
i=1
è pari a
cov(x , y )
α̂ = ȳ − β̂x̄ , β̂ = .
var(x )
La soluzione del problema è ben definita solamente se var(x ) > 0.
Questo è molto ragionevole: il parametro β indica quanto varia la risposta al variare
della esplicativa, ma se var(x ) = 0 allora l’esplicativa non varia affatto.
Tommaso Rigon (Milano-Bicocca) 11 / 22
Dimostrazione I
Per ogni prefissato β, conosciamo già la soluzione del seguente problema
n n
X X
arg min (yi − α − βxi )2 = arg min (wi − α)2 ,
α∈R α∈R
i=1 i=1
avendo posto wi = yi − βxi per ogni i = 1, . . . , n. Infatti, dall’unità C sappiamo che il
valore che minimizza tale funzione è la media aritmetica.
Pertanto per qualsiasi valore di β, otteniamo che
n n
1X 1X
α̂(β) = wi = (yi − βxi ) = ȳ − x̄ β.
n n
i=1 i=1
Dalla definizione di α̂(β) segue che per ogni α, β
ℓ(α, β) ≥ ℓ(α̂(β), β).
Tommaso Rigon (Milano-Bicocca) 12 / 22
Dimostrazione II
Abbiamo quindi ridotto il problema iniziale al seguente sotto-problema
n
X
β̂ = arg min ℓ(α̂(β), β) = arg min [(yi − ȳ ) − β(xi − x̄ )]2
β∈R β∈R
i=1
e ovviamente porremo α̂ = α̂(β̂) = ȳ − β̂x̄ .
Prendendo la derivata rispetto a β e ponendola pari a 0, si ottiene che
n
X
−2 (xi − x̄ )[(yi − ȳ ) − β(xi − x̄ )] = 0,
i=1
che possiamo riscrivere come
n n
X X
(xi − x̄ )(yi − ȳ ) = β (xi − x̄ )2 .
i=1 i=1
Tommaso Rigon (Milano-Bicocca) 13 / 22
Dimostrazione III
Pn
Quindi, se i=1
(xi − x̄ )2 > 0 la soluzione al problema è pari a
Pn
i=1
(xi − x̄ )(yi − ȳ ) cov(x , y )
β̂ = Pn = ,
i=1
(xi − x̄ )
2 var(x )
dove l’ultimo passaggio si ottiene moltiplicando numeratore e denominatore per n.
Nota matematica. Per concludere la dimostrazione bisogna infine verificare che la
soluzione trovata è un punto di minimo e non, ad esempio, un massimo.
Esercizio. Si verifichi che la soluzione è effettivamente un punto di minimo, ad
esempio valutando il segno della derivata seconda di ℓ(α̂(β), β).
Tommaso Rigon (Milano-Bicocca) 14 / 22
Calcolo dei parametri: gli alberi di ciliegio
In questo caso abbiamo che
n n
X X
yi = 935.3, xi = 410.7,
i=1 i=1
n n
X X
xi2 = 5736.55, xi yi = 13887.86.
i=1 i=1
Perciò possiamo calcolare medie, varianza e covarianza
935.5 410.7
ȳ = = 30.17, x̄ = = 13.25,
31 31
5736.55 13887.86
var(x ) = − 13.252 = 9.53, cov(x , y ) = − 13.25 × 30.17 = 48.24.
31 31
Possiamo quindi determinare i parametri
48.24
β̂ = = 5.06, α̂ = 30.17 − 5.06 × 13.25 = −36.88.
9.53
Tommaso Rigon (Milano-Bicocca) 15 / 22
Diagramma di dispersione con retta di regressione
80
60
Volume
40
20
8 12 16 20
Diametro
La capacità di descrivere le variazione del volume sembra buona, con l’eccezione forse
delle osservazioni più esterne.
Tommaso Rigon (Milano-Bicocca) 16 / 22
I residui: media e varianza
Le differenze tra i valori osservati della variabile risposta ed i valori previsti dal modello,
ovvero
ri = yi − (α̂ + β̂xi ), i = 1, . . . , n,
vengono spesso chiamati residui.
Proprietà. La media dei residui è nulla, infatti:
n n n
X X X
ri = yi − nα̂ − β̂ xi = nȳ − n(ȳ − β̂x̄ ) − nβ̂x̄ = 0.
i=1 i=1 i=1
La varianza dei residui essere utilizzata per valutare la bontà di adattamento del
modello ai dati.
Infatti, quanto più la varianza dei residui è piccola, tanto più la retta di regressione è
vicina alle osservazioni.
Tommaso Rigon (Milano-Bicocca) 17 / 22
I residui: media e varianza
Proprietà. La varianza dei residui è sempre minore di quella della variabile risposta.
Infatti:
n n
1X 1X
var(y ) = min (yi − α)2 ≥ min (yi − α − βxi )2 = var(r ).
α∈R n (α,β)∈R2 n
i=1 i=1
Proprietà. La varianza dei residui è pari a
cov(x , y )2
var(r ) = var(y ) − .
var(x )
Infatti, usando le proprietà della varianza, otteniamo che
n
1X
var(r ) = [(yi − β̂xi ) − (ȳ − β̂x̄ )]2 = var(y − β̂x )
n
i=1
= var(y ) + β̂ 2 var(x ) − 2β̂cov(x , y )
cov(x , y )2 cov(x , y )2 cov(x , y )2
= var(y ) + −2 = var(y ) − .
var(x ) var(x ) var(x )
Tommaso Rigon (Milano-Bicocca) 18 / 22
Coefficiente di determinazione R 2
La varianza dei residui dipende dalla scala del fenomeno osservato. Pertanto per
valutare la bontà di adattamento si utilizza spesso l’indice R 2 .
Coefficiente di determinazione R 2 . Il coefficiente R 2 per un modello di regressione
lineare semplice è definito come:
var(r )
R2 = 1 − .
var(y )
L’indice R 2 misura la frazione di varianza della variabile risposta (varianza totale)
spiegata dal modello. Si ha pertanto che 0 ≤ R 2 ≤ 1.
Si ha che R 2 = 0 se var(r ) = var(y ), ovvero quando il modello non “spiega” la risposta.
Viceversa, si ha che R 2 = 1 quando var(r ) = 0, ovvero quando il modello “spiega”
perfettamente la risposta.
Tommaso Rigon (Milano-Bicocca) 19 / 22
Coefficiente di determinazione: gli alberi di ciliegio
Abbiamo calcolato in precedenza le seguenti quantità:
ȳ = 30.17, x̄ = 13.25,
var(x ) = 9.53, cov(x , y ) = 48.24.
Pn
È inoltre noto che i=1
yi2 = 36324.99.
Pertanto possiamo ottenere
36324.99 48.242
var(y ) = − 30.172 = 261.54, var(r ) = 261.54 − = 17.35.
31 9.53
Pertanto, il coefficiente di determinazione vale circa
17.35
R2 = 1 − = 0.934,
261.54
ovvero il modello spiega poco meno del 95% della varianza totale.
Tommaso Rigon (Milano-Bicocca) 20 / 22
Correlazione e coefficiente di determinazione
Proprietà. Il coefficiente di determinazione è pari al coefficiente di correlazione al
quadrato, infatti:
var(r ) cov(x , y )2
R2 = 1 − = = cor(x , y )2 .
var(y ) var(x )var(y )
Questa equivalenza chiarisce che il coefficiente di correlazione (e quindi la covarianza)
misura una relazione di tipo lineare.
Infatti, il coefficiente R 2 e quindi cor(x , y ) catturano la vicinanza dei dati ad una retta.
Nota. Nel caso dei ciliegi, abbiamo ottenuto R 2 = 0.934 e cor(x , y ) = 0.9672 = 0.935.
Questa leggera discrepanza è dovuta alle varie approssimazioni numeriche effettuate.
Se avessimo tenuto traccia di un maggior numero di decimali, avremmo ottenuto
cor(x , y ) = 0.9671194, R 2 = 0.9353199.
Tommaso Rigon (Milano-Bicocca) 21 / 22
Regressione e correlazione
Le analogie con l’unità J, dove abbiamo introdotto la covarianza e la correlazione, sono
molte.
Il problema di base è lo stesso (studio delle relazioni tra variabili) e gli “ingredienti” che
abbiamo maneggiato pure (medie, varianze e covarianze).
Nonostante ciò, si noti che esiste una importante differenza.
In questa unità abbiamo considerato l’effetto di una variabile esplicativa su una
variabile risposta. Le variabili erano poste in maniera asimmetrica, poichè eravamo
interessati ad una relazione del tipo diametro → volume.
Viceversa nell’unità J ci siamo posti in maniera simmetrica rispetto alle variabili. Non
abbiamo cercato di spiegarne una sulla base di un altra ma abbiamo semplicemente
valutato le relazioni intercorrenti.
Tommaso Rigon (Milano-Bicocca) 22 / 22