Il 0% ha trovato utile questo documento (0 voti)
25 visualizzazioni22 pagine

Statistica I: Unità K: Regressione Lineare Semplice

Stat exercise
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
25 visualizzazioni22 pagine

Statistica I: Unità K: Regressione Lineare Semplice

Stat exercise
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd

Statistica I

Unità K: regressione lineare semplice

Tommaso Rigon

Università Milano-Bicocca

Tommaso Rigon (Milano-Bicocca) 1 / 22


Unità K

Argomenti affrontati
Modello di regressione lineare semplice

Minimi quadrati

Media e varianza residua, coefficiente di determinazione (R 2 )

Riferimenti al libro di testo


§22.1 — §22.4

§22.8

Nota. Alcuni paragrafi richiedono la conoscenza di nozioni di calcolo delle probabilità.


Tali passaggi non sono materia d’esame.

Tommaso Rigon (Milano-Bicocca) 2 / 22


Descrizione del problema

Per n = 31 alberi di ciliegio nero sono disponibili le misure del diametro del tronco
(misurato a circa 1m dal suolo) ed il volume ricavato dall’albero dopo l’abbattimento.

Si vogliono utilizzare i dati per ottenere un’equazione che permetta di prevedere il


volume, ottenibile solo dopo l’abbattimento dell’albero, avendo a disposizione il
diametro, che è invece facilmente misurabile.

In altri termini, stiamo cercando una qualche funzione f (·) tale che

(volume) ≈ f (diametro).

Una simile equazione ha differenti utilizzi.

Ad esempio, può essere utilizzata per decidere quanti e quali alberi tagliare per ricavare
un certo ammontare di legno, oppure per determinare il “prezzo” di un bosco.

Tommaso Rigon (Milano-Bicocca) 3 / 22


I dati grezzi

Diametro
[1] 8.3 8.6 8.8 10.5 10.7 10.8 11.0 11.0 11.1 11.2 20.6 11.3
[13] 11.4 11.4 11.7 12.0 12.9 12.9 13.3 13.7 13.8 14.0 14.2 14.5
[25] 16.0 16.3 17.3 17.5 17.9 18.0 18.0

Volume
[1] 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 77.0 24.2
[13] 21.0 21.4 21.3 19.1 22.2 33.8 27.4 25.7 24.9 34.5 31.7 36.3
[25] 38.3 42.6 55.4 55.7 58.3 51.5 51.0

Tommaso Rigon (Milano-Bicocca) 4 / 22


Diagramma di dispersione
80

60
Volume

40

20

8 12 16 20
Diametro

Possiamo quindi calcolare la correlazione:

cor(diametro, volume) = 0.967.

È quindi evidente una forte relazione di tipo sostanzialmente lineare.


Tommaso Rigon (Milano-Bicocca) 5 / 22
Un primo modello

Adottiamo per il momento l’ipotesi di una relazione lineare.

Possiamo allora definire un modello lineare del tipo

(volume) = α + β (diametro) + (errore).

L’ultima componente esprime la parte delle oscillazioni del volume non legate al
diametro o che non è catturata dalla relazione lineare.

Se y1 , . . . , yn rappresentano i volumi e x1 , . . . , xn rappresentano i diametri, allora


scriveremo:
yi = α + βxi + ϵi , i = 1, . . . , n,
dove ϵ1 , . . . , ϵn rappresentano invece gli errori.

Tommaso Rigon (Milano-Bicocca) 6 / 22


Modello di regressione lineare: terminologia

Il modello che abbiamo appena descritto viene tipicamente chiamato modello di


regressione lineare semplice.

In generale, vogliamo spiegare una variabile y utilizzando un’altra variabile x , mediante


un modello del tipo
y = α + βx + ϵ.

La variabile y viene tipicamente chiamata variabile risposta o variabile dipendente.

La variabile x viene chiamata variabile esplicativa, regressore oppure variabile


indipendente.

I valori α, β ∈ R sono i parametri del modello.

Tommaso Rigon (Milano-Bicocca) 7 / 22


Metodo dei minimi quadrati: idea

In pratica, è necessario determinare il valore dei parametri α e β.

Se avessimo a disposizione un valore ragionevole dei parametri, diciamo α̂ e β̂,


potremmo prevedere il volume del legno usando

(volume) ≈ α̂ + β̂(diametro).

Sembra ragionevole cercare di determinare α̂ e β̂ in modo tale da ottenere buone


previsioni sull’insieme di dati osservato.

Vogliamo quindi trovare dei valori per i parametri tali che

y1 ≈ α̂ + β̂x1 ,
y2 ≈ α̂ + β̂x2 ,
..
.
yn ≈ α̂ + β̂xn .

Tommaso Rigon (Milano-Bicocca) 8 / 22


Differenti scelte dei parametri

80

60
Volume

40

20

8 12 16 20
Diametro

Le linee arancioni rappresentano delle scelte non ottimali a fini previsivi.

Viceversa, la linea nera attraversa la nuvola di punti e sembra una scelta appropriata.

Tommaso Rigon (Milano-Bicocca) 9 / 22


Metodo dei minimi quadrati: la funzione di perdita

Per rendere operativa la precedente intuizione, dobbiamo decidere cosa si intende


precisamente per
yi ≈ α̂ + β̂xi , i = 1, . . . , n.

Una possibile soluzione, è scegliere i parametri che minimizzano la funzione di perdita


n
X
ℓ(α, β) = (yi − α − βxi )2 ,
i=1

ovvero scegliendo α̂ e β̂ tali che

(α̂, β̂) = arg min ℓ(α, β).


α,β

Questo criterio viene detto il metodo dei minimi quadrati, poiché minimizza la
somma degli scarti al quadrato, ovvero la somma degli errori al quadrato.

Tommaso Rigon (Milano-Bicocca) 10 / 22


Minimi quadrati: determinazione dei parametri

Il criterio dei minimi quadrati è molto popolare perché la soluzione del problema di
minimizzazione è semplice da calcolare.

Minimi quadrati
L’unica soluzione al problema
n
X
(α̂, β̂) = arg min (yi − α − βxi )2
α,β
i=1

è pari a
cov(x , y )
α̂ = ȳ − β̂x̄ , β̂ = .
var(x )

La soluzione del problema è ben definita solamente se var(x ) > 0.

Questo è molto ragionevole: il parametro β indica quanto varia la risposta al variare


della esplicativa, ma se var(x ) = 0 allora l’esplicativa non varia affatto.

Tommaso Rigon (Milano-Bicocca) 11 / 22


Dimostrazione I

Per ogni prefissato β, conosciamo già la soluzione del seguente problema


n n
X X
arg min (yi − α − βxi )2 = arg min (wi − α)2 ,
α∈R α∈R
i=1 i=1

avendo posto wi = yi − βxi per ogni i = 1, . . . , n. Infatti, dall’unità C sappiamo che il


valore che minimizza tale funzione è la media aritmetica.

Pertanto per qualsiasi valore di β, otteniamo che


n n
1X 1X
α̂(β) = wi = (yi − βxi ) = ȳ − x̄ β.
n n
i=1 i=1

Dalla definizione di α̂(β) segue che per ogni α, β

ℓ(α, β) ≥ ℓ(α̂(β), β).

Tommaso Rigon (Milano-Bicocca) 12 / 22


Dimostrazione II

Abbiamo quindi ridotto il problema iniziale al seguente sotto-problema


n
X
β̂ = arg min ℓ(α̂(β), β) = arg min [(yi − ȳ ) − β(xi − x̄ )]2
β∈R β∈R
i=1

e ovviamente porremo α̂ = α̂(β̂) = ȳ − β̂x̄ .

Prendendo la derivata rispetto a β e ponendola pari a 0, si ottiene che


n
X
−2 (xi − x̄ )[(yi − ȳ ) − β(xi − x̄ )] = 0,
i=1

che possiamo riscrivere come


n n
X X
(xi − x̄ )(yi − ȳ ) = β (xi − x̄ )2 .
i=1 i=1

Tommaso Rigon (Milano-Bicocca) 13 / 22


Dimostrazione III

Pn
Quindi, se i=1
(xi − x̄ )2 > 0 la soluzione al problema è pari a
Pn
i=1
(xi − x̄ )(yi − ȳ ) cov(x , y )
β̂ = Pn = ,
i=1
(xi − x̄ )
2 var(x )

dove l’ultimo passaggio si ottiene moltiplicando numeratore e denominatore per n.

Nota matematica. Per concludere la dimostrazione bisogna infine verificare che la


soluzione trovata è un punto di minimo e non, ad esempio, un massimo.

Esercizio. Si verifichi che la soluzione è effettivamente un punto di minimo, ad


esempio valutando il segno della derivata seconda di ℓ(α̂(β), β).

Tommaso Rigon (Milano-Bicocca) 14 / 22


Calcolo dei parametri: gli alberi di ciliegio

In questo caso abbiamo che


n n
X X
yi = 935.3, xi = 410.7,
i=1 i=1
n n
X X
xi2 = 5736.55, xi yi = 13887.86.
i=1 i=1

Perciò possiamo calcolare medie, varianza e covarianza


935.5 410.7
ȳ = = 30.17, x̄ = = 13.25,
31 31
5736.55 13887.86
var(x ) = − 13.252 = 9.53, cov(x , y ) = − 13.25 × 30.17 = 48.24.
31 31

Possiamo quindi determinare i parametri


48.24
β̂ = = 5.06, α̂ = 30.17 − 5.06 × 13.25 = −36.88.
9.53

Tommaso Rigon (Milano-Bicocca) 15 / 22


Diagramma di dispersione con retta di regressione

80

60
Volume

40

20

8 12 16 20
Diametro

La capacità di descrivere le variazione del volume sembra buona, con l’eccezione forse
delle osservazioni più esterne.

Tommaso Rigon (Milano-Bicocca) 16 / 22


I residui: media e varianza

Le differenze tra i valori osservati della variabile risposta ed i valori previsti dal modello,
ovvero
ri = yi − (α̂ + β̂xi ), i = 1, . . . , n,
vengono spesso chiamati residui.

Proprietà. La media dei residui è nulla, infatti:


n n n
X X X
ri = yi − nα̂ − β̂ xi = nȳ − n(ȳ − β̂x̄ ) − nβ̂x̄ = 0.
i=1 i=1 i=1

La varianza dei residui essere utilizzata per valutare la bontà di adattamento del
modello ai dati.

Infatti, quanto più la varianza dei residui è piccola, tanto più la retta di regressione è
vicina alle osservazioni.

Tommaso Rigon (Milano-Bicocca) 17 / 22


I residui: media e varianza
Proprietà. La varianza dei residui è sempre minore di quella della variabile risposta.
Infatti:
n n
1X 1X
var(y ) = min (yi − α)2 ≥ min (yi − α − βxi )2 = var(r ).
α∈R n (α,β)∈R2 n
i=1 i=1

Proprietà. La varianza dei residui è pari a

cov(x , y )2
var(r ) = var(y ) − .
var(x )
Infatti, usando le proprietà della varianza, otteniamo che
n
1X
var(r ) = [(yi − β̂xi ) − (ȳ − β̂x̄ )]2 = var(y − β̂x )
n
i=1

= var(y ) + β̂ 2 var(x ) − 2β̂cov(x , y )


cov(x , y )2 cov(x , y )2 cov(x , y )2
= var(y ) + −2 = var(y ) − .
var(x ) var(x ) var(x )

Tommaso Rigon (Milano-Bicocca) 18 / 22


Coefficiente di determinazione R 2

La varianza dei residui dipende dalla scala del fenomeno osservato. Pertanto per
valutare la bontà di adattamento si utilizza spesso l’indice R 2 .

Coefficiente di determinazione R 2 . Il coefficiente R 2 per un modello di regressione


lineare semplice è definito come:
var(r )
R2 = 1 − .
var(y )

L’indice R 2 misura la frazione di varianza della variabile risposta (varianza totale)


spiegata dal modello. Si ha pertanto che 0 ≤ R 2 ≤ 1.

Si ha che R 2 = 0 se var(r ) = var(y ), ovvero quando il modello non “spiega” la risposta.

Viceversa, si ha che R 2 = 1 quando var(r ) = 0, ovvero quando il modello “spiega”


perfettamente la risposta.

Tommaso Rigon (Milano-Bicocca) 19 / 22


Coefficiente di determinazione: gli alberi di ciliegio

Abbiamo calcolato in precedenza le seguenti quantità:

ȳ = 30.17, x̄ = 13.25,
var(x ) = 9.53, cov(x , y ) = 48.24.
Pn
È inoltre noto che i=1
yi2 = 36324.99.

Pertanto possiamo ottenere

36324.99 48.242
var(y ) = − 30.172 = 261.54, var(r ) = 261.54 − = 17.35.
31 9.53

Pertanto, il coefficiente di determinazione vale circa


17.35
R2 = 1 − = 0.934,
261.54
ovvero il modello spiega poco meno del 95% della varianza totale.

Tommaso Rigon (Milano-Bicocca) 20 / 22


Correlazione e coefficiente di determinazione

Proprietà. Il coefficiente di determinazione è pari al coefficiente di correlazione al


quadrato, infatti:

var(r ) cov(x , y )2
R2 = 1 − = = cor(x , y )2 .
var(y ) var(x )var(y )

Questa equivalenza chiarisce che il coefficiente di correlazione (e quindi la covarianza)


misura una relazione di tipo lineare.

Infatti, il coefficiente R 2 e quindi cor(x , y ) catturano la vicinanza dei dati ad una retta.

Nota. Nel caso dei ciliegi, abbiamo ottenuto R 2 = 0.934 e cor(x , y ) = 0.9672 = 0.935.
Questa leggera discrepanza è dovuta alle varie approssimazioni numeriche effettuate.

Se avessimo tenuto traccia di un maggior numero di decimali, avremmo ottenuto

cor(x , y ) = 0.9671194, R 2 = 0.9353199.

Tommaso Rigon (Milano-Bicocca) 21 / 22


Regressione e correlazione

Le analogie con l’unità J, dove abbiamo introdotto la covarianza e la correlazione, sono


molte.

Il problema di base è lo stesso (studio delle relazioni tra variabili) e gli “ingredienti” che
abbiamo maneggiato pure (medie, varianze e covarianze).

Nonostante ciò, si noti che esiste una importante differenza.

In questa unità abbiamo considerato l’effetto di una variabile esplicativa su una


variabile risposta. Le variabili erano poste in maniera asimmetrica, poichè eravamo
interessati ad una relazione del tipo diametro → volume.

Viceversa nell’unità J ci siamo posti in maniera simmetrica rispetto alle variabili. Non
abbiamo cercato di spiegarne una sulla base di un altra ma abbiamo semplicemente
valutato le relazioni intercorrenti.

Tommaso Rigon (Milano-Bicocca) 22 / 22

Potrebbero piacerti anche