Il 0% ha trovato utile questo documento (0 voti)

25 visualizzazioni22 pagine

Statistica I: Unità K: Regressione Lineare Semplice

Stat exercise

Caricato da

mirkopiazzalunga2003

Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.

Formati disponibili

Scarica in formato PDF, TXT o leggi online su Scribd

Il 0% ha trovato utile questo documento (0 voti)

25 visualizzazioni22 pagine

Statistica I: Unità K: Regressione Lineare Semplice

Stat exercise

Caricato da

mirkopiazzalunga2003

Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.

Formati disponibili

Scarica in formato PDF, TXT o leggi online su Scribd

Statistica I

Unità K: regressione lineare semplice

Tommaso Rigon

Università Milano-Bicocca

Tommaso Rigon (Milano-Bicocca) 1 / 22

Unità K

Argomenti affrontati
Modello di regressione lineare semplice

Minimi quadrati

Media e varianza residua, coefficiente di determinazione (R 2 )

Riferimenti al libro di testo

§22.1 — §22.4

§22.8

Nota. Alcuni paragrafi richiedono la conoscenza di nozioni di calcolo delle probabilità.

Tali passaggi non sono materia d’esame.

Tommaso Rigon (Milano-Bicocca) 2 / 22

Descrizione del problema

Per n = 31 alberi di ciliegio nero sono disponibili le misure del diametro del tronco
(misurato a circa 1m dal suolo) ed il volume ricavato dall’albero dopo l’abbattimento.

Si vogliono utilizzare i dati per ottenere un’equazione che permetta di prevedere il

volume, ottenibile solo dopo l’abbattimento dell’albero, avendo a disposizione il
diametro, che è invece facilmente misurabile.

In altri termini, stiamo cercando una qualche funzione f (·) tale che

(volume) ≈ f (diametro).

Una simile equazione ha differenti utilizzi.

Ad esempio, può essere utilizzata per decidere quanti e quali alberi tagliare per ricavare
un certo ammontare di legno, oppure per determinare il “prezzo” di un bosco.

Tommaso Rigon (Milano-Bicocca) 3 / 22

I dati grezzi

Diametro
[1] 8.3 8.6 8.8 10.5 10.7 10.8 11.0 11.0 11.1 11.2 20.6 11.3
[13] 11.4 11.4 11.7 12.0 12.9 12.9 13.3 13.7 13.8 14.0 14.2 14.5
[25] 16.0 16.3 17.3 17.5 17.9 18.0 18.0

Volume
[1] 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 77.0 24.2
[13] 21.0 21.4 21.3 19.1 22.2 33.8 27.4 25.7 24.9 34.5 31.7 36.3
[25] 38.3 42.6 55.4 55.7 58.3 51.5 51.0

Tommaso Rigon (Milano-Bicocca) 4 / 22

Diagramma di dispersione
80

60
Volume

8 12 16 20
Diametro

Possiamo quindi calcolare la correlazione:

cor(diametro, volume) = 0.967.

È quindi evidente una forte relazione di tipo sostanzialmente lineare.

Tommaso Rigon (Milano-Bicocca) 5 / 22
Un primo modello

Adottiamo per il momento l’ipotesi di una relazione lineare.

Possiamo allora definire un modello lineare del tipo

(volume) = α + β (diametro) + (errore).

L’ultima componente esprime la parte delle oscillazioni del volume non legate al
diametro o che non è catturata dalla relazione lineare.

Se y1 , . . . , yn rappresentano i volumi e x1 , . . . , xn rappresentano i diametri, allora

scriveremo:
yi = α + βxi + ϵi , i = 1, . . . , n,
dove ϵ1 , . . . , ϵn rappresentano invece gli errori.

Tommaso Rigon (Milano-Bicocca) 6 / 22

Modello di regressione lineare: terminologia

Il modello che abbiamo appena descritto viene tipicamente chiamato modello di

regressione lineare semplice.

In generale, vogliamo spiegare una variabile y utilizzando un’altra variabile x , mediante

un modello del tipo
y = α + βx + ϵ.

La variabile y viene tipicamente chiamata variabile risposta o variabile dipendente.

La variabile x viene chiamata variabile esplicativa, regressore oppure variabile

indipendente.

I valori α, β ∈ R sono i parametri del modello.

Tommaso Rigon (Milano-Bicocca) 7 / 22

Metodo dei minimi quadrati: idea

In pratica, è necessario determinare il valore dei parametri α e β.

Se avessimo a disposizione un valore ragionevole dei parametri, diciamo α̂ e β̂,

potremmo prevedere il volume del legno usando

(volume) ≈ α̂ + β̂(diametro).

Sembra ragionevole cercare di determinare α̂ e β̂ in modo tale da ottenere buone

previsioni sull’insieme di dati osservato.

Vogliamo quindi trovare dei valori per i parametri tali che

y1 ≈ α̂ + β̂x1 ,
y2 ≈ α̂ + β̂x2 ,
..
.
yn ≈ α̂ + β̂xn .

Tommaso Rigon (Milano-Bicocca) 8 / 22

Differenti scelte dei parametri

60
Volume

8 12 16 20
Diametro

Le linee arancioni rappresentano delle scelte non ottimali a fini previsivi.

Viceversa, la linea nera attraversa la nuvola di punti e sembra una scelta appropriata.

Tommaso Rigon (Milano-Bicocca) 9 / 22

Metodo dei minimi quadrati: la funzione di perdita

Per rendere operativa la precedente intuizione, dobbiamo decidere cosa si intende

precisamente per
yi ≈ α̂ + β̂xi , i = 1, . . . , n.

Una possibile soluzione, è scegliere i parametri che minimizzano la funzione di perdita

n
X
ℓ(α, β) = (yi − α − βxi )2 ,
i=1

ovvero scegliendo α̂ e β̂ tali che

(α̂, β̂) = arg min ℓ(α, β).

α,β

Questo criterio viene detto il metodo dei minimi quadrati, poiché minimizza la
somma degli scarti al quadrato, ovvero la somma degli errori al quadrato.

Tommaso Rigon (Milano-Bicocca) 10 / 22

Minimi quadrati: determinazione dei parametri

Il criterio dei minimi quadrati è molto popolare perché la soluzione del problema di
minimizzazione è semplice da calcolare.

Minimi quadrati
L’unica soluzione al problema
n
X
(α̂, β̂) = arg min (yi − α − βxi )2
α,β
i=1

è pari a
cov(x , y )
α̂ = ȳ − β̂x̄ , β̂ = .
var(x )

La soluzione del problema è ben definita solamente se var(x ) > 0.

Questo è molto ragionevole: il parametro β indica quanto varia la risposta al variare

della esplicativa, ma se var(x ) = 0 allora l’esplicativa non varia affatto.

Tommaso Rigon (Milano-Bicocca) 11 / 22

Dimostrazione I

Per ogni prefissato β, conosciamo già la soluzione del seguente problema

n n
X X
arg min (yi − α − βxi )2 = arg min (wi − α)2 ,
α∈R α∈R
i=1 i=1

avendo posto wi = yi − βxi per ogni i = 1, . . . , n. Infatti, dall’unità C sappiamo che il

valore che minimizza tale funzione è la media aritmetica.

Pertanto per qualsiasi valore di β, otteniamo che

n n
1X 1X
α̂(β) = wi = (yi − βxi ) = ȳ − x̄ β.
n n
i=1 i=1

Dalla definizione di α̂(β) segue che per ogni α, β

ℓ(α, β) ≥ ℓ(α̂(β), β).

Tommaso Rigon (Milano-Bicocca) 12 / 22

Dimostrazione II

Abbiamo quindi ridotto il problema iniziale al seguente sotto-problema

n
X
β̂ = arg min ℓ(α̂(β), β) = arg min [(yi − ȳ ) − β(xi − x̄ )]2
β∈R β∈R
i=1

e ovviamente porremo α̂ = α̂(β̂) = ȳ − β̂x̄ .

Prendendo la derivata rispetto a β e ponendola pari a 0, si ottiene che

n
X
−2 (xi − x̄ )[(yi − ȳ ) − β(xi − x̄ )] = 0,
i=1

che possiamo riscrivere come

n n
X X
(xi − x̄ )(yi − ȳ ) = β (xi − x̄ )2 .
i=1 i=1

Tommaso Rigon (Milano-Bicocca) 13 / 22

Dimostrazione III

Pn
Quindi, se i=1
(xi − x̄ )2 > 0 la soluzione al problema è pari a
Pn
i=1
(xi − x̄ )(yi − ȳ ) cov(x , y )
β̂ = Pn = ,
i=1
(xi − x̄ )
2 var(x )

dove l’ultimo passaggio si ottiene moltiplicando numeratore e denominatore per n.

Nota matematica. Per concludere la dimostrazione bisogna infine verificare che la

soluzione trovata è un punto di minimo e non, ad esempio, un massimo.

Esercizio. Si verifichi che la soluzione è effettivamente un punto di minimo, ad

esempio valutando il segno della derivata seconda di ℓ(α̂(β), β).

Tommaso Rigon (Milano-Bicocca) 14 / 22

Calcolo dei parametri: gli alberi di ciliegio

In questo caso abbiamo che

n n
X X
yi = 935.3, xi = 410.7,
i=1 i=1
n n
X X
xi2 = 5736.55, xi yi = 13887.86.
i=1 i=1

Perciò possiamo calcolare medie, varianza e covarianza

935.5 410.7
ȳ = = 30.17, x̄ = = 13.25,
31 31
5736.55 13887.86
var(x ) = − 13.252 = 9.53, cov(x , y ) = − 13.25 × 30.17 = 48.24.
31 31

Possiamo quindi determinare i parametri

48.24
β̂ = = 5.06, α̂ = 30.17 − 5.06 × 13.25 = −36.88.
9.53

Tommaso Rigon (Milano-Bicocca) 15 / 22

Diagramma di dispersione con retta di regressione

60
Volume

8 12 16 20
Diametro

La capacità di descrivere le variazione del volume sembra buona, con l’eccezione forse
delle osservazioni più esterne.

Tommaso Rigon (Milano-Bicocca) 16 / 22

I residui: media e varianza

Le differenze tra i valori osservati della variabile risposta ed i valori previsti dal modello,
ovvero
ri = yi − (α̂ + β̂xi ), i = 1, . . . , n,
vengono spesso chiamati residui.

Proprietà. La media dei residui è nulla, infatti:

n n n
X X X
ri = yi − nα̂ − β̂ xi = nȳ − n(ȳ − β̂x̄ ) − nβ̂x̄ = 0.
i=1 i=1 i=1

La varianza dei residui essere utilizzata per valutare la bontà di adattamento del
modello ai dati.

Infatti, quanto più la varianza dei residui è piccola, tanto più la retta di regressione è
vicina alle osservazioni.

Tommaso Rigon (Milano-Bicocca) 17 / 22

I residui: media e varianza
Proprietà. La varianza dei residui è sempre minore di quella della variabile risposta.
Infatti:
n n
1X 1X
var(y ) = min (yi − α)2 ≥ min (yi − α − βxi )2 = var(r ).
α∈R n (α,β)∈R2 n
i=1 i=1

Proprietà. La varianza dei residui è pari a

cov(x , y )2
var(r ) = var(y ) − .
var(x )
Infatti, usando le proprietà della varianza, otteniamo che
n
1X
var(r ) = [(yi − β̂xi ) − (ȳ − β̂x̄ )]2 = var(y − β̂x )
n
i=1

= var(y ) + β̂ 2 var(x ) − 2β̂cov(x , y )

cov(x , y )2 cov(x , y )2 cov(x , y )2
= var(y ) + −2 = var(y ) − .
var(x ) var(x ) var(x )

Tommaso Rigon (Milano-Bicocca) 18 / 22

Coefficiente di determinazione R 2

La varianza dei residui dipende dalla scala del fenomeno osservato. Pertanto per
valutare la bontà di adattamento si utilizza spesso l’indice R 2 .

Coefficiente di determinazione R 2 . Il coefficiente R 2 per un modello di regressione

lineare semplice è definito come:
var(r )
R2 = 1 − .
var(y )

L’indice R 2 misura la frazione di varianza della variabile risposta (varianza totale)

spiegata dal modello. Si ha pertanto che 0 ≤ R 2 ≤ 1.

Si ha che R 2 = 0 se var(r ) = var(y ), ovvero quando il modello non “spiega” la risposta.

Viceversa, si ha che R 2 = 1 quando var(r ) = 0, ovvero quando il modello “spiega”

perfettamente la risposta.

Tommaso Rigon (Milano-Bicocca) 19 / 22

Coefficiente di determinazione: gli alberi di ciliegio

Abbiamo calcolato in precedenza le seguenti quantità:

ȳ = 30.17, x̄ = 13.25,
var(x ) = 9.53, cov(x , y ) = 48.24.
Pn
È inoltre noto che i=1
yi2 = 36324.99.

Pertanto possiamo ottenere

36324.99 48.242
var(y ) = − 30.172 = 261.54, var(r ) = 261.54 − = 17.35.
31 9.53

Pertanto, il coefficiente di determinazione vale circa

17.35
R2 = 1 − = 0.934,
261.54
ovvero il modello spiega poco meno del 95% della varianza totale.

Tommaso Rigon (Milano-Bicocca) 20 / 22

Correlazione e coefficiente di determinazione

Proprietà. Il coefficiente di determinazione è pari al coefficiente di correlazione al

quadrato, infatti:

var(r ) cov(x , y )2
R2 = 1 − = = cor(x , y )2 .
var(y ) var(x )var(y )

Questa equivalenza chiarisce che il coefficiente di correlazione (e quindi la covarianza)

misura una relazione di tipo lineare.

Infatti, il coefficiente R 2 e quindi cor(x , y ) catturano la vicinanza dei dati ad una retta.

Nota. Nel caso dei ciliegi, abbiamo ottenuto R 2 = 0.934 e cor(x , y ) = 0.9672 = 0.935.
Questa leggera discrepanza è dovuta alle varie approssimazioni numeriche effettuate.

Se avessimo tenuto traccia di un maggior numero di decimali, avremmo ottenuto

cor(x , y ) = 0.9671194, R 2 = 0.9353199.

Tommaso Rigon (Milano-Bicocca) 21 / 22

Regressione e correlazione

Le analogie con l’unità J, dove abbiamo introdotto la covarianza e la correlazione, sono

molte.

Il problema di base è lo stesso (studio delle relazioni tra variabili) e gli “ingredienti” che
abbiamo maneggiato pure (medie, varianze e covarianze).

Nonostante ciò, si noti che esiste una importante differenza.

In questa unità abbiamo considerato l’effetto di una variabile esplicativa su una

variabile risposta. Le variabili erano poste in maniera asimmetrica, poichè eravamo
interessati ad una relazione del tipo diametro → volume.

Viceversa nell’unità J ci siamo posti in maniera simmetrica rispetto alle variabili. Non
abbiamo cercato di spiegarne una sulla base di un altra ma abbiamo semplicemente
valutato le relazioni intercorrenti.

Tommaso Rigon (Milano-Bicocca) 22 / 22

Potrebbero piacerti anche

Eserc 9 Marzo Slides Corso R III Parte
Nessuna valutazione finora
Eserc 9 Marzo Slides Corso R III Parte
35 pagine
Analisi Di Regressione
50% (2)
Analisi Di Regressione
131 pagine
Anova PDF
Nessuna valutazione finora
Anova PDF
18 pagine
(Dispensa) Regressione Lineare Semplice
Nessuna valutazione finora
(Dispensa) Regressione Lineare Semplice
33 pagine
Formulario Statistica
Nessuna valutazione finora
Formulario Statistica
8 pagine
04 - Regressione Univariata
Nessuna valutazione finora
04 - Regressione Univariata
28 pagine
Formulario 2025 - 6
Nessuna valutazione finora
Formulario 2025 - 6
9 pagine
Dispensa Regressione Lineare e Logistica 2014 PDF
Nessuna valutazione finora
Dispensa Regressione Lineare e Logistica 2014 PDF
44 pagine
Minimi Quadrati
Nessuna valutazione finora
Minimi Quadrati
6 pagine
4 - Regressione Lineare
Nessuna valutazione finora
4 - Regressione Lineare
44 pagine
3.3 Il Modello Di Regressione Lineare Multipla RID
Nessuna valutazione finora
3.3 Il Modello Di Regressione Lineare Multipla RID
27 pagine
Regressione Semplice
Nessuna valutazione finora
Regressione Semplice
18 pagine
Manuale Eviews PDF
Nessuna valutazione finora
Manuale Eviews PDF
150 pagine
Analisi RegressioneLineare
100% (3)
Analisi RegressioneLineare
12 pagine
Domande Statistica - 230509 - 103116
Nessuna valutazione finora
Domande Statistica - 230509 - 103116
143 pagine
Regressione Lineare
Nessuna valutazione finora
Regressione Lineare
63 pagine
A09 Regressione Lineare Semplice
Nessuna valutazione finora
A09 Regressione Lineare Semplice
87 pagine
Principi Di Econometria
Nessuna valutazione finora
Principi Di Econometria
26 pagine
Modelli Econometrici Scheda
Nessuna valutazione finora
Modelli Econometrici Scheda
52 pagine
Econometria Bocconi Appunti
Nessuna valutazione finora
Econometria Bocconi Appunti
13 pagine
Esercizi Statistica Excel
Nessuna valutazione finora
Esercizi Statistica Excel
15 pagine
Dispense 2013 Rev Stat
Nessuna valutazione finora
Dispense 2013 Rev Stat
271 pagine
Formulario Statistica Generale
Nessuna valutazione finora
Formulario Statistica Generale
3 pagine
Lezione 10
Nessuna valutazione finora
Lezione 10
54 pagine
Dispense1-5 Econometria
Nessuna valutazione finora
Dispense1-5 Econometria
185 pagine
Modelli Statici Lineari
Nessuna valutazione finora
Modelli Statici Lineari
15 pagine
Dispense Apprendimento Statistico 2024-25
Nessuna valutazione finora
Dispense Apprendimento Statistico 2024-25
243 pagine
Econometria Esercitazioni
100% (1)
Econometria Esercitazioni
21 pagine
Appunti Econometria 1 1
Nessuna valutazione finora
Appunti Econometria 1 1
10 pagine
Lezione 3 Dispensa
Nessuna valutazione finora
Lezione 3 Dispensa
51 pagine
Analisi Delle Corrispondenze
Nessuna valutazione finora
Analisi Delle Corrispondenze
396 pagine
Appunti Statistica
Nessuna valutazione finora
Appunti Statistica
4 pagine
Appunti Econometria - 2006
Nessuna valutazione finora
Appunti Econometria - 2006
228 pagine
Statnotes 5.2.0
Nessuna valutazione finora
Statnotes 5.2.0
251 pagine
Statistica I: Unità F.2: Mutua Variabilità e Concentrazione
Nessuna valutazione finora
Statistica I: Unità F.2: Mutua Variabilità e Concentrazione
26 pagine
Logit Probit PDF
Nessuna valutazione finora
Logit Probit PDF
31 pagine
Tecniche Di Regressione Lineare Semplice e Multipla
Nessuna valutazione finora
Tecniche Di Regressione Lineare Semplice e Multipla
5 pagine
Dispensa
Nessuna valutazione finora
Dispensa
172 pagine
Minimi Quadrati
Nessuna valutazione finora
Minimi Quadrati
16 pagine
Econometria 1
Nessuna valutazione finora
Econometria 1
59 pagine
Retta Di Regressione
Nessuna valutazione finora
Retta Di Regressione
5 pagine
Statistica Bivariata
Nessuna valutazione finora
Statistica Bivariata
9 pagine
Formulario Calcolo Numerico
Nessuna valutazione finora
Formulario Calcolo Numerico
18 pagine
Beta Regression
Nessuna valutazione finora
Beta Regression
63 pagine
03 - Elementi Di Statistica-SB
Nessuna valutazione finora
03 - Elementi Di Statistica-SB
25 pagine
Analisi Dei Dati Quantitativi
Nessuna valutazione finora
Analisi Dei Dati Quantitativi
238 pagine
Seleccion - Cvtte
Nessuna valutazione finora
Seleccion - Cvtte
34 pagine
Statistica II Parte
Nessuna valutazione finora
Statistica II Parte
12 pagine
Cap. 4 - Parte 2
Nessuna valutazione finora
Cap. 4 - Parte 2
21 pagine
Train-Test Split:: Dati Sempre Gli Stessi Dati
Nessuna valutazione finora
Train-Test Split:: Dati Sempre Gli Stessi Dati
4 pagine
Formulario Statistica
Nessuna valutazione finora
Formulario Statistica
14 pagine
01 Regressione Multipla
Nessuna valutazione finora
01 Regressione Multipla
10 pagine