Regressione Semplice
Regressione Semplice
Y = f (X) + ε
COMPONENTE DETERMINISTICA
(definisce il contributo della variabile
esplicativa X)
COMPONENTE STOCASTICA
(è una v.c. e riassume gli altri fattori non osservabili
in grado di influenzare la relazione tra Y e X)
SE LA SCELTA CADE SU UNA FUNZIONE LINEARE (DOVE X È LA VARIABILE
ANTECEDENTE) SI INDIVIDUA LA RETTA DI REGRESSIONE:
𝒀 = 𝜷𝟎 + 𝜷𝟏𝑿 + 𝜺
INTERCETTA COEFFICIENTE ANGOLARE
Il modello di regressione lineare si definisce semplice quando considera una sola
variabile esplicativa e multiplo quando include due o più variabili esplicative
Nella regressione lineare semplice:
Il modello stimato è una retta sul piano cartesiano
I valori osservati si possono rappresentare come punti nel
piano cartesiano
La rappresentazione grafica, nel caso di un modello di
regressione lineare semplice,
sarà la seguente:
’
’
’
𝑿
𝒊
𝒀
𝒊
Quando stimiamo la retta di regressione lineare semplice su dati campionari
otteniamo la seguente relazione funzionale e rappresentazione grafica:
La somma dei quadrati degli scarti dipende dal valore attribuito all intercetta
campionaria e al coefficiente angolare campionario
Il metodo dei minimi quadrati ha l obiettivo di determinare quei valori di e che
minimizzano la somma dei quadrati degli scarti dei valori osservati da quelli stimati
dalla retta di regressione
𝒀
’
𝒃
𝟎
𝒃
𝟏
𝑿
𝒃
𝟎
𝒆
’
’
𝒃
𝟏
𝒃
𝟎
’
𝒃
𝟏
𝒃
𝒃
𝟎
𝟎
𝒃
𝒃
𝟏
𝟏
Esprime di quanto varia in media il carattere dipendente (Y) al variare di una unità del
carattere
indipendente (X)
È espresso in una unità di misura pari al rapporto tra l unità di misura del carattere Y e
quella del carattere X.
Varia tra– ∞ e + ∞. In particolare, se:
β1 > 0 il carattere Y aumenta in media all aumentare del carattere X
β1 < 0 il carattere Y diminuisce in media all aumentare del carattere X
β1= 0 il carattere Y è indipendente in media dal carattere X
Sotto le ipotesi classiche del modello di regressione lineare semplice, gli stimatori
dei minimi quadrati ( e ) per i parametri ( e ) sono lineari, non distorti ed i
più efficienti nella classe degli stimatori lineari e non distorti (BLUE)
MSE rappresenta il Mean Square Error (Errore Quadratico Medio). Dato lo stimatore. :
Quando lo stimatore non è distorto, l errore quadratico medio dello stimatore corrisponde
alla sua varianza
Lo stimatore è più efficiente dello stimatore se presenta un valore MSE inferiore
L efficienza rappresenta un indicazione della vicinanza della stima campionaria al
paramento incognito della popolazione
È ragionevole ritenere che le proprietà di uno stimatore migliorino all’aumentare della numerosità
Tale aspettativa di miglioramento è formalizzata attraverso le proprietà
asintotiche dello stimatore
Poiché le proprietà asintotiche sono valide al crescere della numerosità
campionaria, esse sono rappresentate attraverso la seguente simbologia:
∞
Uno stimatore che possiede proprietà di tipo asintotico utilizza nella
𝑬
𝑩
𝒏
’
𝑩
𝑩
𝟏
𝟏
𝜷
𝐄
𝟏
𝑩
𝟏
𝑩
𝜷
𝟏
𝟏
𝑰
𝐄
𝐄
𝑩
𝑩
𝟏
𝟏
’
𝜷
𝜷
𝟏
𝟏
’
’
𝑩
𝟏
𝑰
𝑰
𝑩
𝟏
Uno stimatore è consistente (asintoticamente non distorto) se la sua precisione aumenta al
crescere della dimensione campionaria (n):
Poiché il MSE è funzione della distorsione e della varianza, lo stimatore sarà consistente
in media quadratica se si veri cano contemporaneamente le
Dopo aver stimato i coef cienti di regressione con il metodo dei minimi quadrati, è necessario
valutare la bontà dell’adattamento del modello ai dati
A tal ne, si calcolano tre importanti indici di variabilità:
SQT (Somma Totale dei Quadrati), rappresenta la Devianza Totale
SQR (Somma dei Quadrati della Regressione), rappresenta la Devianza
di Regressione. È quella parte di variabilità dovuta alla presenza di una relazione tra le
variabili X e Y
SQE (Somma dei Quadrati dell’Errore), rappresenta la Devianza Residua. È quella parte di
variabilità dovuta ad altri fattori che non siano relativi alla relazione tra X e Y ed è la parte
erratica del modello
fi
fi
Al ne di valutare la bontà di adattamento del modello di regressione lineare semplice ai
dati è possibile de nire un indice statistico basato sul rapporto tra la devianza di
regressione DEV(R) e la devianza totale DEV(Y)
Tale indice misura la proporzione di variabilità della Y spiegata dalla
relazione con la variabile X all’interno del modello di regressione
Il metodo dei minimi quadrati restituisce la retta interpolante che è più vicina ai dati, ovvero
con il minimo errore
Tuttavia, a meno che tutte le osservazioni non cadano esattamente sulla retta
di regressione individuata, la retta interpolante non rappresenta un modello perfetto per i
dati
L’errore standard delle stime rappresenta lo scarto quadratico medio dei dati
attorno alla retta di regressione
fi
fi
𝒀
𝒀
L’errore standard delle stime (o errore standard del modello di regressione) è rappresentato
con il simbolo YX ed è de nito dalla seguente equazione:
Dove:
= Somma dei quadrati dell’errore
Al denominatore abbiamo i gradi di libertà. Essi sono uguali a − in quanto nel
modello sono due i parametri da stimare (β0 e β1 )
Una volta stimato il coef ciente angolare della regressione β1 è necessario veri care che
la relazione lineare tra le variabili e sia signi cativa
Tale veri ca si effettua attraverso il seguente test di ipotesi:
: = Non è presente una relazione lineare tra la variabile dipendente e la variabile
indipendente .
Un coef ciente angolare = implica che al variare della
non vi è alcuna variazione della
: ≠
È presente una relazione lineare tra la variabile dipendente
e la variabile indipendente
Un coef ciente angolare ≠ implica che vi è una
variazione signi cativa della al variare della
Tale problema di veri ca di ipotesi viene risolto ricorrendo al test
La statistica test è uguale alla differenza tra il coef ciente angolare
campionario e il suo valore ipotizzato nella popolazione , diviso per l’errore standard
del coef ciente angolare :
Poiché sotto l’ipotesi nulla = , la statistica test diventa:
Dove:
= inclinazione di Y rispetto alla variabile X
= errore standard del coef ciente di regressione
= statistica test con distribuzione di Student con – gradi di libertà
𝑺
𝑯
𝑿
𝑯
𝒀
𝒃
𝑺
𝒕
𝑺
𝒃
𝟏
𝑻
𝑸
𝟏
𝟎
𝟏
𝑨
𝑬
𝑻
𝜷
𝜷
𝟏
𝟏
fi
fi
fi
fi
𝟎
𝟎
𝒃
𝑿
𝑆
𝟏
fi
𝒕
fi
fi
𝒕
fi
𝜷
𝜷
𝑺
fi
𝟏
𝟏
𝒃
𝜷
𝟏
𝟏
𝒀
𝑿
𝟎
𝒃
𝟎
𝟏
𝟎
𝒏
𝑿
𝒀
𝟐
𝒀
𝑿
fi
fi
𝜷
𝟏
𝒏
𝒕
𝟐
𝒀
fi
rappresenta l’errore standard del coef ciente angolare . Esso
rappresenta una misura della precisione con cui viene stimato (con i nostri
dati campionari) il parametro incognito della popolazione
Dove:
= errore standard del coef ciente di regressione
= errore standard delle stime (errore standard dell’intero modello)
Analogamente a quanto fatto per il coef ciente angolare della regressione β1 è possibile
veri care la signi catività dell’intercetta β0
Dove:
= errore standard del coef ciente di regressione
Partendo da:
Se una o più ipotesi sono violate il modello è mal speci cato e risulta
necessario apportare modi che sia alle procedure di stima che alla
de nizione del modello stesso
Per veri care se l’ipotesi di linearità della relazione tra X e Y è soddisfatta ricorriamo
ai diagrammi di dispersione in cui i residui sono messi in relazione con i valori
della variabile indipendente , o in alternativa, con i valori della variabile
dipendente osservati o stimati :
Se l’assunzione di linearità è rispettata, i punti rappresentati nel diagramma a
dispersione tenderanno a distribuirsi in modo casuale intorno allo zero. In tal caso,
tra i residui rappresentati in ordinata e i valori rappresentati in ascissa (in alternativa ,
) non vi è alcun tipo di relazione (o speci co andamento).
Se, al contrario, l’ipotesi di linearità non è veri cata, dal gra co sarà visibile
un qualche tipo di relazione (o speci co andamento regolare) tra i residui e la variabile
dipendente/indipendente
Kolmogorov– Smirnov
Il test di Kolmogorov - Smirnov è un test non parametrico.
Si basa sul confronto della funzione di ripartizione empirica (ottenuta sulla base dei
residui standardizzati)con quella teorica (distribuzione normale).
È utilizzato per testare se la distribuzione empirica dei residui si discosta
In particolare:
assume valori uguali o prossimi a 2 Assenza di correlazione tra i
termini di errore ,L’ipotesi di indipendenza è veri cata.
assume valori uguali o prossimi a 0 ,Autocorrelazione positiva:i successivi termini di
errore hanno valori mediamente simili fra loro, positivamente correlati ,L’ipotesi di
indipendenza è violata.
assume valori uguali o prossimi a 4 ,Autocorrelazione negativa:i successivi termini di
errore sono molto differenti l'uno dall'altro,negativamente correlati ,L’ipotesi di