Il 0% ha trovato utile questo documento (0 voti)
59 visualizzazioni18 pagine

Regressione Semplice

La regressione analizza la relazione tra variabili dipendenti e indipendenti, utilizzando modelli matematici per fare previsioni. Il metodo dei minimi quadrati è impiegato per stimare i coefficienti di regressione, minimizzando gli errori tra valori osservati e stimati. La bontà del modello è valutata attraverso indici di variabilità e test di significatività per determinare la presenza di relazioni lineari tra le variabili.

Caricato da

luanaangelone45
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
59 visualizzazioni18 pagine

Regressione Semplice

La regressione analizza la relazione tra variabili dipendenti e indipendenti, utilizzando modelli matematici per fare previsioni. Il metodo dei minimi quadrati è impiegato per stimare i coefficienti di regressione, minimizzando gli errori tra valori osservati e stimati. La bontà del modello è valutata attraverso indici di variabilità e test di significatività per determinare la presenza di relazioni lineari tra le variabili.

Caricato da

luanaangelone45
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd

La regressione si riferisce allo studio di una relazione funzionale tra la variabile

dipendente (o risposta) Y (per ipotesi affetta da errori) e la/le variabile/i


indipendente/i (o esplicativa/e) X
Y = f (X) + ε
L analisi della regressione consente anche di affrontare il problema della
PREVISIONE (es.: la previsione del voto dell esame di statistica a partire dal voto
conseguito in matematica)
La v.s. doppia, data nella forma di serie di n coppie di valori ( , ), si può tradurre
graficamente in un diagramma di dispersione (scatter), ossia in una nuvola di N
punti, ciascuno rappresentativo di una coppia di valori
L analisi del diagramma di dispersione aiuta nella scelta del modello matematico
appropriato per spiegare la relazione che lega Y ad X

Y = f (X) + ε
COMPONENTE DETERMINISTICA
(definisce il contributo della variabile
esplicativa X)
COMPONENTE STOCASTICA
(è una v.c. e riassume gli altri fattori non osservabili
in grado di influenzare la relazione tra Y e X)
SE LA SCELTA CADE SU UNA FUNZIONE LINEARE (DOVE X È LA VARIABILE
ANTECEDENTE) SI INDIVIDUA LA RETTA DI REGRESSIONE:
𝒀 = 𝜷𝟎 + 𝜷𝟏𝑿 + 𝜺
INTERCETTA COEFFICIENTE ANGOLARE
Il modello di regressione lineare si definisce semplice quando considera una sola
variabile esplicativa e multiplo quando include due o più variabili esplicative
Nella regressione lineare semplice:
Il modello stimato è una retta sul piano cartesiano
I valori osservati si possono rappresentare come punti nel
piano cartesiano
La rappresentazione grafica, nel caso di un modello di
regressione lineare semplice,
sarà la seguente:



𝑿
𝒊
𝒀
𝒊
Quando stimiamo la retta di regressione lineare semplice su dati campionari
otteniamo la seguente relazione funzionale e rappresentazione grafica:

𝒀𝒊: è il valore stimato (o predetto) di Y


𝐛𝟎: è la stima campionaria dell’intercetta
𝐛𝟏: rappresenta la stima campionaria del coefficiente angolare
𝒆: rappresenta la manifestazione campionaria della componente erratica
Per esplicitare l equazione
= + + bisogna determinare i due coefficienti di regressione e
L approccio più comunemente utilizzato per stimare i valori di e è quello del
metodo dei minimi quadrati.
Il metodo dei minimi quadrati consiste nel minimizzare la somma dei quadrati degli

La somma dei quadrati degli scarti dipende dal valore attribuito all intercetta
campionaria e al coefficiente angolare campionario
Il metodo dei minimi quadrati ha l obiettivo di determinare quei valori di e che
minimizzano la somma dei quadrati degli scarti dei valori osservati da quelli stimati
dalla retta di regressione
𝒀

𝒃
𝟎
𝒃
𝟏
𝑿
𝒃
𝟎
𝒆


𝒃
𝟏
𝒃
𝟎

𝒃
𝟏
𝒃
𝒃
𝟎
𝟎
𝒃
𝒃
𝟏
𝟏
Esprime di quanto varia in media il carattere dipendente (Y) al variare di una unità del
carattere
indipendente (X)
È espresso in una unità di misura pari al rapporto tra l unità di misura del carattere Y e
quella del carattere X.
Varia tra– ∞ e + ∞. In particolare, se:
β1 > 0 il carattere Y aumenta in media all aumentare del carattere X
β1 < 0 il carattere Y diminuisce in media all aumentare del carattere X
β1= 0 il carattere Y è indipendente in media dal carattere X

Rappresenta il valore medio stimato di Y quando il valore della variabile X è zero


Varia tra– ∞ e + ∞
Le stime dei coefficienti ottenute con il metodo dei minimi quadrati sono valori
numerici funzione del campione osservato.

Come tutte le stime, esse variano al variare di un campione casuale generando la


coppia di stimatori dei minimi quadrati ( e ) dei parametri del modello di regressione
lineare semplice ( e )

Entrambi gli stimatori ( e ) sono lineari perché esprimibili mediante


combinazioni lineari della v.c. ( ) ma non casuali perché sono funzione della variabile X
(che sono valori deterministici)

Sotto le ipotesi classiche del modello di regressione lineare semplice, gli stimatori
dei minimi quadrati ( e ) per i parametri ( e ) sono lineari, non distorti ed i
più efficienti nella classe degli stimatori lineari e non distorti (BLUE)

Caratteristiche degli stimatori dei minimi quadrati:


Non distorti
Lineari (perché espressi mediante una combinazione lineare della v.c. )
I più efficienti entro la classe di tutti gli stimatori che siano lineari e non distorti
𝜷
𝟎
𝑩
𝟎
𝜷
𝑩
𝟏
𝟎
𝑩
𝟏
𝑩
𝟏
𝒀
𝒊
𝑩

𝟎

𝑩
𝜷
𝟏
𝟎
𝜷
𝟏

𝒀
𝒊
Uno stimatore si definisce corretto (Unbiased) se il suo valore medio al variare dei
campioni è uguale al valore del parametro nell universo
=
La distorsione (BIAS) dello stimatore è definita da:
= −
Distorsione positiva: >
Distorsione negativa: <
La correttezza dello stimatore è una proprietà desiderabile perché dimostra
la capacità dello stimatore di ottenere in media (sulla base dei dati
campionari) una stima esatta

MSE rappresenta il Mean Square Error (Errore Quadratico Medio). Dato lo stimatore. :

Quando lo stimatore non è distorto, l errore quadratico medio dello stimatore corrisponde
alla sua varianza
Lo stimatore è più efficiente dello stimatore se presenta un valore MSE inferiore
L efficienza rappresenta un indicazione della vicinanza della stima campionaria al
paramento incognito della popolazione

È ragionevole ritenere che le proprietà di uno stimatore migliorino all’aumentare della numerosità
Tale aspettativa di miglioramento è formalizzata attraverso le proprietà
asintotiche dello stimatore
Poiché le proprietà asintotiche sono valide al crescere della numerosità
campionaria, esse sono rappresentate attraverso la seguente simbologia:

Uno stimatore che possiede proprietà di tipo asintotico utilizza nella
𝑬
𝑩
𝒏

𝑩
𝑩
𝟏
𝟏
𝜷
𝐄
𝟏
𝑩
𝟏
𝑩
𝜷
𝟏
𝟏
𝑰
𝐄
𝐄
𝑩
𝑩
𝟏
𝟏

𝜷
𝜷
𝟏
𝟏


𝑩
𝟏
𝑰
𝑰
𝑩
𝟏
Uno stimatore è consistente (asintoticamente non distorto) se la sua precisione aumenta al
crescere della dimensione campionaria (n):

Uno stimatore consistente è uno stimatore eventualmente distorto, per una


dimensione campionaria n, ma la cui distorsione tende a zero al crescere di n
Abbiamo due tipi di consistenza:
Consistenza in media quadratica

Uno stimatore è consistente in media quadratica se il suo MSE (Mean Square


Error– Errore Quadratico Medio) tende a zero al crescere della numerosità

Poiché il MSE è funzione della distorsione e della varianza, lo stimatore sarà consistente
in media quadratica se si veri cano contemporaneamente le

Quindi, se uno stimatore è consistente in media quadratica sarà sicuramente


asintoticamente non distorto perché vale in ogni caso la condizione 2
Se uno stimatore è non distorto (o asintoticamente non distorto), allora è
consistente in media quadratica se la varianza dello stimatore tende a zero al
crescere della numerosità campionaria

Uno stimatore è consistente in probabilità se ssato un arbitrariamente piccolo, avremo:

Secondo questa proprietà asintotica utilizzando lo stimatore è molto probabile che la


stima si discosti molto poco dal reale valore del parametro della popolazione
La consistenza in probabilità afferma che al crescere della numerosità campionaria n la
probabilità che la differenza tra e sia inferiore ad un numero arbitrariamente piccolo è
pari ad 1
Pertanto diventa certo che la differenza in valore assoluto tra i valori assunti dallo stimatore
e il parametro della popolazione diventi trascurabile al crescere della numerosità
campionaria n
𝑩
𝟏
𝜷
𝟏
fi
𝑩
𝟏
𝜷
𝟏
fi
𝑩
𝟏
𝜷
𝟏
𝛜
In circostanze di elevata numerosità campionaria, alcuni stimatori distorti
possono stimare il parametro sostanzialmente al pari degli stimatori corretti
In questo caso, il valore atteso di uno stimatore distorto può, al crescere della
dimensione campionaria n, tendere al vero valore del parametro

Uno stimatore consistente in media quadratica è anche asintoticamente corretto

Dopo aver stimato i coef cienti di regressione con il metodo dei minimi quadrati, è necessario
valutare la bontà dell’adattamento del modello ai dati
A tal ne, si calcolano tre importanti indici di variabilità:
SQT (Somma Totale dei Quadrati), rappresenta la Devianza Totale
SQR (Somma dei Quadrati della Regressione), rappresenta la Devianza
di Regressione. È quella parte di variabilità dovuta alla presenza di una relazione tra le
variabili X e Y
SQE (Somma dei Quadrati dell’Errore), rappresenta la Devianza Residua. È quella parte di
variabilità dovuta ad altri fattori che non siano relativi alla relazione tra X e Y ed è la parte
erratica del modello
fi
fi
Al ne di valutare la bontà di adattamento del modello di regressione lineare semplice ai
dati è possibile de nire un indice statistico basato sul rapporto tra la devianza di
regressione DEV(R) e la devianza totale DEV(Y)
Tale indice misura la proporzione di variabilità della Y spiegata dalla
relazione con la variabile X all’interno del modello di regressione

𝑹𝟐 = 𝟎 indica che il nostro modello non rappresenta correttamente i dati a


causa della possibile assenza di relazione lineare tra X e Y
𝑹𝟐 = 𝟏 indica che il modello cattura perfettamente la relazione lineare presente tra X e Y
È possibile verificare come al crescere del valore di 𝑹𝟐 diminuiscono le distanze dei
valori osservati (𝒀𝒊) dai valori teorici (𝒀𝒊), cioè dalla retta di regressione

Il metodo dei minimi quadrati restituisce la retta interpolante che è più vicina ai dati, ovvero
con il minimo errore
Tuttavia, a meno che tutte le osservazioni non cadano esattamente sulla retta
di regressione individuata, la retta interpolante non rappresenta un modello perfetto per i
dati

L’errore standard delle stime (errore standard del modello) misura la


variabilità dei valori osservati della variabile rispetto ai valori stimati di
(concettualmente è simile allo scarto quadratico medio che misura la
variabilità di ogni valore di una distribuzione rispetto alla media)

L’errore standard delle stime rappresenta lo scarto quadratico medio dei dati
attorno alla retta di regressione
fi
fi
𝒀
𝒀
L’errore standard delle stime (o errore standard del modello di regressione) è rappresentato
con il simbolo YX ed è de nito dalla seguente equazione:

Dove:
= Somma dei quadrati dell’errore
Al denominatore abbiamo i gradi di libertà. Essi sono uguali a − in quanto nel
modello sono due i parametri da stimare (β0 e β1 )

Una volta stimato il coef ciente angolare della regressione β1 è necessario veri care che
la relazione lineare tra le variabili e sia signi cativa
Tale veri ca si effettua attraverso il seguente test di ipotesi:
: = Non è presente una relazione lineare tra la variabile dipendente e la variabile
indipendente .
Un coef ciente angolare = implica che al variare della
non vi è alcuna variazione della
: ≠
È presente una relazione lineare tra la variabile dipendente
e la variabile indipendente
Un coef ciente angolare ≠ implica che vi è una
variazione signi cativa della al variare della
Tale problema di veri ca di ipotesi viene risolto ricorrendo al test
La statistica test è uguale alla differenza tra il coef ciente angolare
campionario e il suo valore ipotizzato nella popolazione , diviso per l’errore standard
del coef ciente angolare :
Poiché sotto l’ipotesi nulla = , la statistica test diventa:

Dove:
= inclinazione di Y rispetto alla variabile X
= errore standard del coef ciente di regressione
= statistica test con distribuzione di Student con – gradi di libertà
𝑺
𝑯
𝑿
𝑯
𝒀
𝒃
𝑺
𝒕
𝑺
𝒃
𝟏
𝑻
𝑸
𝟏
𝟎
𝟏
𝑨
𝑬
𝑻
𝜷
𝜷
𝟏
𝟏
fi
fi
fi
fi
𝟎
𝟎
𝒃
𝑿
𝑆
𝟏
fi
𝒕
fi
fi
𝒕
fi
𝜷
𝜷
𝑺
fi
𝟏
𝟏
𝒃
𝜷
𝟏
𝟏
𝒀
𝑿
𝟎
𝒃
𝟎
𝟏
𝟎
𝒏
𝑿
𝒀
𝟐
𝒀
𝑿
fi
fi
𝜷
𝟏
𝒏
𝒕
𝟐
𝒀
fi
rappresenta l’errore standard del coef ciente angolare . Esso
rappresenta una misura della precisione con cui viene stimato (con i nostri
dati campionari) il parametro incognito della popolazione

Dove:
= errore standard del coef ciente di regressione
= errore standard delle stime (errore standard dell’intero modello)
Analogamente a quanto fatto per il coef ciente angolare della regressione β1 è possibile
veri care la signi catività dell’intercetta β0

è l’errore standard dell’intercetta . Esso rappresenta una misura della


precisione con cui viene stimato (con i nostri dati campionari) il parametro
incognito della popolazione
L’ errore standard dell’intercetta è stimato attraverso la seguente relazione:

La veri ca dell’ipotesi di signi catività del coef ciente si conclude


confrontando il valore (conosciuto anche come ) con il valore
𝑺
𝑺
𝑺
𝑺
𝒃
𝒃
𝒚
𝒃
𝟏
𝟏
𝟎
𝒙
fi
fi
fi
𝒕
𝑺
𝑻
𝑨
𝑻
𝜷
fi
fi
𝟎
𝒃
𝟎
fi
fi
fi
𝒃
𝟏
𝒕
𝑬
𝒎
𝜷
𝟏
𝒑
𝒃
𝒊
𝟏
𝒓
𝒊
𝒄
𝒐
L’esistenza di una relazione lineare statisticamente signi cativa tra la variabile
indipendente e la variabile dipendente può essere veri cata anche attraverso
la costruzione di un intervallo di con denza per
Per la stima dell’intervallo di con denza si parte dalla seguente relazione:

deriva dalla standardizzazione dello stimatore dove si sostituisce la stima :

Dove:
= errore standard del coef ciente di regressione
Partendo da:

Intervallo di con denza intorno al coef ciente di regressione incognito della


popolazione (β1):
Considerazioni sull’intervallo di con denza per il coef ciente angolare:
Se l’intervallo non comprende lo zero, allora si potrebbe ritenere che
esiste una relazione lineare statisticamente signi cativa tra le variabili
e nell’universo

Se lo zero fosse compreso nell’intervallo, si potrebbe ritenere che non vi


è una relazione lineare statisticamente signi cativa tra le variabili e
nell’universo

L’intensità della relazione tra due variabili quantitative è misurata


attraverso il coef ciente di correlazione di Bravais-Pearson
Si ricorda che il coef ciente di correlazione lineare di Bravais-Pearson è
calcolato come segue:

Il coef ciente di correlazione assume tutti i valori compresi


nell’intevallo
[− ; + ]
𝒕
𝑺
𝒃
𝒀
𝟏
𝟏
𝟏
fi
𝑿
fi
fi
fi
fi
fi
fi
fi
fi
𝒀
fi
𝜷
𝑩
𝟏
fi
𝟏
𝒃
fi
𝟏
fi
fi
𝝆
𝑿
𝒀
𝑿
𝒃
𝟏
Per veri care se tra due variabili esiste una relazione lineare signi cativa si potrebbe
fare riferimento al coef ciente di correlazione nella popolazione ( ) in alternativa
alla pendenza della retta di regressione ( ).
Tale veri ca si effettua attraverso il seguente test di ipotesi:
: = Non è presente una relazione lineare signi cativa tra le variabili e .
: ≠ È presente una relazione lineare signi cativa tra le variabili e

La statistica test è uguale alla differenza tra l’indice di correlazione


campionario e il suo valore ipotizzato nella popolazione , diviso l’errore
standard di :

La statistica test segue una distribuzione di Student con – gradi di libertà


𝑯
𝑯
𝟎
𝟏
𝝆
𝝆
fi
𝟎
𝟎
fi
𝝆
𝒓
𝒕
𝒕
fi
𝜷
𝟏
𝒕
fi
fi
𝝆
𝒏
𝟐
𝝆
fi
𝒀
𝑿
𝒀
𝑿
Af nché il modello di regressione rappresenti adeguatamente il fenomeno oggetto
di studio e sia ben speci cato è necessario che siano rispettati alcuni assunti di
base.
1. Linearità della relazione tra e

2. Normalità della componente erratica . Essa si distribuisce come una Normale


con:
i. Valore atteso nullo: =

3) Indipendenza dei residui


( , )= . ∀ ≠
Dalle precedenti ipotesi deriva che le osservazioni sono realizzazioni di v.c.
normali con:
Valore atteso ( ) = +
Varianza costante =
~ + ,

Quando si esegue un’analisi di regressione è di cruciale importanza


veri care la plausibilità delle ipotesi di base da cui dipende
l’attendibilità dei risultati ottenuti dall’analisi.

Se una o più ipotesi sono violate il modello è mal speci cato e risulta
necessario apportare modi che sia alle procedure di stima che alla
de nizione del modello stesso

L’analisi dei residui è la principale tecnica utilizzata per testare se sono


soddisfatte o meno le ipotesi di base.
Si de nisce residuo ( ) la differenza tra il valore osservato della variabile
dipendente ( ) e il corrispondente valore stimato ( indicato con ) fornito dalla retta di
regressione. Con riferimento all’ − osservazione: = −
I residui possono considerarsi un’approssimazione
(stima) della componente di
errore , ovvero di quella parte della variabilità di Y
che non è spiegata dal modello.

Pertanto, qualora il modello di regressione sia ben


speci cato, i residui ( )
dovrebbero ri ettere le proprietà attribuite alla
componente di errore ( )
𝑪


𝝈
𝒀
𝟐
𝒊
𝒐
fi
fi
𝒓
𝑵
fi
𝒓
fi
fi
𝜺
𝜷
𝜺
𝒊
𝟎
𝜺
𝒋
𝜷
𝟏
𝒀
𝑿
𝟎
fl
𝒊
𝒊
𝝈
𝐄
𝟐
𝒊
𝒀
𝒊
𝒆
𝒆
𝒋
𝐕
𝐄
𝒊
𝒊
𝜺
𝐚
𝒊
fi
𝜺
𝜷
𝐫
𝒊
𝟎
𝒀
fi
𝜺
𝒊
𝟎
𝜷
𝟏
𝑿
𝝈
𝑿
𝟐
𝒊
𝒊
𝒀
𝒆
𝒔
𝒊
𝒎
𝜺
𝒂
𝒀
𝒊
fi
𝒆
𝒊
𝒀
𝒊
𝒀
𝒊
𝒀
𝒊
L’Analisi dei residui può essere condotta utilizzando l’approccio gra co (gra co
dei residui) o appropriati test statistici per veri care le assunzioni del modello:
1. Linearità della relazione tra e
2. Normalità delle componente erratica εi
3. Omoschedasticità della componente erratica εi
4. Indipendenza della componente erratica εi

Per veri care se l’ipotesi di linearità della relazione tra X e Y è soddisfatta ricorriamo
ai diagrammi di dispersione in cui i residui sono messi in relazione con i valori
della variabile indipendente , o in alternativa, con i valori della variabile
dipendente osservati o stimati :
Se l’assunzione di linearità è rispettata, i punti rappresentati nel diagramma a
dispersione tenderanno a distribuirsi in modo casuale intorno allo zero. In tal caso,
tra i residui rappresentati in ordinata e i valori rappresentati in ascissa (in alternativa ,
) non vi è alcun tipo di relazione (o speci co andamento).

Se, al contrario, l’ipotesi di linearità non è veri cata, dal gra co sarà visibile
un qualche tipo di relazione (o speci co andamento regolare) tra i residui e la variabile
dipendente/indipendente

Se la relazione non è lineare, i parametri del modello ( e ) perdono di


signi cato e di conseguenza i valori stimati per un dato valore potrebbero essere distorti
𝒀
𝒊
fi
fi
𝒀
𝒊
𝑿
𝒊
𝑿
𝒀
𝒀
𝒊
fi
fi
𝒆
𝒀
𝒊
𝒊
fi
fi
𝜷
𝟎
𝜷
fi
𝟏
𝑿
𝒊
fi
fi
𝑿
𝒊
𝒀
𝒊
𝒐
La veri ca della normalità dei residui ( ~ ) può essere effettuata attraverso
l’analisi dei residui standardizzati mediante:
1. Metodi gra ci
2. Test statistici di veri ca della normalità
I residui standardizzati sono calcolati come:

METODI GRAFICI: Q-Q PLOT


Per veri care gra camente la normalità dei residui, si può utilizzare il Q-Q plot (plot
quantile-quantile)
Con il Q-Q plot i quantili osservati (empirici) dei residui standardizzati vengono
confrontati (“plottati”) con i quantili teorici della distribuzione normale.
Nel Q-Q plot viene rappresentata la retta = (bisettrice del primo e del terzo
quadrante) che identi ca il caso ideale in cui le due distribuzioni sono identiche.
Se l’assunzione di normalità è soddisfatta, i punti del Q-Qplot saranno disposti lungo la
bisettrice del primo e terzo quadrante (retta = ).
Quanto più i punti si discostano dalla retta, tanto più la distribuzione dei residui
standardizzati si discosta dalla distribuzione normale.

TEST STATISTICI DI VERIFICA DELLA NORMALITÀ


Nonostante i metodi gra ci possano essere utili strumenti per veri care l’assunzione
di normalità, non sempre consentono di stabilire con oggettività se la stessa sia o
meno violata.
Un’altra procedura per la veri ca della normalità è l’uso di
un test di normalità.
Tra i tanti test di normalità saranno approfonditi il test Shapiro-Wilk e il test
Kolmogorov– Smirnov.
fi
fi
fi
fi
fi
fi
fi
fi
𝒆
𝒊
𝑵
𝒚
𝐲
𝒙
𝐱
fi
Shapiro–Wilk
Il test Shapiro–Wilk è considerato in letteratura uno dei più potenti per la veri ca dell’ipotesi
di normalità, ed è utilizzato specialmente per piccoli campioni.
Il sistema di ipotesi da veri care è:
H0: i residui seguono una distribuzione normale
H1: i residui NON seguono una distribuzione normale
Speci cato il livello di signi catività :
Se p-value > ′ àè
Se p-value < ′ à è

La statistica test (W) può assumere valori compresi tra 0 e 1.


Valori piccoli portano al ri uto dell’ipotesi nulla.
Quanto più il valore della statistica test si avvicina ad uno,tanto più
la distribuzione dei residui approssima ad una normale.

Kolmogorov– Smirnov
Il test di Kolmogorov - Smirnov è un test non parametrico.
Si basa sul confronto della funzione di ripartizione empirica (ottenuta sulla base dei
residui standardizzati)con quella teorica (distribuzione normale).
È utilizzato per testare se la distribuzione empirica dei residui si discosta

Indicando con ( ) la funzione di ripartizione empirica dei residui e con ( ) la


funzione di ripartizione di una v.c. Normale, il sistema di ipotesi da veri care è:
H0: = ( )
H1: ≠ ( )
Speci cato il livello di signi catività :
Se p-value > ′ àè
Se p-value < ′ à è a
𝑭
𝑭
𝑿
fi
fi
𝑿
𝑭
𝑭
𝟎
𝟎
𝑿
𝑿
𝜶
𝜶
𝜶
𝜶
𝑭
𝑿
𝐀
𝐑
𝐀
𝐑
𝐢
𝐢
𝐜
𝐜
𝐟
𝐟
𝐜
𝐜
𝐢
𝐢
𝐞
𝐞
𝐮
𝐮
𝐭
𝐭
𝐭
𝐭
𝐭
𝐭
𝐨
𝐨
𝐨
𝐨
fi
𝐇
𝐇
fi
fi
fi
𝐇
𝐇
𝟎
𝟎
𝟎
𝟎
𝐥
𝐥
𝐥
𝐥
𝐚
𝐚
𝐚
𝐚
𝐬
𝐬
𝜶
𝜶
𝐬
𝐬
𝐬
𝐬
𝐬
𝐬
𝐮
𝐮
𝐮
𝐮
𝐧
𝐧
𝐧
𝐧
𝐳
𝐳
𝐳
𝐳
𝐢
𝐢
𝐢
𝐢
𝐨
𝐨
𝐨
𝐨
𝐧
𝐧
𝐧
𝐧
𝐞
𝐞
𝐞
𝐞
𝐝
𝐝
𝐝
𝐝
𝐢
𝐢
𝐢
𝐢
𝐧
𝐧
𝐧
𝐧
𝐨
𝐨
𝐨
𝐨
𝐫
𝐫
𝐫
𝐫
𝐦
𝐦
𝐦
𝐦
𝐚
𝐚
𝐚
𝐚
𝐥
𝐥
𝐥
𝐥
𝐢
𝐢
𝐢
𝐢
𝐭
𝐭
𝐭
𝐭
𝐍
𝐍
𝐎
𝐎
𝐯
𝐯
𝐍
𝐍
𝐞
𝐞
𝐫
𝐫
𝐢
𝐢
𝐟
𝐟
𝐢
𝐢
𝐯
𝐯
𝐜
𝐜
𝐞
𝐞
𝐚
𝐚
𝐫
𝐫
𝐭
𝐭
fi
𝐢
𝐢
𝑭
𝐚
𝐚
𝐟
𝐟
𝟎
𝐢
𝐢
𝐜
𝐜
𝐚
𝐚
𝑿
𝐭
𝐭
fi
Secondo l’ipotesi di omoschedasticità la varianza dei residui è
costante =
L’ipotesi di omoschedasticità può essere veri cata rappresentando mediante un
diagramma a dispersione la relazione tra residui (in ordinata) e valori stimati della
variabile dipendente (in ascissa).
Se i punti ( , ) del diagramma a dispersione tendono a disporsi in modo casuale
attorno allo zero l’assunzione di omoschedasticità è rispettata.
Se, al contrario, i punti ( , ) del diagramma a dispersione tendono ad assumere un
andamento “ad imbuto” l’assunzione di omoschedasticità è violata.

In tal caso, si parla di eteroschedasticità. La componente di errore non ha varianza


costante in quanto la dispersione dei residui attorno allo 0 (cioè la variabilità dei residui)
tende ad aumentare (o a diminuire) al crescere dei valori stimati della
variabile dipendente.

Se l’ipotesi di omoschedasticità è violata:


la distanza dei residui attorno allo zero aumenta (o diminuisce) in modo sistematico al
crescere dei valori stimati di Y
Gli stimatori dei parametri e , sono ancora corretti ma perdono in ef cienza (esistono
altri stimatori corretti che possiedono un errore standard
dei coef cienti più piccolo)
Le formule degli errori standard dei coef cienti non sono più corrette e il loro
uso conduce alla costruzione di intervalli di con denza errati e a veri che delle ipotesi
fuorvianti
Per ovviare a tali inconvenienti si può ricorrere agli stimatori dei minimi quadrati
ponderati che assegnano maggiore peso alle osservazioni con minore varianza
fi
𝐕
𝒀
𝐚
𝒊
𝐫
𝜺
𝒆
𝒊
𝒊
𝝈
𝟐
𝒀
𝒊
𝒀
𝒊
𝜷
𝒆
𝟎
𝒊
𝜷
𝟏
fi
fi
fi
𝒆
𝒊
fi
fi
TEST STATISTICI DI VERIFICA DELL’ OMOSCHEDASTICITÀ
Così come per l’assunzione di normalità, anche nel caso di ipotesi di omoschedasticità i
metodi gra ci non sempre consentono di stabilire con oggettività se la stessa sia o meno
violata.
Un’altra procedura per la veri ca dell'omoschedasticità è l’uso di test statistici.
Tra i tanti test di omoschedasticità sarà approfondito il test di Breusch-Pagan.

Il test di Breusch-Pagan è uno dei test sull’omoschedasticità più utilizzati,


soprattutto quando la numerosità del campione è elevata.
Sotto l’ipotesi nulla, esso assume che i residui abbiano varianza costante.
H0: =
H1: ≠
Speci cato il livello di signi catività :
Se p-value > ∶ ′ àè
Se p-value < ∶ ′ à è a
𝐕
𝐕
𝐚
fi
𝐚
𝐫
𝐫
𝜺
𝜺
𝒊
𝒊
fi
𝝈
𝝈
𝜶
𝜶
𝟐
𝟐
𝐀
𝐑
𝐢
𝐜
𝐟
𝐜
𝐢
𝐞
𝐮
𝐭
𝐭
𝐭
𝐨
𝐨
𝐇
fi
𝐇
𝟎
𝟎
fi
𝐥
𝐥
𝐚
𝐚
𝐬
𝐬
𝐬
𝐬
𝜶
𝐮
𝐮
𝐧
𝐧
𝐳
𝐳
𝐢
𝐢
𝐨
𝐨
𝐧
𝐧
𝐞
𝐞
𝐝
𝐝
𝐢
𝐢
𝐨
𝐨
𝐦
𝐦
𝐨
𝐨
𝐬
𝐬
𝐜
𝐜
𝐡
𝐡
𝐞
𝐞
𝐝
𝐝
𝐚
𝐚
𝐬
𝐬
𝐭
𝐭
𝐢
𝐢
𝐜
𝐜
𝐢
𝐢
𝐭
𝐭
𝐍
𝐎
𝐯
𝐍
𝐞
𝐫
𝐢
𝐟
𝐢
𝐯
𝐜
𝐞
𝐚
𝐫
𝐭
𝐢
𝐚
𝐟
𝐢
𝐜
𝐚
𝐭
L’ipotesi di indipendenza della componente erratica stabilisce che i residui e associati
alla − e − osservazione siano incorrelati ∀ ≠
La presenza di correlazione tra i termini di errore suggerisce che c’è dell’informazione
esplicativa addizionale contenuta nei dati che non è stata adeguatamente sfruttata nel
modello,quindi può veri carsi quando una variabile esplicativa
rilevante è stata omessa dal modello

Il test di Durbin-Watson è tra i più utilizzati per la veri ca dell’ipotesi di assenza di


autocorrelazione dei residui
Il test veri ca se è presente una correlazione tra il termine di errore relativa ad una
osservazione e quello relativo all’osservazione successiva:
Dove:
= numerosità del collettivo
= il termine d’errore della regressione
stimata
La statistica DW assume valori compresi
tra 0 e 4.

In particolare:
assume valori uguali o prossimi a 2 Assenza di correlazione tra i
termini di errore ,L’ipotesi di indipendenza è veri cata.
assume valori uguali o prossimi a 0 ,Autocorrelazione positiva:i successivi termini di
errore hanno valori mediamente simili fra loro, positivamente correlati ,L’ipotesi di
indipendenza è violata.
assume valori uguali o prossimi a 4 ,Autocorrelazione negativa:i successivi termini di
errore sono molto differenti l'uno dall'altro,negativamente correlati ,L’ipotesi di

In presenza di autocorrelazione dei residui, gli stimatori dei parametri e sono


ancora corretti ma perdono in ef cienza (esistono altri stimatori corretti che
possiedono un errore standard dei coef cienti più piccolo)
𝒆
𝒏
𝑺
𝑺
𝑺
𝒊
𝒆
𝒆
𝒆
𝑫
𝑫
𝑫
𝒊
𝑾
𝑾
𝑾
𝒆
𝒔
𝒊
fi
𝒎
𝒂
𝒋
𝒆
𝒔
𝒊
𝒎
fi
𝒂
fi
fi
fi
fi
𝒊
𝒋
𝜷
𝟎
𝜷
𝒆
𝒊
𝟏
𝒆
𝒋

Potrebbero piacerti anche