STEAD
Introduzione
La Statistica moderna è un insieme di tecniche statistiche che con l’ausilio del calcolatore,
permettono lo studio di fenomeni reali multidimensionali.
L’analisi mira ad evidenziare legami, somiglianze, differenze e associazioni tra le unità e/o i
caratteri rilevati.
La Statistica moderna con focus prevalentemente descrittivo = Analisi dei Dati.
Le unità statistiche sono gli elementi che interessano ai fini dell’indagine.
I caratteri (variabili) sono gli aspetti rilevati in corrispondenza di ciascuna unità statistica.
Le modalità sono le categorie o i valori che ciascun carattere presenta in corrispondenza delle
unità statistiche (esaustive e mutuamente esclusive).
Microdati: dati rilevati sulle singole unità statistiche della popolazione (matrice dei dati).
Macrodati: dati ricavati da opportune aggregazioni ed elaborazioni dei microdati (tabelle,
grafici e indici).
Metadati: documentazione sulle caratteristiche dei micro e macrodati (dizionario e codifica
dei dati).
Le variabili possono essere:
• Qualitative: le modalità si esprimono con categorie:
o Scala Nominale: le modalità non sono ordinabili;
o Scala Ordinale: le modalità sono ordinabili;
• Quantitative: le modalità si esprimono con numeri (discrete o continue):
o Scala di intervalli (zero arbitrario) es: temperature, terremoti;
o Scala di rapporti (zero assoluto = assenza del fenomeno) es: fatturato.
In quest’ordine hanno un contenuto informativo crescente; è possibile passare da una scala a
quella/e precedenti, ma in generale non è lecito il passaggio inverso.
Quando si individuano dati inammissibili, bisogna cercare in quale momento della rilevazione
o dell’elaborazione si sono prodotti i valori inammissibili, ripercorrendone le varie fasi.
Se non si riesce a trovare e correggere l’errore o si ripete la raccolta del dato presso l’unità
statistica originaria (difficile) o si cancella il dato e lo considera mancante.
Una frequenza assoluta indica il numero di unità che presentano la stessa modalità
(conteggio).
Una frequenza relativa (percentuale) indica il “peso” della corrispondente modalità nella
popolazione.
Indici di sintesi
L’obiettivo degli indici di sintesi è quello di sintetizzare le caratteristiche di una distribuzione di
frequenze con poche modalità rappresentative.
Indici:
• Di Posizione (Moda, Mediana, Media, Quartili/Decili/Centili)
Indicano la posizione di valori in un set di dati.
Moda = modalità più frequentemente posseduta, associata alla frequenza più elevata.
Rappresentativa quando è posseduta da più del 50% delle osservazioni. (X tutte le var)
Mediana = Ripartisce le unità ordinate della popolazione in due gruppi di uguale numerosità (X
variabili ordinali e quantitative).
Quartili = modalità/valori in corrispondenza della prima frequenza relativa cumulata maggiore
o uguale a 0,25 – 0,5 – 0,75.
• Di Variabilità (Range, Differenza Interquartile, scostamento medio, varianza)
Hanno l’obiettivo di sintetizzare l’attitudine di una variabile quantitativa ad assumere valori
differenti, presentano valore nullo in assenza di variabilità e valori positivi crescenti
all’aumentare della variabilità.
All'aumento della variabilità aumenta la dispersione dei dati.
Campo di variazione/Range = ampiezza dell’intervallo tra i due valori estremi assunti dalla
variabile (Max – min).
Differenza interquartile = Misura l’ampiezza dell’intervallo centrale tra il primo e il terzo
quartile, contiene il 50% delle osservazioni ordinate (Q3 – Q1).
Differenza interdecile = contiene l’80% delle osservazioni ordinate (D9 – D1).
Differenza intercentile = contiene il 98% delle osservazioni ordinate (C99 – C1).
Scostamento semplice = scostamento dei valori dalla media.
Deviazione standard/scarto quadratico medio/sigma =
Varianza =
Lo scarto al quadrato aumenta in maniera più che proporzionale all’allontanarsi dalla media.
In altre parole, lo scarto è «penalizzato» maggiormente.
Devianza = nominatore varianza.
Coefficiente di Variazione = confronta la variabilità di distribuzioni con medie diverse
rapportando la variazione media del fenomeno con sua media aritmetica.
Standardizzazione delle variabili = confrontare variabili con diverso ordine di grandezza o
diversa unità di misura. M = 0 Var = 1
• Di Forma (Asimmetria, Curtosi)
Asimmetria = misura il grado di asimmetria di una distribuzione intorno alla sua media.
Un valore positivo dell’indice indica una distribuzione con una coda asimmetrica che si
estende verso i valori più positivi.
Asimmetria (Y1) =
Curtosi = misura la “pesantezza” delle code della distribuzione. (Y2)
Indica quanto la distribuzione dei dati sia concentrata intorno alla media rispetto a una
distribuzione normale/gaussiana.
Una distribuzione normale ha una curtosi pari a 0, si dice mesocurtica. La distribuzione
osservata può essere più appiattita (<0), platicurtica, o più appuntita (>0), leptocurtica, della
Normale.
Relazione tra due o più variabili
Nelle analisi statistiche si ricorre abitualmente alla rilevazione congiunta di due o più
variabili:
- Analisi dei dati bivariata;
- Analisi dei dati multivariata.
Metodi di analisi:
• Costruzione e analisi di tabelle e grafici a due e più vie (bivariati e multivariati) - Pivot;
• Analisi della Connessione (2 variabili qualitative);
• Dipendenza in media (almeno 1 variabile quantitativa);
• Correlazione/Regressione (2 variabili quantitative):
o Modello di regressione semplice e multiplo.
In assenza di connessione nelle frequenze condizionate teoriche le fij sono tutte uguali e
uguali alle f•j (valori marginali).
La distribuzione di frequenza di una variabile non dipende dal variare dell’altra variabile, e
quindi fij sarà costante per ogni i.
Poiché si sta lavorando con le distribuzioni, l’assenza di connessione è in questo caso sinonimo
di indipendenza in distribuzione.
Indice di connessione: Valuta il legame tra le distribuzioni di due variabili X e Y (qualitative).
0≤C≤1
0 = indipendenza in distribuzione;
1 = massima connessione, valori crescenti all’aumentare del grado di connessione.
Questo tipo di analisi non è in grado di indicare se un certo grado di connessione tra due
caratteri sia dovuto a:
• Dipendenza di un carattere rispetto all’altro;
• Interdipendenza tra i due caratteri;
• Dipendenza dei due caratteri da un terzo carattere.
Indipendenza in media di Y da A: le medie parziali (o condizionate ad A) di Y sono tutte uguali
fra loro e uguali alla media generale di Y.
L’indipendenza in media si calcola con il rapporto di correlazione di Pearson.
0 = indipendenza in media;
1 = di massima dipendenza.
Correlazione = studia l’interdipendenza tra due variabili quantitative X e Y.
Gli indici di interdipendenza lineare misurano il verso e l’intensità del legame lineare tra X e Y.
La covarianza valuta la direzione del legame:
Per calcolare la correlazione si utilizza il coefficiente di correlazione lineare di Pearson:
Da popolazione a campione
Ricorriamo alla teoria dell’inferenza statistica per generalizzare i risultati delle analisi ottenute
sul campione alla popolazione, considerando il margine di errore commesso con tale
generalizzazione.
Osservazioni indipendenti e identicamente distribuite (provengono da un’unica distribuzione).
𝜃 = parametro, caratteristica di interesse.
Stime puntuali e intervallari: ottenere un valore approssimato o un intervallo di valori plausibili
per un parametro della popolazione.
Xn = valore casuale;
xn = valore osservato.
T = stimatore del parametro 𝜃.
Proprietà di uno stimatore:
• Correttezza/non distorsione: se 𝐸 (𝑇) = 𝜃.
La differenza 𝐵𝑖𝑎𝑠 (𝑇) = 𝐸(𝑇) − 𝜃 è chiamata distorsione.
• Efficienza relativa: se vale 1 e 𝑉𝑎𝑟 (𝑇) < 𝑉𝑎𝑟(𝑇*)
Se è corretto e se la sua varianza è minore della varianza di un altro stimatore 𝑇* di 𝜃, per
qualsiasi 𝑛
• Non distorsione asintotica: se 𝐸 𝑇𝑛 → 𝜃
Se la distribuzione campionaria di 𝑇 è sempre più centrata in 𝜃 all’aumentare di 𝑛. 𝐵𝑖𝑎𝑠 (𝑇) → 0
• Consistenza: se vale 3 o 1 e 𝑉𝑎𝑟 𝑇𝑛 → 0
Se è non distorto (anche asintoticamente) e la sua varianza si riduce sempre di più
all’aumentare di 𝑛.
Per valutare la precisione di un metodo di stima si usa la radice quadrata della varianza della
sua distribuzione campionaria.
L’errore standard della media campionaria è:
L'errore standard fornisce un'indicazione di quanto la media del campione potrebbe variare
rispetto alla media vera della popolazione.
Confidenza: attendibilità dei risultati di un’indagine; più in particolare nella stima
sperimentale di una grandezza incognita.
Intervallo di confidenza: intervallo che, con una probabilità prefissata, contiene il valore da
stimare.
Test di ipotesi: verificare un’ipotesi su un parametro della popolazione.
Con il test d’ipotesi, si valuta, in base al campione osservato, la plausibilità statistica di una
particolare ipotesi, detta ipotesi nulla 𝐻0, riferita ad un parametro. Il test comporta il rifiuto o
l’accettazione di 𝐻0 contrapponendola ad un’ipotesi alternativa 𝐻1, ad un certo livello di
significatività 𝛼, che è la probabilità di rifiutare 𝐻0 quando essa è in realtà vera.
Soglia critica: valore della statistica test oltre il quale bisogna rifiutare 𝐻0 ad un certo livello 𝛼.
Se il valore osservato della statistica test è oltre la soglia critica → rifiuto 𝐻0 al livello di
significatività 𝛼.
Se il valore osservato della statistica test è all’interno della regione di accettazione → accetto
𝐻0 al livello di significatività 𝛼.
Il p-value: probabilità che, rifacendo il test con un campione diverso (ma con le stesse
caratteristiche), sotto l’ipotesi nulla si ottenga un risultato tanto estremo quanto quello
osservato. (Probabilità che i risultati osservati in un'analisi non siano dovuti al caso).
• Se p-value > 𝛼, accetto l’ipotesi nulla;
• Se p-value < 𝛼, rifiuto l’ipotesi nulla.
Connessione (campione) = In ottica inferenziale, si pone il problema della verifica dell’ipotesi
di indipendenza stocastica tra A e B.
Test di indipendenza stocastica: La tabella a doppia entrata rappresenta la distribuzione di
probabilità congiunta di A & B (variabili casuali) relativa alla popolazione P.
pij = probabilità di estrarre da P un’unità portatrice delle modalità ai e bj contemporaneamente;
pi• =probabilità di estrarre da P un’unità portatrice delle modalità ai;
p•j = probabilità di estrarre da P un’unità portatrice delle modalità bj.
A e B sono stocasticamente indipendenti se e solo se:
pij = pi• * p•j ∀𝑖, 𝑗
Il test è valido per grandi campioni.
Tutte le frequenze attese devono essere > 5 (o > 10).
Il test è troppo potente: il valore della statistica test è direttamente proporzionale alla
numerosità campionaria n e, per n molto grande, si tende a rifiutare l’ipotesi nulla troppo
spesso, anche in presenza di deviazioni minime dall’indipendenza.
Se n è piccolo, si può verificare l’ipotesi di indipendenza con il Test esatto di Fisher.
Dipendenza in media (campione) = In ottica inferenziale, si pone il problema della verifica
dell’ipotesi di uguaglianza tra più medie → ANOVA.
ANOVA = Analisi della varianza (ANalysis Of VAriance), verificare se la risposta (media) al
trattamento si modifica in base all’effetto di un fattore.
Assunzioni ANOVA:
1. Normalità della componente erratica e quindi della Y;
2. Indipendenza delle osservazioni;
3. Omogeneità della varianza di Y tra i gruppi.
L’ANOVA utilizza il confronto tra varianze per verificare l’ipotesi di uguaglianza tra le medie.
La statistica test ANOVA si distribuisce come una variabile casuale F di Fisher.
Il test è valido quando tutte le assunzioni sono rispettate. In caso contrario, è necessario
intervenire sui dati (per esempio, si può trasformare la Y per accentuare Normalità, simmetria
e indipendenza) oppure si possono applicare test robusti o non parametrici che non richiedono
la Normalità.
L’ANOVA in genere è robusta rispetto ad allontanamenti non estremi dalla distribuzione
Normale, soprattutto in presenza di elevata numerosità delle osservazioni.
Correlazione (campione) = In ottica inferenziale, si pone il problema della verifica dell’ipotesi
su (Rho). É importante chiedersi se vi sia o meno un effettivo legame lineare tra le variabili, se
stimato sui dati campionari sia significativamente diverso da zero nella popolazione.
Analisi della regressione semplice
Utilizzata per creare un modello del fenomeno in grado di spiegare il comportamento di due (o
più) variabili legate da un qualche tipo relazione.
Il modello regressione semplice vuole studiare la dipendenza della variabile quantitativa Y
(dipendente) dalla variabile quantitativa X (indipendente).
Un modello statistico è una rappresentazione semplificata e necessaria della realtà, derivata
da osservazioni sperimentali oltre che da deduzioni logiche.
Y = ƒ (X1,X2,…,Xp) + ϵ
Y è la variabile dipendente;
X1, X2, …, Xp sono le variabili esplicative;
ϵ è la componente stocastica (variabile casuale errore).
Il MRL semplice rappresenta la dipendenza di Y da X e, in base ai parametri, interpola in modo
ottimale la nuvola dei punti del diagramma di dispersione.
L’obiettivo geometrico del modello è di esplicitare la variabilità delle ordinate tramite quella
delle ascisse, cioè trovare la retta che passi tra i punti nel modo migliore.
Una buona retta di regressione è quella che minimizza la distanza verticale tra i valori osservati
e i valori teorici ottenuti in base alla retta.
ϵ mediamente nullo, ci si attende che non ci sia errore. La variabilità degli errori è costante, non
dipendente dalle unità statistiche (e quindi dalla variabile indipendente). Non c’è dipendenza
tra due errori, perché altrimenti non sarebbero totalmente imprevedibili).
Per la stima dei parametri e della comune varianza delle v.c. errore sulla base del campione
osservato, il metodo più utilizzato è il metodo dei minimi quadrati (MQ) o Ordinary Least
Squares (OLS) L’obiettivo è individuare 𝛽0, 𝛽1 tali che sia minima la devianza residua.
Stima della varianza degli errori:
Il corrispondente stimatore è non distorto e consistente (se errori indipendenti).
Errore standard della regressione ESR = √𝑆 2
Ci dice di quanto mediamente la stima di 𝑌 devierà dal suo vero valore.
Indice di determinazione multipla = esprime quanta parte della variabilità complessiva del
fenomeno Y, che si intende spiegare tramite X, si può attribuire al legame lineare stimato
tramite la retta di regressione.
0 ≤ 𝑅2 ≤ 1
Dopo aver stimato i parametri del MRL è necessario controllare se questo è idoneo a
rappresentare la relazione di dipendenza di Y da X.
La verifica della correttezza delle ipotesi assunte sugli errori si basa sull’analisi grafica e
numerica a posteriori dei residui (che sono stime derivate dal modello stimato).
I residui OLS hanno le seguenti proprietà:
• Media nulla (segni sia positivi sia negativi);
• Correlazione nulla con X (non dipendono linearmente dalla variabile indipendente).
In genere si esamina il grafico dei residui rispetto a X per verificare se:
1. L’ordine di grandezza dei residui è contenuto;
2. La successione dei segni dei residui è accidentale.
L'omoschedasticità dei residui è una condizione ideale nei modelli di regressione lineare in
cui la varianza degli errori è costante per tutti i valori delle variabili indipendenti.
L'omoschedasticità implica che la dispersione dei residui non cambi al variare delle variabili
indipendenti, mantenendosi uniforme attraverso tutti i livelli delle stesse.
In presenza di omoschedasticità, i residui dovrebbero distribuirsi casualmente attorno allo
zero con una dispersione costante, senza mostrare alcun pattern sistematico.
Gli errori sono omoschedastici e incorrelati (e indipendenti sotto l’ipotesi di Normalità
multivariata).
Utilizzi del modello di regressione lineare semplice:
• Descrizione e interpretazione;
• Previsione:
o di un valore futuro (previsione in senso stretto);
o determinazione di un valore intermedio (interpolazione);
o stima di un valore mancante (imputazione);
• Simulazione e controllo (valutare Y in funzione di scenari alternativi di X, oppure
determinare X in modo da ottenere un prefissato Y – regressione inversa);
• Analisi di stabilità.
Analisi della regressione multipla
Il modello di regressione lineare multiplo si distingue dal MRL semplice per la presenza di 𝑝 > 1
variabili esplicative. Conviene utilizzare l’algebra delle matrici.
𝛽𝑗 è la variazione attesa di 𝑌 in seguito ad un aumento unitario di 𝑥𝑗, tenendo costante le altre
𝑝 − 1 variabili (esplicative).
Si ha multicollinearità quando due o più colonne di X sono linearmente dipendenti.
In tal caso, è violata l’ipotesi di rango pieno e la matrice non è invertibile, quindi non si può
determinare il vettore di stime OLS.
Con l’aggiunta di più variabili esplicative l'indice di determinazione multipla viene aggiustato.
Indice di determinazione multipla aggiustato =
Quando un carattere ha 2 modalità, si crea una variabile dummy che assume valori 0 e 1 a
seconda della presenza (1) o meno (0) del carattere.
Con una dummy nel modello si possono creare 3 effetti:
La procedura stepwise seleziona il modello migliore secondo un algoritmo sequenziale che si
basa su un indice di bontà del modello. Le procedure stepwise possono essere:
- Forward: parte dal modello con la sola costante e inserisce un regressore alla volta;
- backward: parte dal modello con tutti i regressori e esclude un regressore alla volta;
- Both: ad ogni passo forward si applica un passo backward.
Analisi dei dati testuali
Dati provenienti da matrici di dati vengono detti strutturati, o tabellari.
Un dato è un elemento grezzo da cui trarre un’informazione; anche testi, video, immagini, suoni
sono potenzialmente dei dati (non strutturati), se da essi si possono raccogliere informazioni.
L’analisi dei dati testuali (Text Mining) si occupa di:
1. Strutturare i dati testuali;
2. Estrarre informazioni da essi.
Documento di testo di è un qualsiasi pezzo di testo composto da elementi più piccoli
interconnessi da relazioni sintattiche e semantiche (es: una frase).
Gli elementi che compongono 𝑑𝑖 sono chiamati token (wt), o termini, e sono singole parole,
unigram, oppure sequenze di parole adiacenti, dette n-gram.
Il corpus è l’insieme (𝒟) dei documenti di testo.
Il vocabolario è l’insieme (V) dei tokens.
Un documento è quindi rappresentato come un vettore in uno spazio 𝑉-dimensionale, dove
l’elemento ℎ𝑖𝑡 indica il «peso» del token 𝑤𝑡 nel documento 𝑑𝑖. Questo approccio si basa sui
conteggi perché il calcolo del peso richiede il conteggio delle occorrenze di 𝑤𝑡 in 𝑑𝑖.
Matrice Documenti-Termini:
Prima di dare una struttura ai documenti di testo, ogni analisi di dati testuale comprende una
fase di preprocessing dei dati.
I passi più diffusi di questa fase sono:
• Tokenization, suddivide il documento di testo in token, dopo aver scelto il valore di n
degli n-gram;
• Rimozione di stopwords, cioè di parole molto comuni e poco informative (come articoli,
preposizioni, avverbi di uso comune);
• Rimozione di simboli e numeri, se considerati non importanti nell’analisi;
• Lemmatizzazione e stemming, che riducono le parole alla loro forma base.
Lemmatizzazione: riduce le parole al loro lemma, una parola reale trovata nel dizionario.
Es: amare, amore, amato, amando, amante → amare.
Stemming: riduce le parole ad una forma più breve e semplice, che solitamente non è una
parola nel dizionario. Es: correre, correva, corrente, corridore → corr.
Poiché i documenti sono rappresentati come punti nello spazio nei modi descritti, la distanza
tra i loro vettori sarà influenzata dai pesi che le parole assumono nella loro rappresentazione.