Analisi statistica dei dati
Concetti introduttivi
Preparare il DB:
la decodifica dei dati
Ad ogni variabile di risposta viene assegnato
uno specifico codice
Conviene utilizzare un secondo database con la
decodifica delle variabili (codebook)
Può essere assegnato un codice specifico alle
mancate risposte
Una struttura tipica di codebook
Numero e testo della domanda
Numero e nome della variabile
Definizione delle categorie
Occorre distinguere tra:
Analisi dei dati Interpretazione dei
metodologia statistica dati
adoperata per attribuzione di uno
classificare ed specifico significato ai
elaborare i dati risultati ottenuti
disponibili attraverso l’analisi e la
successiva valutazione
delle possibili
applicazioni di ciò che
si è scoperto
Qual è la tecnica di analisi adatta?
Occorre rispondere alle seguenti domande:
Quante sono le variabili da analizzare
contemporaneamente?
Una, due, più di due
Con quale tipo di scala posso rappresentare le
variabili?
Nominali, ordinali, intervallo
Di che procedimento statistico si tratta?
Descrittivo, inferenziale
Le tecniche di analisi statistica
rispetto al numero di variabili
Tecniche di analisi
Univariate Bivariate Multivariate
Le tecniche di analisi statistica
rispetto al numero di variabili (segue)
Univariate
Scala a
Scala nominale Scala ordinale
intervallo
Moda Mediana Media
Frequenze
Deviazione
relative e Interquartile
Standard
assolute
Le tecniche di analisi statistica
rispetto al procedimento
Approccio
Descrittivo Inferenziale
Analisi statistica dei dati
Analisi univariata
Analisi Univariata
Distribuzione di frequenza
Tabelle e grafici
Misure di sintesi
Tendenza centrale e non centrale
Dispersione
Forma della distribuzione
Frequenza e intensità
Nello studio di un fenomeno collettivo, il numero
che si determina in corrispondenza a una data
modalità del suo carattere si chiama dato statistico.
Tale dato può avere due significati. Può esprimere:
quante volte si è manifestata quella modalità, e
in tal caso si dice frequenza di quella modalità;
O una misura, e in tal caso si chiama intensità di
quella modalità.
D is tr ib u z io n e d i fr e q u e n z a
F requ e
F requ en za
M o d a lità n za
r e la tiv a
a s s o lu ta
Ic e P a c k a g in g 14 0 ,2 8
A lim e n ta re 21 0 ,4 2
H e a lth C a r e 12 0 ,2 4
B evande 3 0 ,0 6
In simboli: T o ta le 50 1 ,0 0
X Carattere osservato X n f n n
n Numero di unità statistiche
i i i
x1 n1 f1
k Numero di x2 n 2 f2
modalità/intensità di X
xi i-esima
modalità/intensità di X xi ni fi
n i Frequenza assoluta
della i-esima modalità xi xk n k fk
fi Frequenza relativa della T o ta le n 1
i-esima modalità xi
12
In un sondaggio fatto all'interno di una facoltà composta da
250 studenti (la popolazione statistica), si intende rilevare il
carattere "gradimento dei professori", secondo le cinque
modalità "molto deluso", "insoddisfatto", "parzialmente
Esempio
soddisfatto", "soddisfatto", "entusiasta". 10 studenti si
dicono entusiasti dell'operato dei professori, 51 si dicono
soddisfatti, 63 mediamente soddisfatti, 90 insoddisfatti, 36
molto delusi.
Frequenze
Gradimento dei Frequenze Frequenze
relative Nel caso
professori assolute relative ipotizzato, la
cumulate colonna delle
frequenze
molto deluso 36 36/250 = 0,144 0,144 relative
cumulate
0,144+0,360 = mostra che è
insoddisfatto 90 90/250 = 0,360 molto deluso il
0,504 14,4% degli
studenti e che
parzialmente 0,504+0,252 = la percentuale
63 63/250 = 0,252 degli studenti
soddisfatto 0,756 non
La distribuzione di frequenza viene rappresentata pienamente
con una 51tabella come la seguente: 0,756+0,204 = soddisfatti
soddisfatto 51/250 = 0,204 (modalità da
0,960 "molto deluso"
a
0,960+0,040 = "parzialmente
entusiasta 10 10/250 = 0,040 soddisfatto")
1,000 arriva al 75,6%
250/250 =
Totali 250
1,000
Definizione di frequenza relativa
Suddivisione in classi
La suddivisione in classi
Le intensità di un carattere quantitativo
discreto possono essere suddivise in
classi.
Due possibili criteri di suddivisione:
1. Classi equamente ampie
2. Classi di diversa ampiezza e
frequenza
15
Rappresentazione grafica
dei fenomeni statistici
Diagrammi circolari (o areogrammi)
Istogramma
Ortogrammi (o grafici a strisce o a
colonne)
Ideogrammi
Cartogrammi
Poligoni di frequenze
Aerogramma
Diagramma Diagramma Diagramma
a torta a tabella a bolle
L'areogramma è un tipo di rappresentazione grafica in
cui le diverse percentuali dei risultati di
un'indagine statistica sono visualizzate da aree
proporzionali di una figura geometrica piana o
tridimensionale.
L'unità di misura utilizzata è, spesso, la percentuale.
Questo tipo di rappresentazione è particolarmente
adatto per operare confronti fra diverse grandezze,
senza necessariamente riferirsi ad un totale
Istogramma
L'istogramma è la rappresentazione grafica di
una distribuzione in classi di un carattere continuo.
È costituito da rettangoli adiacenti le cui basi sono allineate
su un asse orientato e dotato di unità di misura (l'asse ha
l'unità di misura del carattere e può tranquillamente essere
inteso come l'asse delle ascisse).
L'adiacenza dei rettangoli dà conto della continuità del
carattere. Ogni rettangolo ha base di lunghezza pari
all'ampiezza della corrispondente classe; l'altezza invece è
calcolata come densità di frequenza, ovvero essa è pari al
rapporto fra la frequenza (assoluta) associata alla classe e
l'ampiezza della classe
Ortogramma
L'ortogramma a nastro è un particolare mezzo usato
dagli statistici per effettuare un'indagine statistica.
Si tratta di una variante dell'istogramma, in cui la
frequenza assoluta è posizionata nell'asse delle
ascisse, mentre le diverse variabili sono associate
all'asse delle ordinate e rappresentate quindi come
rettangoli a sviluppo orizzontale
Ideogramma
Cartogramma
Un cartogramma è una carta geografica sulla quale
vengono rappresentati dei dati statistici, con colori e
simboli diversi a seconda dei valori del fenomeno
osservato, relativi al territorio che la cartina rappresenta.
I cartogrammi vengono utilizzati per dare una visione
immediata del rapporto tra territorio e valori del fenomeno.
Infatti è più facile osservare un solo grafico già completo
che confrontare e sovrapporre una cartina e un
istogramma. Come l'ideogramma, questo tipo di grafico è
molto approssimativo, sia per quanto riguarda il territorio
sia per l'analisi del fenomeno
Poligono
di
frequenza
Sintesi dei dati
Media aritmetica
Media ponderata
Media ponderata: esempio
Media ponderata: esercizio
Uno studente ha sostenuto i seguenti esami
del I anno del corso di laurea di EA.
Come calcola la media dei voti?
N. Esame voto cfu
1 Economia Aziendale 27 9
2 Ist. diritto pubblico 22 6
3 Metodi di matematica applicata 25 9
4 Macroeconomia 20 6
5 Ragioneria 28 9
27
Media ponderata: calcolo
N. voto cfu voto*cfu
Esame (xi) (pi) (xi*pi)
1 27 9 243
2 22 6 132
3 25 9 225
4 20 6 120
5 28 n
9 252
n
n
p i 39 xipi 972
xp
i1
i1
i i
972
xa i1
n
24,92 Il voto medio (su 39 cfu) è pari a
39
p
i1
i 24,92
28
Media da dati raggruppati
Moda
Classe modale
Mediana
Esempio calcolo della mediana
Misure non centrali: i quantili
Quartili
Percentili
Vengono utilizzati per riassumere e
descrivere dati quantitativi caratterizzati
da una grande varietà di classi di misura
Quartili
Sono 3 indici di posizione, Q1 Q2 e Q3
xmin x 1 x 2 ... x n xmax
Tra x(1) e Q1 è Tra Q3 e x(n) è
contenuto il 25% dei contenuto il 25% dei
valori (più bassi) valori (i più alti)
X(1) Q1 Q2=Me Q3 X(n)
Tra Q1 e Q2 è Tra Q2 e Q3 è
contenuto il 25% contenuto il
dei valori 25% dei valori
35
Calcolo dei quartili
La prima F ad essere maggiore
i
o uguale a 0,25 è la terza
Ricavi Ricavi Freq.
(valori cum. rel.
ordinati) Q 1 x ( 3 ) 205
350 X(1)=180 1/9=0,11
Il 25% dei punti vendita con i ricavi
200 X(2)=200 2/9=0,22 più bassi registrano ricavi che non
600 X(3)=205 3/9=0,33 superano 205 mila euro
500 X(4)=270 4/9=0,44
La prima Fi ad essere maggiore o
270 X(5)=280 5/9=0,56 uguale a 0,75 è la settima
180 X(6)=340 6/9=0,67
205 X(7)=350 7/9=0,78 Q 3 x ( 7 ) 350
340 X(8)=500 8/9=0,89 Per essere nel 25% dei punti
280 X(9)=600 9/9=1 vendita con i ricavi più alti si
devono superare 350 mila euro di
ricavi
36
Percentili
Sono quei valori che dividono la distribuzione
in cento parti di uguale numerosità
Mediana=50-esimo percentile
Q3= 75-esimo percentile
P10 = decimo percentile: lascia alla sua
sinistra il 10% dei valori
P90 = novantesimo percentile: lascia alla sua
destra il 10% dei valori
37
Indici di variazione
Servono per avere informazioni su come i dati
di una indagine statistica si distribuiscono
attorno ai valori di sintesi e quindi poter
confrontare distribuzioni, si studiano gli indici
di variabilità.
Campo di variazione
Campo di variabilità di un insieme di n dati
numerici x1, x2, ….. xn: differenza tra il valore
massimo e il valore minimo degli xi.
ESEMPIO
Supponiamo che i rilevamenti compiuti su un campione di individui sulla pressione minima sanguigna
abbia dato i seguenti risultati:
80 80 85 90 85 60 90 95 95 80 85 115
Il campo di variabilità di questi dati è dato da 115 – 60 = 55; se basassimo le nostre considerazioni
solo su questo valore, saremmo portati a dire che in quel gruppo di persone vi è un’alta variabilità fra
i dati, mentre in realtà, osservando meglio, si nota che la maggior parte di essi (tranne due) si
distribuiscono in un ambito più ristretto compreso fra 80 e 95. Questo è un indice poco sensibile che
è grandemente influenzato dai valori esterni.
39
Deviazione standard e varianza
Scarto quadratico medio o deviazione standard σ: media quadratica degli scarti dalla media aritmetica
M.
√
n
Σ (xi – M)2 Nel caso di dati semplici
σ= i=1
n
√
n
Σ {(xi – M)2 fi }
σ= i=1 Nel caso di dati ponderati con pesi fi
n
Σ fi
i=1
Varianza (σ)2: quadrato dello scarto quadratico medio.
Per il calcolo di σ (e quindi di σ2) si può anche usare la formula:
σ = √media dei quadrati degli xi − quadrato della media
40
ESEMPIO
Ad otto gruppi di persone è stato chiesto di provare due tipi particolari di shampoo che indicheremo
con A e B, e di sceglierne quindi uno. Gli esiti di questa scelta sono riportati nella seguente tabella.
A 15 12 10 8 11 18 20 10
B 15 12 24 12 14 2 10 18
Sommando le preferenze accordate ai due prodotti, sia A che B ne hanno totalizzate 104.
104
Mediamente = 13 voti da ciascun gruppo
8
continua
41
ESEMPIO
Calcoliamo lo scarto quadratico medio della distribuzione di A e di B.
Preferenze di A Scarti (Scarti)2 Preferenze di B Scarti (Scarti)2
15 2 4 12 -1 1
112 -1 1 12 -1 1
10 -3 9 24 11 121
8 -5 25 12 -1 1
11 -2 4 14 1 1
18 5 25 2 -11 121
20 7 49 10 -3 9
10 -3 9 18 5 25
TOTALE 126 TOTALE 280
√
8
√
8
Σ (xi – 13)2
√
Σ (x – 13)2
√
i=1 i 126 280
σA = = = 3,969 σB = i=1
= = 5,916
8 8 8 8
Lo shampoo A presenta una minore variabilità rispetto a B.
42
Coefficiente di variazione
È una misura relativa che viene espressa in
percentuale