01 - Rappresentazioni Statistiche e Grafiche Unità N° 03
01 - Rappresentazioni Statistiche e Grafiche Unità N° 03
Anni
Settore 1971 1981 1991 2001
Agricoltura 20,1 13,3 8,4 5,2 Vogliamo studiare la distribuzione per settore
Industria 39,5 37,2 32,0 31,8 produttivo in Italia tra il 1971 e il 2001
Servizi 40,4 49,5 59,6 63,0
Agricoltura 15 13.3
31.80%
Industria 10 8.4
5.2
63.00% Servizi 5
0
1971 1981 1991 2001
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Allo stesso tempo spesso è utile conoscere anche l’intensità totale del fenomeno nel collettivo
studiato, cioè l’ammontare di carattere posseduto complessivamente da tutte le unità
Intuitivamente siamo portati ad intendere l’ammontare totale di carattere come la somma delle
misurazioni/osservazioni effettuate su ciascuna unità: questo però è solo uno dei possibili modi,
quindi è necessario valutare caso per caso come calcolare l’intensità sul collettivo
In generale possiamo dire che i due operatori matematici più utilizzati sono la somma e il
prodotto. E’ possibile considerare quindi tre diversi metodi di calcolo dell’intensità totale:
Il calcolo dell’intensità totale differisce a seconda del tipo di distribuzione che andiamo a
considerare e del tipo di fenomeno studiato:
DISTRIBUZIONE UNITARIA
x1 x2 x3 x4 … xN x1 + x2 + x3 + x4 + … + xN = Sxi
x1 × x2 × x3 × x4 × … × xN = Pxi
DISTRIBUZIONE DI FREQUENZA
x1 x2 x3 x4 … xk x1 × n 1 + x2 × n 2 + … + xk × n k = S xi × n i
n1 n2 n3 n4 … nk
x1 n 1 × x2 n 2 × x3 n 3 × … × xk n k = P xi n i
(nelle distribuzioni in classi sostituiamo alle modalità xi i valori centrali delle classi ci)
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Consideriamo le commesse ottenute da un’industria manifatturiera nel corso di un anno (in ML di €):
Per ottenere il fatturato complessivo dell’industria nell’anno è sufficiente sommare gli importi delle
differenti commesse, ottenendo 9,345 ML di €
Da un punto di vista statistico le diverse commesse rappresentano un collettivo e gli importi sono le
osservazioni su ciascuna unità statistica del carattere “valore della commessa”
Moltiplicando ogni modalità per il numero di unità statistiche su cui sono state osservate si ottiene
allo stesso modo l’intensità totale (cioè 9,345 ML di €)
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
S + S × i1 = S × (1 + i1)
Il secondo anno, la quantità in banca è differente. Supponiamo di non prelevare alcuna quantità e
di avere questa volta un interesse annuo pari a i2:
Dopo k anni, considerando un interesse annuo pari a (i1, i2, i3, …, ik) l’ammontare complessivo (in
questo caso l’intensità totale del nostro fenomeno) risulta essere pari a:
Come si vede la quantità ottenuta di anno in anno è proporzionale a quella degli anni precedenti
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Il passaggio da un elenco di modalità alle distribuzioni di frequenza con modalità distinte o con
classi di modalità, consente una prima sintesi dei dati: il processo di sintesi non può limitarsi solo
a questa diversa rappresentazione dei dati ma deve spingersi oltre fino a sintetizzare in un unico
dato numerico una caratteristica d’interesse
L’idea è quella di sostituire tutte le modalità del carattere in esame con un’unica modalità che le
rappresenti: ottenuta l’intensità complessiva del fenomeno è necessario quindi procedere ad una
“redistribuzione” dello stesso su tutte le unità statistiche
Questa finalità può essere perseguita attraverso la determinazione di opportuni indici sintetici del
fenomeno considerato, dette misure o indici di centralità
Alcuni indici sono adatti a sintetizzare tutti i tipi di carattere, altri invece sono utilizzabili solo se si
studiano caratteri quantitativi
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Per questo occorrono misure sintetiche che “centrino” la distribuzione di un certo fenomeno e
consentano il passaggio da una pluralità di informazioni ad un solo valore numerico
Per le ragioni riportate non è possibile definire una sola misura di centralità
Inoltre è bene tenere presente che indipendentemente dall’indice adoperato, il valore di sintesi
ottenuto non è detto che coincida esattamente con una delle modalità osservate
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Le medie sono utili perché sono espresse nella stessa unità di misura del carattere osservato
e perché danno una idea immediata della manifestazione del fenomeno nel collettivo
Le medie, data la loro funzione di sintesi, possono essere impiegate per confrontare:
- uno stesso fenomeno rilevato su collettivi diversi
- uno stesso fenomeno rilevato in tempi diversi e/o luoghi diversi
- due o più fenomeni diversi tra di loro
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
10 – La media Unità n° 03
La media è un concetto primitivo per gli esseri umani, percepito con immediatezza, tuttavia la
sua misura è arbitraria perché, come visto, il criterio utilizzato dipende strettamente dalle
informazioni ritenute rilevanti e dagli obiettivi per i quali l’indice è calcolato
Una media di una variabile X secondo Cauchy (1821) è qualunque valore reale M intermedio
tra il valore più piccolo della distribuzione ordinata in senso crescente x(1) (minimo) e il valore
più grande x(N) (massimo)
X(1) £ M £ x(N)
Per quanto ovvio e convincente, tale requisito costituisce in effetti più un aspetto importante
da considerare che una soluzione, essendo generalmente infiniti i numeri reali che soddisfano
tale criterio, detto di internalità
Una media di una variabile X secondo Chisini (1929) è invece quel valore (interno) che rispetto
ad una funzione sintetica lascia inalterato il valore
Supponiamo di volere effettuare uno studio per capire qual è il mezzo più conveniente per
raggiungere l’università. Registriamo i tempi impiegati da un piccolo collettivo di studenti che
solitamente utilizza l’auto: qual è il tempo medio impiegato per raggiungere il campus?
Tempo Tempo
studente studente
(min.) (min.)
1 23 7 28
2 32 8 33
3 44 9 45
4 21 10 34
5 36 11 29
6 30 12 31
x
a = (23+32+44+21+36+30+28+33+45+34+29+31)/12 = 386/12 = 32,17 minuti
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
12 – Notazione Unità n° 03
1 1 N
xa = ( x1 +x 2 +...+xN ) = å x i
N N i=1
1 K
con frequenze assolute xa = å x ini
?
N i=1
Perché
K
con frequenze relative xa =å x i fi
i=1
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
3, 6, 6, 5, 3, 2, 5, 3, 2, 4, 2, 4
Dal confronto delle due formule si comprende come nel caso di distribuzioni di frequenza si
tenga conto dell’importanza di ciascuna modalità in termini di manifestazione nel collettivo
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Nel caso di una distribuzione di frequenza per un carattere X suddiviso in classi, possiamo
calcolare approssimativamente la media utilizzando il valore centrale di ciascuna classe
40 –| 50 45 9 45*9 = 405
1 k
xa = å cini = 5940/201 = 29.55 € (a confezione)
N i=1
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
15 – Notazione Unità n° 03
Per le distribuzioni in classi vale quanto appena detto: se calcoliamo la media a partire dalla
rappresentazione in frequenze assolute o in frequenze relative abbiamo lo stesso risultato
N.B.: in entrambi i casi non otteniamo la vera media ma una sua approssimazione
X v.c. n f
x1-x2 c1 n1 f1
estr. inferiore + estr. superiore
x2-x3 c2 n2 f2 ci =
2
… … … …
xi-1-xi ci ni fi
1 k k
… … … … xa = å cini xa =å ci fi
xk-1-xk ck nk fk N i=1 i=1
totale N 1
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
16 – Esempio Unità n° 03
Vogliamo calcolare l’altezza media di un collettivo di 200 individui a partire dalla distribuzione
in classi del carattere altezza (in centimetri)
1) La media è sempre un valore interno alla distribuzione ordinata dei dati (INTERNALITA’)
2) La somma di tutte le differenze tra i valori della distribuzione e il loro valore medio è
sempre pari a zero
3) La somma di tutte le differenze al quadrato tra i valori della distribuzione e il loro valore
medio è sempre un minimo
Consideriamo due valori costanti a e b: se i valori xi vengono trasformati nei valori yi = a + bxi,
allora tra le media aritmetica delle yi e quella delle xi esiste la stessa relazione (lineare) che
esiste tra le yi e le xi, cioè
ya = a + bxa
La relazione ci dice che la media è invariante per trasformazioni affini: questo vuol dire che se
aggiungiamo a tutti i valori di una distribuzione una costante a allora la media della nuova
distribuzione sarà pari a quella della distribuzione originaria maggiorata della quantità a; allo
stesso modo se moltiplichiamo a tutti i valori di una distribuzione per una costante b allora la
media della nuova distribuzione sarà proporzionale a quella della distribuzione originaria di una
quantità b
PROVA: calcolare la media della distribuzione (23, 24, 22, 20, 26, 23), poi la media della
distribuzione (23+3, 24+3, 22+3, 20+3, 26+3, 23+3) e la media della distribuzione (23x3, 24x3,
22x3, 20x3, 26x3, 23x3)
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
La media aritmetica complessiva di più gruppi è uguale alla media aritmetica delle medie di
ciascun gruppo, considerando quante unità del collettivo appartengono a ciascun gruppo
La proprietà afferma che la media complessiva del carattere oggetto di studio può essere calcolata
nel modo seguente
N1 + N2 + ... + NH N
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
20 – Esercizio Unità n° 03
xa anni
21 – Esercizio Unità n° 03
Supponiamo che il reddito lordo annuo (in €) relativo al 2003 di 5 dirigenti di una amministrazione
pubblica si quello sotto riportato:
Si supponga che nel 2004 tutti i dirigenti abbiamo ricevuto un “bonus di produttività” pari a 10000
euro e che inoltre il loro reddito lordo, a causa degli adeguamenti salariali, sia aumentato dell’1,35%
rispetto al 2003. Determinare il reddito medio lordo dei 5 dirigenti nel 2004
ya (xa) €
?
xa
Quale proprietà abbiamo utilizzato
€
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
xi ni1 … nij … nic ni. Supponiamo che la variabile (X,Y) sia mista o
… … … … … … … quantitativa (cioè che almeno una delle due
variabili in gioco sia quantitativa)
xr nr1 … nrj … nrc nr.
Se entrambe le variabili sono quantitative è
TOT n.1 … n.j … n.c n.. possibile calcolarne la media aritmetica
r c
xa ya
n n
Supponiamo ora che X sia una variabile qualitativa e che Y sia invece una variabile quantitativa: non è più
possibile calcolare la media di X mentre invece possiamo calcolare la media di Y
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
23 – Esempio Unità n° 03
Età
18 - 22 23 - 26 27 - 30 Individuiamo i valori centrali delle diverse
Bionda 12 22 11 45 classi di età e quindi calcoliamo la media
Tipo di
Rossa 5 9 14 28 considerando quante unità statistiche
Birra
Scura 3 15 18 36 appartengono alle diverse classi
20 46 43 109
I consumatori del collettivo che stiamo esaminando hanno una età media di 25,25 anni
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Possiamo allora calcolare anche la media di Y fissato un certo valore della variabile X, ottenendo così
una media condizionata: è come se calcolassimo la media della sottopopolazione che presenta x1
M(voto|m)
M(voto|f)
M(Y|xi) M(voto)
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
25 – Esercizio Unità n° 03
Nella tavola che segue è riportata la distribuzione di 250 individui che abitualmente trascorrono
le vacanze in località di mare della provincia di Cosenza secondo il luogo prescelto (X) e l’età (Y):
0 -| 20 20 -| 40 40 -| 60 60 -| 80
Fuscaldo 14 25 21 34
Diamante 15 23 11 15
Sibari 12 11 19 5
Cariati 5 23 7 10
(1) Tra tutti gli individui con età superiore ai 40 anni, quanti preferiscono la costa ionica?
(2) Calcolare l’età media dei turisti e l’età media dei turisti per luogo di villeggiatura prescelto
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Nella realtà bisogna spesso considerare l’importanza delle diverse modalità di un carattere
secondo un criterio diverso dalla sua frequenza…
k
æ ö
x1p1 + x2p2 + ... + xkpk å xipi k ç p ÷
xa = = i=1k =å x i ç k i ÷
p1 + p2 + ... + pk ç p ÷
å çå i÷
i=1
p i
i=1 è i=1 ø
la somma dei pesi relativi
deve essere sempre pari a 1
28 – Esempio Unità n° 03
Attenzione! Nel calcolo della media ponderata l’intensità totale del fenomeno deve essere
rapportata non al numero di unità statistiche (nell’esempio 5) ma al totale dei pesi utilizzati
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Nello studio di alcuni fenomeni, ad esempio quelli economici, si osservano dati distribuiti
secondo un andamento di tipo geometrico: ciò vuol dire che il carattere studiato si modifica
mediante proporzioni
In questi casi ha senso da un punto di vista statistico moltiplicare i dati piuttosto che sommarli
1
æ N
ö N
xg = x1 × x2 × ... × xN = ç Õ xN ÷
N
è i=1 ø
Per poter calcolare la media geometrica è necessario che i valori siano tutti positivi
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Il tasso medio è quel tasso che sostituito ai tre diversi tassi applicati dalla banca ci consente di
ottenere lo stesso ammontare (intensità totale del fenomeno)
Per comodità assumiamo S=1: per calcolare il tasso medio dobbiamo soddisfare la relazione
La nostra incognita è quindi il tasso i*, eleviamo i due elementi della relazione per il reciproco di N
così da ottenere
32 – Esempio Unità n° 03
Nella tabella seguente sono riportati i dati sulla popolazione italiana residente dal 1981 al 2001
xg = 4 0.0012×0.0032×0.0018×0.0021=0.0020 : 2,0‰
Dal calcolo della media geometrica possiamo dedurre che la popolazione italiana è cresciuta
nel periodo 1981-2001 con un tasso medio di variazione pari allo 2,0 ‰
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Nel caso in cui dobbiamo calcolare la media geometrica di dati organizzati in una distribuzione
di frequenza dobbiamo tener conto di quante unità statistiche hanno manifestato le differenti
modalità del carattere
xg = x × x × ... × x
N n1
1
n2
2
nk
k
f1 f2 fk
xg =x × x × ... × x
1 2 k
Nel caso di distribuzioni in classi si sostituisce il valore centrale delle classi alle modalità xi
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
34 – Esercizio Unità n° 03
Si consideri la seguente distribuzione che riporta il tasso praticato da alcune banche sui mutui
per l’acquisto della prima casa:
Soluzione
xi = · ln
35 – Esercizio Unità n° 03
calcolare e commentare la
variazione relativa media dei
1)
nati e dei nati da genitori non
coniugati tra il 2008 e il 2011
rapporto completo
Nel caso (a) si rapporta una parte del collettivo all’ammontare totale del collettivo stesso,
nel caso (b) si confronta una parte del collettivo osservata in un dato momento con la
stessa osservata in un momento diverso
?
qual è la percentuale media di donne impiegate nelle aziende del
settore in cui opera l’azienda Alfa?
qual è la percentuale media di crescita dell’occupazione femminile
in Alfa dalla sua fondazione a oggi?
nf N nf/N %
Alfa 8 50 0.160 16.0 se la proporzione di donne impiegate, rispetto alle
Beta 24 83 0.289 29.0 corrispondenti popolazioni di riferimento, è molto
Gamma 13 26 0.500 50.0 dissimile nelle diverse aziende, la media aritmetica
SETTORE 45 159 0.283 28.3 non è un buon indice di sintesi e va invece preferita
media aritmetica % 0.316 31.6 una media ponderata con pesi pari al n° di impiegati
media ponderata % 0.283 28.3 per ciascuna azienda
nf N nf/N % nf N nf/N %
Alfa 18 50 0.360 36.0 Alfa 8 68 0.118 11.8
Beta 22 83 0.265 26.5 Beta 24 80 0.300 30.0
Gamma 20 26 0.769 76.9 Gamma 13 66 0.197 19.7
SETTORE 60 159 0.377 37.7 SETTORE 45 214 0.210 21.0
Abbiamo visto come con le medie sia possibile sintetizzare i dati rilevati in un collettivo, allo scopo
di descrivere il fenomeno che ci interessa studiare
Consideriamo la statura delle giocatrici di una squadra di pallavolo: Come si vede dai dati in tabella,
la media rispetta la proprietà
cm 173 169 173 175 170 175 209 172 dell’internalità ma di fatto non è
rappresentativa perché
superiore a 7 modalità su 8:
ordiniamo i dati in senso crescente questo è dovuto al fatto che il
valore 209 risulta essere molto
più grande rispetto agli altri, e
quindi tende ad “attrarre” il
cm 169 170 172 173 173 175 175 209 valore medio
Analogamente alle medie analitiche sono espresse nella stessa unità di misura dei dati
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
40 – La moda Unità n° 03
Nel caso di distribuzioni in classi ovviamente non possiamo individuare una modalità prevalente
ma dobbiamo invece fare riferimento alla classe di modalità più frequenti
La classe modale è la classe della distribuzione corrispondente alla frequenza più alta (se le
classi sono equiampie) o alla densità di frequenza più alta (se le classi non sono equiampie)
Nell’esempio in tabella la moda Mo, o meglio la classe modale, è pari a 2.5-|3.5 (ML di €)
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
La moda di una distribuzione è la modalità a cui è associata la frequenza più elevata, quindi
si evince facilmente che la moda è un indice di posizione che può essere determinato per
qualsiasi tipo di carattere, quantitativo o qualitativo
1) la moda può ritenersi un buon criterio di sintesi quando si presenta con una frequenza
“nettamente maggiore” di tutte le altre modalità (almeno il 50% delle osservazioni). In tal
caso è ragionevole assumerla come valore tipico del fenomeno, cioè come quel valore più
idoneo a rappresentarlo sinteticamente
2) la moda potrebbe non essere unica: se si individuano due modalità con frequenza maggiore
si parla di distribuzione bimodale (due mode)
3) se tutte le modalità del carattere presentano all’incirca le stesse frequenze, allora non ha
senso determinare la moda: per alcuni studiosi già non ha senso parlare di moda se nella
distribuzione si individuano più di due valori maggiormente ricorrenti
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
È possibile che nel collettivo ci siano 2 gruppi omogenei rispetto ad un’altra caratteristica
Un’industria di vasellame vuole controllare la qualità della creta utilizzata nella lavorazione
N° impurità N° impurità per cm2
per cm2 Campioni
1 40 100
2 70 80 Dall’analisi della distribuzione si
3 50 60 evince che le modalità prevalenti
4 30
40 sono due (70 e 80)
5 60
6 80 20
7 40 0 Se teniamo conto del fatto che i
Totale 370 1 2 3 4 5 6 7
campioni di creta sono prelevati
N° impurità N° impurità per cm2 da due diversi siti allora possiamo
per cm2 Cava 1 Cava 2 Campioni
100
vedere come in effetti il collettivo
1 40 0 40
2 70 0 70 80
esaminato può essere suddiviso
3 35 15 50 60
in due diversi sotto-collettivi e di
4 10 20 30
40
conseguenza sfruttare questa
5 5 55 60
6 0 80 80 20
informazione per meglio studiare
7 0 40 40 0 il fenomeno
Totale 160 210 370 1 2 3 4 5 6 7
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
44 – La mediana Unità n° 03
La mediana è il centro di un insieme di valori ordinati, è cioè il valore che bipartisce il collettivo
statistico in due gruppi di uguale numerosità
La determinazione della mediana richiede quindi, come prerequisito, che il carattere in esame sia
almeno ordinale. Pertanto potrà essere determinata per tutti i tipi di caratteri quantitativi o
qualitativi, tranne quelli sconnessi (es. colore degli occhi -> no | reddito, titolo di studio -> si)
A seconda della numerosità e di come sono organizzati i dati, cambia il modo di determinare
l’indice: in generale per le distribuzioni unitarie si guarda alla numerosità, cioè se le unità del
collettivo sono pari o dispari; per le distribuzioni di frequenza si guarda invece alle frequenze
cumulate, meglio se relative
la mediana Me è definita come il valore centrale della successione, cioè come quel valore che è
preceduto e seguito dallo stesso numero di dati della distribuzione (50%-50%)
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Divide il collettivo in due sottoinsiemi di uguale numerosità: uno con modalità di ordine più
basso e l’altro con modalità di ordine più alto
50% 50%
Il calcolo della mediana è possibile solo per caratteri quantitativi o qualitativi ordinabili
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Consideriamo i giudizi ricevuti dagli scolari di una classe elementare alla fine dell’anno
Ordiniamo le modalità in senso crescente poiché il giudizio è espresso sulla base di un carattere
qualitativo ordinato
1 Insufficiente 1 Insufficiente
2 Sufficiente 4 Insufficiente
3 Buono 2 Sufficiente
4 Insufficiente 5 Sufficiente
La modalità DISCRETO
5 Sufficiente 6 Discreto rappresenta la mediana della
distribuzione
6 Discreto 3 Buono
7 Ottimo 9 Buono
8 Ottimo 7 Ottimo
9 Buono 8 Ottimo
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
51 – Esempio Unità n° 03
Consideriamo la distribuzione del numero di impiegati per anni di servizio in una industria
52 – I percentili Unità n° 03
Come abbiamo visto, la mediana è quel valore che divide il collettivo statistico in due parti
uguali ognuna contenente il 50% delle unità
Si definisce p-mo percentile, corrispondente alla frazione p/100 del collettivo, la modalità xi del
carattere che suddivide il collettivo in due gruppi tali che:
1) il primo gruppo ha numerosità N(p/100) e le sue unità hanno una modalità al più (inferiore
o uguale) pari a xi
2) il secondo gruppo ha numerosità N(1-p/100) e le sue unità hanno una modalità almeno
(superiore o uguale) pari a xi
In generale il p-esimo percentile è quello che lascia alla sua sinistra il p% della
distribuzione ordinata dei valori osservati e alla sua destra il (100-p)%
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
In generale il p-esimo percentile è la modalità che (in senso crescente) si trova nella posizione
Se i è intero si considera la media tra xi e xi+1, se invece i non è intero si considera xi+1
5% 95%
5° percentile
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
I quartili sono dei percentili che consentono di dividere la distribuzione in quattro parti uguali:
- se p=25 allora abbiamo il 25° percentile (detto primo quartile, Q1), cioè la modalità che lascia
a sinistra il 25% delle unità
- se p=75 allora abbiamo il 75° percentile (detto terzo quartile, Q3), cioè la modalità che lascia
a sinistra il 75% delle unità
Q1 Q 2 =Me Q3
25% 75%
50%
Il secondo quartile, per p=50, coincide con la mediana della distribuzione e rappresenta quella
modalità che lascia a sinistra (e a destra) il 50% delle unità statistiche
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Per determinare i percentili nelle distribuzioni unitarie e di frequenza si può utilizzare lo stesso
procedimento visto per la mediana
Per le distribuzioni unitarie è necessario ordinare i dati in senso crescente e quindi individuare il
percentile come quella modalità corrispondente all’unità statistica che divide la distribuzione in
due gruppi, in base a quanto detto precedentemente
Per le distribuzioni di frequenza è sempre utile riferirsi alle frequenze cumulate relative per
individuare la modalità che ci interessa
ATTENZIONE
Vale la pena sottolineare come i percentili siano sempre le modalità e non le posizioni!
Per non confondersi è possibile riferirsi a quanto visto per la media: anche in questo
caso il valore che ci interessa è compreso tra il valore più piccolo e più grande della
distribuzione, ed espresso nella stessa unità di misura con cui si stanno leggendo i dati
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Per le distribuzioni in classi vale il principio dell’approssimazione lineare: si individua la classe per la
quale la funzione di ripartizione è al più pari a p/100 e quindi si determina il valore del percentile
per approssimazione lineare attraverso la stessa proporzione già utilizzata per la mediana
F AB x DE
AB:AD = BC:DE AD =
C BC
Fi
E
p/100 æ 0,25 - Fi-1 ö
Q 1 » x i-1 + ç ÷ × ωi
Fi-1
A
B è Fi - Fi-1 ø
D
x æ 0,75 - Fi-1 ö
xi-1 Qx xi Q 3 » x i-1 + ç ÷ × ωi
è Fi - Fi-1 ø
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
58 – Esempio Unità n° 03
Consideriamo la distribuzione del numero di impiegati per anni di servizio in una industria
æ 0,75 - 0, 61 ö
Q3 » 10 + ç ÷ × 10 = 10 + 6,36 = 16,36 anni
è 0,83 - 0,61 ø
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Da un punto di vista grafico possiamo individuare e commentare i percentili dal poligono delle
frequenze, rappresentazione della funzione di ripartizione empirica della distribuzione
Q3
“Tagliando” il poligono delle
fr. in corrispondenza di 0,25
Me (25%) si ottiene il valore del
primo quartile, a 0,50 (50%) si
Q1 ha la mediana e a 0,75 (75%)
si ha il terzo quartile
In corrispondenza degli altri valori (compresi tra 0 e 1) si hanno tutti gli altri percentili
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
Quando nella distribuzione di un carattere osserviamo sia valori positivi sia valori negativi abbiamo
alcuni problemi ad utilizzare le medie analitiche
Esempio:
Analizzando la distribuzione dei prezzi della benzina negli ultimi 6 anni si sono osservati
i seguenti tassi di variazione
Per calcolare il tasso medio dovremmo utilizzare la media geometrica: il problema è che la media
geometrica può essere calcolata solo in presenza di valori positivi, quindi nell’esempio proposto
siamo “costretti” ad utilizzare la media aritmetica o la mediana per sintetizzare la distribuzione dei
prezzi e avere una idea della intensità media del fenomeno oggetto di studio
Corso di Laurea: Economia Aziendale
Insegnamento: Statistica (9 CFU)
Docente: M.Misuraca (aula1) / D.Costanzo (aula2)
61 – Riepilogo Unità n° 03
1) dobbiamo innanzi tutto considerare la natura del carattere, perché come visto non tutti
gli indici sono idonei, ad esempio, a descrivere dei caratteri qualitativi. Se il carattere è
qualitativo ordinato allora è possibile utilizzare sia la moda sia la mediana, se il carattere
è invece qualitativo sconnesso allora è possibile utilizzare solo la moda