LA SINTESI DELLE
DISTRIBUZIONI STATISTICHE
Parte 1
1
Medie analitiche e di posizione (i)
Il processo di riorganizzazione dei dati finalizzato ad ottenere una
esposizione chiara e sintetica del fenomeno oggetto di studio, finora, è
stato messo in atto tramite la realizzazione di distribuzioni di frequenze e
rappresentazioni grafiche.
Tuttavia, in molti casi, per evidenziare le caratteristiche essenziali della
distribuzione di un carattere osservato in un collettivo può essere
sufficiente un solo numero o pochi numeri (il valore di uno o più indici).
Gli indici di sintesi più semplici da calcolare sono rappresentati dalle
medie, che descrivono con un valore o una modalità l’intera distribuzione.
Le medie si distinguono in medie analitiche e medie di posizione.
2
Medie analitiche e di posizione (ii)
Le medie analitiche vengono calcolate attraverso operazioni algebriche
sulle modalità del carattere, pertanto possono essere ottenute solo per
caratteri quantitativi.
Tra le medie analitiche consideriamo:
• la media aritmetica semplice e ponderata
• la media geometrica
• la trimmed mean
Le medie di posizione non richiedono operazioni algebriche, quindi possono
essere determinate per caratteri sia quantitativi che qualitativi.
Tra le medie di posizione consideriamo:
• la moda
• la mediana
• i percentili
3
LE MEDIE ANALITICHE
4
L’operatore sommatoria
Introduciamo l’operatore «sommatoria», utile per il calcolo delle medie
analitiche.
Il simbolo associato a questo operatore è: σ
Dato un insieme di numeri {𝑥1 , 𝑥2 , … , 𝑥𝑛 } , l’operatore sommatoria
permette di esprimere la loro somma in maniera sintetica:
n
(x1 + x2 + ... + xn ) = xi
i =1
Si legge: «Somma delle 𝑥𝑖 per 𝑖 che va da 1 a 𝑛»
5
Proprietà dell’operatore sommatoria (i)
1) Somma di una costante. Sommare 𝐾 volte una costante equivale a
moltiplicare la costante per 𝐾.
2) Proprietà distributiva. Si può estrarre dalla sommatoria un fattore che
non dipende dall’indice di sommatoria.
6
Proprietà dell’operatore sommatoria (ii)
3) Proprietà dissociativa. La sommatoria di una somma algebrica
equivale alla somma algebrica delle singole sommatorie.
4) La sommatoria di un prodotto non è uguale al prodotto delle somme.
7
La media aritmetica (i)
Per i caratteri quantitativi la media aritmetica semplice (anche nota come
«media aritmetica» soltanto) è l’indice di tendenza centrale più frequentemente
utilizzato ed è solitamente indicata con il simbolo 𝑥ҧ .
Consideriamo una distribuzione con frequenze unitarie.
La media aritmetica di un insieme di 𝑛 valori osservati 𝑥1 , 𝑥2 , … , 𝑥𝑛 di un
carattere quantitativo 𝑋 è data dalla somma dei valori osservati divisa per il
numero di osservazioni:
𝑛
1 1
𝑥ҧ = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = 𝑥𝑖
𝑛 𝑛
𝑖=1
Un’altra definizione di media aritmetica è la seguente:
La media è quel valore che, se sostituito alle modalità, ne lascia inalterata la
somma
𝑛 𝑛
𝑥𝑖 = 𝑥ҧ = 𝑛𝑥ҧ
𝑖=1 𝑖=1
In altri termini, suddividendo in parti uguali l’ammontare complessivo del
carattere, ogni unità si vedrebbe attribuire un valore pari alla media aritmetica.
8
La media aritmetica (ii)
Esempio
Osserviamo il carattere «reddito mensile (in migliaia di euro)» su tre individui
ottenendo la seguente distribuzione disaggregata.
Individuo Reddito Numero individuo 𝑋
Mario 6 1 𝑥1
Anna 8 2 𝑥2
Giovanni 1 3 𝑥3
3
Totale 15 Totale 𝑥i
𝑖=1
Se il reddito totale fosse equidistribuito, quale sarebbe il reddito di ciascun
individuo? Per rispondere a questa domanda calcoliamo la media della distribuzione:
𝑛 3
1 1 (6 + 8 + 1) 15
𝑥ҧ = 𝑥𝑖 = 𝑥𝑖 = = =5
𝑛 3 3 3
𝑖=1 𝑖=1
Il reddito medio mensile dei tre individui è pari a 5 mila euro.
9
La media aritmetica (iii)
Consideriamo ora il caso di una distribuzione con frequenze non unitarie.
Dato un carattere quantitativo discreto 𝑋 con 𝐾 modalità osservato su 𝑛
unità statistiche, indichiamo con 𝑥1 , 𝑥2 , … , 𝑥𝐾 le modalità osservate, e con
𝑛1 , 𝑛2 , … , 𝑛𝐾 e 𝑓1 , 𝑓2 , … , 𝑓𝐾 le rispettive frequenze assolute e relative.
Conoscendo la distribuzione di frequenze del carattere, possiamo calcolare
più velocemente la media aritmetica come segue:
𝐾 𝐾
1
𝑥ҧ = 𝑥𝑗 𝑛𝑗 = 𝑥𝑗 𝑓𝑗
𝑛
𝑗=1 𝑗=1
Osservazione:
Applicando la proprietà distributiva dell’operatore sommatoria e ricordando
la definizione di frequenza relativa si dimostra facilmente l’equivalenza delle
due formule.
10
La media aritmetica (iv)
Esempio
Un policlinico ha effettuato l’acquisto di quattro nuovi farmaci.
Di seguito vengono riportati i prezzi dei farmaci e le quantità acquistate.
Qual è il prezzo medio a confezione dei nuovi farmaci?
Prezzo Numero di Ammontare Frequenza Ammontare
𝑋 assoluta carattere
confezione confezioni carattere
(€) (migliaia) (migliaia di €) 𝑥1 𝑛1 𝑥1 𝑛1
25 11 275 𝑥2 𝑛2 𝑥2 𝑛2
29 5 145
𝑥3 𝑛3 𝑥3 𝑛3
37 15 555
𝑥4 𝑛4 𝑥4 𝑛4
42 9 378
4
Totale 40 1353 Totale 𝒏 𝑥j 𝑛j
𝑗=1
𝐾 4
1 1 1
𝑥ҧ = 𝑥𝑗 𝑛𝑗 = 𝑥𝑗 𝑛𝑗 = 25 × 11 + 29 × 5 + 37 × 15 + 42 × 9
𝑛 40 40
𝑗=1 𝑗=1
1
= 275 + 145 + 555 + 378 = 33.825
40
11
La media aritmetica (v)
Consideriamo ora il caso di un carattere suddiviso in classi.
Quando un carattere è suddiviso in classi, la formula che abbiamo
introdotto per il calcolo della media aritmetica non può essere applicata in
quanto non si conoscono con esattezza i valori osservati ma solo la loro
classe di appartenenza.
In questo caso possiamo ottenere soltanto un’approssimazione della media
impiegando nella formula il valore centrale della classe, calcolato come
semisomma degli estremi della classe.
Data la distribuzione di frequenze di un carattere quantitativo 𝑋 suddiviso
in 𝐾 classi osservato su 𝑛 unità statistiche, possiamo approssimare la
media aritmetica come segue:
𝐾
1
𝑥ҧ ≈ 𝑐𝑗 𝑛𝑗
𝑛
𝑗=1
dove 𝑐𝑗 e 𝑛𝑗 sono rispettivamente il valore centrale e la frequenza assoluta
della classe j-esima.
12
La media aritmetica (vi)
Esempio
Un policlinico ha effettuato l’acquisto di quattro nuovi farmaci. Di seguito
vengono riportate le classi di prezzo dei farmaci e le quantità acquistate.
Qual è all’incirca il prezzo medio a confezione dei nuovi farmaci?
Prezzo Valore Numero di Ammontare
confezione centrale confezioni carattere
(€) classe (migliaia) (migliaia €)
Estremi classe 𝑐𝑗 𝑛𝑗 𝑐𝑗 × 𝑛𝑗
20 –| 30 25 11 25 x 11 = 275
30 –| 35 32.5 5 32.5 x 5 = 162.5
35 –| 40 37.5 15 37.5 x 15 = 562.5
40 –| 50 45 9 45 x 9 = 405
Totale 40 1405
𝐾 4
1 1 1
𝑥ҧ ≈ 𝑐𝑗 𝑛𝑗 = 𝑐𝑗 𝑛𝑗 = 275 + 162.5 + 562.5 + 405 = 35.72
𝑛 40 40
𝑗=1 𝑗=1
13
La media aritmetica ponderata (i)
Talvolta nel calcolo della media aritmetica si vuole dare un’importanza
diversa alle osservazioni del carattere, attribuendo a ciascuna di loro uno
specifico peso, ossia un valore che ne esalti o ne diminuisca l’importanza.
In questo caso si parla di media aritmetica ponderata.
La media aritmetica ponderata di un insieme di 𝑛 valori osservati
𝑥1 , 𝑥2 , … , 𝑥𝑛 di un carattere quantitativo 𝑋 con pesi non negativi
𝑝1 , 𝑝2 , … , 𝑝𝑛 è data dalla somma dei valori osservati ponderati per il loro
peso divisa per il totale dei pesi:
𝑥1 𝑝1 + 𝑥2 𝑝2 + ⋯ + 𝑥𝑛 𝑝𝑛 σ𝑛𝑖=1 𝑥𝑖 𝑝𝑖
𝑥ҧ = = 𝑛
𝑝1 + 𝑝2 + … + 𝑝𝑛 σ𝑖=1 𝑝𝑖
14
La media aritmetica ponderata (ii)
Esempio
Il regolamento di un ateneo prevede che si abbia diritto alla borsa di studio se la
media degli esami sostenuti (ponderata per il valore di CFU) è superiore a 27/30.
Uno studente iscritto al corso di laurea in Matematica, durante il primo anno, ha
superato i seguenti esami con le votazioni di seguito riportate:
Esame Punteggio in trentesimi Crediti
Laboratorio di Matematica 23 9
Analisi Matematica 26 12
Geometria 30 6
Algebra 28 6
Calcolo delle probabilità 23 9
Fisica generale 24 9
Lingua inglese 30 3
Fondamenti di Informatica 30 3
Abilità relazionali 30 3
σ9𝑖=1 𝑥𝑖 𝑝𝑖 𝑥1 𝑝1 + 𝑥2 𝑝2 + ⋯ + 𝑥9 𝑝9 23 × 9 + 26 × 12 + ⋯ + 30 × 3
𝑥ҧ = 9 = = = 26
σ𝑖=1 𝑝𝑖 𝑝1 + 𝑝2 + … + 𝑝9 9 + 12 + ⋯ + 3
Lo studente quindi non ha diritto alla borsa di studio.
N.B. La media aritmetica semplice dei voti ottenuti è pari a 27.11
15
Proprietà della media aritmetica (i)
La media aritmetica possiede un certo numero di proprietà matematiche.
• PRIMA PROPRIETA’: INTERNALITA’
• SECONDA PROPRIETA’: La somma degli scarti dalla media è nulla.
• TERZA PROPRIETA’: La somma dei quadrati degli scarti dalla media è un
minimo.
• QUARTA PROPRIETA’: PROPRIETA’ ASSOCIATIVA
• QUINTA PROPRIETA’: LINEARITA’
16
Proprietà della media aritmetica (ii)
• PRIMA PROPRIETA’ (INTERNALITA’)
«La media aritmetica è interna alla distribuzione, ossia assume un valore
compreso tra il valore minimo e il valore massimo del carattere»
Considerata la sequenza ordinata delle osservazioni del carattere 𝑋, la media
è sempre interna all’intervallo di variazione [𝑥𝑚𝑖𝑛 , 𝑥𝑚𝑎𝑥 ]
𝑥𝑚𝑖𝑛 ≤ 𝑥ҧ ≤ 𝑥𝑚𝑎𝑥
Questo vuol dire che il risultato della media non può mai essere minore della
più piccola intensità rilevata, né maggiore dell’intensità più grande.
17
Proprietà della media aritmetica (iii)
• SECONDA PROPRIETA’
Introduciamo innanzitutto il concetto di scarto dalla media:
si definisce «scarto dalla media» la differenza tra la generica osservazione e
la media aritmetica.
Per la 𝑖-esima osservazione, in simboli, avremo: 𝑥𝑖 − 𝑥.ҧ
«La somma degli scarti dalla media è pari a zero»
𝑛
(𝑥𝑖 − 𝑥)ҧ = 0
𝑖=1
18
Proprietà della media aritmetica (iv)
Esempio
Osserviamo il carattere «reddito mensile (in migliaia di euro)» su tre individui
ottenendo la distribuzione disaggregata in tabella con media pari 5 mila euro.
Verifichiamo le prime due proprietà della media aritmetica.
Scarti dalla
Individuo Reddito
media
Mario 6 6-5=1
Anna 8 8-5=3
Giovanni 1 1-5=-4
Totale 15 0
La media è un numero compreso tra 𝑥𝑚𝑖𝑛 = 1 e 𝑥𝑚𝑎𝑥 = 8.
La somma degli scarti dalla media è pari a zero.
19
Proprietà della media aritmetica (v)
• TERZA PROPRIETA’
«La somma dei quadrati degli scarti dalla media è un minimo»
La somma degli scarti al quadrato dei valori 𝑥𝑖 da una costante 𝑐 è minima
quando il valore di 𝑐 è pari alla media aritmetica
σ𝑛𝑖=1(𝑥𝑖 − 𝑐)2 = 𝑚𝑖𝑛𝑖𝑚𝑜 se 𝑐 = 𝑥ҧ
In altri termini, la somma dei quadrati degli scarti da un valore diverso dalla
media fornisce un risultato sempre maggiore
σ𝑛𝑖=1(𝑥𝑖 − 𝑥)ҧ 2 ≤ σ𝑛𝑖=1(𝑥𝑖 − 𝑐)2 se 𝑐 ≠ 𝑥ҧ
20
Proprietà della media aritmetica (vi)
• QUARTA PROPRIETA’ (PROPRIETA’ ASSOCIATIVA)
«Se le modalità del carattere X sono disposte in gruppi, dei quali conosciamo
numerosità e medie, allora la media generale del carattere X è ottenuta
come media delle medie dei gruppi»
Se un collettivo di 𝑛 unità statistiche viene suddiviso in 𝐿 sottoinsiemi
disgiunti di numerosità 𝑛1 , 𝑛2 , … , 𝑛𝐿 , tali che
𝑛ℎ = 𝑛
ℎ=1
con media rispettivamente 𝑥ҧ1 , 𝑥ҧ 2 , … , 𝑥ҧ 𝐿 , allora la media aritmetica generale
𝑥ҧ si può ottenere come media ponderata delle medie dei sottoinsiemi, con
pesi pari alle loro numerosità:
𝐿
1
𝑥ҧ = 𝑥ҧℎ 𝑛ℎ
𝑛
ℎ=1
21
Proprietà della media aritmetica (vii)
Esempio
Nella tabella seguente è riportata la distribuzione di frequenza associata al
prezzo medio dei farmaci in Italia per ripartizione geografica nell’anno 2015.
Qual è il prezzo medio dei farmaci in Italia?
Area Prezzo medio Numero di farmaci Ammontare
geografica dei farmaci acquistati Costo dei farmaci
(€) (€)
Nord 50 200 10000
Centro 30 150 4500
Sud-Isole 40 50 2000
Italia ? 400 16500
Calcoliamo la media ponderata del prezzo medio dei farmaci in Italia
utilizzando come pesi il numero di farmaci acquistati per area geografica:
3
1 1
𝑥ҧ = 𝑥ҧℎ 𝑛ℎ = (50 × 200 + 30 × 150 + 40 × 50) = 41,25€.
400 400
ℎ=1
22
Proprietà della media aritmetica (viii)
• QUINTA PROPRIETA’ (LINEARITA’)
«La media di una trasformazione lineare corrisponde alla trasformazione
lineare della media»
Consideriamo un carattere 𝑌 ottenuto come trasformazione lineare del
carattere 𝑋 di media 𝑥ҧ
𝑌 = 𝑎 + 𝑏𝑋,
dove:
• 𝑎 è una costante additiva
• 𝑏 una costante moltiplicativa.
In questo caso, è possibile calcolare la media aritmetica di 𝑌 utilizzando
direttamente la media di 𝑋:
𝑦ത = 𝑎 + 𝑏 𝑥ҧ
23
Proprietà della media aritmetica (ix)
Esempio
Nella tabella seguente è riportata la distribuzione di frequenza associata alle
classi di costo di degenza giornaliera di 36 ospedali nell’anno 2008.
Classi di costo Numero di
(€ al giorno) ospedali
300-400 2
400-500 15
500-600 12
600-700 6
700-800 1
totale 36
Si supponga che nel 2014, in ogni ospedale, il costo di degenza si raddoppi e
che lo Stato sovvenzioni ogni giorno di degenza con una quota fissa di 50€.
Quale sarà il costo medio giornaliero di degenza nel 2014?
Calcoliamo il costo medio giornaliero di degenza nei 36 ospedali nel 2008:
𝐾 5
1 1 1
𝑥ҧ ≈ 𝑐𝑗 𝑛𝑗 = 𝑐𝑗 𝑛𝑗 = 350 × 2 + 450 × 15 + ⋯ + 750 × 1 = 519€.
𝑛 36 36
𝑗=1 𝑗=1
Nel 2014 il costo medio giornaliero di degenza nei 36 ospedali è pari a:
𝑦ത = 𝑏 𝑥ҧ + 𝑎 = 2 × 519 − 50 = 988€. 24
Difetto della media aritmetica
Poiché il calcolo della media aritmetica coinvolge tutti gli elementi della
distribuzione, il principale difetto di questo indice di tendenza centrale è che
risente fortemente dei valori estremi dei dati osservati.
Questi ultimi, infatti, sono potenziali valori anomali, cioè valori che
differiscono dalla maggior parte dei dati osservati in quanto molto più piccoli
o molto più grandi.
In questo caso la media aritmetica non è ben rappresentativa dell’insieme
dei valori osservati.
Esempio:
Sono stati osservati i seguenti dieci valori:
1 1 1 1 3 4 4 5 5 175
È evidente che l’ultimo valore è un dato anomalo.
200
La media aritmetica in questo caso è pari a 𝑥ҧ = = 20, un risultato che
10
rappresenta male i dieci dati in quanto è distante sia dai primi nove valori
sia dall’ultimo valore.
25
La trimmed mean
Per superare l’empasse dell’influenza dei valori anomali si può utilizzare la
trimmed mean che è la media aritmetica calcolata su una certa percentuale di
valori della distribuzione, «quelli centrali».
Per esempio, la trimmed mean al 50% non considera il 25% dei valori più
piccoli e il 25% dei valori più grandi.
Esempio:
Sono stati osservati i seguenti otto valori:
3 5 5 6 8 8 9 150
La media aritmetica è pari a 24.
La trimmed mean al 50% è ottenuta escludendo i due valori più piccoli e i due
più grandi ed il risultato rappresenta meglio i dati osservati.
5+6+8+8
= 6,75
4
La trimmed mean al 75% esclude invece il 25% dei dati; in questo caso, il
valore minimo e quello massimo della distribuzione, risultando pari a 6,83.
26