Non mi fido molto delle statistiche, perch
un uomo con la testa nel forno acceso e i
piedi nel congelatore statisticamente ha una
temperatura media.
attr. a Charles Bukowski
Cose la Statistica?
La
statistica
una scienza che studia
quantitativamente i fenomeni collettivi di
qualche interesse in un determinato ambito.
Due statistiche
Lintera collettivit oggetto di studio si chiama
popolazione o universo. La statistica che descrive
landamento di fenomeni riguardanti tutto linsieme
definita statistica descrittiva.
Se invece si prende in considerazione una parte
(detta campione) della popolazione e da essa si
intuiscono gli altri valori, si parla di statistica
inferenziale.
Indagine statistica
Si chiama indagine statistica lanalisi di fenomeni
collettivi eseguita secondo criteri statistici. Se eseguita
sullintera popolazione si parla in genere di
censimento; se prende in esame solo una parte (detta
campione), si definisce rilevazione campionaria.
La propriet che si vuole misurare o enumerare detta
carattere. Esso :
quantitativo (variabile statistica), se le varianti con
cui si presenta sono numeri o misure (detti valori)
qualitativo (mutabile), se le varianti con cui si
presenta sono qualit (dette modalit)
I passi di unindagine statistica
1. Analisi del problema
2. Definizione degli obiettivi dellindagine
3. Rilevazione (autocompilazione o intervista),
spoglio e classificazione dei dati
4. Elaborazione dei dati e presentazione sintetica dei
risultati con grafici e tabelle
5. Interpretazione dei risultati
Frequenze
Ogni studio statistico ha a che fare con un numero pi
o meno ampio di dati: la loro classificazione
fondamentale per rendere pi agevole e preciso il
lavoro di elaborazione e interpretazione. Lutilizzo di
indici numerici per indicare la frequenza con cui una
modalit (caratt. qualitativo) ritorna nellindagine ha
proprio questa specifica funzione.
La frequenza assoluta indica il numero di volte in cui
una modalit ricorre.
La frequenza relativa il rapporto fra la frequenza
assoluta e il numero totale di rilevazioni (spesso
indicata in percentuale).
Brand dei cellulari nella II B
Freq. assoluta
Freq. relativa
Apple
4,76%
LG
4,76%
Nokia
13
61,90%
Samsung
28,57%
TOTALE
21
100,00%
Classi
Nella classificazione invece di caratteri quantitativi, pu
essere necessario raggruppare le frequenze in classi (o
intervalli) fra due valori, detti limiti (inferiore e
superiore), in modo da semplificare la lettura delle
tabelle e lelaborazione, ammettendo una piccola
perdita in precisione.
Lavorando con dati raggruppati per classi possibile
anche utilizzare la frequenza cumulata (relativa o
assoluta), che equivale alla somma della frequenza della
classe stessa con tutte quelle che precedono.
Gli amici di Facebook nella II B
Classi
Freq. assoluta
Freq. relativa
Freq. cumul.
assoluta
Freq. cumul.
relativa
0-100
0%
0%
101-200
22%
22%
201-300
11%
33%
301-400
33%
12
67%
401-500
17%
15
83%
501-600
11%
17
94%
601-700
6%
18
100%
TOTALE
18*
100%
*18 sono le persone iscritte a Facebook
Istogramma per classi
Mesi di nascita nella II B
Frequenza
4
3
2
1
0
Istogramma in pila
Finalita dellutilizzo del computer nella II B
Tempo in minuti
250
200
150
Altro
Facebook
100
50
0
Studenti II B
Istogramma in pila in %
Finalita dellutilizzo del PC nella II B
Tempo in minuti
100%
80%
Altro
Facebook
60%
40%
20%
0%
Studenti II B
Areogramma (diag. a torta)
Brand dei cellulari nella II B
1; 5%
1; 4%
1; 5%
6; 27%
Apple
LG
Nokia
Samsung
Sony-Ericsson
13; 59%
Diagramma a linee (cartesiano)
Libri pubblicati e stampati in Italia
350.000
300.000
250.000
200.000
Opere pubblicate
150.000
Tiratura complessiva
(in migliaia di copie)
100.000
50.000
[Dati Istat]
1985
1990
1995
2000 2005
Ideogramma
Generi di TV frequentati nella II B
Rai
Alice TV
Mediaset
11
13
DTV
8
Premium
Satellite
14
SKY
12
Diagrammma a radar
I quadri orari settimanali del Sarpi
40
IV
30
20
III
10
Materie
Ore
Ore2
II
[Dati Liceo Sarpi]
(Ore=curv.
scientifica vecchio
ordinamento;
ore2=nuovo ord.)
Cartogramma a colori
Luoghi di produzione delle scarpe della II B
Cina
Vietnam
Indonesia
Italia
Cartogramma deformante
Distribuzione della popolazione mondiale
[WorldMapper]
Moda
Mediana
Media
Moda
In statistica, la moda o norma della
distribuzione di frequenza X la modalit
(o la classe di modalit) caratterizzata
dalla massima frequenza e viene spesso
rappresentata con la simbologia 0. In
altre parole, il valore che compare pi
frequentemente.
Nel caso ci siano pi valori pari si parla
di distribuzione bimodale, trimodale ecc.
Mediana
La mediana il valore centrale mettendo
una serie di valori in ordine crescente, in
caso di valori uguali al centro si calcola
come media matematica dei due valori
centrali.
Ha il pregio di non essere particolarmente
influenzata da numeri particolarmente
diversi dagli altri, che sono per esclusi e
influenzano invece la media aritmetica.
Una proprieta della mediana
Consideriamo la somma delle differenze in valore
assoluto fra ogni valore e la mediana. Questa somma
minore di quella che otterremmo utilizzando, invece della
mediana, qualsiasi altro valore tra i dati raccolti.
Esempio: unimpresa deve rifornire sei supermercati lungo
una strada la cui distanza dal capoluogo
rispettivamente:
3 6 13 19 22 25
Limpresa vuole costruire un magazzino in posizione
centrale, cosicch sia minima la somma delle sue distanze
dai supermercati.
Si trova con la mediana ((13+19)/2=16), infatti la
seguente somma la minima possibile:
|3-16|+ |6-16| + |13-16| + |19-16| + |22-16| + |25-16|
= 44
Premessa alle medie: sommatoria e
produttoria
Media aritmetica
Dati 5 numeri: 2, 5, 6, 7, 9, la loro
media data da:
Media aritmetica ponderata
Supponiamo di avere una serie di valori (x1,x2,...,xn) e
supponiamo di conoscere con quale frequenza si ripete
ognuno di essi (f1,f2,...,fn): nella media ponderata
(pesata), i singoli valori, prima di essere sommati vengono
moltiplicati con il peso (ponderazione) a loro assegnato. Il
peso di ciascun valore in genere rappresentato dal
numero di volte in cui i valori figurano (frequenza), ma
pu significare anche l'importanza (oggettiva o soggettiva)
che il singolo valore riveste nella distribuzione. La
divisione di conseguenza non viene fatta con il numero di
valori, ma con la somma dei pesi.
Esempio: i CFU universitari, supponiamo di avere
superato un esame da 3 crediti con 30, uno da 2 con 27 e
uno da 4 con 29. La media sar:
Media geometrica
La media geometrica, basandosi su prodotti e
non su somme, risente di meno della presenza
di termini "estremi", ovvero lontani dal gruppo.
Ad esempio data la distribuzione: 10, 9, 11, 14,
97 la media aritmetica (28,2) risente della
presenza di quel 97 cos alto, mentre la
geometrica (16,8) da un risultato pi vicino a
quella che potrebbe essere la moda. Diciamo
che la media geometrica fa s che eventuali
picchi anomali nella distribuzione non ne
condizionino l'analisi.
Media geometrica
Essa ha un chiaro significato geometrico: ad esempio la
media geometrica di due numeri la lunghezza del lato di
un quadrato equivalente ad un rettangolo che abbia i lati
di modulo pari ai due numeri. Lo stesso vale in un
numero di dimensioni superiore.
La media geometrica trova impiego soprattutto dove i
valori considerati vengono per loro natura moltiplicati tra
di loro e non sommati. Esempio tipico sono i tassi di
crescita, come i tassi d'interesse o i tassi d'inflazione.
Una caratteristica che valori piccoli (rispetto alla media
aritmetica) sono molto pi influenti dei valori grandi. In
particolare, sufficiente la presenza di un unico valore
nullo per annullare la media.
La media geometrica
Media quadratica
La media quadratica quella che viene
maggiormente influenzata dai valori
molto piccoli e molto grandi della
distribuzione e quindi viene usata per
evidenziare i valori che si discostano
molto dai valori centrali.
Essa altres usata per quei casi in cui i
valori sono elevati al quadrato.
Media quadratica
Media armonica
Giorno
Tempo
impiegato
Velocit
media
Luned
30
28
Marted
20
42
Mercoled
24
35
Gioved
21
40
Venerd
35
24
Si riporta il tempo impiegato
da un dipendente che
percorre 14 chilometri da
casa al posto di lavoro e la
velocit media.
Per determinare la velocit
media usiamo la media
armonica, in quanto si tratta
di una media di un rapporto:
La media armonica fortemente influenzata dagli elementi di modulo
minore: rispetto alla media aritmetica risente meno dell'influenza di outlier
(valori anomali) grandi, ma influenzata notevolmente dagli outlier piccoli.
La scelta della media
La media aritmetica rappresenta globalmente i dati e si pu
sostituire ad essi senza mutare il significato generale, ma va unita a
moda e mediana.
La mediana ha la caratteristica di non essere influenzata dai valori
particolarmente differenti.
La moda indica il valore che pi spesso si verifica effettivamente.
La media geometrica ha un valore tendenzialmente simile alla
mediana, ed utilizzata per analizzare fenomeni che variano nel
tempo.
La media armonica utile per calcolare valori medi che nascono
dal rapporto di altri dati
La media quadratica permette di tener contro di valori
particolarmente distanti dai centrali
Campo di variazione
Scarto semplice medio
Scarto quadratico medio
Coefficiente di variazione
Gli indici di variabilita
Il campo di variazione
Lo scarto semplice medio
Lo scarto quadratico medio (deviazione standard)
Il coefficiente di variazione
Permette di confrontare due fenomeni,
anche differenti per unit di misura.
Esempio:
Fenomeno
Media
Stipendi
1070
348
32,5 %
Et
38 anni
10 anni
26,3 %
Uso e caratteristiche
Come nasce la Curva di Gauss
Se analizziamo la distribuzione di un campione di persone che
seguono un certo programma televisivo per decadi di et,
potremmo otteniamo un grafico come quello a sinistra
Si tratta di una curva dalla classica forma a campana che ha un
massimo attorno alla media dei valori misurati e pu essere pi o
meno stretta a seconda della deviazione standard (dispersione)
La distribuzione di Gauss spesso detta normale. L'aggettivo
significativo perch indica che moltissimi fenomeni possono essere
descritti da una curva gaussiana, o essere Gauss-like: hanno una
distribuzione normale le stature, i pesi, le misure toraciche delle
persone, i valori ottenuti con misurazioni ripetute di una stessa
grandezza (se esse sono soggette solo ad errori accidentali), i valori
dei pezzi lavorati dalle macchine (soggetti ad errori di lavorazione
e di misurazione).
Nelle distribuzioni normali media aritmetica, moda e mediana
coincidono nel valore M, calcolabile, nel quale la curva raggiunge il
suo valore massimo
Supponiamo di considerare l'altezza degli italiani maschi.
Analizziamo un campione di 1.000 soggetti. Probabilmente
otterremmo una curva a campana, centrata attorno a una media,
del tipo 174 cm di media con una "deviazione standard" di circa 20
cm, cio il 95% dei soggetti analizzati sarebbe compreso fra 154 cm
e 194 cm.
Come nasce
Prendendo in
considerazione un grafico
che rappresenti le
frequenze, pi aumenta il
numero di misurazioni,
pi questo si avviciner
ad una forma a campana
(detta curva di Gauss)
che si pu calcolare con
la seguente equazione:
Distribuzione normale
I risultati rispetteranno le frequenze
indicate in figura, se la misurazione
stata effettuata correttamente.
Ad esempio, se tra 1000 persone si
osserva un peso medio di 73 Kg con
uno scarto quadratico medio di 5 Kg,
si pu affermare che circa 683
persone hanno un peso compreso fra
68 e 78 Kg, e circa 954 persone
hanno un peso compreso tra 63 Kg e
83 Kg.
Cos, se le lampadine prodotte da
una ditta hanno una durata media di
900 ore con uno scarto quadratico
medio di 30 ore, si pu affermare
che il 68,27% delle lampadine avr
una durata compresa fra 870 ore e
930 ore, e la quasi totalit delle
lampadine (il 99,73%) avr una
durata compresa fra 810 e 990 ore.
La curva normale standardizzata
Con il calcolo integrale si ottiene:
Minimi quadrati
Uso peculiare della curva di Gauss
Il problema dellerrore
Nelle misurazioni sempre possibile fare errori
sistematici (che per si possono correggere
facilmente una volta compresi) ed errori
accidentali, che hanno sempre interessato gli
statisti, specie poich molto comuni nelle raccolte
di dati e determinanti per la credibilit sia delle
statistiche che delle previsioni.
In particolare nascono due domande correlate:
Come si correggono gli errori accidentali?
[esigenza pratica]
Come si distribuiscono gli errori accidentali?
[esigenza puramente scientifica]
Come si correggono
La correzione degli errori si basa sul
principio secondo cui la media aritmetica
di molteplici misure discordanti di
ununica grandezza fornisce la valutazione
pi plausibile della grandezza e si
identificherebbe con essa se il numero
delle misure fosse infinitamente grande
(principio di Legendre)
Base numerica: il principio dei minimi
quadrati.
Come si distribuiscono: Gauss
Supponiamo ora di effettuare tante misurazioni di una stessa
grandezza con uno strumento; avremo risultati differenti,
dovuti all'inevitabile imprecisione del nostro strumento e del
nostro operato, che sono detti errori accidentali.
Se rappresentiamo le misure ottenute su un grafico, se il numero
di misurazioni molto grande, al limite infinito, la curva che
otterremo proprio la curva di Gauss.
In una popolazione la distribuzione dei dati assume una
distribuzione simmetrica. Se molto piccolo (e dunque lo lo
scarto dalla media) i dati sono molto concentrati rispetto alla
media stessa, dunque tanto pi precisi sono i dati.
Pendolo
Cose il calcolo combinatorio?
Ci sono determinate situazioni in cui pu essere
necessario valutare quanti raggruppamenti siano
possibili partendo da un numero di oggetti.
Un esempio: nel gioco del Superenalotto si deve
indovinare una serie di sei numeri compresi fra 1 e 90.
Si pu sapere quante sono tutte le sestine possibili e
quindi quanti soldi sono necessari per giocarle tutte?
Proprio di questo si occupa il calcolo combinatorio:
studia i modi per raggruppare e/o ordinare gli elementi
di un insieme definito.
Disposizione semplice
Si dice disposizione semplice di n oggetti di classe k ogni
allineamento di k oggetti scelti fra gli n, dove lordine
degli elementi ha importanza (es. 4-3-2 diverso da 34-2)
Dn,k n
n 1 n 2...n k 1
k..elementi
Ad esempio: nel nostro giardino vogliamo
piantare 3 piante da frutto e abbiamo a disposizione
4 diversi tipi (A,B,C,D). In quanti modi li possiamo
disporre?
B
A
B
C
C
D
D
D
C
D
D
D
A
C
B
D
D
D
A
B
B
C
C
C
Questo stesso risultato si pu ottenere con la formula
della diapositiva precedente:
D4,3 4 4 1 4 3 1 4 3 2 24
Disposizione con ripetizioni
Pu essere necessario calcolare il numero possibile di
disposizioni, nelle quali sia contemplata anche
uneventuale ripetizione degli elementi. Con un insieme
di n elementi diversi da raggruppare in disposizioni da k
elementi ciascuna:
r
n,k
Un interessante esempio ci viene dalla decifrazione del
codice genetico: gli scienziati agli inizi del XX secolo
ormai sapevano che i geni si trovavano sul DNA e le
informazioni erano codificate dalle 4 diverse tipologie
di nucleotidi (A,G,C,T); inoltre erano propensi a
credere che lespressione del messaggio genetico
avvenisse secondo la relazione un gene-una proteina. Si
sapeva che le unit base delle proteine erano i 20
amminoacidi. Ma come potevano 4 soli nucleotidi
codificare per ben 20 amminoacidi? Evidentemente era
possibile che un gruppo di nucleotidi (anche con
ripetizioni) codificasse per un singolo amminoacido.
Ma quanti elementi per gruppo?
D4r ,2 4 2 16 no
D4r ,3 43 64 si, ogni amminoacido codificato da una tripletta
Permutazioni
Le permutazioni sono disposizioni semplici particolari in
cui n=k. In tal senso da un insieme di n elementi si
formeranno gruppi di n elementi che differiscono solo
per lordine.
Dn,n n n 1 n 2... n k 1 n n 1 n 2... n n 1
Pn n n 1 n 2... 3 2 1
Il prodotto di un numero n con tutti i numeri interi che
lo precedono escluso lo zero si chiama fattoriale e si
indica con n!
Ad esempio: 5 persone hanno a disposizione 5 poltrone
per sedersi. Se vogliamo sapere il numero delle possibili
combinazioni, basta calcolare 5! (cinque fattoriale).
Pn n! n n 1 n 2... 3 2 1
P5 5! 5 4 3 2 1 120
Permutazioni con ripetizioni
Esistono dei casi particolari di permutazione in cui i
diversi allineamenti possono presentare ripetizioni del
medesimo elemento. In una permutazione con
ripetizioni, se i diversi raggruppamenti sono formati da
n elementi non distinti e:
il primo ripetuto r1 volte
il secondo r2 volte
ln-esimo rn volte
allora:
r1 ,r2 ...rn
Pn
n!
r1!r2 !... rn
Ad esempio: vogliamo calcolare con precisione il
numero di anagrammi possibili (anche senza significato)
della parola tovaglia. Sono 8 elementi con la ripetizione
della a (2 volte).
r
P8,2
8!
20160
2!
Combinazione semplice
Le combinazioni, a differenza delle disposizioni, sono
allineamenti di k elementi presi da un insieme di n
elementi, senza considerare lordine con cui vengono
disposti. Cos una combinazione semplice di n oggetti di
classe k:
Dn,k n n 1 n 2... n k 1
Cn,k
k!
k!
Un esempio: nel gioco della tombola, quante sono le
cinquine che si possono fare? Le cinquine non possono
differire tra loro solo per lordine, ma almeno per un
numero: quindi il risultato dato dalle combinazioni
semplici di classe 5 dallinsieme dei 90 numeri.
Cn,k
n n 1 n 2 ... n k 1
k!
C90,5
90 89 88 87 86
43949268
5 4 3 21
Combinazione con ripetizioni
Analogamente alle disposizioni, che si dividono in
semplici e con ripetizioni, cos anche le combinazioni,
oltre a quelle semplici, possono contemplare anche
leventualit delle ripetizioni. Le combinazioni con
ripetizioni di n elementi di classe k si risolvono:
r
n,k
n n 1 n 2 ... n k 1
k!
Un esempio:
Quanti modi ci sono di distribuire a 2 bambini distinguibili 4
caramelle indistinguibili, contando anche i casi in cui uno dei
bambini non riceve nessuna caramella?
r
n 2, k 4
(2 4 1)!
5
4!
Infatti sono: 0-4, 1-3, 2-2, 3-1, 4-0.
Equivalentemente,
le
combinazioni
con
ripetizioni
informano sul numero di possibili n-ple di addendi non
negativi la cui somma sia k (considerando diverse n-ple in cui
eguali addendi compaiano in ordine differente); nel suddetto
esempio, sono mostrate le cinque diverse duple di somma 4.
La teoria delle probabilit in fondo
soltanto senso comune ridotto a
calcolo.
Pierre Simon Laplace
Dal certo alla non determinazione
Quando Galileo Galilei nel XVII secolo inizi a
comprendere lutilit della matematica applicata alle
scienze sperimentali, essa cominci un percorso di
unione della certezza dei suoi nessi con la probabilit
dellesperienza. Molti problemi reali, infatti, erano
tanto complessi che lutilizzo degli strumenti classici si
rese impossibile. Alla matematica del certo, cos, si
imposero i
modelli non deterministici, che, con
strumenti matematici, lavorano in contesti dove la
parzialit delle conoscenze o la complessit dei
problemi non assicurano piena certezza ai risultati.
Termini di base
Evento aleatorio loggetto del calcolo delle
probabilit (ad es. il lancio di un dado).
Esperimento aleatorio un esperimento dallesito
imprevedibile (ad es. lanciare il dado e leggerne la
faccia superiore).
Spazio campionario la totalit di tutti i possibili esiti di
un esperimento aleatorio (ad es. {1-2-3-4-5-6} per il
lancio del dado) e si indica con .
Punto campionario un singolo esito di un esperimento
aleatorio (ad es. {1} per il lancio del dado).
Eventi
Levento elementare costituito da un singolo punto campionario
(ad es. esce {1} lanciando un dado).
Levento composto un evento non elementare (ad es. esce prima
{1}, poi {2} nel lancio del dado).
Levento impossibile non si pu mai verificare (ad es. che esca {-3});
levento certo quello che coincide con (che esca un numero
compreso fra 1 e 6).
Levento unione AB quello che si realizza quando si realizza o A
o B o entrambi.
Levento intersezione AB quello che si realizza se si realizzano sia
A sia B.
Levento contrario di A quello che si realizza se non si realizza A e
che unito a questo coincide con .
Due eventi sono incompatibili se il realizzarsi delluno esclude il
realizzarsi dellaltro e la loro intersezione impossibile.
La probabilita
Lo scopo del calcolo delle probabilit di attribuire un
grado di aspettativa (un numero) ad un evento.
La probabilit di un evento E quel numero che
rappresenta la fiducia che attribuiamo al fatto che E si
verifichi.
Definizione classica
La probabilit di un evento aleatorio uguale al
rapporto tra il numero dei casi favorevoli e il numero
dei casi ugualmente possibili.
Un esempio: qual la probabilit che, estraendo una
carta da un mazzo di 52 carte, ne esca una di cuori che
non sia lasso? I casi favorevoli sono 12 (13 meno lasso)
mentre i possibili 52.
12
p
0,231
52
Definizione frequentista
Nel caso di molti eventi aleatori non possibile usare la
definizione classica o perch ignoto il numero di casi
favorevoli o possibili, o perch i casi possibili non sono
possibili alla medesima maniera. In tal caso si preferisce
assumere come probabilit empirica di un evento la sua
frequenza relativa. Naturalmente, rispetto al calcolo
teorico offerto dalla def. classica, la definizione
frequentista si riferisce sempre a rilievi e indagini fatte
nel passato, che possono non conservare il medesimo
valore nellattualit.
Definizione soggettiva
A volte, nella quotidianit, pu capitare di fare
riferimento al concetto di probabilit riferendosi a
determinati eventi, quali possono ad es. essere attivit
agonistiche o situazioni meteorologiche. In un caso
come: Sono sicuro al 90%, non si pu parlare di
probabilit matematica, perch non c davvero uno
studio precedente che dia allaffermazione un valore
necessario; piuttosto si potrebbe parlare di grado di
fiducia che si attribuisce al verificarsi di un determinato
evento dopo aver coerentemente preso in esame tutte
le informazioni a disposizione, anche senza osservazioni
statistiche o calcoli di casi favorevoli e possibili.
La legge dei grandi numeri
Sia la probabilit frequentista sia quella soggettiva si
basano su osservazioni statistiche pi o meno accurate e
precise che si basano su una legge che fonda di fatto la
probabilit: in una serie di prove ripetute, un evento si
manifesta con una frequenza relativa che, al crescere del
numero delle prove, tende ad avvicinarsi al valore
teorico della probabilit, desumibile dalla definizione
classica.
proprio questa legge a creare un collegamento fra
probabilit classica ed empirica, e fra queste e la
statistica.
Certezza e probabilita:
unapplicazione
Per poter determinare con
precisione la posizione e la
velocit (e quindi l'energia) di un
corpo in movimento necessario
che noi non modifichiamo con la
nostra osservazione il fenomeno
che vogliamo studiare.
Bibliografia
Wikipedia
Statistica descrittiva, Bergamini-Trifone-Barozzi
Argomenti di statistica descrittiva, Giancarlo
Bettuzzi
Dispense di probabilit, Dario Palladino
Nozioni introduttive al calcolo della
probabilit, Giampietro Betti
Matematica a colori, Sebastiano Nicosia
Altri materiali vari