Il 0% ha trovato utile questo documento (0 voti)
79 visualizzazioni4 pagine

Box Plot

Caricato da

Giovanni
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
79 visualizzazioni4 pagine

Box Plot

Caricato da

Giovanni
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd

BOX PLOT

Tukey J.W., Exploratory Data Analysis


Addison-Wesley, Reading, Massachusetts,USA, 1977

È un metodo per rappresentare una distribuzione statistica nel modo che segue:

La linea interna alla scatola rappresenta la Mediana della distribuzione.


Le linee estreme della scatola rappresentano il primo ed il terzo quartile.
La distanza tra il terzo ed il primo quartile, Distanza interquartilica, è una misura della dispersione
della distribuzione. Il 50% delle osservazioni si trovano comprese tra questi due valori. Se
l'intervallo interquartilico è piccolo, tale metà delle osservazioni si trova fortemente concentrata
intorno alla mediana; all'aumentare della distanza interquartilica aumenta la dispersione del 50%
delle osservazioni centrali intorno alla mediana.
Le distanze tra ciascun quartile e la mediana forniscono informazioni relativamente alla forma
della distribuzione. Se una distanza è diversa dall'altra allora la distribuzione è asimmetrica.
Le linee che si allungano dai bordi della scatola (Baffi) individuano gli intervalli in cui sono
posizionati i valori rispettivamente minori di Q 1 e maggiori di Q3; i punti estremi dei "baffi"
evidenziano i valori adiacenti.
Se si indica con r = (Q3-Q1) la differenza interquartilica, il valore adiacente inferiore (VAI) è il valore
più piccolo tra le osservazioni che risulta maggiore o uguale a Q1-1,5r.
Il valore adiacente superiore (VAS), invece, è il valore più grande tra le osservazioni che risulta
minore o uguale a Q3+1,5r. Pertanto se gli estremi della distribuzione sono contenuti tra Q 1-1,5r e
Q3+1,5r essi coincideranno con gli estremi dei "baffi", altrimenti come estremi verranno usati i
valori Q1-1,5r e Q3+1,5r.
I valori esterni a questi limiti (esterni rispetto ai valori adiacenti, chiamati in genere valori
anomali), vengono segnalati individualmente nel box-plot per meglio evidenziarne la presenza e la
posizione. Questi valori infatti costituiscono una "anomalia" rispetto alla maggior parte dei valori
osservati e pertanto è necessario identificarli per poterne analizzare le caratteristiche e le
eventuali cause che li hanno determinati. Essi forniscono informazioni ulteriori sulla dispersione e
sulla forma della distribuzione.
Quando i valori adiacenti, superiore e inferiore, coincidono con gli estremi della distribuzione non
comparirà alcun valore fuori limite.
I valori adiacenti inferiore e superiore forniscono informazioni sulla dispersione e sulla forma della
distribuzione ed anche sulle code della distribuzione.
(Da: William S. Cleveland, Visualizing Data. At & T Bell Laboratories, Murray Hill, New Jersey,1993)

Nel caso di una distribuzione normale, nel box-plot le distanze tra ciascun quartile e la mediana
saranno uguali, così pure avranno uguale lunghezza le linee che si allungano dai bordi della scatola
(baffi), che arriveranno fino a
[Me-2,69796 s ] e [M e +2,69796 s ] e tale intervallo racchiuderà il 99,30% delle osservazioni.

Diagramma a scatola e baffi


Da Wikipedia, l'enciclopedia libera.

In statistica il diagramma a scatola e baffi (o diagramma degli estremi e dei quartili[1] o box and
whiskers plot o box-plot) è una rappresentazione grafica utilizzata per descrivere la distribuzione
di un campione tramite semplici indici di dispersione e di posizione.

Rappresentazione
Viene rappresentato (orientato orizzontalmente o verticalmente) tramite un rettangolo diviso in
due parti, da cui escono due segmenti. Il rettangolo (la "scatola") è delimitato dal primo e dal terzo
quartile,[2] q1/4 e q3/4, e diviso al suo interno dalla mediana, q1/2. I segmenti (i "baffi") sono
delimitati dal minimo e dal massimo dei valori.
In questo modo vengono rappresentati graficamente i quattro intervalli ugualmente popolati
delimitati dai quartili.
Come Fare un Box Plot

Un box-plot (o diagramma a scatola, chiamato anche diagramma a scatola e baffi) è un diagramma


che descrive una distribuzione statistica ed è semplice da fare.

Passaggi
1
Raccogli i tuoi dati. Prendiamo come dati i numeri 1, 2, 3, 4 e 5: li useremo per fare degli esempi di
calcolo.

2
Organizza i dati in ordine crescente (un grafico a frequenza cumulata rende più facile il lavoro sui
dati, ma non è essenziale). Nel nostro caso, rimaniamo comunque con 1, 2, 3, 4 e 5.

3
Individua la mediana, cioè il numero che si trova al centro della popolazione dei dati. Per l’insieme
di dati del nostro esempio, 3 è il numero che si trova esattamente nel mezzo e quindi è la nostra
mediana. La mediana è anche chiamata secondo quartile.
In un set di dati con un numero dispari di numeri, la mediana avrà sempre la stessa quantità di
numeri su entrambe le parti. Per i dati 1, 2, 3, 4, 5 , la mediana, 3, ha due numeri prima e due
dopo. Ecco come possiamo essere sicuri che sia la nostra mediana.
Stai lavorando con un insieme costituito da un numero pari di elementi? Che cosa succede se si
deve trovare la mediana del gruppo 2, 4, 4, 7, 9, 10, 14, 15? Trovi la mediana prendendo i due
numeri centrali e calcolando la loro media. Nel nostro esempio, prendiamo 7 e 9 — i due numeri
posti a metà — li sommiamo e li dividiamo per 2. 7 + 9 fa 16 e 16 diviso 2 è uguale a 8. La mediana
di questo set di dati è 8.

4
Trova il primo e il terzo quartile. Abbiamo già trovato il secondo quartile del set di dati, che è la
nostra mediana. Ora abbiamo bisogno di trovare la mediana della metà inferiore dell’insieme dei
dati; nel nostro esempio sarebbe la mediana dei due numeri alla 'sinistra' di 3. La mediana di 1 e 2
è (1 + 2) / 2 = 1,5. Fai lo stesso calcolo per trovare la mediana dei due numeri a ‘destra' di 3. (4 + 5)
/ 2 = 4,5.

5
Disegna una retta per il diagramma. Dovrebbe essere abbastanza lunga da contenere tutti i dati e
qualcuno in più su entrambi i lati. Assicurati di inserire i numeri a intervalli regolari. Se hai a che
fare con dei decimali, come 4,5 e 1,5, assicurati di inserire anche loro.

6
Marca il primo, secondo e terzo quartile sulla linea del diagramma. Prendi i valori di questi quartili
e posizionali lungo la retta. Il segno dovrebbe essere una linea verticale in corrispondenza di ogni
quartile, iniziando appena sopra la retta del diagramma.

7
Crea un rettangolo tracciando delle linee orizzontali che collegano i quartili. Collega la parte
superiore del primo quartile con quella del terzo, passando per il secondo quartile.
8
Evidenzia gli outlier, cioè gli estremi. Questi sono i dati più grande e più piccolo assoluti ed
andrebbero evidenziati con un punto (o una piccola linea verticale) più o meno all'altezza del
centro della scatola. Nel nostro caso, l'estremo inferiore è 1 e quello superiore è 5.

9
Collega i tuoi outlier alla scatola con un segmentino (cioè il "baffo").

10
Finito. Controlla il diagramma a baffi per visualizzare la distribuzione dei numeri in qualsiasi
insieme di dati. Puoi facilmente vedere, ad esempio, se i numeri dell’insieme cadono
maggiormente nel quartile superiore guardando le dimensioni della scatola superiore, così come la
dimensione del baffo relativo. Il diagramma a baffi è un’ottima alternativa a barre e istogrammi.[1]

Potrebbero piacerti anche