Il 0% ha trovato utile questo documento (0 voti)
64 visualizzazioni22 pagine

Statistica Parte 1

Caricato da

nbtt9wh4dc
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
64 visualizzazioni22 pagine

Statistica Parte 1

Caricato da

nbtt9wh4dc
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd

CAPITOLO 1 INTRODUZIONE E RACCOLTA DATI

1.1 Definire le variabili


La Statistica è la scienza che si occupa della trattazione dei dati rilevati su fenomeni misurabili allo
scopo di
1. rappresentare e sintetizzare i fenomeni di interesse= statistica descrittiva
2. prendere delle decisioni in merito ad ipotesi di interesse= statistica inferenziale

Concetti di base
1. Popolazione: una popolazione è l'insieme di tutti gli Campione: elementi che si è interessati
ad analizzare (iscritti ad una certa università, utenti di un certo servizio, produzione di un
dato stabilimento/linea di produzione)
2. Variabili: le variabili sono caratteristiche misurabili degli individui (sesso, livello di istruzione,
tempo per recarsi al lavoro) o degli oggetti (difettosità di un circuito elettrico, livello di
purezza di un diamante grezzo, diametro di un pistone)
3. Campione: parte o porzione della popolazione selezionata per condurre le analisi
4. Parametro: un parametro è una misura di sintesi che descrive una caratteristica dell’intera
popolazione
5. Statistica: una statistica è una misura di sintesi che descrive una caratteristica del campione

Fasi di un'analisi statistica


1. Definizione degli obiettivi della ricerca
2. Rilevazione dei dati
3. Elaborazione metodologica
4. Presentazione ed interpretazione dei risultati
5. Utilizzazione dei risultati della ricerca

1. Definizione degli obiettivi della ricerca


Gli obiettivi devono essere particolareggiati sino ad individuare con cura le informazioni da
ricercare, evitando equivoci definitori, circoscrivendo con esattezza il territorio ed il periodo
di indagine, fornendo soluzioni alternative nel caso di mancate o errate risposte.
2. La rilevazione dei dati
Nella quasi totalità dei casi i dati sono relativi a campioni estratti da una popolazione di
interesse in modo tale da essere il più possibile rappresentativi della popolazione stessa.
Molti sono i casi in cui si rende necessario raccogliere i dati:
Le fonti dei dati
L'identificazione della fonte dei dati più opportuna è il primo problema da affrontare in una
analisi statistica ed è per questo un aspetto fondamentale e critico. Le quattro principali
fonti dei dati sono:
• dati pubblicitari o distribuiti da organizzazioni pubbliche (Istat, Banca d'Italia) o
private (associazioni delle categorie produttive, ad esempio Confindustria)
• esperimenti industriali (esempio: studio dell'efficacia di un sapone per bucato)
• sondaggi (studio sulle opinioni, preferenze, attitudini di una popolazione target di
interesse)
• studi sul campo (in ambito aziendale: focus group, brainstorming)
3. Elaborazione metodologica
Applicazione di schemi formali di tipo logico-deduttivo ed inferenziale induttivo: strumenti
propri dell'analisi statistica
4. Presentazione ed interpretazione dei risultati
Lo statistico deve porre particolare cura nella presentazione dei risultati sotto forma di tabelle,
grafici, diagrammi di relazioni, rapporti sintetici e nell'esame delle implicazioni operative dei
medesimi.
5. Utilizzazione dei risultati di una ricerca
Lo statistico contribuisce ad una corretta utilizzazione dei risultati di un'indagine scientifica,
circoscrivendo l'ambito interpretativo e richiamando i vincoli entro cui essa assume validità.

Tipi di variabili
Gli statistici classificano le variabili in:
• variabili quantitative (o numeriche o cardinali), che assumono valori che indicano una
quantità misurata,
• variabili qualitative (o categoriche o categoriali), che danno luogo a risposte che possono
essere ricondotte a categorie qualitative o non numeriche 1.
È importante classificare correttamente le variabili utilizzate, perché i metodi statistici che possono
venire utilizzati variano a seconda del tipo di variabili a disposizione.
Il testo esplora la classificazione delle variabili in statistica, suddividendole in due principali
categorie: variabili quantitative e variabili qualitative.
1. Variabili quantitative:
• Discreta: Assume valori numerici interi derivanti da processi di conteggio. Esempi: il
numero di prodotti acquistati o il numero di multe ricevute. Queste variabili sono
sempre espresse con numeri interi, come il numero di riviste a cui ci si è abbonati.
• Continua: Assume valori numerici che derivano da misurazioni e dipendono dalla
precisione degli strumenti usati. Esempi: il tempo trascorso in coda alla cassa o la
distanza tra casa e supermercato. Le variabili continue possono assumere qualsiasi
valore all'interno di un intervallo, come 2 minuti, 2.1 minuti, 2.14 minuti, ecc., a
seconda della precisione dello strumento di misurazione.
2. Variabili qualitative:
• Ordinali: Rappresentano categorie con un ordine implicito, ma non numerico. Esempi:
la classificazione degli studenti per anno scolastico (freshman, sophomore, junior,
senior), le valutazioni di un albergo o ristorante (pessimo, sufficiente, buono, ecc.), o i
giudizi scolastici (insufficiente, sufficiente, buono, ecc.).
• Nominali: Rappresentano categorie senza un ordine naturale. Esempi: risposte come
“sì” o “no” a domande del tipo "Hai un account Instagram?", il colore dei capelli, il
rapper preferito, o l'università frequentata. Non c'è un ordine implicito tra queste
categorie.

È fondamentale classificare correttamente le variabili, poiché i metodi statistici utilizzati dipendono


dal tipo di variabili disponibili. Inoltre, quando si definiscono variabili categoriche, è importante
includere la lista dei valori permessi e fornire una definizione chiara per ciascun valore, per evitare
confusione nei dati raccolti. Un esempio di errore comune è il caso di una domanda sulla variabile
"sesso", dove le risposte potrebbero essere confuse se non vengono definite chiaramente le
categorie (ad esempio, maschio o femmina).
Infine, nella progettazione di sondaggi o nella definizione di variabili, è utile pensare alle risposte
che si vogliono ottenere, come nel caso dell’età, che può essere trattata come una variabile
numerica (discreta o continua) oppure come una variabile qualitativa ordinale (es. bambino,
giovane, adulto, anziano), a seconda del contesto.
1.2 Dati
Natura:
1. Qualitativi= non numerici/categorici
2. Quantitativi= numerici continui/discreti
3. Tempo di rilevazione:
a. Serie storiche= raccolti nel corso del tempo
b. Cross section= i dati si riferiscono ad un dato momento
4. Scala di misura= essa può essere:
a. Nominale= espressa in nomi o etichette
b. Ordinale= ordine crescente o decrescente, ma non conosco la distanza tra un livello e
il successivo, per esempio il customer satisfaction
c. Intervallare= distanza tra valori successivi, per esempio la temperatura di Roma o
Firenze
d. Rapporto= tutte le proprietà della scala intervallare più il riferimento “o/ naturale”

Fonte:
1. Primaria
2. Secondaria
3. Dimensione della fonte:
a. Censimento= su tutta la popolazione
b. Indagine campionaria=parte della popolazione o campione

Strutturazione:
1. Tabelle(matrici)
a. Riga=unità statistica
b. Colonna= variabile (NB: natura dei dati)

Strutturazione del dato


X1 X2 X3 XK Campione: n = dimensione campionaria (numero di unità statistiche)
U1 Popolazione: N = dimensione della popolazione
U2 Variabile K= numero totale delle variabili
U3
Un
CAPITOLO 2 LA PRESENTAZIONE DEI DATI: GRAFICI E TABELLE
2.1 Organizzare le variabili qualitative
La distribuzione di frequenza
Una distribuzione di frequenza per dati qualitativi è una tabella che riporta le varie modalità di una
variabile con le frequenze, assolute, relative, percentuali o cumulata, in modo che si possano
cogliere le diversità fra l’una e l’altra. Una distribuzione di frequenza è composta dall’elenco delle
modalità in una colonna e le frequenze in diverse colonne

Modalità F. Assoluta F. Relativa F. Percentuale F. Cumulata


Numero di volte Somma

in cui una frequenze
… F. Assoluta/ n F. Relativa x 100
modalità è relative o

ripetuta assolute

Il diagramma a barre
In un diagramma a barre, ogni barra rappresenta una categoria, ovvero una modalità di una
variabile qualitativa, mentre la sua lunghezza rappresenta la frequenza.

Il diagramma a torta
Un diagramma a torta è un grafico a settori circolari in cui le singole “fette” che lo compongono
rappresentano le modalità o categorie. La dimensione di ciascuna fetta della torta, ovvero di
ciascun settore circolare, è proporzionale alla percentuale di ciascuna modalità. Nel costruire un
diagramma a torta che rappresenti un determinato dato, occorre moltiplicare la frequenza relativa
per l’ampiezza (360°) dell’angolo giro;

Il diagramma di Pareto
Il diagramma di Pareto è un particolare diagramma a barre verticali in cui le modalità sono
ordinate per frequenze decrescenti; nello stesso grafico, inoltre, si rappresenta anche il poligono
delle frequenze.

Il diagramma di Pareto è essenzialmente


Sull’asse sinistro può essere un diagramma a barre verticali al quale
rappresentato qualsiasi tipo di è sovrapposta una spezzata delle
frequenza, ma su quello destro percentuali cumulate.
deve essere sempre rappresentata La spezzata viene tracciata a
la frequenza cumulata (percentuale partire dalla metà di ciascuna barra
Cumulata

o assoluta in base al lato sinistro) in a un’altezza pari alla relativa percentuale


corrispondenza della quale viene cumulata.
indicata la linea spezzata
2.3 Organizzare le variabili quantitative
Le variabili quantitative, come visto in precedenza possono essere discrete o continue.
Per le variabili discrete si utilizza:
1. Grafico a barre
2. Grafico a torta
3. Distribuzione di frequenza in classi, ossia la tabella delle frequenze (=numero di volte in cui
un valore è osservato).
Per le variabili continue si utilizza:
1. Distribuzione di frequenza in classi, ossia la tabella delle frequenze
2. Istogramma
3. Poligono di frequenza

La distribuzione di frequenza in classi


Una distribuzione di frequenza in classi è una tabella in cui i dati sono divisi in opportune classi e a
ogni classe è associato il numero di unità statistiche appartenenti a quella classe. Nella costruzione
di una distribuzione di frequenza in classi, occorre prestare particolare attenzione alla scelta
del numero delle classi e all’ampiezza di ciascuna di esse, determinando gli estremi di ogni classe
in modo da evitare sovrapposizioni. Il numero di classi in cui i dati vengono raggruppati dipende, in
primo luogo, dalla numerosità dei dati. In generale si può affermare che una distribuzione di fre-
quenza in classi dovrebbe avere da un minimo di 5 a un massimo di 15 classi. Le classi sono
intervalli, aperti o chiusi. In un intervallo aperto, il valore è escluso, in un intervallo chiuso, il valore
è incluso.
Per la costruzione di una distribuzione di frequenze in classi, bisogna determinare l’ampiezza di
ogni classe. Bisogna dividere il range dei dati, o campo di variazione (valore massimo – valore
minimo), per il numero di classi desiderato.
Range (max − min)
𝐴mpiezza intervallo =
Numero di classi

Vediamo ora come calcolare le singole frequenze:


Frequenza Frequenza
Frequenza Punto medio
Classe Frequenza relativa assoluta relativa
assoluta dell’intervallo
cumulata cumulata

fi Pj Fj Pj Vj
Intervallo=
Range/n. Numero di casi
che cadono Range j
classi
Frequenza assoluta
Pj = J
Fj=∑i=1 fi
J
Pj=∑i=1 Pj Vj =
nell’intervallo numero di classi 2

L’istogramma
L’istogramma permette di rappresentare le frequenze o la percentuale di ciascuna classe come
singole barre verticali fra cui, però, diversamente da un diagramma a barre per dati qualitativi non
ci sono spazi vuoti. Nell’istogramma, i valori della variabile oggetto di analisi sono posti sull’asse
orizzontale (X). Sull’asse delle ordinate, invece, si pongono le frequenze o le percentuali di ciascuna
classe.
I poligoni
Qualora si cercasse di rappresentare più istogrammi nello stesso grafico al fine di confrontare due o più
insiemi di dati, si creerebbe una notevole confusione. L’eventuale sovrapposizione delle barre verticali di
un istogramma su di un altro ne renderebbe difficile la lettura e l’interpretazione. Nel caso in cui si
vogliono confrontare graficamente due o più distribuzioni di frequenza in classi è più opportuno
utilizzare i poligoni di frequenza. Un poligono di frequenza si costruisce congiungendo in sequenza i
punti le cui coordinate sono i valori centrali di ciascuna classe, che rappresenta tutte le osservazioni che
appartengono a quella classe, e le loro rispettive percentuali.
CAPITOLO 3 La statistica descrittiva: indici di posizione e di variabilità
3.1 Indici di posizione
La maggior parte degli insiemi di dati mostra una spiccata tendenza a raggrupparsi intorno a un
valore centrale. In realtà ci si riferisce informalmente ai concetti di media, mediana e moda, le tre
misure di tendenza centrale più diffuse. Esse vengono utilizzate per “riassumere” insiemi di dati,
anche molto grandi, con un solo numero.

La media
La media aritmetica (tipicamente definita media) è l’indice di posizione più comune. Si calcola per
dati quantitativi. Essa è la sola misura nella quale tutti i valori hanno lo stesso peso e rappresenta
“il baricentro” di un insieme di dati. La media viene calcolata sommando tutti i valori di un insieme
di dati e dividendo tale somma per il numero dei dati.
Il simbolo µ, ovvero la lettera greca mi (o mu), viene usato per rappresentare la media di una
popolazione.
La media di un insieme di dati quantitativi è la somma di tutti i valori divisa per il numero di dati (o
individui, o osservazioni).

Una debolezza della media


Poiché tutti i dati hanno lo stesso ruolo, la media può essere fortemente influenzata anche da un
singolo valore molto diverso dagli altri. Quando si hanno questi valori estremi, si dovrebbe evitare
di utilizzare la media come misura della tendenza centrale. In tale senso, si dice che la media è
un indice non robusto.

Denotando con X1 + X2 + ... + XN un insieme di


dati, dove N rappresenta il numero di
osservazioni, possiamo rappresentare tale
calcolo con la seguente equazione:
Utilizzando il simbolo di sommatoria, si può
sostituire il numeratore X1 + X2 + ... + XN con
il termine, nella immagine, che significa
“somma di tutti i valori Xi dal primo
valore X1 all’ultimo valore XN.
Si può quindi dare ora la definizione formale
della media

dove:
µ = media della popolazione
Xi = i-esimo valore della variabile X
N = numero di osservazioni

La mediana
La mediana è quel valore che si colloca al centro di una serie di dati, dopo averli riordinati dal più
piccolo al più grande. Poiché la mediana occupa la posizione centrale, essa non è influenzata dai
valori estremi, così si può utilizzare anche quando questi sono presenti. Per calcolare la mediana di
una serie di dati, occorre prima di tutto ordinare i valori dal più piccolo al più grande, e quindi
utilizzare la seguente formula, per calcolare la posizione del valore mediano.
Mediana = il valore che occupa la posizione:

Il valore della mediana si può calcolare seguendo una delle due seguenti regole.
• Se la numerosità è un numero dispari, la mediana è il valore centrale.
• Se la numerosità è un numero pari, la mediana è data dalla media tra i due valori centrali.

La moda
La moda è il valore che appare più frequentemente in una serie di dati, ovvero il valore che ha la
frequenza più alta. Come la mediana, e diversamente dalla media, la moda non è influenzata dalla
presenza di valori estremi.

3.2 Variabilità e forma


Oltre che dalla tendenza centrale, ogni serie di dati quantitativi è caratterizzata anche da misure
della sua variabilità e della sua forma. La variabilità misura la dispersione dei valori in una serie di
dati. Una semplice misura di variabilità è il range, o campo di variazione, ossia la differenza tra il
valore più grande e quello più piccolo di un insieme di dati. Più comunemente utilizzate in statistica
sono la deviazione standard, anche detta scarto quadratico medio, e la varianza, due misure che
analizzeremo in seguito.

La forma di un insieme di dati rappresenta l’andamento delle frequenze di tutti i valori, da quello
più basso a quello più alto, ed è normalmente visualizzata per mezzo di un istogramma. Come si
vedrà di seguito, molti insiemi di dati hanno un andamento che assomiglia approssimativamente a
una campana, con un picco più o meno evidente per i valori situati al centro della distribuzione.

Il range o campo di variazione


Il range (anche detto campo di variazione) è pari all’ampiezza dell’intervallo entro cui i dati variano,
ed è uguale alla differenza tra il valore più grande e il valore più piccolo.

Range= ampiezza della distribuzione = Xpiù grande − Xpiù piccola

Il range misura la dispersione totale nell’insieme di dati. Esso non tiene conto di come
effettivamente i dati si distribuiscono tra il valore più piccolo e quello più grande. In altre parole, il
campo di variazione non indica se i valori sono distribuiti uniformemente in tutta la serie di dati, o
se siano raggruppati vicino al centro. Riprendendo il discorso relativo alla robustezza, osserviamo
che il range dipende esclusivamente da due valori, il minimo e il massimo, e tralascia tutti gli altri.
Possiamo pertanto affermare che il range è una misura poco robusta della variabilità

La varianza e la deviazione standard (o scarto quadratico medio)


Due misure di variabilità comunemente utilizzate, e che consentono di capire meglio come sono
distribuiti tutti i valori dell’insieme dei dati, sono la varianza e la deviazione standard. Questi indici
misurano la “dispersione” dei valori intorno alla loro media. Tuttavia, poiché la media rappresenta
il “baricentro” dei dati, per qualunque insieme di dati la somma di tali differenze è sempre pari a
zero, dato che gli scarti positivi compensano quelli negativi. Per evitare questa compensazione, si
può ottenere una misura di variabilità che permette di differenziare un insieme di dati da un altro,
considerando la somma degli scarti dalla media elevati al quadrato.

In statistica, questa quantità è chiamata somma dei quadrati. Questa somma è poi divisa per il
numero dei valori per ottenere la varianza (σ2). Per indicare la varianza e la deviazione standard di
una popolazione si utilizza la lettera greca σ (sigma minuscola). La radice quadrata della varianza è
la deviazione standard, anche detta scarto quadratico medio (σ). Poiché la somma dei quadrati è
una somma di quantità sempre non negative, la varianza e la deviazione standard avranno sempre
valore maggiore o uguale a zero.

Se queste misure dovessero essere uguali a zero, vorrebbe dire che tutti gli scarti al quadrato sono
uguali a zero, e quindi che tutti gli scarti sono uguali a zero, e pertanto tutti i valori sarebbero
identici tra loro e uguali alla media. Un serie di dati tutti identici tra loro si chiama costante. Una
costante è caratterizzata dall’assenza di variabilità.

La varianza
Per una serie di N dati, X1, X2, X3, ..., XN, la
varianza di una popolazione (indicata con il
simbolo σ2) è:
Per semplificare il numeratore, scriviamo:

Dove:
μ = media popolazione
N = dimensione dei dati
Xi = i-esimo valore della variabile X

La varianza di una popolazione è la media degli


scarti dalla media al quadrato, ovvero la
somma degli scarti dalla media al quadrato
divisa per il numero di osservazioni

Varianza di un campione
Ciò che cambia è che è indicata con la lettera
S, e la x contrassegnata da un trattino, che
indica la media campionaria

La deviazione standard

La deviazione standard di una popolazione è la


radice quadrata della varianza, ovvero la radice
quadrata degli scarti dalla media al quadrato
divisa per la numerosità dei dati.

Deviazione standard di un campione


∑𝑛i=1|𝑥𝑖 − x̅ |
Deviazione media assoluta campionaria
n−1

∑𝑛i=1|𝑥𝑖 − μ|
Deviazione media assoluta popolazione
n

Nella pratica, come misura della variabilità di una distribuzione si usa molto più frequentemente la
deviazione standard. A differenza della varianza, che è una quantità al quadrato, la deviazione
standard è una quantità espressa nella stessa unità di misura dei dati e della media. La deviazione
standard aiuta a capire come un insieme di dati si concentra o si disperde intorno alla sua media.
Pertanto, conoscere la media e la deviazione standard di solito serve per approssimare l’intervallo
in cui si concentra la maggioranza dei dati.
Per calcolare manualmente la varianza, σ2, e la deviazione standard, σ, si può procedere nel modo
seguente:
1. calcolare la media;
2. calcolare la differenza tra ciascun valore e la media;
3. elevare al quadrato ciascuna differenza;
4. sommare le differenze elevate al quadrato;
5. dividere questo totale per N per ottenere la varianza;
6. calcolare la radice quadrata della varianza per ottenere la deviazione standard.

Il coefficiente di variazione
Il coefficiente di variazione è una misura di variabilità relativa, ovvero esso è espresso da un
numero puro, e non nell’unità di misura dei dati. Il coefficiente di variazione, indicato con il simbolo
CV, misura la dispersione dei dati in relazione all’entità della media.

Il coefficiente di variazione è uguale al rapporto


fra la deviazione standard e la media aritmetica
moltiplicato per 100%:

Forma: asimmetria (o skewness)


La forma di una distribuzione riguarda l’andamento dei dati nell’intero range, ovvero con quale
frequenza i valori, o gruppi di valori, appaiono nei dati. Per quel che riguarda la forma, una
distribuzione può essere sia simmetrica che asimmetrica. In una distribuzione simmetrica, i valori
al di sotto della media sono distribuiti in modo speculare rispetto ai valori al di sopra della media.
In questo caso, i dati a destra e a sinistra della media si bilanciano. Se la distribuzione è
simmetrica, la media, la mediana e la moda sono pressoché uguali, mentre forme diverse della
distribuzione modificano le posizioni relative della media e della mediana nei modi seguenti:
• media < mediana: asimmetria di sinistra, o negativa;
• media = mediana: simmetria, o asimmetria zero;
• media > mediana: asimmetria di destra, o positiva.
3.3 Analisi di dati numerici
Esistono altri strumenti per analizzare i dati quantitativi contraddistinti, nel loro insieme,
come analisi esplorativa dei dati. Fra gli strumenti dell’analisi esplorativa, vi sono i quartili, la
sintesi a cinque e il boxplot o diagramma a scatola e baffi.

Quartili
I quartili sono misure descrittive che dividono i dati ordinati in quattro parti – il primo quartile, Q1,
è quel valore tale che il 25.0% delle osservazioni è minore o uguale di Q1 e il 75.0% è maggiore
di Q1. Il secondo quartile Q2 è la mediana: il 50.0% delle osservazioni è più piccolo e il 50.0% più
grande di tale valore. Il terzo quartile, Q3, è quel valore tale che il 75.0% dei dati risulta più piccolo
e il 25.0% delle osservazioni è più grande di Q3. Le Equazioni (3.8) e (3.9) definiscono il primo e il
terzo quartile.

PRIMO QUARTILE, Q1
Il primo quartile Q1 è il valore tale che il 25.0%
dei dati è minore o uguale a Q1e il 75% dei
valori è maggiore o uguale a Q1.

TERZO QUARTILE, Q3
Il terzo quartile Q3 è il valore tale che il 75.0%
dei dati è minore o uguale a Q3e il 25% dei
valori maggiore o uguale a Q3.

Per calcolare i quartili si possono usare le seguenti regole pratiche dopo aver ordinato i dati.
1. Regola 1 Se la posizione del quartile è un numero intero, allora il quartile è uguale
all’osservazione che corrisponde a quella posizione. Per esempio, se la dimensione
campionaria è n = 7, il primo quartile, Q1, è l’osservazione che occupa il posto (7 + 1) / 4 =
2, ovvero è il secondo dato nella sequenza ordinata.
2. Regola 2 Se la posizione del quartile è un numero con una cifra decimale uguale a 5 (2.5,
4.5 ecc.), allora il quartile è uguale alla media delle osservazioni a cavallo di quelle posizioni.
Per esempio, se la dimensione campionaria è n = 9, la posizione del primo quartile, Q1, è
uguale a (9 + 1) / 4 = 2.5, ovvero il primo quartile si colloca a metà strada tra la seconda e la
terza osservazione nella sequenza ordinata. Quindi, come per la mediana, il primo quartile
sarà la media aritmetica, ovvero la semisomma, di queste due osservazioni.
3. Regola 3 Se la posizione del quartile è un numero con due cifre decimali uguali a 25 o 75
(2.25, 4.75 ecc.), la posizione del quartile si può approssimare, per eccesso o per difetto,
all’intero più vicino. In questo caso il quartile sarà l’osservazione corrispondente a questa
posizione. Per esempio, se la dimensione campionaria è 10 la posizione del primo
quartile, Q1, è uguale a (10 + 1) / 4 = 2.75. Approssimando tale valore all’intero più vicino 3,
si ottiene che il primo quartile sarà la terza osservazione nella sequenza ordinata.

Il range interquartile
Il range (o campo di variazione) interquartile è la differenza tra il terzo e il primo quartile.
Range interquartile = Q3 – Q1
Il range interquartile misura la dispersione del 50% centrale dei dati. Quindi esso non è influenzato
dai valori estremi.

Il boxplot o diagramma scatola e baffi


Il boxplot, o diagramma scatola e baffi, fornisce una rappresentazione grafica dei dati sulla base
della sintesi a cinque. La Figura 3.3 riporta il boxplot relativo ai tempi necessari per prepararsi al
mattino. La linea verticale disegnata all’interno della scatola rappresenta la mediana. La linea
verticale sul lato sinistro della scatola indica il primo quartile Q1, mentre la linea verticale sul lato
destro della scatola indica il terzo quartile di Q3. Pertanto la scatola rappresenta graficamente il
50% centrale delle osservazioni della distribuzione. Il 25% dei dati con i valori più piccoli è
rappresentato da una linea tratteggiata (un baffo) che collega il lato sinistro della scatola con
l’esterno inferiore Xmin. Analogamente, il 25% dei dati con valori più elevati è rappresentato da una
linea tratteggiata che collega il lato destro della scatola con Xmax.

3.4 La covarianza e il coefficiente di correlazione


In questo paragrafo vengono presentati due indici, tra loro collegati, che sono utili per misurare
l’intensità e il verso della relazione lineare tra due variabili: la covarianza e il coefficiente di
correlazione.

La covarianza
La covarianza misura l’intensità e il verso della relazione lineare tra due variabili quantitative (X e
Y). Il termine covarianza rimanda all’idea di una misura di quanto due variabili quantitative variano
insieme, ovvero covariano.

Formula covarianza popolazione

Formula covarianza campionaria

La covarianza, pur essendo una misura della relazione lineare fra due variabili quantitative, ha un
grave difetto, in quanto il valore da essa assunto dipende sia dalla grandezza dei fenomeni
considerati che dalle unità di misura delle variabili. Per esempio: la covarianza fra due serie di
lunghezze misurate in metri e la covarianza delle stesse due serie di lunghezze, ma questa volta
misurate in piedi, sono diverse. Per determinare la forza relativa della relazione è necessario
calcolare un altro indice chiamato coefficiente di correlazione.

Il coefficiente di correlazione
Il coefficiente di correlazione si ottiene dividendo la covarianza tra X e Y per il prodotto delle
deviazioni standard di X e di Y. Il numero così ottenuto è un numero puro, privo cioè di unità di
misura, e normalizzato, ovvero con un campo di variazione ben specificato, che varia tra –1 e 1.
Il coefficiente di correlazione misura la forza relativa di un legame lineare tra due variabili
quantitative. I valori del coefficiente di correlazione variano tra –1, che indica una perfetta
correlazione negativa, e +1, che indica una perfetta correlazione positiva. “Perfetta correlazione”
significa che, se si disegnano i punti su un diagramma a dispersione, tutti i punti sono allineati,
ovvero sono disposti su una retta. Quando si tratta di dati relativi alla popolazione, il simbolo per
denotare il coefficiente di correlazione è la lettera greca ρ.

Coefficiente di correlazione di una popolazione

Dove:

Coefficiente di correlazione di un campione


CAPITOLO 4 Fondamenti di calcolo delle probabilità
4.1 Probabilità: concetti di base
Cosa si intende con il termine probabilità? La probabilità è un valore numerico che rappresenta la
possibilità che un particolare evento accada. La probabilità è una proporzione, o una frazione, i cui
valori variano tra 0 e 1, inclusi. Un evento che non ha nessuna possibilità di verificarsi (cioè
l’evento impossibile) ha una probabilità pari a 0. Un evento che si verificherà di sicuro (cioè
l’evento certo) ha una probabilità pari a 1. Si ricordi che una probabilità non può essere negativa né
maggiore di 1
Tre sono le concezioni di probabilità:
• classica o a priori;
• empirica;
• soggettivista.
La probabilità di un evento è data da:

dove:
X = numero di casi nei quali l’evento si
verifica;
T = numero totale di risultati possibili.

Per comprendere meglio la definizione classica di probabilità, si consideri, per esempio, un


regolare mazzo di carte che ha 26 carte rosse e 26 carte nere. La probabilità di pescare una carta
nera è 26/52 = 0.5, dato che ci sono X = 26 carte nere su un totale T = 52 carte.

Eventi e spazi campionari


Gli elementi di base della teoria della probabilità sono i risultati possibili di una variabile oggetto di
studio. Per procedere allo studio del calcolo delle probabilità è necessario definire cosa sono un
evento, un evento composto e il complemento di un evento.
1. Evento= si definisce evento ogni possibile risultato di un esperimento il cui esito è casuale.
Un evento semplice è descritto da una singola caratteristica. Si ricordi che gli eventi sono
rappresentati da lettere dell’alfabeto.
2. Evento congiunto= un evento congiunto o composto è un evento che ha due o più
caratteristiche. La parola chiave nel caso della descrizione di un evento congiunto è “e”.
3. Evento complementare= il complemento di un evento A (rappresentato dal simbolo A′ )
include tutti gli eventi che non sono parte di A.

Spazio campionario
La collezione di tutti i possibili eventi è chiamata spazio campionario. Lo spazio campionario nel
lancio di una moneta comprende gli eventi testa e croce.

Tabelle di contingenza
Vari sono i modi per rappresentare uno spazio campionario. Un modo è quello di incasellare gli
eventi in una tabella di contingenza appropriata. Esempio:
- 1000 Intervistati
- 2 variabili di interesse
• Acquisto pianificato di un televisore
• Acquisto effettivo di un televisore
I valori nelle celle della tabella si ottengono suddividendo lo spazio campionario delle 1000 famiglie
tra coloro che hanno pianificato l’acquisto e poi hanno realmente acquistato il televisore.
Intenzione di Acquisto effettivo
acquisto Si No
Si 200 50 250
No 100 650 750
300 700 Totale 1000

Per esempio, 200 famiglie hanno pianificato l’acquisto di un televisore HD a grande schermo e
successivamente hanno effettuato realmente l’acquisto.

Diagrammi di Venn
In alternativa, si può utilizzare il diagramma di Venn. Il diagramma rappresenta graficamente gli
eventi come “unioni” e “intersezioni” di cerchi. La Figura 4.1rappresenta un tipico diagramma di
Venn nel caso di due variabili. Ogni variabile presenta solo due eventi (A e A′, B e B′ ). Il cerchio
sulla sinistra (il cerchio più scuro) rappresenta tutti gli eventi che sono parte di A. Il cerchio sulla
destra (il cerchio più chiaro) rappresenta tutti gli eventi che sono parte di B. L’area contenuta
all’interno del cerchio A e del cerchio B (l’area centrale) è l’intersezione di A e B (in
simboli: A ∩ B), poiché comprende l’area che è parte sia di A che di B. L’area totale dei due cerchi
è l’unione di A e B (A ∪ B) e contiene tutti i risultati che sono solo parte di A, solo parte di B o parte
sia di A che di B. L’area nel diagramma al di fuori a A ∪ B contiene i risultati che non sono né parte
di A e né parte di B.

Per disegnare un diagramma di Venn è necessario prima definire gli eventi A e B. Per l’esempio del
televisore HD a grande schermo, possiamo definire gli eventi come segue:

A = acquisto pianificato B = acquisto effettuato


A′ = acquisto non pianificato B′= acquisto non effettuato

Nel disegnare il diagramma di Venn nella Figura 4.2, bisogna determinare il valore dell’intersezione
di A e B in modo da poter dividere lo spazio campionario nelle sue componenti.
L’evento A ∪ B contiene le 200 famiglie che hanno espresso la loro intenzione di acquistare il
televisore HD a grande schermo e successivamente lo hanno realmente acquistato. Ciò che rimane
dell’evento A (acquisto pianificato) comprende le 50 famiglie che hanno pianificato l’acquisto ma
non hanno successivamente acquistato il televisore. Ciò che rimane dell’evento B (realmente
acquistato) conta le 100 famiglie che non hanno pianificato l’acquisto del televisore HD a grande
schermo ma successivamente lo hanno acquistato. Le restanti 650 famiglie rappresentano coloro
che non hanno pianificato l’acquisto e non hanno acquistato il televisore HD a grande schermo.
Probabilità semplice
Come già detto in precedenza, la probabilità è un numero che varia da 0 a 1, dove 0 è la probabilità
dell’evento impossibile e 1 è quella dell’evento certo.
La probabilità semplice è la probabilità che si verifichi un evento semplice, P(A). Una probabilità
semplice nel caso della M&R Electronics World è, per esempio, la probabilità di pianificare
l’acquisto di un televisore HD a grande schermo. Per calcolare la probabilità che, prendendo una
famiglia a caso, essa abbia pianificato l’acquisto di un televisore HD a grande schermo, si può
utilizzare:

Probabilità congiunta o composta


Mentre la probabilità semplice è legata al verificarsi di un evento semplice, la probabilità
congiunta o composta è legata al verificarsi di due o più eventi.
Facendo riferimento a prima, gli individui che hanno pianificato l’acquisto e realmente hanno
acquistato un televisore HD a grande schermo comprendono solo i risultati nella singola cella
“acquisto pianificato e acquisto realmente effettuato”. Dato che questo gruppo comprende 200
famiglie, la probabilità di estrarre una famiglia che era intenzionata all’acquisto e poi ha realmente
acquistato il televisore a grande schermo

Probabilità marginale
La probabilità marginale di un evento si può calcolare sulla base di un insieme di probabilità
congiunte riprendendo i concetti appena discussi. Per esempio, se B è formato da due eventi, B1
e B2, allora la probabilità dell’evento A, P(A), può ottenersi come somma delle probabilità
congiunte dell’evento A con l’evento B1 e dell’evento A con l’evento B2.

P(A) = P(A e B1) + P(A e B2) + ... + P(A e Bk )

dove B1, B2, ..., Bk sono eventi mutuamente esclusivi e collettivamente esaustivi, definiti come
segue:
Due eventi sono mutuamente esclusivi (o incompatibili) se non possono verificarsi
contemporaneamente.
Un insieme di eventi è collettivamente esaustivo se almeno uno degli eventi deve verificarsi. Gli
eventi si dicono in questo caso necessari.

Calcolo della probabilità dell’unione di due eventi


Come si trova la probabilità dell’evento “A o B”? È necessario prendere in considerazione il
verificarsi dell’evento A o dell’evento B o di entrambi gli eventi A e B. Per esempio, per determinare
la probabilità che un capofamiglia pianifichi l’acquisto o realmente acquisti un televisore HD a
grande schermo, bisogna considerare che tale evento include tutti le famiglie che pianificano
l’acquisto e tutte le famiglie che realmente acquistano un televisore HD a grande schermo.
Esaminando la tabella di contingenza si deve verificare quali celle siano parte dell’evento di cui si
vuole calcolare la probabilità. Dalla tabella, la cella “acquisto pianificato e non realmente
acquistato” è parte dell’evento poiché include coloro che hanno pianificato l’acquisto. La cella
“acquisto non pianificato e realmente acquistato” comprende l’evento di interesse perché contiene
coloro che hanno realmente acquistato il televisore. Infine, la cella “acquisto pianificato e realmente
acquistato” ha entrambe le caratteristiche di interesse. Di conseguenza, un modo per calcolare la
probabilità di “acquisto pianificato o realmente acquistato” è:
1. P(acquisto pianificato o realmente acquistato) =
P(acquisto pianificato e non realmente acquistato) + P(acquisto non pianificato e realmente
acquistato) + P(acquisto pianificato e realmente acquistato)

Regola del calcolo della probabilità dell’unione di due eventi


La probabilità di A o B è uguale alla probabilità di A più la probabilità di B meno la probabilità di A
e B.
P(A o B ) = P(A) + P(B ) − P(A e B )

Applicando questa equazione all’esempio precedente si ottiene il seguente risultato:


1. P(acquisto pianificato o realmente acquistato) =
P(acquisto pianificato) + P(realmente acquistato) -P(acquisto pianificato e realmente

acquistato)

La regola dell’unione consiste, quindi, nel prendere la probabilità di A, sommarla alla probabilità
di B e successivamente sottrarre la probabilità dell’evento congiunto A e B, dato che l’evento
congiunto è stato già incluso sommando le probabilità dell’evento A e B. Facendo riferimento
alla tabella, se gli esiti dell’evento “acquisto pianificato” vengono sommati a coloro che hanno
“realmente acquistato”, si può facilmente vedere che l’evento congiunto “acquisto
pianificato e realmente acquistato” è già incluso in ciascuno di questi eventi semplici. Di
conseguenza, dato che l’evento congiunto è stato conteggiato due volte, bisogna sottrarlo per
ottenere il risultato corretto.

4.2 Probabilità condizionata


La probabilità condizionata è la probabilità di un evento A, data l’informazione sul verificarsi di un
altro evento B.

La probabilità di A dato B è uguale alla


probabilità di A e B diviso per la probabilità
di B.

La probabilità di B dato A è uguale alla


probabilità di A e B diviso la probabilità di A.

Dove:
P (A e B) = la probabilità congiunta di A e B
P (A) = probabilità marginale di A
P (B) = probabilità marginale di B

In riferimento al caso della M&R Electronics World introdotto all’inizio del capitolo, relativo
all’acquisto di televisori HD a grande schermo, supponiamo di sapere che una famiglia abbia
pianificato l’acquisto di un televisore HD a grande schermo. Qual è la probabilità che il televisore
venga realmente acquistato? In questo esempio l’obiettivo è trovare P(televisore realmente
acquistato | acquisto pianificato) dove l’informazione a disposizione, il dato che condiziona le altre
probabilità, è che la famiglia ha pianificato l’acquisto del televisore HD a grande schermo. Di
conseguenza, lo spazio campionario non comprende più tutte le 1000 famiglie intervistate, ma solo
coloro che hanno pianificato l’acquisto del televisore HD a grande schermo. Di questi 250, 200
hanno realmente acquistato il televisore. Di conseguenza, sulla base della tabella, la probabilità che
un capofamiglia acquisti il televisore avendone pianificato l’acquisto è:

P (realmente acquistato | acquisto pianificato) =

Alberi decisionali
Un albero decisionale è un’alternativa alla tabella di contingenza.

Equazioni chiave

Probabilità di un evento

Probabilità marginale P(A) = P(A e B1) + P(A e B2) + ... + P(A e Bk )


Probabilità dell’unione di due eventi P(A o B ) = P(A) + P(B ) − P(A e B )

Probabilità condizionata

Indipendenza P(A | B) = P(A)


Probabilità dell’intersezione di due eventi P(A e B) = P(A | B) P(B)
Probabilità dell’intersezione di due eventi
P(A e B) = P(A) P(B)
indipendenti
P(A) = P(A | B1) P(B1) + P(A | B2) P(B2) + …
Teorema delle probabilità totali
+ P(A | Bk) P(Bk)
CAPITOLO 5 Distribuzioni di probabilità di variabili casuali discrete
5.1 La distribuzione di probabilità di una variabile casuale discreta
Nel Paragrafo 1.1 una variabile quantitativa è stata definita come una variabile che assume valori
numerici. Le variabili quantitative si possono dividere in discrete e continue.
Le variabili quantitative discrete rappresentano dati che provengono da un processo di conteggio,
come il numero di riviste cui si è abbonati o il numero di social media a cui si è iscritti. Le variabili
quantitative continue riguardano dati che provengono da un processo di misurazione, come
l’altezza di una persona, o i rendimenti annui dei fondi value e growth. In questo capitolo saranno
trattate le distribuzioni di probabilità per le variabili quantitative discrete.

Distribuzione di probabilità di una variabile casuale discreta


Una distribuzione di probabilità di una variabile casuale discreta è un elenco mutualmente
esclusivo di tutti i possibili risultati numerici che la variabile casuale può assumere, unitamente alla
probabilità del verificarsi di ciascun risultato.

Valore atteso di una variabile casuale discrete


Il valore medio, µ, di una distribuzione di probabilità è il valore atteso1della variabile casuale.

Il valore atteso si calcola moltiplicando


ogni possibile risultato, X, per la sua
corrispondente probabilità, P(X), e quindi
sommando questi prodotti.

Dove:
N = numero di possibili valori che può
assumere la variabile casuale
Xi = i-esimo valore della variabile casuale
discreta X
P(Xi) = probabilità del verificarsi dell’i-
esimo valore di X

Varianza di una variabile casuale discreta


La varianza di una distribuzione di
probabilità si calcola moltiplicando ogni
possibile differenza al quadrato
[Xi − E(X)]2 per la corrispondente
probabilità P(Xi), e sommando i relativi
prodotti

Dove:
Xi = i-esimo valore della variabile casuale
discreta X
P(Xi) = probabilità del verificarsi dell’i-
esimo valore di X

Deviazione standard di una variabile casuale discreta

5.2 La distribuzione binomiale


In questo e nel prossimo paragrafo si introdurranno dei modelli matematici utili per risolvere
numerosi tipi di problemi in vari campi di applicazione.
Quando esiste una formula matematica che esprime la distribuzione di probabilità per una certa
variabile casuale, è possibile calcolare la probabilità esatta che un qualsiasi risultato della variabile
si verifichi.

Non si confonda questo utilizzo della lettera greca π (pi) con la costante
matematica che definisce il rapporto tra la lunghezza della circonferenza e il
diametro di un cerchio, 3.141592.

La distribuzione binomiale è uno dei modelli probabilistici più utili e più diffusi. La distribuzione
binomiale viene usata quando la variabile casuale discreta rappresenta il numero di eventi di
interesse (successi) in un campione di n osservazioni (prove). La variabile casuale binomiale,
quindi, serve come modello probabilistico in tutti quei casi in cui si è interessati al numero di volte
in cui un certo evento (successo) si verifica in n prove fra loro indipendenti. La distribuzione
binomiale ha quattro caratteristiche fondamentali:
• il campione è composto da un numero dato di osservazioni (prove), n;
• ogni osservazione è classificata in una delle due categorie incompatibili ed
esaustive, successo e insuccesso;
• la probabilità che si verifichi un successo, π, è costante in ogni prova. Pertanto, anche la
probabilità che si verifichi un insuccesso, 1 – π, è costante fra tutte le prove;
• il risultato di una qualsiasi prova è indipendente dal risultato di qualsiasi altra prova. Al fine
di garantire l’indipendenza, le osservazioni possono essere estratte o da una popolazione
infinita con o senza reinserimento o da una popolazione finita con reinserimento.

Combinazioni

Il numero di combinazioni di n elementi


presi a X a X è dato da:

Dove:
n! = (n) (n – 1) ... (1) è
chiamato n fattoriale

Distribuzione binomiale

Esiste però, un’espressione matematica


che fornisce una formula generale per
calcolare qualsiasi probabilità di una
distribuzione binomiale per il numero di
eventi di interesse (successi), X, dati i
valori di n e π.

Dove:
P(X) = probabilità di
osservare X successi, dati n e π
n = numero di osservazioni (o prove)
π = probabilità di osservare un successo
in una singola prova
1 – π = probabilità di osservare un
insuccesso in una singola prova
X = numero di successi nel campione
(X = 0, 1, 2, ..., n)
Spiegazione formula:
• L’Equazione riformula il concetto già derivato intuitivamente. La variabile casuale
binomiale X può assumere qualsiasi valore intero compreso tra 0 e n. Nell’Equazione (5.5) il
prodotto π X(1 – π)n – X rappresenta la probabilità di ottenere X successi in n prove in
una particolare sequenza.
• Il termine rappresenta il numero di combinazioni in cui gli X successi possono essere
disposti nelle n prove.

• Di conseguenza, dato il numero di osservazioni n, e la probabilità di successo, π, la


probabilità di osservare X eventi di interesse (successi) è:
P(X) = (numero di possibili sequenze) × (probabilità di una particolare sequenza)

Valore atteso della distribuzione binomiale

Il valore atteso, o media, di una


distribuzione binomiale è uguale al
µ = E(X) = n π
numero di prove n moltiplicato per la
probabilità di successo π

Deviazione standard della distribuzione binomiale

5.3 La distribuzione di Poisson


Molti studi riguardano il conteggio del numero di volte che un particolare evento accade in un
determinato lasso di tempo o in un determinato spazio. (Questo tempo o spazio viene spesso
chiamato area di opportunità.) Alcuni esempi sono: il numero di difetti sulla porta di un frigorifero
nuovo, il numero di interruzioni giornaliere di una rete aziendale, il numero di clienti che arriva in
banca in un’ora, o il numero di pulci sul corpo di un cane. La distribuzione di Poisson può essere
utilizzata per calcolare le probabilità in situazioni come queste, se sono soddisfatte le seguenti
proprietà:
• si è interessati a contare il numero di volte che un particolare evento si verifica in una data
area di opportunità. L’area di opportunità è definita dal tempo, dalla lunghezza, dall’area di
una superficie, da un volume, e così via;
• la probabilità che un evento si verifichi in una data area di opportunità è la stessa per tutte
le aree di opportunità della stessa dimensione;
• il numero di eventi che si verificano in un’area di opportunità è indipendente dal numero di
eventi che si verificano in qualsiasi altra area di opportunità;
• la probabilità che due o più eventi si verifichino in un’area di opportunità si avvicina allo zero
col ridursi della dimensione, fisica o temporale, dell’area di opportunità.
Si consideri, per esempio, il numero di clienti che arrivano durante l’ora di pranzo in una banca
situata nel centro di una grande città. Si è interessati al numero di clienti che arrivano ogni minuto.
È necessario verificare se tale situazione abbia le quattro proprietà della distribuzione di Poisson
appena citate.
In primo luogo, l’evento di interesse è l’arrivo di un cliente, e l’area di opportunità è definita come
un intervallo di un minuto. La questione è se in un minuto arriveranno zero clienti, un cliente, due
clienti e così via.
In secondo luogo, è ragionevole assumere che la probabilità che un cliente arrivi durante un minuto
particolare è la stessa per qualsiasi altro intervallo di un minuto.
Il terzo requisito, l’indipendenza, richiede che l’arrivo di un cliente in un qualsiasi intervallo di un
minuto non abbia alcun effetto sull’arrivo di un qualsiasi altro cliente in un qualsiasi altro minuto.
Infine, la probabilità che due o più clienti arrivino in un dato periodo tende a zero al diminuire
dell’intervallo di tempo. Per esempio, la probabilità che due clienti arrivino in uno stesso intervallo
di 0.01 secondi è virtualmente nulla. Pertanto, la distribuzione di Poisson si può utilizzare per
determinare le probabilità riguardanti il numero di clienti che arrivano in una banca in un intervallo
di un minuto durante l’ora di pranzo.
La distribuzione di Poisson è caratterizzata da un parametro, chiamato λ (la lettera minuscola
greca lambda), che è la media o il valore atteso della variabile “eventi per unità di tempo (o
spazio)”.

Anche la varianza della distribuzione di Poisson è pari a λ e la deviazione standard è uguale a √λ


Il numero di eventi, X, della variabile casuale di Poisson varia da 0 a infinito (∞).

L’Equazione presenta l’espressione


matematica della distribuzione di Poisson
utile per calcolare la probabilità di X eventi,
dato che λ è il numero di eventi atteso

Dove
P (X) = probabilità di X eventi in un’area di
opportunità
λ = numero atteso di eventi
e = numero di Nepero, una costante
matematica approssimata da 2.71828
X = numero di eventi (X = 0, 1, 2, ..., ∞)

Potrebbero piacerti anche