Statistica Parte 1
Statistica Parte 1
Concetti di base
1. Popolazione: una popolazione è l'insieme di tutti gli Campione: elementi che si è interessati
ad analizzare (iscritti ad una certa università, utenti di un certo servizio, produzione di un
dato stabilimento/linea di produzione)
2. Variabili: le variabili sono caratteristiche misurabili degli individui (sesso, livello di istruzione,
tempo per recarsi al lavoro) o degli oggetti (difettosità di un circuito elettrico, livello di
purezza di un diamante grezzo, diametro di un pistone)
3. Campione: parte o porzione della popolazione selezionata per condurre le analisi
4. Parametro: un parametro è una misura di sintesi che descrive una caratteristica dell’intera
popolazione
5. Statistica: una statistica è una misura di sintesi che descrive una caratteristica del campione
Tipi di variabili
Gli statistici classificano le variabili in:
• variabili quantitative (o numeriche o cardinali), che assumono valori che indicano una
quantità misurata,
• variabili qualitative (o categoriche o categoriali), che danno luogo a risposte che possono
essere ricondotte a categorie qualitative o non numeriche 1.
È importante classificare correttamente le variabili utilizzate, perché i metodi statistici che possono
venire utilizzati variano a seconda del tipo di variabili a disposizione.
Il testo esplora la classificazione delle variabili in statistica, suddividendole in due principali
categorie: variabili quantitative e variabili qualitative.
1. Variabili quantitative:
• Discreta: Assume valori numerici interi derivanti da processi di conteggio. Esempi: il
numero di prodotti acquistati o il numero di multe ricevute. Queste variabili sono
sempre espresse con numeri interi, come il numero di riviste a cui ci si è abbonati.
• Continua: Assume valori numerici che derivano da misurazioni e dipendono dalla
precisione degli strumenti usati. Esempi: il tempo trascorso in coda alla cassa o la
distanza tra casa e supermercato. Le variabili continue possono assumere qualsiasi
valore all'interno di un intervallo, come 2 minuti, 2.1 minuti, 2.14 minuti, ecc., a
seconda della precisione dello strumento di misurazione.
2. Variabili qualitative:
• Ordinali: Rappresentano categorie con un ordine implicito, ma non numerico. Esempi:
la classificazione degli studenti per anno scolastico (freshman, sophomore, junior,
senior), le valutazioni di un albergo o ristorante (pessimo, sufficiente, buono, ecc.), o i
giudizi scolastici (insufficiente, sufficiente, buono, ecc.).
• Nominali: Rappresentano categorie senza un ordine naturale. Esempi: risposte come
“sì” o “no” a domande del tipo "Hai un account Instagram?", il colore dei capelli, il
rapper preferito, o l'università frequentata. Non c'è un ordine implicito tra queste
categorie.
Fonte:
1. Primaria
2. Secondaria
3. Dimensione della fonte:
a. Censimento= su tutta la popolazione
b. Indagine campionaria=parte della popolazione o campione
Strutturazione:
1. Tabelle(matrici)
a. Riga=unità statistica
b. Colonna= variabile (NB: natura dei dati)
…
Numero di volte Somma
…
in cui una frequenze
… F. Assoluta/ n F. Relativa x 100
modalità è relative o
…
ripetuta assolute
Il diagramma a barre
In un diagramma a barre, ogni barra rappresenta una categoria, ovvero una modalità di una
variabile qualitativa, mentre la sua lunghezza rappresenta la frequenza.
Il diagramma a torta
Un diagramma a torta è un grafico a settori circolari in cui le singole “fette” che lo compongono
rappresentano le modalità o categorie. La dimensione di ciascuna fetta della torta, ovvero di
ciascun settore circolare, è proporzionale alla percentuale di ciascuna modalità. Nel costruire un
diagramma a torta che rappresenti un determinato dato, occorre moltiplicare la frequenza relativa
per l’ampiezza (360°) dell’angolo giro;
Il diagramma di Pareto
Il diagramma di Pareto è un particolare diagramma a barre verticali in cui le modalità sono
ordinate per frequenze decrescenti; nello stesso grafico, inoltre, si rappresenta anche il poligono
delle frequenze.
fi Pj Fj Pj Vj
Intervallo=
Range/n. Numero di casi
che cadono Range j
classi
Frequenza assoluta
Pj = J
Fj=∑i=1 fi
J
Pj=∑i=1 Pj Vj =
nell’intervallo numero di classi 2
L’istogramma
L’istogramma permette di rappresentare le frequenze o la percentuale di ciascuna classe come
singole barre verticali fra cui, però, diversamente da un diagramma a barre per dati qualitativi non
ci sono spazi vuoti. Nell’istogramma, i valori della variabile oggetto di analisi sono posti sull’asse
orizzontale (X). Sull’asse delle ordinate, invece, si pongono le frequenze o le percentuali di ciascuna
classe.
I poligoni
Qualora si cercasse di rappresentare più istogrammi nello stesso grafico al fine di confrontare due o più
insiemi di dati, si creerebbe una notevole confusione. L’eventuale sovrapposizione delle barre verticali di
un istogramma su di un altro ne renderebbe difficile la lettura e l’interpretazione. Nel caso in cui si
vogliono confrontare graficamente due o più distribuzioni di frequenza in classi è più opportuno
utilizzare i poligoni di frequenza. Un poligono di frequenza si costruisce congiungendo in sequenza i
punti le cui coordinate sono i valori centrali di ciascuna classe, che rappresenta tutte le osservazioni che
appartengono a quella classe, e le loro rispettive percentuali.
CAPITOLO 3 La statistica descrittiva: indici di posizione e di variabilità
3.1 Indici di posizione
La maggior parte degli insiemi di dati mostra una spiccata tendenza a raggrupparsi intorno a un
valore centrale. In realtà ci si riferisce informalmente ai concetti di media, mediana e moda, le tre
misure di tendenza centrale più diffuse. Esse vengono utilizzate per “riassumere” insiemi di dati,
anche molto grandi, con un solo numero.
La media
La media aritmetica (tipicamente definita media) è l’indice di posizione più comune. Si calcola per
dati quantitativi. Essa è la sola misura nella quale tutti i valori hanno lo stesso peso e rappresenta
“il baricentro” di un insieme di dati. La media viene calcolata sommando tutti i valori di un insieme
di dati e dividendo tale somma per il numero dei dati.
Il simbolo µ, ovvero la lettera greca mi (o mu), viene usato per rappresentare la media di una
popolazione.
La media di un insieme di dati quantitativi è la somma di tutti i valori divisa per il numero di dati (o
individui, o osservazioni).
dove:
µ = media della popolazione
Xi = i-esimo valore della variabile X
N = numero di osservazioni
La mediana
La mediana è quel valore che si colloca al centro di una serie di dati, dopo averli riordinati dal più
piccolo al più grande. Poiché la mediana occupa la posizione centrale, essa non è influenzata dai
valori estremi, così si può utilizzare anche quando questi sono presenti. Per calcolare la mediana di
una serie di dati, occorre prima di tutto ordinare i valori dal più piccolo al più grande, e quindi
utilizzare la seguente formula, per calcolare la posizione del valore mediano.
Mediana = il valore che occupa la posizione:
Il valore della mediana si può calcolare seguendo una delle due seguenti regole.
• Se la numerosità è un numero dispari, la mediana è il valore centrale.
• Se la numerosità è un numero pari, la mediana è data dalla media tra i due valori centrali.
La moda
La moda è il valore che appare più frequentemente in una serie di dati, ovvero il valore che ha la
frequenza più alta. Come la mediana, e diversamente dalla media, la moda non è influenzata dalla
presenza di valori estremi.
La forma di un insieme di dati rappresenta l’andamento delle frequenze di tutti i valori, da quello
più basso a quello più alto, ed è normalmente visualizzata per mezzo di un istogramma. Come si
vedrà di seguito, molti insiemi di dati hanno un andamento che assomiglia approssimativamente a
una campana, con un picco più o meno evidente per i valori situati al centro della distribuzione.
Il range misura la dispersione totale nell’insieme di dati. Esso non tiene conto di come
effettivamente i dati si distribuiscono tra il valore più piccolo e quello più grande. In altre parole, il
campo di variazione non indica se i valori sono distribuiti uniformemente in tutta la serie di dati, o
se siano raggruppati vicino al centro. Riprendendo il discorso relativo alla robustezza, osserviamo
che il range dipende esclusivamente da due valori, il minimo e il massimo, e tralascia tutti gli altri.
Possiamo pertanto affermare che il range è una misura poco robusta della variabilità
In statistica, questa quantità è chiamata somma dei quadrati. Questa somma è poi divisa per il
numero dei valori per ottenere la varianza (σ2). Per indicare la varianza e la deviazione standard di
una popolazione si utilizza la lettera greca σ (sigma minuscola). La radice quadrata della varianza è
la deviazione standard, anche detta scarto quadratico medio (σ). Poiché la somma dei quadrati è
una somma di quantità sempre non negative, la varianza e la deviazione standard avranno sempre
valore maggiore o uguale a zero.
Se queste misure dovessero essere uguali a zero, vorrebbe dire che tutti gli scarti al quadrato sono
uguali a zero, e quindi che tutti gli scarti sono uguali a zero, e pertanto tutti i valori sarebbero
identici tra loro e uguali alla media. Un serie di dati tutti identici tra loro si chiama costante. Una
costante è caratterizzata dall’assenza di variabilità.
La varianza
Per una serie di N dati, X1, X2, X3, ..., XN, la
varianza di una popolazione (indicata con il
simbolo σ2) è:
Per semplificare il numeratore, scriviamo:
Dove:
μ = media popolazione
N = dimensione dei dati
Xi = i-esimo valore della variabile X
Varianza di un campione
Ciò che cambia è che è indicata con la lettera
S, e la x contrassegnata da un trattino, che
indica la media campionaria
La deviazione standard
∑𝑛i=1|𝑥𝑖 − μ|
Deviazione media assoluta popolazione
n
Nella pratica, come misura della variabilità di una distribuzione si usa molto più frequentemente la
deviazione standard. A differenza della varianza, che è una quantità al quadrato, la deviazione
standard è una quantità espressa nella stessa unità di misura dei dati e della media. La deviazione
standard aiuta a capire come un insieme di dati si concentra o si disperde intorno alla sua media.
Pertanto, conoscere la media e la deviazione standard di solito serve per approssimare l’intervallo
in cui si concentra la maggioranza dei dati.
Per calcolare manualmente la varianza, σ2, e la deviazione standard, σ, si può procedere nel modo
seguente:
1. calcolare la media;
2. calcolare la differenza tra ciascun valore e la media;
3. elevare al quadrato ciascuna differenza;
4. sommare le differenze elevate al quadrato;
5. dividere questo totale per N per ottenere la varianza;
6. calcolare la radice quadrata della varianza per ottenere la deviazione standard.
Il coefficiente di variazione
Il coefficiente di variazione è una misura di variabilità relativa, ovvero esso è espresso da un
numero puro, e non nell’unità di misura dei dati. Il coefficiente di variazione, indicato con il simbolo
CV, misura la dispersione dei dati in relazione all’entità della media.
Quartili
I quartili sono misure descrittive che dividono i dati ordinati in quattro parti – il primo quartile, Q1,
è quel valore tale che il 25.0% delle osservazioni è minore o uguale di Q1 e il 75.0% è maggiore
di Q1. Il secondo quartile Q2 è la mediana: il 50.0% delle osservazioni è più piccolo e il 50.0% più
grande di tale valore. Il terzo quartile, Q3, è quel valore tale che il 75.0% dei dati risulta più piccolo
e il 25.0% delle osservazioni è più grande di Q3. Le Equazioni (3.8) e (3.9) definiscono il primo e il
terzo quartile.
PRIMO QUARTILE, Q1
Il primo quartile Q1 è il valore tale che il 25.0%
dei dati è minore o uguale a Q1e il 75% dei
valori è maggiore o uguale a Q1.
TERZO QUARTILE, Q3
Il terzo quartile Q3 è il valore tale che il 75.0%
dei dati è minore o uguale a Q3e il 25% dei
valori maggiore o uguale a Q3.
Per calcolare i quartili si possono usare le seguenti regole pratiche dopo aver ordinato i dati.
1. Regola 1 Se la posizione del quartile è un numero intero, allora il quartile è uguale
all’osservazione che corrisponde a quella posizione. Per esempio, se la dimensione
campionaria è n = 7, il primo quartile, Q1, è l’osservazione che occupa il posto (7 + 1) / 4 =
2, ovvero è il secondo dato nella sequenza ordinata.
2. Regola 2 Se la posizione del quartile è un numero con una cifra decimale uguale a 5 (2.5,
4.5 ecc.), allora il quartile è uguale alla media delle osservazioni a cavallo di quelle posizioni.
Per esempio, se la dimensione campionaria è n = 9, la posizione del primo quartile, Q1, è
uguale a (9 + 1) / 4 = 2.5, ovvero il primo quartile si colloca a metà strada tra la seconda e la
terza osservazione nella sequenza ordinata. Quindi, come per la mediana, il primo quartile
sarà la media aritmetica, ovvero la semisomma, di queste due osservazioni.
3. Regola 3 Se la posizione del quartile è un numero con due cifre decimali uguali a 25 o 75
(2.25, 4.75 ecc.), la posizione del quartile si può approssimare, per eccesso o per difetto,
all’intero più vicino. In questo caso il quartile sarà l’osservazione corrispondente a questa
posizione. Per esempio, se la dimensione campionaria è 10 la posizione del primo
quartile, Q1, è uguale a (10 + 1) / 4 = 2.75. Approssimando tale valore all’intero più vicino 3,
si ottiene che il primo quartile sarà la terza osservazione nella sequenza ordinata.
Il range interquartile
Il range (o campo di variazione) interquartile è la differenza tra il terzo e il primo quartile.
Range interquartile = Q3 – Q1
Il range interquartile misura la dispersione del 50% centrale dei dati. Quindi esso non è influenzato
dai valori estremi.
La covarianza
La covarianza misura l’intensità e il verso della relazione lineare tra due variabili quantitative (X e
Y). Il termine covarianza rimanda all’idea di una misura di quanto due variabili quantitative variano
insieme, ovvero covariano.
La covarianza, pur essendo una misura della relazione lineare fra due variabili quantitative, ha un
grave difetto, in quanto il valore da essa assunto dipende sia dalla grandezza dei fenomeni
considerati che dalle unità di misura delle variabili. Per esempio: la covarianza fra due serie di
lunghezze misurate in metri e la covarianza delle stesse due serie di lunghezze, ma questa volta
misurate in piedi, sono diverse. Per determinare la forza relativa della relazione è necessario
calcolare un altro indice chiamato coefficiente di correlazione.
Il coefficiente di correlazione
Il coefficiente di correlazione si ottiene dividendo la covarianza tra X e Y per il prodotto delle
deviazioni standard di X e di Y. Il numero così ottenuto è un numero puro, privo cioè di unità di
misura, e normalizzato, ovvero con un campo di variazione ben specificato, che varia tra –1 e 1.
Il coefficiente di correlazione misura la forza relativa di un legame lineare tra due variabili
quantitative. I valori del coefficiente di correlazione variano tra –1, che indica una perfetta
correlazione negativa, e +1, che indica una perfetta correlazione positiva. “Perfetta correlazione”
significa che, se si disegnano i punti su un diagramma a dispersione, tutti i punti sono allineati,
ovvero sono disposti su una retta. Quando si tratta di dati relativi alla popolazione, il simbolo per
denotare il coefficiente di correlazione è la lettera greca ρ.
Dove:
dove:
X = numero di casi nei quali l’evento si
verifica;
T = numero totale di risultati possibili.
Spazio campionario
La collezione di tutti i possibili eventi è chiamata spazio campionario. Lo spazio campionario nel
lancio di una moneta comprende gli eventi testa e croce.
Tabelle di contingenza
Vari sono i modi per rappresentare uno spazio campionario. Un modo è quello di incasellare gli
eventi in una tabella di contingenza appropriata. Esempio:
- 1000 Intervistati
- 2 variabili di interesse
• Acquisto pianificato di un televisore
• Acquisto effettivo di un televisore
I valori nelle celle della tabella si ottengono suddividendo lo spazio campionario delle 1000 famiglie
tra coloro che hanno pianificato l’acquisto e poi hanno realmente acquistato il televisore.
Intenzione di Acquisto effettivo
acquisto Si No
Si 200 50 250
No 100 650 750
300 700 Totale 1000
Per esempio, 200 famiglie hanno pianificato l’acquisto di un televisore HD a grande schermo e
successivamente hanno effettuato realmente l’acquisto.
Diagrammi di Venn
In alternativa, si può utilizzare il diagramma di Venn. Il diagramma rappresenta graficamente gli
eventi come “unioni” e “intersezioni” di cerchi. La Figura 4.1rappresenta un tipico diagramma di
Venn nel caso di due variabili. Ogni variabile presenta solo due eventi (A e A′, B e B′ ). Il cerchio
sulla sinistra (il cerchio più scuro) rappresenta tutti gli eventi che sono parte di A. Il cerchio sulla
destra (il cerchio più chiaro) rappresenta tutti gli eventi che sono parte di B. L’area contenuta
all’interno del cerchio A e del cerchio B (l’area centrale) è l’intersezione di A e B (in
simboli: A ∩ B), poiché comprende l’area che è parte sia di A che di B. L’area totale dei due cerchi
è l’unione di A e B (A ∪ B) e contiene tutti i risultati che sono solo parte di A, solo parte di B o parte
sia di A che di B. L’area nel diagramma al di fuori a A ∪ B contiene i risultati che non sono né parte
di A e né parte di B.
Per disegnare un diagramma di Venn è necessario prima definire gli eventi A e B. Per l’esempio del
televisore HD a grande schermo, possiamo definire gli eventi come segue:
Nel disegnare il diagramma di Venn nella Figura 4.2, bisogna determinare il valore dell’intersezione
di A e B in modo da poter dividere lo spazio campionario nelle sue componenti.
L’evento A ∪ B contiene le 200 famiglie che hanno espresso la loro intenzione di acquistare il
televisore HD a grande schermo e successivamente lo hanno realmente acquistato. Ciò che rimane
dell’evento A (acquisto pianificato) comprende le 50 famiglie che hanno pianificato l’acquisto ma
non hanno successivamente acquistato il televisore. Ciò che rimane dell’evento B (realmente
acquistato) conta le 100 famiglie che non hanno pianificato l’acquisto del televisore HD a grande
schermo ma successivamente lo hanno acquistato. Le restanti 650 famiglie rappresentano coloro
che non hanno pianificato l’acquisto e non hanno acquistato il televisore HD a grande schermo.
Probabilità semplice
Come già detto in precedenza, la probabilità è un numero che varia da 0 a 1, dove 0 è la probabilità
dell’evento impossibile e 1 è quella dell’evento certo.
La probabilità semplice è la probabilità che si verifichi un evento semplice, P(A). Una probabilità
semplice nel caso della M&R Electronics World è, per esempio, la probabilità di pianificare
l’acquisto di un televisore HD a grande schermo. Per calcolare la probabilità che, prendendo una
famiglia a caso, essa abbia pianificato l’acquisto di un televisore HD a grande schermo, si può
utilizzare:
Probabilità marginale
La probabilità marginale di un evento si può calcolare sulla base di un insieme di probabilità
congiunte riprendendo i concetti appena discussi. Per esempio, se B è formato da due eventi, B1
e B2, allora la probabilità dell’evento A, P(A), può ottenersi come somma delle probabilità
congiunte dell’evento A con l’evento B1 e dell’evento A con l’evento B2.
dove B1, B2, ..., Bk sono eventi mutuamente esclusivi e collettivamente esaustivi, definiti come
segue:
Due eventi sono mutuamente esclusivi (o incompatibili) se non possono verificarsi
contemporaneamente.
Un insieme di eventi è collettivamente esaustivo se almeno uno degli eventi deve verificarsi. Gli
eventi si dicono in questo caso necessari.
acquistato)
La regola dell’unione consiste, quindi, nel prendere la probabilità di A, sommarla alla probabilità
di B e successivamente sottrarre la probabilità dell’evento congiunto A e B, dato che l’evento
congiunto è stato già incluso sommando le probabilità dell’evento A e B. Facendo riferimento
alla tabella, se gli esiti dell’evento “acquisto pianificato” vengono sommati a coloro che hanno
“realmente acquistato”, si può facilmente vedere che l’evento congiunto “acquisto
pianificato e realmente acquistato” è già incluso in ciascuno di questi eventi semplici. Di
conseguenza, dato che l’evento congiunto è stato conteggiato due volte, bisogna sottrarlo per
ottenere il risultato corretto.
Dove:
P (A e B) = la probabilità congiunta di A e B
P (A) = probabilità marginale di A
P (B) = probabilità marginale di B
In riferimento al caso della M&R Electronics World introdotto all’inizio del capitolo, relativo
all’acquisto di televisori HD a grande schermo, supponiamo di sapere che una famiglia abbia
pianificato l’acquisto di un televisore HD a grande schermo. Qual è la probabilità che il televisore
venga realmente acquistato? In questo esempio l’obiettivo è trovare P(televisore realmente
acquistato | acquisto pianificato) dove l’informazione a disposizione, il dato che condiziona le altre
probabilità, è che la famiglia ha pianificato l’acquisto del televisore HD a grande schermo. Di
conseguenza, lo spazio campionario non comprende più tutte le 1000 famiglie intervistate, ma solo
coloro che hanno pianificato l’acquisto del televisore HD a grande schermo. Di questi 250, 200
hanno realmente acquistato il televisore. Di conseguenza, sulla base della tabella, la probabilità che
un capofamiglia acquisti il televisore avendone pianificato l’acquisto è:
Alberi decisionali
Un albero decisionale è un’alternativa alla tabella di contingenza.
Equazioni chiave
Probabilità di un evento
Probabilità condizionata
Dove:
N = numero di possibili valori che può
assumere la variabile casuale
Xi = i-esimo valore della variabile casuale
discreta X
P(Xi) = probabilità del verificarsi dell’i-
esimo valore di X
Dove:
Xi = i-esimo valore della variabile casuale
discreta X
P(Xi) = probabilità del verificarsi dell’i-
esimo valore di X
Non si confonda questo utilizzo della lettera greca π (pi) con la costante
matematica che definisce il rapporto tra la lunghezza della circonferenza e il
diametro di un cerchio, 3.141592.
La distribuzione binomiale è uno dei modelli probabilistici più utili e più diffusi. La distribuzione
binomiale viene usata quando la variabile casuale discreta rappresenta il numero di eventi di
interesse (successi) in un campione di n osservazioni (prove). La variabile casuale binomiale,
quindi, serve come modello probabilistico in tutti quei casi in cui si è interessati al numero di volte
in cui un certo evento (successo) si verifica in n prove fra loro indipendenti. La distribuzione
binomiale ha quattro caratteristiche fondamentali:
• il campione è composto da un numero dato di osservazioni (prove), n;
• ogni osservazione è classificata in una delle due categorie incompatibili ed
esaustive, successo e insuccesso;
• la probabilità che si verifichi un successo, π, è costante in ogni prova. Pertanto, anche la
probabilità che si verifichi un insuccesso, 1 – π, è costante fra tutte le prove;
• il risultato di una qualsiasi prova è indipendente dal risultato di qualsiasi altra prova. Al fine
di garantire l’indipendenza, le osservazioni possono essere estratte o da una popolazione
infinita con o senza reinserimento o da una popolazione finita con reinserimento.
Combinazioni
Dove:
n! = (n) (n – 1) ... (1) è
chiamato n fattoriale
Distribuzione binomiale
Dove:
P(X) = probabilità di
osservare X successi, dati n e π
n = numero di osservazioni (o prove)
π = probabilità di osservare un successo
in una singola prova
1 – π = probabilità di osservare un
insuccesso in una singola prova
X = numero di successi nel campione
(X = 0, 1, 2, ..., n)
Spiegazione formula:
• L’Equazione riformula il concetto già derivato intuitivamente. La variabile casuale
binomiale X può assumere qualsiasi valore intero compreso tra 0 e n. Nell’Equazione (5.5) il
prodotto π X(1 – π)n – X rappresenta la probabilità di ottenere X successi in n prove in
una particolare sequenza.
• Il termine rappresenta il numero di combinazioni in cui gli X successi possono essere
disposti nelle n prove.
Dove
P (X) = probabilità di X eventi in un’area di
opportunità
λ = numero atteso di eventi
e = numero di Nepero, una costante
matematica approssimata da 2.71828
X = numero di eventi (X = 0, 1, 2, ..., ∞)