Il 0% ha trovato utile questo documento (0 voti)
20 visualizzazioni46 pagine

Statistic A

Il documento discute l'importanza della statistica come scienza per la raccolta, analisi e interpretazione dei dati, evidenziando il suo ruolo cruciale nei processi decisionali in vari settori. Viene spiegato il concetto di popolazione statistica e campione, nonché i metodi di raccolta dei dati attraverso indagini totali e campionarie, con i relativi vantaggi e svantaggi. Infine, il testo affronta le tecniche di campionamento e l'importanza di avere campioni rappresentativi per garantire l'affidabilità dei risultati.

Caricato da

vsvy7nxdg4
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato DOCX, PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
20 visualizzazioni46 pagine

Statistic A

Il documento discute l'importanza della statistica come scienza per la raccolta, analisi e interpretazione dei dati, evidenziando il suo ruolo cruciale nei processi decisionali in vari settori. Viene spiegato il concetto di popolazione statistica e campione, nonché i metodi di raccolta dei dati attraverso indagini totali e campionarie, con i relativi vantaggi e svantaggi. Infine, il testo affronta le tecniche di campionamento e l'importanza di avere campioni rappresentativi per garantire l'affidabilità dei risultati.

Caricato da

vsvy7nxdg4
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato DOCX, PDF, TXT o leggi online su Scribd

STATISTICA

17 feb
La statistica
Cultura del dato: approccio basato su evidenze e analisi quantitative. Incoraggia la trasparenza, la
tracciabilità e l'affidabilità delle informazioni. È essenziale per migliorare i processi decisionali in ambito
aziendale, scientifico e pubblico. Richiede strumenti adeguati per la raccolta, le analisi e l'interpretazione
dei dati
Approccio quantitativo e oggettivo basato su un processo di acquisizione trasparente, che deve essere
analizzato sulla base di un contesto specifico
Anima del business + Anima della società = cultura del dato

Statistica: scienza che si occupa di raccogliere, organizzare, analizzare e interpretare dati per trarre
conclusioni e prendere decisioni informate. Fornisce risposte a specifiche domande di ricerca
UNA statistica è una misura, LA statistica è la scienza
I ruoli fondamentali:
 Aiuta a prendere decisioni informate basate su evidenze numeriche
 Supporta strategie e decisioni nella maggiorparte dei settori, come marketing, economia, medicina,
scienze sociali ma anche ingegneria
 Consente di identificare tendenze, fare previsioni e valutare il rischio
 Supporta la ricerca scientifica attraverso metodi rigorosi di analisi dei dati
Il processo statistico parte dalla raccolta dell’informazione—> l’informazione opportunamente codificata e
organizzata fornisce i Dati—> descrivono le caratteristiche di un individuo e rappresentano il punto di
partenza (dato grezzo) per attivare un processo decisionale. Ogniqualvolta osserviamo i dati, dovremmo
conoscere da dove essi provengono e come sono stati selezionati
Quindi il dato (input) dopo l’elaborazione statistica si chiamerà informazione (output), che restituisce una
lettura di un fenomeno
I dati sono soggetti a variabilità e per questo i risultati ottenuti usando i dati possono variare a loro volta

Per fare una ricerca statistica si parte da una base detta popolazione
Popolazione Statistica: è l’insieme di unità statistiche elementari, ben identificabili, delle quali interessa
studiare una o più caratteristiche ad esse comuni. Ciò che fa di un aggregato di elementi una popolazione è
proprio l’esistenza di una caratteristica presente in tutte le unità, che può diventare oggetto di analisi
Es. L’insieme delle parole di cui si compone un libro è una popolazione

Campione: è il sottoinsieme di una popolazione oggetto di indagine che viene selezionato per
rappresentarla. I criteri usati per la formazione dei campioni possono essere diversi ma, affinché le
informazioni ottenute dal campione possno essere estese alla popolazione di provenienza, è necessario che
il campione sia rappresentativo, ovvero riproduca le caratteristiche più rilevanti ai fini dell’indagine della
popolazione di origine
L’inferenza statistica si concentra sui risultati ottenuti da un campione e li estende all’intera popolazione
misurandone l’affidabilità. Osservando un campione non si può avere una piena conoscenza della
popolazione. Pertanto, facendo inferenza statistica, noi riportiamo una misura che quantifica quanto
confidiamo (misura di affidabilità) nel nostro risultato
Un obiettivo dell’inferenza statistica è l’utilizzo della statistica per stimare i parametri

1
Parametro: la misura di una caratteristica riferita ad una popolazione
 L’età media degli iscritti alle liste elettorali è 52 anni
 Il rendimento medio delle azioni è stato pari al 2.8%
 Il 78% dei redditi è inferiore a 28.000 euro

Differenza fondamentale tra statistica e parametro:


 Statistica misura una caratteristica riferita ad un campione
La statistica descrittiva consiste nell’organizzare e riassumere i dati. Essa descrive i dati attraverso la
sintesi numerica, le tabelle e i grafici
 Parametro misura una caratteristica riferita ad un’intera popolazione

La raccolta dei dati


Come si esplora o si acquisiscono i dati su una determinata popolazione statistica?
La raccolta dei dati da analizzare si effettua in 2 modi:
 Indagini totali: raccolgo i dati su tutta la popolazione attraverso:
o Indagini su nicchie di mercato
o Censimento:
 PASSATO (dai Sumeri: 3800 a.C.): dal latino census da censere, significa
rilevare/misurare. Il censimento consente di:
 Quantificare gli abitanti
 Conoscere le loro caratteristiche
 Prevedere la dinamica della popolazione (saldi demografici, saldi migratori)
Censimento italiano dal 1861 ogni 10 anni fino al 1936. Riparte il 1951 fino al 2011
 PRESENTE (dal 2018): le rilevazioni sono diventate annuali e “a campione”: ogni
anno coinvolgono 1 milione e 400mila famiglie e circa 2800 comuni. Entro il 2021,
tutti i comuni d’Italia avranno partecipato almeno una volta alle rilevazioni
Dal 2022 inizia un nuovo ciclo di censimenti permanenti
 Indagini campionarie: raccolgo i dati attraverso un campionamento. Viene condotta quando, per
svariati motivi, non è possibile rilevare tutte le unità in cui il fenomeno si presenta. Si rende
necessaria quando:
o L’ampiezza della popolazione è molto elevata
o Comporta la distruzione delle unità osservate
Si articola in 2 fasi:
o Piano di campionamento: criteri che utilizzo per la scelta
o Scelta dei campioni: devono essere rappresentativi, poche unità devono rappresentare
tutta la popolazione

2
Vantaggi e svantaggi delle indagini totali
Vantaggi:
 Forniscono una misura del fenomeno non affetta da errore campionario
 Forniscono la base per successive indagini campionarie
 Consentono un elevato dettaglio di analisi territoriale
Svantaggi:
 La realizzazione e il rilascio delle informazioni richiede tempi molto lunghi
 Costi elevati sia in termini di risorse che economici

Vantaggi e svantaggi delle indagini campionarie


Vantaggi:
 Riduzione dei costi
 Riduzione dei tempi
 Riduzione del carico organizzativo—> è possibile dedicare maggiore attenzione al miglioramento e
al controllo della qualità dei dati raccolti
Svantaggi:
 Minore dettaglio nella disaggregazione territoriale (servono campioni molto grandi per ottenere
stime attendibili a livello comunale/provinciale)
 Presenza dell’errore campionario
Garbage-in, Garbage-out: se viene fornito un insieme di dati erronei o insensati (garbage in) si produrrà un
risultato erroneo o insensato (garbage out)

Studi osservazionali ed esperimenti


Studio osservazionale: misura il valore della variabile risposta senza cercare di influenzare il risultato dello
studio
Confusione: si verifica quando gli effetti di due o più variabili esplicative non sono separati. Pertanto,
qualsiasi relazione che possa esistere tra una variabile esplicativa e la variabile risposta può essere dovuta a
qualche altra variabile o variabili non considerate nello studio
Spesso, la causa della confusione è una variabile nascosta: variabile esplicativa che non è stata considerata
in uno studio, ma che influenza il valore della variabile risposta nello studio
Le variabili nascoste sono correlate sia alle variabili esplicative che alle variabili risposta, e questa relazione
è ciò che crea l’apparente associazione tra la variabile esplicativa e la variabile risposta nello studio
Ci sono tre categorie principali di studi osservazionali:
 Studi trasversali: raccolgono informazioni su individui in un determinato momento o in un periodo
di tempo molto breve. Sono economici e veloci da fare
 Studi sul controllo dei casi: sono retrospettivi, il che significa che richiedono che gli individui
guardino indietro nel tempo o che il ricercatore guardi i dati esistenti. Gli individui che hanno una
certa caratteristica possono essere abbinati a quelli che non ce l’hanno
Possono essere fatti in modo relativamente rapido ed economico
 Studi di coorte: identifica innanzitutto un gruppo di individui che sono esposti allo stesso
fenomeno. La coorte viene poi osservata per un lungo periodo di tempo. Durante questo periodo,
vengono registrate le caratteristiche degli individui e alcuni individui saranno esposti a determinati
fattori e altri no. Alla fine dello studio viene registrato il valore della variabile risposta per gli
individui

3
Esperimento progettato: quando un ricercatore assegna gli individui partecipanti a uno studio a un certo
gruppo, cambia intenzionalmente il valore di una variabile esplicativa e poi registra il valore della variabile
risposta per ogni gruppo
Gli esperimenti progettati sono utilizzati ogni volta che il controllo di alcune variabili è possibile e
auspicabile. Questo tipo di ricerca permette al ricercatore di identificare determinate relazioni di causa ed
effetto tra le variabili dello studio. Spesso non è etico condurre un esperimento
Variabile confondente: variabile che influenza sia le variabili dipendenti che quelle indipendenti creando
associazioni spurie cioè relazioni che non appartengono a uno schema causa-effetto
Una variabile confondente è una variabile di uno studio che non ha necessariamente alcuna associazione
con l’altra variabile esplicativa, ma che ha un effetto sulla variabile risposta
La differenza tra variabili nascoste e variabili confondenti è che le variabili nascoste non sono considerate
nello studio mentre le variabili confondenti sono misurate nello studio

Piani di campionamento: selezione del sottoinsieme probabilistico non probabilistico

Ricapitolando
 Dato primario: dato rilevato per prima volta
 Dato secondario: dato «riutilizzato»
 Fonti: Istat, Banca d’Italia, Banche dati
 Statistica: studia fenomeni collettivi
 Popolazione: totalità unità statistiche esposte allo stesso
fenomeno nello stesso momento
 Campione: parte della popolazione
 Parametro: misure statistiche riferite alla popolazione
 Statistica: misure statistiche riferite al campione
 Errore campionario: errore legato alla scelta della selezione delle
unità statistiche

4
18 feb
CAMPIONE STATISTICO
Es: BULLISMO E CYBERBULLISMO. PARLANO I RAGAZZI, ATTRAVERSO I DATI DELL'OSSERVATORIO INDIFESA
4 febbraio, 2021
Bullismo e Cyberbullismo rimangono una delle minacce più temute tra gli adolescenti, dopo droghe e
violenza sessuale. Ne è vittima il 61%. Ragazzi e ragazze non si sentono al sicuro sul web e dopo il
cyberbullismo, è il Revenge porn a fare più paura, soprattutto tra le ragazze
Nell'anno del covid-19 i giovani esprimono tutta la sofferenza per il senso di solitudine, il 93% di loro afferma
di sentirsi solo, con un aumento del 10% rispetto all'anno precedente
L'osservatorio indifesa, realizzato nel corso del 2020, anche quest'anno ci riporta una fotografia della realtà
raccontata direttamente dai ragazzi, attraverso le risposte di 6.000 adolescenti, dai 13 ai 23 anni provenienti
da tutta Italia.
Preoccupano i numeri di quella che sembra essere un'esperienza di sofferenza quotidiana per troppi giovani:
il 68% di loro dichiara di aver assistito ad episodi di bullismo, o cyberbullismo, mentre ne è vittima il 61%
Ragazzi e ragazze esprimono sofferenza per episodi di violenza psicologica subita da parte di coetanei
(42,23%) e in particolare il 44,57% delle ragazze segnala il forte disagio provato dal ricevere commenti non
graditi di carattere sessuale online. Dall'altro lato l'8,02% delle ragazze ammette di aver compiuto atti di
bullismo, o cyberbullismo, percentuale che cresce fino al 14,76% tra i ragazzi
Quanti sono i ragazzi italiani in età dai 13-23 anni? Circa 6.000.000→0.001

Gli studi basati sull’osservazione degli individui possono essere condotti attraverso un’indagine. In questi
casi, il ricercatore deve anzitutto identificare la popolazione oggetto di studio. Per praticità si identifica un
campione inteso come sottoinsieme della popolazione. Le unità componenti il campione possono essere
selezionate in modo probabilistico (casuale) o non probabilistico
Campione rappresentativo: le caratteristiche degli individui nel campione rappresentano le caratteristiche
degli individui nella popolazione. Un campione è rappresentativo di una popolazione se e solo se la scelta
degli individui da campionare si basa sulla casualità piuttosto che sulla comodità

Regolare i sondaggi è di fondamentale importanza perché si devono basare sulla trasparenza e sulla
veridicità dei dati
5
Tipologie di campione

Campione probabilistico
Nel campione probabilistico tutti hanno la stessa possibilità di essere selezionati per appartenere al
campione. Ciascuna unità della popolazione è selezionata in maniera casuale e ha una probabilità positiva e
nota di entrare a far parte del campione
George Gallup: campionamento casuale delle famiglie per analisi delle elezioni politiche
 3000 famiglie contattate
 17.3%tasso di risposta
Risultato sondaggio: Vittoria di Roosvelt (errore del 1%)

Metodi:
 Campionamento casuale semplice: un campione di numerosità n è ottenuto attraverso il
campionamento casuale semplice da una popolazione di N unità se ogni possibile campione di
numerosità n ha la stessa probabilità di essere selezionato

o Conoscere a priori tutte le unità della popolazione—> lista di campionamento (frame)


o Tutte le unità hanno la stessa probabilità di essere selezionate e devono essere reperibili
o Si deve procedere all’estrazione casuale delle unità
Una lista di campionamento (frame) è un elenco di tutti gli individui della popolazione
La selezione del campione casuale semplice può essere fatta secondo due modalità distinte:
o Con reinserimento: l’unità selezionata viene reinserita nella popolazione e può essere
estratta di nuovo
o Senza reinserimento: l’unità selezionata viene rimossa dalla popolazione e non può più
essere scelta, questo consente di non introdurre due volte la stessa unità—> quasi sempre

6
 Campionamento stratificato: è ottenuto separando la popolazione in sottogruppi tutti diversi tra
loro (omogenei all’interno ma eterogenei all’esterno) chiamati strati. Da ogni strato, vengono poi
estratte le unità con un campionamento casuale semplice, che formeranno il campione finale

Un vantaggio del campionamento stratificato rispetto a quello casuale semplice consiste nella
possibilità di ottenere le stesse informazioni, o addirittura informazioni maggiori, facendo un
sondaggio su un numero inferiore di persone. Inoltre garantisce che ogni strato sia rappresentato
nel campione
Quante unità:

ESEMPIO:

7
Formula: percentuale componenti totali X ampiezza campione che voglio trovare
Se il rettore avesse voluto fare l’indagine su un campione di 300 allora avrei dovuto moltiplicare le
% x 300

 Campionamento sistematico: si ottiene selezionando ogni k-esima unità dalla popolazione. La


prima unità che viene selezionata corrisponde a un numero casuale compreso tra 1 e k
Non richiede un frame, quindi può essere utilizzato quando non è possibile reperire un elenco degli
individui appartenenti alla popolazione da studiare
Es: Selezioniamo casualmente un numero tra 1 e 8, per esempio il 5. Questo significa che
includeremo nell’indagine il quinto, il tredicesimo (5 + 8), il 21-esimo (13 + 8) il 29-esimo (21 + 8)
individuo e così via fino a raggiungere l’ampiezza campionaria desiderata
Il valore k (passo di campionamento/frazione di campionamento) dovrebbe essere scelto tenendo
conto del fatto che, se eccessivamente elevato, non si raggiunge l’ampiezza campionaria desiderata
Dall’altro, dovremmo tenere conto che un parametro troppo piccolo comporterebbe la costituzione
di un campione non rappresentativo della popolazione
Determinare k quando l’ampiezza della popolazione N è nota a priori risulta relativamente semplice
Es: popolazione la cui grandezza è nota e pari a N = 20325 e desideriamo un campione di
grandezza n = 100. Calcoliamo N/n e arrotondiamo all’intero più vicino. Per esempio, 20325/100 =
203.25, e dunque k = 203. Selezioniamo, in seguito, un numero compreso fra 1 e 203, e
selezioniamo un individuo ogni 203. In questo modo, se procediamo a selezionare casualmente 90
come punto di partenza, includeremo nel campione il 90-esimo, il 293-esimo, il 496-esimo, …, il
20187-esimo
Passaggi per un campionamento sistematico:
1. Approssimare l’ampiezza della popolazione, N

2. Determinare l’ampiezza desiderata del campione, n

3. Calcolare N/n e arrotondare all’intero più vicino—> questo è il valore di k

4. Selezionare a caso un numero compreso tra 1 e k. Chiamare questo numero p

5. Il campione sarà composto dai seguenti individui: p, p + k, p + 2k, …, p + (n – 1)k


 Campionamento a grappolo: ottenuto selezionando tutti gli individui all’interno di un gruppo
(cluster) individuato casualmente. In questo campionamento dividiamo la popolazione in gruppi,
8
ottenendo un campione casuale semplice degli stessi e intervistando tutti gli individui che
appartengono ai cluster selezionati. Viene utilizzato quando il raggruppamento è naturale, cioè già
suddiviso naturalmente in grappoli
È rappresentativo perché la variabilità è tutelata da raggruppamenti omogenei
La differenza tra il campionamento sistematico e quello a grappolo è che???????
In primo luogo, dobbiamo determinare se gli individui all’interno del cluster individuato sono
omogenei (simili) o eterogenei (differenti)
o Se i cluster sono composti da individui fra loro omogenei, è preferibile aumentare il numero
dei cluster, scegliendoli con poche osservazioni
o Se i cluster sono eterogenei, possiamo selezionarne un numero ridotto contenenti però
molti individui

 Campionamento a due stadi: rappresenta una variante del campionamento a grappoli. Si differenzia
da questo poiché sostituisce la fase finale di rilevazione totale delle unità all’interno dei grappoli
con un’estrazione casuale
È un esempio di piani di campionamento complessi: insieme di più tipologie di campionamento
Un campione a due stadi è ottenuto selezionando:
1. Al primo stadio un certo numero di grappoli, con un’estrazione casuale
2. Al secondo stadio, da ciascun grappolo si seleziona un certo numero di unità campionarie,
sempre attraverso un’estrazione casuale senza ripetizione
Vi sono delle situazioni in cui l’elenco delle unità delle popolazioni (lista) è eccessivamente lungo o
complicato da costruire. In tal caso si è soliti ricorrere al campionamento a due stadi che consiste in
due estrazioni consecutive
Esempio: Indagini sui consumi delle famiglie italiane
1° stadio: si estraggono i Comuni italiani
2° stadio: si estraggono delle famiglie dai Comuni selezionati al primo stadio
(proporzionalmente alla dimensione del singolo campione)
Indagini sui consumi, forze di lavoro, ecc

9
Campione non probabilistico
Non è rappresentativo perché le unità statistiche non hanno tutte le stesse probabilità di essere selezionate
dal campione—> gli individui inclusi nell’indagine sono selezionati in maniera non casuale e non è nota la
sua probabilità di essere inclusa nel campione
Si utilizza quando lo scopo è esplorativo e ha un margine d’errore alto. Gli studi che utilizzano il
campionamento non probabilistico generalmente forniscono risultati poco affidabili che dovrebbero essere
osservati con grande scetticismo
The Liberty Digest: selezione ragionata di famiglie che possedevano:
 Auto & Telefoni fissi ed erano iscritti ai country club—> le persone di un ceto più basso non vengono
considerate
 10 Milioni di questionari spediti
 2,3 Milioni di risposte
Risultato sondaggio: Vittoria di Landon 3 a 2
Metodi:
 Campione di comodo: il ricercatore sceglie in maniera arbitraria le unità più facilmente raggiungibili,
magari sfruttando le proprie relazioni (es. televoto)
 Campione a risposta volontaria: gli individui nel campione si auto-selezionano, ovvero decidono
autonomamente di partecipare all’indagine
 Campione a scelta ragionata: le unità campionarie vengono scelte dal ricercatore in base ad alcune
loro caratteristiche, perché meglio rappresentano il fenomeno in esame; di solito si utilizza quando
l’ampiezza del campione è limitata
 Campione per quote: analogo al campionamento stratificato, ma le quote all’interno di ciascuno
strato sono selezionate dai ricercatori con criteri non probabilistici. Si estraggono sottogruppi con
caratteristiche omogenee
 Campione a valanga: selezione di alcune unità statistiche che si riescono a raggiungere e poi, a
partire da esse, si raggiungono le altre
Esempi:
o Immigrati non regolari
o Senza fissa dimora
o Tutte quelle persone che non sono comprese nelle liste ufficiali della popolazione e non
potrebbero essere raggiunte in altro modo

Ampiezza del campione


La ricerca dovrebbe porsi questa domanda: “Quanti individui devo intervistare per trarre conclusioni sulla
popolazione con un margine di errore predeterminato?” I ricercatori dovrebbero trovare il corretto
equilibrio tra l’affidabilità dei risultati e i costi per l’ottenimento degli stessi

Spiegare le fonti degli errori di campionamento


Se i risultati di un campione non sono rappresentativi della popolazione, allora il campione ha un errore
La parola errore potrebbe significare che si preferisce selezionare alcuni individui piuttosto che altri
Potrebbe anche significare che alcune delle risposte ottenute siano ascrivibili più al campione che alla
popolazione
Errore di campionamento: si riferisce al fatto che le tecniche usate per selezionare gli individui da includere
nel campione tendono a favorire una parte della popolazione piuttosto che un’altra

10
Gli errori di campionamento sono dovuti anche alla sottocopertura: si verifica quando la proporzione di un
segmento della popolazione è più bassa nel campione che nella popolazione. La sottocopertura può
manifestarsi quando la lista di campionamento usata per ottenere il campione è incompleta o non
rappresentativa della popolazione
Es: nei sondaggi dell’opinione pubblica, si conducono frequentemente interviste attraverso telefonate
casuali. Ciò implica che la lista di campionamento è formata da tutte quelle famiglie che possiedono il
telefono. Questo metodo di campionamento escluderà perciò quelle famiglie che non possiedono
l’apparecchio telefonico, come per esempio i senzatetto

Errore legato ai non rispondenti: si presenta quando gli individui appartenenti al campione che non hanno
risposto all’indagine hanno opinioni differenti da coloro che invece vi partecipano. I non rispondenti sono gli
individui inclusi nel campione che non desiderano rispondere all’indagine o che l’intervistatore non riesce a
contattare
Un metodo per ridurre il problema dei non rispondenti è usare un meccanismo a premi e incentivi. I premi
possono includere il pagamento in contanti per completare il questionario. Gli incentivi possono includere
una lettera di accompagnamento che dichiara che le risposte al questionario determineranno la futura
politica del paese

Errore legato ai rispondenti: si presenta quando le risposte sull’indagine non riflettono i veri sentimenti
degli intervistati
 Errore dell’intervistatore: un buon intervistatore sarà in grado di mettere l’intervistato a proprio
agio, al punto da ottenere risposte veritiere
 Risposte travisate: alcune domande dell’indagine portano a risposte che travisano i fatti o sono
bugie senza mezzi termini
 Formulazione delle domande: può influenzare significativamente le risposte e, quindi, la validità
dell’analisi
Es: (A) Pensi che gli Stati Uniti dovrebbero proibire i discorsi pubblici contro la democrazia?
(B) Pensi che gli Stati Uniti dovrebbero permettere i discorsi pubblici contro la democrazia? Il 21.4%
degli intervistati a cui è stata posta la domanda A ha risposto “sì”, mentre il 47.8% a cui è stata
posta la domanda B, ha risposto “no”. La conclusione è che la maggior parte delle persone non se la
sente di appoggiare misure proibizioniste
 Ordinamento delle domande o delle parole: molte indagini riorganizzeranno l’ordine delle
domande all’interno di un questionario in modo che le risposte non siano influenzate dalle
domande precedenti
 Errore legato all’inserimento dei dati: una volta raccolti i dati, i risultati di solito devono essere
inseriti in un computer, ma tale procedura potrebbe generare errori di immissione

Errori legati al censimento: del tutto plausibile che una domanda fra quelle prescelte per condurre un
censimento venga fraintesa, portando in tal modo l’intervistato a rispondere in modo non corretto
Errori non legati al campionamento: derivano da risposte mancanti, risposte errate o inserimento non
corretto dei dati. Questi potrebbero presentarsi anche in un censimento completo della popolazione
Errori di campionamento: derivano dall’utilizzo di un campione per la stima di informazioni riguardanti una
determinata popolazione. Tale tipo di errore si verifica poiché un campione fornisce informazioni
incomplete relative alla popolazione

11
24 feb
VARIABILI E MODALITÀ
Il processo statistico
1. Identificare l’obiettivo della ricerca: un ricercatore deve definire le domande di ricerca a cui intende
fornire una risposta
2. Raccogliere i dati necessari per fornire una risposta alle domande del punto 1 : se i dati non sono
raccolti correttamente, le conclusioni che si traggono sono prive di significato
3. Descrivere i dati: le statistiche descrittive permettono al ricercatore di ottenere una panoramica
generale dei dati
4. Fare inferenza: applicare le tecniche appropriate per estendere i risultati ottenuti dal campione alla
popolazione e riportare un livello di affidabilità dei risultati medesimi

Per realizzare una ricerca statistica serve:


 Un fenomeno da analizzare
 Si sviluppa un questionario
 Seleziona un piano di campionamento (probabilistico, non probabilistico)
 Si somministra l’indagine (CATI, CAPI, CAWI, CAMI)
 Si raccolgono i dati

Variabili: aspetti che caratterizzano il fenomeno che voglio analizzare. Sono le caratteristiche di un individuo
appartenente alla popolazione (es. sesso degli individui in un’aula). Vengono utilizzate per misurare la
caratteristica corrispondente ad ogni unità statistica

12
 Qualitative/Categoriche: consentono la classificazione delle unità statistiche sulla base di alcuni
attributi, caratteristiche o qualità. Le modalità possono essere:
o Espressioni di un elenco non numerato (Colore dei capelli: Biondo, verde, nero; Colore degli
occhi: Verde, Azzurro, Nocciola; Genere: F,M,A)
o Espressioni di un elenco numerato (Livello di istruzione: Analfabeta,…, Dottore di ricerca)
 Quantitative: forniscono una caratteristica numerica delle unità statistiche. Le modalità possono
essere:
o Discrete/ Numerabili: esprimibili senza la virgola. Le modalità assumono un numero finito o
un’infinità numerabile di valori (numero di figli)—> conteggio
o Continue/ Esprimibili in un intervallo: implica l’espressione con un sistema decimale, con la
virgola. Le modalità assumono un numero infinito di possibili valori che non sono
numerabili (peso, altezza, distanza)—> misurazione
Modalità: modo in cui la variabile si presenta. Sono le singole caratteristiche delle variabili (es. maschio,
femmina, altro)
Attraverso le modalità andiamo a individuare il numero di volte in cui le variabili si presentano

Ricapitolando:

27 feb
Nomenclatura:
 X (in maiuscolo): indica i diversi caratteri o variabili, generalmente possono utilizzare anche Y, Z
 x (in minuscolo): indica la modalità, la generica modalità si indica con i, i-esima
 ni: indica la frequenza associata alla modalità i-esima corrispondente
Attenzione: carattere e modalità devono essere indicati con la stessa lettera
Metodo: rappresenta un possibile suggerimento per la risoluzione del problema, ma non è l’unico modo
per risolvere il problema, poiché problemi differenti possono essere affrontati con diversi approcci
comunque validi

Organizzare i dati qualitativi—Distribuzioni di frequenza


L’identificativo del nostro collettivo statistico non è considerabile come una variabile. Le caratteristiche che
si vanno ad analizzare sono: voto statistica (X), voto sociologia(Y). Le modalità sono 20x1…; 25y1…
Un profilo di riga permette di vedere le modalità di X e Y per quello studente
Se mi concentro sulla colonna allora vedrò tutte le modalità con cui ricorre la variabile X
Distribuzione di frequenza: insieme/rappresentazione tabellare delle modalità delle variabili e del numero
di volte con cui le modalità si presentano (frequenza). Insieme di modalità e frequenza
13
La distribuzione di frequenze è la base della costruzione della rappresentazione grafica/data visualisation,
una delle possibili modalità per visualizzare le informazioni
Frequenza (ni letto “n con i”): numero di volte con cui la modalità si presenta (es. quante volte la modalità
19 si presenta nella variabile età). Dal dato grezzo ci permette di arrivare ad una conclusione di un’indagine
che stiamo facendo
I dati da cui si parte sono chiamati dati grezzi che, dopo l’elaborazione statistica, si trasformeranno in
informazione sintetica. Il dato grezzo è una distribuzione unitaria. Il passaggio all’informazione sintetica
significa quindi passare da una Distribuzione unitaria (che non mi da un’informazione finale e sintetica) ad
una Distribuzione di frequenza (che mi restituisce un dato sintetizzato, ottenendo quindi un’informazione
che mi dice qualcosa)

Si legge sommatoria per i che varia da i a k (i è sempre il punto di partenza, numero iniziale delle modalità,
e k è sempre il punto di arrivo, numero finale delle modalità)
Per capire da quante unità statistica formano la collettività devo eseguire la sommatoria, ma il collettivo
corrisponde alla somma delle frequenze
Se tutte le frequenze sono pari ad 1 si parla di distribuzione di Frequenze Unitaria. Nel caso in cui tutte le
modalità hanno lo stesso numero di frequenza si parla di Distribuzione di frequenza uniforme
Per ottenere il numero di frequenze se le modalità sono tante si può usare excel in due modi:
 Uso il conta.se (estremi delle modalità, “19”)
 Uso le tabelle PIVOT: seleziono la colonna comprendente X e modalità annesse, poi vado du
“inserisci”, prendo ETA’ e la trascino sulle righe e su valori, ma non voglio somma delle età, ma
impostazioni campo valore e scegliere CONTEGGIO
Distribuzione di frequenza assoluta (N): conteggio di frequenze assolute
Es. quante volte il 19 si presenta?
Elenca tutte le tipologie di modalità riportando, per ciascuna di esse, il
corrispondente numero di occorrenze osservate
Il punto di partenza per spiegare le distribuzioni di frequenze assolute è quella
dello spoglio: partendo da una lista, vado a vedere quante volte il voto per ogni
candidato si presenta (riferendosi all’esempio dei candidati per le elezioni)
—> segno una stanghetta per quante volte si presenta la modalità e poi le sommo
per avere il totale
Collettivo statistico: totale delle frequenze

Distribuzione di frequenze relative: elenca ciascuna categoria o modalità assieme alla corrispondente
frequenza relativa—> corrisponde alla proporzione (o percentuale) di osservazioni appartenenti a una
determinata categoria rispetto al totale delle osservazioni
Frequenza assoluta
Frequenza relativa=
Somma totale delle frequenza assolute
14
È utile sommare tutte le frequenze relative per assicurarci che il totale sia pari a 1. Se stiamo utilizzando le
frazioni, la somma deve essere esattamente pari a 1, mentre se stiamo lavorando con i numeri decimali, la
somma potrebbe leggermente differire da 1 a causa degli arrotondamenti
Tipologie di tabelle
 Tabelle caratterizzate da modalità non aggregate
—> distribuzioni di frequenze
 Tabelle caratterizzate da modalità aggregate
—> distribuzione di frequenze in classi (solo per
dati discreti e continui)

Distribuzioni di frequenze in classi: quando i dati sono quantitativi, la costruzione


delle distribuzioni di frequenze si può fare raggruppando le singole modalità in classi
—> intervalli numerici
Classi: categorie in cui raggruppiamo i dati. Quando un dataset è costituito da dati
discreti con un numero relativamente ridotto di valori differenti fra loro, le classi da
utilizzare per determinare la distribuzione di frequenze assolute coincidono con i
valori stessi assunti dalla variabile
Le classi non si sovrappongono e sono di uguale ampiezza (tranne nella tabella aperta
nella quale non viene fissato il limite inferiore della prima classe o il limite superiore dell’ultima classe)
Si utilizza questa distribuzione per avere una prima sintesi del fenomeno rappresentato da molteplici
modalità
L’obiettivo, quando si costruisce una distribuzione di frequenze, è identificare particolari e interessanti
caratteristiche dei dati. Per questo motivo quando si costruisce una distribuzione di frequenze assolute si
cerca di avere un numero di classi compreso tra 5 e 20: se il dataset è piccolo, preferiremo un numero di
classi ridotto, mentre se il dataset è piuttosto grande, cercheremo di avere un numero di classi più elevato
La suddivisione in classi è opportuna quando:
 Variabili quantitative discrete—> se hanno molte modalità
 Variabili quantitative continue—> sempre
Procedimento:
1. Individuare il range delle modalità: differenza tra il valore massimo della modalità della
distribuzione e il valore minimo della modalità della distribuzione
2. Individuare il numero di classi attraverso la formula: k = 1 + 3,331 – LogN
3. Calcolare gli estremi delle classi: calcolare l’ampiezza tra la prima e l’ultima
classe—> Range/k

Le classi sono caratterizzate da:


 Limite inferiore: il più piccolo valore contenuto nella classe
 Limite superiore: il valore più elevato contenuto nella classe
 Ampiezza: differenza tra il limite inferiore di una classe e il limite inferiore della classe successiva

15
Le classi per variabili quantitative continue si possono rappresentare anche nel modo seguente:

3 mar
APPROFONDIMENTO—LA STATISTICA NEL CONTESTO LAVORATIVO
5 domande frequenti:
1. Quanti soggetto occorre intervistare per conoscere se il nostro nuovo prodotto sarà un successo o
un flop?
2. A quale prezzo dobbiamo/possiamo metterlo sul mercato?
3. A chi dobbiamo rivolgerci?
4. Quali dati ci aiuteranno a decidere?
5. Come ci presentiamo i risultati ai nostri responsabili?
5 risposte necessarie:
1. Definire la numerosità campionaria: è facile da calcolare ma difficile da spiegare—> l’intervallo di
confidenza non è la stima dell’errore (utilità dell’analogica con il tiro a bersaglio)
2. Verificare la dinamica tra valore percepito e prezzo di acquisto—> price sensitivity measurement
(PSM):
o Comprendere quali sono le soglie minime e massime accettate di un prezzo, l'ampiezza del
range e la sua dinamica interna (elasticità) è un primo, ma necessario passo per ridare al
consumatore un ruolo centrale nella costruzione del marketing mix anche per ciò che
riguarda il costo di vendita
o PSM è il modello sperimentalmente che il nostro Istituto giudica più utile a questo scopo
o All'interno di un processo di ricerca permette infatti di verificare tutti i principali parametri
che concorrono nella definizione del prezzo:
Punto di equilibrio/indifferenza: rappresenta il valore che il target giudica come il
prezzo più frequentemente riscontrato nel mercato (per un determinato prodotto). Questo
valore, di solito, si avvicina al costo di acquisto del prodotto più diffuso, quello che viene
giudicato né conveniente, né costoso
Punto ottimale : è il prezzo più vantaggioso dal punto di vista del cliente, quello che
minimizza le resistenze (il più conveniente) senza peraltro eccedere nella direzione della
scarsa qualità (troppo conveniente)
Intervallo di accettabilità: indica il range entro il quale un prezzo può oscillare
rimanendo comunque, agli occhi del consumatore un acquisto possibile
o Il percorso d'analisi:
 Fattore conveniente: a quale prezzo questo prodotto comincerebbe a diventare
conveniente per lei?
 Fattore costoso: a quale prezzo questo prodotto comincerebbe a diventare costoso
per lei?

16
 Fattore troppo costoso: a quale prezzo questo prodotto comincerebbe a diventare
così costoso da non farglielo comprare?
 Fattore troppo conveniente: a quale prezzo questo prodotto comincerebbe a
diventare così conveniente da farle dubitare della sua qualità?
3. Identificare il profilo socio-demografico del target primario
4. Trovare i driver di scelta e stimare la loro potenzialità
5. Creare processi decisionali Data-driven
6 mar
Scala di misurazione di una variabile

Scala di misura: modo in cui una variabile viene misurata, identificata


 Variabili mutabili/qualitative rilevate su scala:
o Scala nominale: relazione tra le modalità di similitudine o dissimilitudine. Le modalità sono
concepite come se fossero un elenco di specifiche caratterizzate solo dall’appartenenza alla
variabili. È il livello più basso di misurazione
Rilevazione di una variabile quando le sue modalità sono nomi, etichette o categorie
Inoltre, fra le modalità stesse non è possibile istituire nessun tipo di ordinamento (es.
genere)
o Scala ordinale: rilevazione di una variabile quando presenta le proprietà della scala
nominale e fra le modalità del carattere è possibile istituire uno specifico ordine (es. titolo
di studio)

 Variabili quantitative rilevate su scala:


o Scala a intervalli: rilevazione della variabile quando gode delle stesse proprietà della scala
ordinale e le differenze delle sue modalità hanno significato—> un valore pari a zero nella
scala di misurazione a intervalli non significa assenza di quantità—> lo 0 non è l’origine dei
dati (es. temperatura)
Sono consentite le operazioni aritmetiche elementari di somma e sottrazione per
confrontare i singoli valori numerici e i rapporti e le moltiplicazioni per confrontare le
17
differenze tra valori numerici. Ad esempio, si può affermare che la differenza di punteggio
tra Giovanna e Andrea è uguale a quella tra Pasquale e Roberta?
Punteggio(Giovanna)=2
Punteggio(Andrea)=4
Punteggio(Pasquale)=5
Punteggio(Roberta)=3
o Scala di rapporti: rilevazione variabile quando ha le stesse proprietà della scala a intervalli
e i rapporti dei suoi valori significativi hanno un significato logico—> un valore pari a zero
nella scala di rapporti significa assenza della quantità—> lo 0 rappresenta l’origine (es.
numero di volte che uno studente universitario è andato al cinema la scorsa settimana)
Consentono tutte le operazioni aritmetiche elementari (somma, sottrazione,
moltiplicazione e divisioni) per confrontare i singoli valori numerici
Ad esempio, si può affermare che Andrea percorre una distanza doppia rispetto a quella
percorsa da Giovanna?
Distanza(Giovanna)=2
Distanza(Andrea)=4
È possibile esprimere tale rapporto grazie alla presenza di uno zero assoluto come punto di
partenza della scala(km 0)
Quando classifichiamo le variabili in accordo alla loro scala di misurazione, è estremamente importante
riconoscere che cosa misura la variabile

Frequenze
 Frequenze Relative(fi): ciascuna frequenza divisa per il totale (confrontare distribuzioni diverse)
Corrisponde alla frazione (o proporzione) del collettivo che presenta la modalità i

 Frequenze Percentuali (pi): frequenze relative moltiplicato per 100 (confrontare distribuzioni
diverse)
Si ottiene moltiplicando la frequenza relativa per 100

 Frequenze Relative Cumulate(Fi): somma consecutiva delle frequenze relative. È data dalla somma
della frequenza relativa associata a quella modalità con quella delle modalità precedenti

 Frequenze Percentuali Cumulate(Pi): somma consecutive delle frequenze percentuali

18
È data dalla somma della frequenza percentuale associata a quella modalità con quella delle
modalità precedenti

Distribuzione di Frequenze cumulate (Ni): frequenza cumulata riferita alla modalità i, indicata con Ni , è data
dalla somma della frequenza assoluta associata a quella modalità con quella delle modalità precedente
Quando le variabili sono ordinali o quantitative, si può calcolare la distribuzione delle frequenza cumulate
Le frequenza cumulate(Ni) ci dicono le unità del collettivo che presentano la modalità considerata e/o una
modalità precedente
Domanda: quanti sono gli individui che hanno titolo di studio minore o uguale a “media superiore”? E quelli
con“età minore o uguale 21 anni”?

10 mar
19
RAPPRESENTAZIONI GRAFICHE
I grafici rappresentano una forma primordiale di
comunicazione. Lo sviluppo dei grafici é stato
(ed è tuttora) caratterizzato da finalità
descrittive e strategiche
Forte impulso alla diffusione dei grafici è
imputabile alla diffusione dei pc—> genesi di
Infografica, Data Visualization, Graphic Design
Le rappresentazioni grafiche si dividono in:
 Quantitativi:
o Grafico a punti
o Istogrammi
o Serie temporali
 Qualitativi:
o Pictogrammi
o Grafico a torta
o Grafico a barre
Le rappresentazioni grafiche hanno lo scopo di descrivere una distribuzione di frequenze o di intensità, in
funzione delle modalità, qualitative o quantitative, di una o più variabili
 Figure
 Linee e segmenti
 Superfici o aree
 Solidi
 Simboli convenzionali
Come scegliere un tipo di rappresentazione o l’altra?

Pictogrammi
Sono i più semplici. Rappresentazioni grafiche associate alle variabili qualitative misurate su scala nominale
Errore più comune: proporzioni dato-grandezza errate

Grafico a torta
Sono solitamente utilizzati per presentare le frequenze relative di un
carattere qualitativo, che può essere di tipo nominale od ordinale
I grafici a torta possono essere creati solo se tutte le modalità della
variabile considerata sono rappresentate. Sono utili per mostrare tutti
i possibili valori di una variabile qualitativa attraverso la
rappresentazione di tutte le sue parti (o settori)
Impiegato per visualizzare l’impatto o il peso che la modalità ha sul
totale: si calcola usando le frequenze relative o percentuali—> ad ogni
modalità di associa uno spicchio o una fetta di torta o meglio un
settore circolare

20
Ci sono delle formule per determinare l’ampiezza dell’angolo del settore, che sfruttano le frequenze
assolute e relative:
Frequenza assoluta
X 360 ° →cio è frequenzarelativa X 360 °
Totale frequenze
La formula considera il peso (ampiezza dell’angolo centro) associato alla modalità di ciascuna modalità
rispetto al totale

Grafico a barre o Barplot


I grafici ci permettono di visualizzare i dati e di comprendere il contributo informativo apportato dalle unità
statistiche in esame—> non voglio mostrare il peso ma solo l’andamento delle frequenze usando delle
colonne o delle barre orizzontali
Uno dei sistemi più comuni per rappresentare graficamente i dati qualitativi è il grafico a barre, con cui
possiamo facilmente presentare sia i dati nominali sia quelli ordinali
Il diagramma di Pareto è un grafico a barre le cui le frequenze sono organizzate in ordine decrescente
Evitare che la scala dell’asse y inizi da un valore diverso da 0 oppure che le barre abbiano ampiezza diversa,
siano di colori differenti o tridimensionali, in quanto potrebbero rappresentare in modo errato i dati
Un grafico a barre verticali (o orizzontali) è costruito indicando ciascuna modalità sull’asse orizzontale (o in
quello verticale) e la corrispondente frequenza assoluta o relativa sull’altro asse. Per ciascuna modalità
disegniamo un rettangolo con altezza pari alla frequenza assoluta o relativa della categoria stessa e con
ampiezza costante per tutte le barre del grafico
In un grafico a barre le modalità della variabile sono rappresentate da rettangoli distanziati la cui altezza, se
costruito in modo standard, (o lunghezza se orizzontale) è proporzionale alla frequenza (assoluta, relativa o
percentuale)
 Variabili qualitative su scala nominale o ordinale—> uso solo lasse verticale

 Variabili quantitative discrete—> uso entrambi gli assi

Sono utili per comparare le differenti parti di una variabile, non necessariamente rispetto all’intero
 Grafico a barre affiancate: per evitare che la comparazione sia influenzata dalla dimensione della
popolazione o dalla numerosità campionaria, quando si confrontano differenti insiemi di dati
conviene utilizzare le frequenze relative, ricordandoci però che queste da sole non sono sufficienti
 Grafico a barre orizzontali: si ricorre quando i nomi delle categorie sono molto lunghi
La larghezza delle barre non è importante e e non viene presa in considerazione

21
Grafico a punti
Si ottiene indicando su una retta orizzontale le osservazioni del carattere quantitativo in ordine crescente e
ponendo un punto sopra di esse ogni volta che nei dati si riscontra una frequenza assoluta. Può essere
utilizzato per presentare velocemente i dati

Tabella a doppia entrata


Ci sono due modalità per ogni ripartizione. Da la possibilità di rilevare contemporaneamente due o più
variabili diverse (es. voglio rappresentare contemporaneamente il colore degli occhi e quello dei capelli)

Grafico per serie storiche


La serie storica è composta da valori delle variabili oggetto di studio che
misurano differenti punti nel tempo
Le serie storiche si rappresentano con un diagramma cartesiano a linee in
base a un sistema dimetrico:
 Sull’asse orizzontale (ascisse): tempo in cui la variabile viene misurata
 Sull’asse verticale: il corrispondente valore della variabile osservata, rilevato a quella data
—> poi si uniscono i punti tramite i segmenti rettilinei
I dati sono riportati in tabelle in cui la prima colonna fa riferimento alle date e la seconda colonna
all’intensità associata a ciascuna data

Istogramma
È una distribuzione di frequenze in classi per variabili di tipo continuo
In un istogramma si opera sulle classi che vengono rappresentate da
rettangoli non distanziati, con basi uguali o diverse
Si costruisce disegnando un rettangolo per ciascuna classe di dati
L’altezza di ciascun rettangolo rappresenta la frequenza assoluta (o
relativa) della corrispondente classe di dati, mentre la base misura
l’ampiezza della classe ed è uguale per tutte le modalità ed è
tale che tutti i rettangoli si tocchino fra loro
I rettangoli sono uno attaccato all’altro perché le variabili sono
continue
Viene utilizzato per le variabili quantitative. La variabile viene
raggruppata in classi di uguale ampiezza—> I’altezza del
rettangolo è proporzionale alla frequenza della classe
n° classi= n°rettangoli

Istogramma con ampiezza delle classi diverse: in questo caso


l’altezza del rettangolo non può essere associata alla frequenza assoluta, quindi devo usare le frequenze
specifiche (o densità di frequenza)—> l’altezza del rettangolo dipende dalla densità di frequenza della classe
Istogramma per variabili quantitative raggruppate in classi di ampiezza diversa—> I’altezza del rettangolo è
22
proporzionale alia densità di frequenza della classe:
 di= densità di frequenza associata alla classe i-esima
 ni= frequenza assoluta associata alla classe i-esima
 ai= ampiezza della classe i-esima

Spesa per acquisti in Internet dell’ultima settimana:

Errore comune—> asse


verticale compresso

Rappresentazioni
grafiche errate
Le rappresentazioni
grafiche rendono più diretto il messaggio presente nei dati grezzi o nelle tabelle dei dati
Ci sono occasioni in cui i grafici possono risultare:
 Fuorvianti: determinano un’impressione errata dei dati in modo non intenzionale
 Ingannevoli: se tentano appositamente di fornire un’idea sbagliata dei dati
Le più comuni rappresentazioni errate dei dati sono determinate da una manipolazione dell’unità di misura,
tipicamente si utilizza un sistema di misura incoerente o un’origine mal posizionata. È possibile che la
posizione della scelta nella domanda influenzi le risposte
Ricorrere a grafici tridimensionali e fortemente sconsigliato perché rende difficile la lettura del grafico e
distrae l’attenzione del lettore dai dati stessi

23
Nei grafici a barre e negli istogrammi le barre devono avere la stessa ampiezza: un’ampiezza uniforme
comporta che l’area del grafico sia proporzionale alla sua altezza, per cui per confrontare diverse quantità
possiamo confrontare semplicemente l’altezza delle barre. Quando utilizziamo una figura bidimensionale,

non è possibile ottenere un’ampiezza uniforme.: all’aumentare o al diminuire del valore dobbiamo
modificare sia l’ampiezza che l’altezza della figura per evitare di distorcere l’immagine rappresentata

Identificare la forma di una distribuzione


Le forme distributive sono tipicamente classificabili in simmetriche, asimmetriche negative e asimmetriche
positive
Non possiamo descrivere i dati qualitativi come uniformi, asimmetrici negativi o asimmetrici positivi
È importante riconoscere che i dati non sempre seguono un andamento perfettamente uguale a uno di
quelli mostrati nella figura. Per identificare la corretta forma della distribuzione è necessario essere un po’
flessibili nell’analisi
Distribuzione uniforme: la frequenza relativa per ciascun
valore della variabile è distribuita uniformemente tra i valori
della variabile stessa
Distribuzione a campana: la frequenza relativa più elevata
si riscontra nel mezzo della distribuzione, per poi diminuire
in modo simmetrico nelle code di sinistra e destra
Distribuzione asimmetrica positiva: la forma è
caratterizzata da una coda allungata verso destra
Distribuzione asimmetrica negativa: la forma caratterizzata
da una lunga allungata verso sinistra

24
13 mar
MEDIANA E QUARTILI
Ci sono 2 macroaree:
 Misure di centralità/posizione: le misure di posizione o di tendenza centrale di una distribuzione
sono indici che consentono di sintetizzare una distribuzione attraverso un valore rappresentativo:
o Media aritmetica: variabili quantitative
o Moda: variabili quantitative e qualitative. Misura che identifica la modalità a cui
corrisponde la frequenza più elevata
o Mediana: variabili quantitative e ordinali (possiamo istituire un ordine gerarchico)
 Misure di variabilità/dispersione:
o IQR
o Varianza
o Scarto quadratico medio
o Deviazione Standard
Entrambe le misure ci restituiscono informazioni di sintesi ma sono diverse. La scelta delle misure dipende
dal dato che abbiamo a disposizione

Mediana
Mediana(M): misura di sintesi che divide esattamente in 2 parti uguali i dati e le osservazioni in una
distribuzione di dati ordinata in senso crescente, il valore mediano e quel valore per il quale il 50% dei dati
sta a destra e il 50% dei dati restanti alla sua sinistra
La mediana non può essere calcolata per le variabili qualitative misurate su scala nominale

Si può utilizzare la mediana per:


Distribuzione di frequenze unitaria—> Frequenze pari a 1
La mediana (M) di una variabile è il valore che occupa la posizione centrale di
una distribuzione ordinata in senso crescente e divide un collettivo in due
sottoinsiemi di uguale numerosità
Step per calcolare la mediana di un dataset:
1. Ordinare i dati in senso crescente
2. Determinare il numero di osservazioni n
3. Individuare la posizione in graduatoria dell’unità centrale
o N dispari: la mediana è il valore che occupa la posizione
centrale
Posizione centrale:

Mediana:

o N pari: la mediana è la media dei due valori che


occupano le posizioni centrali

25
Posizioni centrali:

Mediana:

Distribuzione di frequenze assolute—> Frequenze diverse da 1


1.

Calcolare la frequenza accumulata Ni


2. Calcolo la mediana guardando se Ni è dispari o pari
3. Metodo alternativo: scrivo tutti i dati per esteso, creando una distribuzione unitaria

Distribuzione di frequenze assolute—> variabili qualitative su scala ordinale

Il valore della
mediana è uguale al
valore
corrispondente
delle frequenze
cumulate
Metodo alternativo: metto per esteso le frequenze (metodo
troppo lungo)

Caso particolare: in alcuni casi la mediana non esiste o è indefinita come unico valore. Quando?
—> nei casi di variabili misurate su scale ordinali quando la posizione mediana ricade tra due differenti
categorie o modalità

La mediana non può essere discreto e buono

Distribuzione di frequenze in classi—> Frequenze associate a classe di modalità


La misura della mediana consente di identificare il valore che divide la popolazione in parti uguali. Formula:
26
 Li= indica il limite inferiore della classe in cui ricade la posizione mediana calcolata sulle frequenze
cumulate
 N= numerosità
 Ni-1=frequenza cumulata della classe antecedente a quella in
cui ricade la mediana
 ni= frequenza della classe in cui ricade la mediana
 ai=ampiezza della classe in cui ricade la mediana
Passaggi:
1. Calcolo le frequenze cumulate
2. Calcolare dove ricade la posizione mediana
3. Individuare L ossia estremo inferiore della classe in cui ricade la mediana
4. Individuare la numerosità
5. Individuare la frequenza cumulata antecedente alla classe mediana
6. Determinare l’ampiezza della classe mediana
7. Interpretare il risultato: il valore mediano divide in due gruppi di uguale numerosità l’insieme di
unità analizzate

1.

Concentrarsi sulla tipologia di risultato richiesto


2. Scrivere la formula
3. Verificare se tutti i componenti della formula sono disponibili
4. Applicare la formula
5. Interpretare il risultato
17 mar
Quartili
I quartili sono quei valori che dividono una distribuzione ordinata in senso
crescente in quattro parti di uguale numerosità
 Primo quartile (Q1): divide una distribuzione ordinata di dati
lasciando alla sua sinistra un quarto dei termini (25%) e alla sua destra i restanti tre quarti (75%)
—> determinare la mediana delle prima metà della distribuzione
 Secondo quartile (Q2) o mediana: divide una distribuzione ordinata di lasciando alla sua sinistra la
metà dei termini (50%) e alla sua destra il rimanente 50%
—> calcolare la mediana della distribuzione
 Terzo quartile (Q3): divide una distribuzione ordinata di dati lasciando alla sua sinistra tre quarti dei
termini (75%) e alla sua destra il restante quarto (25%)
—> determinare la mediana della seconda metà della distribuzione

Passaggi:
27
1. Organizzare i dati in ordine crescente
2. Determinare la mediana M, o il secondo quartile Q2
3. Determinare il primo e il terzo quartile, Q1 e Q3, dividendo i dati in due parti: la prima parte
conterrà le osservazioni sotto la (o a sinistra della) mediana, mentre la seconda parte conterrà le
osservazioni sopra la (o a destra della) mediana
Il primo quartile corrisponde alla mediana della prima metà delle osservazioni che assumono valore
più basso, mentre il terzo quartile corrisponde alla mediana della metà delle osservazioni che
assumono valore più alto
Mediana per distribuzione distribuzione di frequenze Q1 e Q3:

Metodo alternativo:

Formula quartili per distribuzione di frequenza


18 mar
Intervallo o differenza interquartile
IQR: è la differenza tra il terzo (Q3) e il primo quartile
(Q1) e contiene il 50% dei valori centrali di una
distribuzione. È ottenuto calcolando la differenza tra il
25° e il 75° percentile

Quanto più è variabile una distribuzione tanto più alto sarà il valore assunto dall’intervallo interquartile
L’intervallo interquartile non è influenzato dalla presenza di valori estremi, quindi se la distribuzione
presenta una forte asimmetria o se contiene valori estremi, è meglio utilizzare l’intervallo interquartile
come misura di dispersione perché è robusto

BOXPLOT
Il boxplot (o diagramma a scatola e baffi) è un grafico che consente di rappresentare una distribuzione
mediante 5 numeri—> sintesi dei 5 numeri: coinvolge l’osservazione più piccola, il primo quartile, la
mediana, il terzo quartile e l’osservazione più grande di una distribuzione
28
Baffo sinistro: segmento che esce dalla scatola e va dal Q1 fino al valore minimo
Baffo destro: segmento che esce dalla scatola e va dal Q3 fino al valore massimo

Ci sono 2 alternative:
 Alternativa 1: descrizione complessiva delle misure di dispersione e posizione
o Rappresentazione grafica delle misure di posizione: Range,
Q1,Q2,Q3
o Valutazione variabilità ed indicazioni sulla forma della
distribuzione
Es: Buddy’s Pizza deriva dall’osservazione dei suoi dipendenti, le
seguenti informazioni sui tempi di consegna:
o Tempo minimo: 13 minuti
o Tempo massimo: 30 minuti
o Q1 = 15 minuti; mediana = 18; Q3 = 22 minuti

 Alternativa 2: diagnostica per i valori anomali


La lunghezza dei baffi è rappresentata da:
o Baffo sinistro: si traccia da Q1 una linea fino al limite inferiore (LI)
o Baffo destro: si traccia da Q3 una linea fino al limite superiore (LS)

o Valore anomalo: xi risulta più piccolo del limite inferiore (LI)


o Valore anomalo: xi risulta più grande del limite superiore (LS)
Es: all’interno di una indagine per l’efficienza della biblioteca ogni studente (N = 13) è stato munito
di una tessera per verificare quante volte utilizza tutti i servizi erogati. Le misure di posizione sono:
Q1 = 19
Q3 = 36
M = Q2 = 28
IQR = Q3 – Q1 = 36 - 19 = 17
LI = Q1 - 1,5 X IQR = 19 - 1,5 X 17 = -6,5
LS = Q3 + 1,5 X IQR = 36 + 1,5 X 17 = 61,5

Passaggi per rappresentare il boxplot:


1. Determinare il limite inferiore e il limite superiore
Limite inferiore= LF = Q1 – 1.5 (IQR)

29
Limite superiore= UF = Q3+ 1.5 (IQR)
2. A partire dai punti Q1, M, Q3 tracciamo 3 linee verticali; uniamo queste linee verticali in un
rettangolo (o anche scatola o box)
3. Indichiamo i limiti inferiore e superiore, rispettivamente a sinistra e a destra della scatola
4. Tracciamo una linea da Q1 fino all’osservazione più piccola immediatamente maggiore del limite
inferiore. Tracciamo una linea da Q3 fino all’osservazione più grande immediatamente inferiore del
limite superiore—> queste linee sono chiamate baffi
5. Ogni osservazione più piccola del limite inferiore o più grande del limite superiore è considerata un
outliner e viene indicata con un asterisco

Forma della distribuzione


I boxplot ci aiutano a identificare la forma di una distribuzione. La forma della distribuzione si dice
simmetrica se le osservazioni sono bilanciate, ovvero sono distribuite in modo approssimativamente
regolare intorno al centro
In una distribuzione perfettamente simmetrica: Media = Mediana = Moda

20 mar
ANALISI STATISTICA

1. Natura: sono variabili quantitative numeriche discrete misurate con scala ad intervalli
2. Mediana (Q2)
Ordino i numeri: 1,1,2,2,2,2,2,2,3,3,3,3,4,5
N è pari quindi N/2 e (N/2)+1= posizione 7 e 8–> 2
Q1= divido 14/2=7 e calcolo la mediana della prima parte della popolazione
M= (7+1)/2=4–> 2
Q3= divido 14/2=7 e calcolo la mediana della seconda parte della popolazione
M= (7+1)/2=4–> 3

30
Metodo alternativo

Q1= 14/4=3,5–> 2
Q3= (14X3)/4=10,5–> 3
3. Boxplot
Q1=2; Q2=2; Q3=3
IQR= Q3-Q1= 3-2=1
LI (limite inferiore)= Q1 - 1,5 X IQR= 2-(1,5X1)=0,5
LS (limite superiore)= Q3 + 1,5 X IQR= 3+(1,5X1)=4,5
5 è un valore anomalo perché è maggiore del limite superiore (4,5)

Ordino la distribuzione:
1,05 1,07 1,27 1,28 1,53 2,09 2,34 2,47 3,03
Mediana: la distribuzione è dispari quindi M= (9+1)/2=5–> El Charrito Beef (1,53)
Q1= 9/4=2,25
Q3= (3X9)/4=6,75

31
24 mar
MEDIA E VARIANZA
Statistica robusta
La misurazione del dato dipende sempre dalla forma della distribuzione
Misura robusta: se non risulta particolarmente sensibile ai valori estremi (i valori molto grandi o molto
piccoli)
Es: ho questi valori: 3,3,3,4,2,5,2,150—> in questo caso la media è influenzata da quel singolo valore molto
alto, la mediana no, quindi è meglio
Poiché i valori estremi non influenzano il valore della mediana, si dice che questa è robusta
La media non è robusta. Quando i dati mostrano un’asimmetria a destra o a sinistra, significa che ci sono
valori estremi nelle code che spingono il valore della media nella direzione della coda della distribuzione
Queste osservazioni tendono a far aumentare il valore assunto dalla media, mentre hanno un effetto
trascurabile sulla mediana
La ragione per la quale si calcola la media risiede nel fatto che gran parte dell’inferenza statistica è basata
sulla media

Media

Ogni volta che si sente la parola media non sempre si riferisce alla media aritmetica ma potrebbe essere
usata su supporto di una decisione, mentre un’altra media potrebbe essere usata per supportarne una
differente
La media aritmetica è un valore di sintesi riferito a una variabile quantitativa e ordinale. Fornisce un valore
di equilibrio all’interno della distribuzione di frequenze
Non sempre i numeri vengono trattati come numeri: a volte vengono trattati come codici e non si può
calcolare la media

Metodi di calcolo della media aritmetica:


 Distribuzione di frequenza unitarie: la media aritmetica di una variabile si calcola sommando tutti i
valori e dividendo per il numero di osservazioni

o Popolazione: —> si utilizzano tutte le unità della popolazione

La media della popolazione è un parametro

o Campione: —> si calcola sulle osservazioni del campione

32
La media di un campione è una statistica

 Distribuzione di frequenze assolute: quando i dati sono rappresentati sotto forma di una
distribuzione di frequenze, assolute o relative

 Distribuzione di frequenze relative:

 Distribuzione di frequenze in classi:

Poiché non è possibile risalire ai dati unitari a partire da una distribuzione di frequenza in classi, si
assume che ciascuna classe possa essere sintetizzata da un valore centrale—> si trova sommando
l’estremo inferiore di due classi adiacenti e dividendo il risultato per 2
Si moltiplica il valore centrale per la frequenza della classe e si ripete questo procedimento per
ciascuna classe e si sommano i risultati. Questa somma era approssimazione del totale di tutte le
osservazioni
Procedimento:
1. Faccio la media tra 18 e 22, tra 22 e 26 e tra 26 e 30—> ottengo dei nuovi valori centrali
2. Faccio la media tra i valori centrali che ho ottenuto

In una popolazione di tipo uniforme la media è uguale alla modalità, ma questo vale solo nel caso di
distribuzione uniformi simmetriche
Es: su un campione di 10 rispondenti sono stati rilevati il numero di viaggi nell’ultimo trimestre

Media: (4+4+3+4+10)/10=2,5

Caratteristiche della media:


Principio di Cauchy: il valore medio deve essere sempre compreso tra xmin e xmax

33
La media aritmetica è influenzata dai valori anomali o estremi o outliers. A volte ci sono dei valori anomali
che sbilanciano la media—> si individuano con i boxplot
30 è un valore estremo

Proprietà della media: la somma delle differenze tra i valori e la loro media aritmetica (scarti) è pari a zero

Media pesata: talvolta esistono dati che hanno una maggiore importanza (o peso) di altri nella stessa
distribuzione statistica—> si calcola la media pesata
si trova moltiplicando ciascun valore della variabile per il
corrispondente peso, sommando questi prodotti e dividendo il
risultato per la somma dei pesi

 wi: peso della i-esima osservazione


 xi: valore assunto dalla i-esima osservazione

Distanza dalla media


Es: Vado a cena con gli amici, io prendo una pizza da 10€ e loro della carne da 50€. Paghiamo alla
romana→ quello che ho pagato non rispecchia ciò che ho mangiato
 Come capisco quanti soldi in più ho pagato (rispetto a ciò che ho mangiato)?
Prezzo che ho mangiato ( media )−Costo alla carta di quello che ho mangiato
 Distanza tra quanto ho pagato e mangiato e la media?
( Prezzo c h e h o pagato−Costo alla carta di quello c h e h o mangiato )2
 Media delle distanze?

( Prezzo c h e h o pagato −Costo alla carta di quello c h e h o mangiato )2


—>
n ( totale persone )

27 mar

34
Varianza
Indica quanto i dati si discostano dal valore della media. Limitarsi solo alla media aritmetica è
estremamente limitante. La varianza si basa sulla evirazione dalla media

Lo scarto quadratico medio ci fornisce la risposta che si ottiene dalla varianza


La media da sola non significa niente, deve essere accompagnata da un valore (la varianza) che ci indica la
distanza di punti dalla media

Popolazione: —>

La deviazione deviazione dalla media delle i-esime osservazioni è xi – μ


Varianza della popolazione: è la media delle deviazioni al quadrato dalla media aritmetica
Dove x1, x2, …, xN sono le N osservazioni di una variabile della popolazione e µ la media della popolazione

Campione: —>

La deviazione dalla media delle i-esime osservazioni è xi—x


Varianza del campione: si ottiene calcolando la somma delle deviazioni al quadrato dalla media del
campione e dividendo il risultato ottenuto per n – 1
dove x1, x2, …, xn sono le n osservazioni di una variabile del campione e x è la media del campione
La varianza del campione si ottiene dividendo per n – 1, non per n. Se si dividesse per n, come si potrebbe
pensare, la varianza del campione sottostimerebbe la varianza della popolazione—> distorta
La quantità n – 1 è definita gradi di libertà perché le prime n – 1 osservazioni sono libere di assumere
qualsiasi valore, a differenza dell’n-esima osservazione che deve necessariamente assumere quel valore che
forza a zero la somma delle deviazioni dalla media

Deviazione standard: è utilizzata insieme alla media per sintetizzare in termini numerici le distribuzioni a
forma campanulare e simmetriche. La media fornisce una misura di tendenza centrale della distribuzione,
mentre la deviazione standard misura la dispersione della distribuzione
Se si stanno confrontando due popolazioni, quanto maggiore è la deviazione standard, tanto maggiore è la
dispersione di una distribuzione

Quanto più un’osservazione è distante dalla media, tanto più alta sarà la deviazione in valore assoluto
La somma di tutte le deviazioni dalla media è uguale a zero
Applicazioni:
35
 Intervallo di variabilità: definisce una variabilità rispetto alla media ma all’interno di un intervallo
(range)
La paga settimanale (in euro) di 5 operatori di un call-center è la seguente: 500 100 400 300 50
Dopo alcune elaborazioni si può affermare che la retribuzione settimanale media degli operatori è
pari a 270 euro. Quanto variano le retribuzioni settimanali di ogni operatore rispetto alla media?
Popolazione:
Questo intervallo
indica la fascia in cui
si trovano la
maggior parte delle
retribuzioni

Interpretazione in termini di sqm: lo scarto delle paghe rispetto alla media di 270€ è, in media, di
172€; ciò significa che la paga può variare tra 98€ (270-172 = 98) e 442€ (270+172 =442)
Nell’intervallo 98–442€ ricadono solo 3 osservazioni, 3/5 =0,6 cioè il 60% delle osservazioni:
50 100 300 400 500
Campione:

 Scarto standardizzato/ z-score: rappresenta la distanza di ciascun valore dalla media, in unità di
deviazioni standard. Si ottiene sottraendo la media dal valore della variabile e dividendo per la
deviazione standard. Lo z-score non ha unità di misura e ha media 0 e varianza 1
o Se un valore osservato nei dati è maggiore della media, lo z-score sarà positivo
o Se un valore osservato è minore della media, lo z-score sarà negativo
o Se un valore è uguale alla media, lo z-score sarà zero
È una misura che consente di confrontare le intensità (modalità numeriche) rispetto alla media
depurate dalla variabilità complessiva. È utile per confrontare fenomeni con scala di misure diverse

Popolazione:

Campione:

Es: per confrontare i punteggi ai due diversi test, è possibile calcolare gli z-score per ciascun
individuo

36
MODA
È la modalità (o valore) che si presenta, all’interno della distribuzione, con la frequenza più
alta (assoluta, relativa o percentuale)
Per calcolare la moda di una distribuzione è necessario individuare quale modalità ha la
frequenza più elevata. In generale, le distribuzioni possono non avere la moda, avere una
sola moda o più di una moda
Le distribuzioni di solito hanno una sola moda (a) ma
possono avere più di una moda (b) o non avere la moda (c)

Sintesi elle misure di posizione

Confronti media e mediana:

7 apr
INTERVALLI TIPICI

37
Se avessimo avuto una variabile continua con una distribuzione simmetrica intorno al valore della media
allora possiamo affermare senza necessità di computo che:
Nell'intervallo ricade il 68% delle osservazioni
Nell'intervallo ricade il 95% delle osservazioni
Nell'intervallo ricade il 99% delle osservazioni

Percentile: è un indice usato per descrivere in termini percentuali la posizione della prestazione di un
soggetto rispetto al totale delle prestazioni dei soggetti osservati. Possiamo interpretare così questo indice:
 Tra il 25° e il 75° percentile: punteggio nella media
 Tra il 15° e il 25° percentile: punteggio leggermente al di sotto della media
 Tra il 5° e il 15° percentile: punteggio inferiore alla media
 Inferiore al 5° percentile: punteggio molto inferiore alla media (solo il 5% ella popolazione ottiene
un punteggio simile)
Quozienti e punteggi standard: indici usati di rado nelle prove di valutazione degli apprendimenti sono
indici dove le medie del campione vengono standardizzate. Come per i punti Z rappresentano punteggi
critici punteggi al di sotto di due deviazioni
 Quozienti (Media=100; Dev.st.=15; Punteggio critico <70)
 Punteggi Standard (Media=10; Dev.st.=3; Punteggio critico <4)

CORRELAZIONE LINEARE
Relazioni tra variabili quantitative: molte volte una correlazione può essere determina anche attraverso
altre variabili—> così si creano correlazioni spurie
Si cerca una regola auto esplicativa (no ricorso a terze variabili) che spieghi cosa succede tra 2 o più variabili
quantitative. Parliamo di relazioni tra variabili quando non ci sono altre variabili che intervengono—> se
una aumenta, aumenta anche l’altra; se una diminuisce, diminuisce anche l’altra
 Relazione tra trombosi e vaccinazioni: le trombosi aumentano all’aumentare delle vaccinazioni per
Covid

38
 Relazione positiva tra percentuale di matrimoni con rito religioso e tasso di mortalità delle rondini:
all’aumentare dei matrimoni con rito religioso aumentano le morti delle rondini
 Le apparizioni cinematografiche di Nicolas Cage sono collegate al numero di morti per
annegamento in piscina
 La falsa correlazione tra la margarina e il Ford Transit
Variabile risposta/dipendente: variabile i cui valori possono essere spiegati attraverso i valori della variabile
esplicativa o indipendente (in alcuni casi si usa anche il termine predittore)

Statistica descrittiva univariata: studio di una variabile


per ogni singola unità statistica
Es: Distribuzione del peso (kg) in una popolazione di
studenti
Statistica descrittiva bivariata: studio di 2 variabili sulle
stesse unità statistiche
Es: Distribuzione del peso e delle calorie in una
popolazione di studenti

Il primo passo per identificare il tipo di relazione esistente tra due variabili consiste nella loro
rappresentazione grafica attraverso il diagramma a dispersione (scatterplot):
 Ogni unità statistica (es. studente) possiede due modalità di due diverse
variabili—> X, Y
 L'unità statistica si rappresenta con un punto
 Le coordinate del punto sono le: modalità di X e Y ossia x; e yi
 Per l'unità statistica i-esima, le coordinate saranno: X; e yi
L'insieme dei punti fornisce lo scatterplot o diagramma di dispersione
I punti non devono mai essere collegati nello scatterplot
Lo scatterplot necessita di:
• 2 variabili quantitative (X, Y)
• 2 sequenze di modalità: lavoriamo solo con le unità e non
Bibcon distribuzioni di frequenze)
• Le 2 sequenze diventano coordinate cartesiane per poter
buirealizzare lo scatterplot

Modelli non lineari: Scatterplot, medie e quadranti:

Correlazione: la tendenza che hanno 2 variabili (X e Y) a variare


insieme, ovvero, a covariare
Possiede 2 caratteristiche:
 Tipo di relazione:
39
o Lineare: misura della concordanza tra 2 variabili statistiche—> conosciamo le misure
Ai valori superiori/inferiori alla media di una variabile corrispondono i valori
superiori/inferiori alla media dell’altra variabile—> se aumenta/diminuisce una variabile,
aumenta/diminuisce anche l’altra
o Non lineare: della discordanza tra 2 variabili statistiche—> non conosciamo le misure
Ai valori sopra la media di una variabile corrispondono valori sotto la media dell’altra
variabile—> se aumenta una variabile, l’altra diminuisce
 Forma della relazione:
o Direzione: positiva (concordanza) o negativa (discordanza)
o Entità: forte o debole
z-score: scarto standardizzato per 2 variabili:
Popolazione:

Campione:

Coefficiente di correlazione lineare (o di correlazione di prodotto-momento di Pearson): è la misura


dell'intensità e della direzione della relazione lineare tra le due variabili quantitative

scarto standardizzato per l'unità i-esima della variabile X

scarto standardizzato per l'unità i-esima della variabile Y

Il coefficiente di di correlazione quantifica, in sintesi, il grado di concordanza e di discordanza tra variabili:

perfetta relazione lineare positiva(concordanza)


perfetta relazione lineare negativa (discordanza)
assenza di relazione lineare, ma non implica l’assenza di una relazione tra le variabili
Le unità di misura di x e y non influenzano l’interpretazione del coefficiente di correlazione
Il coefficiente di correlazione non è robusto: una sola osservazione che non segue l’andamento generale dei
dati può incidere notevolmente sul valore del coefficiente di correlazione lineare
Verifica della correlazione lineare
Le due variabili si muovono nella stessa direzione,
possono aumentare o diminuire

Le due variabili si muovono


nella direzione opposta:
una aumenta e l’altra
diminuisce

40
Per verificare se la correlazione tra la variabile esplicativa e la variabile risposta è sufficientemente forte, si
deve determinare il valore assoluto del coefficiente di correlazione: se è maggiore del valore critico, allora
possiamo concludere che esista una relazione lineare tra le due variabili; se esso è inferiore a tale soglia
critica, allora concluderemo che non esiste una relazione lineare
Variabile nascosta: è in relazione sia con la variabile esplicativa sia con la variabile risposta, per cui esiste la
possibilità che due variabili risultino essere correlate senza in realtà avere un nesso di casualità

14 apr
STATISTICA DESCRITTIVA BIVARIATA
Paradosso di Anscombe: dice che il coefficiente di correlazione lineare non
è preciso perchè può dare lo stesso risultato anche in situazioni diverse tra
di loro. Per questo è importante guardare lo scatterplot
—> si vede bene la differenza delle variabili. Quando un numero da solo
non è sufficiente. Non tutti i dataset presentano una concordanza tra le
variabili X e Y

Correlazione spuria: è una relazione apparente tra due variabili che


sembrano essere collegate, ma in realtà non c'è un nesso causale diretto tra di loro. È spesso causata da una
terza variabile (chiamata variabile confondente) che influisce su entrambe
Dato che nello stesso intervallo di tempo il numero degli studenti di dottorato in ingegneria civile è
aumentata così come il consumo di mozzarelle, alcuni studiosi NON STATISTICI) hanno affermato che il
consumo di mozzarelle è una causa per ottenere un Ph. D in ingegneria civile
La correlazione non implica casualità: studiamo congiuntamente 2 variabili

41
Regressione: metodologia che consente di quantificare la dipendenza tra una coppia di variabili
quantitative X (causa) e Y (effetto). Il risultato più importante è quanto impatta la dipendenza della variabile
causa sulla variabile effetto
Quando si analizza la relazione di dipendenza tra due variabili quantitative possiamo utilizzare il valore di
una variabile per predire i valori dell'altra
La variabile risposta o dipendente (Y) indica la variabile i cui valori possono essere spiegati o previsti
attraverso i valori della variabile esplicativa o indipendente, detta anche predittore, (X)
Legame tra causa e effetto è una funzione Y=f(X), dove f indica il tipo di relazione che lega X,Y

Relazione statistica: se il grafico di dispersione e il coefficiente di correlazione lineare indicano che esiste
una relazione lineare tra due variabili Y e X, è possibile esprimere questa relazione attraverso una funzione
lineare che sia in grado di esprimere il legame di dipendenza tra X ed Y (regressione)
Più la distanza tra i punti e la retta è ravvicinata, più il risultato sarà accurato—> l’obiettivo è quindi quello di
ottimizzare la distanza tra i punti e la retta
La correlazione misura la forza della relazione lineare
tra 2 variabili—> solo intensità della relazione
La regressione analizza la dipendenza di una variabile
da un’altra—> causa e effetto

 Dato osservato: Yi
 Dato teorico o previsto: Ýi
 Dato residuo: distanza tra valore osservato e valore
teorico. I residui ci forniscono un’indicazione di
quanto le nostre previsioni siano vicine alle
osservazioni reali: più piccoli sono i residui, migliore è la previsione

Retta stimata con il criterio dei minimi quadrati: quella che minimizza la somma dei quadrati degli errori (o
residui) tra i valori osservati, Yi, e quelli previsti o stimati, Ýi—> è la retta che minimizza i quadrati delle
distanze tra tutti i valori osservati (Yi) e quelli teorici (Ýi), in corrispondenza di ciascun valore X
Il vantaggio del criterio dei minimi quadrati è quello di permettere un’inferenza statistica per i valori previsti
e per il coefficiente angolare

Equazione
della retta di
regressione dei minimi quadrati nella popolazione:
—> Coefficiente di regressione o pendenza: variazione in media della variabile dipendente
vvv(o risposta) Y in corrispondenza dell’aumento di una unità della variabile esplicativa (o
Variazioni di Y
vvvindipendente) X—>
Variazioni di X
vvvEs: in una retta con coefficiente angolare pari a 2/3, se X aumenta di 3, Y aumenta di 2

—> Intercetta: valore della variabile dipendente (o risposta) Y quando il


valore della Vvvvvvvvariabile esplicativa (o indipendente) X è pari a 0—> punto del grafico

42
in cui la retta vvvvvvvinterseca l’asse verticale. Se l’intercetta ha un valore molto alto, la
dipendenza sarà vvvvvvimolto bassa
 È ragionevole che la variabile X assuma il valore 0?
 Esiste qualche osservazione nei dati vicina a X= 0?
Se la risposta a entrambe le domande è no, allora non possiamo fornire
un’interpretazione all’intercetta

X è la media campionaria e Ox è la deviazione standard campionaria della variabile esplicativa


Y è la media campionaria e Oy è la deviazione standard campionaria della variabile risposta Y
Una proprietà della retta ai minimi quadrati è che passa sempre per il punto di coordinate (X; Y)
Se p è positivo, anche il coefficiente angolare della retta i minimi quadrati sarà positivo
Passaggi:
1. Assicurarsi che esista una relazione causale tra X ed Y
2. Rappresentazione grafica attraverso il diagramma a dispersione (o scatterplot)
3. Calcolo ed interpretazione del coefficiente di correlazione lineare (p o r)
4. Stima dell'equazione della retta dei minimi quadrati che descrive la relazione di dipendenza lineare
tra due variabili—> retta di regressione lineare
5. Calcolo e interpretazione del coefficiente di determinazione (R^2) = bontà di adattamento
Non è detto che ci sia sempre una correlazione di tipo lineare tra le due variabili
Come disegnare la retta di regressione:
1. Parto dall’equazione della retta di regressione e pongo X=0, quindi ottengo il punto A con le
annesse coordinate (0; Y)
2. Sempre dall’equazione della retta di regressione pongo Y=0, quindi devo trovare il valore di X (X; 0)
—> equazione di primo grado con un’incognita
3. Il valore di X lo trovo come rapporto tra il termine noto (intercetta) e il coefficiente della X (q/m)
Coefficiente di determinazione ( R2): misura la quota di variabilità della variabile dipendente spiegata dalla
retta di regressione dei minimi quadrati. Il coefficiente di determinazione assume valori compresi
nell'intervallo [0,1] ossia: 0 ≤ R2 ≤ 1
2
R =0—> il modello lineare non è adatto a spiegare la relazione
2
R =1—> il modello lineare spiega perfettamente la relazione
Calcolo di R^2: il coefficiente di determinazione come quadrato del coefficiente di correlazione: p= 0,773
2 2
R = p = 0,773^2 = 0,598
Questa relazione vale se e solo se i coefficienti della retta di regressione sono stati ottenuti con il criterio dei
minimi quadrati
—> la varianza della variabile dipendente (tempo di perforazione) spiegata dalla relazione lineare con la
variabile esplicativa (profondità) è pari a 0,598 (cioè 59,8%)
Il coefficiente di determinazione R2 decresce al diminuire della capacità esplicativa della retta di regressione

Devianza totale: è la distanza tra il valore generico osservato della variabile risposta e la media del valore
della variabile risposta—> Devianza residua+ Devianza spiegata
43
Devianza residua: è la distanza tra il valore generico osservato della variabile risposta e il valore generico
previsto della variabile risposta. Si trova sommando il quadrato dei residui. Quindi, quanto più è piccola la
somma dei quadrati dei residui, tanto minore è la devianza residua e maggiore sarà il valore di R2
Devianza spiegata: è la distanza tra il valore generico previsto della variabile risposta e la media del valore
della variabile risposta

I valori stimati possono essere calcolati sostituendo sull'equazione della retta i valori osservati della
variabile esplicativa:
y= 0,0116x + 5,5273
y’= 0,0116 X 35 + 5,5273 = 5,93

Grafico o scatterplot dei residui: i residui possono utilizzati anche per verificare l'adeguatezza del modello
lineare. L'esplorazione del grafico (valori delle X sulle ascisse e residui sulle ordinate) consente di
identificare l'effettivo legame lineare tra le variabili

Se è una nuvola esiste una relazione lineare, altrimenti no. I residui variano tra [+1; -1]

Previsione: la retta di regressione dei minimi quadrati può essere utilizzata per fare previsioni della
variabile risposta Y per valori non osservati della variabile esplicativa X
 Previsione per valori all’interno del campo di applicazione del modello
 Invece, non si dovrebbe utilizzare la retta di regressione per fare
previsioni al di fuori del campo di applicazione del modello, perché non
possiamo essere sicuri che la relazione lineare continui ad esistere
—> utilizzo del modello di regressione per effettuare previsioni per valori della
variabile esplicativa che sono molto più piccoli o molto più grandi di quelli
osservati

17 apr
Esercizio
Date le seguenti variabili:
X: profondità di inizio della perforazione (ft o piedi) per perforare 5 ft (piedi)
Y: tempo impiegato (in minuti)
Individuare la variabile causa e la variabile effetto
 Trovare l’equazione della retta di regressione dei minimi quadrati

44
Interpretazione coefficiente di regressione: b1 = 0,0116
—> Per ogni ft (piede) supplementare di profondità da cui inizia la perforazione, la durata
necessaria a perforare 5 piedi di roccia aumenta in media di 0,0116 minuti
Interpretazione intercetta: b0 = 5273, 5
—> Il tempo necessario a perforare 5 piedi di roccia, quando la perforazione inizia dalla superficie è
di 5,5273 minuti
 Prevedere il tempo di perforazione se la profondità è pari a 130 ft:

—> Il tempo di perforazione rilevato è pari a 6,93 secondi. Il tempo stimato è pari a 7,03 secondi
 Disegnare lo scatterplot e la retta di regressione dei minimi quadrati

28 apr
BONTÀ DI ADATTAMENTO
La bontà di adattamento al modello è espressa da R2:
 Se R2 si avvicina allo 0, allora il modello (la retta di regressione) è pessimo e non va bene
 Se R2 è vicino a 1, allora il modello è ottimo e la retta di regressione stimata è buona
La bontà di adattamento R2 si può calcolare in 3 modi:
1. Quadrato del coefficiente di correlazione: R2= p 2
2 Devianza spiegata
2. Rapporto tra devianza spiegata e devianza totale: R =
Devianza totale
2 Devianza errore
3. Complemento al rapporto (1–) tra devianza errore e devianza totale: R =1−
Devianza totale
Devianza totale: è il numeratore della varianza, ovvero la devianza di Y, cioè la nostra varianza senza
dividerla per N o n. Se ci danno la deviazione standard (scarto quadratico medio), sappiamo che la
deviazione standard è la radice quadrata della varianza. La devianza è la formula della varianza senza
dividere per N, quindi Devianza=Varianza X N e Varianza= ( Deviazione standard )2

45
 Devianza spiegata: è la devianza della regressione—> cioè della differenza tra i valori previsti e la
media di Y, elevando poi tutto al quadrato

 Devianza dell’errore: è la sommatoria di tutti i residui (differenza tra valori reali e valori previsti) al
quadrato

46

Potrebbero piacerti anche