Statistic A
Statistic A
17 feb
La statistica
Cultura del dato: approccio basato su evidenze e analisi quantitative. Incoraggia la trasparenza, la
tracciabilità e l'affidabilità delle informazioni. È essenziale per migliorare i processi decisionali in ambito
aziendale, scientifico e pubblico. Richiede strumenti adeguati per la raccolta, le analisi e l'interpretazione
dei dati
Approccio quantitativo e oggettivo basato su un processo di acquisizione trasparente, che deve essere
analizzato sulla base di un contesto specifico
Anima del business + Anima della società = cultura del dato
Statistica: scienza che si occupa di raccogliere, organizzare, analizzare e interpretare dati per trarre
conclusioni e prendere decisioni informate. Fornisce risposte a specifiche domande di ricerca
UNA statistica è una misura, LA statistica è la scienza
I ruoli fondamentali:
Aiuta a prendere decisioni informate basate su evidenze numeriche
Supporta strategie e decisioni nella maggiorparte dei settori, come marketing, economia, medicina,
scienze sociali ma anche ingegneria
Consente di identificare tendenze, fare previsioni e valutare il rischio
Supporta la ricerca scientifica attraverso metodi rigorosi di analisi dei dati
Il processo statistico parte dalla raccolta dell’informazione—> l’informazione opportunamente codificata e
organizzata fornisce i Dati—> descrivono le caratteristiche di un individuo e rappresentano il punto di
partenza (dato grezzo) per attivare un processo decisionale. Ogniqualvolta osserviamo i dati, dovremmo
conoscere da dove essi provengono e come sono stati selezionati
Quindi il dato (input) dopo l’elaborazione statistica si chiamerà informazione (output), che restituisce una
lettura di un fenomeno
I dati sono soggetti a variabilità e per questo i risultati ottenuti usando i dati possono variare a loro volta
Per fare una ricerca statistica si parte da una base detta popolazione
Popolazione Statistica: è l’insieme di unità statistiche elementari, ben identificabili, delle quali interessa
studiare una o più caratteristiche ad esse comuni. Ciò che fa di un aggregato di elementi una popolazione è
proprio l’esistenza di una caratteristica presente in tutte le unità, che può diventare oggetto di analisi
Es. L’insieme delle parole di cui si compone un libro è una popolazione
Campione: è il sottoinsieme di una popolazione oggetto di indagine che viene selezionato per
rappresentarla. I criteri usati per la formazione dei campioni possono essere diversi ma, affinché le
informazioni ottenute dal campione possno essere estese alla popolazione di provenienza, è necessario che
il campione sia rappresentativo, ovvero riproduca le caratteristiche più rilevanti ai fini dell’indagine della
popolazione di origine
L’inferenza statistica si concentra sui risultati ottenuti da un campione e li estende all’intera popolazione
misurandone l’affidabilità. Osservando un campione non si può avere una piena conoscenza della
popolazione. Pertanto, facendo inferenza statistica, noi riportiamo una misura che quantifica quanto
confidiamo (misura di affidabilità) nel nostro risultato
Un obiettivo dell’inferenza statistica è l’utilizzo della statistica per stimare i parametri
1
Parametro: la misura di una caratteristica riferita ad una popolazione
L’età media degli iscritti alle liste elettorali è 52 anni
Il rendimento medio delle azioni è stato pari al 2.8%
Il 78% dei redditi è inferiore a 28.000 euro
2
Vantaggi e svantaggi delle indagini totali
Vantaggi:
Forniscono una misura del fenomeno non affetta da errore campionario
Forniscono la base per successive indagini campionarie
Consentono un elevato dettaglio di analisi territoriale
Svantaggi:
La realizzazione e il rilascio delle informazioni richiede tempi molto lunghi
Costi elevati sia in termini di risorse che economici
3
Esperimento progettato: quando un ricercatore assegna gli individui partecipanti a uno studio a un certo
gruppo, cambia intenzionalmente il valore di una variabile esplicativa e poi registra il valore della variabile
risposta per ogni gruppo
Gli esperimenti progettati sono utilizzati ogni volta che il controllo di alcune variabili è possibile e
auspicabile. Questo tipo di ricerca permette al ricercatore di identificare determinate relazioni di causa ed
effetto tra le variabili dello studio. Spesso non è etico condurre un esperimento
Variabile confondente: variabile che influenza sia le variabili dipendenti che quelle indipendenti creando
associazioni spurie cioè relazioni che non appartengono a uno schema causa-effetto
Una variabile confondente è una variabile di uno studio che non ha necessariamente alcuna associazione
con l’altra variabile esplicativa, ma che ha un effetto sulla variabile risposta
La differenza tra variabili nascoste e variabili confondenti è che le variabili nascoste non sono considerate
nello studio mentre le variabili confondenti sono misurate nello studio
Ricapitolando
Dato primario: dato rilevato per prima volta
Dato secondario: dato «riutilizzato»
Fonti: Istat, Banca d’Italia, Banche dati
Statistica: studia fenomeni collettivi
Popolazione: totalità unità statistiche esposte allo stesso
fenomeno nello stesso momento
Campione: parte della popolazione
Parametro: misure statistiche riferite alla popolazione
Statistica: misure statistiche riferite al campione
Errore campionario: errore legato alla scelta della selezione delle
unità statistiche
4
18 feb
CAMPIONE STATISTICO
Es: BULLISMO E CYBERBULLISMO. PARLANO I RAGAZZI, ATTRAVERSO I DATI DELL'OSSERVATORIO INDIFESA
4 febbraio, 2021
Bullismo e Cyberbullismo rimangono una delle minacce più temute tra gli adolescenti, dopo droghe e
violenza sessuale. Ne è vittima il 61%. Ragazzi e ragazze non si sentono al sicuro sul web e dopo il
cyberbullismo, è il Revenge porn a fare più paura, soprattutto tra le ragazze
Nell'anno del covid-19 i giovani esprimono tutta la sofferenza per il senso di solitudine, il 93% di loro afferma
di sentirsi solo, con un aumento del 10% rispetto all'anno precedente
L'osservatorio indifesa, realizzato nel corso del 2020, anche quest'anno ci riporta una fotografia della realtà
raccontata direttamente dai ragazzi, attraverso le risposte di 6.000 adolescenti, dai 13 ai 23 anni provenienti
da tutta Italia.
Preoccupano i numeri di quella che sembra essere un'esperienza di sofferenza quotidiana per troppi giovani:
il 68% di loro dichiara di aver assistito ad episodi di bullismo, o cyberbullismo, mentre ne è vittima il 61%
Ragazzi e ragazze esprimono sofferenza per episodi di violenza psicologica subita da parte di coetanei
(42,23%) e in particolare il 44,57% delle ragazze segnala il forte disagio provato dal ricevere commenti non
graditi di carattere sessuale online. Dall'altro lato l'8,02% delle ragazze ammette di aver compiuto atti di
bullismo, o cyberbullismo, percentuale che cresce fino al 14,76% tra i ragazzi
Quanti sono i ragazzi italiani in età dai 13-23 anni? Circa 6.000.000→0.001
Gli studi basati sull’osservazione degli individui possono essere condotti attraverso un’indagine. In questi
casi, il ricercatore deve anzitutto identificare la popolazione oggetto di studio. Per praticità si identifica un
campione inteso come sottoinsieme della popolazione. Le unità componenti il campione possono essere
selezionate in modo probabilistico (casuale) o non probabilistico
Campione rappresentativo: le caratteristiche degli individui nel campione rappresentano le caratteristiche
degli individui nella popolazione. Un campione è rappresentativo di una popolazione se e solo se la scelta
degli individui da campionare si basa sulla casualità piuttosto che sulla comodità
Regolare i sondaggi è di fondamentale importanza perché si devono basare sulla trasparenza e sulla
veridicità dei dati
5
Tipologie di campione
Campione probabilistico
Nel campione probabilistico tutti hanno la stessa possibilità di essere selezionati per appartenere al
campione. Ciascuna unità della popolazione è selezionata in maniera casuale e ha una probabilità positiva e
nota di entrare a far parte del campione
George Gallup: campionamento casuale delle famiglie per analisi delle elezioni politiche
3000 famiglie contattate
17.3%tasso di risposta
Risultato sondaggio: Vittoria di Roosvelt (errore del 1%)
Metodi:
Campionamento casuale semplice: un campione di numerosità n è ottenuto attraverso il
campionamento casuale semplice da una popolazione di N unità se ogni possibile campione di
numerosità n ha la stessa probabilità di essere selezionato
6
Campionamento stratificato: è ottenuto separando la popolazione in sottogruppi tutti diversi tra
loro (omogenei all’interno ma eterogenei all’esterno) chiamati strati. Da ogni strato, vengono poi
estratte le unità con un campionamento casuale semplice, che formeranno il campione finale
Un vantaggio del campionamento stratificato rispetto a quello casuale semplice consiste nella
possibilità di ottenere le stesse informazioni, o addirittura informazioni maggiori, facendo un
sondaggio su un numero inferiore di persone. Inoltre garantisce che ogni strato sia rappresentato
nel campione
Quante unità:
ESEMPIO:
7
Formula: percentuale componenti totali X ampiezza campione che voglio trovare
Se il rettore avesse voluto fare l’indagine su un campione di 300 allora avrei dovuto moltiplicare le
% x 300
Campionamento a due stadi: rappresenta una variante del campionamento a grappoli. Si differenzia
da questo poiché sostituisce la fase finale di rilevazione totale delle unità all’interno dei grappoli
con un’estrazione casuale
È un esempio di piani di campionamento complessi: insieme di più tipologie di campionamento
Un campione a due stadi è ottenuto selezionando:
1. Al primo stadio un certo numero di grappoli, con un’estrazione casuale
2. Al secondo stadio, da ciascun grappolo si seleziona un certo numero di unità campionarie,
sempre attraverso un’estrazione casuale senza ripetizione
Vi sono delle situazioni in cui l’elenco delle unità delle popolazioni (lista) è eccessivamente lungo o
complicato da costruire. In tal caso si è soliti ricorrere al campionamento a due stadi che consiste in
due estrazioni consecutive
Esempio: Indagini sui consumi delle famiglie italiane
1° stadio: si estraggono i Comuni italiani
2° stadio: si estraggono delle famiglie dai Comuni selezionati al primo stadio
(proporzionalmente alla dimensione del singolo campione)
Indagini sui consumi, forze di lavoro, ecc
9
Campione non probabilistico
Non è rappresentativo perché le unità statistiche non hanno tutte le stesse probabilità di essere selezionate
dal campione—> gli individui inclusi nell’indagine sono selezionati in maniera non casuale e non è nota la
sua probabilità di essere inclusa nel campione
Si utilizza quando lo scopo è esplorativo e ha un margine d’errore alto. Gli studi che utilizzano il
campionamento non probabilistico generalmente forniscono risultati poco affidabili che dovrebbero essere
osservati con grande scetticismo
The Liberty Digest: selezione ragionata di famiglie che possedevano:
Auto & Telefoni fissi ed erano iscritti ai country club—> le persone di un ceto più basso non vengono
considerate
10 Milioni di questionari spediti
2,3 Milioni di risposte
Risultato sondaggio: Vittoria di Landon 3 a 2
Metodi:
Campione di comodo: il ricercatore sceglie in maniera arbitraria le unità più facilmente raggiungibili,
magari sfruttando le proprie relazioni (es. televoto)
Campione a risposta volontaria: gli individui nel campione si auto-selezionano, ovvero decidono
autonomamente di partecipare all’indagine
Campione a scelta ragionata: le unità campionarie vengono scelte dal ricercatore in base ad alcune
loro caratteristiche, perché meglio rappresentano il fenomeno in esame; di solito si utilizza quando
l’ampiezza del campione è limitata
Campione per quote: analogo al campionamento stratificato, ma le quote all’interno di ciascuno
strato sono selezionate dai ricercatori con criteri non probabilistici. Si estraggono sottogruppi con
caratteristiche omogenee
Campione a valanga: selezione di alcune unità statistiche che si riescono a raggiungere e poi, a
partire da esse, si raggiungono le altre
Esempi:
o Immigrati non regolari
o Senza fissa dimora
o Tutte quelle persone che non sono comprese nelle liste ufficiali della popolazione e non
potrebbero essere raggiunte in altro modo
10
Gli errori di campionamento sono dovuti anche alla sottocopertura: si verifica quando la proporzione di un
segmento della popolazione è più bassa nel campione che nella popolazione. La sottocopertura può
manifestarsi quando la lista di campionamento usata per ottenere il campione è incompleta o non
rappresentativa della popolazione
Es: nei sondaggi dell’opinione pubblica, si conducono frequentemente interviste attraverso telefonate
casuali. Ciò implica che la lista di campionamento è formata da tutte quelle famiglie che possiedono il
telefono. Questo metodo di campionamento escluderà perciò quelle famiglie che non possiedono
l’apparecchio telefonico, come per esempio i senzatetto
Errore legato ai non rispondenti: si presenta quando gli individui appartenenti al campione che non hanno
risposto all’indagine hanno opinioni differenti da coloro che invece vi partecipano. I non rispondenti sono gli
individui inclusi nel campione che non desiderano rispondere all’indagine o che l’intervistatore non riesce a
contattare
Un metodo per ridurre il problema dei non rispondenti è usare un meccanismo a premi e incentivi. I premi
possono includere il pagamento in contanti per completare il questionario. Gli incentivi possono includere
una lettera di accompagnamento che dichiara che le risposte al questionario determineranno la futura
politica del paese
Errore legato ai rispondenti: si presenta quando le risposte sull’indagine non riflettono i veri sentimenti
degli intervistati
Errore dell’intervistatore: un buon intervistatore sarà in grado di mettere l’intervistato a proprio
agio, al punto da ottenere risposte veritiere
Risposte travisate: alcune domande dell’indagine portano a risposte che travisano i fatti o sono
bugie senza mezzi termini
Formulazione delle domande: può influenzare significativamente le risposte e, quindi, la validità
dell’analisi
Es: (A) Pensi che gli Stati Uniti dovrebbero proibire i discorsi pubblici contro la democrazia?
(B) Pensi che gli Stati Uniti dovrebbero permettere i discorsi pubblici contro la democrazia? Il 21.4%
degli intervistati a cui è stata posta la domanda A ha risposto “sì”, mentre il 47.8% a cui è stata
posta la domanda B, ha risposto “no”. La conclusione è che la maggior parte delle persone non se la
sente di appoggiare misure proibizioniste
Ordinamento delle domande o delle parole: molte indagini riorganizzeranno l’ordine delle
domande all’interno di un questionario in modo che le risposte non siano influenzate dalle
domande precedenti
Errore legato all’inserimento dei dati: una volta raccolti i dati, i risultati di solito devono essere
inseriti in un computer, ma tale procedura potrebbe generare errori di immissione
Errori legati al censimento: del tutto plausibile che una domanda fra quelle prescelte per condurre un
censimento venga fraintesa, portando in tal modo l’intervistato a rispondere in modo non corretto
Errori non legati al campionamento: derivano da risposte mancanti, risposte errate o inserimento non
corretto dei dati. Questi potrebbero presentarsi anche in un censimento completo della popolazione
Errori di campionamento: derivano dall’utilizzo di un campione per la stima di informazioni riguardanti una
determinata popolazione. Tale tipo di errore si verifica poiché un campione fornisce informazioni
incomplete relative alla popolazione
11
24 feb
VARIABILI E MODALITÀ
Il processo statistico
1. Identificare l’obiettivo della ricerca: un ricercatore deve definire le domande di ricerca a cui intende
fornire una risposta
2. Raccogliere i dati necessari per fornire una risposta alle domande del punto 1 : se i dati non sono
raccolti correttamente, le conclusioni che si traggono sono prive di significato
3. Descrivere i dati: le statistiche descrittive permettono al ricercatore di ottenere una panoramica
generale dei dati
4. Fare inferenza: applicare le tecniche appropriate per estendere i risultati ottenuti dal campione alla
popolazione e riportare un livello di affidabilità dei risultati medesimi
Variabili: aspetti che caratterizzano il fenomeno che voglio analizzare. Sono le caratteristiche di un individuo
appartenente alla popolazione (es. sesso degli individui in un’aula). Vengono utilizzate per misurare la
caratteristica corrispondente ad ogni unità statistica
12
Qualitative/Categoriche: consentono la classificazione delle unità statistiche sulla base di alcuni
attributi, caratteristiche o qualità. Le modalità possono essere:
o Espressioni di un elenco non numerato (Colore dei capelli: Biondo, verde, nero; Colore degli
occhi: Verde, Azzurro, Nocciola; Genere: F,M,A)
o Espressioni di un elenco numerato (Livello di istruzione: Analfabeta,…, Dottore di ricerca)
Quantitative: forniscono una caratteristica numerica delle unità statistiche. Le modalità possono
essere:
o Discrete/ Numerabili: esprimibili senza la virgola. Le modalità assumono un numero finito o
un’infinità numerabile di valori (numero di figli)—> conteggio
o Continue/ Esprimibili in un intervallo: implica l’espressione con un sistema decimale, con la
virgola. Le modalità assumono un numero infinito di possibili valori che non sono
numerabili (peso, altezza, distanza)—> misurazione
Modalità: modo in cui la variabile si presenta. Sono le singole caratteristiche delle variabili (es. maschio,
femmina, altro)
Attraverso le modalità andiamo a individuare il numero di volte in cui le variabili si presentano
Ricapitolando:
27 feb
Nomenclatura:
X (in maiuscolo): indica i diversi caratteri o variabili, generalmente possono utilizzare anche Y, Z
x (in minuscolo): indica la modalità, la generica modalità si indica con i, i-esima
ni: indica la frequenza associata alla modalità i-esima corrispondente
Attenzione: carattere e modalità devono essere indicati con la stessa lettera
Metodo: rappresenta un possibile suggerimento per la risoluzione del problema, ma non è l’unico modo
per risolvere il problema, poiché problemi differenti possono essere affrontati con diversi approcci
comunque validi
Si legge sommatoria per i che varia da i a k (i è sempre il punto di partenza, numero iniziale delle modalità,
e k è sempre il punto di arrivo, numero finale delle modalità)
Per capire da quante unità statistica formano la collettività devo eseguire la sommatoria, ma il collettivo
corrisponde alla somma delle frequenze
Se tutte le frequenze sono pari ad 1 si parla di distribuzione di Frequenze Unitaria. Nel caso in cui tutte le
modalità hanno lo stesso numero di frequenza si parla di Distribuzione di frequenza uniforme
Per ottenere il numero di frequenze se le modalità sono tante si può usare excel in due modi:
Uso il conta.se (estremi delle modalità, “19”)
Uso le tabelle PIVOT: seleziono la colonna comprendente X e modalità annesse, poi vado du
“inserisci”, prendo ETA’ e la trascino sulle righe e su valori, ma non voglio somma delle età, ma
impostazioni campo valore e scegliere CONTEGGIO
Distribuzione di frequenza assoluta (N): conteggio di frequenze assolute
Es. quante volte il 19 si presenta?
Elenca tutte le tipologie di modalità riportando, per ciascuna di esse, il
corrispondente numero di occorrenze osservate
Il punto di partenza per spiegare le distribuzioni di frequenze assolute è quella
dello spoglio: partendo da una lista, vado a vedere quante volte il voto per ogni
candidato si presenta (riferendosi all’esempio dei candidati per le elezioni)
—> segno una stanghetta per quante volte si presenta la modalità e poi le sommo
per avere il totale
Collettivo statistico: totale delle frequenze
Distribuzione di frequenze relative: elenca ciascuna categoria o modalità assieme alla corrispondente
frequenza relativa—> corrisponde alla proporzione (o percentuale) di osservazioni appartenenti a una
determinata categoria rispetto al totale delle osservazioni
Frequenza assoluta
Frequenza relativa=
Somma totale delle frequenza assolute
14
È utile sommare tutte le frequenze relative per assicurarci che il totale sia pari a 1. Se stiamo utilizzando le
frazioni, la somma deve essere esattamente pari a 1, mentre se stiamo lavorando con i numeri decimali, la
somma potrebbe leggermente differire da 1 a causa degli arrotondamenti
Tipologie di tabelle
Tabelle caratterizzate da modalità non aggregate
—> distribuzioni di frequenze
Tabelle caratterizzate da modalità aggregate
—> distribuzione di frequenze in classi (solo per
dati discreti e continui)
15
Le classi per variabili quantitative continue si possono rappresentare anche nel modo seguente:
3 mar
APPROFONDIMENTO—LA STATISTICA NEL CONTESTO LAVORATIVO
5 domande frequenti:
1. Quanti soggetto occorre intervistare per conoscere se il nostro nuovo prodotto sarà un successo o
un flop?
2. A quale prezzo dobbiamo/possiamo metterlo sul mercato?
3. A chi dobbiamo rivolgerci?
4. Quali dati ci aiuteranno a decidere?
5. Come ci presentiamo i risultati ai nostri responsabili?
5 risposte necessarie:
1. Definire la numerosità campionaria: è facile da calcolare ma difficile da spiegare—> l’intervallo di
confidenza non è la stima dell’errore (utilità dell’analogica con il tiro a bersaglio)
2. Verificare la dinamica tra valore percepito e prezzo di acquisto—> price sensitivity measurement
(PSM):
o Comprendere quali sono le soglie minime e massime accettate di un prezzo, l'ampiezza del
range e la sua dinamica interna (elasticità) è un primo, ma necessario passo per ridare al
consumatore un ruolo centrale nella costruzione del marketing mix anche per ciò che
riguarda il costo di vendita
o PSM è il modello sperimentalmente che il nostro Istituto giudica più utile a questo scopo
o All'interno di un processo di ricerca permette infatti di verificare tutti i principali parametri
che concorrono nella definizione del prezzo:
Punto di equilibrio/indifferenza: rappresenta il valore che il target giudica come il
prezzo più frequentemente riscontrato nel mercato (per un determinato prodotto). Questo
valore, di solito, si avvicina al costo di acquisto del prodotto più diffuso, quello che viene
giudicato né conveniente, né costoso
Punto ottimale : è il prezzo più vantaggioso dal punto di vista del cliente, quello che
minimizza le resistenze (il più conveniente) senza peraltro eccedere nella direzione della
scarsa qualità (troppo conveniente)
Intervallo di accettabilità: indica il range entro il quale un prezzo può oscillare
rimanendo comunque, agli occhi del consumatore un acquisto possibile
o Il percorso d'analisi:
Fattore conveniente: a quale prezzo questo prodotto comincerebbe a diventare
conveniente per lei?
Fattore costoso: a quale prezzo questo prodotto comincerebbe a diventare costoso
per lei?
16
Fattore troppo costoso: a quale prezzo questo prodotto comincerebbe a diventare
così costoso da non farglielo comprare?
Fattore troppo conveniente: a quale prezzo questo prodotto comincerebbe a
diventare così conveniente da farle dubitare della sua qualità?
3. Identificare il profilo socio-demografico del target primario
4. Trovare i driver di scelta e stimare la loro potenzialità
5. Creare processi decisionali Data-driven
6 mar
Scala di misurazione di una variabile
Frequenze
Frequenze Relative(fi): ciascuna frequenza divisa per il totale (confrontare distribuzioni diverse)
Corrisponde alla frazione (o proporzione) del collettivo che presenta la modalità i
Frequenze Percentuali (pi): frequenze relative moltiplicato per 100 (confrontare distribuzioni
diverse)
Si ottiene moltiplicando la frequenza relativa per 100
Frequenze Relative Cumulate(Fi): somma consecutiva delle frequenze relative. È data dalla somma
della frequenza relativa associata a quella modalità con quella delle modalità precedenti
18
È data dalla somma della frequenza percentuale associata a quella modalità con quella delle
modalità precedenti
Distribuzione di Frequenze cumulate (Ni): frequenza cumulata riferita alla modalità i, indicata con Ni , è data
dalla somma della frequenza assoluta associata a quella modalità con quella delle modalità precedente
Quando le variabili sono ordinali o quantitative, si può calcolare la distribuzione delle frequenza cumulate
Le frequenza cumulate(Ni) ci dicono le unità del collettivo che presentano la modalità considerata e/o una
modalità precedente
Domanda: quanti sono gli individui che hanno titolo di studio minore o uguale a “media superiore”? E quelli
con“età minore o uguale 21 anni”?
10 mar
19
RAPPRESENTAZIONI GRAFICHE
I grafici rappresentano una forma primordiale di
comunicazione. Lo sviluppo dei grafici é stato
(ed è tuttora) caratterizzato da finalità
descrittive e strategiche
Forte impulso alla diffusione dei grafici è
imputabile alla diffusione dei pc—> genesi di
Infografica, Data Visualization, Graphic Design
Le rappresentazioni grafiche si dividono in:
Quantitativi:
o Grafico a punti
o Istogrammi
o Serie temporali
Qualitativi:
o Pictogrammi
o Grafico a torta
o Grafico a barre
Le rappresentazioni grafiche hanno lo scopo di descrivere una distribuzione di frequenze o di intensità, in
funzione delle modalità, qualitative o quantitative, di una o più variabili
Figure
Linee e segmenti
Superfici o aree
Solidi
Simboli convenzionali
Come scegliere un tipo di rappresentazione o l’altra?
Pictogrammi
Sono i più semplici. Rappresentazioni grafiche associate alle variabili qualitative misurate su scala nominale
Errore più comune: proporzioni dato-grandezza errate
Grafico a torta
Sono solitamente utilizzati per presentare le frequenze relative di un
carattere qualitativo, che può essere di tipo nominale od ordinale
I grafici a torta possono essere creati solo se tutte le modalità della
variabile considerata sono rappresentate. Sono utili per mostrare tutti
i possibili valori di una variabile qualitativa attraverso la
rappresentazione di tutte le sue parti (o settori)
Impiegato per visualizzare l’impatto o il peso che la modalità ha sul
totale: si calcola usando le frequenze relative o percentuali—> ad ogni
modalità di associa uno spicchio o una fetta di torta o meglio un
settore circolare
20
Ci sono delle formule per determinare l’ampiezza dell’angolo del settore, che sfruttano le frequenze
assolute e relative:
Frequenza assoluta
X 360 ° →cio è frequenzarelativa X 360 °
Totale frequenze
La formula considera il peso (ampiezza dell’angolo centro) associato alla modalità di ciascuna modalità
rispetto al totale
Sono utili per comparare le differenti parti di una variabile, non necessariamente rispetto all’intero
Grafico a barre affiancate: per evitare che la comparazione sia influenzata dalla dimensione della
popolazione o dalla numerosità campionaria, quando si confrontano differenti insiemi di dati
conviene utilizzare le frequenze relative, ricordandoci però che queste da sole non sono sufficienti
Grafico a barre orizzontali: si ricorre quando i nomi delle categorie sono molto lunghi
La larghezza delle barre non è importante e e non viene presa in considerazione
21
Grafico a punti
Si ottiene indicando su una retta orizzontale le osservazioni del carattere quantitativo in ordine crescente e
ponendo un punto sopra di esse ogni volta che nei dati si riscontra una frequenza assoluta. Può essere
utilizzato per presentare velocemente i dati
Istogramma
È una distribuzione di frequenze in classi per variabili di tipo continuo
In un istogramma si opera sulle classi che vengono rappresentate da
rettangoli non distanziati, con basi uguali o diverse
Si costruisce disegnando un rettangolo per ciascuna classe di dati
L’altezza di ciascun rettangolo rappresenta la frequenza assoluta (o
relativa) della corrispondente classe di dati, mentre la base misura
l’ampiezza della classe ed è uguale per tutte le modalità ed è
tale che tutti i rettangoli si tocchino fra loro
I rettangoli sono uno attaccato all’altro perché le variabili sono
continue
Viene utilizzato per le variabili quantitative. La variabile viene
raggruppata in classi di uguale ampiezza—> I’altezza del
rettangolo è proporzionale alla frequenza della classe
n° classi= n°rettangoli
Rappresentazioni
grafiche errate
Le rappresentazioni
grafiche rendono più diretto il messaggio presente nei dati grezzi o nelle tabelle dei dati
Ci sono occasioni in cui i grafici possono risultare:
Fuorvianti: determinano un’impressione errata dei dati in modo non intenzionale
Ingannevoli: se tentano appositamente di fornire un’idea sbagliata dei dati
Le più comuni rappresentazioni errate dei dati sono determinate da una manipolazione dell’unità di misura,
tipicamente si utilizza un sistema di misura incoerente o un’origine mal posizionata. È possibile che la
posizione della scelta nella domanda influenzi le risposte
Ricorrere a grafici tridimensionali e fortemente sconsigliato perché rende difficile la lettura del grafico e
distrae l’attenzione del lettore dai dati stessi
23
Nei grafici a barre e negli istogrammi le barre devono avere la stessa ampiezza: un’ampiezza uniforme
comporta che l’area del grafico sia proporzionale alla sua altezza, per cui per confrontare diverse quantità
possiamo confrontare semplicemente l’altezza delle barre. Quando utilizziamo una figura bidimensionale,
non è possibile ottenere un’ampiezza uniforme.: all’aumentare o al diminuire del valore dobbiamo
modificare sia l’ampiezza che l’altezza della figura per evitare di distorcere l’immagine rappresentata
24
13 mar
MEDIANA E QUARTILI
Ci sono 2 macroaree:
Misure di centralità/posizione: le misure di posizione o di tendenza centrale di una distribuzione
sono indici che consentono di sintetizzare una distribuzione attraverso un valore rappresentativo:
o Media aritmetica: variabili quantitative
o Moda: variabili quantitative e qualitative. Misura che identifica la modalità a cui
corrisponde la frequenza più elevata
o Mediana: variabili quantitative e ordinali (possiamo istituire un ordine gerarchico)
Misure di variabilità/dispersione:
o IQR
o Varianza
o Scarto quadratico medio
o Deviazione Standard
Entrambe le misure ci restituiscono informazioni di sintesi ma sono diverse. La scelta delle misure dipende
dal dato che abbiamo a disposizione
Mediana
Mediana(M): misura di sintesi che divide esattamente in 2 parti uguali i dati e le osservazioni in una
distribuzione di dati ordinata in senso crescente, il valore mediano e quel valore per il quale il 50% dei dati
sta a destra e il 50% dei dati restanti alla sua sinistra
La mediana non può essere calcolata per le variabili qualitative misurate su scala nominale
Mediana:
25
Posizioni centrali:
Mediana:
Il valore della
mediana è uguale al
valore
corrispondente
delle frequenze
cumulate
Metodo alternativo: metto per esteso le frequenze (metodo
troppo lungo)
Caso particolare: in alcuni casi la mediana non esiste o è indefinita come unico valore. Quando?
—> nei casi di variabili misurate su scale ordinali quando la posizione mediana ricade tra due differenti
categorie o modalità
1.
Passaggi:
27
1. Organizzare i dati in ordine crescente
2. Determinare la mediana M, o il secondo quartile Q2
3. Determinare il primo e il terzo quartile, Q1 e Q3, dividendo i dati in due parti: la prima parte
conterrà le osservazioni sotto la (o a sinistra della) mediana, mentre la seconda parte conterrà le
osservazioni sopra la (o a destra della) mediana
Il primo quartile corrisponde alla mediana della prima metà delle osservazioni che assumono valore
più basso, mentre il terzo quartile corrisponde alla mediana della metà delle osservazioni che
assumono valore più alto
Mediana per distribuzione distribuzione di frequenze Q1 e Q3:
Metodo alternativo:
Quanto più è variabile una distribuzione tanto più alto sarà il valore assunto dall’intervallo interquartile
L’intervallo interquartile non è influenzato dalla presenza di valori estremi, quindi se la distribuzione
presenta una forte asimmetria o se contiene valori estremi, è meglio utilizzare l’intervallo interquartile
come misura di dispersione perché è robusto
BOXPLOT
Il boxplot (o diagramma a scatola e baffi) è un grafico che consente di rappresentare una distribuzione
mediante 5 numeri—> sintesi dei 5 numeri: coinvolge l’osservazione più piccola, il primo quartile, la
mediana, il terzo quartile e l’osservazione più grande di una distribuzione
28
Baffo sinistro: segmento che esce dalla scatola e va dal Q1 fino al valore minimo
Baffo destro: segmento che esce dalla scatola e va dal Q3 fino al valore massimo
Ci sono 2 alternative:
Alternativa 1: descrizione complessiva delle misure di dispersione e posizione
o Rappresentazione grafica delle misure di posizione: Range,
Q1,Q2,Q3
o Valutazione variabilità ed indicazioni sulla forma della
distribuzione
Es: Buddy’s Pizza deriva dall’osservazione dei suoi dipendenti, le
seguenti informazioni sui tempi di consegna:
o Tempo minimo: 13 minuti
o Tempo massimo: 30 minuti
o Q1 = 15 minuti; mediana = 18; Q3 = 22 minuti
29
Limite superiore= UF = Q3+ 1.5 (IQR)
2. A partire dai punti Q1, M, Q3 tracciamo 3 linee verticali; uniamo queste linee verticali in un
rettangolo (o anche scatola o box)
3. Indichiamo i limiti inferiore e superiore, rispettivamente a sinistra e a destra della scatola
4. Tracciamo una linea da Q1 fino all’osservazione più piccola immediatamente maggiore del limite
inferiore. Tracciamo una linea da Q3 fino all’osservazione più grande immediatamente inferiore del
limite superiore—> queste linee sono chiamate baffi
5. Ogni osservazione più piccola del limite inferiore o più grande del limite superiore è considerata un
outliner e viene indicata con un asterisco
20 mar
ANALISI STATISTICA
1. Natura: sono variabili quantitative numeriche discrete misurate con scala ad intervalli
2. Mediana (Q2)
Ordino i numeri: 1,1,2,2,2,2,2,2,3,3,3,3,4,5
N è pari quindi N/2 e (N/2)+1= posizione 7 e 8–> 2
Q1= divido 14/2=7 e calcolo la mediana della prima parte della popolazione
M= (7+1)/2=4–> 2
Q3= divido 14/2=7 e calcolo la mediana della seconda parte della popolazione
M= (7+1)/2=4–> 3
30
Metodo alternativo
Q1= 14/4=3,5–> 2
Q3= (14X3)/4=10,5–> 3
3. Boxplot
Q1=2; Q2=2; Q3=3
IQR= Q3-Q1= 3-2=1
LI (limite inferiore)= Q1 - 1,5 X IQR= 2-(1,5X1)=0,5
LS (limite superiore)= Q3 + 1,5 X IQR= 3+(1,5X1)=4,5
5 è un valore anomalo perché è maggiore del limite superiore (4,5)
Ordino la distribuzione:
1,05 1,07 1,27 1,28 1,53 2,09 2,34 2,47 3,03
Mediana: la distribuzione è dispari quindi M= (9+1)/2=5–> El Charrito Beef (1,53)
Q1= 9/4=2,25
Q3= (3X9)/4=6,75
31
24 mar
MEDIA E VARIANZA
Statistica robusta
La misurazione del dato dipende sempre dalla forma della distribuzione
Misura robusta: se non risulta particolarmente sensibile ai valori estremi (i valori molto grandi o molto
piccoli)
Es: ho questi valori: 3,3,3,4,2,5,2,150—> in questo caso la media è influenzata da quel singolo valore molto
alto, la mediana no, quindi è meglio
Poiché i valori estremi non influenzano il valore della mediana, si dice che questa è robusta
La media non è robusta. Quando i dati mostrano un’asimmetria a destra o a sinistra, significa che ci sono
valori estremi nelle code che spingono il valore della media nella direzione della coda della distribuzione
Queste osservazioni tendono a far aumentare il valore assunto dalla media, mentre hanno un effetto
trascurabile sulla mediana
La ragione per la quale si calcola la media risiede nel fatto che gran parte dell’inferenza statistica è basata
sulla media
Media
Ogni volta che si sente la parola media non sempre si riferisce alla media aritmetica ma potrebbe essere
usata su supporto di una decisione, mentre un’altra media potrebbe essere usata per supportarne una
differente
La media aritmetica è un valore di sintesi riferito a una variabile quantitativa e ordinale. Fornisce un valore
di equilibrio all’interno della distribuzione di frequenze
Non sempre i numeri vengono trattati come numeri: a volte vengono trattati come codici e non si può
calcolare la media
32
La media di un campione è una statistica
Distribuzione di frequenze assolute: quando i dati sono rappresentati sotto forma di una
distribuzione di frequenze, assolute o relative
Poiché non è possibile risalire ai dati unitari a partire da una distribuzione di frequenza in classi, si
assume che ciascuna classe possa essere sintetizzata da un valore centrale—> si trova sommando
l’estremo inferiore di due classi adiacenti e dividendo il risultato per 2
Si moltiplica il valore centrale per la frequenza della classe e si ripete questo procedimento per
ciascuna classe e si sommano i risultati. Questa somma era approssimazione del totale di tutte le
osservazioni
Procedimento:
1. Faccio la media tra 18 e 22, tra 22 e 26 e tra 26 e 30—> ottengo dei nuovi valori centrali
2. Faccio la media tra i valori centrali che ho ottenuto
In una popolazione di tipo uniforme la media è uguale alla modalità, ma questo vale solo nel caso di
distribuzione uniformi simmetriche
Es: su un campione di 10 rispondenti sono stati rilevati il numero di viaggi nell’ultimo trimestre
Media: (4+4+3+4+10)/10=2,5
33
La media aritmetica è influenzata dai valori anomali o estremi o outliers. A volte ci sono dei valori anomali
che sbilanciano la media—> si individuano con i boxplot
30 è un valore estremo
Proprietà della media: la somma delle differenze tra i valori e la loro media aritmetica (scarti) è pari a zero
Media pesata: talvolta esistono dati che hanno una maggiore importanza (o peso) di altri nella stessa
distribuzione statistica—> si calcola la media pesata
si trova moltiplicando ciascun valore della variabile per il
corrispondente peso, sommando questi prodotti e dividendo il
risultato per la somma dei pesi
27 mar
34
Varianza
Indica quanto i dati si discostano dal valore della media. Limitarsi solo alla media aritmetica è
estremamente limitante. La varianza si basa sulla evirazione dalla media
Popolazione: —>
Campione: —>
Deviazione standard: è utilizzata insieme alla media per sintetizzare in termini numerici le distribuzioni a
forma campanulare e simmetriche. La media fornisce una misura di tendenza centrale della distribuzione,
mentre la deviazione standard misura la dispersione della distribuzione
Se si stanno confrontando due popolazioni, quanto maggiore è la deviazione standard, tanto maggiore è la
dispersione di una distribuzione
Quanto più un’osservazione è distante dalla media, tanto più alta sarà la deviazione in valore assoluto
La somma di tutte le deviazioni dalla media è uguale a zero
Applicazioni:
35
Intervallo di variabilità: definisce una variabilità rispetto alla media ma all’interno di un intervallo
(range)
La paga settimanale (in euro) di 5 operatori di un call-center è la seguente: 500 100 400 300 50
Dopo alcune elaborazioni si può affermare che la retribuzione settimanale media degli operatori è
pari a 270 euro. Quanto variano le retribuzioni settimanali di ogni operatore rispetto alla media?
Popolazione:
Questo intervallo
indica la fascia in cui
si trovano la
maggior parte delle
retribuzioni
Interpretazione in termini di sqm: lo scarto delle paghe rispetto alla media di 270€ è, in media, di
172€; ciò significa che la paga può variare tra 98€ (270-172 = 98) e 442€ (270+172 =442)
Nell’intervallo 98–442€ ricadono solo 3 osservazioni, 3/5 =0,6 cioè il 60% delle osservazioni:
50 100 300 400 500
Campione:
Scarto standardizzato/ z-score: rappresenta la distanza di ciascun valore dalla media, in unità di
deviazioni standard. Si ottiene sottraendo la media dal valore della variabile e dividendo per la
deviazione standard. Lo z-score non ha unità di misura e ha media 0 e varianza 1
o Se un valore osservato nei dati è maggiore della media, lo z-score sarà positivo
o Se un valore osservato è minore della media, lo z-score sarà negativo
o Se un valore è uguale alla media, lo z-score sarà zero
È una misura che consente di confrontare le intensità (modalità numeriche) rispetto alla media
depurate dalla variabilità complessiva. È utile per confrontare fenomeni con scala di misure diverse
Popolazione:
Campione:
Es: per confrontare i punteggi ai due diversi test, è possibile calcolare gli z-score per ciascun
individuo
36
MODA
È la modalità (o valore) che si presenta, all’interno della distribuzione, con la frequenza più
alta (assoluta, relativa o percentuale)
Per calcolare la moda di una distribuzione è necessario individuare quale modalità ha la
frequenza più elevata. In generale, le distribuzioni possono non avere la moda, avere una
sola moda o più di una moda
Le distribuzioni di solito hanno una sola moda (a) ma
possono avere più di una moda (b) o non avere la moda (c)
7 apr
INTERVALLI TIPICI
37
Se avessimo avuto una variabile continua con una distribuzione simmetrica intorno al valore della media
allora possiamo affermare senza necessità di computo che:
Nell'intervallo ricade il 68% delle osservazioni
Nell'intervallo ricade il 95% delle osservazioni
Nell'intervallo ricade il 99% delle osservazioni
Percentile: è un indice usato per descrivere in termini percentuali la posizione della prestazione di un
soggetto rispetto al totale delle prestazioni dei soggetti osservati. Possiamo interpretare così questo indice:
Tra il 25° e il 75° percentile: punteggio nella media
Tra il 15° e il 25° percentile: punteggio leggermente al di sotto della media
Tra il 5° e il 15° percentile: punteggio inferiore alla media
Inferiore al 5° percentile: punteggio molto inferiore alla media (solo il 5% ella popolazione ottiene
un punteggio simile)
Quozienti e punteggi standard: indici usati di rado nelle prove di valutazione degli apprendimenti sono
indici dove le medie del campione vengono standardizzate. Come per i punti Z rappresentano punteggi
critici punteggi al di sotto di due deviazioni
Quozienti (Media=100; Dev.st.=15; Punteggio critico <70)
Punteggi Standard (Media=10; Dev.st.=3; Punteggio critico <4)
CORRELAZIONE LINEARE
Relazioni tra variabili quantitative: molte volte una correlazione può essere determina anche attraverso
altre variabili—> così si creano correlazioni spurie
Si cerca una regola auto esplicativa (no ricorso a terze variabili) che spieghi cosa succede tra 2 o più variabili
quantitative. Parliamo di relazioni tra variabili quando non ci sono altre variabili che intervengono—> se
una aumenta, aumenta anche l’altra; se una diminuisce, diminuisce anche l’altra
Relazione tra trombosi e vaccinazioni: le trombosi aumentano all’aumentare delle vaccinazioni per
Covid
38
Relazione positiva tra percentuale di matrimoni con rito religioso e tasso di mortalità delle rondini:
all’aumentare dei matrimoni con rito religioso aumentano le morti delle rondini
Le apparizioni cinematografiche di Nicolas Cage sono collegate al numero di morti per
annegamento in piscina
La falsa correlazione tra la margarina e il Ford Transit
Variabile risposta/dipendente: variabile i cui valori possono essere spiegati attraverso i valori della variabile
esplicativa o indipendente (in alcuni casi si usa anche il termine predittore)
Il primo passo per identificare il tipo di relazione esistente tra due variabili consiste nella loro
rappresentazione grafica attraverso il diagramma a dispersione (scatterplot):
Ogni unità statistica (es. studente) possiede due modalità di due diverse
variabili—> X, Y
L'unità statistica si rappresenta con un punto
Le coordinate del punto sono le: modalità di X e Y ossia x; e yi
Per l'unità statistica i-esima, le coordinate saranno: X; e yi
L'insieme dei punti fornisce lo scatterplot o diagramma di dispersione
I punti non devono mai essere collegati nello scatterplot
Lo scatterplot necessita di:
• 2 variabili quantitative (X, Y)
• 2 sequenze di modalità: lavoriamo solo con le unità e non
Bibcon distribuzioni di frequenze)
• Le 2 sequenze diventano coordinate cartesiane per poter
buirealizzare lo scatterplot
Campione:
40
Per verificare se la correlazione tra la variabile esplicativa e la variabile risposta è sufficientemente forte, si
deve determinare il valore assoluto del coefficiente di correlazione: se è maggiore del valore critico, allora
possiamo concludere che esista una relazione lineare tra le due variabili; se esso è inferiore a tale soglia
critica, allora concluderemo che non esiste una relazione lineare
Variabile nascosta: è in relazione sia con la variabile esplicativa sia con la variabile risposta, per cui esiste la
possibilità che due variabili risultino essere correlate senza in realtà avere un nesso di casualità
14 apr
STATISTICA DESCRITTIVA BIVARIATA
Paradosso di Anscombe: dice che il coefficiente di correlazione lineare non
è preciso perchè può dare lo stesso risultato anche in situazioni diverse tra
di loro. Per questo è importante guardare lo scatterplot
—> si vede bene la differenza delle variabili. Quando un numero da solo
non è sufficiente. Non tutti i dataset presentano una concordanza tra le
variabili X e Y
41
Regressione: metodologia che consente di quantificare la dipendenza tra una coppia di variabili
quantitative X (causa) e Y (effetto). Il risultato più importante è quanto impatta la dipendenza della variabile
causa sulla variabile effetto
Quando si analizza la relazione di dipendenza tra due variabili quantitative possiamo utilizzare il valore di
una variabile per predire i valori dell'altra
La variabile risposta o dipendente (Y) indica la variabile i cui valori possono essere spiegati o previsti
attraverso i valori della variabile esplicativa o indipendente, detta anche predittore, (X)
Legame tra causa e effetto è una funzione Y=f(X), dove f indica il tipo di relazione che lega X,Y
Relazione statistica: se il grafico di dispersione e il coefficiente di correlazione lineare indicano che esiste
una relazione lineare tra due variabili Y e X, è possibile esprimere questa relazione attraverso una funzione
lineare che sia in grado di esprimere il legame di dipendenza tra X ed Y (regressione)
Più la distanza tra i punti e la retta è ravvicinata, più il risultato sarà accurato—> l’obiettivo è quindi quello di
ottimizzare la distanza tra i punti e la retta
La correlazione misura la forza della relazione lineare
tra 2 variabili—> solo intensità della relazione
La regressione analizza la dipendenza di una variabile
da un’altra—> causa e effetto
Dato osservato: Yi
Dato teorico o previsto: Ýi
Dato residuo: distanza tra valore osservato e valore
teorico. I residui ci forniscono un’indicazione di
quanto le nostre previsioni siano vicine alle
osservazioni reali: più piccoli sono i residui, migliore è la previsione
Retta stimata con il criterio dei minimi quadrati: quella che minimizza la somma dei quadrati degli errori (o
residui) tra i valori osservati, Yi, e quelli previsti o stimati, Ýi—> è la retta che minimizza i quadrati delle
distanze tra tutti i valori osservati (Yi) e quelli teorici (Ýi), in corrispondenza di ciascun valore X
Il vantaggio del criterio dei minimi quadrati è quello di permettere un’inferenza statistica per i valori previsti
e per il coefficiente angolare
Equazione
della retta di
regressione dei minimi quadrati nella popolazione:
—> Coefficiente di regressione o pendenza: variazione in media della variabile dipendente
vvv(o risposta) Y in corrispondenza dell’aumento di una unità della variabile esplicativa (o
Variazioni di Y
vvvindipendente) X—>
Variazioni di X
vvvEs: in una retta con coefficiente angolare pari a 2/3, se X aumenta di 3, Y aumenta di 2
42
in cui la retta vvvvvvvinterseca l’asse verticale. Se l’intercetta ha un valore molto alto, la
dipendenza sarà vvvvvvimolto bassa
È ragionevole che la variabile X assuma il valore 0?
Esiste qualche osservazione nei dati vicina a X= 0?
Se la risposta a entrambe le domande è no, allora non possiamo fornire
un’interpretazione all’intercetta
Devianza totale: è la distanza tra il valore generico osservato della variabile risposta e la media del valore
della variabile risposta—> Devianza residua+ Devianza spiegata
43
Devianza residua: è la distanza tra il valore generico osservato della variabile risposta e il valore generico
previsto della variabile risposta. Si trova sommando il quadrato dei residui. Quindi, quanto più è piccola la
somma dei quadrati dei residui, tanto minore è la devianza residua e maggiore sarà il valore di R2
Devianza spiegata: è la distanza tra il valore generico previsto della variabile risposta e la media del valore
della variabile risposta
I valori stimati possono essere calcolati sostituendo sull'equazione della retta i valori osservati della
variabile esplicativa:
y= 0,0116x + 5,5273
y’= 0,0116 X 35 + 5,5273 = 5,93
Grafico o scatterplot dei residui: i residui possono utilizzati anche per verificare l'adeguatezza del modello
lineare. L'esplorazione del grafico (valori delle X sulle ascisse e residui sulle ordinate) consente di
identificare l'effettivo legame lineare tra le variabili
Se è una nuvola esiste una relazione lineare, altrimenti no. I residui variano tra [+1; -1]
Previsione: la retta di regressione dei minimi quadrati può essere utilizzata per fare previsioni della
variabile risposta Y per valori non osservati della variabile esplicativa X
Previsione per valori all’interno del campo di applicazione del modello
Invece, non si dovrebbe utilizzare la retta di regressione per fare
previsioni al di fuori del campo di applicazione del modello, perché non
possiamo essere sicuri che la relazione lineare continui ad esistere
—> utilizzo del modello di regressione per effettuare previsioni per valori della
variabile esplicativa che sono molto più piccoli o molto più grandi di quelli
osservati
17 apr
Esercizio
Date le seguenti variabili:
X: profondità di inizio della perforazione (ft o piedi) per perforare 5 ft (piedi)
Y: tempo impiegato (in minuti)
Individuare la variabile causa e la variabile effetto
Trovare l’equazione della retta di regressione dei minimi quadrati
44
Interpretazione coefficiente di regressione: b1 = 0,0116
—> Per ogni ft (piede) supplementare di profondità da cui inizia la perforazione, la durata
necessaria a perforare 5 piedi di roccia aumenta in media di 0,0116 minuti
Interpretazione intercetta: b0 = 5273, 5
—> Il tempo necessario a perforare 5 piedi di roccia, quando la perforazione inizia dalla superficie è
di 5,5273 minuti
Prevedere il tempo di perforazione se la profondità è pari a 130 ft:
—> Il tempo di perforazione rilevato è pari a 6,93 secondi. Il tempo stimato è pari a 7,03 secondi
Disegnare lo scatterplot e la retta di regressione dei minimi quadrati
28 apr
BONTÀ DI ADATTAMENTO
La bontà di adattamento al modello è espressa da R2:
Se R2 si avvicina allo 0, allora il modello (la retta di regressione) è pessimo e non va bene
Se R2 è vicino a 1, allora il modello è ottimo e la retta di regressione stimata è buona
La bontà di adattamento R2 si può calcolare in 3 modi:
1. Quadrato del coefficiente di correlazione: R2= p 2
2 Devianza spiegata
2. Rapporto tra devianza spiegata e devianza totale: R =
Devianza totale
2 Devianza errore
3. Complemento al rapporto (1–) tra devianza errore e devianza totale: R =1−
Devianza totale
Devianza totale: è il numeratore della varianza, ovvero la devianza di Y, cioè la nostra varianza senza
dividerla per N o n. Se ci danno la deviazione standard (scarto quadratico medio), sappiamo che la
deviazione standard è la radice quadrata della varianza. La devianza è la formula della varianza senza
dividere per N, quindi Devianza=Varianza X N e Varianza= ( Deviazione standard )2
45
Devianza spiegata: è la devianza della regressione—> cioè della differenza tra i valori previsti e la
media di Y, elevando poi tutto al quadrato
Devianza dell’errore: è la sommatoria di tutti i residui (differenza tra valori reali e valori previsti) al
quadrato
46