0% acharam este documento útil (0 voto)
13 visualizações12 páginas

Inferencia Estatistica

O documento aborda a inferência estatística, que é dividida em estimação pontual e por intervalo, e discute a importância de estimar parâmetros populacionais a partir de amostras. São apresentadas propriedades dos estimadores, como justeza, eficiência, consistência e suficiência, além de métodos para calcular intervalos de confiança para médias, proporções e variâncias. O texto também menciona a aplicação do Teorema Central do Limite e a utilização de distribuições normais e t-student para estimativas em diferentes tamanhos de amostra.

Enviado por

angelochocolati
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
13 visualizações12 páginas

Inferencia Estatistica

O documento aborda a inferência estatística, que é dividida em estimação pontual e por intervalo, e discute a importância de estimar parâmetros populacionais a partir de amostras. São apresentadas propriedades dos estimadores, como justeza, eficiência, consistência e suficiência, além de métodos para calcular intervalos de confiança para médias, proporções e variâncias. O texto também menciona a aplicação do Teorema Central do Limite e a utilização de distribuições normais e t-student para estimativas em diferentes tamanhos de amostra.

Enviado por

angelochocolati
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd

V.

Inferência Estatística 96

V. INFERÊNCIA ESTATÍSTICA

5.1 Introdução

Até agora preparamos o caminho para poder entrar nos problemas da inferência estatística.
Vimos as diversas técnicas da análise exploratória de dados, as técnicas de amostragem e a
teoria de probabilidades, cada uma dessas áreas constituem o tripé da inferência estatística.

Amostrage
m
Cálculo de
Estatística Probabi-
Descritiva lidades

Inferência
Estatística

Figura 31. Esquema geral de um curso de estatística8

Vimos, também, esse processo na Figura 27 da página 87. Agora, estamos prontos para
entrar na parte fundamental da estatística, que é a tomada de decisões em condições de
incerteza.

A inferência estatística se divide em duas grandes áreas:

Pontual
Estimação
Inferência Por intervalo
Estatística
Teste de Hipóteses

5.2 Estimação de parâmetros


8
Extraído do livro Estatística de Costa Neto, 1977

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 97

Voltemos ao exemplo da 5ª série da escola 1, página 88. Ali vimos como a média amostral
é uma variável aleatória:

X: nota dos alunos da 5ª série da escola 1, tomando uma amostra de tamanho 2n=2

Se X ~ N (4,2; 1,452)  X ~N (4,2; 1,452/2)

Ou pelo Teorema Central do Limite (embora o tamanho seja pequeno)

X ~? (4,2; 1,452)  X ~N (4,2; 1,452/2)

Acontece que quando vamos ao campo escolhemos apenas uma única amostra das 780
possíveis deste caso. No caso extremo, podemos escolher uma amostra composta pelos
alunos número 5 e número 12 (página 89), que possuem as maiores notas, neste caso a
média amostral tomará o maior valor 7,9, este valor é chamado de estimativa:

X5=7,0 e X12=8,8  X = 7,9  consequentemente, super - estimaríamos a média, só


que a probabilidade de isto acontecer é extremamente
pequena  2/780

O mesmo acontecerá se na amostra forem selecionados o aluno 26, cuja nota é 1,2 , a mais
baixa de todos os alunos, e como parceiros os alunos 2 ou 15 ou 36 cujas notas são 2,3

X26=1,2 e X2=2,3  X = 1,75  consequentemente, sub - estimaríamos a média


Só que a probabilidade de isto acontecer é pequena, não tão pequena quanto o caso
anterior, pois temos três alunos com notas 2,3 
6/780

O mais provável de acontecer, dado que a maioria dos alunos está perto da média, é que a
média amostral, também, fique próxima da verdadeira média. Podemos calcular todas essas
probabilidades, uma vez que podemos aproximar a distribuição da média amostral para a
distribuição normal.

5.2.1 Estimação pontual

Quando utilizamos um único dado da amostra para estimar um parâmetro populacional se


diz que a estimação é por ponto ou pontual. As estatísticas utilizadas para estimar os
parâmetros populacionais são chamados de estimadores:

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 98

Estatística Parâmetro populacional Estimador


Média Média populacional: µ Média amostral: X
Proporção Proporção populacional: π Proporção amostral: P
Variância Variância populacional: σ 2 Variância amostral: s2
Desvio padrão Desvio padrão populacional: σ Desvio padrão amostral: s
Coeficiente de correlação Coef. correlação populacional: ρ Coef. correlação amostral: r

E, os valores que os estimadores tomam em uma amostra determinada são chamados de


estimativas.

Propriedades dos estimadores: Seja T um estimador de um parâmetro populacional θ :

Propriedade 1: Justeza ou não-tendenciosidade

Um estimador T é dito não viciado ou não-viesado de θ se :

E(T)= θ

Propriedade 2: Eficiência

Dois estimadores não viciados T e T´ de um mesmo parâmetro θ , e

V(T) < V(T´)

Então, T é dito ser mais eficiente que T´

Propriedade 3: Consistência

Um estimador T é consistente se:

Lim n→∞ P(|T -θ | ≥ ε ) = 0, para todo ε > 0

Isto significa que com amostras suficientemente grandes pode-se tornar o


erro de estimação tão pequeno quanto se queira. Por outro lado, se o
estimador for justo, a condição de consistência equivale a dizer que sua
variância tende a zero, quando n tende a infinito:

Lim n→∞ σ 2(T ) = 0

Propriedade 4: Suficiência

Um estimador é chamado de suficiente se contêm o máximo possível de informação com


referência ao parâmetro por ele estimado.

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 99

Para estimar a média populacional, temos vários estimadores. Comparemos apenas dois, a
média amostral e a mediana (supondo o número de dados ímpar, não muda se o número de
dados for par):

Parâmetro a ser estimado: Média populacional: µ

Propriedades Média amostral: X Mediana(*)


Justeza E(X) = µ  E(Mediana) = µ 
Sim Sim
Eficiência V(X) = σ /n  Sim V(Mediana) = σ 2  Não
2

Consistência Sim Não


Suficiência Sim Não
(*) para n ímpar

A maioria dos estimadores clássicos possuem estas propriedades.

5.2.2 Estimação por intervalo ou intervalar

O problema da estimação pontual, ou por ponto, é que este procedimento não permite
julgar qual a possível magnitude do erro que estamos cometendo. Daí surge a idéia de
construir intervalos de confiança que estão baseados na distribuição amostral do estimador
pontual.

[Link] Intervalo de confiança para a média populacional

Pelo Teorema Central do limite sabemos que :

X −µ
Z =
σn

Ou seja, dado α podemos encontrar valores Zα /2 tal que a:

P( - Ζ α/2 <Z< Ζ α/2 ) = 1-α

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 100

α/2 α/2
1−α

-Ζ α/2 0 Ζ α/2 Z

Podemos mostrar que:


X-Ζ α/2 *σ/ Vn < µ < X + Ζ α/2 *σ/ Vn

a probabilidade de µ pertencer ao intervalo [X - Ζ α/2 *σ/ Vn; X + Ζ α/2 *σ/ Vn] é 1-


α,
chamado de nível de confiança

1-α  nível de confiança (expresso em tanto por um)


α  nível de significância ou margem de erro

Suponhamos que α = 5% 1-α = 95%  isso significa que se construíssemos 100


intervalos de confiança, esperaríamos que 95 deles contenham o verdadeiro valor da
média, ou seja, haveria uma margem de erro de 5%, o que significaria que devemos esperar
que 5 dos 100 intervalos não contenham o verdadeiro valor.

Voltemos ao exemplo dos alunos da escola 1, página 88. Contruamos alguns intervalos de
confiança, para α = 5%, o que implica que Ζ α/2 = 1,96, logo a formula geral será:

Supondo σ conhecido e igual a 1,45 e o tamanho da n=2

Limite inferior: X – 1,96 *1,45/V2  X-2


Limite superior X + 1,96 *1,45/V2  X+2

Cálculo dos intervalos de confiança segundo os membros da amostra:

Sujeitos na amostra Média amostral Limite inferior Limite superior Contem µ =4,2?
X5 = 7,0 e X12 = 8,8 7,90 5,90 9,90 Não
X26= 1,2 e X2 = 2,3 1,75 0,00 3,75 Não
X3 = 5,5 e X4 = 5,6 5,55 3,55 7,55 Sim
X8 = 4,0 e X16 = 4,9 4,45 2,45 6,45 Sim

Acontece que você pega apenas uma única amostra! Alguém poderia perguntar como é
possível estimar a média populacional supondo a variância populacional conhecida? Em
alguns casos é possível fazer esta suposição, principalmente, em casos onde se conhece a
distribuição da variável em condições ambientais. Por exemplo, a distribuição da pressão

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 101

sangüínea de pessoas normais (não doentes) é conhecida, porém você deseja conhecer o
efeito de um medicamento sobre ela. Você pode partir do pressuposto de que a única
mudança que este medicamento vai trazer é o deslocamento da média, mas que o a
ingestão do medicamento não vai alterar substancialmente a estrutura de
variabilidade9. Neste caso, você pode assumir que a variância da pressão depois de tomar
o medicamento é igual a variância antes de tomar o medicamento. Esta suposição pode ser
falsa, por essa razão quando testamos hipóteses sobre igualdades de média, a primeira
pergunta que devemos responder é se a suposição de igualdade de variâncias se sustenta,
para o qual o SPSS usa o LEVENE TEST.

Se a variância for desconhecida, esta pode ser estimada pela variância amostral. Se a
amostra for grande (n>30) podemos utilizar a fórmula anterior, apenas substituindo a
variância populacional pela variância amostral.

Limite inferior: X - Ζ α/2 * s / Vn  onde s é o desvio padrão amostral, que pode ou


não
Limite superior: X + Ζ α/2 * s / Vn estar corrigido, já que se trata de grandes amostras

Porém se a amostra for pequena, ao invés de usar a distribuição normal devemos utilizar a
distribuição t-student com n-1 graus de liberdade.

Limite inferior: X - τ α/2 * s / Vn  onde s é o desvio padrão amostral corrigido


Limite superior: X + τ α/2 * s / Vn já que se trata de pequenas amostras

X −µ
Quadro de decisão para estimar a média: Z=
sim σ
n
σ 2 conhecida X −µ
não t=
s
sim não n
n > 30
X −µ
X~Normal sim Z=
s
n
(*) dependendo da natureza da variável pode ser que n precise ser
não n > 30 (TCL)
sim (amostra grande) X −µ
Z=
σ
σ 2 conhecida n
muito maior do que 30
não n > 30 (TCL)
(grandes amostras) X −µ
Z=
s
n

9
O pressuposto da homocedasticidade da variância na comparação de médias é apresentado no próximo
capítulo

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 102

[Link] Intervalo de confiança para a proporção

Limite inferior: p - Ζ α/2 * p(1-p) /n só para n > 30

Limite superior p + Ζ α/2 * p(1-p) /n

[Link] Intervalo de confiança para a variância: σ 2

Limite inferior: (n-1)*S2/ χ α/2 Observamos que para pequenas amostras a


variância
Limite superior: (n-1)*S2/ χ 1−α/2 deve ser corrigida e que o numerador: (n-1)*S2 é
igual a soma dos quadrados dos desvios
120

100

80

60

40
α /2
α /2
20
S t d . D e v = 4 ,6 4
M e a n = 1 0 ,1
0 N = 1 0 0 0 ,0 0
2 ,0 6 ,0 1 0 ,0 1 4 ,0 1 8 ,0 2 2 ,0 2 6 ,0 3 0 ,0
4 ,0 8 ,0 1 2 ,0 1 6 ,0 2 0 ,0 2 4 ,0 2 8 ,0
χ 1−α/ χ
C H I1 0

2 α/2

Vejamos alguns exemplos:

Voltemos ao exemplo da nota e atitudes frente a Matemática das crianças das três escolas,
página 27. Suponhamos que essas crianças correspondem a uma amostra de cada escola e
que não conhecemos nenhum parâmetro. A primeira questão a ser respondida será se as
variáveis nota e atitude se distribuem segundo uma Normal. Podemos verificar que pelo
teste de Lilliefors (página 83) que as notas das três escolas seguem uma distribuição
normal:

Estatísticas Escola1 Escola2 Escola3 Geral


Nº de observações 40 23 29 92
Média 4,2250 8,2043 4,9138 5,4370

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 103

Desvio padrão 1,4565 1,6199 1,1895 2,1558


Ramo Escola 1 Escola 2 Escola 3 Geral
(unidade)
1 2 2
2 3334689 3 3 3333334689
3 123378889 0033 012333378889
4 011112455799 345555689 011112344555555678999
5 03355566 334555567 03333455555556667
6 7 55 12223 12223557
7 0 377888 0 00377888
8 8 35677899 356778899
9 2449 2449
10 00 00

Passos para calcular os intervalos de confiança


Escola1 Escola2 Escola3 Geral
α =5% Zα /2 tα /2 gl=22 tα /2 gl=28 Zα /2
Valor 1,96 2,07 2,05 1,96
Zα /2 *s / Vn 0,45 0,70 0,45 0,44
Limite inferior 3,77 7,50 4,45 4,99
Limite superior 4,68 8,90 5,37 5,88
Obs: O SPSS sempre fornece a variância e o desvio padrão já corrigidos

O SPSS calcula o intervalo de confiança, quando solicitamos comparação de mais de duas


média, use o banco de dados [Link]:

Statistics
Compare means
One way ANOVA
Dependent list  nota e atitude
Factor  escola
Define Range  1 a 3 ( número de escolas)
Post Hoc  Selecionar Tukey´s honestly ...
(para achar as diferenças entre os grupos)

SAÍDA DO SPSS
- - - - - - - - - - - - -- - O N E W A Y - - - - - - - - - - - - - -
ANÁLISE DE VARIÂNCIA - ANOVA: um critério de classificação

O que está sendo testado?

Se a nota das três escolas podem ser consideradas iguais:

Hipótese nula:  Ho: µ 1 = µ 2 = µ 3

Contra a possibilidade da existência de pelo menos uma diferença

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 104

Hipótese alternativa:  H1: µ i ≠ µ j para algum i ≠ j

Variable NOTA
By Variable ESCOLA
Analysis of Variance

Sum of Mean F F
Source D.F. Squares Squares Ratio Prob.

Between Groups 2 242,8353 121,4176 60,0079 ,0000  p-valor


Within Groups 89 180,0790 2,0234
Total 91 422,9143

Standard Standard
Group Count Mean Deviation Error Minimum Maximum 95 Pct Conf Int for Mean
Escolas n média desvio erro-pad mínimo máximo [Link] [Link]

Grp 1 40 4,2250 1,4565 ,2303 1,2000 8,8000 3,7592 TO 4,6908


Grp 2 23 8,2043 1,6199 ,3378 2,3000 10,0000 7,5039 TO 8,9048
Grp 3 29 4,9138 1,1895 ,2209 2,3000 7,0000 4,4613 TO 5,3662

Total 92 5,4370 2,1558 ,2248 1,2000 10,0000 4,9905 TO 5,8834

Levene Test for Homogeneity of Variances


Teste de homogeneidade de variâncias
2 2 2
Statistic df1 df2 2-tail Sig. Hipótese nula:  Ho: σ 1 = σ 2 = σ 3
2 2
,2565 2 89 ,774 H alternativa:  H1: σ i = σ j
para algum
i ≠ j
p-valor

Multiple Range Tests: Tukey-HSD test with significance level ,050

The difference between two means is significant if


MEAN(J)-MEAN(I) >= 1,0058 * RANGE * SQRT(1/N(I) + 1/N(J))
with the following value(s) for RANGE: 3,37

(*) Indicates significant differences which are shown in the lower triangle

G G G
r r r
p p p

1 3 2
Mean ESCOLA

4,2250 Grp 1
4,9138 Grp 3
8,2043 Grp 2 * *

Estas saídas serão exploradas de forma detalhada na análise de variância, aqui apenas
estamos mostrando o comando que calcula o intervalo de confiança para as médias
populacionais.

Observe que os limites dos intervalos calculados por nós diferem ligeiramente daqueles
que o SPSS calculou, isto se deve a dois fatores: o primeiro, é que o SPSS usa sempre a
distribuição t-student, independente do tamanho da amostra e, segundo, a precisão do

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 105

cálculo do SPSS é maior uma vez que ele só arredonda no final das contas e não nos passos
intermediários.

Intervalos de Confiança para estimar a nota em Matemática

Escola 1
Escola 2
Escola 3
Geral
X: nota na prova 0 1 2 3 4 5 6 7 8 9 10

Observe que o comprimento do intervalo de confiança é 2 * Zα /2 * s / n

Zα / 2 * σ
X + Zα / 2 *Xσ
X− n
n
−ε ε
Zα / 2 * σ
erroabsoluto = ε =
n

A amplitude do intervalo depende de:

• Nível de confiança: se aumentamos (ou diminuímos) o nível de confiança, o


comprimento do intervalo também aumenta (ou diminui)
• Nível de dispersão: se a variável for muito dispersa, o comprimento aumenta, se a
variável for homogênea o comprimento diminui.
• Tamanho da amostra: se aumentamos o tamanho da amostra o comprimento diminui,
mas se amostra for pequena o comprimento aumenta.

O ideal seria termos intervalos estreitos - precisos - com o maior nível de confiança
possível, intervalos amplos não são de muita utilidade. Aqui entra um outro conceito que é
a precisão da estimativa. Uma estimativa é mais precisa quanto menor comprimento do
intervalo de confiança, ou dito de outra forma, quanto menor for o erro absoluto.

Suponha que desejamos estimar a proporção de eleitores que votarão no candidato XYZ.
De nada adiantará dizer que essa estimativa está entre 0% e 100%, o nosso objetivo será
dar intervalos de confiança, com alta precisão e com um bom nível de confiança. Aliás, o
que estamos acostumados a ouvir na mídia é, por exemplo, que o candidato XYZ tem 28%
com uma margem de erro de mais ou menos 2%. O que significa isto? Que o intervalo de
confiança é de 26% a 30%, com um nível de confiança de 95% (de praxe).

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 106

Aproveitemos que estamos em pleno processo eleitoral para ler de forma mais crítica as
reportagens sobre a corrida eleitoral, uma vez que a divulgação de um certo tipo de
informação pode ter influências decisivas no processo, principalmente quando está em jogo
a decisão no primeiro turno e quem passa para o segundo.
Trabalho individual: recorte ou tire fotocópia de uma reportagem sobre a corrida
eleitoral, onde haja uma nota técnica sobre o planejamento e procedimento estatístico da
pesquisa. Geralmente, a Folha de São Paulo tem essas informações técnicas (que devem
estar anexas a reportagem, por lei), teça comentários a luz das ferramentas que estamos
trabalhando.

Voltando a questão da precisão, então a pergunta a ser feita é, dado um nível de confiança
e um grau de precisão desejado, qual deve ser o tamanho da amostra?

5.3 Tamanho da amostra

5.3.1 Tamanho da amostra para estimar a média populacional:

Zα / 2 * σ  Z *σ 
2
ε= n =  α /2 
n  ε 

Vejamos um exemplo. Qual deve ser o tamanho da amostra de crianças de cada escola,
para estimar a nota, supondo que a estrutura de variância é a mesma para todas as escolas e
igual a (1,2)2 e a margem de erro não supere ½ ponto, com um nível de confiança de 95%.

α = 5%  Zα/2 = 1, 96  a maioria arredonda para 2


ε = 0,5
σ = 1,2
2 2
2  2 * 1,2   2,4 
 Z *σ  n=  =  = ( 4,8) = 23,04 = 24
2

n =  α /2   0,5   0,5 
 ε 

Logo o tamanho da amostra deve ser de pelo menos 24 alunos por escola.

5.3.2 Tamanho da amostra para estimar a proporção populacional:

Suponha, que você deseja saber quantos eleitores devem ser entrevistados para estimar a
proporção que votarão no candidato XYZ, com nível de confiança de 95% e a margem de
erro igual a 2%, sabendo que aproximadamente ele tem 20% do eleitorado.

2
2  2 
Z  n =  * 0,2 * 0,8 = 1.600
n =  α / 2  * π * (1 − π )  0,02 
 ε 

Apostila de Estatística
Profª Irene Mauricio Cazorla
V. Inferência Estatística 107

No pior dos casos, quando você não sabe nada sobre π , você pode usar π =0,5. Neste
caso, o tamanho da amostra será 2.500. Comente esses resultados. Agora você entende
porque a maioria dos institutos coletam amostras tão pequenas, com relação ao universo de
eleitores que beira 90 milhões de pessoas, ou seja, a fração de amostragem (f=n/N) é
irrisória.

Apostila de Estatística
Profª Irene Mauricio Cazorla

Você também pode gostar