0% acharam este documento útil (0 voto)
118 visualizações666 páginas

Murray R Spiegel - Estatística-Pearson

Murray R Spiegel - Estatística-Pearson

Enviado por

Gilberto Costa
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
118 visualizações666 páginas

Murray R Spiegel - Estatística-Pearson

Murray R Spiegel - Estatística-Pearson

Enviado por

Gilberto Costa
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd

ffi»Sdc

t/§ü sD Do
0"i . Dz.?}vq

ESTATISTICA
3a Et)tçAo
ESTATISTICA
3a EDIÇAa

Murray R. SPiegel, Ph. D.


Professor de Matemática
Rensselaer Polytechnic I nstitute
Hartford Graduate Center

j -*k,.
Â'u
ÃBI:>R
rn4 §

São Paulo

Brasil Àrgentina Colômbia Costa Rica Chile Esparúa


Cuãtemala México Porto R-ioo Venezrtela
O 1994 Pearson Education do Brasil Ltda.
Título original: Schaum's Outline oÍ Theory and Problems oÍ Statistics - Second Edition
O 1961 by McGraw-Hill, lnc.
Todos os direitos reservados
Edltor Milton Mira de Assumpçáo Filho
Produtora Editorial: Dayse Pereira Daniel
Produtor Gráfico: José Rodrigues
Editoraçáo e Fotolitos em Alta Reso/uçáo: JAG
lmpressáo - Sáo Paulo - SP

Dados de Catalogação na Publicação lnlernaci0nal (ClP)


Câmara Brasileira d0 Livro, SE Brasil

Spiegel, Murray R.
Estatística/Murray R. Spiegel.
traduçáo e revisáo técnica: Pedro Consentino
3a ediçáo - São Paulo: Pearson Education do Brasil, 1994.

1. Estatística. 2. Estatística. - Problemas, exercícios etc.


3. Estatística de matemática. l. Título ll. Série: Schaum.

93-1513 cDD-s19.5

lndice para catálogo sistemático

1 . Estatística matemática 519


2. Matemática estatística 519

Proibida a reproduçá,o total ou parcial.


Os infratores seráo punidos na forma da lei.
Direitos exclusivos para a língua portuguesa cedidos à
Pearson Education do Brasil Ltda.,
uma empresa do grupo Pearson Education
Rua Emílio Goeldi, 747 - Lapa
CEP: 05065-110, Sáo Paulo - SB Brasil
Tel: (11)3613-1222 -
Fax: (11)3611-0851
e-mail : [email protected]
A minha mãe
Sumário

PREFACIO . .. XIII

vanrÁvprs p cnÁrrcos ..... 1

Estatística. População e amostra. Estatística indutiva e descritiva. variá-


veis contínou. di.""etas. Arredondamento de dados. Notação científica.
"
Algarismos significativos. cálculos. Funções. coordenadas.retangulares.
Gúficos. Equações. Desigualdades. Logaritmos. Antilogaritmos.

DISTRIBUIÇÕES DE FREQÜÊNCTA 39

Dados brutos. RoI. Distribuições de freqüência. Intervalos e limites de


classe. Limites reais de classe. Amplitude do intervalo de classe' Ponto
médio de uma classe. Regras gerais para elaborar uma distribuição de
freqüência. Histogramas ã potígonos de freqüência. Distribuição de fre-
qtiàcia relativa. bi.t.lboiçOes de freqüência acurmrlada. Ogivas' Distn-
buiçoes de freqüência acurnulada relativa. ogivas percentuais' curvas de
freqtiência. Ogivas suavizadas. Tipos de curvas de freqüência'

VII
VIII Estatística

MEDIANA, MODA E OUTRAS MEDIDAS DA TENDÊNCIA


WTÉOIA,
CENTRAL 66
Indices ou notação por índices. Notação de somatório. Médias e medidas
da tendência central. Média aritmética. Média aritmética ponderada.
Propriedade da média aritmética. Cálculo da média aritmética para dados
agrupados. A mediana. A moda. Relação empírica entre a médià, a media-
na e a moda. A média geométrica G. A média harmônica,F1. Relação entre
as médias aritmética, geométrica e harmônica. Araiz média quadrática
(RMQ). Quartis, decis e percentis.

O DESVIO PADRÃO E OUTRAS MEDIDAS DE DISPERSÃO .. .. . IO4


Dispersão ou variação. A amplitude total. o desvio médio. A amplitude
semi-interquartílica ou desvio quartílico. A amplitude entre os percentis
10-90. o desvio padrão. A variância. Métodos abreviados para o cálculo
do desvio padrão. Propriedades do desvio padrão. controlà de charlier.
correção de sheppard para a variância. Relações empíricas entre as
medidas de dispersão. Dispersão absoluta e relativa. cãeficiente de va-
riação. Variável reduzida, escores reduzidos.

MOMENTOS, ASSIMETRIA E CURTOSE 136


Momentos. Momentos para dados agrupados. Relação entre os momentos.
cálculo dos momentos para dados agrupados. controle de charlier e
correções de sheppard. Momentos sob forma abstrata. Assimetria. cur-
tose. Momentos, assimetria e curtose da população.

TEORIA ELEMENTAR DA PROBABILIDADE 153


Definição clássica de probabitidade. Definição da probabilidade como
freqüência relativa. Probabilidade condicional. Evenios independentes e
dependentes. Eventos mutuamente excrusivos. Distribuiçao de probabili-
dade discreta. Distribuição de probabilidade contínua. É*p"..rçu mate-
mática. Relação entre média e variância da amostra e àa população.
Análise combinatória. Princípios fundamentais. Fatorial de z. permuta-
ções. combinações. Aproximação de stirling para z!. Aplicação da teoria
dos conjuntos à probabilidade.
Sumd.rio IX

AS DTSTRTBUTÇÕES BTNOMTAL, NORMAL E DE POTSSON . . ... 185

A distribuição binomial. Algumas propriedades da distribuição binomial.


A distribuição normal. Algumas propriedades da distribuição normal.
Relação entre as distribuições binomial e normal' Distribuição de Poisson.
Algumas propriedades da distribuição de Poisson. Relação entre as dis-
trituições binomial e de Poisson. A distribuição multinomial. Ajustamen-
to das distribuições teóricas às distribuições de freqüência das amostras.

TEORIA ELEMENTAR DA AMOSTRAGEM 214

Teoria da amostragem. Amostras aleatórias, números aleatórios. Amos-


tras com e sem reposição. Distribuições amostrais. Distribuição amostral
das médias. Distribuição amostral das proporções. Distribuição amostral
das diferenças e somas. Erros padrões'

TEORIA ESTATÍSTICA DA ESTIMAÇÃO 234

Estimação de parâmetros. Estimativas não-tendenciosas. Estimativas


eficientes. Estimativas por pontos e por intervalos. Fidedignidade. Esti-
mativas do intervalo de conÍiança dos parâmetros populacionais. Estima-
tivas do intervalo de confiança para médias. Intervalos de confiança para
proporções. Intervalos de confiança para diferenças e somas. Intervalos
de confiança para desvios padrões. Erro provável.

10 TEORIADADECISÃO NSMTÍSIICA, TESTES DE HIPÓTESES E


SIGNIFTCÂNC1a 252

Decisões estatísticas. Hipóteses estatísticas. Hipóteses nulas. Testes de


hipóteses e significâncias. Erros do tipo I e II. Nível de signiÍicância.
Testes que envolvem a distribuição normal. Testes unilaterais e bilate-
rais. Testes especiais. Curvas características de operação. Potência de um
teste. Cartas d.e controle. Testes de significância que envolvem diferenças
amostrais. Testes que envolvem a distribuição binomial'

11 TEORTADASPEQUENASAMOSTRAS.... 283

Pequenas amostras. Distribuição de "Student" G).Intervalos de confian-


qui-quadrado.
ça. Testes de hipóteses e significância. A distribuição de
Intervalos de conÍiança para 12. G.arrs de liberdade.
Estatística

L2 O TESTE DE QUI.QUADRADO 302


Freqüências observadas e teóricas. Definição d" X2. Testes de significân-
cia. Teste de qui-quadrado para a prova de aderência. Tabelas de contin-
gência. Correção de Yates para a continuidade. Fórmulas simples para o
cálculo d" X2.Coeficiente de contingência. Correlação de atributos. Pro-
priedade aditiva d" X2.

13 AJUSTAMENTO DE CURVAS E O METODO DOS MINIMOS


QUADRADOS 329
Relação entre variáveis. Ajustamento de curvas. Equações das curvas de
ajustamento. Método de ajustamento de curva à mão livre. A linha reta.
O método dos mínimos quadrados. Areta de mínimos quadrados. Relações
não-lineares. Aparábola de mínimos quadrados. Regressão. Aplicações a
séries temporais. Problemas que envolvem mais de duas variáveis.

t4 TEORIA DA CORRELAÇAO 359


Correlação e regressão. Correlação linear. Medidas de correlação. Linha
de regressão de mínimos quadrados. Erro padrão da estimativa. Variação
explicada e não-explicada. Coeficiente de correlação. Observações sobre o
coeficiente de correlação. Fórmula de covariância para o coeficiente de
correlação linear. Correlação ordinal. Correlação de séries temporais.
Correlação de atributos. Teoria amostral da correlação. Teoria amostral
da regressão.

15 CORRELAÇÃO PARCTAL E ryrÚr,rrpr.A 400


Correlação múltipla. Notação por meio de índices. Equação de regressão.
Plano de regressão. Equações normais do plano de regressão de mínimos
quadrados. Planos de regressão e coeficientes de correlação. Erro padrão
da estimativa. O coeficiente de correlação múltipla. Substituição da va-
riável dependente. Generalizações para mais de três variáveis. Correla-
ção parcial. Relações entre os coeÍicientes de correlação múltipla e parcial.
Regressão múltipla não-linear.
Sumário XI

16 ANÁLISE DAS SÉRIES TEMPORAIS 424

Séries temporais. Representaçáo gtâfíca das séries temporais. Movimen-


tos característicos das séries temporais. Classificação dos movimentos
das séries temporais. Análise das séries temporais. Médias móveis. Sua-
vtzaçáo das séries temporais. Estimação da tendência. Estimação das
variações estacionais. Índice de estacionalidade. Desestacionalização dos
dados. Estimação das variações cíclicas. Estimação das variações irregu-
lares ou aleatórias. Comparabilidade dos dados. Previsão. Sumário das
etapas fundamentais na análise das séries temporais.

t7 NÚVrnnos ÍNnrcns.... 475

Número índice. Aplicações dos números índices. Preços relativos. Proprie-


dade dos preços relativos. Relativos de quantidade ou volume. Valores
relativos. EIos e cadeias relativos. Problemas que implicam o cáIculo de
números índices. O uso das médias. Testes teóricos para os números
índices. Notação. Método agregativo simples. M.étodo das médias simples
dos relativos. Método agregativo ponderado. Indice ideal de Fisher. o
índice de Marshall-Edgeworth. Método da média ponderada de relativos.
Números índices de quantidade ou de volume. Números índices de valo-
res. Mudança do período base dos números índices. Deflação das séries
temporais.

18 ANÁLISE DAVARIÂNCIA bIô

Objetivo da análise da variância. Classificação de um critério ou experi-


mentos de um fator. Variação total, variaçáo dentro dos tratamentos e
variaçáo entre os tratamentos. Métodos abreviados para obtenção das
variações. Modelo matemático para a anáIise da variância. Valores espe-
rados das variações. Distribuições das variações. O teste F para a hipótese
nula de médias iguais. Tabelas de análise da variância. Modificações de
dois critérios ou experimentos de dois fatores. Notação para experimentos
de dois fatores. Análise da variância para experimentos de dois fatores.
Experimentos de dois fatores com repetição. Planejamento experimental.

19 TESTES NÃO-PARAMÉTRICOS . . .
Introdução. Teste do sinal. Teste U de Mann-whitney. Teste Ir de Krus-
kal-Wallis. Teste 11 corrigido para empates. Teste das séries para aleato-
riedade. Aplicações adicionais para o teste das séries. Correlação de posto
de Spearman.
ruI Estatística

APÊNDICES

I. ORDENADAS (T1 DACURVANORMALREDUZIDAEM Z ....... 610

II. AREA SUBENTENDIDA PELA CURVA NORMAL REDUZIDA


DE'O AZ 612

III. VALORES DOS PERCENTIS (7P) DA DISTRIBUIÇAO 7


DE STUDENT COM V GRAUS DE LIBERDADE
tÁnna SoMBREADA = P) 6L4

IV. VALORES DOS PERCENTIS (p2.r DA DISTRIBUIÇAO DE


QUI-QUADRADO COM v GRAUS DE LIBERDADE
(AREA SOMBREADA = P) 616

V. LOGARITMOS COMUNS COM QUATRO DECIMAIS 618

VI. VALORES DE e-À 622

VII. NÚMEROS ALEATÓRIOS 623

VIII. DEDUÇÃO DAS EQUAÇOES NORMAIS DA RETA DE


MINIMOS QUADRADOS. 624

IX. VALORESDO 959 PERCENTILPARAADISTRIBUIÇÃO F ...... 625

X. VALORES DO 999 PERCENTIL PARA ADISTRIBUIÇÃO T ..... . 627

TNDICE ANALITICO 629


h
MAKRON

PreÍácio

A Estatística, ou métodos estatísticos como é denominada algumas vezes, desem-


penha papel crescente e importante em quase todas as fases da pesquisa humana.
Lidando anteriormente apenas com os negócios do Estado, donde o seu nome, a
influência da estatística estendeu-se agora à agricultura, biologia, comércio, quími-
ca, comunicações, economia, educação, eletrônica, medicina, física, ciências políti-
cas, psicologia, sociologia e outros numerosos campos da ciência e engenharia.

A finalidade deste livro é apresentar uma introdução aos princípios gerais


da Estatística que serão úteis a todos os indivíduos, qualquer que seja seu campo
de especialízaçáo. Foi planejado para ser utilizado para suplementar os livros
texto-padrão usuais ou como livro texto de um curso regular de Estatística. Pode
ser também de valor considerável como livro de consulta para aqueles que pre-
sentemente se empenham nas aplicações da Estatística aos seus problemas espe-
ciais de pesquisa.
Cada capítulo começa com a exposição clara das definições pertinentes,
teoremas e princípios, juntamente com ilustrações e outras matérias descritivas.
Isto é seguido por séries graduadas de problemas resolvidos e suplementares que,
em muitos casos, utilizam dados retirados de situações estatísticas reáis. Os pro-
blemas resolvidos ilustram e ampliam a teoria, focalizando incisivamente aqueles
pontos sutis, sem os quais o estudante sentir-se-ia constantemente sem base segura,
e proporciona a repetição dos princípios básicos tão vitais para o ensino efetivo.
Numerosas deduções de fórmulas estão incluídas entre os problemas resolvidos. O
grande número de problemas suplementares, com respostas,faz uma revisão com-
pleta da matéria de cada capítulo.

ruil
XN Estatística

Os únicos conhecimentos matemáticos necessários para compreensão de


todo o livro são a aritmética e elementos de áIgebra. Uma revisão dos conceitos
matemáticos importantes usados neste livro é apresentada no primeiro capítulo,
que pode ser lido no começo do curso ou consultado posteriormente, à medida que
surjam as dificuldades.
A parte inicial do livro trata da análise das distribuições de freqüência e
das medidas correlatas da tendência central, dispersão, assimetria e achatamento
(curtose). Isto conduz naturalmente à discussão da teoria elementar de probabili-
dade e suas aplicações, o que nos facilita o caminho para o estudo da teoria de
amostragem. As técnicas da teoria das grandes amostras a qual envolve a distribui-
ção normal, as aplicações de estimação estatística e os testes de hipótese e signifi-
cância são tratados primeiramente. A teoria das pequenas amostras, que envolve
as distribuições de Student (distribuição ú) e qui-quadrado (distribuição X2), junta-
mente com suas aplicações, segue em capítulos separados. Um capítulo sobre o
ajustamento de curvas e o método dos mínimos quadrados, o qual é por si mesmo
interessante, conduz logicamente aos tópicos da correlação e da regressão que
envolvem duas variáveis. A correlação múltipla e a parcial, que envolvem mais de
duas variáveis, são tratadas em capítulos separados. Os dois capítulos finais tratam
da análise das séries temporais e dos números índices respectivamente. Os dois
capítulos finais focalizam a análise da variância e os testes não paramétricos.
Foi incluído neste livro, em grande escala, muito mais assunto do que o que
consta da maioria dos cursos elementares. Isto foi feito para torná-Io mais flexível,
para proporcionar uma fonte de consulta mais proveitosa e para estimular o
interesse futuro sobre os assuntos. Ao utilizar o livro, é possível trocar a ordem de
alguns capítulos posteriores ou mesmo omitir alguns sem embaraços. Por exemplo,
os Capítulos 13-17 podem ser geralmente apresentados imediatamente após o
Capítulo 5, se se desejar tratat de correlação, regressão, séries temporais e números
índices antes da teoria da amostragem. Semelhantemente, a maior parte do Capí-
tulo 6 pode ser omitida por quem não deseja dedicar muito tempo à probabilidade.
Em um curso elementar, todo o Capítulo 15 pode ser omitido. Foi usada a presente
ordem porque há uma tendência crescente nos cursos modernos em apresentar a
teoria da amostragem e a inferência estatística o mais cedo possível.
Desejo agradecer às várias repartições, não só do governo como particula-
res, a cooperação ao fornecer dados para as tabelas. Referências apropriadas a tais
fontes são feitas em todo o livro. Paiticularmente, sinto-me em débito com o
professor Sir Ronald A. Fisher, F.R.S., Cambridge, e com o Dr. Frank yates, F.R.S.,
Rothamsted, também com oliver and Boy Ltd., Edinburgh, pela licença concedida
para usar os dados da Tabela III de seu livro Statistical Tables for Biological,
Agricultural a.nd M edical Research.
Desejo expressar, também, minha gratidão ao corpo administrativo da
Schaum Publishing Company pelo seu alto espírito de cooperação ao concordar com
as tentativas aparentemente infindáveis do autor para atingir a perfeição.

M. R. Spiegel

Rens selaer P olytechnic Institute


Capítulo
1

Variáveis e gráÍicos

Estatística
A estatística está interessada nos métodos científicos para coleta, organização,
resumo, apresentação e anáiise de dados, bem como na obtenção de conclusões
váIidas e na tomada de decisões razoáveis baseadas em tais análises.
Em sentido mais restrito, o termo estatística é usado para designar os
próprios dados ou números deles derivados como, por exemplo, médias. Assim
falamos em estatística de empregos, de acidentes etc.

População e amostra. Estatística indutiva e descritiva


Ao coletar os dados referentes às características de um grupo de objetos ou indiví-
duos, tais como as alturas e pesos dos estudantes de uma universidade ou os
números de parafusos defeituosos ou não produzidos por uma fábrica em um certo
dia, é muitas vezes impossível ou impraticável observar todo o grupo, especialmente
se for muito grande. Em vez de examinar todo o grupo, denominado populaçã.o ou
uniuerso, examina-se uma pequena parte chamada amostra.
Uma população pode ser finita ou irufinita. Por exemplo, a população
constituída por todos os parafusos produzidos numa fábrica em certo dia é finita,
enquanto a população constituída de todos os resultados (cara ou coroa) em suces-
sivos lances de uma moeda é infinita.
Estatística Cap. 1

Se uma amostra é representativa de uma população, conclusões impor-


tantes sobre a população podem ser inferidas de sua análise. Aparte da estatística
que trata das condições sob as quais essas inferências são válidas chama-se esúo-
tística ind.utiua ou inferência estatístico. Como essa inferência não pode ser abso-
Iutamente certa, a linguagem da probabilidade é muitas vezes usada, no estabe-
Iecimento das conclusões.
A parte da estatística que procura somente descrever e analisar um certo
grupo, sem tirar quaisquer conclusões ou inferências sobre um grupo maior, é
chamada estatística descritiua ou dedutiua.
Antes de prosseguir no estudo da estatística, recordaremos alguns con-
ceitos matemáticos importantes.

Variáveis contínuas e discretas


TJma uarid.uel é um símbolo, como X, Y H, x, B que pode assumir qualquer um de
um conjunto de valores que lhe são atribuídos, conjunto este chamado domínio da
variável. Se a variável pode assumir apenas um valor é denominada constante.
Uma variável que pode assumir teoricamente qualquer valor entre duas
observações quaisquer chama-se uarid.uel contínua; de outro modo denomina-se
uarid.uel discreta.
Exemplo 1. o número N de crianças, em uma família, que pode assumir
qualquer um dos valores 0,1,2,3, ... mas não pode ser 2,5 ou3,842, é umavariável
discreta.
Exemplo 2. A altura um indivíduo que pode ser 1,65 metro, 1,662
11 de
metro ou 1,6722 metro, conforme a precisão da medida, é uma variável contínua.
Os dados que podem ser descritos por meio de uma variável discreta ou
contínua são chamados dados discretos ou corutínuos, respectivamente. O número
de crianças em cada uma de 1.000 famí1ias é um exempio de da{os discretos,
enquantó o peso de 100 estudantes universitários é um exemplo de dados contínuos.
Em geral, as medições dão origem a dados contínuos, enquanto as enumerações ot
contagens resultam em dados discretos.
Muitas vezes é conveniente estender o conceito de variável a entidades
não-numéricas. Por exemplo, a cor C de um arco-íris é uma variável que pode tomar
oS "valores" vermelho, laranja, amarelo, verde, azul, anil e violeta. Geralmente é
possível substituir essas variáveis por quantidades numéricas. Por exemplo, atri-
bui-se 1 ao vermelho,2 ao laranja etc.
Cap. 1 Varid.ueisegrdficos

Arredondamento de dados
O resultado do arredondamento de um número como 72,8 para o inteiro mais
próximo é 73, posto que 72,8 estâ mais próximo de 73 do que de 72. Seme-
lhantemente, 72,8146 arredondado para o centésimo mais próximo, ou com duas
decimais, é 72,81, porque 72,8146 está mais próximo de 72,81do que de 72,82.
Ao arredondar 72,465 para o centésimo mais próximo, entretanto, depara-
mo-nos com um diiema poís 72,465 dista igualmente de 72,46 e de 72,47 .IJsa-se, na
prâtica, em tais casos, aproximar para o número par qlue precede o 5. Assim, 72,465
é arredondado para 72,46, 183,575 é arredondado para 183,58 e 116.500.000,
arredondado para as unidades de milhões mais próximas, é 116.000.000. Esta
prâtica é especialmente valiosa para reduzir ao mínimo os erros acumulados por
arredondamento, qteando tratar-se de grande número de operações (veja o Pro-
blema 2).

Notação cientíÍica
Ao escrever números, especialmente que comportem muitos zeros, antes ou depois da
vírgula, é conveniente enpregar a notação científica que utiliza as potências de 10.
Exemplo 1. 101 = 10; 102 = 10x 10 = 100; 105 = 10x 10x 10x 10x 10=
= 100.000; 108 = 100.000.000.
Exemplo 2. 100= 1; 10-1 = O,L;70-2 = 0,01; 10-5 = 0,00001.
Exemplo 3. 864.000.000 = 8,64x 108; 0,00003416 = 3,416 x 10-5.
Note-se que, multiplicando-se um número por 108, por exemplo, tem-se o
mesmo resultado que deslocar a vírgula, parq a direita, 8 casas. Multiplicando-se
um número por 10-b tem-se o mesmo resultado que deslocar a vírgula, para a
esquerda,6 casas.
Muitas vezes empregam-se parênteses ou pontos para indicar a multiplica-
ção de dois oumais números. Assim: (5) (3) = 5' 3 = 5 x 3 = 15; (10X10)(10) = 10 .

. 10 . 10 = 10 x 10 x 10 = 1.000. Quando se empregam letras para representar os


números, os parênteses ou os pontos são, muitas vezes, omitidos. Por exemplo ab =
=(oXó)=a.b=ax.b.
A notação científica é muitas vezes útil no cálculo, especialmente para
localizar a vírgula. IJsam-se as seguintes regras:

(ror) (roq ) = rol + s' to, - ,


fflr=
4 Estatística Cap. 1

em que p e q sáo números quaisquer.


Em 10p,p é denominado o expoente e L0 a base.
Exemplo 1. (103) (102) = 1.000 x 100 = 100.000 = 105 f.i.e. 103+2y

106= 1.00!.099 = 100 = rv


to21i.e. 106-a ;.
10- ro.ooo \

Exemplo 2. (4.000.000) (0,0000000002) = (4x 106) (2 x 10-1) =

= (4X2X106X10-19 = 8x 106-10 7x 10-a= 0,0008.


Exemplo 3. (0,006X80000) _ (6x 10-3) _ a8 x 101 _
O,O4 4x 70-2 4x l0-2
[+g)x 1or-(-2) = t2x 1oB = 12ooo.
\4 )

Algarismos sig niÍicativos


Se uma altura foi determinada com precisão como 1,66 metro, isto signiÍica que seu
valor verdadeiro está compreendido entre 1,655 e 1,665 metro. Os algarismos
corretos, separados dos zeros necessários para a localização da vírgula, chamam-se
algarismos significatiuos ou dígitos significatluos do número.
Exemplo 1. 1,66 tem 3 algarismos signiÍicativos.
Exemplo 2. 4,5300 tem 5 algarismos significativos.
Exemplo 3. 0,0018 = 1,8 x 10-3 tem 2 algarismos significativos.
Exemplo 4. 0,001800 = 1,800 x 10-3 tem 4 algarismos signiÍicativos.
Os números resultantes de enumerações ou de contagens, ao contrário dos
das medições, são naturalmente exatos e, assim, têm uma quantidade ilimitada de
algarismos significativos. Em alguns casos, contudo, pode ser difícil decidir quais
são os algarismos significativos sem informações adicionais. Por exemplo, o número
186.000.000 pode ter 3,4...,9 algarismos signifrcativos. Se se souber que ele tem 5
algarismos significativos, será melhor escrever o número como 186,00 milhões ou
1,8600 x 108.
Cap. 1 Varidueisegrdficos

Cálculos
Ao efetuar cálculos que envolvem multiplicação, divisão e extração de raízes de
números, o resultado final não pode ter mais algarismos signiÍicativos do que o que
tem menor quantidade deles (veja o Problema 4).
Exemplos:1.73,24 x 4,52 = (73,24) (4,52) = 331 2.7,64810,023 -
= 72 B. \tr&, = 6,22 4. (8,416) (50) = 420,8, se 50 é exato.
Ao efetuar adições e subtrações de números, o resultado final não pode ter
mais algarismos significativos depois da vírgula do que o que tiver menor quanti-
dade deles nessa condição (veja o Problema 5).
Exemplos: 1. 3,16 * 2,7 = 5,9 2. 83,42 - 72 = 11 3. 47,816 - 25 = 22,876 se
25 for exato.
A regra acima para adiçáo e subtração pode ser ampliada.

Funções
Se a cada valor que a variável X pode assumir corresponder um ou mais valores da
variável Y, diz-se que Y é uma funçã.o de X e escreve-se Y = F(X) (ler "Y igual à
função F de X'), para indicar essa dependência funcional. Outras letras, tais como
G, Q etc., podem ser usadas em vez de .F,.

A variável X chama- s e u arid,u e I in de p e n de nte, e Y chama- s e u q r id, u el de p en -


dente.

Se apenas um valor de Y corresponde a cada um de X, diz-se que Y é uma


função unívoca de X; de outro modo, ela seria denominada uma função pluríuoca
de X.
Exemplo 1. A população total P do Brasil é uma função do tempo Ie
escreve-seP-=F(t).
Exemplo 2. A tensão S de uma mola vertical é uma funçào do peso I4l
colocado em sua extremidade. Em símbolos, S = G(W).
A dependência funcional ou correspondência entre duas ou mais variáveis
está, muitas vezes, representada em amatabela. Entretanto, ela também pode ser
representada por uma equação que relaciona as variáveis, como Y = 2X - 3, da qual
Y pode ser determinado, em correspondência com os vários valores de X.
Se Y = F (X), é hábito fazer corr' que F' (3) signifique "o valor de Y
qua_ndo X =3"; F' (10) significa "o valor de YquandoX= 10" etc. Assim, se Y= F (X) =
= X2, entãoF (3) = 32 = I é o valor de Yquando X = 3.
Estatística Cap. 1

O conceito de função pode ser estendido a duas ou mais variáveis (veja o


Problema 9).

Coordenadas retang u lares


Consideremos duas retas perpendiculares, XOX e Y'OY denominados eixos dos X
e dos Y, respectivamente (veja Figura 1.1), sobre os quais são indicadas escalas
apropriadas. Essas retas dividem o plano por elas determinado, denominado plano
dos Xf, em quatro regiões representadas por I, II, III e IV e denominadas primeiro,
segundo, terceiro e quarto quadrantes, respectivamente.
O ponto O chama-se origem ot ponto zero. Dado um ponto P, baixam-se por
ele perpendiculares aos eixos dos X e dos Y Os valores de X e Y nos pontos em que
as perpendiculares encontram os eixos são denominados coordenadas retangulares
ou, simplesmente, coordenadas de P e são representados por (X, Y). A coordenada
Xchama-se abscissa dopontoeYé sua ordenada. NaFigura 1.1, aabscissadoponto
P é 2, a ordenada é 3 e as coordenadas de P são (2,3).

Figura 1.1
Cap. 1 Varidueis egrdficos

Reciprocamente, dadas as coordenadas de um ponto, podemos localizá-lo


ou representá-lo graficamente. Assim, os pontos de coordenadas (-4; -l); (*2,3;4,5)
e (3,5; -4) são representados na Figura 1.1 por Q, R e S, respectivamente.

Mediante a construção de um eixo Z, que passa por O e é perpendicular ao


planoX[ pode-se facilmente estender as idéias expostas. Em tais casos, as coorde-
nadas do ponto P seriam representadas por (X, Y, Z).

Gráf icos
Umgrdfico é uma representação geométrica da relação entre variáveis. Muitos tipos
de gráficos são empregados na estatística, dependendo da natureza dos dados
pertinentes e da finalidade para a qual ele é destinado. Entre estes estão osgrdficos
de barras, de setores ilustratiuos (pictogramas) etc. Essas representações gráÍicas
chamam-se grdficos ou diagramos. Assim, falamos de gráficos de barra, diagramas
de setores etc. (veja os Problemas 14,15 e 16).

Equações
Equações são relações da forma A = B, onde A é chamado o primeiro membro da
equaçã,o e B o segundo membro. Sempre que se efetuam as mesmds operações em
ambos os membros de uma equação, obtêm-se equações equiualentes. Assim, podem-
se adicionar, subtrair, multiplicar ou dividir ambos os membros de uma equaçào
pelo mesmo valor e obter uma equivalente, com a única exceção da diuisdo por zero,
que nõ.o é permitida.

Exemplo: Dada a equação 2X + 3 = 9.


Subtraindo 3 a ambos os membros:
2X+3-3=9*3ou2X=6.
Dividindo ambos os membros por 2:
2X 12 = 612 ouX = 3.

Este valor de X é a soluçã.o da equação dada, pois vê-se que, substituindo-se X por
3, obtém-se 2G) + 3 = 9 ou 9 = 9, o que é umaidentidade. O processo para se obter
as soluções de uma equação é denominado resolução da equaçào.

Os princípios expostos podem ser estendidos para encontrar as soluções de


duas equações a duas incógnitas, três equações e três incógnitas etc. Essas equações
chamam-se equações simultâneas (veja o Problema 19).
8 Estatística Cap. 1

Desigualdades
Os símbolos < e > significam "menor do que" e "maiordo que", respectivamente.
Os símbolos < e 2 significam"menor do que ou igual" e "maior do que ou igual"
respectivamente. são conhecidos como símbolos de desigualdades.
Exemplo 1. 3 < S leia-se "3 é menor do que 5".

Exemplo 2.5 > 3 leia-se "5 é maior do que 3".


Exemplo 3. X < 8 leia-se 'X é menor do que 8".

Exemplo 4. X > 10 leia-se 'X é maior do que ou igual a 10"


Exemplo 5. 4 <Y< 6 leia-se "4 émenor do que Y, o qual é menor do que
ou igual a 6", ou "Y eslá compreendido entre 4 e 6, com exclusão de 4, mas incluindo
6", ou "Y é rnaíot do que 4 e menor do que ou igual a 6".
As relações que envolvem símbolos de desigualdade são denominadas
d,esiguald,ades. Assim como nos referimos aos membros de uma equaçáo, pode-se
também falar em membros de uma desigualdade. Assim, na desigualdade 4 <Y < 6,4,
Y e 6 são os membros.
Uma desigualdade permanece válida:
(a) quando o mesmo número é adicionado a ou subtraído de cada um de
seus membros.

Exemplos: Como 75 > 12;15 + 3 > 12 +3 (isto é 18 > 15) e 15 - 3 > 12 - 3


(istoétZ>9);
(ó) quando cada membro é multiplicado ou dividido pelo mesmo número
positiuo.

Exemplos:Como L5> t2;(15) (3) > 12)(3) (i.e.,45 > 36) " f 'f fttto
é,5>4);
(c) quando cada membro é multiplicado ou dividido pelo mesmo número
negatiuo, desde que se proceda à inversão do símbolo de desigualdade.

Exemplos: Como l5 > 12;(15) (- 3) < (12) (-3) (i.e., - 45 <- 36 e


*'*
(istoé,-5<-4).
Cap. 1 Varid,ueis e gró,ficos

Logaritmos
cada número positivo N pode ser expresso como uma potência de 10, isto é, pod.e-se
sempre determinarp de modo a que N = 10p. Denominamos p logaritmo de N na
base 10 oulogaritmo decimal de N, e escreve-se abreviadamentep
= log10N. por
exemplo, visto que 1.000 = 103, log 1.000 = B. semelhantemente, 0,01 10-2, log
=
0,01= -2. QuandoNé um número compreend.ido entre 1e 10, i.e., 100 e 101,p loá
=
N tem um valor compreendido entre 0 e 1 e pode ser encontrado nas tábuas de
logaritmos do Apêndice.
Exemplo 1. Para determinar log 2,86, procura-se na coluna à esquerd,a,
encabeçada por^f, até encontrar os dois primeiros algarismos 23.Entáo,desloca-se
para a direita, até a coluna encabeçada por 6. Encontra-se o valor g,72g.Assim, log
2,36 = 0,3729, isto é, 2,36 = 190,3729.

Os logaritmos de todos os números positivos podem ser determinados a


partir dos logaritmos dos números compreendidos entre 1 e 10.

Exemplo 2. No exemplo 1:2,86 = 100,3729. Murtiplicando-se sucessivamen-


te por 10:

23,6 = 101.312e. 236 = 1g7'tt2e;2360 = lú,372e.. ...

Portanto, log2,36 = 0,372g;log28,6 = I,B72g; log 286 = 2,872g; log 2860


=
= 3,3729.
Exemplo 3. Posto que 2,36 - 190,3729, encontram-se, por meio de divisões
sucessivas por 10:

0,236 = - lO-0,621 L 2= lü1,62iL, ...


100.372e-1 0,0236 = 1g0.372e

Muitas vezes escreve-se 0,8729 - 1 como g,B72g - 10 ou 13729 e o,B72g


-2
como 8,3729 - 10 ou2372g etc. Como essa notação, teremos:

log 0.236 = 9.3729 - I0 = T.ZlZs = _ O,62jt

log 0,0236 = 8,3129 - l0 = l,llZg= - 1.6211etc.


Aparte decimal 0,3729,
de todos esses logaritmos, é denominad.amantissq,.
A parte remanescente, antes da vírgula da mantissa, isto é, 1,2,8, e 1, 2, ou 9 10,
-
8 - 10, é denominada característica.

As seguintes regras são facilmente demonstradas:


(1) Para um número maior do que l, acaracterística é positiva e é igual
ao número de algarismos antes da vírgula menos u,m.
10 Estatística CaP. 1

Assim, as características do logaritmo de 2 360, 236, 23,6 e 2,36 sáo 3,2,


1 e 0 e seus logaritmos são, respectivamente,3,3729,2,3729,l,3729 e 0,3729.

(2) paru um número menor do que 1, a característica é negativa e é igual


ao número de zeros que estão imediatamente após a vírgula mais um.

Assim, as características dos logaritmos de 0,236, 0,0236 e 0,00236 são -1,


-2 e -B e seus logaritmos sáo13729,23729 e 3,3729 ou 9,3729-10, 8,3729-10 e
7,37 29-L0, respectivamente.

Se forem necessários os logaritmos de números de quatro algarismos, tais


como 2,864 e 758,2,pode ser empregado o método de interpolaçã,o
(veja o Problema 21).

Antilogaritmos
Sob a forma exponencial 2,36 = 190'3729, o número 2,36 é chamado o antilogaritmo
d.e 0,872g, o, untilog 0,3729. É o número cujo logaritmo é 0,3729. Segue-se imedia-
tamente que:
antilogl,3729=23,6;antilog2,3729=236;antilog3,3129=2360;"'

antilog g,3'129 - 10 = antilog l3lZS= 0,236;

antilog 8,3129 - 10 = antilog 23lzg = 0,0236; ...

O antilog de qualquer número pode ser encontrado consultando-se as


tabelas do Apêndice.
Exemplo: Para determinar o antilog de 8,6284 - 10, procura-se a mantis-
sa 0,6284 no corpo da tábua. Visto que ela aparece na linha correspondente a 42 e
na coluna encabãçada por 5, os algarismos do número procurado sáo 425' Como a
característica é 8 - 10, o número pedido é 0,0425. semelhantemente, antilog 3,6284 =
= 4250, antilog 5,6284 = 425 000.
(veja
Se a mantissa não for encontrada na tábua, pode-se usar interpolação
Problema 22).
Os cálculos qrre empregam logaritmos utilizam as seguintes proprie-
dades:

log MN = log + log N

M
1oSí=log-logN

log MP = plog M
Cap. 1 Varidueis e grdficos 11

logM
bg W = p

Mediante a combinação dessas propriedades encontram-se os resultados,


por exemplo:

bg49!9'
- DtEÍ = ptogA + qtog B + rtogC -s tog D - tLog E.

PROBLEMAS RESOLVIDOS

Variáveis
1. Dê o domínio de cada uma das seguintes variáveis e diga se são contínuas ou
discretas.
(a) Número G de litros de água numa máquina de lavar roupa.
Domínio: Qualquer valor desde zero até a capacidade da máquina. Variável
contínua.
(ó) Número B de livros em uma estante de biblioteca.
Domínio: 0, l, 2, 3, ... até o número máximo de livros que podem ser
colocados na estante. Variável discreta.
(c) Soma S de pontos obtidos ao lançar um par de dados.
Domínio: Os pontos obtidos num dado podem ser 1,2,8,4,5 ou 6.
Então a soma de pontos de um par de dados pode ser 2,8,4,5,6,,1 ,_8,9, 10,
1l e 72, os quais são o domínio de S. Variável discreta.
(d) Diâmetro D de uma esfera.
Domínio: Se se considerar um ponto como uma esfera de diâmetro nulo, o
domínio de D compreende todos os valores de zero para cima. Variável
contínua.
(e) País C na Europa.
Domínio: Inglaterra, França, Alemanha etc., que podem ser representados
numericamente por 1,2, 3 etc. Variável discreta.
12 Estatística Cap. 1

Arredondamento de dados
2. Some os números 4,35, 8,65, 2,95, 72,45, 6,65,7,55 e 9,75.
(a) diretamente;
(b) arredondando para décimos de acordo com a convenção do número par; (c)
arredondando àe maneira que o algarismo anterior a 5 cresça de uma
unidade.

Solução

(a) 4,3s (b) 4,4 (c) 4,4

8,65 8,6 8,1

)q\ 3,0 3,0

12,45 12,4 12,5

6,65 6,6 6,1

1,6 '7,6
1 ,55
q5§ 9,8 9,8

Total 52,35 Total 52,4 Total 52,1

Note-se que o processo (á) é melhor do que o (c), visto que aquele método
red.uz ao mínimo os erros acumulados com arredondamen'to'

Notação cientíÍica e algarismos significativos


g. Escreva cada número empregando a notação científica. Considere todos os
algarismos significativos a menos que haja indicaçáo em contrário.
(a) 24.380.000 (quatro algarismos significativos) = 2,438 x 107

(b) 0,000009851 = 9,851 x 10-6


(c) 7.300.000.000 (cinco algarismos signiÍicativos) = 7,3960 x 10e

(d) 0,00018400 = 1,8400 x 10-a


Cap. 1 Variáueisegrd.ficos 13

Cálculos
4. Demonstre que o produto do número 5,74 por 3,8, admitindo-se que eles
tenham, respectivamente, três e dois algarismos significativos, não pode ser
mais preciso do que com dois algarismos signiÍicativos.

Primeiro método
5,7 4 x 3,8 = 21,812, mas nem todos os algarismos desse produto são significativos. Para
determinar quantos o são, observe-se que 5,74 é o arredondamento de qualquer
número compreendido entre 5,735 e 5,745, enquanto 3,8 o é para o intervalo entre
3,75 e 3,85. Portanto, o menor valor possível do produto é 5,735 x3,75 = 21,50625
e o maior 5,745 x 3,85 = 22,11825.

Visto que a faixa de valores vai de 21,50625 a 22,11825, é evidente que


somente os dois primeiros algarismos do produto podem ser significativos, sendo 22
o resultado. Note-se qre 22 é o arredondamento de qualquer número compreendido
entre 21,5 e 22,5.

Segundo método
Grifando em itáIico os algarismos que podem ser duvidosos, o produto pode ser
calculado da seguinte maneira:

5,14
3,8

4592
1722

21,812

Não conservando mais do que um algarismo duvidoso na solução, esta será,


em conseqüência, 22, com dois algarismos significativos.
Note-se que é desnecessário manter um número de algarismos significati-
vos maior do que o que existe no fator preciso. Assim, se 5,74 for arredondado para
5,7, o produto será 5,7 x 3,8 = 2L,66 = 22, com dois algarismos significativos, o que
concorda com os resultados anteriores.
14 Estatística Cap. 1

Ao calcular sem o auxílio de máquina, o trabalho pode ser diminuído


quando não se conserva mais do que um ou dois algarismos além dos do fator menos
preciso e se arredonda para o número adequado de algarismos significativos da
solução final.

5. some os números 4,L9355,15,28,5,9561, 12,3 e 8,472, considerando significa-


tivos todos os algarismos:

Solução
Em (o), os algarismos duvidosos da adição estão em bipos itálicos. Aresposta final,
apenas com um algarismo duvidoso, é tomada como sendo 46,2.

(a) 4,1935s (b) 4,19

15,28 1 5,28

5,9561 5,96

t2,3 t2,3
8,412 8,47

46,20165 46,20

Pode ser economizado algum trabalho procedendo-se como em (ó), onde se


conserva apenas mais uma casa decimal a1ém das do número de menor precisão. A
resposta final, aproximada para 46,2 concorda com (o).

6. Calcule o valor numérico das seguintes equações, paraX= 3, Y = -5,A= 4,8 =


= -7, sendo todos os números supostos exatos'
(a) 2X-3Y= 2(3)-3(-5) =6+L5=21
(b) 4Y- 8X + 28 =4(- 5) -8(3) + 28 = -20 -24 +28 = - 16

9-25 = -16 1 ^_
u'b
16-49+L -82= r=

3@)2 4eT2+3=
ffi=t[ 144=t2
Cap. 1 Varid,ueis e grdficos 15

Funções

Tabela 1.1

Anos Toneladas de trigo (com Toneladas de milho (com


arredondumento para arredondamento para
menos de 5t) menos de 5t)

1910 200 75
19',71 185 90
1972 225 100
1913 250 85
191 4 240 80
197 5 195 100
1976 210 110
1911 225 105
t978 250 95
t979 230 110
1980 235 100

7. A Tabela 1.1 mostra o número de toneladas de trigo e de milho produzidos na


fazenda PQR, durante os anos de 1970 a 1980.
Com referência a essa tabela, determine o ano, ou anos, durante os quais:
(a) foi produzido o menor número de toneladas de trigo;
(ó) foi produzido o maior número de toneladas de milho;
(c) ocorreu o maior declínio na produção de trigo;
(d) a produção de milho decresceu enquanto a produção de trigo cresceu em
relação ao ano anterior;
(e) foi produzido o mesmo número de toneladas de trigo;
f) a produção total de trigo e milho foi máxima.
Resp: (a) 1971; (b) t976 e L979; (c') 1975; (d) 1973, 1977, 7978, 1980;
(e) 1972, 1977, 1973, 1978; (fl 1978.
16 Estatística Cap. 1

8. Admita-se que W e C representem, respectivamente, o número de toneladas de


trigo e mi1Éo produzidos durante o urro t na fazend.a PQR do Problem a 7 . E
claro que W e C são, ambos, funções de /, o que pode ser indicado por w = F(t)
e C = G(t).

fu') Determinar V[ quando t = 1976. Resp.:210


(ó) Determinar C quando t = lg73 e 1979. Resp.:85 e 110, respectivamente
(c) Determinar ú quando W = 225. Resp.:1972 e 1977
(d) Determinar F (1974). ResP.:240

kD Determinar G (1978). ResP.:95


(fl Determinar C quando W = 210. -Besp.: 110

(g) Qual é o domínio da variável ú? Resp.: Os anos L970, l97l ..., 1980
(D W é uma função unívoca de /?

sim, porque a cada valor que / pode assumir (isto é, no domínio de ú)


corresponde um único valor de W.

(r) O , é uma função de W? Se for, é uma função unívoca?

Sim, ú é uma função de lV porque, a cada valor que 14/ pode assumir,
corresponde um ou mais valores de Í, que podem ser encontrados na tabela.
Como pode haver mais de um valor de ú correspondente a um de W (por
exemplo, quando W = 225,t = 1972 ou 1977) a função é plurívoca. Essa dependência
funcional de / em relação a W pode ser escrita t = H(W).
(j) C é uma função de W?

sim, porque a cada valor que W',pode assumir corresponde um ou mais


valores de C, como se determina na Tabela 1.1. Semelhantemente, W'é uma função
de C.
(l?) Qual das variáveis é independente,t ou lV?

Fisicamente, é costume imaginar W como sendo determinada em função de


t em vez de ú em função de W. Deste modo, fisicamente , t é a varíâvel independente
e I[ dependente.

Matematicamente, entretanto, qualquer variável pode ser considerada


independente e a outra dependente. Aquela à qual se atribuem vários valores é a
independente. A outra, que é então determinada como resultado, é a dependente.
Cap. 1 Varió,ueisegrdficos 17

9. Se Z = 16 + 4X -3Y, determinar o valor de Z correspondente a:


kt) X = 2, Y = 5; (b) X - - 3, Y = - 7; k) X - - 4, Y = 2.

Solução
@) Z = 16 + 4(2)- 3(5) = 16 + 8 - 15 = 9;
(b) Z = 16 + 4Ç 3) - 3(- 7) = 76 - 12 + 27 = 25;
(c) Z = 16 + 4(- 4) - 3(2) = 16 - 16 - 6 - - 6.
A valores dados de X e Y corresponde um valor de Z. Pode-se simbolizar
esta dependência de Z sobre X e Y escrevendo Z = F(X, Y); leia-se "Z é urr.afunçào
de Xe Y' . F(2, 5) significa o valor d,e Z quando X = 2 e Y = 5, que é 9 conforme o item
(o). Semelhantemente, F(- 3, - 7) = 25 e F(- 4,2) - - 6, conforme os itens (á) e (c),
respectivamente.
As variáveis X e Y são chamadas indeperudentes e Z é a dependente.

GráÍicos
10. Localízar sobre o eixo dos X de um sistema de coordenadas os pontos corres-
pondentes a h) X = 4; (b) X = - 3; (c) X = 2,5; (d) X - - 4,3; e (e) X = 0,4, admitidos
esses valores como exatos.

Solução

CD. rif- rO^


$ (í)
o N$
illt ll
xx x
il
xx il

-5-4-3-2-1012345
Cada valor exato de X corresponde a um e somente um ponto sobre o eixo.
Reciprocamente, demonstra-se na matemática superior que a cada ponto sobre o
eixo corresponde um e somente um valor de X.
Assim, teoricamente, existe um ponto correspondente a X = 2217 =
= 3,142857142857 ... ouX= n=3,14159265358... Naturalmente, na prâtica, nunca
se pode esperar a localizaçáo exata de um ponto, porque a marca feita pelo lápis
18 Estatística Cap. 1

tem uma certa espessura e cobre um número finito de pontos. O próximo eixo dos
X tem uma certa espessura. Assim, o diagrama anterior é uma representaçáo física
da situação matemática real.

11. Localizar, num sistema de coordenadas retangulares, os pontos que têm as


seguintes coordenadas
(o)(5; 2),@)(2;5),(c) (-3; 1), @)(l;-B),(e) (3;-4), (Í)(-2,s;-4,8), k)(0; -2,5),
(h) (4,0).

6
5 o (2;5)

4
3
2 o (5;2)

(-3;1)o 1
(4;o) x
-6 -5 -4 -3 -2-1- 123456
-l
-2 (0;-2,5)
-3 o (1;-3)
-4
(-2,5;-4,8). _s
-6
Figura 1.2

Admitir que todos os números dados são exatos. Veja a solução na Figura 1.2.

12. Representar graficamente a equaçáo Y = 2X - 3.

Solução
FazendoX - -2,- 1,0, 1, 2,3 e A,têm-se Y =-7,-5, -3, -1, 1,3 e 5, respectivamente'
Os pontos do gráfico são dados por (-2; -7), (-1; -5), (0; -3), (1; -l), (2;1), (3; 3) e
(4; 5), os quais são locados em um sistema de coordenadas retangulares, como o
apresentado na Figura 1.3. Todos esses pontos, bem como os obtidos pela atribuição
de outros valores a X, situam-se sobre uma linha reta, que é o gráfico desejado.
Cap. 1 Varid.ueisegrdficos 19

Como o gráfico de Y= 2X - 3é uma linha reta, F(X) = 2X - Bé geralmente


denominadaumafunçã,o linear. Em geral, F(X) = aX + b, em que o e ó são constantes,
é uma função linear cujo gráfico é uma linha reta.

Note-se que apenas dois pontos são realmente necessários para repre-
sentar uma função linear, visto que eles determinam uma reta.

-6 -5 -4 -3 -2 23456

-4
-5
-6

Figura 1.3

13. Representar graÍicamente a equaç áo Y = X2 - ZX - g.

Solução
Os valores de Y, correspondentes a vários valores de X, estão indicados na tabela
abaixo. Por exemplo, quando X - - 2,Y = (- D2 - 2 G 2) - 8 = 4 + 4- 8 = 0.

x -3
a
-l 0 2 J 4 5

Y 1 0 -5 -8 -9 -8 -5 0 7
20 Estatística Cap. 1

-t
.1 2 3

-2
-3
-4

Figura 1.4

Nessa tabela, os pontos do gráfico são dados por (- 3; 7),(- 2; 0), (- 1; - 5),
(0; - 8), (1; - 9), (2; -8), (3; - 5), (4;0), (5; 7)' Vê-se que esses pontos, bem como
outros obtidos pela utilização de valores diferentes de X, recaem sobre a curYa
apresentada na Figura 1.4.
A curva chama-se pardbola' A relação F(X) = x2 - 2x - 8 é denominada
funçã.o do 2e grau (ou quadrática).
De maneira geral, o gráfico da equação Y = a * bX + cX2, em que a, b e c
são constantes e c + 0, é uma parábola. se c = 0, o gráfico é uma linha reta como no
Problema 12.

14. Representar graficamente os dados do Problema 7 usando: @) gtáfico de linhas;


(ó) gráfico de barras.
Cap. 1 Varióueisegró,ficos 21

Solução
(o)

250

200

o
I

rso
0)
c
Fo 1oo

50

0
1970 1971 1972 1973 1974 1975 1976 1977 1 978 1979 1 980
Ano

Figura 1.5

(á) Primeiro método:

250

o

200
o
ffc rso
Ê roo
50

0 CDSIr) (oN@
r'-NN NNN
3PP o) o) o)

Ano

Figura 1.6
Estatística Cap. 1

Segundo método:
I Trigo
n Milho
400

350

300

250

o 200

E
150
õc
P 100

50

0
oc{cD<-rf)(ol--9oq)Q
b, ó o) o) o, o) o) o) o) o) o)

Ano

Figura 1.7

A Figura 1.7 é denominada grd.fico de barras superpostas.

15. (o) Exprimir os dados de produção de trigo e de milho do Problema 7 em


percentagens da produção anual total. (á) Representar graficamente as
percentagens de (o).

Solução
200*= úõ -n milho=
(o) Em 7970, a percentagem de trigo = ^^:
zUU + '.15 tz,t-,o,ade
= 1007o - 72,77o = 27,3Vo.
Tabela 1.2
l

Anos r970 1971 1972 I 973 1974 1975 1 976 1977 1978 1979 1 980
I

Percentagem 1)1 61,3 69,2 14,6 15,0 66.1 65,6 68.2 12.5 61,6 70,1
d.e Íri.so
Percentagem 21,3 32,1 30,8 25,4 25,0 11q 34,4 3 1.8 )'7 5 32.4 )gq
de milho
Cap. 1 Variúueisegráficos

(ó) A representação das percentagens de (o), apresentada na Figura 1.8, é denomi-


nad,a grd.fico de percentagens complementares em barras. Pode também ser
usado um gráfico semelhante ao do primeiro método do Problema L4(b).

100 I Trigo
tr Milho
80

E
s60
E
o
O
b40
o-

ONCD\fIO(ON@O)O
f'-NNNNF-F-Nlt'-N@
o) o, o) o) o) o) o) o) o) o) o)

Ano

Figura 1.8

16. As áreas dos vários continentes do mundo, em milhões de quilômetros quadra-


dos, estão apresentadas na Tabela 1.3.

Tabela 1.3

Continente Árno
(milhõe s de quilômetros quadrado s)

África 30,3
Ásia 26,9
Europa 4,9
América do Norte 24,3
Oceania 8,5
América do Sul 17,9
URSS 20.5
TOTAL 133.3
Fonte.' Nações Unidas
24 Estatística Cap. 1

Nota 1. Da Europa estão excluídos a Rússia e os países que faziam parte da antiga
URSS.

Nota 2. Da Europa está excluída a Turquia, que está incluída na Ásia.


Representar graficamente os dados.

Primeiro método

Ánels Dos ooNTINENTES Do MUNDo


(dados Íornecidos pelas Nações Unidas)

AFRICA
ASIA
EUROPA
AMÉRICA DO NORTE
OCEANIA
AMÉRICA DO SUL
URSS

llllllllllll
1234567I I 10 11 12
Área (milhões de quilômetros quadrados)

Figura 1.9

O gráfico é de barras horizontais em vez de verticais. Note-se que os


continentes foram relacionados em ordem alfabética. Se se desejar, eles poderão ser
relacionados em ordem crescente ou decrescente das áreas.

Segundo método
A Figura 1.10 é chamada grd,fico em setores, gráfico circular ou cartogranLa em
setores. Para construí-lo parte-se do fato de que a área total, de 133,3 milhões de
quilômetros quadrados, corresponde ao número total de graus de uma circunferên-
cia, isto é, 360". Então, 1 milhão de quilômetros quadrados correspondem a
360'/133,3. Segue-se a Afríca, com 30,3 milhões de quilômetros quadrados, corres-
ponde um arco de 30,3 (360',/133,3) -- 82", enquanto para a Asia, Europa, América
do Norte, Oceania, América do Sul e URSS os ângulos correspondentes são de,
Cap. 1 Varidueisegrdficos

respectivamente, 73", 13", 66', 23",48" e 55'. Usando-se um transferidor podem-se


traçar as linhas divisórias.

Áneas Dos coNTTNENTES Do MUNDo


(milhões de quilômetros quadrados)

§r,oÀ

América do Norte
URSS 20,5
/.o
./6
,-g
c América
p .D do Sul
o'I 17,9

Figura 1.10

t7. O tempo 7 (em segundos), necessário para a oscilação completa de um pêndulo


simples de comprimento Z (em centímetros), é dado pelas seguintes observa-
ções obtidas em um laboratório de física. (o) Apresentar graficamente 7 em
função d.e L; (b) avaliar T, por meio desse grâ{rco, para um pêndulo cujo
comprimento é de 40 centímetros.

L 10,1 t6,2 ))) 33,8 42.0 53.4 66.7 7 4.5 86,6 100.0

T 0,60 0,81 0.95 t,t7 1,30 1,41 1,65 r,7 4 1,87 2,0t

Solução
(o) O gráfico indicado na Figura 1.11 foi obtido ligando os pontos de observaçào
por meio de uma curva regular.
(ó) O valor de 7 avaliad,o é 1,27 segundos.
26 Estatística Cap. 1

2,0

1,5

1,0

0,5

Figura 1.11

Equações
18. Resolver cada uma das seguintes equações:
(a) 3X+4=24-2'X.
Subtraindo 4 a ambos os membros: 3X+ 4- 4=24-2X -4 .'.3X=20 -2X.
Adicionando 2X a ambos os membros: 3X + 2X = 20 - 2X + 2X .'. 5X = 20.
Dividindo ambos os membros por 5: 5Xl5 = 2015 :. X ='4.
Conferindo:3(4) +4=24-2(4).'. 12+4=24 -8.'. 16= 16.

Este resultado pode ser obtido muito mais rapidamente, sabendo-se que
qualquer termo pode ser movimentado outransposlo de um membro de uma equaçào
para o outro, apenas com a troca do sinal. Assim, pode-se escrever:
3X + 4 = 24 - 2X .'. 3X + 2X = 24 - 4 :. 5X = 20 .'. X = 4
(b) Y +
eY 1=
Id + -2'-
Multiplicam-se primeiramente ambos os membros por 6, que é o mínimo
múltiplo comum dos denominadores.
'l+
,l+'* , I = ulrl .[+' otr ) =y.2ü+ 2\+ 6 = 3Y
(' / \/ \ ) '
2Y + 4 + 6 = 3Y, 2Y + 70 = 3Y, 10 = 3Y- 2Y,Y = 70.
Cap. 1 Varió.ueis e gró,ficos 27

Conferind"r !!# * 1 = f, t* r=+, 4+ t = 5, 5 = 5


19. Resolver cada um dos seguintes sistemas de equações simultâneas.
I
(a) I 3a
-2b=ll
1

[5o+7b=39
Multiplicando a primeira equação por 7: 2La * 14b = 77 (l)
Multiplicando a segunda equação por 2: Lja + 74b = 78 (2)

Adicionando membro a membro: 37a = 155 .'.

Dividindo por 31: a=5


Observe-se que, multiplicando cada equação dada por números apropria-
dos, podem-se escrever duas equações equiualentes, (1) e (2), nas quais os coeficien-
tes da incógnita à são numericamente iguais, porém de sinais contrários. Então, por
adição, fica-se habilitado aeliminar a incógnita ó e, assim, determinar o.

Substituindo o. = 5 na primeira equação: 3(5) - 2= ll .'. -2b = - 4 .'. b =2.


Assim,a=5eb=2.
Conferindo: 3(5) - 2(2) = 11 .'. 15 - 4 = 17 .'. 11 = 11
5(5) + 7(2) = 39 .'. 25 + 74 = 39 ." 39 = 39
(
lla-zb
I
+5c=15
(b) i7a-Bb- 2c=52
[5o+ b- 4c= 2
I

Multiplicando a primeira equação por 2: 6a + 4b + l}c = 30

- 10c = '-260
Multiplicando a segunda equação por -5:-354 + 15b (1)

Somando membro a membro -29a + l9b = -230


Multiplicando a segunda equação por 2: L4a - 6b + 4c = 104
Repetindo a terceira equação 5a+ b- 4c = - 2 Q)
Somando l9a - 5b = 106
Assim, elimina-se c e ficam duas equações, (1) e (2), a serem resolvidas
simultaneamente para a e b.
28 Estatística Cap. L

Multiplicando a equação (1) por 5: -145a + 95ó = -1 150


Multiplicando a equação (2) por 19: - 95b =
367a 2 074
Somando membro a membro 216a = 864

Dividindo por 216 a=4


Substituindo (t. = 4 em (1) ou (2), nós encontraremos b = - 6.
-6 em qualquer
Substituindoa = 4eb = das equações dad.as, obtém-sec = 3.

Assim,a=4,b=-6êc=3.
Conferindo: 3(4) + 2(-6)+ 5(3) = 15 ... 15 = 15. 7@) -3 (- 6) + 2(3) =
= 52 .'. 52 = 52. 5(4) + (- 6) - 4(3) = 2 .'. 2 = 2.

Desigualdades
20. Em cada uma das seguintes, determinar uma desigualdade para X, isto é,
resolva cada desigualdade em relação a X.
(a) 2-X < 6. Dividindo ambos os membros por 2, obtém-se X < 3.
(b) 3X - 8 > 4. Somando 8 a ambos os membros, SX> 12; dividindo ambos os
membros por 3, X > 4.
(c) 6 - 4X <- 2. Somando - 6 a ambos os membros,-4X < -8; dividindo por
-4,X>2.
Note-se que, como nas equações, pode-se transpor um termo de um membro
de uma desigualdade para o outro, apenas mediante a troca do sinal, 3X 2 8 + 4.
Y_tr
\d.) -3< 2
< 3. Multiplicando por 2, - 6 <X -5 < 6; somando 5, - 1 <X< 11.

(e) -
- 1 r1 53< 7. Multiplicando por 5, - 5 < 3 - 2Xs 35; somando
- 3,-8<-2X <32; dividindopor-2,4>X>- 16,ou-16<X <4.

Logaritmos e antilogaritmos
21. Verificar cada um dos seguintes logaritmos.
(a) Iog 87,2.Mantissa = 0,9405; característica = 1; então, log87,2 = 1,9405
Cap. 1 Varió.ueis e grd.ficos 29

(ó) log 37 300 = 4,5717


(c) log 753 = 2,8768
(d) tog 9,21= 0,9643
(e) log 54,50 = 7,7364
(fl lo1 0,382. Mantissa = 0,5821; característica = 9 - 10;

entào log 0,382 = 9,5821 - 10

G) log 0,00159 = 7,2074 - 10

(â) loe 0,0753 = 8,8768 - 10

(i) 1og0,000827 = 6,9175 - 10

U) log 0,0503 = 8,7016 - 10

(á) log 4,638. A mantissa do 1og 4.638 está situada entre as dos log 4.630 e log
4.640 e a B décimos do primeiro.
Mantissa do log 4.640 = 0,6665 Mantissa do log 4,638 = 0,6656 + (0,8)
Mantissa do log 4 630 = 0,6656 (0,0009) = 0,6663 com quatro algarismos.
Diferença tabular = 0,0009 Então, log 4,638 = 0,6663.
Esse processo é denominado interpolaçã,o linear. Se se desejar a tabela das
partes proporcionais, pode-se recorrer ao apêndice V para fornecer a mantissa
diretamente (6 656 + 7).

22. VeriÍicar cada um dos seguintes antilogaritmos


(a) antilog 1,9058
Na tabela, a mantissa 0,9058 corresponde ao número 805. Visto que a
característíca é l, o número deve ter dois algarismos antes da vírgula; então, o
número pedido é 80,5, isto é, antilog 1,9058 = 80,5.
(á) antitog 3,8531 - 7 130, antilog 2,1875 = 154, antilog 0,4997 =
= 3,16, antilog 4,9360 = 86 300.
(c) antilog 7,8657 - 10.

Na tabela, a mantissa 0,8657 corresponde ao númeto 734. Visto que a


característica é 7 - 10, o número deve ter dois zeros imediatamente após a vírgula.
Portanto, o número pedido é 0,00734, isto é, antilog 7,8657 - 10 = 0,00734.
A tabela de partes proporcionais pode ser usada.
30 Estatística Cap. 1

(d) antilog 9,8267 - 10 = 0,677, antilog 23927 =


= 0,0247 , antilog 7 ,7 443 - 10 = 0,00555.

(e) antilog 9,3842 - 70.

Visto que a mantissa não é encontrada na tábua, deve-se proceder à inter-


polação.

Mantissa de log 2.430 = 0,3856 Mantissa dada = 0,3842


Mantissa de log 2.420 = 0,3838 Mantissa
inferior = 0,3838

Diferença tabular = 0,0018 Diferença


-imediatamente = 0,0004

Então, 2.420 + (4/18) (2.430 - 2.420) = 2.422, com quatro algarismos, e o


número pedido é 0,2422.

Cálculos com emprego de logaritmos


Calcular cada uma das seguintes expressões, com o emprego de logaritmos.
ôo D 1784,q (0,043lt
zó' r= - zg,23

Solução
log P = log 784,6 + log 0,0431 - log 28,23
log784,6 = 2,8947
(+) Iog 0,0431 = 8,6345 - 10
= 11,5292 - 70
(-) log 28,23 = 1,4507 - 70
logP = 10,0785-10=0,0785.
Então, P = 1,198 ou 1,20, com 3 algarismos significativos.
Note-se o signiÍicado exponencial do cálculo. Assim,

(784,6) (0,0431) (102'8ea7) (108'6345- 10,


-
= = tn2,8e47+ 8,6845- to- r,4507 -
- ru
28,23 101'4507
= 1go'ozss = 1,198.
Cap. 1 Varidueisegrdficos 31

24. p =
^[887p =
(8g7,2)t/2

Solução
1
logP
2
1og387,2 = |{z,saru) = t,2940 ; e P = 19,68.

( 874,3) ( 0,03816) ( 28,53)3


25. P=
(L,75414 çO,OOl3SZl

Solução

LosP =
f, [(log 874,3 + Iog 0,03816+ 3 log 28,53- (4log 1,754+ log 0,007352)]
log 874,3 = 2,9417 2,9417
Iog 0,03816 = 8,5816 - 10 8,5816 - 10

3 log 28,53 = 3( 1,4553) 4,3659


Somando 15,8892- 10

(-) 8,8424 - L0

7,0468
4log 1,754 = 4(0,2440) 0,9760
log 0,007352 7,8664 - l0
Somando 8,8424 - 10

Então, log P = P
|fz,o+eU = 3,5234;e = 3.338.
32 Estatística Cap. 1

PROBLEMAS SU PLEM ENTARES

Variáveis
26. Dar o domínio de cada uma das seguintes variáveis e dizer se são variáveis
contínuas ou discretas.
(o) Número W'de toneladas por hectare de trigo produzido em uma fazenda,
durante certo número de anos.
(ó) Número N de indivíduos de uma família'
(c) Estado civil de um indivíduo.

(d) Tempo 7 da trajetória de um projétil'


(e) Número P de pétalas de uma flor.
Resp.: (o) De zero paÍa cima, contínua. (á) 2, 3, ..., discreta' (c) Solteiro,
casado, divorciado, desquitado, viúvo, discreta. (d) De zero para cima,
contínua. (e) 0, 1, 2, ..., discreta.

Arredondamento de dados, notação científica e algarismos


signiÍicativos
27. Arredondar cada um dos seguintes números para a aproximação pedida.
(a) 3.502.378 Para milhão'
(ó) 148,475 para unidades simPles.
(c) 0,000098501 paramilionésimos.
(d) 2784,73 para dezenas.
(e) 43,87500 para centésimos.
Resp.: (o) 4.000.000; (á) 148; (c) 0,000099; @) 2.180; (l) 43,88'
28. Qual o erro máximo em cada uma das seguintes medidas, consideradas como
anotadas exatamente?
(a) 7 ,20 milhões de litros.
Cap. 1 Variúueis e grdficos 33

(á) 5.280 metros.


(c) 3,0 x 108 metros.

(d) 186.000 quilômetros por segundo.


Resp.: (o) 0,005 milhões de litros, ou 5 000litros.
(b) 0,5 metros.
(c) 0,05 x 108 metros.

(d) 0,5 quilômetros Por segundo.

29. Escrever cada um dos números seguintes, usando a notação cientíÍica. Considerar
todos os algarismos signiÍicativos, a menos que haja indicação em contrário.
(o) 0,000317; (b) 428.000.000 (quatro algarismos significativos); (c) 21.600,00;
(d) 0,000009810; (e) 732 mil (, 18,0 décimos milionésimos'
Resp.: (a) 3,17 x 10,a; (b) 4,280, 108; (c) 2,160000 x 10a; (d) 9,810 x 10-6;
(e) 7,32 x 105; (fl 1,80 x 10-3.

Cálculos
30. Mostrar que (o) o produto e (ó) o quociente dos números72,48 e 5,16, admitidos
como tendo quatro e três algarismos significativos, respectivamente, não
podem ter mais do que três algarismos significativos exatos. Escrever o pro-
duto e o quociente Precisamente'
Resp.: (a) 37 4; (b) 74,0.

31. Calcular o valor numérico de cada uma das seguintes expressões, para U = - 2,
V = ll2, W = 3, X = - 4,Y = 9, Z = 1/6, admitidos todos esses números como
exatos.
(a) 4U + 6V -2W
- XYZ
rbt uu*
2X-3Y
rc) uw+ xv

@) 3(U -X)2 +Y
34 Estatística Cap. 1

G) {u'z- rw+ w
(fl 3X(4Y + 3Z) - 2Y rcX - 5Z) - 25

*rw
(h)
(Y-4)2+(U
(i) X"+5X"
x3+5x2-6x-8
-6X-8
(/) u^--Y^lurvrw + xt)
" 7f+vPr
Resp.: (a) -11 ff) -16
(b) 2 G) \-98, ou 9,89961 aprox.
(c) 35/8 ou 4,375 (b) -7h[ 34, oa 1,20049 aprox.
(d) 27 (i) 32
(e) 3 (i ) l)l{ 17 , ou 2,42536 aprox.

Funções, tabelas e gráÍicos


32. A variável Y é determinada em função da'nariável X, por meio da seguinte
equaçãoY=10-4X.
(o) Determinar Y quando X -- 3, - 2,- 1, 0, l, 2, 3, 4, 5, e apresentar os
resultados numa tabela.
(á) Determinar Y quando X -- 2,4, - 1,6 - 0,8, L,8,2,7,3,5, 4,6.
(c) Se a dependência entre Y eX for representada por Y = F (X), determinar
F (2,8),F p
(-5), ( tr D,r (- PI).
(d) Quais os valores deXque correspondem a Y =-2,6 - 10, 1,6, 16,0, 10?
(e) Exprimir X explicitamente como função de Y.
Resp.: (a) 22, 18, 74, 10, 6,2, - 2, - 6, - 10

(á) 19,6, 16,4, 13,2,2,9, - 0,9, - 4, * 9,4


Cap. 1 Varid,ueis e grdfícos 35

(c) 7,2,30, 10 -4 {, = 4,34 aproximadamente, l0 + 4n = 22,57 aproxi-


madamente.
(d) 3, 1,5,2, 7, - 7,5,2,5,0.
,l

@)x=;(10_n.
33. Se VÍ/ = \XZ - 4Y2 + ZXY, determinar V[quando: (a) X = l,Y = - 2, Z = 4; (b) X =
= - 5,Y = - 2, Z = 0. (c) Usando a notação funcional W =
F(X, Y, Z), achar tr'(3,
L, - 2).

Resp.: (a) - 8; (b) 4; (c) - 16.

34. Locar, em um sistema de coordenadas retangulares, os pontos que têm as


seguintes coordenadas: (o) (3; 2), (b) (2;3), (c) (- 4; 4), (d) (4; - 4), (e) Ç 3; - 2),
(Í) (- z; - 3), G) Ç 4,5;3), (h) (- 7,2; - 2,4), (') (0; - 3), Ç) (1,8; 0)'
35. Representar graficamente as equações:
(a)Y=2X+5.
(ó) 3X-2Y=6
(c) Y=2X2+X-10.
(d.)Y=X3-4X2+1?,X-6.
g6. A tabela seguinte mostra a população estimada, rural e urbana, para o Brasil,
em milhões de pessoas, de acordo com a Fundação IBGE:

Ano 1972 1973 1974 1975 1976 1977 1978 I 979

População 56,6 59,0 61,5 64,1 66.1 69,s 72.3 75,2


urbqna
População 42,1 42,4 42,7 43,1 43,4 43,8 44.1 44,5
rural

(o) representar os dados empregando um gráÍico de linhas, um gráfico de


barras e um gráfico de barras complementares;
(ó) construir um gráfico que mostre a percentagem das pessoas que são (1)
residentes da zona urbana e (2) residentes da zona rural'
87. A tabela seguinte mostra as velocidades orbitais, em km/s, dos planetas de
nosso sistema solar. Represente graficamente os dados'
36 Estatística Cap. 1

Planeta Mercúrio Vênus Terra Marte Júpiter \aturnt Urano Netuno Plutão

Velocidade 47,8 35,1 29,8 24,1 13.0 9,7 6,8 55 4,8

38. A tabela seguinte mostra as áreas, em milhões de km2, dos oceanos. Repre-
sentar graficamente os dados, utilizando (o) um gráfico de barras e (ó) um
gráÍico em setores.

Oceano Pacífico Atlântico Indico Antdrtico Artico

Área 1 83,4 106,7 13,8 t9.7 t2,4

Equações
39. Resolver cada uma das seguintes equações:
(o) 16-5c=36
(b) 2Y-6=4-3Y
k) a(X- 3) - 11 = 15 -2(X + 4)
(d) 3(2U + 1) - 5(3 - t, + 3(U - 2)
(e) 3t2(X + 1) - 4l = 10 - 5(4 - 2X)
(f) ,1
i{t2 + }z) = 6 -j ro-t r

Resp.: (a) - 4; (b) 2; (c) s; @) G) L; (Í) - z .


X;

40. Resolva cada uma das seguintes equações:

. í2a+ ó=10
ro'\ro-Bb= .,.lsg-98=-10
(o'tuo-48=
9 16

., lso+5b=24 2a+ b - c=
11"- 2
$t
\;; -áo =1; '' 1r;;âir1-?: = _!,

(c) [gx-gY= 2
fax*7Y=-9
Cap. 1 Varid.ueisegrdficos

Resp.: (a) a=3,b = 4(b) a - -2,b =6(c)X- -0,2Y =-1,2(d)A=18417 =


= 26,28577 aprox., B = ll0l7 = L5,71429 aprox.
41. (a) Representar graficamente as equações 5x + 2Y = 4 e 7X - 3Y = 23, usando
o mesmo sistema de coordenadas.

(b) Determinar, pelo gráfrco, a solução simultânea das duas equações.


42. As soluções da equação geral do seglqnqg €Iey aX2 + bX + c = 0 são dadas pela

fórmula quad.r(Ítica: * = -U-84. Empregar essa fórmula para


determinar as soluções das equaçõãI' fo) 3X2 - 4X - 5= 0, (á) l-* +X- 10 =
= 0, (c) 5X2 +l)X=7,tdlX2 + 8X+ 25=0.
a1
Resp.'. tol ff ^f* ou2,l2 e - O,7g,aprox. (b) 2, -2,5; (c) 0,549, - 2,549

aproximadamente.,r, i5E =
*98 = - = 4t B
"#E
r/--1 Essas raízes sáo números complexos e não
{=-= - 4 + 3iem que I =
aparecerão onde for empregado processo gráfico.

Desigualdades
4g. Usar os símbolos de desigualdade para exprimir cada uma das seguintes
proposições: (o) o número N de crianças está compreendido entre 30 e 50,
inclusive; (ó) a soma S dos pontos de um par de dados não é menor do que 7;
(c)Xé maior do que ouigual a-4e menor do que 3;@)P é no máximo igual
a 5; (e) X excede Y em mais do que 2.
Resp.: (a) 30 <N< 50; (ó) S > 7;k) - 4<X <3;@)p <5;(e)X-Y>2'
44. Resolver as seguintes desigualdades:
(a) 3X> 12

(b) 4x <5x- 3
(c) 2N + 15 > 10 + 3N
ü 3 + 5(Y -2)7 -3(4-Y
Estatística Cap. 1

Logaritmos
45. Calcular cada uma das seguintes expressões, mediante o emprego de logaritmos.
(o) (783,6) (L.654)
21..7
(bt
BTBp

t 0,04556 ) \624,7 )
çL4.32) ( 0,003572)
(d) (7,56Dr5
( 0,3854)4 ( 12,84)2
(e)
( 0,04382)3

(fl 0,04782./ 0^6?58

(s) ttr ?28

(h)

(48,79 ) ( 0,00574)
(r)
( 2,143)5

,.., 3,781
v) o,o1878 ^@
Y 1o,oozas6)(6,824)

Resp.: (a) t 296 000 ou 1,296 x 106; (á) 0,05739 ou 0,0574 com 3 algarismos
significativos; (c) 556,0; (d) 804,4; (e) 40,820; (fl 0,03438; (g) 15,57; (h7
45,67; (i) 0,0004579 = 4,5L9 x 10-a ot 4,52 x 10-4, com 3 algarismos
significativos; (/) 3 096.
46. Se op - N, onde a e p sáo números positivos e a * 7,p é denominado logaritmo
de N na base a e escreve-se p = logi'a N. Calcular: (o) logsz 8, (ó) logzs 1,25, (c)
log4 llL6, (d) log112 32, (e) 1og5 1.

Resp; (o) 3; (ó) 3/2; (c) - 2; (d) - 5; (e) O.


47. Demonstrar que log" N = 2,303 lo916 N, aproximadamente, em que e = 2,71828
... é denominada base naturol dos logaritmos e N > 0.
48. Demonstrar que (1o96 a) (Iogob) = l, em que a) 0,b > 0, a +7,b *1.
Capítulo

Distribuições de Íreqüência

Dados brutos
Dados brutos sáo aqueles que ainda não foram numericamente organizados. Um
exemplo é o conjunto das alturas de 100 estudantes do sexo masculino, tirado de
uma lista alfabética do registro de uma universidade.

Rol
Um rol é um arranjo de dados numéricos brutos em ordem crescente ou decrescente
de grandeza. A diferença entre o maior e o menor número do rol chama-se amplitude
total dos dados. Por exemplo, se a maior altura dos 100 estudantes do sexo mascu-
lino é 188 cm e a menor 152 cm, a amplitude total será de 36 cm.

Distribuições de Íreqüência
Quando se resumem grandes massas de dados brutos, costuma-se freqüentemente
distribuí-los em classes ou categorias e determinar o número de indivíduos perten-
centes a cada uma das classes, denominado freqüência da classe. Um arranjo
tabular dos dados por classes, juntamente com as freqüências correspondentes, é
denominado distribuição de freqüência ou tabela de freqüência. A Tabela 2.1 é urr,a
distribuição de freqüência das alturas (arredondadas para centímetros) de 100
estudantes do sexo masculino da Universidade XYZ.

39
40 Estatística Cap. 2

Tabela 2.1
Alturas de 100 estudantes do sexo masculino da Universidade XYZ.

Altura Número de
(cm) estudantes

151- 15 8 5

t59-166 18

t6'7 -17 4 42

t7 5-182 27

183-190 8

Total 100

A primeira classe ou categoria, por exemplo, contém as alturas de 151 cm


até 158 cm e é indicada pelo símbo1o 151-158. Como há 5 estudantes cujas alturas
pertencem a essa classe, a freqüência que lhe corresponde é 5.
Os dados organizados e resumidos como na distribuição de freqüência da
Tabela 2.L sáo, muitas vezes, denominados dados agrupados. Embora o processo de
agrupamento geralmente inutilize muitos detalhes originais dos dados, consegue-se
vantagem importante que consiste no aspecto global obtido, que se torna mais claro
tornando evidente as relações essenciais.

lntervalos e limites de classe


Um símbolo que define uma classe, como o 151-158 da Tabela 2.1, chama-se
interualo de classe. Os números extremos, 151 e 158 são denominados limites de
classe;onúmeromenor, 1.5l,éolimiteinferiordaclasseeomaior, 158,éolimite
superior da classe. Os termos classe e intervalo de classe são, muitas vezes,
permutáveis, embora o intervalo de classe seja, realmente, o símbolo dessa classe.
Um intervalo de classe que, ao menos teoricamente, não tem limite supe-
rior ou inferior indicado, é denominado interualo de classe aberto. Por exemplo, ao
referir-se a grupos de idades de indivíduos, o intervalo de classe "65 anos ou mais"
é um intervalo de classe aberto.
Cap. 2 Distribuições de freqüência 41

Limites reais de classe


Se as alturas são tomadas com arredondamento para centímetros, o intervalo de
classe 151-158, teoricamente, todas as medidas compreendidas entre 150,50 ... até
158,50 cm. Esses números, indicados abreviadamente pelos números exatos 150,5
e 158,5, são denominados os limites reais ott os uerdadeiros limites da classe; o
menor número, 150,5 é o limite inferior real eo maior, 158,5, é o limite real da classe.

Na prática, os limites reais de classe são obtidos adicionando-se o limite


superior de um intervalo de classe inferior da classe seguinte e dividindo-se a soma
por 2.
Às reres utilizam-se os limites reais para simbolizar a classe. Por exemplo,
as várias classes da primeira coluna da Tabela 2.1 poderiam ser indicadas por
150,5-158,5 158,5-166,5 etc. Para evitar ambigüidades no emprego dessa notação,
os limites reais de classes não devem coincidir com as observações reais. Assim, se
houvesse uma observação de 158,5, não seria possível decidir se ela pertence ao
intervalo da classe 150,5-158,5 ou da 158,5-166,5.

Amplitude do intervalo de classe


A amplitude do intervalo de uma classe é a diferença entre os limites reais superior
e inferior dessa classe e é referida, também como a amplitude, o tamanho ot o
comprimento da classe. Se todos os intervalos de classe de uma distribuição de
freqüência tiveram amplitudes iguais, esse valor comum será representado por c.
Nesses casos, c é igual à diferença entre dois limites inferiores, ou dois superiores,
de classes sucessivas. Para os dados da Tabela 2.7, por exemplo, a amplitude de
classe é c = 158,5 - 150,5 = 166,5 - 158,5 = 8.

Ponto médio de uma classe


É o ponto médio do intervalo da classe e é obtido somando-se o limite inferior ao
superior e dividindo-se a soma por2. Assim, o ponto médio do intervalo 151 - 158
é (151 + 158)12 = 154,5.

Para as finalidades das análises matemáticas ulteriores, admite-se que


todas as observações relativas a um determinado intervalo de classe coincidem com
seu ponto médio. Dessa maneira, todas as alturas do intervalo de classe 151-158 cm
são consideradas como sendo 154,5 cm.
42 Estatística Cap. 2

Regras gerais para elaborar uma distribuição de Íreqüência


1. Determinam-se o maior e o menor número dos dados brutos e, então, calcula-se
a amplitude total do rol (diferença entre o maior e o menor daqueles números).

2. Divide-se a amplitude total em um número conveniente de intervalos de classe


que tenham a mesma amplitude. Se isto não é possível, usam-se intervalos de
classe de amplitudes diferentes ou abertos (veja Problema 7). O número de
intervalos de classe é comumente tomado entre 5 e 20, dependendo dos dados.
Os intervalos de classe são escolhidos também, de maneira que seus pontos
médios coincidam com dados realmente observados. Isso tende a diminuir o
denominad o erro de agrupamento q:ue surge em análises matemáticas ulterio-
res. Entretanto, os limites reais de classe não coincidiriam com dados real-
mente observados.
3. Determina-se o número de observações que caem dentro de cada intervalo de
classe, isto é, calculam-se as freqüências de classe. Isso é obtido da melhor
maneira mediante a utilização de uma tabulaçã.o ou mapa de apuraçã.o.

Histogramas e polígonos de Íreqüência


Histogramas e polígonos de freqüência são duas representações gráficas de distn-
buições de freqüência.
1. ÍJm histogrdma oa histograma de freqüêncio consiste em um conjunto de
retângulos que tem:
(a) as bases sobre um eixo horizontal (eixo dos X) com centro no ponto médio
e as larguras iguais às amplitudes dos intervalos das classes;
(ó) as áreas proporcionais às freqüências das classes.

Se todos os intervalos tiverem a mesma amplitude, as alturas dos retân-


gulos serão proporcionais às freqüências das classes e, então, costuma-se tomar as
alturas numericamente iguais a essas freqüências. Se os intervalos de classe náo
tiverem a mesma amplitude, essas alturas deverão ser ajustadas (veja Problema 8).
2. Um polígono de freqüência é um gráfico de linha em que as freqüências são
locadas sobre perpendiculares levantadas nos pontos médios. Pode-se também
obtê-los, ligando-se os pontos médios dos topos dos retângulos de um histograma.

O histograma e o polígono de freqüência das alturas dos estudantes, antes


apresentadas, estão desenhadas, sobre o mesmo sistema de eixos, na Figura 2.1.
Costuma-se acrescentar segrnentos PQ e RS, que vão ter aos pontos médios imedia-
tamente inferior e superior e cujas freqüências são nulas. Nesse caso, a soma das
Cap. 2 Distribuições de freqüência

áreas dos retângulos do histograma é igual à área total limitada pelo polígono de
freqüência e o eixo dos X (veja Problema 6)'
6'
'P
,0)
ao
:f,
o
(D
930
U)
o)

Ezo
io
l
a
o 10
C)
E
o
0)
E
.l
z 147 155 163 171 179 187
Altura (centímetros)

Figura 2.1

Distribuição de freqüência relativa


Afreqüência relatiua de uma classe é a freqüência dessa classe dividida pelo total
de todas elas e é, geralmente, expressa em percentagem.

Por exemplo, a freqüência relativa da classe 167-774 da Tabela 2.1 é


421700 = 42Vo. A soma das freqüências relativas de todas as classes é, Iogicamente,
igualalou1-00%.
Se as freqüências da tabela citada forem substituídas pelas freqüências
relativas correspordentes, a tabela resultante denominar-se-â distribuiçã'o de fre-
qüência relatiua, distribuiçõ.o percentual ou tabela de freqüências relatiuas.
As representações gráficas das distribuições de freqüência relativa podem
ser obtidas dã nistogiama ou do polígono de freqüências, mediante a-simples
modificação da escalà vertical paraas freqüências relativas, conservando-se exa-
tamente ô *ur*o diagrama. Os gráficos resultantes são denominados histogramas
d,e freqüência relatiua ou histogramas pe?centu ais e polígonos de freqüêrucia relatiua
oa polígonos percentuals, respectivamente.

Distribuições de Íreqüência acumuladas. Ogivas


A freqüência total de todos ds valores inferiores ao limite superior de um dado
intervãlo de classe é denomin ada freqüência acumulada até e inclusive aquele
44 Estatística Cap. 2

intervalo. Por exemplo, a freqüência acumulad,a até e inclusive o intervalo de classe


t67-174 da Tabela 2.1 é 5 + 18 + 42 = 65, o que significa que 65 estudantes têm
alturas inferiores a774,5 cm.
Uma tabela que apresente essas freqüências acumuladas denomina-se
distribuição de freqüência acumulada, tabela de freqüência acumulada oa, abrevia-
damente, distribuição acumulado e é exemplificada na Tabela 2.2 para a distribui-
ção das alturas dos estudantes.
Um gráfico que apresente a freqüência acumulada abaixo de qualquer
limite superior de classe, locada em relação a esse limite, é denominado polígono de
freqüência acumulada ot ogiua e é mostrado na Figura 2.2 para a distribuição de
altura dos estudantes da Tabela 2.2.

Tabela2.2

Altura Número de
(cm) estudantes

Abaixo de 151 0

Abaixo de 159 5

Abaixo de 167 23

Abaixo de 175 65

Abaixo de 183 87

Abaixo de 191 100

100

E80
f
E
5
960
.(d
o
.5 40
o
(I)
ri 20

59,5 62,5 65,5 68,5 71,5 74,5


Altura (centímetros)

Figura 2.2
Cap.2 Distribuições de fre qüência 45

Para algumas Íinalidades prefere-se considerar a distribuição da freqüên-


cia acumulada de todos os valores superiores ou iguais ao limite inferior de cada
intervalo de classe. Como se consideram, nesse caso, as alturas de 150,5 cm ou mais,
de 158,5 cm ou mais etc., essa distribuição é, às vezes, denominada distribuição
acumulad,a "acima de", enqrtarrto a anterior é designada por distribuição acumula'
d.a "abaixo de". TJma é facilmente obtida da outra (veja Problema 10). As ogivas
correspondentes são denominadas crescentes e decrescentes. Sempre que se fizer
referência a distribuições acumuladas, ou ogivas, sem nenhuma qualificação, en-
tender-se-á que elas correspondem ao tipo "abaixo de".

Distribuições de Íreqüência acumulada relativa. Ogivas


percentuais
Afreqüência relatiua acumulada oupercentual é a freqüência acumulada dividida
pela freqüência total. Por exemplo, a freqüência relativa acumulada das alturas
abaixo de 174,5 cm é 65/100 = 65Vo, o que signiÍica qlue 65Vo dos estudantes têm
alturas inferiores a L74,5 cm. Se, na Tabela 2.2 e na Figura 2.2, fossem utilizadas
freqüências relativas acumuladas, em vez das próprias freqüências acumuladas, os
resultados seriam denominad os distribuições de freqüência relatiua acumulada ot
percentuais acumulados e polígonos de freqüência relatiua acumulada ou ogiuas
p er cen tuais, respectivamente.

Curvas de Íreqüência. Ogivas suavizadas


Os dados coletados podem, usualmente, ser considerados como pertencentes a uma
amostra extraída de grande população. Como se dispõe de muitas observações da
população, é teoricamente possível (para dados contínuos) a escolha de intervalos
de classe muito pequenos e tet, até, números convenientes de observações que se
situam dentro de cada classe. Assim, seria possível contar com um polígono de
freqüência ou de freqüência relativa para uma grande população que tenha tantos
pequenos segmentos de linha quebrada que se aproximem bastante de curvas, que
chamaremos, curuu; de freqüência ot curuas de freqüência relatiua, respectivamente.
E tazoávelesperar que aproximar dessas curvas teóricas, median-
se possa
te a suavização dos polígonos de freqüência ou dos polígonos de freqüência relativa
d.e uma amostra, tornando-se maior a aproximação à medida que aumenta o volume
da amostra. Por esta tazáo, a curva de freqüência é algumas vezes denominada
polígono de freqüência suauizado.
46 Estatística Cap. 2

De maneira semelhante, obtêm-se ogiu(ts suauizadas mediante a suaviza-


ção dos polígonos de freqüência acumulada ou ogivas. Comumente é mais fácil
suavizar uma ogiva do que um polígono de freqüência (veja Problema 12).

Tipos de curvas de freqüência


Curvas de freqüência aparecem, na prática, sob diversas formas características,

A
como as indicadas na Figura 2.3.

Simétrica ou em Íorma lnclinada para a direita


"1*1?,i :i :it'
t,
de sino (assimetria positiva) ' s,?,.f ,ffi Y

t/
-/ Em forma de J Em Íorma de J invertido
V Em forma de U

Bimodal Multimodal

Figura 2.3

(a) Curuas de freqüência simétrica ou em forma de sino. Caracterizam-se pelo


fato de as observações eqüidistantes do ponto central máximo terem a
mesma freqüência.
Um exemplo importante é a curud normal.
Cap. 2 Distribuições de freqüência 47

(ó) Nas curvas de freqüência moderadamente assimétrica ou inclinadas, a


cauda da curva de um lado da ordenada é mais longa do que do outro. Se
o ramo mais alongado fica à direita, a curva é dita inclinada pard, a direita,
ot de assimetria positiuo, enquanto, se ocorre o inverso, diz-se que a curva
é inclinada pd,ro, a esquerda ou de assimetria negatiua.

(c) Na cv.rua em forma de J, or.tJ inuertido, o ponto de ordenada máxima ocorre


em uma das extremidades.
(d) Uma curva de freqüência em forma de U tern ordenadas máximas em
ambas as extremidades.
(e) Uma curya de freqüência bimodal tem dois máximos.
(fl Uma curva de freqüêncía multimodal tem mais de dois máximos.

PROBLEMAS RESOLVIDOS

Rol
1. (o) Dispor os números 17,45,38,2'í,6, 48, !7, 57,34,22 eryr um ro}. (ó)
Determinar a amplitude total.

Solução
(o) Em ordem crescente de grandeza o rol é: 6, 17, L7,22,27,34, 38, 45, 48,
57. Em ordem decrescente de grandeza o rol é: 57, 48,45, 38, 34,27,22,
17,11,6.
(á) Visto que omenornúmeroé 6 eomaior éST,aamplitudetotalé 57 -6=57.

Distribuição de freqüência, histogramas e polígonos de


Íreqüência
2. A Tabela 2.3 mostra a distribuição de freqüência dos salários semanais, em
cruzeiros, de 65 empregados da Companhia P&R.
48 Estatística Cap. 2

Com referência a essa tabela, determinar:


(a) O limite inferior da sexta classe.
.Resp.:Cr$ 10.000
(á) O timite da quarta classe

Resp.:Cr$ 8.999
(c) O ponto médio da terceira classe.

O ponto médio da terceira classe = 112 (Cr§ 7.000 + Cr$ 7.999) = Cr$ 7 .499.

Tabela 2.3

Salários Número de
(cruzeiros) empregados

- 6.000
5.000 8

6.000 - 7.000 10

7.000 - 8.000 t6
8.000 - 9.000 t4
9.000 - 10.000 10

10.000 - 1.000
1 5

11.000 - 12.000 2

Toral 65

Para fins práticos, arredonda-se para Cr$ 7.500.


(d) Amptitude do quinto intervalo de classe.
Amplitude do quinto intervalo de classe = limite real superior da 5a
classe-limite real inferior da 5a classe = Cr$ 10.000 - Cr$ 9.000 = Cr$ 1.000.
Neste caso, todos os intervalos de classe têm a mesma amplitude: Cr$ 1.000.
(e) A freqüência da terceira classe.
Resp.:16.
Cap. 2 Distríbuições de freqüência

(fl A freqüência relativa da terceira classe.


Resp.: 16165 = 0,246 = 24,67o
(g) O intervalo de classe que tem a maior freqüência.
Resp.: Cr$ 7.000 - Cr$ 8.000.
Isso é freqüentemente denominado interualo de classe modal. Sua freqüên-
cia é, então, denominada freqüência de classe modal.
(à) A percentagem de empregados que ganham menos de Cr$ 8.000 por sema-
na. O número total de empregados que ganham menos de Cr$ 8.000 por
semana é igual a 16 + 10 + 8 = 34.

A percentagem de empregados que ganham menos de Cr$ 8.000 por semana =


= 34165 = 52,3Vo.
(i) A percentagem de empregados que ganham menos de Cr$ 10.000 e pelo
menos Cr$ 6.000 por semana.

Número de empregados que ganham menos de Cr$ 10.000 mais, pelo


menos, Cr$ 6.000 por semana = 10 + 14 + 16 + 10 = 50.

Percentagem de empregados que ganham menos de Cr$ 10.000 mas, pelo


menos Cr$ 6.000 por semana = 50/65 = 76,97o.

3. Se os pontos médios de uma distribuição de freqüência dos pesos de estudantes


são 64, 68,5 73, 77,5 82, 86,5 e 91 quilos, determinar: (a) a amplitude do
intervalo de classe; (á) os limites reais de classe; (c) os limites de classe,
admitindo-se que os pesos foram determinados com precisão até meio quilo.

Solução
(a) Amplitude do intervalo de classe = diferença comum entre dois_pontos
médios sucessivos = 68,5 - 64 = 73 -68,5 = etc. = 4,5 kg.
(ó) Como os intervalos de classe têm a mesma amplitude, os limites reais de
classe dividem ao meio a distâniia entre os pontos médios e, portanto, têm
os valores:

lrr ...
1iú4
+ 68.5): (64 + 86.5t, , (68.5 + 73),
1t86.5
+ 9l I ou

68,7 5: 10,7 5; 88,75 kg


Estatística Cap. 2

O primeiro limite real de classe é 66,25 - 4,5 = 61,75 e o último é 88,75 +


* 4,5 =93,25, porque a amplitude do intervalo de classe é constante e igual a 4,5 kg.
Assim, todos os limites reais de classe são dados por:
61, 7 5; 66,25; 10,15; 7 5,25; 79,7 5; 84,25; 88,75; 93,25 kg.
(c) Como os limites de classe são da ordem de meio quilo, serão escolhidos os
valores 62,66,66,5,70,5,71,75 ... para os limites reais das classes.
Então, os limites da 1a classe serão 62 - 66; os seguintes serão 66,5 - 70,5 etc.

4. Representar graficamente os resultados do problema precedente.

Solução

61,75 66,25 70,75 75,25 79,75 84,25 88,75 93,25

Os pontos médios 64, 68,5,73 ... 9l estão locados sobre o eixo dos X.

Os limites reais das classes estão indicados pelas linhas verticais longas,
tracejadas, e o limite das classes pelas cheias.

5. Com os dados do Problema 3 construir: (o) uma distribuição de freqüência


relativa ou percentual; (ô) um histograma; (c) um histograma de freqüência
relativa; (d) um polígono de freqüêncía; (e) um polígono de freqüência relativa.

Solução
(a) A distribuição de freqüência relativa, apresentada na Tabela 2.4, é
deduzida da distribuição de freqüência do Problema 2, mediante a
divisão de cada freqüência de classe pelo total das freqüências (65),
exprimindo-se os resultados em percentagens.
(ó) e (c) O histograma e o histograma de freqüência relativa estão apresentados
na Figura 2.4. Note-se que, para transformar um histograma em outro
de freqüência relativa, é necessário apenas adicionar ao histograma
uma escala vertical que indique as freqüências relativas, como a que
está representada à direita.
Cap. 2 Distribuições de freqüência 51

@)eG) O polígono de freqüência e o de freqüência relativa estão repre-


sentados pelos gráficos em linhas tracejadas, na Figura 2.4. Em
conseqüência, para transformar um polígono de freqüência em
outro de freqüência relativa, precisa-se somente adicionar uma
escala vertical que indique as freqüências relativas.

Tabela2.4

Saldrios Freqüência relativa


(cruzeiros) (em percentagem)

5.000 - 6.000 t2,3


6.000 - 7.000 15,4
7.000 - 8.000 24,6
8.000 - 9.000 21,5
9.000 - 10.000 15,4
10.000 - 11.000 1,7
11.000 - 12.000 3,1

Toral lOO,jVo

§a
(§0)


15 PE
,r
<o
a 10 §E
oo
o
LL5 10 :EB
otr

oooooo
oooooo o
o
lf)rJ)Lr)rorf)l.r) u?
rrj«jxddo
Salários (em cruzeiros)

Figura 2.4

Note-se que, se fosse apenas um polígono de freqüência relativa, por exemplo, a


figura anterior não conteria o histograma e o eixo das freqüências relativas seria
representado à esquerda, em vez do eixo de freqüência.
Estatística Cap. 2

Provar que a área total dos retângulos de um histograma é igual à área


limitada peio polígono de freqüência corrrespondente e pelo eixo dos X.

Solução
A demonstração será feita para o caso de um histograma constituído de três
retângulos, como está indicado na Figura 2.5, e o polígono de freqüência corres-
pondente, representado em linhas tracejadas.
Área total do retângulo = área sombreada + ârea II + área IV + área V +
+ áreaVII= áreasombreada + área I + áreaIII + áreaVI +áreaVIII = áreatotal
limitada pelo polígono de freqüência e o eixo dos X.
Portanto, áreaI = árealI, ârea III = área IV, área V = área VI e área VII =
= área VIII.

Figura 2.5

7. Na Companhia P&R (Problema 2), cinco novos empregados foram contratados


com os salários semanais de Cr$ 8.534, Cr$ 11.683, Cr$ 13.578, Cr$ l5.62Le
Cr$ 17.450. Construir uma distribuição de freqüência dos salários dos 70
empregados.

Solução
As distribuições de freqüência possíveis estáo apresentadas nas Tabelas (o), (á), (c)
e (d).

Em (o), foi mantida a mesma amplitude de intervalo de classe, Cr$ 1.000,


em toda a tabela. Como resultado, há demasiadas classes vazias e os detalhes sáo
excessivamente refinados na parte superior da escala de salários.
Cap. 2 Distribuições de freqüência 53

Em (ó), as classes yazias e os detalhes refinados foram evitados, mediante


o emprego do intervalo aberto "Cr$ 12.000, ou mais". Uma desvantagem disso é que
a tabela se torna inaproveitável à realização de certos cálculos matemáticos. Por
exemplo, é impossível a determinação do total de salários pagos por semâna, visto
que "mais de Cr$ 12.000" pode implicar, possivelmente, que haja indivíduos que
ganhem tanto quanto Cr$ 12.000 por semana.
Em (c), foi adotada uma aplitude do intervalo de classe igual a Cr$ 2.000.
Uma desvantagem é que desaparecem muitas informações referentes à parte infe-
rior da escala de salários e que os detalhes são ainda refinados na parte superior
deIa.

Em (d), foram empregadas amplitudes de intervalo de classe desiguais.


Uma desvantagem é que certos cálculos matemáticos, que serão feitos mais tarde,
perdem a simplicidade com que poderiam ser efetuados quando os intervalos de
classe têm a mesma amplitude. Também, quanto maior for a amplitude do intervalo
de classe, tanto maior será o erro de agrupamento.

(a) (b)

Saldrios Freqüência Saldrios Freqüência


(cruzeiros) (cruzeiros)

5.000 - s.999 8 5.000 - s.999 8

6.000 - 6.999 10 6.000 - 6.999 10

7.000 - 1.999 16 I.OOO - 1.999 t6


8.000 - 8.999 15 8.000 - 8.999 15

9.000 - 9.999 10 9.000 - 9.999 10

10.000 - t0.999 5 10.000 -r0.999 5

11.000 - 11.999 J 11.000 -tt.999 3

12.000 - 12.999 0 l2-000 ou mais 3

13.000 - 13.999 I Total T0


14.000 - 14.999 0

15.000 - 15.999 1

16.000 - t6.999 0

17.000 - r7.999 1

Total T0
54 Estatística Cap. 2

(c)

Sakirios Freqüência Salários Freqüência


(cruzeiros) (cruzeiros)

- 6.999
5.000 18

7.000 - 8.999 31

9.000 - 10.999 15

1 1.000 - 12.999 J

13.000 - t4.999 1

15.000 - 16.999 1

r 7.000 - 18.999 I

Total 70 Total T0

Construir um histograma para a distribuição de freqüência da Tabela (d) do


Problema 7.

Solução
O histograma pedido está representado na Figura 2.6.Para construí-Io, utiliza-se
a propriedade de serem as áreas proporcionais às freqüências. Suponha-se que o
retângulo A corresponde à 1 classe (veja Tabela (d) do Problema 7) com freqüência
igual a 8. Visto que a sexta classe da Tabela (d) também tem freqüência de classe
igual a 8, o retângulo B que representa esta classe, deverá ter área igual à de Á.
Então, como B tem o dobro da largura de A deverá ter a metade de sua altura, como
foi representado.
Semelhantemente, o retângulo C, que representa a última classe da Tabela
(d), tem altura igual à metade da unidade da escala vertical.
Cap. 2 Dístribuições de freqüência 55

Solução

15


I ro
(o A
:J
q
o
L
i,üá;:l
::i;;;
LL
c B
!:t: ?'!,! *|;.t;yl?l:!ll
,al!,1 C
a i: .: :: i;1 : lr) ii tà; i;1 ::: ;:tl t19t I B tãil;.:. :: .: ,9q Éii; i;
-!

5.500 17.500 19.500 11 .500 | 13.500 I 15.500 I 17 s00


6.500 8.500 10.500 12.500 14.500 16.500 18.500
Salários (em cruzeiros)

Figura 2.6

Distribuições de Íreqüência acumulada e ogivas


9. Construir: (a) uma distribuição de freqüência acumulada; (ó) uma distribuição
acumulada percentual; (c) uma ogiva; (d) uma ogiva pgrcentual da distribuição
de freqüência do Problema 2.

Solução
(a) e (á). A distribuição de freqüência acumulada e a percentual (ou distri-
buição de freqüência acumulada relativa) estão combinadas na
Tabela 2.5.
Observe-se que o valor de cada casa da coluna 2 é obtido adicionando-se
sucessivamente os das casas da coluna 2 da tabela do Problema 2. Então, 18 = 8 +
+10,34=8+10+16etc.
56 Estatística Cap. 2

Tabela 2.5

Salários Freqüência Freqüência acumulada


(cruzeiros) acumulada percentual

Aba xo de 5.000 0 0,0


Aba xo de 6.000 8 12,3
Aba xo de 7.000 18 )1 1

Aba xo de 8.000 34 52,3


Aba xo de 9.000 48 73,8
Aba xo de 10.000 58 89,2
Aba xo de I 1.000 63 96,9
Aba xo de 12.000 65 100.0

O valor de cada casa da coluna 3 é obtido da coluna anterior, mediante sua


divisão por 65, que é a freqüência total, exprimindo-se os resultados em percen-
tagens. Então 34165 = 52,3Vo. Os valores desta coluna podem ser obtidos, também,
adicionando-se sucessivamente os valores das casas da coluna 2 da tabela do
Problema 5(a). Assim,27,7 - 12,3 + 15,4, 52,3 = 12,3 + 75,4 + 24,6 etc.
(c) e (d). A ogiva (ou polígono de freqüência acumulada) e a ogiva percentual
(ou polígono de freqüência relativa acumulada) estão ambas repre-
sentadas na Figura 2.7 . A escala vertical da esquerda permite a
leitura da freqüência acumulada, enquanto a da direita indica a
freqüência acumulada percentual.

6f,
c
o

E(õ
70 100 I
(l)
f 60 À
E 80<o
!
50 (§
o

40 60EC

c 30
(O
l(\ =
a
:f 20 (ú
o
o 208
LL 10 <o
:f
o
o
oooooooo
oooooooo
LL
qcqqqqqq
tô(oNcoo)oc\l

Salários (em cruzeiros)

Figura 2.7
Cap. 2 Distribuições de freqüêncía 57

O que foi exposto refere-se a distribuições de freqüência acumulada "abaixo


de" e a ogivas, por causa do modo como as freqüências foram acumuladas.
10. Construir (a) uma distribuição de freqüência acumulada "acima de" e (ó) uma
ogiva da mesma natureza, para a distribuição de freqüência do Problema 2.

Solução
(a) Observe-se que o valor de cada casa da coluna 2 da Tabela 2.6 é obtido
adicionando-se sucessivamente os de cada casa da coluna 2 daTabela2.S
do Problema2, a partir do fim daquela tabela. Assim, 7 = 2 + 5, 77 = 2 + 5 +
+ 10 etc.
Esses valores podem também ser obtidos subtraindo-se, da freqüência
total, 65, cada valor da coluna 2 da Tabela 2.5 do Problema 9. Assim, 57 = 65 - 8,
47 = 65 - 18 etc.

870

.E
o
60
--

50
E(ú
40
=
C

=30
Ízo
.H
:=
1o
o
E
LL oooooooo
oooooooo
qeqqqccq
ro (o l.- @ o
o) c\t

Salários (em cruzeiros)

Figura 2.8
58 Estatística Cap. 2

Tabela 2.6

Salários Freqüência acumulada


(cruzeiros) "acima det'

Acima de 5.000 65

Acima de 6.000 57

Acima de 7.000 41

Acima de 8.000 31

Acima de 9.000 t7
Acima de 10.000 7

Acima de 11.000 2

Acima de 12.000 0

11. Cinco moedas foram lançadas 1.000 vezes e, em cada lance, foi anotado o
número de caras. Os números de lances nos quais foram obtidas 0,1,2 3, 4 e
5 caras estão indicados na Tabela 2.7 .

Tabela2.7

Número de caras Número de lances (freqüência)

0 38

1 t44
2 342

-) 281

4 164

5 25

Total 1.000

@) Representar graÍicamente os dados; (á) construir uma tabela que apresente


aS percentagens dos lances que resultaram em números de caras menores
do que o, 1, 2, 3, 4, 5 ou 6; (c) representar graficamente os dados da tabela
referida em (ó).
Cap.2 Distrib uições de fre qüência 59

Solução
(o) Os dados podem ser representados graficamente de um dos modos indi-
cados nas Figuras 2.9 e 2.I0.

A Figura 2.9 parece ser o gráfico de emprego mais natural, visto que, por
exemplo, o número de caras não pode ser 1,5 ou 3,2. Esse é um gráfico de barras
cuja largura é igual a zero e é, às vezes, denominado grá.fico em bastão. É usado
especialmente quando os dados são discretos.
A Figura 2.10 apresenta um histograma dos dados. Note-se que a área total
do histograma é igual à freqüência total 1.000, como seria de esperar. Ao utilizar a
representação histogrâmica ou o polígono de freqüência correspondente, tratam-se
essencialmente os dados como se fossem contínuos. Isso será útil futuramente.
Note-se que já foram utilizados anteriormente
o histograma e o polígono de freqüên-
cia para dados discretos, no Problema 5.

350
o
Q)
o
C
300

J 250
E 200
o
o 150
E
\f
100
z
50
0
1234
Número de Caras

Figura 2.9

350
o
o 300
o
c

J 250
0)
! 200
o
o 150
E
\3 It I
100 l- .
z t::r
t: .-:
i

50
t;' . "
0
1234
Número de Caras

Figura 2.10
60 Estatística Cap. 2

(á) Com referência à Tabela 2.8 pedida, note-se que ela representa simpies-
mente uma distribuição de freqüência acumulada e uma freqüência acu-
mulada percentual dos números de caras. Deve-se observar que oS valores
"menos de 1", "menos de 2" etc., poderiam ter sido, semelhantemente,
"menos de ou igual a 0", "menos de ou igual a 1" etc.
(c) O gráfico pedido pode ser representado por qualquer um dos da Figura 2.11
ou da Figura 2.12.

Tabela 2.8

Número de caras Número de lances Número percentual de lances


(fre qüência acumulada) (fr e qüê nc ia ac umuluds pe r c e ntual)

menos de 0 0 0,0

menos de 1 38 3,8

menos de 2 182 t8,2

menos de 3 524 52,4

menos de 4 811 81,1

menos de 5 975 q75

menos de 6 1.000 100,0

a 100
o
()
880
J
€60
E

Êoo
c
$zo
o
o_

Número de Caras

Figura 2.11
Cap. 2 Distribuições de freqüência 61

(/) 100
o
o
880
J
€60
E
(D

P40
E
$zo
o
ÍL

A Figura 2.ll é mais apropriada para representar dados discretos visto


que, por exemplo, a percentagem de lances nos quais há menos de duas caras é igual
à daqueles em que haverá menos de 1,75,1,56 ou 1,23 caras, de modo que a mesma
percentagem, 18,27o poderia ser indicada para estes valores (indicada pela linha
horizontal).
A Figura 2.12 representa o polígono de freqüência acumulada, ou ogiva,
para os dados, e os trata essencialmente como se fossem contínuos.
Note-se que as Figuras 2.Ll e 2.12 correspondem, respectivamente, às
Figuras 2.9 e 2.10 da parte (a).

Curvas de Íreqüência e ogivas suavizadas


12. Os 100 estudantes do sexo masculino da Universidade XYZ (veja Tabela 2.1)
constituem realmente uma amostra dos 1.546 dessa Universidade. Com os
dados contidos na amostra:
(o) Construir um polígono de freqüência percentual suavizado (curva de fre-
qüência).
(á) Construir uma ogiva percentual suavizada"abaixo de".
(c) Estimar dos resultados de (a) e (ó), o número de estudantes da Universi-
dade que têm alturas entre 165 cm e 178 cm. Quais as hipóteses que podem
ser admitidas?
(d) Podem ser utilizados os resultados para estimar a proporção de homens,
nos Estados Unidos, que têm altura entre 165 cm e 178 cm?
Estatística Cap. 2

Solução
(o) e (ó) Nas Figuras 2.13 e 2.14, os gráficos tracejados representam os
polígonos de freqüência e as ogivas e foram obtidos dos que apare-
cem nas Figura 2.1 e Figura 2.2 respectivamente. Os gráficos
suavizados pedidos (apresentados em linha cheia) são deles obti-
dos, por aproximação, sob a forma de curvas suavizadas.

(d^
.Zç 50
(d0)
t§ C
40

.(§
()oo) 30
.õE 20
5tr
Yo) 10

Altura (em centímetros)

Figura 2.13


o(úã
tro)
=o)
l(d
OE
<b
.§9
oo)
.E?
:fE
Bs)
LL

151 159 167 175 183 191


Altura (em centímetros)

Figura 2.14

Na prática é mais fácil suavizar uma ogiva; assim, muitas vezes obtém-se
primeiramente a ogiva suavizada e, a seguir, o polígono de freqüência suavizado é
obtido mediante a leitura dos valores daquela ogiva.
(c) Se a amostra de 100 estudantes é representativa da população de 1.546
estudantes, as curvas suavizadas dos itens (o) e (ó) podem ser admitidas
como sendo a curva de freqüência percentual e a ogiva percentual dessa
Cap. 2 Distribuições de freqüência

população. A hipótese será correta somente se a amostrafor aleatória, ísto


é, se cada estudante tiver a mesma chance, como qualquer outro, de ser
escolhido para integrar a amostra.
Como as alturas entre 165 cm e 178 cm, registradas em centímetros,
representam realmente alturas compreendidas entre 164,5 cm e 178,5 cm, a percen-
tagem de estudantes da populaçáo que têm essas alturas pode ser determinada
dividindo-se a ârea sombreada da Figura 2.13 pela área total limitada pela curva
suavizada e o eixo dos X.
É mais simples, entretanto, o emprego da Figura 2.14, na qual se vê que:
. percentagem de estudantes de alturas menores do que 178,5 cm = 82Vo.

. percentagem de estudantes de alturas menores do que 164,5 cm = lSVo


de modo que a percentagem de estudantes de alturas compreendidas entre 164,5
cm e 178,5 cm = 827o - l87o = 64Va. Então, o número de estudantes da Universidade
que têm alturas compreendidas entre 165 cm e 178 cm, aproximadas para cm, é
igual a 64Vo de 1.546 = 989.
Outro modo de expor esse fato consiste em dizer que a probabilidade ot
chance de uma pessoa, selecionada ao acaso entre os 1.546 estudantes, ter altura
compreendida entre 165 cm e 178 cm é d,e 64Vo 0,64 ou 64 em 100. Por causa da
relação de probabilidade (considerada no Capítulo 6), as curvas de freqüência
relativa muitas vezes denominadas curuas ou distribuições de probabilidade.
(d) Poder-se-ia considerar a proporção pedida como sendo 647o (com muito
mais incerteza do que antes), somente se houvesse a convicção de que a
amostra de 100 estudantes, extraída da população total masculina dos
Estados Unidos, representasse verdadeiramente uma amostra aleatória.
Contudo, isso é um tanto improvável por várias razões, tais como: (1)
alguns dos estudantes do colégio podem não ter alcançado suas alturas
máximas; (2) a geraçáo de jovens pode tender a ser mais alta do que seus
ascendentes.

PROB LEMAS SU PLEMENTARES

13. A Tabela 2.9 apresenta uma distribuição de freqüências da duração de 400


válvulas de rádio, ensaiadas na L & M Tube Company. Com referência a essa
tabela determinar:
(o) o limite superior da quinta classe;
64 Estatística Cap. 2

(ó) o limite inferior da oitava classe;


(c) o ponto médio da sétima classe;

(d) o limite real de classe da última classe;

(e) amplitude de intervalo de classe;


ff) a freqüência da quarta classe;

G) a freqtiência relativa da sexta classe;


(á.) a percentagem das válvulas cuja duração não excede a 600 horas;
(i) a percentagem das válvulas de duração do que ou igual a 900 horas;

ç) a percentagem das váIvulas, cuja duração é de 500 horas, no mínimo, mas


inferior a 1.000 horas.

Tabela 2.9

Duração (horas) Número de vdlvulas

300 - 399 14

400 - 499 46

500 - 599 58

600 - 699 76

700 - '799 68

800 - 899 62

900 - 999 48

1.000 - 1.199 22

1.100 - 1.199 6

Tota.l 400

Resp.: (a) 799; (ó) 1.000; (c) 949,5; (d) 1.099,5, 1.199,5; (e) 100 horas; (f;76;
@) 6214OO = 0,155 ou 15,57o; (h) 29,57a; (i) l9Vo; ç) 78Eo.
14. Construir: (o) um histograma e (á) um polígono de freqüência correspondente
à distribuição de freqüência do problema precedente.
Cap. 2 Distribuições de freqüência

15. Para os dados do Problema 13 construir: (o) uma distribuição de freqüência


percentual ou relativa; (ó) um histograma de freqüência relativa; (c) um
polígono de freqüência relativa.

16. Com os dados do Problema 13, construir: (o) uma distribuição de freqüência
acumulada; (á) uma distribuição acumulada percentual ou relativa; (c) uma
ogiva; (d) uma ogiva percentual. (Note-se que, a não ser que haja especificação
em contrário, a distribuição refere-se à construída na base de "abaixo de").

L7. Resolver o problema precedente, quando as freqüências são acumuladas na


base de "acima de".

18. Estimar a percentagem das váIvulas do Problema 13, de duração: (o) menor do
que 560 horas; (á) de 970 ou mais horas; (c) compreendida entre 620 e 890
horas.
Resp.: (a) 247o; (b) llVo; (c) 467o.

19. (a) Construir um polígono de freqüência percentual suavizado e a ogiva per-


centual suavizada correspondentes aos dados do Problema 13.

(ô) Estimar, dos resultados obtidos em (o), a probabilidade de uma válvula


queimar-se antes de 600 horas.
(c) Discutir o risco ou a chance que o fabricante assume ao garantir que uma
válvula durará, pelo menos, 425 horas. E 875 horas.
(d) Se ofabricante oferece garantia de 90 dias por uma válvula, ou a devolução
do dinheiro, qual é a probabilidade de efetuar o reembolso, admitindo-se
que a válvula é usada 4 horas por dia? 8 horas por dia?

20. (o) Lançar quatro moedas cinqüenta vezes e registrar o número de caras em
cada lance.
(ó) Construir uma distribuiçáo de freqüência que mostre o número de lances
em que aparecem 0, 7,2,3, 4 caras.
(c) Construir uma distribuição percentual tais resultados, compaiando as
de
percentagens obtidas com as freqüências teóricas de 6,25Va, 257o, 37,\Vo,
iSEo 6,257o (proporcionais a 1, 4, 6, 4 e 1), determinadas pelas leis da
"
probabilidade.
(d) Representar graficamente tais distribuições'
(e) Aumentar o número de lançamentos das quatro moedas para mais de
cinqüenta, verifrcando se os novos resultados são mais concordantes com
a expectativa teórica. Se não forem, indicar as possíveis razões das
diferenças.
h
*xT*P*
Capítulo

Média, mediana, moda e outras


medidas da tendência central

lndices ou notação por índices


O símbolo X; (leia-se "X índice j") representa qualquer um dos N ualores, X1, X2, Xg,
... XN, assumidos pela variável x. A lefua j, em x1, que pode representar qualquer
dos números 1,2,3, ... N, é denominada índice. Evidentemente, pode ser usada
qualquer outra letra além de7, como i, k, p ou s.

Notação de somatório
N
O símbolo 2 X: é usado para representar a soma de todos os X; desde j = 7 até
j=i
j = N, isto é, por definição
N
Z X1=X1 +X2+X3+...+XN.
j=l

Quando não há possibilidade de confusão indica-se, freqüentemente,


aquela soma, de modo mais simples, por » X, » Xi o:uZ Xr.
J

O símbolo X é a letra grega maiúscula sigma, que indica soma.

66
Cap. 3 Média, mediana, moda e outras medidas da tendência central 67

N
Exemplo 1. z Xi Y j =XrYt *XzYz*Xl,rYlr.
j=t
N
Exemplo 2. 2 aXi =aXt + aX2 + ... + aXtr = o(Nr + Xz+ ...+ Xry) =
'i=r
N
= a » xi, em que 0 é uma constante. Mais simplesmente, 2 aX = aLX.
j=1
Exemplo 3. Se a, b, c, sáo constantes quaisquer, L (aX + bY - cZ) = aLX +
+ bZ Z - cZ Z (veja o Problema 1).

Médias e medidas da tendência central


Amédia valor típico ou representativo de um conjunto de dados. Como esses
é um
valores típicos tendem a se localizar em um ponto central, dentro de um conjunto
de dados ordenados segundo suas grandezas, às médias também são denominadas
medidas da tendência central.
Vários tipos de médias podem ser definidas, sendo as mais comuns amédia
aritmética ou, abreviadamente, a média, a mediana, a moda, a média harmônica.
Cada uma delas apresenta vantagens e desvantagens, dependendo dos dados e dos
fins desejados.

Média aritmética
A média aritmética, ou média, de um conjunto de N números X1, XZ, XN é repre-
sentada por (leia-se "Xbarra") e é definida por

LXi
Y=_-,X1 .-
+ X2+ X3+...+Xlv j=l »X
NNN =_ (1)

Exemplo: A média aritmética dos números 8, 3, 5,12, 70 é:

U_8+3+5_+12+10
55 =*=l,O
68 Estatística Cap. 3

SeosnúmerosX1,X2,Xg,...XKocorrerrtft,fZ,fS,...,fyvêzls,respectivamente
(isto é, ocorrerem com as freqüências ft, fz, fs, ..., fx), a média aritmética será:
K
»fli
ç _ ftXt+ fzXz+ ÍtXt+ ... + fxXx _ r= 1 »f X ZÍX
fi+fz+fi+...+fu K _ »f _ N
(2)
zÍt
j=1

onde N = 2 f é a freqüência total, isto é, o total do número de casos.


Exemplo: Se 5, 8, 6,2 ocorrerem com as freqüências 3,2,4 e 1, respectiva-
mente, a média aritmética será:

v (3Xs) + (2X8) + (4X6) + (lX2) 15+ 16+ 24+ 2


= 5,7
3+ 2+ 4+ | t0

Média aritmética ponderada


As vezes, associam-se os números X1, X2, ..., XK a certos fatores de ponderaçã.o ou
pesos txb tD2, ..., uK, que dependem do significado ou importância atribuída aos
números. Nesse caso

; wlXy+ w2X2+ ...+ wKXK \wX


^= w1* w2* ...* wy = 2w (J)
-
tem a denominaçã,o d,e média aritmética ponderado. Note-se sua semelhança com
(2), que pode ser considerada uma média aritmética ponderada, com os pesos f1, f2,
..., fx.
Exemplo: Se o exame final, em um curso, tem peso 3 e as provas correntes
peso 1, e um estudante tem grau 85 naquele exame e 70 e 90 nas proyas, seu grau
médio é:

v (1x70)+ (1x90)+ (3x8s) 4f tr.


1+ 1+ 3
=
) =

Propriedades da média aritmética


(o) A soma algébrica dos desvios de um conjunto de números, em relação à
média aritmética, é zero.
Cap. 3 Média, mediana, moda e outras medidas da tendência central

Exemplo: Os desvios dos números 8, 3, 5, t2, 10, em relaçáo à sua média


aritmética 7,6, são: I - 7,6, 3 - 7,6, 5 - 7,6, 12 - 7,6, L0 - 7,6 ou 0,4 - 4,6 - 2,6,4,4,
2,4 com soma algébrica igual a: 0,4 - 4,6 - 2,6 + 4,4 + 2,4 = 0.
(á) A soma dos quadrados dos desvios de um conjunto de números X5, em
relação a qualquer número a, é urn mínimo se e somente se o = X (veja o
Problema 23, Capítulo 4).
(c) Se fi números têm média mt fz números têm média rmz, ..., fi1 números
têm média tLK, à média de todos os números é
...+ ͫmx
-x=' _+ fzmz+
' J\mtft+ f2+ ...+ fy
(4)

isto é, a média aritmética ponderada de todas as médias (veja o Problema 7).

@) Se Á é qualquer média aritmética admitida ou arbitrado (que pode ser


qualquer número), e se d; = Xj -Á são os desvios4, em relação aÁ, então
as equações (1) e (2) tornam-se, respectivamente.
N
L di
-X=A+'N i=t Ld
-o*; (s)

K
L Íidi
v=A. r==o*+. (6)
», fj
j=t
K
emqueN = I fi = 2f a.Note-seque(5)e(6) sãoresumidasnas equações
j=1
X = A+ d (veja o Problema 11).

Cálculo da média aritmética para dados agrupados


Quando os dados são apresentados em uma distribuição de freqüência, todos os
valores incluídos num certo intervalo de classe são considerados coincidentes com
o ponto médio do intervalo. As fórmulas (2) e (6) serão váIidas para esses dados
agrupados quando se interpretar Xj com o ponto médio, fi como a freqüência de
70 Estatística Cap. 3

classe correspondente,A como qualquer ponto médio admitido ou arbitrado e d'-


= Xj -Á como o desvio de Xi, em relação a A.

Os métodos de cálculo que empregam as fórmulas (2) e (6) são, às vezes,


denominados processo longo e abreuiado, respectivamente (veja os Problemas 8 e
t2).
Se todos os intervalos de classe têm a mesma amplitude c, todos os desvios
dj = Xj - A podem ser expressos como c . uj,podendo u; ser números inteiros positivos
ou negativos, ou zero, isto é 0 l, 2, 3,..., ê â fórmula (6) torna-se:

X=A+ c= A*
( zrr\ (7)
['-ü-.,J ''
que é equivalente à equação X = A+ c . i(veja o Problema 13). Chama-se a isto
processo abreuiado para o cá1culo da média. E um método muito rápido e deveria
ser usado sempre para dados agrupados, quando as amplitudes dos intervalos de
classe forem iguais (veja o Problema 14). Note-se que, no processo abreviado, os
valores da variávelXsão trarusformados nos valores da variável z, segundo a relaçào
X=A+c.u.

A mediana
A mediana de um conjunto de números, organizados em ordem de grandeza (isto é,
em um rol), é o valor central ou a média aritmética dos dois valores centrais.

Exemplo 1. O conjunto dos números 3,4,5,6, 8, 8, 8, 10 tem mediana 6.

Exemplo 2. O conjunto dos números 5, 5,7,9,77, 12,15, 18 tem mediana

|o* 11) = 10.

Para os dados agrupados, a mediana, obtida por interpolaçào, é dada pela


fórmula:

*
IT-,'r,'l
Mediana = Lt (8)
F;,"" f
Cap. 3 Média, mediana, moda e outras medidas da tendência central 71

em que:
L1 = limite inferior da classe mediana (isto é, da classe que
contém a mediana);

N = número de itens dos dados (isto é, freqüência total);


(I f )r = soma de todas as freqüências das classes inferiores à
mediana;

/mediana = freqüência da classe mediana;


c = amplitude do intervalo da classe mediana.
Geometricamente, a mediana é o valor de X (abscissa) correspondente à
vertical que divide o histograma em duas partes de áreas iguais. Esse valor de X é,
às vezes, representado porÍ.

A moda
A moda de um conjunto de números é o valor que ocorre com a maior freqüência, ou
seja, é o valor mais comum. A moda pode não existir e, mesmo que exista, pode não
ser única.
Exemplo 1. O conjunto 2,2, 5, 7 , 9,9, 9, 10, 10, 11, 12, 78 tem moda 9.
Exemplo 2. O conjunto 3, 5, 8, 70, L2, 75, 16 não tem moda'

Exemplo 3. O conjunto 2, 3, 4, 4, 4, 5, 5,'7, 7,7,9 tem duas modas, 4 e 7,


e é denominado bimodal.

Uma distribuição que tem apenas uma única moda é denominad a unimod.al.
No caso de dados agrupados para os quais foi construída uma curva de
freqüência que a eles se ajuste, a moda será o valor (ou valores) deXcorrespondente
ao ponto de ordenada máxima (ou pontos) da curva. Este valor é, algumas vezes,
^
representado porX.
Para uma distribuição de freqüência ou histograma a moda pode ser obtida
por meio da fórmula:
(L,\
Moda= L1+ I
=- lc (9)
IAr+42,
72 Estatística Cap. 3

em que:
L1 limite inferior da classe modal (isto é, a que contém a moda);
A1 excesso da freqüência modal sobre a da classe imediatamente inferior;

L2 excesso da freqüência modal sobre a da classe imediatamente


superior;

= amplitude do intervalo da classe modal.

Relação empírica entre a média, a mediana e a moda


Para as curvas de freqüência unimodal moderadamente inclinadas (assimétricas),
vigora a relação empírica
Média - Moda = 3 (Média - Mediana). (10)

Nas Figuras 3.1 e 3.2, aparecem as posições relativas da média, da mediana


e da moda para curvas de freqüência inclinadas para a direita e para a esquerda,
respectivamente. Para curvas simétricas, a moda e a mediana são todas coincidentes.

Figura 3.1
Cap. 3 Média, mediana, moda e outras medidas da tendência central 73

Figura 3.2

A média geométrica G
A média geométrica G de um conjunto de N números X1, X2, Xg, ..., XN é a raiz d,e
ordemN do produto desses números:
c = {x, x, x, -.xr. (11)

Exemplo: A média geométrica dos números 2,4 e 8 é:


r- Jr-
G - !(2X4X8) = "'164 = 4.

Na prática, G é calculado por meio de logaritmos (veja o Problema 24).Para


a média geométrica de dados agrupados, veja os Problemas 25 e 46.

A média harmônica H
A média harmônica I/ de um conjunto de N números X1, X2, X8,..., XN é a recíproca
da média aritmética dos recíprocos dos números:

u- I N
(t2)
"= I .. !=J u
N'i=l x,r x
74 Estatística Cap. 3

Na prática, é mais fácil lembrar que:

sI
7 'x -- I -) I 13)
H_ N -N.X
(

Exemplo: A média harmônica dos números 2, 4 e I é:

H= r-i1 =; 11
=3.-13
-+ * 248E
-

Para a média harmônica de dados agrupados, veja os Problemas 52 e 53.

Relação entre as médias aritméticas, geométrica e


harmônica
Amédia geométrica de um conjunto de números positivos Xl,X2, ...,XN é menor do
que ou igual à sua média aritmética, mas é maior do que ou igual à sua média
harmônica. Em símbolos:

H<G<X (14)

o sinal de igualdade vale somente quando todos os números xb x2, .. ., xN


são idênticos.

Exemplo: o conjunto 2,4 e8 tem média aritmética 4,67 , médía geométrica


4 e média harmônica 3,43.

A raiz média quadrática (RMQ)


Aratz média quadrática (RMq; ou média quadrd.tica, de um conjunto de números
Xt,X2, ...,XN é, algumas Yezes, representada por "tl X2 " é definida por:

RMQ = !x2
- =
( 1s)

Esse tipo de média é usado freqüentemente nas aplicações da física.


Cap. 3 Média, mediana, moda e outras medidas da tendência central 75

Exemplo: A RMQ do conjunto de números L,3,4,5, e 7 é:

={zo=4.4i.

Quartis, decis e percentis


Se um conjunto de dados é organizado em ordem de grandeza, o valor central (ou
média aritmética dos dois valores centrais) que divide o conjunto em duas partes
iguais é a mediana. Por extensão desse conceito, pode-se pensar nos valores que
dividem o conjunto em quatro partes iguais. Esses valores, representados por Q1,
Qz e Qs denominam-se primeiro, segundo e terceiro quartis, respectivamente, sendo
o valor Q2 igual à mediana.
Semelhantemente, os valores que dividem os dados em dez partes iguais
denominam-se decis e são representados por Dy,D2, ..., D9 enQuanto os valores que
dividem os dados em 100 partes iguais chamam-se percentis e são representados
por P1, P2, ..., Psg. O quinto decil e o qüinquagésimo percentil correspondem à
mediana. O 25' e o 75" percentis correspondem ao 1" e 3' quartis, respectivamente.
De maneira geral, os quartis, decis e percentis e outros valores obtidos
mediante subdivisões dos dados em partes iguais são denominados quantis. Para
deduzi-los dos dados agrupados, veja os Problemas 31 e 32.

PROBLEMAS RESOLVIDOS

Notação de somatório
N NN
1. Provar que I (aX; + bYi - cZ) = a 2 Xi+ b 2 Yj - c Z Zi,emquea,b ec
j=r .j=1 j=t j=L
são quaisquer constantes.
76 Estatística Cap. 3

Solução
N
L (aX1+ bY1- cZ) = (aX1+ bY1 - cZ)+ (aX2+ bY2 - cZ2) + ... +
j=r
+ (aXN + bY7'1 - c27,1) =

= (aXr + aX2 +...+ aX7,) + (bY1 + bY2 + ... + bYN) -


(cZ1 + cZ2 +...+ cZ7ç) =

= a(X1+Xz+... +X,,,.)+ b(Yy+Yz+... +I,,1)-


- c(Zt+22+...+Zy)=
NNN
= aZXl+bLYi-cL21
j=t j=1 j=1
ou, resumidamente, 2 (aX + bY - cZ) = qyç + bZY - cZZ.

2. Duasvariáveis,Xe Y, assumem os valores Xl=2,X2=-5,Xg=4,X4=- gs


Yt=-3,Y2= -8, YB- =L0,Y4 = 6, respectivamente. Calcular (a)il1(b)»Y;(c)
iltY; (d) ü2; (e) »Y2; (f ) (rx) (rD; G) 2){Y2; (h) »,6 + Y (X - Y.

Solução
4
Note-se que, em cada caso, foi omitido o índice 7 de X e Y e que X significa E .
j=t
4
Assim, IX, por exemplo, é abreviação de I X;.
j--t
(a) ZX = (2) +(-5) + (4) + (- 8) =2 - 5 + 4-8 - - 7

(b) »Y= (- 3) + (-8) + (10) + (6) =-3- I + 10 + 6 = 5


(c) »-XY = (2)(- 3) + (-5) (- 8) + (4) (10) + (-8) (6) = - 6 + 40 + 40 *48 =26
ü2 *
@) = (2)2 + (- 5)2 (4)2 +(- 8)2 = 4 + 25+ 16 + 64 109 =
k) »f = (-3)2 + (-8)2 + (10)2 + (6)2 =9 +64 + 100 + 36 = 209
Cap. 3 Média, mediana, moda e outras medidas da tendência central 77

(/) (rX) (II) = (- 7) (5) -- 35, usando (o) e (ó). Observa-se que (rX) (»I1
+»XY.
@) XYz e 3)2 + (- 5) (- 8)2 + (4) (10)2 + (- 8) (6)2 = -190
= Q)
(h) »(X +Y(X-Y =ZfX2 -fl =ZX2 -r,Yz = 109 -2Og =-100, usando
@) e @).

3. SexX, =-4e »X? = 10, calcular:(o) I (ry+ 3); (ó) »Xi(\-L);


j=t j=L i=t j=t
6
(c), (4 - »2.
j=r
Solução
6666
(a) » lZXt+ 3) = » 24+ I 3 = 2 » Xj+ (6)(3) = 2(-4)+ 18 = L0
j=t j=t j=L j=t
6666
(D » Xj({- 1) =» (Xzi-X) =2 X'j-Z X; = 10- (-4) = 14
j=t j=t j=t i=t
66
(c) x (4- 5)2 =, txiz- toxt+ 25) =
j=t j=t
66
= » X? - 10 , Xi+ 25(6) = 10-10(-4) + 25(6) = 2OO.
.i=t j=1
6
Se for desejado, pode-se omitir o índice J e usar X em vez de I , quando
essas abreviações forem compreensíveis. i =1

A média aritmética
4. la 000, Cr$ 19 500
Os salários mensais de quatro homens são: Cr$ 15 000,00, Cr$
e Cr$ 90 000. (o) Determinar a média aritmética de seus salários. (ó) Poder-
se-ia dizer que essa média é típica dos salários?
78 Estatística Cap. 3

Solução
(at X = -" """ -" """ -- -"" "" """ = ---;"' = 35 625
;
(admitindo-se que todos os algarismos são signiÍicativos nos salários rela-
cionados).
(á) A média Cr$ 35 625, certamente, não é típica dos salários, e apresentar
esse valor como salário médio, sem nenhum comentário ulterior, seria
cometer erro grosseiro.
Uma grande desvantagem da média é que ela é fortemente afetada pelos
valores extremos.

5. Entre 100 números, vinte são 4, quarenta são 5, trinta são 6 e os restantes são
7. Determinar a média aritmética dos números.

Solução
(10X7) _ 530 _
A-_Lfx _zfx _ (20(4\+ (40X5)+ (30)(6)+
7
Lt N roo -loo 5 ro

6. Os graus finais de um estudante, em Matemática, Física, Inglês e Higiene são,


respectivamente, 82, 86, 90 e 70. Se os pesos atribuídos a essas matérias são,
respectivamente, 3, 5, 3 e 1, determinar o grau médio.

Solução
Emprega-se a média aritmética ponderada, sendo o fator de ponderação a associar
a cada grau o peso atribuído a cada matéria. Então:

- LwX (3X82)+ (5X86)+ (3X90)+ (1X70)o<


=Ôr'
^- ».;= 3+5+3+l
7. Em uma companhia que tem 80 operários, 60 recebem Cr$ 60, e 20 Cr$ 40, por
hora.
(o) Determinar o salário médio por hora. (ó) O resultado seria o mesmo do item
(o), se 60 empregados tivessem salário flutuante com o médio de Cr$ 60,
por hora e 20, nas mesmas condições, recebessem, em média, Cr$ 40, por
hora? Demonstrar essa resposta. (c) Pode-se crer que a média do salário-
hora flutuante é típica?
Cap. 3 Média, mediana, ntoda e outras medídas da tendêncía certtral

Solução
\arx=N=T=-g0
(á) sim, o resultado é o mesmo. Para demonstrá-lo, admita-se Que ír números
tenham a média mt e fZ tenham a média rz2. Pode-se mostrar que a média
de todos os números é:

-" fP1+ f2m2


h+Íz
sejaMla soma dosfl números eM2a dos/2. Então, pela definição da média
aritmética,
M1 M2
' ^ e nl)=
mt= -
Jr ^
Íz

ot M1 = ftmt e Mz - f2m2. Comoa soma de todos os (ft + /z) números e \M1 + Mz),
a média aritmética de todos eles é:

-" M1+M2 fim1+f2m2


fr+.fz fi+íz
como se queria provar. O resultado é facilmente generalizado.
(c) Pode-se dizer que Cr$ 55 é um salário-hora "típico", no sentido de que a
maior parte dos empregados recebe cr$ 60, por hora, o que não está muito
afastado de cr$ 55, por hora. Deve-se recordar que, sempre que se re-
sumem dados numéricos em um valor único (como é o caso da média),
está-se sujeito a cometer algum erro. Certamente, entretanto, este resul-
tado náo está tão errado como o do Problema 8.
Realmente, para se estar bem seguro, deve-se fazer uma avaliação da
"extensão" ou da "variação" dos dados em relação à média (ou a outras médias).
Chama-se a isso dispersã.o dos dados. Várias dessas medidas aparecem no Capí-
tulo 4.

8. Usar a distribuição de freqüência das alturas da Tabela 2.1 para determinar


a média das alturas de 100 estudantes do sexo masculino da Universidade XYZ.

Solução
O trabalho está delineado na Tabela 3.1. Note-se que todos os estudantes que têm
alturas entre 151 e 158 cm, 159 e 166 cm etc., são considerados como medindo 154,5,
80 Estatística Cap. 3

162,5 crn etc., de altura. O problema reduz-se, então, em determinar a altura média
dos 100 estudantes, S dos quais têm 154,5 cm de altura, 18 têm 162,5 cm etc.

Tabela 3.1

Alturas (cm) Ponto médio (X) Freqüência (f ) Íx


151-158 154,5 5 172,5
t59-t66 162,5 18 2.925,0
t67 -t7 4 t]0,5 42 7 .161,0
11 5-182 178,5 27 4.819,5
I 83-190 186,5 8 r.492.0
N= X/= 100 ZfX=11 170,0

t7 l-70
=z!! =z{r
x"LfN100 = út.to
Os cálcuios necessários podem tornar-se enfadonhos, especialmente nos
casos de números grandes, quando houver muitas classes. Dispõe-se de técnicas
abreviadas para diminuir o trabalho nesses casos. Veja os Problemas 12 e L4, por
exemplo.

Propriedades da média aritmética


9. Provar que a soma dos desvios XbX2, ...,XN, em relação à sua média aritmética
X, O igual azero.

Solução

Sejam dt = Xt-X, dz = X2-X, .. dX = XN- XosdesviosdeXl, X2,...,X1,rem


relação à sua média X.
Cap. 3 Média, mediana, moda e outras medidas da tendência central 81

Então:

soma dos desvios - il5 = Z(4 - h = üj - =


^/õ
í:x, )
= üj- N I nr' | = ZX.i- ZXi = 0.
\" )
N
Nessas relações, adotou-se X em lugar de X . Poder.saia, se fosse deseja-
j=t
do, omitir o índiceT de Xi, porque os termos continuariam cofiipreensíueis.

10. Se 21= XL + Yt, ZZ = XZ * YZ, ..., ZN = XN + yN, provar queZ = X+ Y.

Solução
rL r\z s7
Pordefiniçào,X = = = 1,. Então:
ff.Y i;,2
- V, »(x+Y) LX+ZY ll
,=N==N=-N=N*n=X-lY. LY - -

N
Foram omitidos os índicesT de X,Y e Z, e I significa I .

j=t
11. (o) Se N números Xt, X2, ..., XN têm desvios, em relação a um número A, dados,
respectivamente, por dt = Xt - A, dz = X2 - A, ..., dN = XN - A, provar que
N
2 di
, - o-4 »''1
^=A* N =A+ N

(ó) No caso de Xr,X2,...,XKterem, respectivamente, freqüênciaf1,fz,...,fxedt


= XL- A, ..., dK= XK- A, mostrar que o resultado de (o) será substituído por

KK
» fidi
j=t
x=A+ /tl r f1=A+\f,r"naoíf,
1v =r/=ly'.
j=I
82 Estatística Cap. 3

1e método
Como dj = Xj - A e Xi = A + dj então:

x- ZX;
.:= LIA: ,!) _ ZA+ Zdi _ N Ar.di 4*2di
ivNNNN
= .

N
Adotou-se X em vez de I , para abreviar.
j=t

2e método
Tem-se d.=X-AouX= A+ d, omitindo os índices dede deX. Então, pelo Problema
10,

X =Ã+ã = o*'rÍ
porque a média de um certo número de constantes, todas iguais a A é A.
K
»fixi
i=\
hl X=trc
»íix.i »f
= N _ i@+
d) _ >.Aíi+ 2f idi
-
N - N
»f j
j=r
A»'íj+Lf id1
Nl .!a n- zÍjdj - o- zl'a
N - N --^- N -nr N

Note-se que, formalmente, esse resultado é obtido de (o) mediante a subs-


tituição dj por fj dj e arealizaçáo da soma de7 = L até K, em Yez de7 = 1 até N.
de
O resultado é equivalente aX = A+ ã, em que ã = êf d)/N.

Cálculos da média aritmética para dados agrupados


12. Usar o método do Problema 11(b) para determinar a média aritmética das
alturas dos 100 estudantes do sexo masculino da Universidade XYZ (ver
Problema 8).
Cap. 3 Média, mediana, moda e outras medidas da tendência central 83

Solução
A operação pode ser disposta como na Tabela 3.2. Toma-se para média

Tabela 3.2

Ponto médio X Desviod=X-A Freqüência (f ) Íd


t54,5 -16 5 80

t62,5 -8 18 144

t70,5 0 42 0

178,5 8 27 2t6
186,5 16 8 128
N= X/= 100 », fd = 120

arbitrada A o ponto médio 170,5, da classe de maior freqüência, embora possa ser
adotado qualquer outro. Note-se que os cáIculos são mais simples do que os do
Problema 8. Para diminuir ainda mais o trabalho, pode-se proceder como no
Problema 14, em que se lançou mão da propriedade dos desvios (coluna 2 da tabela)
serem todos múltiplos da amplitude do intervalo de classe.

x=t.# = 170,5 +
t20
100
= 170,5+ 1,2 = 171,7cm.

13. Seja d; = Xj - A o desvio, em relação a um dado ponto médio A, de qualquer


ponto médio X; de uma distribuição de freqüência. Demonstrar que, se todos
os intervalos de classe têm a mesma amplitude de c: (o) os desvios são todos
múltiplos de c, isto é, di = c - ui, q": ui = 0., a média aritmética
"* ; i ;(ó)
pode ser calculada por meio da fórmula ^r. i,| -'^',"
X = A+ lc.
[,^i )

Solução
(o) O resultado está ilustrado na tabela do Problema 12, na qual se pode
observar que os desvios da coluna 2 são todos múltiplos da ampiitude
do intervalo de classe c = 8 cm.
Para veriÍicar que o resultado é verdadeiro, de um modo geral, note-se que,
Xl,X2,X3 ... são pontos médios sucessivos, sua diferença comum é, nesse caso, igual
84 Estatística Cap.3

a c, de modo que X2 =Xt + c, Xg = Xt + 2c, e, em geral, Xj = Xt + U - 1) c. Portanto,


dois pontos médios quaisquer, X, e Xp, por exemplo, diferirão de
Xp-Xq = [Xr ( p-l) c] - [Xr + @ - 1) c ] = (p-q) c

que é múltiplo de c.
(ó) De acordo com (o), os desvios de todos os pontos médios, em relação a um
outro dado, são múitiplos de c, isto é, dj = c'uj'Então, conforme o Problema
1.1(ó), tem-se:

x = A*:í"r
Zfidi
-A
Zfilc ' u)
= A+ t. Z[;u;
-r' = u* (»f u\
la- l,
\/
14. Usar o resultado do Problema 13(ó) para determinar a altura média dos
estudantes do sexo masculino da universidade XYZ (ver Problema 12).

Solução
O cálculo pode ser disposto como na Tabela 3.3. O método é denominado processo
abreuiado e deve ser empregado sempre que for possível.

x = A*(fJu'1"
A
^_ = r tos+(''.),
_,/u.JT _ nt,lcm.
loo]. =
r/r./1,,.
[, ), I

Tabela 3.3

X u Í fu
.| 10
154,5 5

t62,5 -l 18 18

114,5 0 42 0

178,s 1 27 27

186,5 2 8 T6

1\/- r00 Lfu=15


Cap. 3 Média, mediana, moda e outras medidas da tendência central 85

A mediana
15. os graus de um estudante em seis exames foram: 84, 91, 72, 68, 87 e 78.
Determinar a mediana dos graus.

Solução
Dispostos em rol, os graus são: 68, 72,78,84,87,91. como há um número par de
graus, existem dois valores centrais, 78 e L4,cuja média aritmética, ,lA + 84) =
f,
= 81, é a mediana pedida.

16. se há: (o) 85 e (á) 150 números ordenados em ro1, como se determinaria a
mediana desses números?

Solução
(a) como há 85 itens, número ímpar, há somente um valor central, corn 42
números abaixo e 42 acíma dele. Então, a mediana é o 43e número do ro1.
(ó) como há 150 itens, número par, existem dois valores centrais, com 74
números abaixo e 74 números acima dele. Os dois valores centrais são o
Z5a e o 76e números do rol, e sua média aritmética será a mediana pedida.

17. A distribuição dos pesos de 40 estudantes de uma Universidade encontra-se


na Tabela 3.4. Determinar a mediana.

Solução

(a) 1e método, por meio de interpolação:

Admite-se que os pesos, na distribuiçáo de freqüência indicada na Tabe1a 3.4, se


distribuem continuamente. Nesse caso, a mediana é o peso para o qual a metade da
freqüência total (4012 = 20) fíca situada abaixo e a outra acima dele.
86 Estatística Cap. 3

Tabela 3.4

Peso (kg) Freqüência

59 *63 -)

63,5 - 67 ,5 5

68 -12 9

-
12,5 16,5 12

77 - 8r 5

81,5 - 85,5 4

86 -90 2

Total40

Ora, asomadas três primeiras freqüências de classe é 3 + 5 +9=77. Então,


para obter o 20q peso desejado, são necessários mais 3 dos 12 casos existentes na
quarta classe. Como o quarto intervalo de classe, 72,5 - 76,5 corresponde realmente
aos pesos de 72,25 a 76,75, a mediana situa-se a 3ll2 da distância entre 72,25 e
76,75 e é:

3
72,25 +
12
(16,1s - 12,2s) = 12,25 * $e,sl = 73,4 ks.

2e método, com emprego da Íórmula:


Como a soma das primeiras três e quatro freqüências de classe são, respectivamen-
te, 3 + 5 + 9 = 17 e 3+ 5 + 9 + 12 =29, é claroque amediana situa-se na 4eclasse
que é, portanto, a classe mediana. Então:

L1 = limite inferior da classe mediana = 72,25k9;


N = número de itens dos dados = 40;

Qflt = soma de todas as classes abaixo da classe


mediana=3+5+9=17;
fmediana = freqüência da classe mediana = 12;

c amplitude do intervalo da classe mediana = 4,5 e, dessa forma,


Cap. 3 Média, mediana, moda e outras medidas da tendência central 87

. N/2 - (»f)l -,= 734ks


Mediana- L,
I -f mediana ),=,,,,.e;l
18. Mostrar como a mediana dos pesos do problema precedente pode ser obtida de:
(o) um histograma e (ó) uma ogiva percentual.

Solução
(o) A Figura 3.3(o) apresenta o histograma correspondente aos pesos do
problema precedente. A mediana é a abscissa correspondente àlinha LM
que divide o histograma em duas áreas iguais. Como as áreas corres-
pondem às freqüências do histograma, LM é tal que as áreas totais à sua
direita e à sua esquerda são iguais à metade da freqüência total, ou 20.
Ora, as âreas AMLD e MBEL correspondem às freqüências 3 e 9. Então,
AM = 3ll2AB = 3ll2(4,5) = 1,725 e a mediana tem o valor 72,25 + 1,125 =
= 73,375 ou73,4 kg, com aproximação até décimos de quilo. O valor pode,
aproximadamente, ser lido também diretamente no gráfico.
(á) A Figura 3.3(à) representa o polígono de freqüência relativa acumulada,
ou ogiva percentual, correspondente aos pesos do problema precedente. A
mediana é a abscissa do ponto P dessa ogiva, cuja ordenada é 507o. Para
calcular este valor vê-se, nos triângulos semelhantes P@,R e.ESZ, que:

BQ=19 ,"
RS S7 X = ffiffi = 1' o" modo que Ro =
T = t,t25.
Então:
Mediana = 72,25 + RQ = 72,25 + 1,125 = 73,375 kg ou 73,4kg, aproximados
para décimos de quilo. Esse valor pode, aproximadamente, ser também lido direta-
mente no gráfico.

19. Determinar a mediana e a média dos salários dos 65 operários da Companhia


P&R (Problema 2 do Capítulo 2).

Solução
Neste caso, N = 65,N12 = 32,5. Portanto, a soma das duas e das três primeiras
freqüências de classe são, respectivamente, 8 + 10 = 18 e 8 + 10 + 16 = 34; a classe
mediana é a 34.
Estatística Cap. 3

15
L

(ú D E
i:flÉ;
c ::1. ::
:g
q 10 ':í: ;: t,

o)
LL
Ii§
: i::.::
i,:liâ
.1tata:
5 "o:
;f ;;
2t:.! a.,.
t#t !i!lr ,::l:,.:ll :1.
â.. ij l:i ; i;i t) t:) i
l;A
:*:::
;*; twi :::§,

61 65,5 70 74,5 79 83,5


Peso (quilos)

(o)

100
s
E
s) 80

E(§
=E
l 60
o


õ 40
É.

'o
c
<o)
:= 20
o
o)
LL

5t116 6É 61b 1zÚ 1o16 6rÉ 6o16 eoÉ


Peso (quilos)

(ó)

Figura 3.3
Cap. 3 Média, mediana, rnoda e outras medidas da tendência central 89

Usando a fórmula:
( Ntz-r r rr, ) 32.s- 18 'l
Mediana = "'Lti-' I ;t "' I c = CrS6Í
-- -)qq+ f x
./mediana l' 16 )
[ )
x Cr$ 1 000 = Cr$ 7 906.
o zfx Cr$5l85oo = Crsigii.
^=- N -= 65

A moda
20. Determinar a média, a mediana e a moda do conjunto dos números: (a) 3, 5,2,
6, 5, 9, 5, 2, 8,6; (á) 51,6, 48,7, 50,3, 49,5, e 48,9.

Solução
(o) Ordenados em rol, os números sáol. 2,2, 3, 5, 5, 5, 6,6, 8, 9.
Média= 1l].0 (2 + 2 + 3 + 5 + 5 + 5 + 6 + 6 + 8 + 9) = §,1
Mediana= média aritmética dos dois valores centrais = ll2 (5 + 5) = 5.
Moda= número que ocorre com maior freqüência = 5.
(ó) Ordenados em rol, os números sáo: 48,7, 48,9, 49,5,50,3 e 51,6.

Média= ll5 (48,7 + 48,9 + 49,5 + 50,3 + 51,6) = 49,8.


Mediana= número central = 49,5.
Moda= número que ocorre com mais freqüência; não existe nesse caso.

21. Instituir uma fórmula para determinar a moda dos dados apresentados em
uma distribuição de freqüência.

Solução
Suponha-se que a Figura 3.4 represente três retângulos do histograma de uma
distribuição de freqüência e que o retângulo central corresponde à classe modal.
Suponha-se, também, que os intervalos de classe tenham a mesma amplitude.
90 Estatística Cap. 3

X=Lt

Figura 3.4

A moda é definida como a abscissa Ê do porrto de intersecção P das linhas


tracejadas 8S e,R7.
Sejam X = Lt c X = U1 os limites inferior e superior da classe modal e
Â1 € Â2, respectivamente, os excessos da freqüência da classe modal sobre os das
classes à sua direita e à sua esquerda.

Nos triângulos semelhantes PQR e PSI tem-se


EP PF x -Lt
Ou-=
Eg=s? Â1

U_X^^ UI _ X
L2 a'2

Então:

^/\^^
Lz(X - L) = Lt@t - X) :. L2X-LzLr=LtUr - ÂrX .'. (Àr + Lz)x =
= LtUt+ L2L1

LyUl+ L2L1
X_
^r+&
Cap. 3 Média, mediana, moda e outras medídas da tendência central 91

Como Ut = Lt + c, em que c é a amplitude do intervalo de classe, aquela


expressão torna-se:

a- Â1 (L1+ t')+L2L1 (Â1+À2)L1+Â1 c ( A1 )


Â1+Â2 =
A;+Â2 = LtT

[O,+Lz)
Esse resultado tem a seguinte interpretação interessante. Se se constrói
uma parábola que passa pelos três pontos médios dos topos dos retângulos da figura,
sua abscissa máxima será a moda, como foi acima obtida.

22. Determinar o salário modal dos 65 empregados da Companhia P&R (ver


Problema 19), usando a fórmula instituída no Problema 21.

Solução
Nesse caso,Ll = Cr$ 6 999, Àr = 16 - 10 = 6, Lz- 16 - 14 = 2, c =Cr$ 1 000.

Então:
(t,)//\
ModaLl+l .:f l.=cr$6999*Í, o - lcrsl.000=Crs7750.
[^r+^2r- [6+2,J

Relação empírica entre média, moda e mediana


23. (a) Usar a fórmula empírica Média - Moda = 3 (Média - Mediana) para
determinar o salário modal dos 65 empregados da Companhia P&R.
(ó) Comparar o resultado com a moda obtida no Problema 22.

Solução
(a) No Problema 19 encontram-se: Média = Cr$ 7 977, Mediana = Cr$ 7 906.
Então:
Moda = Média - 3 (Média - Mediana) = Cr$ 7 977 - 3 (7 977 - Cr$ 7 906)=
= Cr$ 7 764.
(ó) No Problema 22, o salárío modal determinado foi Cr$ 7 750 portanto há,
neste caso, boa concordância com o resultado empírico.
92 Estatística Cap. 3

A média geométrica
24. Determinar: (o) a média geométrica; (b) a média aritmética dos números 3, 5,
6, 6, 7, 10, L2. Admita-se que os números sejam exatos.

Solução
(a) Médiageométrica =G= i,?SgSOA
Por meio de logaritmos decimais:
ll
log G = = = 0.8081 e
11oe4534600 7(5.6564
G = 6,43 ( arredondadopara centésimos)

Outro método
I
logG =
i(log3+ log5+ 1o96+ lo96+ 1og7+ logl0+ log12) =

1
= j(0,04771+ 0,6990 + 0,1782+ 0,1182 + 0,8451 + 1,0000 + t,0792)=

= 0,8081 .'. G = 6,43.

| ,U* 5+ 6+ 6+ 7 + 10+ L2) = f


(á) Médiaaritmética =X = .

Isso mostra que a média geométrica de um conjunto de números positivos


desiguais é menor do que a aritmética.

25. Os números X1, X2, ..., XK ocorrem com as freqüências f 1, f2, ..., fg, sendo f 1 +
+ fz + .-. + fx= N a freqüência total-

(o) Determinar a média geométrica G dos números. (á) Deduzir uma expressão
para log G. (c) Como poderia ser utilizado o resultado para determinar a
média geométrica dos dados agrupados de uma distribuição de freqüência?
Cap. 3 Média, mediana, moda e outras medidas da tendência central 93

Solução

X1X1 ... X1 X2X2 ... X2 xxxv...xx


(a)G=
\,/ \,/
fy vezes f2vezes fyYezes

em que N = Zf. Essa expressão é, às vezes, denominadamédia geométrica ponde-


rada.
I 1
(b) log G
N
toe6{,x{2...x{* =Nut togXl + f2logX2+ ...

...+ ÍxLogXs) = 5 t, 7ogxi =


* j=1
em que se admite que todos os números são positivos pois, de outro modo, os
logaritmos não seriam definidos.
Note-se que o logaritmo da média geométrica de um conjunto de números
positivos é a média aritmética dos logaritmos dos números.
(c) O resultado pode ser empregado para determinar a média geométrica de
dados agrupados, considerados X1, X2, ..., X7ç como os pontos médios e ft,
f2, ...,X6 como as freqüências de classes correspondentes.

26. A contagem cultura, aumentou de 1.000 para 4.000


de bactérias, em uma certa
em três dias. Qual foi a porcentagem média de acréscimo por dia?

Solução
Como o acréscimo de 1.000 para 4.000 é d,e 30OVo, poder-se-ia ser levado a concluir
que a percentagem média de acréscimo por dia é de 300Vol3 = t00%o.Isso, contudo,
importaria em ter aumentado a contagem, durante o primeiro dia, de 1.000 para
2.000; durante o segundo de 2.000 para 4.000; e, durante o terceiro, de 4.000 para
8.000, o que é contrário aos fatos.
Para determinar essa percentagem média de acréscimo, representa-se o
acréscimo por r. Então:
94 Estatística Cap. 3

Contagem total de bactérias depois do 1e dia

= 1.000 + 1.000r = 1.000(1 + r)


Contagem total de bactérias depois do 2q dia

= 1.000 (1 + r) + 1.000 (1 + r), = 1.000 (l + r)2


Acontagem total de bactérias depois do 3q dia = 1.000 (l + r)2 + 1.000 (7+ r)2
r = 1.000 (1 + r)3.
Esta última expressão deve ser igual a 4.000, de modo que 1.000 (1 + r)3 =
=4.000.'.(1+ r)3 - 4 ... 1+ r= li?... ,= {i? - 1

Mediante o emprego de logaritmos, determina-se VZ = 1,587, donde


r 0,587 = 58,77o.
De maneira geral, se se parte de uma quantidade P, que cresce a uma taxa
constante r por unidade de tempo, tem-se, após z unidades de tempo, um total:
A=P(1+r)n.
Essa é a denomina da fórmula de juros compostos (veja os Problemas 48 e 49).

A média harmônica
27. Determinar a média harmônica 11 dos números 3,5,6,6,7,10 e 12.

Solução
r r *'H t(t r r r r r r\
-r =7[J*5u6*6ni*
u=r,t ro* 11 )=
t( t+o+ 84+ 10+ 7o+ 60+ 42+ 35 ) 5ol
7[ 420 ) 2e40
) g4o
eH=--^-"=5.87
501

Muitas vezes é conveniente exprimir, primeiramente, as frações sob a


forma decimal.
Cap. 3 Média, mediana, moda e outras medidas da tendência central 95

Assim:
tl
; =; (0.3333+ 0,2000+ 0,1661+ 0,t661+ 0,1429+ 0,10000+ 0,833) =
t1(l .1929) e,
=Z = 5.81
r.lgZg
=

A comparação com o Problema 24 ilustra o fato da média harmônica de


vários números positivos, que não são todos iguais, ser menor do que a média
geométrica que, por sua vez, é menor do que a aritmética.

28. Um homem viaja de A para B à velocidade média de 30 km/h e volta de B para


A, pelo mesmo caminho, à velocidade média de 60 km/h. Determinar a velo-
cidade média para a viagem completa.

Solução
Suponha-se que a distância de A a B seja de 60 km (embora possa ser considerada
qualquer distância). Então:

Tempo para deslocar-se de A parau = = 2 horas


*m
Tempo de B para o= I hora
uft*=
e velocidade média para a viagem completa =

distância total 120 km


tempo total
=#=40km/h.
3h

A média acima é a harmônica entre 30 e 60, isto é, = 40 km/h.


# ,
Bo+60
Se as distâncias percorridas não forem iguais, deverá ser adotada a média
harmônica ponderada das velocidades e os pesos serào as respectivas distâncias
(veja o Problema 55).

Note-se que poder-se-ia bem ser tentado a tomar a média aritmética de 30


e 60 km/h, para obter 45krnlh, o que seria errado.
Estatística Cap. 3

A média quadrática, ou raiz da média quadrática


29. Determinar a média quadrática dos números 3, 5, 6,6,7,10 e 12.

Solução

z2+ s2+ a2+ 62-+ l2+ tú+ tz2


Média Quadrática= RMQ -\ -

= {sz = j,55.
30. Provar que a média quadrática de dois números positivos desiguais, a e b, é
maior do que sua média geométrica.

Solução

Deseja-se demonstrar q""


{ f, <o2 + u2) , { "U. Se isso é verdadeiro, elevando-

se, então, ambos os membros ao quadra ao, Lrtoz + b2) > ab, de modo que a2 + b2 >
2ab .'. o2 - 2ob + b2 > 0, ou (o - b)2 > 0. Mas, essa última desigualdade é verdadeira,
porque o quadrado de qualquer número real diferente de zero deve ser positivo.
A demonstraçâo consiste em estabelecer o inverso da proposição acima.
Para isso, partindo de (o - blz > O, que se sabe que é verdadeiro, pode-se provar que

a2 + b2 > 2ab,
f,fo' * b)z > ab
e, finalmente,
I o' * o\ > I au, como era
desejado. Observe-se que , ^'[ = somente quando a = b.
"t

Quartis, decis e percentis


31. Para os salários dos 65 empregados da companhia P&R (ver Problema 2 do
Capítulo 2), determinar: (o) os quartis Qt e Qz; (á) os decis D1, Dz e Dz; k) o
trigésimo-quinto percentil.
Cap. 3 Média, mediana, moda e outras medidas da tendência central 97

Solução
(o) O primeiro quartil Qt mediante a contagem de Nl4 = 6514 =
é o salário obtido
classe (mais baixa). Como a primeira
= 16,25 casos, a partir da primeira
classe contém 8 casos, devem-se tomar 8,25 (16,25 * 8) dos 10 casos da
segunda classe. Mediante o método de interpolação linear tem-se:

Or = cr$ 5.999 +ff t".s 1.000) = cr$ 6'825.

O segundo quartil Q2 é obtido mediante a contagem dos primeiros 2Nl4 =


= Nl2 = 6512 = 32,5 casos. Como as duas primeiras classes compreendem 18 casos,
deve-se tomar 32,5 - l8 = 14,5 dos 16 casos da terceira classe; então

Qz= cr$ 6.995 + ff tars 1'000) = Cr$ 7.906.

Note-se eue Qz é, realmente, a mediana.


(ó) O primeiro, o segundo, ..., ê o nono decis são obtidos mediante a contagem
dos N/10, 2NlL0, . . . , e 9N/10 casos, a partir da primeira classe (ou da mais
baixa). Assim:

Dr = cr$ 4.999 +f ,atS 1.000) = cr$ 5.812

Dz = Cr$ 5-999 + 1.000) = Cr$ 6.500


fr,atS
D: = cr$ 6.999 +f ,c.S 1.000) = Cr$ 7.094

(c) O 35'g percentil, representado porPes, é obtido mediante a contagem dos


primeiros 35N/100 = 35(65)/100 = 22,75 casos, a partir da primeira classe
(ou da mais baixa). Então, PBl = Cr$ 6.995 + 4,75116 (Cr$ t.000) =
- Cr$ 7.297.Isso signifrca que 35Vo dos empregados recebem Cr$ 7.297 ou
menos.

32. Mostrar como os resultados do problema anterior podem ser reduzidos de uma
ogiva percentual.

Solução
A ogiva percentual, correspondente aos dados do Problema 31, representada pela
Figura 3.5.
Estatística Cap. 3

100

ô\
:
.=

80
a)
tr
€60

l
E
f,
q40

'o
c
:g
ct
20
o
LL

rrsso a 9o§ ugs§ .o%o\ooo.rooo


"9o§
Salários (cruzeiros)

Figura 3.5

O primeiro quartil é a abscissa do ponto da ogiva, cuja ordenada é 257a.


Semelhantemente, o 2e e o 3q quartis são as abscissas dos pontos da ogiva, cujas
ordenadas são, respectivamente, 50 e7\Vo. Os decis e os percentis podem ser obtidos
de modo semelhante. Por exemplo, o 7e decil e o 35q percentil são abscissas dos
pontos da ogiva, correspondentes às ordenadas de 70 e SSTo,respectivamente.

PROB LEMAS SU PLEMENTARES

A média aritmética
33. Os tempos de reação de um indivíduo a determinados estímulos foram medidos
por um psicologista como sendo 0,53;0,46;0,50; 0,49; 0,52;0,53 0,44 e 0,55
segundos, respectivamente. Determinar o tempo médio de reação do indivíduo
a esses estímulos.
Resp.: 0,50 segundo.
Cap. 3 Média, mediana, moda e outras medidas da tendência central 99

34. Três professores de Economia atribuíram os graus médios de exame de 75,82


e84 a suas respectivas classes, que se compunham de 32,25 e 17 estudantes,
respectivamente. Determinar o grau médio para todas as classes.
Resp.: 78.

35. O salário médio anual pago a todos os empregados de uma companhia foi
Cr$ 500.000. Os salários médios anuais pagos aos empregados dos sexos mas-
culino e feminino da companhia foram Cr$ 520.000 e Cr$ 420.000, respectiva-
mente. Determinar as percentagens dos empregados de cada sexo, da companhia.

Resp.: 80Vo e 207o.

36. A Tabela 3.5 mostra a distribuição, em toneladas, das cargas máximas supor-
tadas por certos cabos fabricados por uma companhia. Determinar a média das
cargas máximas, usando: (a) o "método longo"; (ó) o método abreviado.
Resp.: 11,09 t.

Tabela 3.5

C arga mdxima (toneladas) Número de cabos

9,3 - 9,1 2

9,8 - 10,2 5

10,3 - t},l t2
10,8 - l1,2 t7
17,3 - tt,1 t4
11,8 - 12,2 6
12,3 - t2,1 3

12.8 - t3.2 I

A mediana
37. Determinar a média e a mediana dos conjuntos de números:
(a) 5, 4,8,7,2,9; (b) L8,3,20,6, 79,3,22,4,20,2, 18,8,79,7,20,0.
Resp.: (a) Média = 5,8, mediana = 6; (ó) Média = lg,9l, mediana = 19,85.
100 Estatística Cap. 3

38. Determinar o tempo mediano de reação do Problema 33.


Resp.: 51 segundos.
39. Determinar a mediana das cargas máximas dos cabos do Problema 36.
Resp.: 11,06 t.

A moda
40. Determinar a média, a mediana e a moda dos conjuntos de números:
(a) 7,4, 10,9,15,72,7,9,'7; (ô)8, 11,4,3,2,5, 10,6,4, l, 10,8, 12,6,5,7.
Resp.: (a) Média = 8,9, mediana = 9, moda = 7, (b) Média = 6,4, mediana = 6.
Como cada um dos números 4,5,6, 8 e 10 aparecem duas vezes, pode-se
considerar que eles são as cinco modas. Entretanto, é mais racional
concluir que, neste caso, a moda não existe.
41. Determinar o tempo modal de reação do Problema 33.

Resp.: 0,53 segundos.


42. Determinar a moda das cargas máximas dos cabos do Problema 36.
Resp.: 11,05 t.
43. Usar a fórmula empírica Média-Moda = 3 (Média - Mediana) para calcular a
moda da distribuição do Problema 36. Comparar o resultado com o obtido
através da Fórmula (9) deste capítulo, explicando qualquer concordância ou
discrepância.
44. Provar a proposição estabelecida no final do Problema 21.

A média geométrica
45. Determinar: (o) a média geométrica G (b) a média aritmética X dos números
2,4,8,16,32.
Resp.: h) G = 8; (ólX = 12,4.
46. Determinar a média geométrica da distribuição do Problema 36, verificando
se é menor ou igual à aritmética.

Resp.: 17,07 t.
Cap. 3 Média, mediana, moda e outras medidas da tendência central 101

47. Se o preço de uma mercadoria dobra em um período de 4 anos, qual é o


acréscimo médio percentual por ano?

Resp.: 18,9Vo.

48. Um capital de Cr$ 1.000 é investido à taxa anual de juros d.e 4Vo. QuaI será o
montante total depois de 6 anos, se não for retirado o capital inicial?
Resp.: Cr$ 1.265,32.
49. Se, no problema anterior, osjuros forem acumulados trimestralmente (isto é,
se há um aumento de 17o do capital cada três meses); qual será o montante
total depois de 6 anos?
Resp.: Cr$ 1.269,73.
50. Encontrar dois números, cuja média aritmética é 9,0 e geométtica é 7,2.
Resp.: 3,6 e 14,4.

A média harmônica
51. Determinar: (o) a média aritmética; (b) a média geométrical (c) a média
harmônica dos números 0,2, 4, 6.
Resp.: (o) 3; (b) 0; (c) Não existe.
52. Se X1, Xz, X2,... representam os pontos médios de uma distribuição de
freqüência, com as correspondentes freqüências de classe fi., fz, fs,..., respec-
tivamente, demonstrar que a média harmônica 11 da distribuição é dada por:
t t(fi Íz fz ) r-r
H-N Ir,'xz'x, )-N-x
emqueN=ft+fz+...=2f.
53. Utilizar o problema anterior para determinar a média harmônica da
distribuição do Problema 36. Comparar com o Problema 46.
Resp.: 11,04.
54. As cidades A, B e C são eqüidistantes umas das outras. Um motorista viaja de
AparaB a 30 km/h, deB para c a40 km/h e de c paraA a 50 km/h. Determinar
sua velocidade média para a viagem toda.
Resp.: 38,3 km/h.
102 Estatística Cap. 3

55. (o) Um avião percorre as distâncias db d2,d3 (em quilômetros), às velocidades


u\, u2, u3 km/h, respectivamente. Demonstrar que a velocidade média é
dada por V, da expressão:
d1+d2+fu fi d2
T
dt.
V r'; r'2 Y3

E uma média harmônica ponderada.


(b) Determinar V para dt = 2.500, dz = L.200,da = 500, ur = 500, u z = 400 e u g = )§,Q.

Resp.: (b) 420 km/h.


56. Provar que a média geométrica de dois números positivos, a e b é: (o) menor
do que ou igual à média aritmética; (ó) maior do que ou igual à média
harmônica dos números. Poder-se-á estender essa demonstração para mais de
dois números?

Raiz da média quadrática ou média quadrática


57 . Determinar a raiz da média quadrática ou média quadrática dos números: (o)
lL,23,35; (ó) 2,7; 3,8; 3,2 e 4,3.
Resp.: (a') 25; (b) 3,55.
58. Demonstrar que a raíz da média quadrática de dois números positivos, a, e b,
é: (o) maior do que ou igual à média aritmética; (ó) maior do que ou iguai à
média harmônica. Poder-se-á estender essa deúonstração para mais de dois
números?

59. Deduzir a fórmula que pode ser usada para determinar a raiz média quadrática
de dados agrupados e aplicá-Ia em uma das distribuições de freqüências
anteriormente consideradas.

Quartis, decis e percentis


60. A Tabela 3.6 apresenta uma distribuição de freqüência dos graus de um exame
final de álgebra. (o) Determinar os quartis da distribuição. (ó) Interpretar
claramente o signiÍicado de cada um.
Resp.: (o) Primeiro quartil = Q1 = 62, segundo quartil = Q2 = 74, terceiro
quartil=Qs=86'
Cap. 3 Média, mediana, moda e outras medidas da tendência central 103

(b) 25Vo obtêm grau62 ou menor (ou75Vo obtêm 62 ot maior), 50Vc obtên74
ou menor (ou 50Vo obtêm 74 ou maior), 757o obtêrr, 86 ou menor (oa 25%
obtêm 86 ou maior).

Tabela 3.6

Números de estudantes

90- r00 9

80- 89 32

70- 19 43

60- 69 2t
50- 59 l1
40- 49 J

30- 39 1

61. Com referência ao Problema 36, determinar Q1, Qz, Prc e Pzs. Interpretar
claramente o resultado de cada um.
Resp.: 8r = 10,55 t; Qz = 11,07 t; Pro = 10,15 t; Pzs = 10,55 t.
62. Todos os quartis e decis podem ser expressos como percentis? (ó) Todos os
quartis podem ser expressos como percentis? Interpretar.
63. Interpretar os resultados do Problema 60, graficamente, mediante o emprego
de (o) um histograma percentual; (á) um polígono de freqüência percentual; (c)
uma ogiva percentual.
64. Instituir uma fórmula, semelhante à Equação (8) deste capítulo, para calcular
qualquer percentil de uma distribuiçáo de freqüência.
h
MAKRON
Capítulo

O desvio padrão e
outras medidas de dispersão

Dispersão ou variação
O grau ao qual os dados numéricos tendem a dispersar-se em torno de um valor
médio chama-se uariaçõ,o ott dispersão dos dados. Dispõe-se de várias medidas de
dispersão ou de variação, sendo as mais comuns a amplitude total, o desvio médio,
a semi-interquartílica, a amplitude entre os centis 10-90 e o desvio padrão.

A amplitude total
A amplitude total de um conjunto de números é a diferença entre o maior e o menor
número do conjunto.
Exemplo: Aamplitude total do conjunto 2,3,3,5,5,5,8, 10, 12, é: 12 -2 = 10.
Algumas vezes, a amplitude total é indicada, simplesmente, pela citação do menor
e do maior número. No caso acima, por exemplo, a amplitude total poderia ser
indicada como 2 a 12 ou 2 -L2.
O desvio médio de um conjunto de 3NnúmerosXl,Xv ..., XN é definido por:

» tx,-xt »lx-xl
j=r
Desvio Médio = DM N N = lX -Íl (1)

104
Cap. 4 O desuio padrõ.o e outras medidas de dispersdo 105

emqueXé amédia aritmética dos números e I X; - X I éovalor absoluto do desvio


de X; em relação a Í. (O ualor absoluto d.e um número é ele próprio, sem o sinal que
lhe é associado, e é indicado por meio de duas linhas verticais que o enquadram.
Assim, l-4 l=4; l+31=3; l6l=6; l-0,84 l=0,84)
Exemplo: Determinar o desvio médio do conjunto de números 2,8, 6, B,ll:

MédiaAritmética=X=
2+3+6+8+ ll
=6,

DesvioMédio= DM =

l2-61+ l3-61+ l6-61+ l8-61+ lll-6t


5

l-41 + l-31 + l0l + l2l + l5l


5

4+3+0+2+5
= 2.8.

SeX1, X2,...,XKocorrerem com as freqüênciasfi, f2, ...,fiç, respectiyamen-


te, o desvio médio poderá ser indicado da seguinte forma:
K
», f jtx j - xt zf tx _ xt
j= t
Desvio Médio = DM = NN =lX-Xl (2)

N
emqueN = , fi = I/. Essa forma é vantajosa para os dados agrupados, em que
j --t
os xj representam os pontos médios e os f, são as freqüências de classe corres-
pondentes.

Ocasionalmente, o desvio médio é definido em termos dos desvios absolu-


tos, em relação à mediana ou a outra média, em vez da aritmética. Uma propTiedade
N
interessantedasomal I Xi - o I équeelaémínimaquandooéamediana,isto
j=1
é, o desvio médio em relação à mediana é um mínimo.

Note-se que seria mais apropriado usar a terminolo gia desuio médio abso-
luto, em vez de desvio médio.
106 Estatística Cap. 4

A amplitude semi-interquartílica ou desvio quartílico de um conjunto de


dados é definida por:

Amplitude semi-interquartílica= Q =
Qt-Qt (3)
2

em que @r @e são o primeiro e o terceiro quartis referentes aos dados (veja o


Problema 6)." A amplitude interquartílica Qs - Qt é empregada algumas vezes, mas
a amplitude semi-interquartílica é mais comum como medida de dispersão.
A amplitude entre os percentis 10-90 de um conjunto de dados é definida por:
Amplitude entre os percentis 10-90 = Pso - Prc, (4)

em que P1g e Pgg são o 10q e o 90q percentis referentes aos dados. A semi-amplitude
entre os percentis 10-90,
i, rrn, -Py,), pode também ser empregada mas não o é
comumente.
0 desvio padrão de um conjunto de N números X1, X2, ..., Xry é representado por
s e definido por:

=^F= (x-x)" (s)

em que r representa o desvio de cada um dos números Xi em relação à média X.


Assim, s é araiz média quadrática dos desvios, em relação à média ou, como
é muitas vezes denominada, o desuio da raiz média quadrdtica (veja a pág. 74).
SeX1,X2, ...,XK ocorrerem com as freqüências ft,f2, ...,ft4, respectivamen-
te, o desvio padrão pode ser deÍinido por:

»f 6 -h2 =\m {''-"' (6)


Cap.4 O desuio padrão e outras medidas de dispersdo 107

K
em que N _ s f . -
- zlJ If. Esta fórmula é vantajosa para os dados agrupados.

Às vezes, o desvio padrão correspondente aos dados de uma amostra é


deÍinido com (N - 1), em lugar de N nos denominadores das expressões (5) e (6),
porque o valor que disso resulta representa uma estimativa melhor do desvio padrào
da população da qual a amostra foi extraída . Para grandes valores de N (certamente
N > 30) não há, praticamente, diferença entre as duas definições. Também, quando
for necessária melhor estimativa, poder-se-á obtê-la sempre, multiplicando-se o
desvio padrão, calculad.o de acordo com a primeira definição, por - 9. Por
^/N4N
essa razão, podemos conservar a definição anteriormente apresentada.

A variância
A variância de um conjunto de dados é definida como o quadrado do desvio padrào
e é, deste modo, representada por s2, símbolo definido nas Equações (5) e (6).

Quando é necessário distinguir entre o desvio padrão de uma populaçáo e


o de uma amostra dela extraída, adota-se freqüentemente o símbolo s para o último
e o para o primeiro. Assim, ,2 ,2 representariam a uaridncia da amostra e a d.a
p opulaçã.o, respectivamente. "

Métodos abreviados para o cálculo do desvio padrão


As Equações (5) e (6) podem ser escritas, respectivamente, sob as formas equivalentes

»x2 í xX '\r (7)


Nll'rl\/

K (x \
zfix? l rr,*,1
- l,=, l= »x2
l/ (8)
[N )
108 Estatística Cap.4

X2 indica a média dos quadrados dos diferentes valores de X, ao passo que


em que
X 2 indica o quadrado da média dos diferentes valores de X (veja os Problemas 10
a 72).
Se d; = Xi - A é o desvio de cada valor de Xi, ern relação a uma constante
arbitrária A, os resultados (7) e (8) tornam-se, respectivamente,

IN \,
|t,,t, o,l
-[,J=
a
I t-L »d' (»d \
I
t-l (e)
N INI
\/

K
z f i di2 l\,,0,Í
-ll;=,
;- ».dz (».fa\'
N -[
1

|-
\i N l- , ,,l
= (10)

Veja os Problemas 13 e 15.

Quando os dados estão agrupados em uma distribuição de freqüência, cujos


intervalos de classe têm amesma amplitude c, têm-se: dj= ' uiouXi =A+ c'uje
a expressão (10) torna-se:
"

(11)

Esta fórmula proporciona um método bastante abreviado para o cálculo do


desvio padrão, que deveria ser empregado sempre para os dados agrupados, quando
as amplitudes dos intervalos de classe são iguais. E denominado método abreuiado
e é exatamente análogo ao utilizado para o cálculo da média aritmética dos dados
agrupados, no Capítulo 3 (veja os Problemas 14 a 16).
Cap. 4 O desuio padrd.o e outras medidas d,e dispersã.o 109

Propriedades do desvio padrão

1. O desvio padrão pode ser definido por: emqueoeuma

média próxima da aritmética. De todos esses desvios padrões, o mínimo é


aquele para o qual o = X, por causa da Propriedade (ó), da média aritmética,
vista no Capítulo 3. Essa propriedade proporciona uma razáo importante para
que o desvio padrão seja definido sob a forma anterior. Para a demonstração
dessa propriedade, veja o Problema 23.

2. Para as distribuições normais (veja o Capítulo 7) isso significa que:


(a) 68,277o dos casos estão incluídos entreX- s eX+ s (isto é, um desvio padrão
de cada lado da média).
(b) 95,45Vo dos casos estão incluídos entre X - Zs e X + 2s (isto é, dois desvios
padrões de cada lado da média).
(c) 99,7SLodos casos estão incluídos entreX- gs eX+ 3s (isto é, três desvios
padrões de cada lado da média).

Isso está indicado na Figura 4.1.


Para as distribuições moderadamente assimétricas, as percentagens acima
podem ser aproximadamente mantidas (veja o Problema 20).

*-s X+s X+ 3s

Figura 4.1
110 Estatística Cap. 4

3. Suponha-se que dois conjuntos constem de N1 e N2 números (ou duas distri-


buiçõ^.s com as freqüência totais N1 e N2), tenham variâncias representadas
por s12 e s22, respectivamente , e amesma médiaX. Então, auaridniia conjunta
oucombinado de ambos os conjuntos (ou ambas as distribuições de freqüência)
é dada por:

ly'rsr2*N2s22
,2= (t2)
N1+N2
Note-se que é a média aritmética ponderada das variâncias. Esse resultado
pode ser generalizado para 3 ou mais conjuntos.

Controle de Charlier
O controle de Charlier,para os cáIculos da média e do desvio padrão pelo método
abreviado (desvio em classes), utiliza-se das seguintes identidades:
Z f (u + l) = Z fu + »,f = 2 fu + N,

Zf (u + 1)2 =Lí (u2 + 2u + l) =Zfu2 + 2Zfu +Zf =Zfu2 + 2Zfu + ttt.

Veja o Problema 17.

Correção de Sheppard para a variância


O cálculo do desvio padrão conduz a um certo erro, devido ao agrupamento dos dados
em classes (erro de agrupamento). Para corrigir o erro de agrupamento, adota-se o
seguinte resultado:
Variância corrigida = variância dos dados agrupados - ( 13) em que c
"2112
é a amplitude do intervalo de classe. O termo corretivo, c2/t2, que subtraído, é
denominado correçã,o d.e Sheppard.. E usado para as distribuições d.e variáveis
contínuas, cujas "extremidades" tendem gradualmente para zero em ambas as
direções.

Os estatísticos divergem a respeito de quando e se as correções de Sheppard


devem ser aplicadas. Certamente, elas não deveriam ser aplicadas sem um exame
completo da situação. Isso não somente porque muitas vezes elas tendem a super-
corrigir, como também a substituir erros antigos por novos. Neste livro, a menos
que haja indicação em contrário, não serão usadas essas correções.
Cap. 4 O desuio padrdo e outras medidas d,e d,ispersdo 111

Relações empíricas entre as medidas de dispersão


Para as distribuições moderadamente assimétricas temos as fórmulas empíricas:
Desvio Médio = 4/5 (desvio padrão).

Amplitude semi-interquartílica = 2/3 (desvio padrão).


Essas expressões resultam de ter sido determinado, para as distribuições
normais, que o desvio médio e a amplitude semi-interquartílica são iguais, respec-
tivamente, a 0,7979 e 0,6745 vezes o desvio padrão.

Dispersão absoluta e relativa. Coeficiente de variação


A variação ou dispersão real, determinada a partir do desvio padrão, ou qualquer
outra medida de dispersão, é denominada dispersão absoluta. Entretanto, uma
variação ou dispersáo de 10 cm, na medida de uma distância de 1.000 m, é
inteiramente diferente, quanto ao efeito, da mesma variação de 10 cm em uma
distância de 20 m. A medida desse efeito é proporcionada pela dispersã.o relatiua,
definida por:

Dispersão Relativa - Disperlgg 4bsl{qq4 (14)

Se a dispersão absoluta é o desvio padrão s e a média é a aritmétícaX, a


dispersão relativa é denominada coefi.ciente de uariaçã.o ou de dispersã.o, dado por:

Coeficientede Variação= Y+ ( 15)


X

e geralmente expresso em percentagem. Outras possibilidades também ocorrem


(veja o Problema 25).

Note-se que o coeficiente de variação é independente das unidades adota-


das. Por estarazáo, é vantajoso para a comparação de distribuiçoes cujas unidades
podem ser diferentes. Uma desvantagem do coeficiente de variação é que ele deixa
de ser útil quando X está próximo de zero.

Variável reduzida, escores reduzidos

A variável H,
X_N ( 16)
s
112 Estatística Cap. 4

que mede o desvio em relação à média, em unidades de desvio padrão, é denominada


uariáuel reduzida e é uma quantidade abstrata (ou seja, independe das unidades
usadas).

Se os desvios em relaçáo à média forem dados em unidades de desvio


padrão, diz-se que estão expressos em unidad,es reduzidas ou escores reduzidos.
Essas grandezas são muito valiosas para a comparação das distribuições (veja o
Problema 26).

PROBLEMAS RESOLVIDOS

A amplitude total
1. Determinar a amplitude total de cada um dos conjuntos de números: (a) 12, 6,
7,3,15,10, 18,5; (ó) 9,3,8,8,9,8,9, 18.

Solução
Em ambos os casos, amplitude total = número maior - número menor = 18 - 3 = 15.
Entretanto, como se vê nos róis de (o) e de (ó),
@) 3, 5, 6,'l , 10, L2,15, 18; (á) 3, 8, 8, 8, 9, 9, 9, 18
há variaçáo ou dispersão muito maior em (o) do que em (á). De fato, (á) consiste,
,lrincipalmente, de oitos e noves.
Como a amplitude total não indica nenhuma diferença entre os conjuntos,
nãt I é uma boa medida de dispersão para este caso. Em geral, quando houver valores
sxli'emos, a amplitude total é uma medida medíocre para a dispersão.

Obtém-se um aperfeiçoamenüo, mediante a exclusão dos casos extremos 3


13. f,]ntão, para (a), a amplitude total é (15 - 5) = 10, enquanto para (ó) ela é
"(9 - 8)'= 1, o que indica claramente o fato de (o) apresentar maior dispersão do que
(ó). Entretanto, não é desse modo que a amplitude total é definida. O intervalo
semi-interquartíIico e a amplitude entre os centis 10-90 foram planejados para
melhorar a amplitude total, urediante a eliminação dos casos extremos.

Z. Determinar a amplitude total das alturas dos estudantes da Universidade


XYZ, apresentada na Tabela 2.1, do Capítulo 2.
Cap. 4 O desuio padrdo e outras medidas de dispersdo 113

Solução
Há duas maneiras para definir a amplitude total para os dados agrupados.

1e método
Amplitude total = ponto médio da classe mais elevada - ponto médio
da classe mais baixa = 186,5 ' 754,5 = 32 cm.

2e método
Amplitude total = limite superior verdadeiro da classe mais
elevada - limite inferior verdadeiro da classe mais
baixa = 190,5 - 150,5 = 40 cm.
O 1e método tende a eliminar, de certo modo, os casos extremos.

O desvio médio

3. Determinar o desvio médio dos conjuntos de números do Problema 1.

Solução

(a) Médiaaritmética =X= = T = r,u,

DesvioMédio = DM.N
- » I 4- xl

_ 112-9,51 + l6-9,51+ l7-9,51+ 115-9,51+ 110-9,51+ 118-9,51+ l5-9,51-


8

34 ,
_ 2,5+ 3,5+ 2,5+ 6,5+ 5,5+ 0,5+ 8,5+ 4,5--=*'zi, õÉ
8
114 Estatística Cap. 4

(ó) Médiaaritmética=;g= 9 + 3 + 8 + 8 +g 9 + 8 + 9 + 18 -12


- g -s
-u'

Desvio Médio = DM -z I x-.


N
x I

_ I 9-9 I + I 3-9 I + I 8-9 I + I B-91 + I 9-9 I + I 8-9 I + I 9-9 I + I 18-gl


8-
1+ 1+ 0+ 1+ 0+
= 0+ 6+
9
g = 2,2o.

O desvio médio indica que o conjunto (ó) apresenta dispersão menor do que (a).

4. Determinar o desvio médio das alturas dos 100 estudantes do sexo masculino
da Universidade XYZ (veja a Tabela 3.2 do Problema 12 do Capítulo 3).

Solução
Na solução do Problema 12, Capítulo 3, foi determinada:

Média aritmética =X = 171,70 cm.


A operação pode ser disposta como na Tabela 4.1.

Tabela 4.1

Alturas Ponto lX-Xl=lX-171,701 Freqüência f tx-xt


(cm) médio X Í
151-158 154,5 11,2 5 86,0
159-166 162,5 9,2 18 165,6

16'7 -17 4 170,5 1,2 42 50,4


t7 5-182 17 8,5 6,8 27 183,6

l 83-l 90 186,5 14,8 8 1 18,4'


N= !/= 100 »flX-Xl=604,0

Desvio Médio = DM =
»f lx - xl u91:o 6,04cm
N = 100 =
Cap. 4 O desuio padrõ.o e outras medidas de dispersã.o 115

É possível idealizar um método abreviado para calcular o desvio médio


(veja o Problema 32).

5. Determinar a percentagem das alturas dos estudantes do Problema 4, que


estão compreendidas no X + D.M.

Solução
X t ou = 171,70 + 6,04 éo intervalo de 165,66 cm até 177,74 crlr.
Este intervalo inclui todos os indivíduos da terceira classe + 1/8 (166,50 -
- 165,66) dos estudantes da segunda classe + ].l8 (L77,74 -174,5)limitedos da quarta
classe (visto que a amplitude do intervalo de classe = 8 cm; o superior
verdadeiro da 2ê classe = 166,50 e o limite inferior verdadeiro da 43 classe = L74,5).
O número de estudantes do intervalo X t DU 0:

+z*Yt38rr8)+ # Q7) = 42+ 1,89+ 10.94:54.83ou55.

qtte é 55Vo do total.

Amplitude semi-interquartílica ou desvio quartílico


6. Determinar a amplitude semi-interquartílica da distribuiçáo das alturas dos
estudantes da Universidade XYZ (veja a Tabela 4'1 do Problema 4)'

Solução
O primeiro e o terceiro quartis são:

Qr= 166,5 .'@#'= 166,5 + 0,38 = 166,88 cm'

Qz = l'7 4,5 . *+- = fi 4,5 + 2,96 = l'7'7 ,46 cm'


A amplitude semi-interquartílica ou desvio quartílico é:
rl
O =; (h - Q) = , (177.46 - 166'88) = 5.29cm.
116 Estatística Cap. 4

Note-se eue 507o dos casos estão compreendidos entre @1 Q3, isto é, 50
"
estudantes têm alturas compreendidas entre 166,88 cm e 177,46 cm.

Pode-se considerar = L72,17 cm como uma medida da tendência


í,rnr* Qs)

central, ou seja, como a altura média. Segue-se que 507o das alturas estão situados
no intervalo (172,17 + 5,29) cm.

O desvio padrão
7. Determinar o desvio padrão de cada um dos conjuntos de números do Problema 1.

Solução
(a) Média aritmética
»X 12+6+7+3 +15+10+18+5 76
__-q\
_
N 8 8 -'"'

(12-9.5)2+ (6-9,5)2+ (7-9,5)2+ (3-9,O2+ (15-9,5)2+ (10-9,$2+ (18-9,512+ (5-9,02

= {2s,75 = 4,87.
(á) Média aritmética X
9+3+8+8+9+8+9+18 =ff=0,
= =

(8-9)2 +

= ^fl5 = 8,87.
Cap. 4 O desuio padrãn e outras medidas de dispersã'o 117

Os resultados anteriores poderiam ser comparados com os do Problema 3.


Notar-se-ia que o desvio padrão indica que o conjunto (ó) apresenta dispersão menor
do que a do conjunto (o). Entretanto, o efeito é disfarçado pelo fato de os valores
extremos afetarem muito mais o desvio padrão do que o médio. Isso era esperado,
naturalmente, porque os desvios são elevados ao quadrado no cáIculo do desvio
padráo.

8. Determinar a variância dos conjuntos de números do Problema 1.

Solução
Variância = s2. Então, em vista do Problema 7, tem-se: (o) s2 = 23,75;16; t2 = 15.

9. Determinar o desvio padrão das alturas de 100 estudantes do sexo masculino


da Universidade XYZ (veja a Tabela 2.1, do Capítulo 2).

Solução
Nos Problemas 8, 12 ou 14, do Capítulo 3, determinou-se X = L71,70. O trabalho
pode ser disposto como na Tabela 4.2, abaixo.

Tabela 4.2

Altura Ponto X-X=X-171,70 6 -N)2 Freqüência.f (x - x)2

151-158 154,5 - 11,2 295,84 5 t.479,20


159-t66 t62,5 - 9,2 84,64 18 1.523,52

t67 -17 4 r70,5 1,2 t,44 42 60,48

t] 5-t82 178,5 6,8 46,24 27 r.248,48

1 83-l 90 186,5 14.8 219,O4 8 t.152.32

N= I/= 100 zf=(X-h,=


6.064

6,064
100
: ^i6os4 =
7,JBcm.
L18 Estatística Cap. 4

Cálculos do desvio padrão de dados agrupados

(ô) Usar a fórmula de (o) para determinar o desvio padrão do conjunto dos
números 12, 6, 7,3, 15, 10, 18, 5.

Solução
(o) Por definição:

26-n2
N

Então:

-z _
-NN
26 -h2 - »(x2 - 2xx + x\ - »x2 - zx »x + ttx2 _
N

1 ZX2
=zx'_.tvZX*vz_2x2
NNN -2X -+ x,-
-1 =
N -v2 =

v2 zx2_[,
=\-_x.=
-;2 ( zx f
N ,,l

»x'2 f tx i ^[ uz -uz
N [N )
--l-r=\z\--z\-
Note-se que, nos somatórios acima, foi adotada a forma abreviada, em que

X substitui Xi e Z substitui I .
'j=t

Outro método

s2 = (x - D'=Í2 - zxx+ X2 = X2 - zXX +X2=

= X"- 2XX+ Xo = Xo _x2.


Cap. 4 O desuio padrã.o e outras medidas de dispersdo 119

(r2)2+ (6)2+ (7)2+ (3)2+ (L5)2+ (lOD2+ (tB)2+


@xz=# (5)2

= 9]2
8
= rt4.
çA- _ zx 12+6+7+3+15+10+18+5 '76
=q§
N 8

Então:

, =Va - íz xz = tf 11a - gg25 = t[ z3J5 = +,87 .

' Este método pode ser comparado com o do ProblemaT(a).

11. Modificar a fórmula do Problema 10(o) para adaptá-la a freqüências corres-


pondentes a vários valores de X.

Solução
A modiÍicação adequada é:

,={r# [+.Í =
xt - xz

Ela pode ser estabelecida como no Problema 10(o), partindo-se de:

Então:

-2 LÍ(xN-n:
,-=-: - zf (x2 -zxx + P) : »Íx2 -2x »Íx+ x2 »í =
N

= r# -rx
»l# -zx2 + 7' = Uf -x2 =

,,2
(zÍx\
=
LÍxz
N IN -( ul f ou, = tN
\./ I

)
120 Estatística Cap. 4

Note-se que, em todos os somatórios foram adotadas as formas abreviadas


KK
nasquaisXe/substituemXj"fj,Lsubstitui I, e 2 fj = N.
i_ 1
L l_ 1
L
J_ J_

12. Usando a fórmula do Problema 11, determinar o desvio padrão dos dados do
Problema 9.

Solução
O trabalho pode ser disposto como na Tabela 4.3.

Tabela 4.3

Altura (cm) Ponto médio X x2 Freqüência f Íx2


51- 58 154,s 23.810,25 5 t19.351,25
59- 66 162,5 26.406,25 18 475.3t2,50
61- 74 110,5 29.0',70,25 42 1.220.950,50
15- 82 178,5 3t.862,25 27 860.280,7 s
83- 90 186.5 34.782.2s 8 218.258.0O
N= I/= 100 27x2 =
2.954.153.00

em que X = 4§ r\z = l7l,7O cm foi obtido no Problema 8, Capítulo 3.

Note-se que esse método, como o do Problemag, acarreta muitos cálculos


cansativos. No Problema 15, mostra-se como o método abreviado simplifica imen-
samente o cálculo.

13. Se d = X -A éo desvio de cada valor de X, em relação a uma constante arbitrária


Á, provar que:

§=
zÍd2-[,(»f a f
N ]
Cap. 4 O desuio padrã,o e outras rnedidas de dispersd.o 121

Solução
Visto que d. = X - A, X = A + d. eX = A + d, como no Problema 11, Capítulo 3, entào:
x-x=\A+d)-(A+ d)=d-ã.
de modo que

zfrP (zfd\2
s= N -[' ]
usando o resultado do Problema 11, com X e X substituídos por d e d, respectiva-
mente.

Outro método

s2 = çx -Vf = \,1 -d =ir-Ad + dz


.2

=ia-za2 +A2 =i2-Az =zf4:(zf!\


r/ [r" )
e obtém-se o resultado tomando a raiz quadrada positiva.

14. Mostrar que, se cada ponto médio X, em uma distribuição de freqüência que
tem amplitudes de intervalos de classe iguais a c, for expresso em função de
um valor u, de acordo com a relação X = A + c' tt.,em queÁ é um determinado
ponto médio, então o desvio padrão poderá ser escrito como:

Zfu' [2.Íu ,2 \
Nlnrl\/ -f

Solução
Essa expressão é deduzida imediatamente do problema precedente, porque d = X - A=
= c . u,. Então, como c é uma constante,
122 Estatística Cap.4

15. Determinar o desvio padrão das alturas dos estudantes da Universidade XYZ
usando, (o) a fórmula deduzida no Problema 13, (ó) o método abreviado do
Problema 14.

Solução
Nas Tabelas 4.4 e 4.5, escolhe-se arbitrariamente A igual ao ponto médio 170,5 cm.
Note-se que, na Tabela 4.4, todos os desvios d, = X -A são múltiplos do intervalo de
classe c = 8. Esse fator é eliminado na Tabela 4.5. Em conseqüência, os cálculos, na
Tabela 4.5, sáo grandemente simplificados. Eles poderiam ser comparados com os
dos Problemas 9 e 12. Por esta razáo, o método abreviado deve ser usado sempre
que for possível.

(a) Tabela 4.4

Ponto médio X d=X-A Freqüência f Íd Íd2

t54,5 16 5 80 1.280

162,5 8 l8 144 1.t52


170,5 0 42 0 0

178,5 8 21 216 1.128

186.5 16 8 128 2.048


N= I/= 100 Zfd=120 Zf d2 =6.208

{ 6r.08 - r44 = j.i8 cm.


Cap. 4 O desuio padrã.o e outras medidas de dispersdo 123

(b) Tabela 4.5

Ponto médio X
U=-
X_A Freqüência f .fu .fo2
c

t54,5 a 5 10 20

162,5 -l 18 18 l8
A + 170,5 0 42 0 0

178,5 I 27 27 21

186,5 2 8 16 32

N= X/= 100 Zfu=15 Zf u2 =91

,.2
-8 91 tt5 \
l-l
=s{0,9a75 =7,i8cm.
100 I\/roo I

16. A Tabela 4.6 apresenta os C.I. de 480 escolares de certa escola primária.
Determinar: (o) a média; (á) o desvio padrão, usando o método abreviado.

Tabela 4.6

Valor central X 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126

Freqüência f 4 9 t6 28 45 66 85 72 54 38 27 18 11 5 2

Solução

O coeÍiciente de inteligência a, = a#ãffi**{;, expresso em percentagem.

Por exemplo, uma criança de 8 anos que, de acordo com certo processo
educacional, tem mentalidade equivalente a uma de 10, teria C.I. = 10/8 = 1,25 =
= 7257o, ou simplesmente 125, ficando subentendida a percentagem.
Para determinar a média e o desvio padrão dos C.I., pode-se dispor o
trabalho como na Tabela 4.7.
Í24 Estatística Cap.4

Tabela 4.7

X u Í .fu Íu2

10 -6 4 24 t44
74 -5 9 45 225

18 -4 t6 64 256

82 --) 28 84 252

86 1 45 90 180

90 -1 66 66 66

A -, 94 0 85 0 0

98 I 12 '12 12
t02 2 54 108 216
106 -3 38 tt4 342

110 4 27 108 432


tt4 5 18 90 450

118 6 t1 66 396

t22 1 5 35 245

t26 8 2 l6 128
N=If=480 2fu=236 2f u2 = 3.404

@) x =A+c.u=A * + = e4 +- = e5,e7.
"
(á)s=c ="ffi= É33)

-,1
-a

Controle de Charlier
17. IJsar o controle de Charlier para auxiliar a verificação dos cálculos: (o) da
média; (ó) do desvio padrão, efetuados no Problema 16.
Cap. 4 O desuio padrã.o e outras medidas de dispersão 125

Para proporcionar o controle pedido, somam-se as colunas da Tabela 4.8,


abaixo, às da Tabel a 4.7 , com exceção da coluna 2, que é repetida por conveniência.

Solução
(a) » f (u + 1) - 776, da Tabela 4.8.
L fu + N = 236 + 480 ='716,da Tabela 4.7.

Isso proporciona o controle pedido para a média.

- 4.356, da Tabela 4.8.


(b) » f (u + l)2
Lf u2 + 2»f u + N = 3.404 + 2(236) + 480 = 4.356, da Tabela 4.7.

Isso proporciona o controle pedido para o desvio padrão.

Tabela 4.8

u+l Í f (u+1) .f (u + 1)2

-5 4 20 100

-4 9 36 144

-3 l6 48 t44
,| tt2
28 56

-1 45 45 45

0 66 0 0

1 85 85 85

2 72 144 288

J 54 t62 486

4 38 152 608

5 21 135 615

6 18 108 648

1 l1 17 539

8 5 40 320

9 2 18 162

N= I/= 480 Lf(u+ 1)=116 Lf(u+l)2=4.356


126 Estatística Cap. 4

Correção de Sheppard para a variância


18. Aplicar a correção de Sheppard para determinar o desvio padrão dos dados do
Problema 15.

Solução
s2 = 60,58; c =8.Variâ.nciacorrigid,a =s2 -"2172 = 60,58 -82ltz = 60,58 -5,33 = 55,25.
Desvio padrão corrigido = r/ *tia** .o.trgiau= { 5525 = I ,43 cm.

Relações empíricas entre as medidas de dispersão


19. Discutir a validade das fórmulas empíricas.
(a) Desvio médio = 4/5 (desvio padrão).
(ó) Amplitude semi-interquartílic a = 213 (desvio padrão), para as distribuições
das alturas dos estudantes da Universidade XYZ.

Solução

(o) Dos Problemas n


"
, #HÍü@** =ffi= 0,77.

(ó) Dos Problemas U


"
r, =
#= 0,68.

Em conseqüência, as fórmulas empíricas são vá1idas nestes casos.


Nota: Não se usou o desvio padrão com a correçào de Sheppard'para o
grupamento anterior, porque nenhuma correçáo correspondente foi feita para o
desvio médio e a amplitude semi-interquartíIica.

Propriedades do desvio padrão


20. Determinar a percentagem dos C.I. dos estudantes, do Problema 16 que estão
situados nas faixas, (a) X x s; (b) X t 2s; (c) X + 3s.
Cap. 4 O desuio padrão e outras medidas de dispersão 127

Solução
(a) X+ s = 95,97 + L0,47 é o intervalo dos C.L de 85,5 a 106,4.
O número de C.I. nesse intervalo (Xt s) e:

í ss - t'.t'),or)+66+ 85+12+54+( too.+- to+'l,rr,=rrn.


l+
,,.,/[4)
Percentagem dos CI no intervalo X + s =
:# = 70,6Vo.
(b) X * 2s = 95,97 + 2(10,47)é o intervalo dos CI de 75,0 a 116,9.
O número de CI nesse intervalo lX x 2s) é:
/'ta-z<n\
'"'" lrgl + 16+ 28+45 +66+ 85+12 +54+38+
[+)
''],,
+ 2t +, r * í !!!=e ,, = o, ,.
l.4)
Percentagem dos CI no intervalo 1X t 2s) = ffi= 94,07o.

(c) X* 3s = 95,97 + 3 (10,47)é o intervalo dos CI de 64,6 a 127,4.


O número de CI nesse intervalo
'l,r'
(Xt 3s) = 480 -(
rzs - tzt ',q
= 479,7 ot 480.
[4)
Percentagem dos CI no intervalo (X + S"l = ryag{ = 99,9Voou, praticamente,
l00Vo.

As porcentagens de (a), (b) e (c) concordam favoravelmente com âs esperadas


em uma distribuição normal,ou seja, 68,277o,95,457o e 99,737o, respectivamente.

Note-se que nào se usou a correção de Sheppard para o desvio padrão. Se


ela for usada, o resultado, neste caso, concord,ará, muito aproximadamente, com o
acima. Repare que o resultado pode, também, ser obtido mediante o emprego da
tabela do Problema 27.

21. Dados os conjuntos de números2,5, B, 11, 14 e2,8,14, determinar: (a) a média


de cada conjunto; (ó) a variância de cada conjunto; (c) a média dos conjuntos
combinados ou "reunidos"; (d) a variância dos conjuntos combinados ou reunidos.
128 Estatística Cap. 4

Solução
(a) Média do lqconjunto: = ll5(2 +5 + 8 + 11 + 14) = 8.
Média do 2e conjunto: = 113 (2 + 8 + 14) = 8.

(á) Variância do 1q conjunto:

=rru= ll5l(2-8)2+ (5 -8)2+ (8-8)2+ (11-8)2 + (14_ 8)21 = t8.


Variância do 2q conjunto:

szz = ll3 lQ - ü2 + (8 - 8)2 + (14 - 8)2 I = 2+.


(c) Média dos conjuntos combinados:
2+5+8+ ll + 14 + 2 + 8 + 14 _,
5+3
(d) Variância dos conjuntos combinados:

z 12 -8;2 + i5 - 8)2 + (8 - 8)2 + (11 - 8)2 + (14 - 8)2 + (2 - 8)2 + (8 - 8)2 + (14 - 8)2
= 20,25 .

b+5
Outro método, pelo emprego da fórmula:
Ntsl * Nzsz2
variância do conjunto combinado = ,2 = N1 +N2

_ rsl_l_Lqll13\ (24\ _ .)0 )\


5+J

22. Resolver o problema precedente, para os conjuntos de números 2, 5, 8, ll, 14


e I0,16,22

Solução
Agora, as médias dos dois conjuntos são 8 e 16, respectivamente, enquanto as
variâncias sáo iguais às dos conjuntos do problema anterior, a saber: s12 = 18 e
s22 = 24.

Média dos conjuntos combinados:


2+ 5+ 8+ ll+ 14+ l0+ 16+ 22
5+3
Cap. 4 O desuio padrã,o e outras medidas de dispersão 129

Variância dos conjuntos combinados:


(2-11)2+(5-11)2+(8-11)2+(11-11)2+(14-11)2+(10-11)2+(16-11)2+(22-11)2-eFôr
=Óo'zo'
5+B

- t'o Nr sr2 + N2s22


Note-se que a fórmula = -fi *fit' dá o valor 20,25, não é apli-

cável a este caso, porque as médias dos dois conjuntos nõ,o sáo iguais.

23. (o) Demonstrar que *2 * p* + q,emquep e g são constantes dadas, apresenta


1
um valor mínimo se e somente
seúu=-rp.
N

(á) Tendo em vista (o), demonstrar que.N


j=' , ou abreviadamente
.=

z tX - q)2
, , +^* valor *í-i*
tem o^ -,^r^- mínimo se e onmanio
somente ao a
se o = X.
N

Solução

(o) rem-se *2+ pw+ q =f*.l,


(')
f . s -:p2.
"\.4)
co-o (n -10'\ é

uma constante, a expressão atinge seu menor valor (ou seja, é um mínimo)

*o = 0, isto é, tt) = -+,


se e somente se zu *

ror ztx - a)2= »(x2- 2ax+ a2) =


,,,\
N N - »,x2- 2aLx N
Naz
-
o^ZXLX2
a'- Zu N + N
= .

Acomparação dessa úItima expressão con-(w2 + pw + q), conduz au) =


LX »X2
=e,p=-2 N,q= N-

Então, a expressão temvalormínimo quando o = -*,0 =? =X, segundo


o resultado do item (o).
130 Estatística Cap.4

Dispersão absoluta e relativa. CoeÍiciente de variação


24. Uma indústria de válvulas de televisão tem dois tipos de válvulas, A e B. As
válvulas têm durações médias de Xa = L.495 horas e X6 = 1.875 horas,
respectivamente, e os desvios padrões de s4 = 280 horas € sg = 310 horas. Qual
a válvula que tem maior: (o) dispersão absoluta; (ó) dispersão relativa?

Solução
(o) Dispersão absoluta de A = sa = 280 horas; de B = sB = 310 horas.
Então, a válvula B tem maior dispersão absoluta.
(á) Coeficiente de variação de A = 18,77o) de B=
= l6,5Vo. *= ffi= r- = #* =

Então, a válvula A tem a maior variação ou dispersão relativa.

25. (o) Definir uma medida de dispersão relativa que possa ser usada para um
conjunto de dados, cujos quartis sejam conhecidos. (ó) Exemplificar o
cálculo da medida definida em (o), usando os dados do Problema 6.

Solução

(o) Se Qre Qesão conhecidos para um conjunto de dados, entào


i('t* 8zl e
uma medida da tendência central ou média dos dados, enquanto n =i,rnr-
8r), a amplitude semi-interquartíIica, é uma medida da dispersão dos
dados.

Pode-se, então, definir, para medida da dispersão relativa, .

t/vQ- ,(Qt-ert et_et


' |
Qt+Qr
)et+et,
que pode ser denominado coeficiente quartílico de uariação ou de dispersã,o relatiua.
,,bt un=ffi=ffifi; ,*ÉLffi=##= o,o43, = 4,BVo.
Cap.4 O desuio padrdo e outras medidas de dispersão 131

Variável reduzida e escores reduzidos


26. Um estudante recebeu grau 84 em um exame final de Matemática, para o qual
o grau médio foi 76 e o desvio padrão 10. No exame Íinal de Física, para o qual
o grau médio foi 82 e o desvio padrão 16, ele recebeu o grau 90. Em que matéria
sua posição relativa foi mais elevada?

Solução

A variável reduzida , = pmede


s
o desvio de X em relaçáo a X, emtermos de
desvio padrão s.
84 - 76 90
Física. ,z =T -
82
Para Mater
nática, z ="'10 0.8. Para Física,
= 0,8. = 0,5.

Dessa forma, o estudante teve grau correspondente a 0,8 do desvio padrão


acima da média, em Matemátíca, mas apenas o correspondente a 0,5 do desvio
padrão acima da média, em Física. Assim, sua posição relativa foi mais alta em
Matemática.
,X-8''
Avariávelz = -t;- é freqüentemente usada em testes educacionais,
onde é conhecido como escore reduzido.

27. (o) Converter os C.I. do Probiema 16 em escores reduzidos. (ó) Construir um


gráfico da freqüência relativa em função do escore reduzido.

Solução
(o) O trabalho de conversão em escore reduzido pode ser disposto como na
Tabela 4.9. Nessa tabela adicionaram-se, para empregá-lo no item (á), os
pontos médios dos C.I. 66 e 130, que têm freqtiência nula. Também não se
usou a correção de Sheppard para o desvio padrão. Os escores corrigidos
neste caso são praticamente iguais aos aqui apresentados para a aproxi-
mação indicada.
(á) O gráfico de freqüência relativa em função do escore z (polígono de freqüên-
cia relativa) está indicado na Figura 4.2. O eixo horizontal está graduado
em unidades de desvio padrão s. Note-se que a distribuição é moderada-
mente assimétrica e ligeiramente desviada à direita.
132 Estatística Cap.4

Tabela 4.9 X= 96,0,s = 10,5

cr (x) X_ X V=-
X*X Freqüência f Freqüência
§ relativa
ÍlN (7o)

66 -30,0 -2,86 0 0,0


70 -26,0 -2,48 4 0,8
14 *22,0 -2,1o 9 1,9
18 -18,0 -1,7 t t6 3,3
82 -14,0 -1,33 28 5,8
86 -10,0 -0,95 45 9,4
90 - 6,0 -0,57 66 13,8
94 - 2,0 -0,19 85 t],1
98 2,0 0,19 12 15,0
t02 6,0 0,57 54 tt,2
106 10,0 0,9s 38
'7q
110 14,0 t,33 21 5,6
Lt4 18,0 1,71 18 3,8
118 22,0 2,10 ll
122 26,0 2,48 5 1,0
126 30,0 2,86 2 0,4
130 34.0 3,24 0 0,0
480 IOOVo

Freqüência Relativa (%)

Figura 4.2
Cap. 4 O desuio padrão e outras medidas de dispersã,o 133

PROB LEMAS SU PLEM ENTARES

A amplitude total
28. Determinar a amplitude total dos conjuntos de números: (o) 5, 3, B, 4,7,6, 72,
4,3; (b) 8,772, 6,453, 10,624, 8,628,9,434,6,351.
Resp.: (a) 9; (ó) 4,273.
29. A maior de 50 medidas é 8,34 kg. Se a amplitude total é 0,46 kg, determinar a
medida menor.
Resp.: 7,88 kg.

O desvio médio

30. Determinar o desvio médio dos conjuntos de números: (o) 3,7 ,9,5; (b) 2,4, 1,6,
3,8,4,1,3,4.
Resp.'. (a) 2; (b) 0,85.
31. Determinar o desvio médio: (o) em relação à média; (ó) em relação à mediana,
do conjunto de números 8, 10, 9, L2,4,8,2. Verifrcar que o desvio médio em
relação à mediana não é maior do que em relação à média.
Resp.: (o) 3,0; (b) 2,8.
32. Deduzir fórmulas abreviadas para calcular o desvio médio: (o) em relação à
média; (ó) em relação à mediana, para uma distribuição de freqüência.

Amplitude semi-interquartílica ou desvio quartílico


33. Provar que, para qualquer distribuição de freqüência, a percentagem dos casos

i,rn, * t+,(@s - 8i ) e de SOVo.Essa


compreend.idos no intervalo qr) proposição

é verdadeira para o intervalo qrrltQs_ QtL? Explicar a resposta.


134 Estatística Cap. 4

34. (o) Como se interpretaria grafrcamente a amplitude semi-interquartílica, cor-


respondente a uma certa distribuição de freqüência? (ó) Qual é a relação entre
a amplitude semi-interquartÍlica e a ogiva da distribuição?

Amplitude entre percentis


35. Que vantagens ou desvantagens apresentaria uma amplitude entre os percen-
tis 20-80, comparada com a determinada para os percentis 10-90?
36. Responder ao Problema 34 com referência à: (a) amplitude entre os percentis
10-90; (ó) amplitude entre os percentis 20-80; (c) amplitude entre os percentis
25-75. Qual é a relação entre a resposta ao item (c) e a amplitude semi-inter-
quartílica?

O desvio padrão
37 . (o) Somando-se 5 a cada um dos números do conjunto 3, 6, 2, l, 7 , 5, obtém-se
o conjunto 8,11,7 ,6,12, 10. Mostrar que os dois conjuntos têm o mesmo desvio
padrão, nas médias diferentes. QuaI é a relação entre as médias? (b) Multipli-
cando-se cada um dos números 3, 6, 2, l, 7, 5 por 2 e depois somando-se-lhes
5, obtém-se o conjunto ll, 17,9,7,19, 15. Qual é a relação entre os desvios
padrões e as médias de ambos os conjuntos? (c) Quais as propriedades da média
e do desvio padrão que são exemplificadas pelos conjuntos particulares de
números dos itens (o) e (á)?
38. Para o Problema 36 do Capítulo 3: (o) determinar o desvio padrão; (á) deter-
minar o emprego do controle de Charlier; (c) aplicar a correção de Sheppard,
discutindo se sua aplicação é ou não justificável.
Resp.: (o) 0,733 t; (c) 0,719.
39. De um total de N números , a fraçáop é constituída de números 1, enquanto a
fração e = | - q é de zeros. Provar que o desvio padrão desse conjunto de
números é ^6q.
40. Provar que a variância de um conjunto de nnúmeros o., a + d + 2d, ..., a +
+ (n - 1) d (isto é, uma progressão aritmética com primeiro termo a e razão d)
é dada por lll2(rP -t142. [Sugestão: Fazer 7 +2 + 3 +... + n-1r= Ll2n(n-L);
12 + 22 + 32 + ... + (n - l)2 = l/6 n (n - l) (2n - 7).1
Cap. 4 O desuio padrã,o e outras medidas de dispersdo 135

Relações empíricas entre as medidas de dispersão


41. Que relação empírica poder-se-ia esperar que existisse entre a amplitude
semi-interquartílica e o desvio médio, para uma distribuição em forma de sino
mo deradamente assim étrica?

Resp.: Amplitude semi-interquartílica = 5/6 (desvio médio).


42. Uma distribuição de freqüência aproximadamente normal tem a amplitude
semi-interquartílica igual a 10. Que valores se poderia esperar para: (o) o
desvio padrão; (ó) o desvio médio?

Resp.: @) 15; (b) 12.

Dispersão absoluta e relativa. CoeÍiciente de variação


43. Em um exame final de Estatística, ! grau médio de um grupo de 150 estudantes
foi 78 e o desvio padrão 8,0. Em Algebra, entretanto, o grau médio final do
grupo foi 73 e o desvio-padrão 7,6.8m que matéria foi maior: @) a dispersão
absoluta; (b) a dispersão relativa?
Resp.: (o) EstatÍstica; (á) Álgebra.
44. Descrever uma medida de dispersão relativa que utilize a amplitude semi-in-
terquartílica.

Variável reduzida e escore reduzido


45. Nos exames referidos no Problema 43, um estudante obteve os graus: 75 em
Estatística e 71 em Álgebra. Em qual dos exames foi mais elevada a sua posição
relativa?
Resp.: Álgebra.
46. Provar que a média e o desvio padrão de um conjunto de escores reduzidos são
iguais à zero e a 1, respectivamente. Exemplificar utilizando o conjunto de
números 6,2, B, 7, 5.
h
MAKRON
Capítulo

Momentos, assimetria e curtose

Momentos
SeX1, X2, ...,X1,. são os Nvalores assumidos pela variávelX, define-se a quantidade

t Y.r
,;-r Xt'+X2''+...+Xlv' i=1 »X'
_N (l)
N - N = -r

denominada momento de ordem i: O primeiro momento, com r = L, é a média


aritmética X.
O momento de ordem r centrado na média X é definido por:

L rX 1 - h'
*,=c! * =Y=q --xy \2)

Se r = 1, m1= 0 (veja o Problema 9, Capítulo 3). Se r = 2, trL2= s2 , avariância.


O momento de ordem r centrado numa origem qualquer Á é definido por:
N
» (x j- A)r
j=t - Al' _>.d'
*'r='_ N
_Z(X
- N - N _ á-A)t (3)

136
Cap. 5 Momentos, ossimetria e curlose 137

em que d' =X-A é o desvio de cada valor dexem relaçáo aA. seA = 0,(B) recai em
(1). Por essa razão, (1) é muitas vezes denominado momento de ordem r centrad,o na
origem.

Momentos para dados agrupados


Se X1, X2, ..., X7ç ocorrerem com as freqüêncías f1, f2, ..., ftç, respectivamente, os
momentos anteriores são dados por:
K

j=t i' zfx'


2 Íix
i r fiXr'+ ÍzXz'+ ... + -f«X'- «
(4)
=ar
N N N
K
»fi61-h'
j=r
illr = (s)
N
K
»fi(éi-A)'
j=t
ffir= (6)
N
K
emqueN= rfi = »f. As fórmulas são apropriadaspara calcularos momentos de
j=r
dados agrupados.

Relação entre os momentos


Existem as seguintes relações entre os momentos centrados na média, nlr, e os
referidos a uma origem arbitrária m'r.

| *r= m'z-n'?
1 ^, = m' j - 3m'tm'2+ 2m'i (1)

| *o = m'4 - 4m'tm'3+ 6m't2m'2-3m'Í

etc. (veja o Problema 5). Note-se que rn'1= X - A.


138 Estatística Cap. 5

Cálculo dos momentos para dados agrupados


O processo abreviado para o cálculo da média e do desvio padrão, exposto em
capítulos anteriores, pode também ser empregado para proporcionar um método
abreviado para o cáIculo dos momentos. Esse método baseia-se no fato de ser X -
= A + c ui btabreviadamente, X = A + c ' u), demodo
. que, da Equação (6) se deaíz

, ,Z.fu' -r_
ffir=c'-fr-=crut' (8)

que pode ser empregada para a determinação de mr, mediante a aplicação das
Equações (7).

Gontrole de Charlier e correções de Sheppard


O controle de Charlier, pâra o cálculo dos momentos pelo processo abreviado usa as
identidades:

l»yg+tl =zfu + N
) ,tr+ r12 = 2f u2 + 22f u- + N (e)
I ,/,r+ 113 = Zfu3 + 32fu2 + 32,fu + N
|,/,r+ 114 = Lfua + 42fu3 + 62fu2 + 42fu + N'
As correções de Sheppard para os momentos (por extensão das idéias
referentes à correção de sheppard para a variância), são as seguintes:

m2 coffigido = m2 i. ,' t

m4 = corÍigid,o= m4 - ; r' *, * h ro .

Os momentos /rt 1 e rr4 r,áo necessitam correção.

Momentos sob forma abstrata


Para evitar unidades particulares, podem ser definidos momentos abstratos centra-
dos na média.

y
sr (',1 m)' =-f!l:-
' =ry-L= (10)
",1
^r,
Cap. 5 Momentos, assimetria e curtose 139

em que
" ='[
*, eo desvio padrão. Como rnt = 0 a ff12="2, têm-sea0 = 0 ê o1 = L

Assimetria
Assimetria é o grau de desvio, ou afastamento da simetria, de uma distribuição. Se
a curva de freqüência (polígono de freqüência suavizado) de uma distribuição tem
uma "cauda" mais longa à direita da ordenada máxima do que à esquerda, diz-se
que a distribuição é assimétrica pdra a direita, ou que ela tem assimetria positiua.
Se é o inverso que ocorre, que ela é assimétrica para a esquerda. ou que tem
assimetria negatiua.
Para distribuições assimétricas, a média tende a situar-se do mesmo lado
da moda que a cauda mais longa (veja as Figuras 3.1 e 3.2, Capítulo B). Por isso,
uma medida da assimetria é proporcionada pela diferença entre a média e a moda.
Ela pode ser tomada abstratamente mediante sua divisão por uma medida de
dispersão, como desvio padrão, o que resulta na seguinte deÍinição:

média - moda Í - moda


Assimetria = (11)
desvio padrão §

Para evitar o emprego da moda, pode-se adotar a fórmula empírica média -


- moda = 3 (média - mediana) defrnir:
a--:_----_,- 3(média- mediana) _ 3(X - mediana)
(12)
desvio padrão .r

As duas medidas são denominadas, respectivamente, primeiro e segundo


coeficientes de assimetria de Pearson.

Outras medidas da assimetria, definidas em quartis e percentis, são as


seguintes:
Coeficiente quartílico de assimetria =
(Qz - Q) - (Qz - Qi _Qz - ZQz + Qr
( 13)
Qt-Qr Qz-Qr
Coeficiente de assimetria entre os percentis 10-90 =
(Pqo - Pso) (Pso - Pro) _Pso - ZPso + Prc
(14)
Pso -
Prc Pso - Prc

Uma medida importante da assimetria utiliza o terceiro momento centrado


na média, expressa sob forma não-dimensional, e é deÍinida por:
140 Estatística Cap.5

Coefrciente do momento de assimetria =


m3 m3 m3
-43 =-=j
.§- {;}=f,a ( 1s)

Outra medida de assimetria é, às vezes, deÍinida por ó1 = az2.Para uma


curva perfeitamente simétrica, como a normal, ag e b1são nulos.

Curtose
Curtose é o grau de achatamento de uma distribuiçáo, considerado usualmente em
relação a uma distribuição normal. A distribuição que tem um pico relativamente
alto, como a da curva da Figura 5.1(o), é denominada leptocúrtica, enquanto a da
curvâ da Figura 5.1(b), que tem o topo achatado, é denominada platicúrtica. A
distribuição normal, Figura 5.1(c), que não é muito pontiaguda nem muito achatada,
é denomina da me socúrtica.

(a) Leptocúrtica (b) Platicúrtica (c) Mesocúrtica

Figura 5.1

Uma medida de curtose, baseada no quarto momento centrado na média,


expressa sob forma não-dimensional, é definida por:
m4 m4
Coeficiente do momento de curtose = a4 = (16)
,r4 mz2

e é, freqüentemente, representada por b2.Para a distribuição normal, b2= a+- 3.


Por essa Íazáo, a curtose é definida freqüentemente por (bZ-B), que é positivo para
uma distribuiçáo leptocúrtica, negativo para uma platicúrtica e nulo para uma
normal.
Outra medida de curtose também empregada baseia-se nos quartis e
percentis e é definida por:
Cap.5 Momentos, assimetria e curtose 141

",OPso-Prc ( 17)

1
em que I =; (Qs - Qr) é a amplitude semi-interquartílica.

Ela é conhecida como coeficiente percentílico de curtose. Para a distribuição


normal, seu valor é 0,263.

Momentos, assimetria e curtose da população


Quando é necessário distinguir os momentos e as medidas de assimetria e curtose
de uma amostra dos correspondentes à população da qual a amostra é uma parcela,
costuma-se freqüentemente adotar símbolos latinos para a primeira e gregos para
a última. Assim, se os momentos da amostra forem representados por n1., e nL'r, os
símbolos gregos correspondentes serão !r. e p. e p'. (F é a letra grega mi). Os índices
são sempre representados por símbolos latinos.

Semelhantemente, se as medidas de assimetria e curtose da amostra forem


representadas por cLBe cL4, respectivamente, as correspondentes da população serão
representadas por o(a e cÍ,4 (s é a letra grega alfa).
Mencionou-se anteriormente que os desvios padrões de uma amostra e da
população são representados, respectivamente, por s e o.

PROBLEMAS RESOLVIDOS

Momentos
1. Determinar: (a) o primeiro;(ó) o segundo;(c) o terceiro;(d) o quarto momentos,
para o conjunto de números 2, 3,'l ,8, 10.

Solução

x= »,X 2+ 3+ 7+ 8+ 10 30
@) N =-=b
c

éo primeiro momento ou média aritmética.


142 Estatística Cap. 5

- s\22 22+32+72+82+ 102 *5"


226
(b) X, = ='ti = ffi = = 45,2

é o segundo momento.

(c)X, =r#'=#=-*=328
é o terceiro momento.

(d)Nn=+=#=*Y=8'818,8
é o quarto momento.

2. Determinar: (o) o primeiro; (ó) o segundo; (c) o terceiro; (d) o quarto momentos
centrados na média, para o conjunto de números do Problema 1.

Solução

h) *1 =1X-X\=Iê N -X) =
_ (2- 6)+ (3- 6)+ (7-G)+ (8- 6)+ (10- 6l = I = 0
55
m1é sempre nulo porque X -V = X - X = O (Problema g, Capítulo 3).

(btm2=6--ff=#=
= =T=n,r.
Note-se qu% m1 é a variância s2.

(c)ms=G-lq3=§fl=
_ (2- 6)3+ (3- 6)3+ (7- 6)3+ (8- 6)3+ (10- 6)8 =
= -18 ô^
5 5 = -ó'o'

-
Cap. 5 Momentos, assimetria e curtose 143

d.\ma=6-*=à-6-X)4-

_ (2- 6)a+ (3- 6)a+ (7- 6)a+ (8- 6)a+ (10- 6ta _ 610 = 1r,
55
3. Determinar: (o) o primeiro; (á) o segundo; (c) o terceiro; (d) o quarto momentos
centrados na origem 4,para o conjunto de números do Problema 1.

Solução

(a) m'L = (Í - 4l z(X-:


N
4)
=

_ (2- 4)+ (3- 4)+ (7 - 4)+ (8- 4)+ (70- 4\ =z'^


5-
(b) m'2 = tX - a7=26-4-
N
_ (2- 4)2+ (3- 4)2+ (7-_4)2+ (8- 4)2+ (tO- 4t2 = S = 18.2.
Õb

(cl m's = (x r (xr. 4)3


- t)5=
,r-N =

_ (2- 4)3+ (3- 4)3+ (7- 4)3+ (8- 4)3+ (10 - 4)B
=2?-B:59.6.
5 - 5 -uu'

(d) m'a = (Xr, 4)n


fx - nV =2 N =

_ (2- 4)a+ (3- 4)a+ (7 - 4)a+ (8- 4)a+ (Lo- 4)a _


= 1.650 _ a.
5 5 =330.
4. Usando os resultados dos Problemas 2 e 3, verificar as relações entre os
momentos:

(a) m2- nL'2- m'L2 ;

(b) m3 = m'B - 3m'1 m'2 + 2m'13 ;


(c) ma = 7n' 4 - 4m' 1 m'g + 6m'y2 m'2 - 3m'14 .
144 Estatística Cap. 5

Solução
Do Problema 3: m'1= 2, m'2= 13,2, m'3= 59,6, m'4= 330. Então:
(a) m2 = m'2 - m't2 = 13,2 - e)2 = 73,2 - 4 = 9,2.
(b) mz = rn'B - 3m'lm'2+ 2nL'13 =

= 59,6 - g(2)(73,2)+ 2(2)3 = 59,6- 79,2+ 16 = -3,6'


(c) ma = m'4- 4m'lm'g+ 6m'12 m'2- 3m'ç14 =

= 330 - 4(2)(59,6)+ 6(2)2(L3,2)- 3Q)4 = 122,

em concordância com o Problema 2.

5. Provar que:
(a) m2 - nl'z- m'12;

(b) m3 = rn'B- 3rn'tm'2+ 2m'13;

(c) ma - m'4- 4m'rm'3+ 6m'12 m'2 - 3m'4.

Solução
(a) Se d. = X-Á, então X = A + d.,X = A + íe X -X = d.-ã-
m2=1X-g2 = (d-d)2 = a2-zdaz+ã2 = d.2 -2d2+í2 = a2-Az =

=m'2-m'?'

b) m3 = (X - )03= (d,-ô3=(d3 - 3d2ã + sdã)2 - 431=

= í3 -Bdíz +JdB -d.3 =a3 -sdã2 +zd3 = n1a'-3*r'rnr'+2*'3

(c) m+ = (X - Da =d - d,)a =1d4 - +dB ã + 6d2d2 - 4dã3 + d.n )=

: -d4 _ +d-í3 + 6d2í2 _M4 + ãa =ía - +aíi + Aa2i2 - sãa =

= m'4- 4m'lm'g+ 6m'12m'2-Bm'14.


Cap. 5 Momentos, assimetria e curtose 145

Por extensão deste método, podem ser deduzidos resultados semelhantes


pata mS, nL6 etc.

Cálculo de momentos para dados agrupados


6. Determinar: (a) m't; ó) m'z ; (.c) m' 3; @) m'+ ; (e) mr ; ( f ) m2; @) ms; (h) ma.
( il X; (i) s; (À) k2; th XT, para a distribuição do Problema 16, Capítulo 4.

Tabela 5.1

X u f fu Íu2 Íu3 .f ua

10 -6 4 -24 144 - 864 5.184


14 -5 9 -45 225 -1.t25 5.625
18 -4 16 -64 256 -1.024 4.096
82 -J 28 -84 252 - 156 2.268
86 -2 45 -90 180 - 360 720
90 -1 66 -66 66 -66 66
A-+ 94 0 85 0 0 0 0
98 1 72 '72 12 12 12
102 2 54 108 2t6 432 864
106 J 38 tt4 342 1.026 3.078
110 4 27 108 432 1.128 6.912
tt4 5 18 90 450 2.250 1 1.250
118 6 11 66 396 2.376 14.256
122 1 5 35 245 1.7 t5 12.005
126 8 2 t6 128 1.024 8.t92
N= I/= 480 Zfu =236 2fu2=3.404 Zf u3 =6.428 Lf ua =
74.588

(at m't =
" + - (4) [ r*= ) = 1,s667.

[ }ff )=
(bt m,2 =
"r# = (4)z ,rr,nuur.

(c) m's = ,,
# = @)3(#)= rur,ouur.
146 Estatística Cap. 5

(d,) m'+ = c4 =r{=(4)a[ i#


)=ur.rro,ruat.
(e) mt = 0.
(f ) m2 - m'z - m'r2 = 113,4667- (1,96672 = 109,5988.

@) mg = nL'B- 3m'lm'2+ 2m'y3 =

= 857,0667- 3(1,9667)(L73,4667)+ 2(1,9667 )3 = 202,8158.


(h) ma = m'4- 4m'lm'g+ 6m'1m'2- 3m'y4 = 35.627,2853.

(i) N=6 +-ô-A+ m'y = A+ = 94+ 1,9667 = 95,97.


"+
(/) s=tf*2= 1095988=t0,47.
^/
(h) X2 =Ali dF=@-l 2Ad. +@=A2+2Aã, + d.2=
= A2 + 2Am'r* nL'2 = @q2 + 2@4)(l,gGGT)+ Ilg,46G7 = 9.819,2.068,
ou 9.319 com quatro algarismos significativos

(l) X = (Á + d)3 = (A3 + gA2d. + BAd,z + d3) =A3 + BA2ã, + BAã2 +ã3 =

= A3.+ 3A2m'1+ 3Am'2t th'B = 915.571,9597

ou 915.600 com quatro algarismos significativos.

Controle de Charlier
7. Exemplificar o emprego do controle de Charlier para os cálculos do Problema 6.

Solução
Para efetuar o controle pedido, somam-se as seguintes colunas às do Problema 6,
com exceção da coluna 2, qu.e é aqui repetida por conveniência.
Cap. 5 Momentos, assimetria e curtose 147

Tabela 5.2

u+l Í f(u+l) f(u+l)2 f(u+l)3 f(u+l)a


*5 4 20 100 500 2.500

-4 9 36 144 5'76 2.304


-3 16 48 t44 432 1.296
) 28 56 tt2 224 448

-1 45 45 45 45 45
0 66 0 0 0 0
I 85 85 85 85 0
2 72 144 288 516 1.t52
J 54 t62 486 1.458 4.37 4
4 38 t52 608 2.432 9.728
5 27 135 61s 3.37 5 16.87 5

6 18 108 648 3.888 23.328


1 11 539 3. t t -) 26.4t1
8 5 40 320 2.560 20.480
9 2 18 162 1.458 t3.122
N=Xf=480 Lf(u + l) = Zf(u+l)2= Lf(u+1)3= Zf(u+l)a=
7t6 4.356 t7.828 t22.148

Em cada um dos grupos seguintes, a primeira igualdade é tirada da Tabela


5.2 e a segunda da Tabela 5.1, do Problema 6. Aigualdade de resultados, em cada
grupo, proporciona o controle pedido.

lzft"+1)=716
I Zf " * N= 236+ 480 = 716.
| ,f f" + t)2 : 4.s56
\ rf "' + 2zf u+ N = 3.404+ 2\236)+ 480 = 4.356.

l»fo+1)3=fi.828
\ rf "'+ 32f u2+ 32f u+ N= 6.428+ 3(3.404)+ 3(236)+ 480 =17.828.
lzfw+174=122.148
lrf
I
+ 42f u3+ 62f u2+ 4Zfu+ N = 74.588+ 4(6.428)+ 6(3.404)+
"n + 4(236) + 480 722.148.
[ =
148 Estatística Cap. 5

Correções de Sheppard para os momentos


8. Aplicar as correções de Sheppard para determinar os momentos centrados na
média aos dados do Problema 6.

Solução

,,2 corrigido = m2 i]- =


,ol.rrs r -1:= 108.2655.

m4 corrigido = m4 L r'*, * h ,o =

1.7
= 35.621.2853_
, t+t2 tt0g.S988t* z+o(4\1
= 34.151.9616.

Assimetria
9. Determinar: (o) o primeiro e (ó) o segundo coeficiente de assimetria de Pearson
para a distribuição dos salários dos 65 empregados da Companhia P&R (veja
o Problema 2, Capítulo 2).

Solução
Média = Cr$ 7.976, mediana = Cr$ 7.906, moda =

= Cr$ 7.750, desvio padrão = s = Cr$ 1.560.

(o) Primeiro coeÍiciente de assimetria =


média - moda
S

_ Cr$ 7.916 - C]:$ 7.750


= O,t448ou 0,14.
cr$ 1.560

(á) segundo coeficiente de assimetria =


3 (média - mediana) -
S

_ 3 (Cr$ 7.979 - Çr$7.9061 = 0,1A46 ou 0,18.


- Cr$ 1.560
Cap. 5 Momentos, assimetria e curtose 149

Se for usado o desvio padrão corrigido, esses coeficientes tornam-se, res-


pectivamente:

,,, {ff;ff =
W = o,t474ou 0,15.

,, , L=--0.1370ou0,14.
tbi 3 (média - mediana) 3 (Cr$ 7 .976 - Cr$ 7.906 )
s corrigido - Cr$ 1.533
Como os coeficientes são positivos, a distribuição tem assimetria positiva,
isto é, à direita.

10. Determinar o coeficiente de momento de assimettíà, a3, para os dados do


Problema 6.

Solução
m3 m3 202.8158
-rrÇF-
a3= a =
et - - r__::__:::_ = 0.1769 ou 0. 18.

Se forem usadas as correções de Sheppard para o agrupamento (veja o


Problema 8), então:
m3 202,8158
a3 corrigido =
corrigido) 3 tl 108.2655 )r

Curtose
11. Determinar o coeficiente de momento de curtose, a4, para os dados do Problema 6.

Solução

y!
- s4=
*o^ 35'621'285]
= 2,9660 ou 2,9i.
m)'= ( 109.5988)'
ao

Se forem usadas as correções de Sheppard, então:

m4 corrigido 34'151
í74 corrisido - (rr2 corrigido;2
- '961§ = 2,g653 or 2,gl .
( 108.2655 )2
150 Estatística Cap. 5

Como para uma distribuição normal, a4 = 3, segue-se que a distribuição é


platicúrtico em relação à normal (isto é, menos pontiaguda do que ela).

PROBLEMAS SUPLEMENTARES

Momentos
12. Determinar o: (a) primeiro; (ó) segundo; (c) terceiro; (d) quarto momentos, do
conjunto de números 4,7,5,9, 8, 3, 6.
Resp.: (a) 6; (b) 40; (c) 288; (d) 2.188.
13. Determinar o: (o) primeiro; (ó) segundo; (c) terceiro; (d.) quarto momentos
centrados na média, para o conjunto de números do Problema 12.
Resp.: (o) 0; (ó) 4; (c) 0; (d) 25,86.
L4. Determinar o: (o) primeiro; (ó) segundoi (c) terceiro; @) quarto momentos
centrados no número 7,para o conjunto de números do Problema 12.
Resp.: (a) - 1; (b') 5; (c) - 9t; (d) 53.
15. Usando os resultados dos Problemas 13 e 14, verificar as relações entre os
momentos: (a) m2 = m'2 - m't?; (b) rna = m'B - 3m'1m'2 + 2m'y3; (L) ,rra = m'4 -
- 4m'1m'3 + 6m'1 2m'2-3^'14.
16. Provar que (c) m'2= m2 + h2; (b) m's = mB + 3hm2 + h3; (c) m'4 = ry4 + 4hmg +
+ 6h"m2 + h", em q:ue h = h'y
17. Se o primeiro momento centrado no número 2 é ígaal a 5, qual é a média?

Resp.: 7.

18. Se os 4 primeiros momentos centrados na origem de um conjunto de números


são iguais a -2, I0, -25 e 50, determinar os momentos correspondentes: (o)
centrados na média; (ó) centrados no número 5; (c) centrados em zero.
Resp.: (o) 0, 6, 19, 42; (b) -4, 22, -ll7 ,560; (c) 1,7 , 38, 74.
19. (o) Provar q:ue m 5 - m 5 - 5m' 1m' 4 + 1,0m' 12 m' g - 10m' 13 m' 2 + 4m,15 . (ó) Deduzir
uma fórmula semelhante para m6,.
Cap. 5 Momentos, assimetria e curtose 151

20. De um total de N números, a fração p é composta de números 1, enquanto a


fraçáo e = L -p o é de zeros. Determinat: (a) mú (b) m2; k) ms; (d) m* pata
esse conjunto de números.

Resp.: (a) mt= 0; (ó) m2 = pq; (c) pq(q - p); (d) pq (p2 - pq + q\'
21. Provar que os 4 primeiros momentos centrados na média da progressão arit-
mética a, a + d, a + 2d, ..., + (n - 1) d são:
a

ml = o, *z = lztnz - L I d2, ms= 0, m4 = rlnotnz - Ll Bn2 -7t d4.

Momentos para dados agrupados


22. Calcular os 4 primeiros momentos centrados na média para a distribuição da
Tabela 5.3.
Resp.: ml= O,mz = 5,773,m3 = -0,5920,m+= 87,3125'

Tabela 5.3

X .f
12 1

t4 4
t6 6
18 10
20 7
)) )
Total 30
28. ExempliÍicar o emprego do controle de Charlier para os cálculos do Problema 22.

24. Aplicar as correções de Sheppard aos momentos obtidos no Problema 22.


Resp.: m1(corrigido) = o,m2(corrigido) = 5,440, mg(coruígído) = -0'5920' m4
(corrigido) = 76,2332.

Assimetria
25. Determinar o coeficiente de momento de assimetria, aB, para a distribuição do
Problema 22. (a) sem; (á) com as correções de Sheppard.

Resp.: (a) - 0,2464; (ó) - 0,2464.


152 Estatística Cap. 5

26. Os segundos momentos centrados na média de duas distribuições são 9 e 16,


enquanto os terceiros momentos, referidos à mesma origem, são - 8,1 e 12,8,
respectivamente. Qual é a distribuição mais desviada para a esquerda?
Resp.: A primeira distribuição.
27. Determinar: (o) o primeiro e (á) o segundo coeÍicientes de assimetria de Pearson,
para a distribuição do Problema 36, Capítulo 3. Justificar as diferenças.
Resp.: (o) 0,040; (b) 0,074.

Curtose
28. Determinar o coeficiente de momento de curtose, a4, para a distribuição do
Problema 22: h') sem as correções de Sheppard; (ó) com elas.
Resp.: (a) 2,62; (b) 2,58.
29. Determinar o coeficiente de momento de curtose para a distribuição do Pro-
blema 36, Capítulo 3: (o) sem; (ó) com a correções de Sheppard.
Resp.: (a) 2,94; (b) 2,94.
30. Os quatro momentos centrados na média das duas distribuições do Problema
26 são 230 e 780, respectivamente. Qual é a distribuição que mais se aproxima
da normal, do ponto de vista: (o) da agudeza; (ó) da assimetria?

Resp.: (o) segunda; (ó) primeira.


31. Quais as distribuições do Problema 30 é: (o) leptocúrtica; (á) mesocúrtica; (c)
platicúrtica.
Resp.: (o) segunda; (ó) nenhuma; (c) primeira.
32. O desvio padrão de uma distribuição simétrica é 5. QuaI deveria ser o valor do
quarto momento centrado na média,para que a distribuição fosse: (o) leptocúr-
tica; (á) mesocúrtica; (c) platicírtíca?
Resp.: (o) maior do que 1.875; (ó) igual a1.875; (c)menor do que 1.875.
33. (o) Calcular o coeficiente percentílico de curtose K, para a distribuição do
Problema 36, Capítulo 3. (ó) Comparar o resultado com o valor teórico,0,263,
da distribuição normal e interpretá-lo. (c) Como se poderá conciliar esse
resultado com o Problema 29?
Resp.: (o) 0,313.
Capítulo

Teoria elementar da probabilidade

DeÍinição clássica de probabilidade


Suponha-se que um evento,E possa acontecer de fr. maneiras diferentes, em um total
de z modos possíveis, igualmente prováveis. Então, a probabilidade de ocorrência
do evento (denominada sucesso) é definida por:

p=Prtrrj=L'
n

A probabilidade de não-ocorrência do evento (denominado insucesso) é


definida por:

Q=prjnào6 =n ;h = I -h = | -p = | -Pr e

Assim, P + q= 1 ou Prinào E] = 1.

O evento "Íráo E" é representado, às vezes por E, E ou - E.


Exemplo: Admita-se que o evento.E seja a ocorrência dos números 3 ou 4,
em um único lance de um dado. Há seis maneiras segundo as quais o dado pode cair,
e que resultam nos números 1, 2, 3, 4, 5, ou 6. Se o dado é honesto (isto é, não é
uiciado), pode-se supor que as seis maneiras sejam igualmente prováveis. Como.E
pode ocorrer de duas destas meneiras, tem-se:

p=prlrl= ?=+

153
154 Estatística Cap.6

Aprobabilidade de não ser conseguido um 3 ou um 4 (isto é, de ocorrer um


1,2, 5 ou 6) é:
r-l t2
4=PrlEl=1- JJ

Note-se que a probabilidade de um evento é um número compreendido


entre 0 e 1. Se o evento não pode ocorrer, sua probabilidade é 0. Se ele deve ocorrer,
isto é, se sua ocorrência é certa, sua probabilidade é 1.
Sep é a probabilidade de que um evento ocorra, auantagent a favor de seu
acontecimento é de p : q (Ieia "p para q"); a vantagem contra seu acontecimento é
de q : p. Por conseguinte, a vantagem contra o aparecimento de um 3 ou um 4, em
umúnicolancedeumdadohonesto,édeq , p =? r!= Z: 1,isto é,2paral.

DeÍinição da probabilidade como Íreqüência relativa


A definição anterior de probabilidade apresenta a desvantagem da expressão igual-
mente prOvável" Ser vaga. De fato, como eSSa expressão parece ser sinônima de
"igualmente possível", a deÍinição é circular, porque se está definindo essencialmen-
te a probabilidade com seus próprios termos. Por essa razáo, tem sido advogada por
alguns autores uma definição estatística de probabilidade. De acordo com isso, a
probabilidade estimada ou probabilidade empírica de um evento é considerada
como a freqüência relatiua de sua ocorrência, quando o número de observações é
muito grande. A probabilidade propriamente dita é o limite da freqüência relativa,
quando o número de observações cresce indefinidamente.
Exemplo: Se em 1.000 lances de uma moeda resultam 529 caras, a
freqüência relativa das caras é de 52917.000 = 0,529. Se em outros 1.000 lances
resultam 493 caras, a freqüência relativa no total dos 2.000 lances é de (529 +
+ 493)12.000 = 0,511. De acordo com a deÍinição estatística, prosseguindo-se dessa
maneira, poder-se-á finalmente chegar cada vez mais próximo de um número que
será denominado probabilidade de ocorrer uma cara no único lance de uma moeda.
Conforme os resultados até agora apresentados, ele será de 0,5 com um algarismo
significativo. Para obter outros algarismos significativos, deveriam ser feitas outras
observações adicionais.
A definição estatística, embora útil na prática, apresenta dificuldades do
ponto de vista matemático, visto que um número limite real pode verdadeiramente
não existir. Por essa razáo, tem sido desenvolvida axiomaticamente uma teoria
moderna, na qual a probabilidade é um conceito indefinido, como o ponto e a linha
são indefinidos em geometria.
Cap. 6 Teoria elementar da probabilidade 155

Probabilidade condicional. Eventos independentes e


dependentes
Se ,81 e E2 sáo dois eventos, a probabilidade de E2 ocorrer, depois de ,81 ter
acontecido, é definida por Pr l, n, lE1 ] ou er { A2 dado -81 } e é denominada proba-
bilidade condicional de 82, depois de -E1ter ocorrido.
Se a ocorrência ou não de E1náo afetar a probabilidade da ocorrência de
Z2, entáoYr \O2 tEr l = er { E2 } e diz-se que .81 e E2sáo euentos ind.epend,entes; no
caso contrário, eles sáo euentos dependentes.

Se se representar por E1E2 a ocorrência de "ambos os eventos.El e 82", às


vezes denominada euento composto, entào:
Pri,E1E2| = rt{r, } vr\a2 ta1l. (l)
Em particular:
Pr l, E1 E2 |= r, I Pr \ e2 | .para eventos independentes.
er { (2)

Para três eventos, Et Ez e ,E3, tem-se:


Yr{ o1 n2E: } = p.lrr } vr\ z2 tzll rr ] a3 E1E2)1. (3)

isto é, a probabilidade de ocorrência de Ey E2 e E3 é igual à probabilidade de.E1,


vezes a de E2 depois de -81 ter ocorrido, vezes a de E3 depois de ambos os eventos
E1e E2 terem ocorrido. Em particular:
pr={E1E2E3} =e.]r',} yrln2} rrir3}, g)
para eventos independentes.
Em geral, se E1, 82, Es, ..., En sáo n eventos independentes que têm,
respectivamente, as probabilidades:
p t, p2, pS, ..., pn, então a probabilidade da ocorrência simultânea deEy tr,2,
EB, ..., En é ppzpy ...pn.
Exemplo 1. Sejam E1e E2 os eventos "cararra quinta jogada" e "cara na
sexta jogada" de uma moeda, respectivamente. Então, E1 e E2 sáo eventos inde-
pendentes, de modo que a probabilidade de ocorrer cara em ambas as jogadas,
quinta e sexta, é, admitindo-se que a moeda é "honesta".

pr= EtEz'=pr,Er pr= E2 =[j),.[])=i


156 Estatística Cap. 6

Exemplo 2. se a probabilidade de que A esteja vivo daqui a 20 anos é 0,7


e a de que B o esteja daqui a 20 anos é 0,5, então a probabilidade de que ambos
estejam vivos daquí a20 anos é de (0,7) (0,5) = 9,35.
Exemplo 3. Suponha-se que uma urna contém 3 bolas brancas e 2 bolas
pretas. Seja Er o evento "a primeira bola retirad a é preta" e E2 o evento "a segunda
LoIa retirad a é preta", náo sendo as bolas recolocadas depois de retiradas' Aqui, E1
e E2sáo eventos dependentes'
p. = { Er} = 2/2+ B -- 2/5 é a probabilidade da primeira bola retirada
serpreta,enquantopr = \Ez lEll = l/3+ I = l/4éaprobabilidadedasegunda
bola retirada ser preta, depois de retirada a primeira dessa cor. Então, a probabili-
dade de ambas as bolas retiradas serem pretas é:
211
P. = 1 ErEz\ = Pr{Er } vr\n2 lEr } = 5 4 10

Eventos mutuamente exclusivos


Dois ou mais eventos são ditos mutuamente exclusiuos se a ocorrência de um deles
exclui a dos outros. Então, se ,81 e E2 são eventos mutuamente exclusivos,
Pr E1 82, = O.
Se .81 +,82 representa a ocorrência de "Elou de E2 ou de ambos", entáo:

rr{11 * E2tr = rr jr'1}+ Prt,E2} - o.larert'. (s)

Em particular:
er{r'1+ Bzl= rr{r1}+er'lr2} (6)

para eventos mutuamente exclusivos.


como extensão desse conceito, se El, 82, ..., Ensão n eventos mutuamente
exclusivos, que têm as probabilidades de ocorrência pb p2, ..., Pn, respectivamente,
a probabilidade de ocorrência de E1 ou E2 ott ... E, é pt + P2 + "' + Pn'
Exemplo 1. se E1 é o evento "extração de um ás de um baralho" eE2 o d,a
"extraçáo de um rei", enião Pr{81 'J = 4/52 = l/13 e Pr{Ez| = 4/52= l/13'
Então, a probabilidade de se extrair ou um ás, ou um rei, em um lance único é:

t 112
rr{11 E2): = er{r'1}+ Pr{z'2}= 13 ' 13 - 13
Cap. 6 Teoria elementar da probabilidade 157

visto que ambos, ás e rei, não podem ser extraídos ao mesmo tempo e por isso são
eventos mutuamente exclusivos.
Exemplo 2. Se E1 é o evento "extração de um ás de um baralho" e E2 é o
da "extração de uma carta de espada", então E1 e E2náo são mutuamente exclusivos,
visto que pode ser extraído o ás de espadas. Assim, a probabilidade de extração de
um ás ou de uma carta de espadas, ou de ambos, é:

er{r'1+ Ez\, = priEr }+vr\n2}-pt{ ErEzl =


4131164
52 52 52 52 13

Distribuição de probabilidade discreta


Se uma variávelXpode assumir um conjunto discreto de valoresXbX2, ...,X7ç, com
as probabilidadespl, p2, ...,pK, respectivamente, sendopl + p2 + ... + pK = 1, diz-se
que está definida urr,a distribuiçao de probabilidade discreta de X. A função p(X)
que assume os valores Pt, P2, ..., PK, respectivamente, para X = Xb X2, ..., XK, é
denominada funçã.o de probabilidade ou de freqüência de X. Como X pode assumir
certos valores com dadas probabilidades, ele é freqüentemente denominadouarid,uel
aleatória discreta. A variável aleatória é também conhecida corno uariáuel casual
ou estocd.stica.
Exemplo: Suponha-se o lançamento de um par de dados honestos e que X
indique a soma dos pontos obtidos. Então, a distribuição de probabilidade é dada
pela seguinte tabela:

X 2 314 5 6 1 8 9 10 l1 t2
p(x) rl36 2136 3136 4136 5t36 6136 5136 4136 3136 2136 tl36

Por exemplo, a probabilidade de obter-se a soma 5 é de 4136 = 1/9. Entào,


pode-se esperar que em 900 lances dos dados, 100 lances dêem a soma 5.

Note-se que isso é análogo a uma distribuição de freqüências relativas, com


estas substituídas pelas possibilidades. Assim podemos imaginar as distribuiçoes
de probabilidade como uma forma teórica ou de limite ideal das distribuições de
freqüências relativas, quando o número de observações feitas tornar-se muito
grande. Por esta ràzão, pode-se imaginar que as distribuições de probabilidade
referem-se a populações, ao passo que as distribuições de freqüências relativas
referem-se a amostras delas extraídas.
158 Estatística Cap. 6

A distribuição de probabilidades pode ser representada graficamente,


mediante a locação de p(D em relação a X, da mesma forma que a distribuição de
freqüência relativa (veja o Problema 7).
Mediante a acumulação das probabilidades, obtêm-se distribuições de
probabilid,ades acumuladas, análogas às de freqüência relativa acumulada.
A função associada a essa distribuição é, às vezes, denominada funçã.o de
distribuiçã.o.

Distribuição de probabilidade contínua


As idéias anteriores podem ser estendidas ao caso, em que a variávelXpode assumir
um conjunto contínuo de valores. O polígono de freqüência relativa de uma amostra
torna-se, no caso teórico ou limite de uma população, uma curva contínua, como a
apresentada na Figura 6.1, cuja equação é Y = p(D.A área total limitada por essa
curva e pelo eixo dosXé igual al, e a área compreendida entre as verticais X = a
e X = b (sombreada na figura) dá a probabilidade de X cair entre o e ó, a qual pode
ser representada por Pr {o . X . b }.

p (x)

ab
Figura 6.1

p(X) é d.enominad a furuçã.o d.edensidade d.e probabilidade ou, abreviada-


mente, funçã.o de derusidade, e quando é dada uma função dessa rtatureza, diz-se
que foi deÍinida urna distribuiçã.o de probabilidade contínua para X. A variável X é
então denominada, freqüentemente, uariduel aleatória contínua.
Como no caso discreto, podem ser definidas distribuições de probabilidade
acumulada e funções de distribuição associada.
Cap. 6 Teoria elementar da probabilidad,e 159

Esperança matemática
Se p é a probabilidade de uma pessoa receber uma quantia S, a esperanÇa mate-
md.tica, ou simplesmente esperança, é definida por pS.
Exemplo: Se a probabilidade de um homem ganhar um prêmio de Cr$ 10
é de 115, sua esperança é de 1/5 (Cr$ 10) = Cr$ 2.

O conceito de esperança é facilmente estendido. Se X representa uma


variável aleatória discreta que pode assumir os valores Xt, X2, ..., XK, com as
probabilidades de pt, p2, ..., pK, respectivamente, sendo pt+ p2 + ... + pK= l, a
esperança matemá.tica de X, ou simplesmente sua esperança, representada por E()0,
é definida por:

k
E(X) =ptXt+ pzXz+ ...+ pxXx -§ P 1X.i = ZPX (1)
j-t
Se as probabiiidadesp; forem substituídas, nessa expressão, pelas freqüên-
ciasrelativasf i /N, emque N = 2f j, aesperançareduzir-se-áa(»f X) /N,q:ueéa
média aritmética X de uma amostra de tamanho ÀI, na qual X1, X2 ...,X6 aparecem
com essas freqüências relativas. Quando N tornar-se cada vez maior, a freqüência
relativa f 1 /N aproximar-se-á da probabilidade py. Por isso, é-se conduzido a inter-
pretar E(X) como a representação da média da população da qual a amostra foi
extraída. Se for representada por m arr,édia da amostra, a da população poderá ser
indicada pela letra grega correspondente, p (mi').
A esperança pode também ser definida para variáveis aleatórias contínuas,
mas essa definição requer o uso do cáIculo infinitesimal.

Relação entre média e variância da amostra e da população


Sefor selecionada, ao acaso, uma amostra de tamanho N de uma população (isto é,
admitindo-se que todas as amostras são igualmente prováveis), é possível, entào,
mostrar que o ualor m esperado pard a média da am.ostra é igual à média yt, d,a
população.

Não se pode concluir, entretanto, que o valor esperado para qualquer


quantidade calculada da amostra seja igual à correspondente da população. Por
exemplo, o valor esperado para a variância de uma amostra, como foi definida, não
é igual à da população e sim (N- 1)/Nvezes esta variância. Esta é arazáo pela
qual alguns estatísticos preferem deÍinir a variância da amostra como sendo a que
foi definida, multiplicada por N / (N - 1).
160 Estatística Cap. 6

Análise combinatória
Para a obtenção da probabilidade de eventos complexos, a enumeração de casos é
freqüentemente difícil, tediosa, ou ambas as coisas. Para facilitar o trabalho neces-
sário, apela-se para os conceitos básicos estudados na disciplina denominad,a anó-
lise combinatória.

Princípios Íundamentais
Se um evento pode acontecer de qualquer um de n1 modos e se, quand.o ele ocorrer,
um outro evento pode realizar-se de qualquer um de rL2 modos, então o número de
maneiras segundo as quais ambos os eventos podem ocorrer numa determinada
ordem serâ n1n2.
Exemplo: Se há 3 candidatos a governador e 5 a prefeito, os dois cargos
podem ser preenchidos de 3 x 5 = 15 modos.

Fatorial de n
O fatorial de n, representado por nt, é definido por:

nt =n(n-l')(n-2)...l. (8)

Então,5!=5x 4x 3x 2x 1= 120;4!8!=(4x Bx 2x I)x (Bx 2x


x l) = 144.
Convémdefinir0!=1.

Permutações
uma permutação de z objetos diferentes, tomados r de cada vez, é um arranjo d.e r
dos z objetos, Ievando-se em consideração a ordem de sua disposição.

O número de permutações de n objetos, tomados r de cada vez, é repre-


sentado por: nPr, P (n, r) ou Pr., e é dado por:

(e)
Cap. 6 Teoria elementar da probabilidade 161

Em particular, o número de permutações de n objetos, tomados n e n, é:

nPn=n(r - l) (n - 2) ... I = nt.


Exemplo: O número de permutações das letras a, b e c, tomadas duas de
cadavez, é 3P2 = 3 '2 = 6. São: ab, ba, ac, ca' bc, cb.
O número de permutações de rL objetos distribuídos em grupos, dos quais
n1 são iguais, n2 sáo iguais, ... é:
nl.
, onde n = n1* n21- ... (10)
nll. n2l. ...

Exemplo: O número de permutações das letras da palavra estatísticas é:

t2!
313!2l2lllll = 3.326.400,

visto que há 3s, 3t,2a,2i, 7c, le.

Combinações
Uma combinação de z objetos diferentes, tomados r de cada vez, é uma escolha de
r dos n objetos, não se levando em consideração a ordem de sua disposição. O número
de combinações de n .objetos, tomados r de cada vez, é representado por
,Cr, C (ru, r'),C n,r or) Í I l" dado por:
(', "
n\n_ l)...(n-r+ l) ,P,
nLr= =,-.qn_y1 l== rl (11)
,r.
Exemplo: o número de combinações das letras a, b e c, tomadas duas de
cada vez, é:

u
Dq o
^
3q- 2l =8.
são: aó, ac, bc. Note-se qtte ab é a mesma combinação que ba, mas não é a
mesma permutação.

Tem-se nCr= nCn-. Então, 2oct7 = zoCB=


"H*
= L'140'

O número de combinações de n objetos tomados, 7 ou2, ou z de cadavez,


é: rC1 + ,Q.+ ... + nÇ = 2n - l.
Estatística Cap. 6

Aproximação de Stirling para n!


Quando n é grande, a avaliação direta de rul é impraticável. Nesses casos, usa-se
uma fórmula aproximada, devida a Stirling, que é:

nn e-' (12)

emquee=2,77828 é base dos logaritmos naturais (veja o Problema 17).

Aplicação da teoria dos coniuntos à probabilidade


Na teoria moderna da probabilidade, imagina-se que todos os êxitos ou resultados
possíveis de uma experiência, de um jogo etc., são representados por pontos de um
espaço (que pode ser de uma, duas, três ou mais dimensões), denominado espaço
amostral S. Se S contiver somente um número Íinito de pontos, então, a cada ponto,
pode ser associado um número não-negativo, denominado probabilidade, de modo
que a soma de todos os números correspondentes a todos os pontos de S seja igual
a 1. Um evento é um conjunto ou coleção de pontos de S, como os designados E1 ou
E2na Figura 6.2, denominada diagrama de Euler ou de Venn.

Figura 6.2

O evento E1+ E2é o conjunto de pontos que estào tanto em 81, como em E2
ou em ambos, enquanto EtEZ é o conjunto de pontos comuns a E1 e 82. Entáo, a
probabilidade de um evento, tal como Ey é a soma de todas as probabilidades
associadas a todos os pontos contidos no conjunto {1. Semelhantemente, a probabi-
lidade de,E1 + F'2, representada por Pr \81+ E2|,é soma das probabilidades
^
associadas a todos os pontos contidos no conjunto E1+ 82. Se E1e E2náo têm pontos
comuns, isto é, se os eventos são mutuamente exclusivos, então Pt{tr,1+ E2} =
= Pr{ pr't + Pr{n2}.. Se eles têm pontos comuns, então:
+82\= rr{a'1}+rr\n2} -P'l ErEzj
Cap. 6 Teoria elementar da probabilidade 163

O conjunto E1+ 82, representado freqüentemente por,U1 v 82, é denomi-


1,àdo uniã,o dos dois conjuntos. O conjunto EtEZ, representado freqüentemente por
E1 À 82, é denominado intersecção dos dois conjuntos. Podem-se estender essas
definições a mais de dois conjuntos. Assim, emYez de E1 + E2+ E3 e de EvE2Es,
podem ser usadas as notações Eyv E2 v Eg e E1a E2 ô.83, respectivamente.

IJsa-se, às vezes, um símbolo especial Q para representar um conjunto sem


nenhum ponto, denominado conjunto uazio. A probabilidade associada a um evento
correspondente a esse conjunto é nula, isto é, Pr {Q} = 0' Se Ele E2 náo possuem
pontos comuns, pode-se escrever EtEZ= 0, o que significa que os eventos corres-
pondentes são mutuamente exclusivos e que Pr \EtEz 1 = 0 -

De acordo com essa representação moderna, uma variável aleatória é uma


função definida, em cada ponto do espaço amostral. Por exemplo: no Problema22,
a variável aleatória é a soma das coordenadas de cada ponto.

No caso em que S tem número inÍinito de pontos, as idéias expostas podem


ser estudadas, por meio de conceitos que envolvem o cálculo infinitesimal.

PROBLEMAS RESOLVIDOS

Regras Íundamentais de probabilidade


1. Determinar a probabilidade p, ou sua estimativa, para cada um dos seguintes
eventos:
(o) De aparecer um número ímpar em um único lance de um lado honesto.
De 6 casos igualmente possíveis, 3 (quando o dado apresentar 1, 3 ou 5) sào
favoráveis ao evento. Então, p = 316 = 712.
(b) De ocorrer pelo menos uma cara em dois lances de uma moeda honesta.
Se 11 representa "cara" e T "cot.oa", os dois lances podem conduzir-nos a
quatro casos: HH, HT, TH, TT, todos igualmente prováveis. Apenas os três primeiros
casos são favoráveis ao evento. Então, P = 314.
(c) De surgir um ás, um dez de ouros ou um dois de espadas na retirada de
uma carta única de um baralho, bem embaralhado, de 52 cartas.
164 Estatística Cap. 6

o evento pode ocorrer de 6 modos (ás de espadas, ás de copas, ás de paus,


ás de ouro, dez de ouro e dois de espada), em 52 casos igualmente possíveis. Então,
P=6152=3/26.
(d) De aparecer o total 7 em um único lançamento de dois dados.
Cada uma das 6 faces de um dado pode ser associada às 6 do outro, de modo
que o número total de casos que podem surgir, todos igualmente prováveis, é: 6 x 6
=
= 36. Eles podem ser representados por (1;1), (2;l) (g;1;,..., (6;6).
Há 6 modos de obter-se o total 7, representados por: (l;6), (2;5), (B;4), (B;4),
(5;2), (6;l) [veja o Problema 22(a)). Então, p = 6136 = Ll6.
(e) De aparecer uma coroa, no próximo lance de uma moeda, se, de um total
de 100 lances,56 foram caras.
Como foram obtidas (100 - 5G) = 44 coroas em 100 lances, a probabilid,ad.e
aualiada ou empírica de ocorrer uma coroa é igual à freqüência relàtiva 44l1OO
=
= 0,44.

2. uma experiência consiste em lançar uma moeda e um dado. se,E1 é o evento


correspondente ao aparecimento de uma "cara" no lançamento da moeda e -82
o de ocorrer "3" ou "6" Íro lance do dado, expor, em palavras, o significado de
cada uma das seguintes notações:

(a') E1 Coroa na moeda e nada no dado.

(b) E2 I,2,4 ou 5 no dado e nada na moeda.

k) E1E2 Cara na moeda e 3 ou 6 no dado.

@) Pr I n1E2| Probabilidade de cara na moeda e de 1, 2, 4 ou5 no dado.


(e) Pr]a1 IEzj Probabilidade d.e cara na moeda, depois de ter aparecido um
3 ou um 6 no dado.

(f ) pr \E1+ E2 | Probabilidade de coroa na moeda ou de 1, 2, 4 ou 5 no dado,


ou de ambos.

3. Uma bola é retirada ao acaso de uma urna que contém 6 bolas vermelhas, 4
brancas e 5 azuis. Determinar a probabilidade de ela: (a) ser vermelha; (á) ser
branca; (c) ser azul; (d) não ser vermelha; (e) ser vermelha ou branca.
Cap. 6 Teoria elementar da probabilidade 165

Solução
Admita-se que y, B e A representam os eventos da retirada de uma bola vermelha,
de uma branca e de uma azul, respectivamente. Então:

(o) de escolheruma bola vermelha


Prlv l= T9 osldemodosdeescolherumabola 6 6 2
- 6+ 4+ 5 - 15 - 5

(á)Pr,B 44
-. =
- = ti+4+5
^ 15

(c) PrlAl= 6;+. r= * = +'


(d) Pr{v } r - Prlv I = l - ?= }, t"r'ao em vista (o)

modos de escolheruma bola vermelhaou branca


(e) Pr{V + A} =
total de modos de escolheruma bola
6+4 10 2
6+4+ 5 15 3

Outro método

rr{v r - er{Á} = r - l/3 = 2/S,peloitem(c).


+ B} = Pr{Ã} =
Note-sequePrt,V + B I = P.lv l* Pr{Bi,isto é,213=215+4ll1.Esse
é um exemplo da regra geral Pr El * Ezlt - PrlEl f + Pr lÜz], que é verdadeira
para os eventos mutuamente exclusiuos Eye 82.

4. Um dado honesto é lançado duas vezes. Determinar a probabilidade de ocorrer


um 4,5 ou 6 no primeiro lance e um 1, 2,3 ou 4 no segundo lance.

Solução
Seja E1 = o eyento correspondente a "4, 5 ou 6", no primeiro lance, e E2 o de surgir
"L,2,3 ou 4" no segundo.
Cada uma das 6 maneiras, segundo as quais o dado pode cair no primeiro
lance, pode ser associada a cada uma das 6 do segundo lance, num total de 6 x 6 =
= 36 modos, todos igualmente possíveis.
166 Estatística Cap. 6

cada uma das três maneiras, segundo as quais E1 pode ocorrer, pode ser
associada a cada uma das quatro de 82, o que dá 3 x 4 = 12 modos, segundo os quais
tanto E1e 82, corr:ro EçEZ.

Então, Pr\E1nzl : L2/36 = l/3.


Note-se que aexpressãoPr nrgrl = p, lrnrl
t, pr!rE2|,isto é,ll} =816 x
x 416, é válida para os euentos independentes E1 e tr,2.

5. Duas cartas são retiradas de um baralho, bem embaralhado, de 52 cartas.


Determinar a probabilidade de ambas serem ases, se a primeira carta for: (o)
recolocada; (ó) não recolocada.

Solução
Seja E1 = o eYento correspondente a sair um ás na primeira retirada e E2o de ocorrer
um ás na segunda.
(o) Se a primeira carta for recolocada, E1e E2serão eventos independentes.
Então:
Pr { ambas as cartas retiradasserem ases } = P, I Er E2l =

= Pr lEr I er trn2l = 1+tsz1 (4/52) = r/69 .

(ó) A primeira carta pode ser retirada de qualquer uma de 52 maneiras e a


segunda de qualquer um de 51 modos, se a primeitacarta não for recolo-
cada. Então, ambas as cartas podem ser retiradas de 52 x 51 maneiras,
todas igualmente possíveis.
Há quatro modos segundo os quais .81 pode ocorrer e três para que E2
aconteça; assim, tanto E1e E2con'o EtEz, podem ocorrer de 4 x B modos. Então

4t
Pr E'E' = 52x I

51= 221
{ E2 lE1 } = Pr {da segunda carta ser um ás depois de ocorrer
Note-se que Pr
na.primeira) = 3/51- Nessas condições, o resultado é um exemplo da regra geral
Pr{ 11 azl =Pr{,41 i Yr { n2 lE1 } quando E1e E2 sáoeventos dãpendentãs.
Cap. 6 Teoria elementar da probabilidade 167

Distribuição de probabi lidade


6. Determinar a probabilidade de haver meninos e meninas em famílias com 3
crianças, admitindo-se as mesmas probabilidades para ambos.

Solução
Seja B = o evento correspondente a haver "menino" na família e G = o de haver
"menina". Então, de acordo com a hipótese de probabilidades iguais, Pr {B} = Pr {G} =
= ll2. Em famílias de 3 crianças podem ocorrer os seguintes eventos mutuamente
exclusivos, com as correspondentes probabilidades indicadas:
(o) 3 meninos (BBB). Então, Pr IBBBI = Pr {B} Pr {B} Pr {B} = 718.

Neste caso, admite-se que o nascimento de um menino não é influenciado,


de modo algum, pelo fato de ter sido também menino uma criança nascida ante-
riormente, isto é, admite-se que os eventos sáo independerutes.
(ó) 3 meninas (GGG). Então, como no item (o), ou por simetria pr 1ççç] = 1.l8.
(c) 2 meninos e 1 menina @BG + BGB + GBB). Entáo:

Yr\enG+ BGB+ GBBI = P. ttBBG)+ Pr iace|+ Pr{caa}=


- Pr{B} Pr{a} er{c}* PriB} rrlci+
+ rr{.4}+ Prici e.{ai rrlr} =
1113
= 8 * 8 * 8 = 8'
(d) 2 meninas e 1 menino (GGB + GBG + BGG). Como no item (c), ou por
simetria, a probabilidade é de 3/8.
Representando-se por X a uariáuel aleatória que representa o número de
meninos em uma famíIia com 3 crianças, a distribuição de probabilidade está
indicada na tabela abaixo.

Número de meninos X 0 2 -1

Probabilidade p (x) 1/8 r/R 3/8 l/a

7. Representar graficamente a distribuição do problema anterior.


168 Estatística Cap. 6

Solução
O gráfico pode ser representado como na Figura 6.8 ou na Figura 6.4.

Note-se que a soma das áreas dos retângulos da Figura 6.4 é igual a 1.
Nessa figura, denominadahistograma de probabilidade, considera-seXcoÃo variá-
vel contÍnua, se bem que ela seja realmente discreta, processo que muitas vezes se
revela conveniente. A Figura 6.3, por outro lado, é usada quando não se deseja
considerar a variável como contínua.

Número de meninos
p (x)

Figura 6.3

Número de meninos
p (x)

Figura 6.4

8. Uma variável aleatória contínua X, que tem valores compreendidos apenas


entre 0 e 4, tem uma função de densidade dada por p(X) = ll2 - aX, em que 0
é uma constante.
(o) Calcular a. (b) Determinar Pr {1 < X < t2I.
Cap. 6 Teoria elementar da probabilidade 169

Solução
(o) O gráfico de p()Q =l/2 - aX é u111a linha reta, como está indicado na Figura
6.5. Para determinar a, deve-se compreender que a área total entre a reta
e o eixo dosX, entreX= 0 eX = 4, deve ser igual a 1.

ParaX = 0,p()0 = Il2;paraX = 4,p(X) =112- 4o. Deve-se, então, escolher


o de modo que a ârea trapezoidal seja igual a 1.
Área trapezoidal = ll2 (altura) (soma das bases) = ll2 (4) (ll2 + l/2 - 4a) =
=2(l-4a) = 1, de onde (l-4a)=ll2;4cr.=Ll2ea=118. Em conseqüência, l/2-4a
é, realmente,

p (x)

Figura 6.5

p (x)

Figura 6.6

igual a zero, de modo que a representaçáo gráfica correta é a apresentada na Figura


6.6.
170 Estatística Cap. 6

(ó) A probabilidade pedida é igual à área compreendida entre X =l eX=2,


indicada por meio de sombreado na Figura 6.6.
De acordo com o item (o), p(X) = ll2 - 7/8 X. Então, P(l) = 3lB e p(2) = 114
são as ordenadas para X = I e X = 2, respectivamente.
A área trapezoidal pedida é:
l lt l) s
-(l){ + 4)l= t6--'
2"t8
que é a probabilidade desejada.

Esperança matemática
9. Em um certo empreendimento comercial, um empresário pode ter lucro de
Cr$ 300, com a probabilidade de 0,6 ou pode ter prejuízo de Cr$ 100, com a
probabilidade de 0,4. Determinar a esperança matemática do lucro do em-
preendimento.

Solução
Esperança = (300) (0,6) + (-100) (0,4) = Cr$ 1+0.

10. Determinar: (a) E (X); (b) E tx2l; @) E 16 - Xlzl ,paraa seguinte distribuição
de probabilidade.

X 8 t2 l6 20 24

p(x) t18 t16 3t8 r14 rlt2

Solução
(a't E(X) =»Xp(X) = (8) (1/B) + (L2) (1/6) + (16) (3/8) + (20) (].la) + (24) (1172) =
= 16.
Isso representa a média da distribuição.

@ E(*) = »x2p(x) = (8)2(1/8) + (tD2ol6) + (16)2(318) + (20)2(114) +


+ e$2ií.1L2) = 276.
Cap. 6 Teoria elementar da probabilidade 171

Isso representa o segundo momento centrado na origem zero.


(c) E16- E2)= »(X- X)2p(X)= (8- rc)2G/8)+ (r2- L6)2(r/6)+
+ (16 -tqz (8.28) + (20-rc)z g/4)+ (24-rc)2 G/D) = 20.
Isso representa a uariô.ncia da distribuição.

Permutações
11. De quantas maneiras 10 pessoas poderão sentar-se em um banco, se houver
apenas 4 lugares?

Solução
O primeiro lugar pode ser preenchido de 10 maneiras e, quando isso tiver sido feito,
haverá 9 maneiras de preenchet o2e lugar, 8 de preencher o terceiro e 7 de preencher
o quarto.

Portanto:
Número de arranjos de 10 pessoas, tomados 4 a 4= 10 x 9 x 8 x 7 = 5.040.
Em geral:
Número de arranjos den objetos diferentes, tomados r ar =n(n-I)(n- 2)
...(n-r+1).
É também denominado número de permutações de n objetos diferentes,
tomados r de cada yez, e representado por nP, , P(n ,r) ou Pn,, . Note que quando
r=n,rPr=nl,
12. Calcular; (o) sPs ; @) aP+; (c) uPr; @) zPz

Solução
(o) aPs= 8.7.6 = 336; (b) eP+= 6.5.5.3 = 360;(c) fiPt= 3.2.1 = 6.
13. Quantos números de 4 algarismos podem ser formados com os 10 algarismos, 0,
1,2, 3, ..., 9 se: (o) forem permitidas as repetições; (ó) elas não forem permitidas,
(c) o úItimo algarismo deve ser zero e não forem permitidas as repetições?
172 Estatística Cap. 6

Solução
(o) O primeiro algarismo pode ser qualquer um dos 9 (visto que o zero não é
permitido). O segundo, terceiro e quarto algarismos podem ser qualquer
um dos 10. Então, 9 x 10 x 10 x 10 = 9.000 números podem ser formados.
(á) O primeiro algarismo pode ser qualquer um dos 9 algarismos (qualquer
um, menos o zero).
O segundo algarismo pode ser qualquer um dos 9 (qualquer um, mas nào
o usado para o primeiro).
O terceiro algarismo pode ser qualquer um dos 8 (qualquer um, menos os
usados para os dois primeiros).
O quarto algarismo pode ser qualquer um dos 7 (qualquer um , menos os
usados para os três primeiros).
Então, 9 x 9 x 8 x 7 = 4.536 números podem ser formados.

Outro método
O primeiro algarismo pode ser qualquer um dos nove e os três remanescentes podem
serescolhidosdegP3modos.Então,9 sPz = 9'9'8'7 = 4.536 númerospo-
dem ser formados.
(c) O primeiro algarismo pode ser escolhido de 9 modos, o segundo de 8 e o
terceiro de 7.
Então, 9 . B . 7 -- 504 números podem ser formados.

Outro método
O primeiro algarismo pode ser escolhido de 9 modos e os dois seguintes de gP2
modos. Então, I' aPz = 504 números podem ser forrnados.

Combinações
14. Calcular (a) zC+; (b) eCs; @) +C+.
Cap. 6 Teoria elementar da probabilidade 17J

Solução
. 1t 7.6.5.4- = 7.ç.5 _,,
tat 7c4 = = - 4l y r. i = ru.
4'l'l
(b)acs=#i =6,ou acs= ocr=6.
(c) +C+é o número das seleções de 4 objetos, tomados de uma só vez, e há
somente uma seleção. então,4C4 = 1 .

Note-se que, formalmente, 4C4 = = 1. definindo-se 0 ! = 1.


^*+*
15. De quantas maneiras uma comissão de 5 pessoas pode ser escolhida entre g?

Solução

^ = 91 918x 7x 6x 5 = 126.
'ct 5:4: 5 !

16. Um rapaz tem 5 moedas, cada uma de valor diferente. Quantas somas diferen-
tes podem ser formadas?

Solução
Cada moeda pode ser tratada de 2 maneiras, isto é, pode ser escolhida ou não. Como
cada um dos 2 modos de tratar uma moeda associa-se aos 2 de tratar cada uma das
outras, o número de modos de escolher as 5 moedas = 25. Mas, os 25 modos incluem
o caso de não ter sido tomada nenhuma moeda.

Em conseqüência, o número desejado de somas = 25 - 1 = 31.

Outro método
Pode-se selecionar, entre as 5 moedas, 1,2, ...,5. Então, o número desejado de somas é:

5C1 + 5C2+ 5Cj + 5Ca + 5C5 =5+ 10 + 10 +5+I = 31.

Em geral, para qualquer inteiro positivo n, nCt + ,C2 + nCB + ... +


nCn = 2n - l.
174 Estatística Cap. 6

Aproximação de Stirling para n!


77. Calcular 50!

Solução

Para grandes valores de n, nt ; lT"" n' e-n.


Então, sot rfznoolsgso u-50 - g.
Para o cálculo de S, empregam-se os logaritmos de base 10. Então:

logS = togl{100n sdO e-s9 =


}torroo+ }logn+ 50log50-50loge =

ll log3.l42+ 50log50-501og2.718 =
= , Iog 100+ ;
| (2)+
.^ I
= Q.4972\ + 50 (1,6990)-5010.4343 =64.4836.
, 2
Logo, S = 3,04 x 1064, número de 65 algarismos.

Probabilidade e análise combinatória


18. Cinco cartas são tiradas de um baralho de 52 cartas, bem embaralhadas.
Determinar a probabilidade de: (a) 4 serem ases; (á) 4 serem ases e 1 rei; (c) 3
serem dez e2 valetes; (d) serem tiradas 9, 10, valete, dama e rei, em qualquer
ordem; (e) 3 serem do mesmo naipe e 2 de outro; (l) ao menos uma ser ás.

Solução

(o) pr{4ases} =*ffg = #*=#8.


(á) pr {4 ases e l reiJ =+dg = #n**.= aL+*nr'

(c) Pr {3 dez e 2 valetes} =#s2,-5 108.290


Cap. 6 Teoria elementar d,a probabilidad,e 175

(d) Pr {9, 10, valete, dama, rei, em qualquer ordem} =

+Ct ' +Cr ' +Ct' tCr' +Ct _ 64


52C5 - 162.435

(e) Pr {3 do mesmo naipe, e de outro} = = ffi,


W
porque há 4 modos de escolher o primeiro naipe e 3 de escolher o segundo.

rf ) Pr{nenhum ás} = = 'rffi.Pr {ao menos um ás}


::ZZ
,' 35.673 t8.472
54.t45 54.t45
19. Determinar a probabilidade de ocorrerem três 6 em 5 lances de um dado
honesto.

Solução
Representem-se os lances do dado pelos cinco traços:
A cada traço corresponderá um dos eventos 6 o nào 6 t6l. Por exemplo,
6ou 6 6 6 6 6 etc.
podem surgir três 6 e dois nào 6 sob as formas 6 6 6 6

Posto isso, a probabilidade de um evento como 6 6 6 6 6 e:

rr{06606} = er{o} pr{6} = pr{6} er{ol pr16} rr{o} pr{6} =

=
I X I X 5X-X-I s =l ( t rtrSr'
ll- l.
6 6 6 6 6 [u)\u)

semelhantemente, Pr{66666r = os even-


[à I t: f "r..,paratodos
tos em que ocorrerem três 6 e dois não 6. Mas, há sCe = 10 eventos dessa natureza
que se excluem mutuamente. Então, a probabilidade desejada é:
, .3 _,2
rr{eoooo ou eeea6 ou etc.l = ...í 1 I f f | = :+
'-'Iu, [6] 3.888
Em geral, se p - Pr {E} e Ç = Pr [E], então, mediante o mesmo raciocínio
acima, a probàbilidade de obter exatamente XE em N tentativas é de,r,,Cy px qN-x .
176 Estatística Cap. 6

20. verifica-se, em uma fábrica, que, em média, 20vo dos parafusos produzidos
por uma determinada máquina não satisfazerrr a certas especificações. Se
forem selecionados ao acaso 10 parafusos da produção diária dessa má-
quina, determinar a probabilidade de serem defeituosos: (o) exatamente 2;
(b) 2 ot mais; (c) mais de 5.

Solução
(o) Pr {2 parafusos defeituosos} = 16c2 (0,2)2 (0,8)8 = 45 (0,04') (0,162g) =
= 0,0302, mediante raciocínio idêntico ao empregado no Problema 19.
(á) Pr {2 ou mais parafusos defeituosos} = 1 - Pr {nenhum defeituoso} p, {t
-
defeituoso) = 1 - 16C6 (0,2)0 (0,9)10 - 10C1 (0,2)r (O,g)e - 1 - (0,g)10 _
- 10(0,2) (0,8)e = 1 - 0,1074 - 0,2684 = 0,6242.
(c) Pr {mais de 5 defeituosos} =
-p. {6 def.} + Pr {Z def.} +
pr {8 def.} + pr {9
def.i + Pr {10 def.} = rcc6(0,2)6 (0rB)4 + lr,ct e,2)7 (0,g)3 + roca (0,2)B (0,8)â+
+ roCg (0,2)e (0,8) + roCro (0,2)10 = 0,00637.

27. Se 1.000 amostras, cada uma de 10 parafusos, forem tomadas no problema


anterior, em quantas delas esperar-se-ia encontrar como defeituosos: (o) exa-
tamente 2; (b) 2 ou mais; (c) mais de 5?

Solução
(o) Número esperado = (1.000) (0,0302) = 30, de acordo com o problema 20(a).
(ó) Número esperado = (1.000) (0,6242) - 624, de acordo com o problema 2O(ü.
(c) Número esperado = (1.000) (0,00682) = 6, de acordo com o problema 20(c).

Espaço amostral e diagrama de Euler


22. (o) Construir um espaço amostral para um único lance de um par de dados
honestos.
(ó) Determinar, por meio desse espaço, a probabilidade da soma dos pontos,
em um lance do par de dados, ser 7 ou 11.
Cap. 6 Teoria elementar da probabilidade 177

4-B
(2,6) (3,6) (4,6)

(1,5) (3,5) (4,5)

(1,4) (4,:) (uÍ)

(1,3) (2:3) (.:r) (5,3)

(2,2) (3,2) (4,.2)

(2,1) (4,1)

Figura 6.7

Solução
(o) O espaço amostral consiste no conjunto de pontos, indicado na Figura 6.7.
A primeira coordenada de cada ponto é o número obtido em um dado e a
segundaéooutrodado.
Há 36 pontos ao todo e, a cada ponto, atribui-se uma probabilidade de 1/36.
A soma das probabilidades de todos os pontos do espaço é 1.
(ó) os conjuntos de pontos que correspondem aos eventos "soma 7" e "soma 11"
estão indicados por A e B, respectivamente.
Pr {A } = soma das probabilidades associadas a cadaponto, em A = 6136.
Pr {B } = soma das probabilidades asociadas a cada ponto, em B = 2136.

Pr {A + B } dos pontos em Á ou em B' ou em ambos =


= üTií17:"rr1?t':;i;.'
Note-se que, neste caso, Pr {A + B} = Pr {Á} + Pr {B}. Isso, porque A e B nào
têm pontos em comum, isto é, são eventos que se excluem mutuamente.
178 Estatística Cap. 6

23. Utilizando um espaço amostral, mostrar que:

(o) Pr lA + B\ = Pr {A} + Pr tB} - Pr {AB}.


(b) Pr lA + B + Cl = Pr {A} + Pr {B} + Pr {C} -Pt {AB} -
- Pr {BC} - Pr {AC} + Pr {ABC}

Solução
(a) Sejam A e B dois conjuntos de pontos que têm pontos comuns, repre-
sentados por AB, como na Figura 6.8. A compõe-se de AB e AB, enquanto
B compÕe-s e de BÃ e AB.
A totalidade dos pontos de A + B (A, B, ou ambos) = totalidade dos pontos
deA + totalidade dos pontos de B - totalidade dos pontos de AB.
Como a probabilidade de um evento ou conjunto é igual à soma das
probabilidades associadas aos pontos do conjunto, tem-se:
Pr {A +B} =Pr {Á} +Pr {Bi -Pr {ÁB}.

B
*,

Figura 6.8

Figura 6.9
Cap. 6 Teoria elementar da probabilidade 1Zg

(ó) Sejam A, B e C três conjuntos de pontos, como os indicados na Figura G.g.


o símbolo ABe representa o conjunto d.e pontos de Á e de B, mas nao os de
C, e os outros símbolos têm significados semelhantes.
Podem-se considerar pontos que estejam em Á, em B, ou em C, como
incluídos nos 7 conjuntos mutuamente exclusivos da Figura 6.9,4 dos quais estão
sombreados e 3 não. A probabiiidade desejada é dada por:

Pr {A + B +Cl = Pr lAEe | +Pr {Ae h +Pr lCÃEl +

+ pr {Á ne1 +pr {BCÃ1 +rr ÍC AE} +pr lA B C}.


Isso posto, para obter ABe , por exemplo, retiram-se os pontos comuns a
A e B e a A e C, mas, assim procedendo, são retirados duas vezes os pontos comuns
aA,BeC.
Por isso:

AEe = A - AB - AC + ABC e Pr WC| = Pr {A} -Pr W}- Pr {AC} + Pr {ABC}.


Encontram-se, analogamente :

Pr {Be Ãl = Pr {B}-Pr {BC} _Pr IBA} +Pr IBCA)


pr tCÃE| = Pr {C} Pr {CÁ}
- -Pr ÍCB } + Pr {CÁB}
Pr lBCÃ] = Pr {BC} _Pr {ABCI

Pr {CAB} =Pt {CA} -Pr IBCA}


Pt |ABC) =Pr IAB] -Pt {CAB}
Pt {ABC} =Pr {ABCI.
Somando essas 7 equações, e considerando que Pr {ABl = Pr {BÁ} etc.,
obtém-se:

Pr {Á+ B+Cl= PriA} +Pr{B} +Pr{Ci-Pr IAB} -Pr [BC] -


- Pr {AC} + Pr IABCI.
180 Estatística CaP. 6

PROBLEMAS SU PLEMENTARES

Regras Íundamentais de probabilidade


24. Determinar a probabilidade p, ou sua estimativa, de cada um dos seguintes
eventos:
(o) Aparecer um rei, ás, valete de copas ou dama de ouros ao tirar uma carta
única de um baralho comum, bem embaralhado.
(ó) Resultar a soma 8 em um lance único de 2 dados honestos.
(c) Encontrar-se um parafuso não defeituoso se, entre 600 anteriormente
examinados, 12 eram defeituosos'
(d) obter 7 ou 11 em uma única jogada de um par de dados honestos.

(e) Ocorrer ao menos uma cara em 3 lances de uma moeda honesta.

Resp.: (a) 5126; (b) 5136; (c) 0,98; (d) 219; (e) 718.

25. Uma experiência consiste em retirar, sucessivamente, 3 cartas de um baralho


comum bem embaralhado. sejam E1 a ocorrência de um "rei" na primeira
retirada, E2 a d,e um "rei" na segunda e Eg a de um "rei" na terceira. Exponha'
em palavras, o significado de cada um dos seguintes símbolos:
(a) Pr lEEzl;(á)Pr lE1+E2l;ktE1+ E2:{d.\Pr lE3 I ErEzl;ktElEzEs;

{f ) Pr lE1E2 + E2E3l.
Resp.: (a) Probabilidade de um rei na primeira retirada e não um rei na
segunda.
(ó) Probabilidade de um rei na primeira retirada ou na segunda.
(c) Não ocorrer um rei na primeira ou na segunda retirada, ou em ambas
(nenhum rei na primeira e na §egunda retiradas).
(d) Probabilidade de ocorrer um rei na terceira retirada, depois de ter surgido
um na primeira mas não na segunda.
(e) Nenhum rei na primeira, segunda e terceira retiradas'
(/ ) Probabilidade de ocorrer um rei na primeira e na segunda retiradas ou de
não ocorrer nenhum na segunda retirada e um na terceira'
Cap.6 Teoria elementar da probabilidade 181

26. Determinar a probabilidade de se obter, em dois lances de um par de dados


honestos um total de 7 pontos: (o) uma vez; (b) ao menos :urnayez; (c) duas vezes.

Resp.: (a) 5ll8; (b) 17136; (c) 1136.

27. IJma urna contém g talões numerados de 1 a 9, inclusive. Se 3 talões são


retirados da urna, um de cadayez, determinar a probabilidade de eles serem,
alternadamente, ímpar, par, ímpar ou par, ímpar, par.
Resp.: 5/78.
28. Entre 800 famílias com 4 crianças cada uma, que percentagem se esperaria
que tenha: (a) 2 meninos e 2 meninas; (ó) ao menos um menino; (c) nenhuma
menina; (d) no máximo duas meninas? Admitir probabilidades iguais para
meninos e meninas.
Resp.: @) 37,\Va; (b) 93,7íVo; (c) 6,257o; (d) 68,7íVo.

Distribu ição de probabi lidade


29. Uma variável aleatória contínuaX, que pode assumir somente valores compre-
endidos entre 2 e 8, inclusive tem uma função de densidade dada por o(X + 3)
em que o é uma constante. (o) Calcular a. (b) Determinar Pr {3 < X < 5}. (c)
Determinar Pr {X > 4l @) Determinar Pr { lX - 5 I < 0,5}.
Resp.: (a) ll48; (b) 7lza; k) 314; (d) 1116.
30. Três bolas de gude são retiradas, sem restituição, de uma urna que contém 4 bolas
vermelhas e 6 brancas. Se X é uma variávei aleatória que representa o total de bolas
de gude vermelhas retiradas: (o) construir uma tabela que mostre a distribuição de
probabilidade de X; (ó) representar graficamente essa distribuiçào.

Resp.: (a)

X 0 I 2 )
p (x) U6 r12 3lt0 rl30

Esperança matemática
31. Qual o preço justo a pagar para entrar em um jogo no qual se pode ganhar ou
Cr$ 25.000 com probabilidade 0,2 ou Cr$ 10.000 com probabilidade 0,4?
Resp.: Cr$ 9.000.
182 Estatística Cap. 6

32. A e B jogam uma partida, na qual lançam uma moeda honesta 3 vezes. O que
obtiver cara em primeiro lugar, vencerá a partida. Se Á é o primeiro a lançar
a moeda e se o valor total das apostas é Cr$ 20,00, qual deve ser a contribuição
de cada um, para que o jogo possa ser considerado correto?

Resp.: A, Cr$ 12,50; B, Cr$ 7,50.


33. Determinar: (a) a média; (á) a variância; (c) o desvio padrão da distribuição de
X do Problema 30 e interpretar os resultados.
Resp.: @) L,2; (á) o,s6; (c) { o,so = 0,75.
34. Uma variável aleatória assume o valor 1 com a probabilidade p e 0 com a
probabilidade q = 1 -p. Provar que: (a) E(X) = p; (b) El6 --n2l = pq.
35. Provar que: (o) E(2X + 3) = 2E(D; + 6) El6 -h2l = E(X\ - lE(nP.
36. Sejam X e Y duas variáveis aleatórias que têm a mesma distribuição. Mostrar
que,E(X+I)=E(X)+E(Y.

Permutações
37. Calcular: (a) +Pzi@) Ês; (c) roPs.

Resp.: (a) 12; (b) 2.520; k) 720.


38. Para que valor de ru verifrca-se a igualdad" (, * tf z = ,P+?
Resp.: n = 5.
39. Quantos números diferentes de 3 algarismos podem ser formados com 3 quatro,
4 dois e2três?
Resp.: 1.260.
40. De quantas maneiras 3 homens e 3 mulheres podem sentar-se ao redor de uma
mesa: (o) nenhuma restrição é imposta; (á) dois homens indicados não podem
sentar-se juntos; (c) cada mulher deve estar entre 2 homens?
Resp.: @) 120; (b) 72; k) 12.
Cap. 6 Teoria elementar da probabilidade 183

Combinações
41. Calcular: h) sC$ (b) aCq; (c) roCs.
Resp.: (c ) 10; tbt 7O; k\ 45.
42. Para qual valor de n se verifica a igualdade 3 . 1,, + r)Ce =7 . nCz?
Resp.: n = 6.
43. Deve ser formada uma comissão constituída de 2 estatísticos e 3 economistas,
escolhidos dentre 5 estatísticos e 6 economistas. Quantas comissões diferentes
podem ser formadas se: (o) nenhuma restrição é imposta; (b) 2 estatísticos
indicados devem estar na comissão; (c) um economista indicado não pode estar
na comissão?
Resp.: h) 150; (b) a5; (c) 100.

44. Determinar o número de: (o) combinações; (ó) permutações, de 4 letras cada
uma, que se pode formar com as letras da palavra Tennessee?
Resp.: @) 17; (á) 163.

Aproximação de Stirling para n!


45. De quantas maneiras 30 indivíduos podem ser escolhidos entre 100?
Resp.: 2,95 x 1025.

46. Mostrar QtJe 2nC, = 22'l^[ nn, aproximadamente, para grandes valores de ru.

PROBLEMAS RESOLVIDOS

47. Se TOVo dos rebites produzidos por uma máquina são defeituosos, qual é a
probabilidade de, entre 5 escolhidos ao acaso: (o) nenhum ser defeituoso; (ó)
um ser defeituoso; (c) pelo menos 2 serem defeituosos?
Resp.: (o) 0,59049; (á) 0,32805; (c) 0,08146.
184 Estatística Cap. 6

48. Uma prévia eleitoral entre 200 eleitores revelou as seguintes informações a
respeito de 3 candidatos,A, B eC, de um certo partido, que concorrem a três
cargos diferentes.
28 a favor de ambos, A e B;
98 a favor de Á, ou de B, mas não de C;
42 afavor de B, mas não de A ou de C;
122 a favor de B, ou de C, mas não de A;

64 a favor de C, mas não de A ou de B;

14 a favor de Á e de C, mas não de B.

Quantos eleitores foram de: (o) os 3 candidatos; (ó)Á, independentemente


a favor de B ou de C; (c) B, independentemente de A ou de C; (d) C, inde-
pendentemente de A ou de B; (e) Á e de B, mas não de C; (fl apenas um dos
candidatos?
Resp.: (o) 8; (ó) 78; (c) 86; (d) t02; (e) 20; (fl t42.
49. (o) Provar que, para quaisquer eventos, E1e 82, Pr {Er +Ez} < Pr {Er} + Pr
lEzl.
(á) Generalízar o resultado do item (o).
50. Sejam Er, 82, E3 três eventos diferentes, dos quais pelo menos um tenha
ocorrido. Suponha-se que qualquer destes eventos pode resultar em outro
evento Á, que também se sabe que tenha ocorrido. Se todas as probabilidades
Pr {-Er}, Pr {Ezl, Pr {Es} e Pr iA I Ei,Pr lA I Ezl, Pr {A I Esi são consideradas
conhecidas, provar que: expressão correspondente a Pt lEllA) do problema
suplementar 89, na página 72L, do livro texto original, com resultados seme-
lhantespara Pr tE2lA] ePr lUslA\. Isto é conhecido como teorema ou regra de
Bayes. E útil para o cálculo das probabilidades das várias hipóteses Ey E2ou
,83 eue dão como resultado o evento A. O resultado pode ser generalizado.

51. A e B decidem encontrar-se entre 15 e 16 horas,mas cada um nào esperaria


mais do que 10 minutos pelo outro. Determinar a probabilidade de eles se
encontrarem.
Resp.: 116.

52. Dois pontos são escolhidos ao acaso sobre um segmento de reta, cujo compri-
mento é a > 0. Determinar a probabilidade dos 3 segmentos assim formados
poderem ser os lados de um triângulo.
Resp.'. 714.
h
MAKRON
Capítulo

As distribuições binomial,
normal e de Poisson

A distribuição binomial
Sep é a probabilidade de um evento acontecer em uma tentativa única (denominada
probabilidade de um sucesso) eq = 1-p é a de que o evento não ocorra em qualquer
tentativa única (denominada probabilidade de urninsucesso), então a probabilidade
do evento ocorrer exatamente X vezes, em N tentativas (isto é, de que haja X
sucessos e N-Xinsucessos), é dada por:

YvJ-N-x
N!
P(X)= 1yC, q -xrtl,r-x)r f {-*, (1)

em que X = 0, l, 2, ...,NeN! =N(N- 1) (N -2) ... 1. 0! = 1, por definição (ver o


Capítulo 6, Problema 19).
Exemplo 1. A probabilidade de obter exatamente 2 caras em 6 lances de
uma moeda não-viciada é:

."^(tff ,f-'__6t:f
: it +, : 'f: 15

Iz )1, )
o'-z
IrJ: 64'
1
substituindo em (1) os valores N = 6, X = 2 e p=e=2'

Exemplo 2. Aprobabilidade de obter ao menos 4 caras em 6 lances de uma


moeda não-viciada é:

-
.
"' [] i[; l "'(+lt; l
185
186 Estatística Cap. 7

A distribuição discreta de probabilidade (1) é denominada, freqüen-


temente, distribuição binomial, visto que aX = 0,1,2, ..., N correspondem os termos
sucessivos da fórmula binomial ou do desenuoluimento binomial.

(q + p)N =qN + NCrd -'p * NCz{-'p'* ...+ pN, Q)


em que 1, NC1, NC2, ...são denominados coeficientes biruomiais.

Exemplo:
(q + p)a = q4 + qCt q3 p + 4C2 q2 p2 + 4C4+ p4 =

= q4 + 4q3 p+ 6q2 + 4qp3 + pa .

A distribuição (1) é também denominada distribuição de Bernoulli, porque


foi James Bernoulli quem a descobriu, no fim do século XVIL
Algumas propriedades da distribuição binomial estão relacionadas
na seguinte tabela:

Tabela 7.1

Média lL=Np
Variância o2=Npq
Desvio padrão o={tlpq
Coeficiente do momento de assimetria q- p
Ctl
- = r-Npq
",1

Coeficiente do momento de curtose


C/"q=
^ l- 6pq
3* N*

Exemplo: Em 100 lances de uma moeda honesta, a média do número de


carasé1r=Np=(100) Esse é o número esperado de caras em 100
[;)=so
Iances da moeda. O desvio padrão é o={ N W = (1oo)
[; )[;
Cap. 7 As distribuições binomial, normal e de Poisson 187

A distribuição normal
Um dos mais importantes exemplos de uma distribuição contínua de probabilidade
é a distribuição ott a curuct. normal, ou a distribuiçã.o de Gauss, definida pela
equação.

Y
l-
= o!2n ,-t'z(x-vi/o2, (3)

na qual F = média, o = desvio padrão, n = 3,14159 ..., € = 2,71828 ...


A área total limitada pela curva (3) e pelo eixo dos X é iguai a 1; portanto,
a áreasob a curva, compreendida entre as duas coordenadas X = a e X = b, em que
d 1b, representa a probabilidade deXestar situado entre o e ó, representada por
Pr{o<X<b}.
Quando a variável X é expressa em termos de unidade reduzida, z - (X -
- lt)lo, equação (3) é substituída pela denominada forma reduzida.
a

v - I ^-l/2-' (4)
l-t(
"'l 2n

Nesse caso, diz-se qtJe z é normalmente distribuído, com média zero e


uariâ,ncia l.
Um gráfico desta curva normal reduzida está indicado na Figura 7.1. Nesse
grâftco,estão indicadas as áreas incluídas entre z = - L e + 1, z = - 2 e + 2, z = - 3
e + 3, iguais, respectivamente, a 68,27Vo, 95,45Vo e 99,73Vo da área total que é
unitária.

-2-1012
<-68,27"/. -->
<- 95,45% ----------i
99,73%

Figura 7.1
188 Estatística Cap.7

Apresenta-se no Apêndice II uma tabela que dá as áreas sob essa curva,


compreendidas entre a ordenada z = O e qualquer valor positivo de z. Por meio dessa
tabela pode-se determinar a ârea entre duas coordenadas quaisquer, em vista da
simetria da curva em relação à z = 0.
Algumas propriedades de distribuição normal, representada pela
Equaçáo (3), estão relacionadas na Tabela 7.2.

Tabela7.2

Média I ti
Variância I o2

Desvio padrão 6
Coeficiente de momento de I u: = 0
assimetria
Coeficiente de momento de curtose üa = 3
Desvio médio o{ Z/n =0.19:9o

Relação entre as distribuições binomial e normal


Se N for grande, e se nemp nem q estiverem muito próximos de zero, a distribuição
binomial pode ser bastante aproximada de uma normal, cuja variável reduzida será
dada por:
x-Np
L_
^,1 N pq

A aproximação melhora com o crescimento de N, e no caso limite há a


coincidência. Isso está indicado nas Tabelas 7.1e7.2, nas quais está evidente que,
à medida que N aumenta, a assimetria e a curtose da distribuição binomial tendem
para as da normal. Na prática, a aproximaçáo é muito boa, quando tanto Np como
Np são superiores a 5.

Distribuição de Poisson
A distribuição discreta de probabilidade:
Cap. 7 As distribuições binomial, normal e de Poisson 189

-. = )J e-x ! (X ...),
p(Xl = 0, 1,2,3 (5)

em que e = 2,71828 ... e )" é uma constante dada, é denominada distribuiçã,o de


Poisson, por ter sido Poisson quem a descobriu, no começo do século XIX.

Os valores de p()0 podem ser calculados consultando-se o Apêndice VI, que


dá os valores de e sup {-I} para vários valores de À, ou por meio de logaritmos.

Algumas propriedades da distribuição de Poisson


Algumas propriedades da distribuição de Poisson estão relacionadas na Tabela 7.3.

Tabela 7.3

Média F=1"
Variância o2=)"
Desvio padrão o={T
Coeficiente de momento de u: = 1/t[
assimetria
Coeficiente de momento de curtose a+=3+lllu

Relação entre as distribuições binomial e de Poisson


Na distribuição binomial (1), se N for grande, enquanto a probabilidade p da
ocorrência de um evento for próximo de zero, de modo que q - (1-p) tende para 1,
o evento será denominado roro. Na prática, considera-se um evento como raro
quando o número de tentativas é, pelo menos, igual a 50 (N > 50), ao passo que Np
é menor do que 5. Nesses casos, a distribuição binomial (1) é muito aproximada da
de Poisson (5), com )" = Np. Isso é indicado mediante a comparação das Tabelas 7.1
e 7.3 porque, fazendo-se À = Np, q = | e p = 0, na Tabela 7.1, obtêm-se os resultados
da Tabela 7.3.
Como há uma relação entre as distribuições binomial e normal, conclui-se
que também há uma relação entre as de Poisson e a normal. Realmente, pode-se
demonstrar que a distribuição de Poisson se aproxima de uma normal, com a
variável reduzida (X - D/lT, quando l, cresce indefinidamente.
190 Estatística Cap. 7

A distribuição multinomial
Se os eventos.El, 82, ..., E6 podem ocorrer com as probabilidades p1, P2, ..., PK,
respectivamente, então a probabilidade de Eb 82, ..., EK ocorrerem Xt, X2, ..., XK
vezes, respectivamente, é:

1/!
p{' p* ... &K , (6)

emqueXy+X2+...+Xx=N.
Essa distribuição, que é uma generalizaçã'o da binomial, é denominada
distribuiçã,o multinomiol, visto que (6) é o termo gerai do desenvolvimento do
polinômio (pt+ pz + ... + p17)".
Exemplo: Se um dado honesto é lançado 12 vezes, a probabilidade de
serem obtidos os pontos 7,2,3,4,5 e 6, exatamente duas Yezes cada um, é:

r'rtfrtfrrt' = #rr.r',r= o'00344'


lIu ][u ][u.]
ezes das ocorrênc las
tentativ pectivamente.

Ajustamento das distribuições teóricas às distribuições de


Íreqüências das amostras
Quando se tem alguma informação sobre a distribuição de uma população por meio
de um raciocínio probabilístico, ou de qualquer outro modo, é freqüentemente
possível ajustar-se essas distribuições teóricas (também denominadas distribuições
"modelo" ou "esperadas") às de freqüência, obtidas de uma amostra da populaçào.
O método geralmente adotado consiste no emprego da média e do desvio padrão da
amostra para a estimativa desses elementos da população (veja os Problemas 19,
2l e 22).
Para verifi car a aderência d,o ajustamento das distribuições teóricas, em-
prega-se o teste de qui-quadrado, que será apresentado no Capítulo 12.

A fim de se determinar se uma distribuição normal representa um bom


ajustamento para os dados obtidos, é conveniente usar-se o papel de curua normal
ou de probabilidade como às vezes é denominado (veja o Problema 20)'
Cap. 7 As distribuições binomial, normal e de Poisson 191

PROBLEMAS RESOLVIDOS

A distribuição binomial
1. Escrever os desenvolvimentos dos binômios: (o) (q + p)a; (b) (q + p)6.

Solução
(a) (q + p)4 = qa+ tCtq1p + tCzq2p2 + +Csq3p4=

= q4 + 4q3 * 6q2 * 4qp\ + pa.


(b) (q +p)6 = q6 + aCrqs p + eCzqa p2 + aCsqs pB + qCt q2 p4 + aCsqps +p6 =

= q6 + Gqsp + l\qap2 + 20q\p3 + 15 q2p4 + 6qp5 * p6.


Os coeficientes 1, 4, 6, 4, 1 e 1, 6, 15, 20, 15, 6, 1 são denominados
coeficientes binomiais correspondentes a N = 4 e N = 6, respectivamente. Escre-
vendo-se esses coeficientes, para N = 0, 1, 2,3, ..., como está representado abaixo,
obtém-se um dispositivo denominado triângulo de Pascal. Note-se que o primeiro e
o último números de cada linha é 1 e que qualquer outro pode ser obtido, mediante
a soma dos dois números, um à direita e outro à esquerda, da linha precedente.

ll
t2l
l33l
14641
15101051
1615201561

2. Se 20Vo dos parafusos produzidos por uma máquina são defeituosos, deter-
minar a probabilidade de, entre 4 parafusos escolhidos ao acaso: (o) 1; (á) O;
(c) no máximo 2 parafusos serem defeituosos.
192 Estatística Cap. 7

Solução
A probabilidade de ocorrer um parafuso defeituoso é de p = 0,2 e um não-defeituoso
édeq=7-p=0,8.
(o) Pr {1 parafuso defeituoso entre 4} = aC{0,2)t(0,8)B = 0,4096.
(ó) Pr {nenhum parafuso defeituoso} = aCs(O,2)0(0,8)4 = 0,4096.

(c) Pr {2 parafusos defeituosos} = aC2(0 ,2)2(0,8)2 = 0,1536.


Então, Pr {ao menos 2 parafusos def.} = Pr {nenhum parafuso def.} + Pr {1
parafuso def.) + Pr {2 parafusos def.} = 0,4096 + 0,4096 + 0,1536 = 0,9728.

3. A probabilidade de um estudante, que ingressa em um colégio, de graduar-se


é de 0,4. Determinar a probabilidade de, entre 5 estudantes: (o) nenhum; (ó)
um; (c) pelo menos um graduar-se.

Solução
(a) Pr {nenhum graduar-se} = rCo(0,4)010,6)5 = 0,07776
ou, aproximadamente, 0,08.
(á) Pr {1 graduar-se} = 5C1(0 ,4)r(0,6)4 = 0,2592 ou, aproximadamente, 0,26.
(c) Pr {pelo menos um graduar-se} = 1 - Pr {nenhum graduar-sel = 0,92224
ou, aproximadamente, 0,92.

NN
4. Calcular: (").? (b) onde P(8, = ,arCsp xqN-x .

{r(X); *: d"

Solução

*,.iÍ0,, pxqN x -
=
.iÍr#,o,
px-1qN X -
'",1,o+#5,
^[i= Np(s+p)N-1= NP, visto que q+p = 1.
Cap. 7 As distribuições binomial, ruormal e de Poisson 193

N N ,r
ttlixzplxl= »x2 zt; \z!#-,pxqNx-
r=0 x=l ' zL)'

N
= L tx(x-1)+ Xl fd+ pxqN X -
x=l
N N! v ^r.,,
=
x!(N= !
pnq,v ^ +
,:Í(x_L)
N
+ lvl pxqN x
' Fx x!(N-)0 =
,'=;' !

N
= N(N -DPz ;^,"-;+#;l Px-zqN x* NP =
x=2'
= N(N-t)pz(q+ p)N-2+ Np = N(N- 1)p2+ Np.
Nota: Os resultados dos itens (o) e (ó) sáo as esperanças de X e X2,
representadas por E(X) e E(X\, respectivamente (veja o Capítulo 6).

5. Se uma variável tem distribuição binominal, determinar sua: (o) média p; (ó)
variância o2.

Solução
N
(o) p = esperança da variável 2 Xp (X) = Np, segundo o Problema 4(o) .
x=0

(b) o2 = r (x- tt)zp(E = r=0


». 62-2prx+ tLz)p(x) =
r=0
NNN
= 2, * p$) - 21t z xp(x) + 1t2 z p(x) =
x=O r=0 x=0
194 Estatística Cap. 7

= N(N -L)p2 + Np - 2(NpXNp) + (Np;21t; =

= Np*Np2 = Np(1 _ p) = Npq.


adotando-se P = Np e os resultados do Problema 4. Segue-se que o desvio padrão de
uma variável, cuja distribuição é binomial, é o = { N pS

6. Se a probabilidade de ocorrer um parafuso defeituoso é de 0,1 determinar, para


um total de 400 parafusos: (o) a média; (á) o desvio padrão da distribuição.

Solução
(a) Média = NP = 400(0,1) = 40, isto é, poode-se esperar que 40 sejam defei-
tuosos.
(b) Variancía=Npq = 400(0,1)(0,9) = 36. Então, o desvio padrãoé = {36 = 6.

7. Determinar os coeficientes dos momentos de: (a) assimetria; (ó) curtose, da


distribuição do Problema 6.

Solução

(o) Coeficiente do momento de assimetriu =P= eiq = 0,133.


^,lNpq

Como é positivo, a distribuição é desviada para a direita.


(ó) Coeficiente do momento de curtose =

^ 7-6pq =J+
="* . 1-6(0,1)(0,9) =8,01.
Npq 86

A distribuição é ligeiramente leptocúrtica em relação à distribuição normal


(ligeiramente mais pontiaguda, veja o Capítulo 5).

A distribuição normal
8. Dois estudantes foram informados de que alcançaram as variáveis reduzidas
de 0,8 e -0,4, respectivamente, em um exame de múltipla escolha de inglês. Se
seus graus foram 88 e 64, respectivamente, determinar a média e o desvio
padrão dos graus do exame.
Cap. 7 As distribuições binomial, normal e de Poisson 195

Apiicando a equação X = X + zs, pata o primeiro estudante: (1) 88 = X +


+ 0,8s; para o segundo estudante: (2) 64 =X - 0,4s.
Resolvendo (1) e (2) simultaneamente: média X = 72 e desyio padrão s = 20.

9. Determinar a área limitada pela curva normal em cada um dos casos, (a) a (g),
apresentados a seguir. Utilizar o Apêndice II.
(o) Entrez=0ez=1,2.
No Apêndice II, percorre-se a coluna z parà baixo, até encontrar a casa 1,2.
Então, segue-se à direita até a coluna que indica o vâIor zero.
O resultado, 0,3849, é a ârea desejada e representa a probabilidade de z
estar compreendida entre 0 e 1,2, representada por Pr l0 < z < 1,2] .
(ó) Entrez=-0,68êz=0.
Área desejada = área entre z = O e z = 0,68 (por simetria).
Para se determinar aáreaz =0 ez = 0,68, percorre-se acolunaz para baixo,
até a casa 0,6. Então, segue-se à direita até a coluna que indica o valor 8.
O resultado,0,2517 é a área pedida e representa a probabilidade de z estar
compreendida entre - 0,68 e 0, representada por: Pr {-0,68 < z < 0} .
(c) Entre z = - 0,46 e z = 2,21.
(área entre z = - 0,46 e z = O)+ (área entre z = 0 e z = 2,21)
Área desejada -
=(áreaentre z =0 ez = 0,46) + (âreaentre z =0 ez =2,21) = 0,1772 + 0,4864 =
0,6636.

z-02=1,2
(a)

-0,46 0,81 1,94


(c) (d)

Figura 7.2
196 Estatística Cap. 7

(d) Entre z = 0,81 e z = 1,94.


Área pedida - (área ettre z = 0 e z = l,g4) - (área entre z = O e z= 0,81) =
= 0,4738 - 0,2910 = 0,1828.
(e) À esquerda de z = - 0,6.
Área pedidn = (área à esquerda de z =0) - (área entre z= - 0,6 e z = 0) =
= (área à esquerda de z = 0) - (área entre z = 0 e z = 0,6) = 0,5 - 0,2259 = 0.2742.
(/) À direita d.e z = * 1,28.
Área pedida = (área entre z = - 1,28 e z = 0) + (área à direita de e = 0) =
= 0,3997 + 0,5 - 0,8997.

É o mesmo que Pr {z > - 1,28}.

k) A direita de z = 2,05e à esquerda d.e z = - 1,44.


Área pedida= éu:eatotal - (área entre z = -1,44 e z =0)-(âreaetttre z =
= 0 e z = 2,05) = I - 0,4251- 0,4798 = 1- 0,9049 = 0,0951.

-0,6 -1,44 2,05


(e) (f) @)

Figura 7.2.a

10. Determinar o valor, ou valores, de z em cada um dos casos de (o) a (c), nos quais
as áreas referem-se às limitadas pela curva normal.
(a) A fueaentre 0 e z é 0,3770.
No Apêndice II, a casa 0,3770 está situada à direita da linha designada por
1,1, e sob a coluna encabeçada por 6. Então, o valor desejado é z = L,16.

Por simetría,z = - 1,16 é outro valor dez. Assim, z =* 7,L6.


(b) Aáreaàesquerda dezé 0,8621.
Como a ârea é maior do que 0,5, z deve ser positivo.
Área entre 0ez = 0,8621 -0,5 = 0,862l, donde z =L,Og.
(c) A área entre - 1,5 e z é 0,0217.
Cap. 7 As distribuições binomial, normal e de Poisson 197

Se z fosse positivo, a ârea seria maior do que a compreendida entre - 1,5 e


0, que é 0,4332; portanto, z deve ser negativo.
le caso: z énegativo, mas à direita de - 1,5.

z -1,5

Figura 7.3

Área entre - 1,5 e z = (áreaentre - 1,5 e 0) - (áreaentre 0 e z).


0,0217 = 0,4332 - (área entre 0 e z).
Então, a ârea0 e z = 0,4332 -0,0217 = 0,4Lt5, do qual z =-1,35.
2e caso: z é negativo, mas à esquerda de - 1,5.

Área entre z e-1,5 =(áreaentrez e 0) - (área entre- 1,5 e 0).


0,0217 = (área entre 0 e z) - 0,4332.
Então, a área entre 0 e z = 0,0277 + 0,4332= 0,4549 ez = -1,694, obtido
por interpolação linear; ou, com menor precisão, z = - 1,69.

11. Determinar as ordenadas da curva normal para; (o) z = 0,84; (.b) z = - 1,27; (c)
z = - 0,05.
198 Estatística Cap. 7

Solução
(o) No Apêndice I, percorre-se a coluna z para baixo, até encontrar a casa 0,8.
Então, segue-se à direita até a coluna assinaladapor 4. A casa 0,2803 é a
ordenada desejada.
(á) Por simetria: (a ordenada em z = - 1,27) = (ordenada em z = !,27) = 0, 1Tg1.
(c) (Ordenada em z =-0,05) = (ordenadaerrrz = 0,05) = 0,8984.

12. O peso médio de 500 estudantes do sexo masculino, de uma d.eterminada


universidade, é 75,5 kg e o desvio padrão é 7,5 kg. Admitindo-se que os pesos
estão distribuídos normalmente, determinar quantos estudantes pesam: (o)
entre 60 e 77,5 kS; (á) mais do que 92,5 kg.

Solução
(o) Os pesos relacionados entre 60 e 77,5 kg podem ter, na realidade, qualquer
valor compreendido entre 59,75 e 77,75 kg, admitindo-se que foram regis-
trados até centésimos.
59,75 kg em unidades reduzidas = (59,75 - 75,50)17,5 = - 2,10.
77,75 kg em unidades reduzidas = 07,75 - 75,50)17,5 = 0,80.
A proporção desejada de estudanlss = (área entre z = - 2,10 e e = 0,30) =
(área entre z = -2,L0 e z = 0) + (ârea
entre z = 0 e z = 0,S0) = O,4g2l+ 0,1129 =
0,6000. Então, o número de estudantes cujos pesos estão entre 60 e 77,50 kg =
500x(0,6000)=300.
(á) os estudantes com pesos superiores a g2,50 kg devem pesar pelo menos
92,75kg.
92,75 kg em unidades reduzidas = (92,75 - 75,50)17,5 = 2,30.
Aproporção desejada de estudantes = (área à direita de z = 2,30) = (área à
direita - (área entre z = O e z = 2,80)= 0,5 - 0,4gg3 = 0,0107.
de z = 0)

Então, o número de estudantes que pesam mais do que 92,50 kg = 500


(0,0107) = 5.

Se V[ representa o peso de um estudante escolhido ao acaso, os resultados


obtidos anteriormente podem ser resumidos em termos de probabilidade, escre-
vendo-se:

Pr {59,75 <W <77,15} = 0,6000 ePr lW >92,15} = 0,0107.


Cap. 7 As distribuições binomial, normal e de Poisson 199

-2,10 0,30
(a)

Figura 7.4

13. A média dos diâmetros internos de uma amostra de 200 arruelas produzidas
por uma certa máquina é 0,502 polegadas e o desvio padrão é 0,005 polegadas.
A finalidade para a qual essas arruelas são fabricadas permite a tolerância
máxima, para o diâmetro, de 0,496 a 0,508 polegadas; se isso não se verificar,
as arruelas serão consideradas defeituosas. Determinar a percentagem de
arruelas defeituosas produzidas pela máquina, admitindo-se que os diâmetros
são distribuídos normalmente.

Solução
0,496 em unidades reduzidas = (0,496 - 0,502)/0,005 = -7,2.

0,508 em unidades reduzidas = (0,508 - 0,502)/0,005 = 1,2.

Proporção de arruelas não-defeituosâs = (área limitada pela curva normal


entre z = - 1,2 e z = 1,2) - (2 vezes a âtea entre z = 0 e z = 7,2) = 2 (0,3849) = 0,7698
or 777o.

,2

Figura 7.5

Assim, a percentagem de arruelas defeituosas = 100Vo -77Vo = 237o.

Note-se que, se se imaginar que o intervalo entre 0,496 e 0,508 representa


os diâmetros de 0,4955 a 0,5085 polegadas, o resultado será ligeiramente modi-
ficado. Para dois algarismos significativos, entretanto, os resultados são iguais.
Estatística Cap. 7

Aproximação de uma curva normal à distribuição binomial


14. Determinar a probabilidade de se obter de 3 a 6 caras, inclusive, em 10 lances
de uma moeda honesta, mediante autilizaçáo: (o) da distribuição binomial; (ó)
da aproximação de uma curva normal à distribuição binomial.

Solução

(o) Pr {3 caras} = roCa


/ 1\3í rf = 15

IrJ Ir.] '28


í r\ar 1f
Pr {4 caras} =rcC+ ttt-l
105

l2)12) 572

Pr {5 caras} = toCs ít-tt-lr\5/ 1f 68


256
\2)12)
Pr {6 caras} =
r r f r r )4 105
roCe ttl
12)12) 512

Então, Pr {entre 3 e 6 caras, inclusive} = +*


t28 lH * 63 105
512 256', 5t2

99
128 = 0,7734.
(ó) A distribuição de probabilidade para o número de caras em 10 lances da
moeda está indicada graficamente nas Figuras 7 .6(a) e 7 .6(b), sendo que a
Figura 7.6(b) considera os dados como se fossem contínuos. A probabilidade
desejada é a soma das áreas dos retângulos sombreados da Figura 7.6(b) e
pode ser dada, aproximadamente, pela área subtendida pela curva normal
correspondente, representada em linha tracejada.
Considerando-se os dados como contínuos, segue-se que 3 a 6 casos podem
ser considerados como 2,5 a 6,5. Também, a média e a variância para a distribuição

binomial são dadas por p = f/p = tr[;)=5eo=,[Npq= ,rr,[; 1,58.


)(;
Isso posto, 2,5 em unidades reduzidas = (2,5 - 5)/1,58 = - 1,58 e 6,5 em
unidades reduzidas - (6,5 - 5)/1,58 = 0,95.
Cap. 7 As distribuições binomial, normal e de Poisson 201

Probabilidade
0,3

0,2

0,1

1 2 3 4 5 6 7 8 9 10
Número de caras

(a)

Probabilidade
0,3

0,2

0,1

0 1 2 3 4 5 6 7 8 9 10
Número de caras

(ó)

Figura 7.6

Probabilidade desejada = (área entre z = - 1,58 e z = 0,95) = (área entre


z =- =0) + (área entrez =0 ez = 0,95) =0,4429 + 0,3289 =0,7778, que se
1,58 e z
aproxima bastante do valor verdadeiro,0,7734, obtido no item (o). Aprecisão é ainda
melhor para valores maiores de N.

-1,58 0,95

Figura 7.7
Estatística Cap. 7

15. Uma moeda honesta é lançada 500 vezes. Determinar a probabilidade do


número de caras não diferir de 250 de: (o) mais de 10; (ó) mais de 30.

Solução

=25Oeo="lNpq= )í r )
\ ]'l
lL=Np= rsoor[ (soo) = 1 1,18.
-/ [ )1, )
(o) Deseja-se a probabilidade do número de caras ficar entre 240 e 260 ou,
considerando-se os dados como contínuos, entre 239,5 e 260,5.
239,5 em unidades reduzidas = (239,5 -250)l11,l8 = -0,94.
260,5 em unidades reduzidas = 0,94.

Probabilidade desejada = (área subtendida pela curva normal entre z = - 0,94


e z = 0,94) - (duas vezes a área entre z = 0 e z = 0,94) = 2 (0,3264) = 0,6528.
(ó) Deseja-se a probabilidade do número de caras estar entre 220 e 280 ou,
considerando-se os dados como contínuos, entre 219,5 e 280,5.
219,5 em unidades reduzidas = (219,5 - 250)l1l,l8 = - 2,13.

280,5 em unidades reduzidas =2,13.

Probabilidade desejada = (duas vezes a área subtendida pela curva normal


entre z = 0 e z = - 2,73) = 2(0,4968) = 0,9936.
Segue-se que se pode estar bem confiante de que o número de caras não
diferirá do esperado (250) de mais de 30. Portanto, se acontecer que o número real
de caras é 280, podemos acreditar, com forte razáo, que a moeda não é honesta, isto
é, que está viciada.

Distribuição de Poisson
16. Dez por cento das ferramentas produzidas por um certo processo de fabricaçào
revelaram-se defeituosas. Determinar a probabilidade de, em uma amostra de
10 ferramentas escolhidas ao acaso, exatamente duas serem defeituosas,
mediante o emprego: (o) da distribuição binomial; (ó) da aproximação de
Poisson para essa distribuição.
Cap. 7 As distribuições binomial, normal e de Poisson 203

Solução
Probabilidade de uma ferramenta ser defeituosa = p = 0,1.
(o) Pr {2 ferramentas defeituosas em 10} = 16C2 (0,1;2 (0,9)8 = 0,1937 ou 0,19.
(á) )" = Np = 10(0,1) = 1.

pr {2 ferramentas defeituosas em 10} =# =


# = + =} = o.nzo
ou 0,18, tomando-se e = 2,778.
Em geral, a aproximação é boa quandop < 0,1 e À =Np < 5.

77. Se a probabilidade de um indivíduo sofrer uma reação nociva, resultante da


injeção de um determinado soro, é 0,001, determinar a probabilidade de, entre
2.000 indivíduos: (o) exatamente 3; (á) mais do que 2, sofrerem aquela reação.

Solução

Pr {X indivíduos sofrerem uma reação nociva} =Y =# ,

onde: l. = Np = (2.000) (0,001) = 2.

reaçào nocival = -ãa


(a)Pr{Sindivíduossofreremuma2Se-2Á = -gu, =
0,180.

(á) Pr {nenhum sofrer} =T = \;Y, {1 sofrer} =*;' =


!r,
pr 12 sofrerem) - 223,2 2,
z. = e'
Pr {mais d.o que 2 sofrerem} = 1- Pr {0, 1 ou 2 sofrerem} =
2,. I = r
L-( l, * e'
= ', -5re2 = o,B2B.
Ie- e')
Note-se que, de acordo com a distribuição binomial, a probabilidade dese-
jada é dada por:
(o) z.oooce (o,oo1)s (0,999)1'ee7.
(ó) 1 - {z.oooco (0,001)0 (0,999)2 000 + z.ooocr (0,001)1 (0,999)1'eee + z.ooocz
204 Estatística Cap.7

(0,001)2 (0,999)1'ee8).

Seria muito difícil de calcular diretamente.

A distribuição multinomial
18. Uma caixa contém 5 bolas vermelhas, 4 brancas e 3 azuis. Uma bola é escolhida
ao acaso da caixa, sua cor é observada, e a bola é então recolocada. Determinar
a probabilidade de, entre 6 bolas assim escolhidas, 3 serem vermelhas, 2
brancas e I aatl.

Solução
Pr {vermelha em qualquer retirada} = 5lL2;
Pr {branca em qualquer retirada} = 41721'

Pr {azul em qualquer retirada} = 3112.


Então, Pr {3 serem vermelhas, 2 brancas e 1 azul} =

6! íI-tt-ls \3( +\2( s \r


- B'.2! ozs
1[12.J Irr][r, )- s.n+

Ajustamento dos dados por meio de distribuições teóricas


19. Ajustar uma distribuição binomial aos dados do Problema 11, Capítulo 2.

Solução
Tem-se Pr {X caras em um lance de 5 moedas} = p(X) = sCxpX Ç5-x, em que p e q
são, respectivamente, as probabilidades de surgir uma cara ou uma coroa em um
só lance de uma moeda. De acordo com o Problema 5(a), o número médio de caras
é yt = Np = $p.
Cap. 7 As distribuições binomial, normal e de Poisson 205

Para a distribuição de freqüência observada ou real, o número médio de


CATAS é:

W _ (38) (0) + (144) (1) + (342) (2) + (287) (3) + (164) (4) + (2s) (s) _
»Í - 1.000

2.470
=ffi=2'47'
Igualando-se a média teórica à real, 5p = 2,47 ou p = 0,494. Assim, a
distribuição binomial ajustada é dada por:
p(X) = sCx Q,494)x (0,506)s-x.

Na Tabela 7.4, essas probabilidades foram relacionadas, bem como as


freqüências real e esperada (teórica). O ajustamento é tido como apropriado. A
aderência do ajustamento é investigada no Problema 9 do Capítulo 12.

Tabela7.4

Ne de caras, X Pr {X caras} Freqüência Freqüôncia


esperada observsdu

0 0,0332 33,2 ot 33 38

I 0,1619 16I,9 ou 162 144

2 0,3162 316,2 ot 316 342

J 0,3087 308,7 ou 309 281

4 0,1507 150,7 ou 151 t64

5 0,0294 29,4 ot 29 25

20. Usar o papel para gráfico de probabilidade para determinar se a distribuiçào


de freqüência da Tabela 2.1 do Capítulo 2, pode ajustar-se a uma distribuição
normal.
Estatística Cap. 7

Solução

Tabela 7.5

Altura Freqüência acumulada


(centímetros) relativa (7o)

Aba xo de 154,5 5,0


Aba xo de 162.5 23,0
Aba xo de 170.5 65,0
Aba xo de 178.5 92,0
Aba xo de 186-5 100,0

99,9

oo
o\

€e5
geo
5ao
rá3
.= 50
(Ú 40
&30
.§ 20
I
<(D
to
:f5
o
I
LL1

0,1
154,5 162,5 170,5 178,5 186,5
Altura (cm)

Figura 7.9

Primeiramente, converte-se a distribuição de freqüência dada em uma


relativa acumulada, como mostra a Tabela 7.5. Depois, as freqüências relativas
acumuladas, expressas em percentagens, são locadas em relação aos limites reais
da classe superior, no papel especial de probabilidade, como está representado na
Figura 7.8. A maneira, segundo a qual todos os pontos se dispõem sobre uma reta,
determina quão perfeitaé a adaptação da distribuição dada à normal. Do exposto,
vê-se que há uma distribuição normal que se adapta aos dados com bastante
aproximação.
Cap. 7 As distribuições binomial, normal e d.e Poisson 207

2I. Ajustar uma curva normal aos dados da Tabela 2.1 do Capítulo 2.

Solução

Tabela 7.6

Alturas Limites z para os Área subtendida í Área Freqüên-


(centí- de classe, limites de pela curva normal de cadq cia
metros) X classe 0ez classe ohservada
.t '7 '', -+ 0,0413 4,13 ou
a 158 0,4967
4
l -59 a 166 158,5 0.4554 -+ 0,2068 20,68 ou l8
2t
0,2486
161 a 114 166,5 -0,61 Ií soma
--> 0,3892 38,92 ou
39
42

175 a 182 t7 4,5 0.36 0.t406 ) -+ 0,2771 27 ,71 ou 21


28
183 a 190 182.5 0,4111 --> 0.0'743 7,43 ou
7
190 2.41 0,4920
X= l'7 1,70 cm, s = 7,78 cm

O trabalho pode ser organizado como na Tabela 7.6. Ao calcular z para os


limites reais de classe, usa-se z = (X - X)ls, tendo sido a média X e o desvio padrào
s obtidos, respectivamente, no Problema 14 do Capítulo 3 e no Problema 15, do
Capítulo 4.
Na quarta coluna, as áreas subtendidas pela curva normal de 0 a z fotam
obtidas mediante o emprego da tabela do Apêndice II. Delas são deduzidas as áreas
subtendidas pela curva normal, entre dois valores sucessivos de z, apresentadas na
quinta coluna. Foram obtidas, mediante a subtração das áreas sucessivas da quarta
coluna, quando os z correspondentes têm o mesmo sinal e, sua soma, quando os
sinais são contrários (o que ocorre apenas uma yez na tabela). Arazã,o disso torna-se
imediatamente clara por meio de um diagrama.
Muttiplicando-se as casas da quinta coluna (que representam as freqüên-
cias relativas) pela freqüência total N (neste caso N = 100) obtém-se as freqüências
esperadas, relacionadas na sexta coluna. Vê-se que elas concordam com as freqüên-
cias reais ou observadas, constantes da úItima coluna.
Estatística Cap. 7

Se for desejado, pode-se adotar o desvio padrão corrigido, mediante o


emprego da correlação de Sheppard.

A "aderência do ajustamento" da distribuição será considerada no Capítulo 12.


22. A Tabela 7.7 mostra o número de dias /, de um período de 50, no qual ocorreram
X acidentes de automóvel em uma cidade. Ajustar uma distribuição de Poisson
para esses dados.

Solução
O número médio de acidentes é:

"
'"
À=L=
».fx (21)(0)+ (18)(1)+ (7)(2)+ (3)(3)+ (l)(4) 45
= 0.90.
2,Í 50

Tabela7.7

Ne de acidentes, X Ne de dias,.f

Total 50

Então, de acordo com a distribuição de Poisson:


0.1
Pr [X aciden,"r l = Q9Q1" '

Na Tabela 7.8 estão relacionadas as probabilidades para 0, l, 2, B, e 4


acidentes, obtidas dessa distribuição de Poisson, bem como os números teóricos ou
esperados de dias durante os quais ocorrem X acidentes (obtidos mediante a
multiplicação das respectivas probabilidades por 50). Por conveniência da compa-
raçã,o, repetiram-se na quarta coluna os números reais de dias.
Cap. 7 As distribuições binomial, normal e de Poisson 209

Tabela 7.8

Ne de qcidentes, X Pr {X acidentes} Ne esperado de diqs Ne real de diqs

0 o,4066 20,33 ou 2O 2t
1 0,3659 18,30 ou 18 18

2 0,1647 8,24 ou 8 7

3 0,0494 2,47 ou 2 -l

4 0.0111 0,56 ou 1 1

Note-se que a adaptação da distribuição de Poisson aos dados fornecidos é


boa.

Para uma distribuição de Poisson verdadeira, a variânci a é o2 = À. O cálculo


da variância, para a distribuição dada, deu 0,97. Esse valor é favoravelmente
comparável com o de 0,90, e esse fato pode ser considerado como uma evidência
adicional da conveniência da distribuição de Poisson para o ajustamento de dados
amostrais.

PROBLEMAS SU PLEMENTARES

A distribuição binomial
23. Determinar a probabilidade de: (a) 2 ou mais caras; (á) menos que 4 caras, em
uma jogada única de 6 moedas honestas.
Resp.: (a) 57164; (b) 21132.

24. SeXrepresenta o número de caras em uma jogada única de uma moeda honesta,
determinar: (a) Pr {X = 3}; (á) Pr lX < 2l; (c) Pr {X < 2l; @) Pr {1 < X < 3}.
Resp.: (a) tl4; (b) 5/16; (c) tlll6; (d) 5/8.

25. Entre 800 famílias com 5 crianças cada uma, quantas se esperaria que tives-
sem: (o) 3 meninos; (ó) 5 meninas; (c) 2 ou 3 meninos. Considerar probabilida-
des iguais para meninos e meninas.

Resp.: (a) 250; (b) 25; (c) 500.


210 Estatística Cap. 7

26. Um vendedor de seguros vende apólices a 5 homens, todos da mesma idade e


de boa saúde. De acordo com as tabelas atuariais, a probabilidade de um
homem, dessa idade particular, estar vivo daqui a 30 anos é de 2/3. Determinar
a probabilidade de estarem ainda vivos daqui a 30 anos; (o) todos os 5 homens;
(ó) pelo menos 3; (c) apenas 2; (d) pelo menos t homem.

Resp.: (a) 321243; (b) t921243; (c) 40/243; (d) 2421243.

27. Calcular, para uma distribuição binomial, com p = 0,7 e N = 60: (o) a média;
(ó) o desvio padrão;(c) o coeficiente do momento de assimetría;(d) o coeficiente
do momento de curtose. Interpretar os resultados.

Resp.: (a) 42; (ó) 3.550; (c) - 0,1127; (d) 2,927 .


28. Demonstrar que, se uma distribuição binomial com N = 100 é simétrica, seu
coeficiente de momento de curtose é 2,98.

A distribuição normal
29. Em um exame de estatística, a média foi 78 e o desvio padrão 10. (o) Deter-
minar os escores reduzidos de 2 estudantes cujos graus foram gB e 62, respec-
tivamente. (ó) Determinar os graus de 2 estudantes cujos escores reduzidos
foram respectivamente, -0,6 e 1,2.
Resp.: b) 1,5, -1,6; (á) 72,90.
30. Se z é normalmente distribuída, com média 0 e variância 1, determinar: (o) Pr
=-1,64};(b) Pr {- 1,96 <z í1,96]r; (c) Pr {l z I >1}.
{z
Resp.: (a) 0,9495; (ó) 0,9500; (c) 0,6826.
31. DeterminaÍ zt na expressão Pt Íz > z1l = 0,84, em que z é notmalmente
distribuída, com média 0 e variância l-.
Resp.: -0,995.
32. Determinar as ordenadas da curva normal para: (a) z = 2,25; (b) z = -0,32; (c)
z = - 1,18.
Resp.: (o) 0,0317; (ó) 0,3790; (c) 0,1989.
33. Se as alturas de 300 estudantes são normalmente distribuídas, com média
L72,72 cm e desvio padrão 7,62 crr,, quantos estudantes têm alturas: (o)
superiores a 182,88 cm; (ó) iguais a162,56 ou menores; (c) entre 165,10 cm e
Cap. 7 As distribuições binomial, normal e de Poisson 211

180,34 cm inclusive; (d) iguais a 172,72 cm? Admitir que as medidas foram
registradas até centímetros.
Resp.: (a) 20; (b) 36; (c) 277; (d) 40.
34. Se um conjunto de medidas é normalmente distribuído, qual a percentagem
das que diferem da média de: (o) mais da metade do desvio padrão; (ó) menos
de 314 do desvio padrão?
Resp.: (a) 6I,77o; (b) 54,7Vo.
35. Se X 0 a média e s o desvio padráo de um conjunto de medidas normalmente
distribuídas, que percentagens delas estão: (o) dentro do intervalo tXt 2s);(bl
fora do intervalo çXxl,2s); (c) superiores a (X- 1,5s)?
Resp.: (a) 95,4Vo; (b) 23,07o; k) 93,37o.

36. No problema precedente, determinar a constante a de modo que a percentagem


dos casos: (o)dentro do intervalo (Xt os) seja 7íVo;(b) inferiores a(X - as) seja
22Vo.

Resp.: (o) 1,15; (b) 0,77.

Aproximação de uma curva normal à distribuição binomial


ôI. Determinar a probabilidade de, em 200 lances de uma moeda, resultarem: (o)
entre 80 e 120 caras, inclusive; (ó) menos de 90 caras; (c) menos de 85 ou mais
de 115 caras; (d) exatamente 100 caras.
Resp.: (a) 0,9962; (ó) 0,0687; (c) 0,0286; (d) 0,558.
38. Uma máquina produz parafusos, dos quais l07o sáo defeituosos. Determinar a
probabilidade de, em uma amostra tomada ao acaso de 400 parafusos produ-
zidos por essa máquina, serem defeituosos: (o) no máximo 30; (ó) entre 30 e
50; (c) entre 35 e 45; (d) 55 ou mais.
Resp.: (o) 0,0567; (b) 0,9198; (c) 0,6404; (d) 0,0079.
212 Estatística Cap.7

A distribuição de Poisson
39. Se 3Vo das iâmpadas elétricas fabricadas por uma companhia são defeituosos,
determinar a probabilidade de, em uma amostra de 100 lâmpadas, serem
defeituosos:'(o) 0; (b) 1; (c) 2; (d) 3; @) a; (fl 5 lâmpadas.
Resp.: (a) 0,04979; (b) O,l4g4; (c) 0,224t; (d.) 0,2241; (e) 0,1680; (/ ) 0,1008.
40. No problema anterior, determinar a probabilidade de serem defeituosos: (o)
mais de 5; (á) entre 1 e 3; (c) 2lâmpadas ou menos'
Resp.: (a) 0,0838; (b) 0,5976; (c) 0,4232.
41. Entre as 14 e 16 horas, o número médio de chamadas telefônicas por minuto,
atendidas pela mesa de ligações de uma companhia, é 2,50. Determinar a
probabilidade de, durante um determinado minuto, haver: (o) 0; (ó) l; (c) 2; (d)
3; (e) 4 ou menos, (l) mais de 6 chamadas telefônicas.
Resp.: (o) 0,08208 (b) 0,2052; (c) 0,2565; (.d) 0,2138; (e) 0,8911; (f ) 0,0142.

A distribuição multinomial
42. Determinar a probabilidade de não se obter 1,2 ou 3, em quatro lances de um
dado honesto.
Resp.: 318.

Ajustamento de dados por meio de distribuições teóricas


43. Ajustar uma distribuição binomial aos dados seguintes.

Resp.: p(X) = sCxQS2É (0,68)4-x..

As freqüências esperadas são: 32,60,43,13 e 2, respectivamente.

X 0 1 2 -1 4

f 30 62 46 10 2
Cap. 7 As distribuições binornial, normal e de Poisson 213

44. Ajustar uma distribuição normal aos dados do Problema 36, capítulo 3.

Resp.: As freqüências esperadas são: 7,7;5,5;72,0; 15,9;13,7;7,6;2,7; e 0,6,


respectivamente.
45. Em 10 unidades do exército prussiano, num período de 20 anos, 1875-1894, o
número de mortos por unidade e por ano, resultante de coices de cavalo, está
relacionado na seguinte tabela. Ajustar uma distribuição de Poisson a esses
dados.

Resp.: p(D =*t*ry' As freqüências esperadas são: 108,7; 66,3;20,2,


4,1 e 0,7, respectivamente.

X 0 1 2 1 4

Í 109 65 22 J 1
h
MAKRON
Gapítulo

Teoria elementar da amostragem

Teoria da amostragem
A teoria da amostragem é um,estudo das relações existentes entre uma populaçào
e as amostras dela extraídas. E de grande valor em muitas conjeturas. Por exemplo,
é útil para a estimação de grandezas desconhecidas da população (como sua média,
sua variância etc.), freqüentemente denominadas parâmetros populacionols ou,
abreviadamente, parãn1.etros, através de conhecimento das grandezas corres-
pondentes das amostras (como a média da amostra, sua variância etc.), muitas vezes
denominad as estatísticas amostrals ou, abreviadamente, estatísticas. Os problemas
de estimação serão tratados no Capítulo 9.
A teoria da amostragem é também útil para determinar se as diferenças
observadas entre duas amostras são realmente devidas a uma variação casual ou
se são verdadeiramente signiÍicativas. Essas questões surgem, por exemplo, ao se
testar um novo soro para ser empregado no tratamento de uma doença, ou ao
decidir-se se um processo de produção é melhor do que outro. As respostas a essas
questões implicam o uso dos denominados testes de significâ.ncia e hipóteses, que
são importantes nateoria das decisões. Eles serão considerados no Capítulo 10.

Em geral, um estudo de inferências, feito a respeito de uma população,


mediante a ttllízaçáo de amostras delas extraídas, juntamente com as indicações
da precisão dessas inferências, usando-se a teoria da probabilidade, é denominado
infer ência e statística.

214
Cap.8 Teoria elernentar da amostragem 215

Amostras aleatórias, números aleatórios


Afrm de que as conclusões da teoria da amostragem e da inferência estatística sejam
válidas, as amostras devem ser escolhidas de modo a serem representatluos de uma
população. O estudo dos métodos da amostragem e dos problemas correlatos que
surgem, é denominado planejamento de experiência.
Uma das maneiras segundo as quais se pode obter uma amostra repre-
sentativa é o processo denominado amostragem aleatório, de acordo com o qual cada
elemento de uma população tem a mesma possibilidade de ser incluído na amostra.
Uma técnica para a obtenção de uma amostra aleatória consiste em atribuir um
número a cada elemento da população, escrever esses números em pedacinhos de
papel, colôcá-los em uma urna e, depois, extraí-los dali, depois de misturá-los
cuidadosamente, antes de cada extração. Pode-se substituir esse processo pelo
emprego de uma tabela de números aleatórios (veja o Apêndice VII), especialmente
construída para essa finalidade.

Amostras com e sem reposição


Se um número é extraído de uma urna, deve-se decidir se ele será ou não reposto
na mesma antes de uma segunda extração. No primeiro caso, o número pode ocorrer
várias vezes, enquanto, no segundo, ele só pode aparecer uma vez. A amostra em
que cada elemento de uma população pode ser escolhido mais de uma vez é
denominada amostra com reposição, enqttanto, se cada elemento não pode ser
escolhido mais de uma yez, é denominada amostra sem reposição.
As populações podem ser finitas ou infinitas. Se, por exemplo, extraem-se
sucessivamente 10 bolas, sem reposição, de uma urna que contém 100, está se
tomando a amostragem de uma população finita, enquanto, se se lança uma moeda
50 vezes e se conta o total de caras, está se considerando a amostra de uma
população infinita.

Uma população finita, cuja amostragem é feita com reposiçào pode ser
considerada teoricamente, como infinita, visto que qualquer número de amostras
podà ser extraído sem exaurir a população. Para fins práticos, a amostragem de uma
população finita muito grande pode ser considerada como a de uma população
infinita.
216 Estatística Cap.8

Distri bu ições amostrais


Considerem-se todas as amostras possíveis de tamanho N que podem ser retiradas
de uma populaçáo dada (com ou sem reposição). Para cada amostra pode-se calcular
uma grandeza estatística, como a média, o desvio padrão etc., que varia de amostra
para amostra. Desse modo, obtém-se uma distribuição da grandeza que é denomi-
nada distribuição amostral. Se, por exemplo, a grandeza estatística particular
adotada for a média da amostra, distribuição será denominada distribuição amos-
tral das médias ou distribuição amostral da média. Semelhantemente, poder-se-ia
ter distribuições amostrais do desvio padrão, da variância, da mediana, das propor-
ções etc.
Para cada distribuição amostral pode-se calcular a média, o desvio padrão
etc. Em conseqüência, pode-se falar da média e do desvio padrão da distribuiçào
amostral das médias etc.

Distribuição amostral das médias


Admita-se que todas as amostras possíveis de tamanho N são retiradas, sem
reposição, de uma população finita de tamanho Np > N. Se a média e o desvio padrão
da distribuição amostral das médias forem designados por px e 6X, e os valores
correspondentes da população o forem por p e o, respectivamente então:

pr=peor---
G+ (1)

Se a população for inÍinita, ou se amostragem for tomada com reposição,


os resultados reduzir-se-ão a:

6
Ur=UeoÍ_-r:.
\N
(2)

Para grandes valores de N (N > 30), a distribuição amostral das médias é


aproximadamente normal, com média p7 e desvio padrão o 5 independentemente
da população desde que a variância e a média da população sejam finitas e o
tamanho desta seja no mínimo, o dobro do da amostra). Esse resultado, para uma
população infinita, é um caso especial do teorema do limite central da teoria
avançada da probabilidade, q:ue mostra que d, precisã,o da aproximaçã,o melhora
quando N cresce. Isso é indicado, algumas vezes, dizendo-se que a distribuição
amostral é as sirutomaticamente normal.
Cap. 8 Teoria elementar da amostragem 217

No caso da população ser normalmente distribuída, a distribuição amostral


das médias também o será, mesmo para pequenos valores de N (isto é, N < 30).

Distribuição amostral das proporções


Admita-se que uma população seja inÍinita e que a probabilidade da ocorrência de
umevento(denominadoseusucesso)ép,enquantoadesuanão-ocorrênciaéq=l-p.
Por exemplo, a população pode ser constituída de todos os lances possíveis de uma
moeda honesta, sendo p = 112 a probabilidade do evento "càrà".

Considerem-se todas as amostras possíveis de tamanho N extraídas desta


população e, para cada amostra, determinemos a proporção P de sucessos. No caso
da moeda, P seria a proporção de caras que aparecessem em N lances. Entáo,
obtém-se ulac.a distribuição amostral das proporções, cuja média, pp, e desvio padrào,
op, são dados por:

VPPeor=\K (3)

p=p eo=
que se pode obter de (2), fazendo
"6í
Para grandes valores de N (N > 30), a distribuição amostral é, muito
aproximadamente, normal. Note-se que a populaçáo é distribuída binomialmente.
As Equações (3) são também válidas para uma população Íinita, cuja
amostragem seja tomada com reposição.
Para populações finitas, cuja amostragem é obtida sem reposição, as
Equações (3) são substituídas pelas Equações (1) com p = p e o = | pq .

Note-se que as Equações (3) são obtidas mais facilmente, dividindo-se por N
a média e o desvio padrão (Np e í-lrrpq I da distribuição binomial (veja o Capítulo 7).

Distribuição amostral das diÍerenças e somas


Admita-se que são dadas duas populações. Para cada amostra de tamanho N1,
retirada da primeira população, calcula-se uma grandeza estatística S1. Isso produz
uma distribuição amostral dessa grandeza estatística 51, cuja média e desvio
padrão são respresentados por lrSr ê 65r, respectivamente. Semelhantemente,
para cada amostra de tamanho N2, retirada da segunda população, calcula-se uma
218 Estatística Cap. I

grar,d.ezà estatística 52. Obtém-se uma distribuição amostral dessa grandeza S2,
cuja média e desvio padrão são representados por lrsz osz . De todas as combina-
"
ções possíveis dessas amostras das duas populações, pode-se obter uma distribuição
das diferenças S1 - 52, denominada distribuiçã.o amostral das diferenças das
estatísticas. A média e o desvio padrão dessa distribuição amostral, representados,
respectivamente, por p5l- s2 ôSr- Sr, são dados por:
"
Fs,-s, = [rs,- Fs, e o5,-su = (4)

desde que as amostras escolhidas não dependam de modo algum uma da outra, isto
é, que elas sejam indeperudentes.

Se 51 e S2 são as médias das amostras das duas populações, repre-


sentadas por X1 e X2, entáo a distribuição amostral das diferenças das médias,
para populações infinitas, com as médias e os desvios padrões pl, 01 ê ltz, c,2,
respectivamente, é dada por:

lLXt- x2= F*,- VÍ, = ltt- VZ oÍr - 6X, =


"

or2 o2'
N1-
. (s)
N2

mediante o emprego das Equações (2). O resultado vale, também, para populações
finitas, se a amostragem foi tomada com reposição. Podem ser obtidos resultados
semelhantes para populações Íinitas, cuja amostragem for feita sem reposição,
mediante o emprego das Equações (1).
Resultados correspondentes podem ser obtidos para as distribuições amos-
trais das diferenças de proporções de duas populações distribuídas binominalmente,
com os parâmetros pb qt e p2, e2, respectivamente. Nesse caso, S1 e 52 corres-
pondem às proporções dos sucessos, Py e P2, e as Equações (4) produzem os
resultados:

VPr- Pr= FP,- lLP2 = Pr- P2 e 6pr-pz =

P1 qt P2 q2
ofi+ ofi * N2
(6)
^,,
Cap. 8 Teoria elementar da amostragem 219

Se N1 e N2 são grandes (Nr e N2 2 30), as distribuições amostrais das


diferenças das médias ou das proporções têm, muito aproximadamente, distribuição
normal.

Tabela 8.1
Erros Padrões para Algumas Distribuições Amostrais

Distribuição Erro padrão Observações especiais


qmostrql

Médias Essa expressão é válida para grandes e pequenas


"x=tr amostras. A distribuição amostral das médias é
muito aproximadamente normal para N > 30,
mesmo quando a população não é normal. p t =
= pt, média populacional em todos os casos.
Proporções As observações feitas paras as médias
aplicam-se também a este caso.Jtp = p, em todos
os casos.

Desvios o ParaN> 100, a distribuição anormal de s é muito


Padrões
(1) os =
aproximada da normal.
-.rw
o, é dado por (1), somente quando a população
for normal (ou aproximadamente normal). Se
(2) or isso não ocorrer, pode ser usada a expressão (2).
Note-se que (2) se transforma em (1), quando p2
= = o2 e F4 = 3o4, do que é verdadeiro para
populações normais. Para N > 100, 1rs = o,
aproximadamente.
Medianas Para N 2 30, a distribuição amostral da mediana
omed = o\
f n = 1.25330 é muito aproximada da normal. O resultado
zn, i7y obtido somente é válido quando a população é
normal (ou aproximadamente normal). ltmed = F.
Primeiro e 1.36260 As observações feitas para as medianas aplicam-
AO.= 6,1. = t--
Terceiro \jN se também a este caso. pB, e [rO3 são, apro-
Quartis ximadamente. iguais ao primeiro e ao terceiro
quartis da população. Note-se qlue oQ2 = omed.
(continua)
220 Estatística Cap. I

Tabela 8.1
(ContinuaÇã,o)

6Dr= aDs=l.7O94o As observações feitas para as medianas aplicam-


,T se também a este caso.

Decis Vo.,,ü»r...são, aproximadamente iguais ao pri-


oDz = ors:
meiro, segundo ... decis da população.
^/N
1,31800 =
6Dz _ 6Dr=
Note-se que oD5 omed.
\F-
1,26800
ODt _ 6Du=
N
Amplitude 0.7867o As observações feitas para as medianas aplicam-
Semi-
oo=
- !N
- se também a este caso. Fq é, aproximadamente,
inter- igual à amplitude semi-interquartílica da
quartíliÇa população.
Variâncias As observações feitas para o desvio padrão apli-
(l) or2 = o2 cam-se também a este caso. Note-se que (2) pro-
drz (1), no caso da população ser normal.
Vr2 = o2 (N - l)/N,que é muito aproximado de
ltq - o2, para grande valor de ly'.
o, 2 =
lLz2
(2)
1/

Coeficiente v Neste caso, v = o/1r é o coeficiente de variaçào


de Variação 61 =,- da população. O resultado obtido vale para
12N popu- lações normais (ou aproximadamente
normais) e para I/ > 100.

É conveniente, muitas vezes, falar-se da d.istribuição amostral d,a soma de


estatísticas. A média e o desvio padrão dessa distribuição são dados por:

trls, + S, = !tS,+ trl5, e o5, + Sr = (1)

admitidas as amostras como indepertdentes.


Cap. 8 Teoria elementar da amostragem 221

Erros padrões
O desvio padrão da distribuição amostral de uma grandeza estatístíca é freqüen-
temente denominado seu erro padrão. Na Tabela 8.1 estão relacionados os erros
padrões de distribuições amostrais, para várias grandezas estatísticas, sob as
condições de amostragem aleatória de uma população infinita (ou muito grande) ou
de amostragem com reposição de uma população finita. Também estão relacionadas
observações especiais, que indicam as condições, sob as quais os resultados sào
válidos, e outras informações pertinentes.
As quantidades p, o, p, úreX, s, P, mrtepresentam, respectivamente, as
médias, os desvios padrões, as proporções e os momentos de ordem r, centrados na
média, para a população e para a amostra.
Note-se que, se o tamanho da amostra N for suficientemente grande, as
distribuições amostrais serão normais ou aproximadamente normais. Por esta
razáo, os métodos são conhecidos como métodos das grandes amostras. Quando N <
< 30, as amostras são denominadas pequenas. A teoria das pequenas dmostras, ou
das amostras exatas, como algumas yezes é denominada, será tratada no Capítu-
1o 11.

Quando os parâmetros populacionais, como p, p ou V, são desconhecidos,


eles podem ser aproximadamente estimados. por meio das grandezas estatísticas
correspondentes da amostra, a saber, sIou'À = í.lrlz(IV- 1) s], P e m., se estas
forem suficientemente grandes.

PROBLEMAS RESOLVIDOS

Distribuição amostral das médias


1. Uma população consiste em cinco números:2,3, 6, B, 11. Considerem-se todas
as amostras possíveis de 2 elementos que dela podem ser retiradas, com
reposição. Determinar: (a) a média da populaçáo; (b) o desvio padrão da
população; (c) a média da distribuição amostral das médias; (d) o desvio padrão
da distribuição amostral das médias, isto é, o erro padrão das médias.
222 Estatística Cap. I

Solução

(o) p= 2+3+6+B+11
=T=o'o'

(b) o2 (2- 6)2+ (3- 6)2+ (6- 6)2+ (8- 6)2+ (11- 6)2
=

=reaL#a25 = 10,8 e o=3,29.


(c) Há 5(5) = 25 amostras de dois elementos, que podem ser retiradas com
reposição (visto que qualquer um dos cinco números da primeira extração
pode ser associado a qualquer um dos cinco da segunda). Elas são:

(2,2) (2,3) (2,6) (2,8) (2, lt)


(3,2) (3,3) (3, 6) (3, 8) (3, 11)
(6,2) (6, 3) (6, 6) (6, 8) (6, ll)
(8, 2) (8,3) (8, 6) (8, 8) (8, 11)
(tt, 2) (11,3) (11,6) (11,8) (11, 11)

As médias das amostras correspondentes são:

(1) 2,0 ,)\ 4,0 5,0 6,5


)5 3,0 4,5 55 1,0
4,0 4,5 6,0 7,0 8,5
5,0 5,5 7,0 8,0 q5
6.5 1,0 8,5 9,5 I 1,0

e a média da distribuição amostral das médias é:

- soma de todas as méd iasdas amostras do item ( I ) . acima


trr= =;I 50 =6,0.
o que exemplifica o fato de ser p X = p .

(d) A variârrciao 72 da distribuição amostral das médias é obtida subtraindo-


se a média 6 de cada número de (1), elevando-se o resultado ao quadrado,
Cap. 8 Teoria elementar da amostragem

adicionando-se todos os 25 números assim obtidos e dividindo-se por 25. O


resultado final é:

o X2 = 135125= 5,40: assim: o7 = {5,4g = 2,32.

Isso ilustra o fato de ser ox2 = o2/N, para populações finitas cuja amos-
tragem seja tomada com reposição (ou para populações infinitas), visto que o
segundo membro dessa expressão tem o valor 10,8/2 = 5,40, que concorda com o
resultado anterior.

2. Resolver o Problema 1, no caso de amostragem sem reposição.

Solução
Como nos itens (a) e (ó) do Problema 1, p = 6 e o = 3,29.
(c) Há 5C2 = 10 amostras de 2 elementos dessa população, extraídas sem
reposição, o que signiÍica que é retirado um número e depois outro diferente
do primeiro, a saber:
(2,3), (2,6), (2,8), (2,11), (3,6), (3,8), (3,1 1), (6,8), (6,11), (8,11).

A seleção (2,3), por exemplo, é considerada igual a(.3,2).


As médias das amostras correspondentes são:
2,5,4,0,5,0, 6,5 4,5, s,s,7,0,7,0,8,5, 9,5.
e a média da distribuição amostral, das médias é:

2,5 + 4,0 + 5,0 + 6,5 + 4,5 + 5,5 + 7,0 + 7,0 + 8,5 + 9,5
Fx= l0 = 6,0,

o que exemplifica o fato de ser p X = p.


(d) A variância da distribuição amostral das médias é:

- 2 Q,5-6,q2+(4,0-
6x'= 6,0)2 u'=4.05eoÍ=2.0
+(5,0-6,0)2+...+ (9,5 -6,t')
1.

-z t'| '='-p nr\


xr - '-'
Isso é um exemplo de que Çy2 = 2=
NIN'-1'J'l, visto que o segundo
, .. ,
membro é iguat u
10é
-;= (5-z) -,.,"'
4.05, igual ao acima obtido.
[- )=
224 Estatística Cap. I

3. Admite-se que as alturas de 3.000 estudantes do sexo masculino de uma


universidade são normalmente distribuídas, com a média 172,72 cm e o desvio
padrão 7,62 cm. Se forem obtidas 80 amostras de 25 estudantes cada uma,
quais serão a média e o desvio padrão esperados da distribuição amostral das
médias resultantes se a amostragem for feita: (o) com reposição; (ó) sem
reposição?

Solução
O número de amostras de 25 elementos que podem ser obtidas teoricamente de um
grupo de 3.000 estudantes, com e sem reposição, são: (3.000)25 e g000C25, respecti-
vamente, muito maiores do que 80. Por isso não se obtém uma verdadeira distribui-
ção amostral das médias, mas apenas uma experimentol. Apesar disso, visto que o
número de amostras é grande, haverá uma concordância muito estreita entre as
duas distribuições amostrais. Por isso, a média e o desvio padrão esperados esta-
riam muito próximos dos da distribuição teórica. Por conseguinte:
(a) px= p = 172,72cm e ox = od N = 7,62/{25 = 1,524cm.

$) vx= p = t72,72cm e ox =
# {#+ =
W\ffi
que é apenas ligeiramente menor do que 1,524 crn e pode, portanto, para todos os
fins práticos, ser considerado igual ao da amostragem com reposição.
Em conseqüência, poder-se-á esperar que a distribuição amostral experi-
mental das médias seja aproximadamente normal, com a média 172,72 cm e o desvio
padrão 7,62 cm.
4. Em quantas amostras do Problema 3 pode-se esperar que a média se encontre;
(o) entre 169,67 cm e 173,48 cm; (á) abaixo de 169,65 cm?

Solução
A média X de uma amostra, em unidades reduzidas, é dada, neste caso,
por:

x- pt, x - t72,72 .
ot t.524
Cap. 8 Teoria elementar da amostragem

(a) 169,67 cm em unidades reduzidas = (169,67 - L72,72)11,524 = -2,0;

173,48 em unidades reduzidas = (173,48 - 172,72)11,524 = 0,5.

Proporção das amostras com a média entre 169,67 e 173,48 ç6 = (área


subtendida pela curva normal entre z = -2,0 ez =0,5) =(áreaentrez =-2ez =0) +
+ (área errtrez=0ez = 0,5) =0,4772 + 0,1915 = 0,6687.
Então, o número esperado de amostras = 80 (0,6687) ou 53.
(ó) 169,66 em unidades reduzidas = (169,66 - 172,72)11,524 = -2,67.
Proporção das amostras com média inferior a 169,66 gm = (área subtendida
pela curva normal à esquerda de z = -2,67) = (áreaà esquerda de z = 0) - (área entre
z = -2,67 e z = 0) = 0,5 - 0,4962 = o,oo38.
Então, o número esperado de amostras = 80 (0,0038) = 0,304 ou zero.

-2,67

Distribuição amostral das proporções


5. Verificou-se que 27o das ferramentas produzidas por uma certa máquina são
defeituosas. Qual é a probabilidade de, em uma remessa de 400 dessas ferra-
mentas, revelarem-se defeituosas: (o) 37o ot mais; (ó) 2Vo ou menos?

Solução

vp=p = 0,02e op = ''tTqlN = {0,02(0,98/400 =0,14/20=0,oo7'


(o) Usando a correção para variáveis discreta s,1/2N = 1/800 = 0,00125, tem-se:
0,03-0,00125-0,02
(0,03 - 0,00125) em unidades reduzidas = -_ 1,25.
0,007

Probabilidade deseiada = (ârea subtendida pela curva normal à direita de


z=1,25)=0,1056.
Se não se tivesse feito correção' obter-se-ia 0,0764.
Estatística Cap. I

Outro método
(37o de 400) = 12 ferramentas defeituosas. Baseado na continuidade, 12 ou mais
ferramentas significam 11,5 ou mais.
y = (2Vo de 400) = 8 e o =^[Npq = {(400X0,02X0,9S) = 2,8.
Então, 11,5 em unidades reduzidas = (11,5 - 8)/2,8 = 7,25 e, como ante-
riormente, a probabilidade desejada é de 0,1056.

(á) (0,02 + 0,00125) em unidades reduzidas =


0,02 + 0,00125 - 0.02
= 0,18.
0,007
Probabilidade desejada = (ârea subtendida pela curva normal à esquerda
de z = 0,18) = 0,5000 + 0,0774 = 0,5714.

Se não tivesse sido feita a correção, obter-se-ia 0,5000. Pode também ser
usado o segundo método do item (o).

6. Uma prévia eleitoral mostrou que certo candidato recebeu 46Vo dos votos.
Determinar a probabilidade de uma seção eleitoral, constituída de (o) 200 ou
(ó) 1.000 pessoas, selecionadas ao acaso entre a população votante, apresentar
a maioria de votos a favor desse candidato.

Solução
(a) ptp = p = 0,46 e op =:[pr71g =',[0,+a1g,5a)/200 = 0,0352.
Como ll2 N = 11400 = 0,0025, a maioria estará indicada na amostra quando
a proporção a favor do candidato for (0,50 + 0,0025) = 0,5025 ou maior. (Essa
proporção também pode ser obtida, se se recordar que 101 ou mais indicam a maioria
mas, considerando a variável como contínua, o valor a adotar é 100,5 e, desse modo,
a proporção é:100,51200 = 0,5025).
Então, 0,5025 em unidades reduzidas = (0,5025 - 0,46)/0,0352 = 1,21.
Probabilidade desejada - (área subtendida pela curva normal à direita de
z = L,2l) = 0,5000 - 0,3869 = 0,1131.
(b) pp = p = 0,46 e op = {pqlN = {0,+O(O,S+y1.OOO = 0,0158.
0,5025 em unidades reduzidas = (0,5025 - 0,46)/0,0158 = 2,69.

Probabilidade desejada - (área subtendida pela curva normal à direita de


z = 2,69) = 0,5000 - 0,4964 = 0,0036.
Cap. 8 Teoria elementar da amostragem 227

Distribuições amostrais de diÍerenças e somas


7. As lâmpadas elétricas do fabricante Á têm duração média de 1.400 horas, com
um desvio padrão de 200 horas, enquanto as do fabricanteB têm duração média
de 1.200 horas, com um desvio padrão de 100 horas. Se forem ensaiadas
amostras aleatórias de I25lâmpadas de cada marca, qual será a probabilidade
das de marca Á terem vida média maior do que as de B de pelo menos: (o) 160
horas; (b) 250 horas.

Solução

Sejam Xa e Xg as durações médias das amostras Á e B, respectivamente. Então:

lL xA- ,B = F Ío - V xu = 1.400- 1.200 = 200 h.

( loo;2 , (2ooy2
125
T 125 = 20h.

A variável reduzida, para diferença das médias, é:

(M -,'-* ( Fxe- x) _ tlt JD_ 39


o Ío- *, 20

e é, com aproximação suficiente, distribuída normalmente.


(a) A diferença de 160 horas, em unidades reduzidas = (160 - 200)120 -- 2.

Probabilidade desejada - (ârea subtendida pela curva normal à direita de


-2) = 0,5000 + 0,4772 = 0,9772.
(ó) A diferença de 250 horas, em unid.ades reduzidas = (250 - 200)l2O = 2,50.

Probabilidade desejada = (área.subtendida pela curva normal à direita de


z- 2,50) = 0,5000 - 0,4938 = 0,0062.
8. A e B jogam uma partida"cata e coroa",lançando cada um 50 moedas. Á
vencerá ojogo se conseguir 5 ou mais caras do que B e, quando isso não ocorrer,
B vencerá. Determinar as vantagens contra a vitória deA em qualquerjogada
particular.
Estatística Cap. I

Solução
sejam P4 e Pp as proporções de "caras" obtidas por A e B. Admitindo-se que todas
as moedas são honestas, a probabilidadep de caras é ll2. Entáo:

FPo- P, = VPo- [tr, = 0 e oPA- Pa =

= 0,10.

Avariável reduzida, para a diferença em proporções, é z = (P6- Pg- 0)/0,10.


Considerando-se que a variável é contínua, 5 ou mais caras significam 4,5
ou mais, de modo que a diferença, em proporções, seria 4,5150 = 0,09 ou mais, isto
é, z será superior ou igual a (0,09 - 0)/0,10 = 0,9 (ou z > O,g). A probabilidade
correspondente é a âtea subtendida pela curva normal, à direita de z = 0,9, que é
(0,5000 - 0,3159) = 0,1841.

Em conseqüência, as vantagens contra a vitória de Á são de (1 - 0,1841) +


+ 0,1841 = 0,8159 - 0,1841, ou de 4,43 para 1.

9. As medidas de duas distâncias sáo 27,3 m e 15,6 m, com os desvios padrões


(erros padrões) de 0,16 m e 0,08 m, respectivamente. Determinar a média e o
desvio padrão da: (o) soma; (ó) diferença das distâncias.

Solução
Se as distâncias forem representadas por D1e D2, então:
(a) pnr+ Dz= $or+ Itor= 27,3 + 15,6 = 42,9 metros;

aDr+ D, = (0,16)2 + = 0,18 metro.

(b) ltpr- Dz= wD, - vDr= 27,3 - 15,6 = ll-,7 metros;

aDt- Dz= = { loJoyzTlõpgz= 0,18 metro.


Cap. 8 Teoria elementar da amostragem

10. Um certo tipo de lâmpada elétrica tem vida média de 1.500 horas, com o desvio
padrão de 150 horas. Três lâmpadas são instaladas de modo que, quando uma
se queima, outra começa a funcionar. Admitindo-se que as vidas médias são
normalmente distribuídas, qual é a probabilidade da iluminação estar assegu-
rada durante: (o) pelo menos 5.000 horas; (à) no máximo 4.200 horas?

Solução
Admita-se que as vidas médias sejam Lt Lz e L3. Então:

FLr+ Lr+ Lj= lLLr* Vrr* Vrr= 1.500 + 1.500 + 1'500 = 4'500 horas;

6Lr+ Lr+ Lr= = aE(tsof = 260 horas.

(o) 5.000 horas em unidades reduzidas = (5.000 - 4.500)1260 = I,92.


Probabilidade desejada = (ârea subentendida pela curva normal, à direita
de z = 7,92) = 0,5000 - 0,4726 = 0,0274.
(ü 4.200 horas em unidades reduzidas = (4.200 - 4.500)1260 = - 1,15.

Probabilidade desejada - (área subentendida pela curva normal, à esquer-


da de z = - 1,15) = 0,5000 - 0,3749 = 0,125L.

PROBLEMAS RESOLVIDOS

11. O desvio padráo dos pesos de uma população muito grande de estudantes é
5 kg. Tiram-se, dessa população, amostras de 200 estudantes cada uma e
calculam-se os desvios padrões dos pesos, em cada amostra. Determinar: h) a
média; (ó) o desvio padrão da distribuição amostral dos desvios padrões.

Solução
Pode-se considerar que a amostragem provém de uma população inÍinita ou de uma
finita com reposição. De acordo com o exposto na Tabeia 8.1'
(o) Média da distribuição amostral dos desvios padrões = Fs = o = 5 kg.
230 Estatística Cap. 8

(á) Desvio padrão da distribuição amostral dos desvios padrões =

- 6s = o/l2I{ = 5/{ 4OO = o,25kg.


12. Que percentagem das amostras, no problema anterior, teria desvios padrões:
(o) superior a 5,5 kg; (ó) inferior a 4,4kg?

Solução
A distribuição amostral dos desvios padrões é, aproximadamente, normal com a
média 5 kg e o desvio padrão 0,25 kg.
(a) 5,5 kg em unidades reduzidas = (5,5 - 5)/0,25 = 2,0. /*rea subentendida pela
curva normal, à direita d,e z = 2,0 é:
(0,5 - 0,4772) = 0,0228. Então, a percentagem pedida é 2,3Vo.
(b) 4,4 kgem unidades reduzidas - (4,4 - 5,0)10,25 = - 2,4. Área subentendida
pela curva normal, à esquerda de z = - 2,4 é:
(0,5 - 0,4918) = 0,0082. Então, a percentagem pedida é 0,8Vo.

PROBLEMAS SU PLEMENTARES

Distribuição amostral das médias


13. Uma população consta de 4 números: 3, 7, 11, 15. Considerar todas as amostras
possíveis de 2 elementos, que podem ser retiradas com reposição. Determinar:
(o) a média populacional; (á) o desvio padrão da população; (c) a média da
distribuição amostral das médias;(d) o desvio padrão da distribuição amostral
das médias. Verificar (c) e (d) diretamente, por meio de (o) e (ó), usando as
fórmulas apropriadas.
Resp.: (o) 9,0; (b) 4,47; (c) 9,0; (d) 3,16.
14. Resolver o problema anterior quando a amostragem for em reposição.
Resp.: (a) 9,0; (b) 4,47; (c) 9,0; (d) 2,58.
Cap. 8 Teoria elementar da amostragem 231

15. Certas válvulas fabricadas por uma companhia têm uma vida média de 800
horas e desvio padrão de 60 horas. Determinar a probabilidade de uma amostra-
aleatória de 16 válvulas, retiradas do grupo,ter a vida média: (o) entre 700 e
810 horas; (ó) inferior a 785 horas, (c) superior a820 horas; (d) entre 770 e 830
horas.

Resp.: (a) 0,4972; (ó) 0,1587; (c) 0,0918; (d) 0,9544.


16. Resolver o problema anterior, supondo uma amostra aleatória de 64 válvulas.
Explicar a diferença.
Resp.: (o) 0,8164; (b) 0,0228; (c) 0,0038; (d) 1,000.
L7. Os pesos dos fardos recebidos por um depósito têm uma média de 150 kg e um
desvio padrão de 25 kg. Qual a probabilidade de 25 fardos, recebidos ao acaso
e carregados em um elevador, não exceder o limite específico de segurança
deste úItimo, que é de 4.100 kg?
Resp.: 0,0026.

Distribuição amostral das proporções


18. Determinar a probabilidade de, entre 200 crianças nascidas: (o) menos de 40Vo
serem homens; (ó) entre 43 e 57Vo serem meninas; (c) mais de 54Vo serem
meninos. Considerar a mesma probabilidade de nascimento de meninos e
meninas.
Resp.: (o) 0,0019; (ó) 0,9596; (c) 0,1151.
19. Entre 1.000 amostras de 200 crianças cada uma, em quantas se esperaria
encontrar: (o) menos de 40Vo de meninos; (ó) entre 40 e 607o de meninas; (c)
537o ou mais de meninas.

Resp.: (a) 2; (b) 996; (c) 218.


20. Resolver o Problema 18 para o caso de serem consideradas 100 crianças ao
invés de 200. Explicar as diferenças.
Resp.: (o) 0,0179; (á) 0,8664; (c) 0,1841.
2L. Um fabricante faz a remessa de 1.000 lotes de 100 lâmpadas elétricas cada um.
Se íVo das lâmpadas são normalmente defeituosos, em quantos lotes pode-se
esperar que existam: (o) menos de 90lâmpadas boas; (ó) 98 ou mais lâmpadas
boas?

Resp.: (a) 6; (b) 125.


Estatística Cap. 8

Distribuição amostral de diÍerenças e somas


22. A e B fabricam dois tipos de cabos que têm tensões médias de ruptura de 2.000
e 2.250 kg e desvios padrões de 150 e 100 kg, respectivamente. Se 100 cabos
da marca A e 50 da marca B forem testados, qual é a probabilidade da tensào
média de ruptura de B ser: (o) pelo menos 300 kg maior do que a de Á; (ó) pelo
menos 225 kg maior do que a de A?

Resp: (a) 0,0077; (ó) 0,8869.


23. O escore médio dos estudantes, em um teste de aptidão, é de 72 pontos, com o
desvio padrão de 8 pontos. Qual é a probabilidade de dois grupos de estudantes,
constituídos de 28 e 36, respectivamente, terem seus escores médios divergen-
tes de: (o) 3 ou mais pontos; (ó) 6 ou mais pontos; (c) entre 2 e 5 pontos?
Resp.: (a) 0,2150; (á) 0,0064; (c) 0,4504.
24. Os resultados de uma eleição mostram que certo candidato recebeu 657o dos
votos. Determinar a probabilidade de duas amostras aleatórias, constituída
cada uma de 200 eleitores, indicarem mais de L1Vo de diferença nas proporções
dos que votaram a seu favor.

Resp.: 0,0316.
25. Três pesos são determinados com os valores 10,24, 17,99 e 31,17 kg, com o
desvio padrão de 0,11, 0,23 e 0,27 kg, respectivamente. Determinar: (o) a
média; (ó) o desvio padrão da soma dos pesos.
Resp.: (a) 59,40 kg; (ó) 0,37 kg.
26. A voltagem média de uma bateria é 15 volts e o desvio padrão 0,2 volts. QuaI
é a probabilidade de 4 dessas baterias, ligadas em série, apresentarem uma
voltagem total de 60,8 ou mais volts?
Resp.: 0,0228.
27. Exemplificar o uso da Tabela de Números Aleatórios na seleção dos elementos
de uma amostra.
Cap. 8 Teoria elementar da amostragem

Problemas diversos
28. Uma população de 7 números tem média 40 e desvio padrão 3. Se forem
retiradas dessa população amostras de cinco elementos e for calculada a
variância de cada amostra, determinar a média da distribuição amostral das
variâncias, quando a amostragem for tomada: (o) com reposição; (ó) sem
reposição?

Resp.: (a) 7,2; (b) 8,4.


29. Certas válvulas produzidas por uma companhia têm vida média de 900 horas
e desvio padrão de 80 horas. A companhia envia 1.000 lotes de 100 válvulas
cada um. Em quantos lotes pode-se esperar que: (o) a vida média exceda a 910
horas; (ó) os desvios padrões da vida média excedam a 95 horas? Que hipóteses
podem ser feitas?

Resp.: (a) L06; (b) +.

30. Num exame, os graus foram normalmente distribuídos, com a média 72 e o


desvio padrão 8. (o) Determinar o grau mínimo d,os 20Vo de estudantes mais
bem colocados. (á) Determinar a probabilidade de, em uma amostra aleatória
de 100 estudantes, o grau mínimo dos 207o mais bem colocados ser menor do
que 76.

Resp.: (a) 78,7; (ô) 0,0090.


Capítulo

Teoria estatística da estimação

Estimação de parâmetros
No capítulo anterior, viu-se como a teoria da amostragem pode ser empregada para
a obtenção de informação relativa a amostras retiradas ao acaso de uma populaçào
conhecida. Do ponto de vista prático, entretanto, é freqüentemente mais importante
poder deduzir informações relativas a uma população, mediante a utilização de
amostras dela extraídas. Esses problemas dizem respeito à inferência estatística,
que utiliza os princípios da teoria da amostragem.

Um problema importante da inferência estatística é a estimação dos pard-


metros populacionais ou, abreviadamente, p arâmetros (tais como a média, a variân-
cia da população etc.), deduzidos da estatística amostral correspondente, ou,
abreviadamente, estatística (isto é, a média, a variância da amostra etc.). Esse
problema será considerado neste capítulo.

Esti mativas não-tendenciosas


Se a média da distribuição amostral de uma estatística for igual ao parâmetro
populacional correspondente, a estatística será denominad a estimador rtão-tenden-
closo do parâmetro e, se isso não ocorrer, ela será estimador tenderucioso. Os valores
correspondentes dessas estatísticas são denominados estimatiuas nõ'o-tertdenciosas
ou tendenciosas.

234
Cap.9 Teoria estatística da estimacã,o 235

Exemplo 1. A média da distribuição amostral das médias, p 5 é igual a p,


isto é, à média populacional, como foi visto quando se abordou a distribuição
amostral das médias do capítulo anterior. Por isso, a média amostral X é uma
estimativa não-tendenciosa da populacional p.

Exemplo 2. A média da distribuição amostral das variâncias pr2 é igual a


N- 1 q

? 02, em que 02 é a variância populacional e N o tamanho da amostra (veja a


Tabela 8.1 do Capítulo 8). Então, a variância amostral é o*a estimativa ten-
"2
denciosa da variância populacional o2. Adotando-se a variância modificada s2 =
Nr.^. que pr2 é igual a 02, d.e modo que 2é o*u
=
#: s2, verifica-se ê estimativa
não-tendenciosa de o2. Entretanto, â é uma estimativa tendenciosa d.e o.

Em termos de esperança matemática (veja o Capítulo 6) poder-se-ia dizer


que uma estatística é não-tendenciosa quando sua esperança é igual ao parâmetro

populacional correspondente. Então, X eÀz são não-tendenciosas, porque E {8 =p


er{âr,J =o'.

Esti mativas ef icientes

Se as distribuições amostrais de duas estatísticas têm a mesma média (ou esperan-


ça), a estatística de menor variância é denominada estimador eficiente da média,
enquanto a outra estatística denomina-se estimador ineficiente. Os valores corres-
pondentes das estatísticas são denominados estimatiuas eficientes ou ineficientes,
respectivamente.
Considerando-se todas as estatísticas possíveis, cujas distribuições amos-
trais têm a mesma média, a de menor variância é, às vezes, denominad,a a mais
eficiente ou o melhor estimador desta média.
Exemplo: As distribuições amostrais da média e da mediana têm, ambas,
a mesma média, que é a populacional.. Entretanto, a variância da distribuição
amostral das médias é menor do que a de distribuição amostral das medianas (veja
a Tabela 8.1). Por isso, a média amostral dá uma estimativa eÍiciente da média
populacional, enquanto a mediana amostral dá, para ela, uma estimativa ineficiente.
De todas as estimativas estatísticas de média populacional, a média da
amostra é a que proporciona a estimativa melhor ou mais eficiente.
Na prática as estimativas ineficientes são freqüentemente usadas por
causa da relativa facilidade com que algumas delas podem ser obtidas.
Estatística Cap. I

Estimativas por pontos e por intervalos. Fidedignidade


A estimativa de um parâmetro populacional, dada por um número único, é denomi-
nada estimatiua por ponto. A estimativa de um parâmetro populacional, dada por
dois números, entre os quais pode-se considerar que ele esteja situado, é denomina-
do estimatiua por interualos.
As estimativas por intervalos indicam sua precisão ou exatidão e são,
portanto, preferíveis às estimativas por pontos.
Exemplo: Dizendo-se que uma distância tem para medida 5,28 m, está se
apresentando uma estimativa por ponto. Se, por outro lado, se disser que a distância
mede 5,28 + 0,03 m, isto é, que ela está compreendida entre 5,25 e 5,31 m,
apresenta-se uma estimativa por intervalo.
A declaração do erro ou precisão de uma estimativa é freqüentemente
denominada, sua ft.dedignidade.

Estimativas do intervalo de conÍiança dos parâmetros


populacionais
Sejam ps e os a média e o desvio padrão (erro padrão) da distribuição amostral de
uma estatística S. Então, se a distribuição amostral de S é aproximadamente
normal (o que se tem verificado ser verdade para muitas estatísticas, quando o
tamanho da amostra N > 30), pode-se esperar que se encontre uma estatística
amostral real, ,S, situada nos intervalos de ps - os a ps + og, de 1rs - 2os a pg + 2o,
ou de pg 3oS a
- [rS + 3os, aproximadamente, em 68,27, 95,45 e gg,737o de vezes,
respectivamente.
De modo equivalente, pode-se esperar, ou estar confiante de encontrar-se
ps nos intervalos deS - o" a S + 6", de S -2og a S + 2og ou de S - 3og a S + 3og,
aproximadamente, err.68,27Vo,95,457o e99,737o de vezes, respectivamente, Por esse
motivo, esses intervalos serão denominados, respectivamente, interualos de con-
fiança de 68,27Vo,95,45Vo e 99,73Vo para a avaliação d" ps. Os números extremos
desses intervalos (S + og, S t 3og) são então denominados limites de confiança de
68,27Vo,95,45Vo e 99,737o e, algumas vezes, limites fiduciais.

De modo semelhante, S + 1,96os e S + 2,58og são limites de confiança de


957o e 997o (ou 0,95 e 0,99) para S. A percentagem de confiança é freqüentemente
denominadaníuel de confianço. Os números 1,96, 2,58 etc., dos limites de confiança,
são denominados coeficientes de confiança ot ualores críticos, e são representados
por zc. Os coeficientes de confiança podem ser deduzidos dos níveis de confiança e
reciprocamente.
Cap. 9 Teoria estatística da estimaçdo ooa

ATabela 9.1 dá os valores de z. correspondentes a vários níveis de confiança


adotados na prática. Para os que não constam na tabela, os valores de e" podem ser
encontrados nas tabelas de áreas da curva normal (veja o Problema 4).

Tabela 9.1

Limite
de con- 99,1370 997o 987o 967o 95.45Vo 95Ío 907o 80Vo 68,2770 5O7o

fiança
ZC 3.00 2,58 ? 11 2,05 2,00 1,96 t.645 |.28 1,00 0,6145

Estimativas do intervalo de conÍiança para médias


Se a estatística S é a média amostral X, então os limites de confiança de 95Vo e 997o,
para a estimaçào da média populacional trr, são dados por X t 1,96o x eX + 2,58o 7,
respectivamente.

De um modo geral, os limites de confiança são dados por X t z"o x, em que


zc, qve depende de um determinado nível de conÍiança particularmente desejado,
pode ser obtido na Tabela 9.1. Adotando-se os valores de o7 obtidos no Capítulo 8,
veriÍica-se que os limites de confiança, para a média populacional, são dados por:
R
X + '
2,. = --,
\N
(1)

no caso da amostragem de uma população infinita, ou com reposição, de uma


população finita, e por:

x+ z'= --i, \,//'p' o)

quando a amostragem for sem reposição extraída, de uma populaçáo finita de


tamanho Nr.
Em geral, o desvio padrão da populaçáo o, é desconhecido, de modo que,
para se obterem os limites de confiança anteriores, emprega-se a estimativa da
amostra,ê ou s. Isso será satisfatório desde que N = 30. Para N < 30, a aproximação
é insuÍiciente e deve ser empregada a teoria das pequenas amostras (veja o Capítulo 11).
238 Estatística Cap. I

lntervalos de conÍiança para proporções


Se a estatística S é a proporção dos "sucessos" de uma amostra de tamanho N,
retirada de uma população binomial, na qual p é aquela proporção (isto é, sua
probabilidade), os limites de confrança de p são dados por P * zr6p, em que P é a
proporção dos sucessos da amostra de tamanho N. Adotando-se os valores de op
obtidos no Capítulo 8, verifica-se que os limites de confiança para a proporção da
população são dados por:

P* zc{# =P* zc{a(1.2 (3)

no caso da amostragem de uma população infinita, ou com reposição, de uma


população finita, e por:

P*zcrH\F (4)

quando a amostragem for sem reposição, de uma população finita de tamanho Nr.
Para calcular estes limites de conÍiança pode-se empregar a estimativa da
amostra P, para o valor de p, o que, de modo geral, será satisfatório quando N = 30.
E apresentado, no Problema 7, um método mais exato para a obtenção desses limites
de confrança.

lntervalos de conÍiança para diÍerenças e somas


Se S1 e 52 são as estatísticas de duas distribuições amostrais aproximadamente
normais, os limites de confiança para as diferenças dos parâmetros populacionais,
correspondentes a S1 e 52, são dados por:

St - Sz* zcosr - Sz = 51 - 52* z. (s)

enquanto os limites de confiança para soma desses parâmetros o são por:

51+ 52+ zcosr* Sz = 51* 52* z. (6)

contando que as amostras sejam independentes (veja o Capítulo 8).


Cap. 9 Teoria estatística da estimação

Por exemplo, os limites de confiança para diferença de duas médias popu-


lacionais, no caso das populações serem infinitas, são dados por:

x1+ X2! zr,.y, vr=tt- xztr. (7)


{ #.#,
em que XL ot, N1 e X2, o2, N2 são as médias, os desvios padrões e os tamanhos
respectivos de duas amostras retiradas das populações.
De modo semelhante, os limites de confiança para diferença de duas
infinitas são dados por:
proporções de populações

Pt- PZ* zropt- pz= P1- P2* z,


p{r - p) pz(r - pz)
(8)

em que P1e P2 são as duas proporções amostrais, N1 e N2 são os tamanhos das duas
-T
amostras retiradas das populações e pte p2 sào as proporções das duas populações
(estimadas por Py e P).

lntervalos de confiança para desvios padrões


Os limites de confiança para o desvio padrão o, de uma população normalmente
distribuída, quando for deduzido de uma amostra cujo desvio padrão é s, são dados
por:

(e)

mediante o emprego da Tabela 8.1 do capítulo anterior. No cálculo desses limites de


confiança usa-se ooâ para a avaliação de o.
"

Erro provável
Os limites de conÍiança de 50Vo dos parâmetros populacionais, correspondentes a
uma estatística S, são dados por S + 0,6745o9. O valor de 0,6745og é conhecido como
o erro prouó,uel da estimativa.
Estatística Cap.9

PROBLEMAS RESOLVIDOS

Estimativas não-tendenciosas e eÍicientes


1. Dar um exemplo de estimadores (ou estimativas) que sejam: (o) não-tenden-
ciosos e eficientes; (b) não-tendenciosos e ineficientes; (c) tendenciosos e inefi-
cientes.

Solução
(o) A média da amostraE ea variância amostral corrigidaâ 2 = Ne.
dois desses exemplos. N_ 1 s" sao
(á) Amediana e a estatística da amostruf,rqr+ 8s), em que Qr e 8e são os
quartis mais baixo e mais alto da amo"stra, são dois exemplos. Ambas as
estatísticas são estimatívas não-tendenciosas da média populacional, visto
que a média de suas distribuições amostrais é a média populacional.
(c) O desvio padrão da amostra s, o corrigido â, o desvio médio e a amplitude
semi-interquartílica são quatro exemplos.
2. IJma amostra constante de cinco medidas do diâmetro de uma esfera foi
registrada por um cientista com os valores 6,33, 6,37, 6,36, 6,32 e 6,37 cm.
Determinar as estimativas não-tendenciosas e eficientes da: (o) média verda-
deira; (ó) variância verdadeira.

Solução
(o) Estimativa não-tendenciosa e eÍiciente da média verdadeira (isto é, a
média populacional) =
§ Y 6,33+ 6,37 + 6,36+ 6,32+ 6,37 ?
-A- N 5
= o'o5 cm'

(á) Estimativa não-tendenciosa e eficiente da variância verdadeira (isto é, a


variância populacional) =

Ar N o Z .X-XI2
=s- =N-t"-= N-1 =
Cap. 9 Teoria estatística da estirnaçd,o 241

_ (6,33-6,35)2+(6,37-6,35)2+(6,36-6,35)2+(6,32-6,85)2+(G,BT-6,85)2
5-1

= 0,00055cm2.

Note-se q,r" â = { O,OOOSS = 0,028 é uma estimativa do desvio padrão


verdadeiro, mas ela não é não-tendenciosa nem eÍiciente.

Estimativa do interualo de confiançaparaa mália populacionat


3' As medidas dos diâmetros de uma amostra aleatória de 200 rolamentos
esféricos produzidos por uma certa máquina, durante uma semana, apre-
sentaram a média d,e 0,824 pol e o desvio padrão de 0,042 pol. Determinar os
limites de confiança de: (o) 95vo; (b) 99vo, para o diâmetro médio de todos os
rolamentos esféricos.

Solução

(a) Os limites deconÍiança degSzosão:X+ 1,g6oliF=Xt r,goâzílf =0,g24+


+ 1,96(0,042/í 2OO) = 0,824 + 0,00sg pol. ou 0,g24 + 0,006 pol.

(ó) Os limites de confiançade99Vo são: X t2,58o/lN =X+,25gâ2n[ N =


= 0,824 + 2,58(0,O42// 200) = 0,824 + O,OO77 pol. ou 0,g24 + 0,00g pol.

Note-se que se admitiu que o desvio padrão registrado é o corrigid,r, â. Su


tivesse sido s, teríamos adotado s = fiy7g1r- I = { 2OO/lgg s, que pod" .e,
siderado igual a s para todas as finalidades práticas. Geralmente, para N >"or- 80,
pode-se admitir qrr" são praticamente iguais.
" "â
4. Determinar os limites de confiança de: (a) 98Vo; (b) g\Vo; (c) gg,7\Vo, para o
diâmetro médio dos rolamentos esféricos do Problema 3.

Solução
(o) Admita-se que z = zc seja tal que a área subtendida pela curva normal, à
sua direita, é igual a l7o. Entáo, por simetria, a área à esquerda de z = -zc
é também igual a l7o de modo que a área sombreada é igual ag\Vo da total.
242 Estatística Cap. 9

Comoa área total subtendida pela curva é igual a l, a que está compre-
endida enttez =O ez = zcéig.ual a0,49; em conseqüência, zc=2,33.

Por isso, os limites de confianç a de 98Va são:X t 2,33o/{i = 0,824 + 2,33


(o,o42l{ 2oo) = 0,824 t o,oo69 pol.
(ó) Deseja-se o valor dez"para que a área compreendida enttez =0 ez =zc
seja igual a 0,45; então, zc = 1,645.

Por isso, os limites de confianç a d'e 90Vo são: X + 1,645 oNN = 0,824 +
+ 1,645 (O,O42l{ zrJ0\ = 0,8241 0,0049 pol.
(c) 9s limites de confiança de 99,737o sào: X t 3ol{N = 0,824 t 3

= (0,00421{ 200) = 0,824 + 0,0089 pol.

5. Ao medir o tempo de reação, um psicologista estimou que o desvio padrão era


de 0,05 segundo. Que extensão deve ser tomada para a amostra destinada às
medições para que se esteja: @) 95Vo e (ó) confiantes de que o erro dessa
estimativa não exceda a 0,01 segundo?

Solução
(a) Os limites de confiança de 95vo são: X t 1,96ozr[ÀI, sendo o erro da
estimativa de 1,96o,2{ N. Tomando-se o = s = 0,05 segundo, vê-se que o
erro será igual a 0,01 segundo, se (1,96) (0,05y{M = 0,01, isto é, {F =
= (1,96) (0,05)/0,01 = 9,8 ou N = 96,04.
Por conseguinte, pode-se estar 957o confiantes de que o erro da estimativa
será menor do que 0,01 quando N for igual a 97 ou maior.

Outro método

-F
(1,eo (0,0,
< o'ol tt ^/lv
(t.s6)(0.0,
) o,
r
ou {t>1t'eo-lQ'o-l=e,s.
0.01
Cap. 9 Teoria estatística da estimaçdo 245

Então,N>96,04ouN>97.
(ó) 9s limites de confiança de ggvo sáo; X + 2,58o/\[i. Entào, e,íg)
(0,05yiN = 0,01 ou N = 166,4. Em conseqüência, poder-se-á estar ggVo
conÍiantes de que o erro da estimativa será menor do que 0,01, somente
quando N for igual a 167 ou maior.

Estimativas do intervalo de conÍiança para proporções


6. O escrutínio realizado na amostra de 100 eleitores, escolhidos ao acaso entre
todos os votantes de um determinado distrito, indicou que 55Vo deles eram a
favor de um certo candidato. Determinar os limites de confiança: (a) gSVo; (b)
99Vo; (c) 99,737o, para a proporção de todos os votantes favoráveis àquele
candidato.

Solução
(o) Os limites de confiança de 95Vo, para a populaçãop, são:

P+ I,g6clp= p+ 1,96^f pG- pW = 0,55+ 1,96{0§5)O45l100=


= 0,55+ 0,10,

usando-se a proporção da amostra, P, como estimativa de p.


(á) Os limites de confiançade99Vo, parap, são:

0,55+ z,sg \i (0,50 OaSyloo = 0,55+ 0,18.

(c) Os limites de confiançade99,737o parap, são:

0,55 + 3 (055) (0,45n00 = 0,55 + 0,15.


^/
Para um método mais exato de resolução deste problema, veja o Problema 7.

7. (o) Se P é a proporção observada de sucessos em uma amostra de tamanho N,


mostrar que os limites de confiança para a estimação da proporção de
sucessos da população, p, com o nível de conÍiança determinado por 2", sào
dados por:
244 Estatística Cap. 9

P(l - P) zc-
P+ zr2+ 2, ---M- * 4N,

,*;
(ó) Empregar a fórmula deduzida no item @) para obter os limites de confiança
de 99,73Va, do Problema 6.
(c) Mostrar que, para grande valor de N, a fórmula do item (o) reduz-se a p =
- P * zc ^[P \l - P W , utilizada no Problema 6.

Solução
(o) A proporção da amostra P, em unidades reduzidas =

P- o P- a
op - p1/N
'',1 pç1-

Os valores maior e menor dessa variável reduzida sáo * zc, em que zc


determina o nível de confiança.Pata esses valores extremos, deve-se ter, portanto:
P-P=*:.r{P1t_ W '

Elevando-se ambos os membros ao quadrado:


f2 -2pr + p2 = zr2 p(l - p)lN.
Multiplicando-se ambos os membros por N e simplificando, obtém-se:
1N + zr21p2 - (2NP + zr2)p + NP2 = o.
Fazendo-se a = N * zr2, b - - (2NP + e c = NP2, essa equação
bp 0,cuja solução, em
""2)
relação ap, é dada pela fórmula:
transforma-se em: ap2 + + c =

+ zr'*
ZNP -t r2 ^l (2NP + zr2)2- 4(N+
zr")" - 4(N + ,r2
zr' (NP")
p= -h!
çNPz
2lN + zc2)

2NP + zr2 +
21N - zr2\

Dividindo-se o numerador e o denominador por 2N, afótmula torna-se


Cap. 9 Teoria estatística da estimaçdo 245

a2
e+fit2,
p= )
t* ?
(ó) Para os limites de confiança de 99,737o, zc = 3. Então, entrando-se corrr P =
= 0,55 € N = 100, na fórmula deduzida do item (o), encontra-se p = 0,40 e
0,69, que concorda com as soluções do Problema 6(c).
(c) Se ovalor de N for grande, então os valores de z"2l(2N), r"21(4N2) ,"21N
serão todos desprezivelmente pequenos e poderão ser considerados" nulos
e, dessa forma, obter-se-á o resultado desejado.

lntervalos de conÍiança para diÍerenças e somas


8. IJma amostra de 150 lâmpadas elétricas, da marca A, apresentou uma vida
média de 1.400 horas e um desvio padrão de 120 horas. Uma amostra de 100
lâmpadas elétricas, da marca B, apresentou uma vida média de 1.200 horas e
um desvio padrão de 80 horas.Determinar os limites de confiança de: (a) 957o;
(b) 997r, para a diferença entre as vidas médias das populações das marcas Á
eB.

Solução
Os limites de confiança para diferença entre as médias das marcas A e B são dadas
por:

xo- xux z, \'lollNs+ ollvp .

(o) Os limites de confiança de 95Vo sáo:

1.400 - 1.200 t 1,96 !(120)2ttso + (80)2/loo = 200 + 24,8.

Em conseqüência, pode-se estar 957o confiante de que a diferença entre as


médias populacionais esteja compreendida entre 775 e 225 horas'
(á) Os limites de confiança de 997o sào:

1.400 - 1.200 + 2,58 {(120)2 /É0+ (8q2/fi0 = 2oo + 32,6.


Estatística Cap.9

Por conseguinte, pode-se esíar 99Vo confiante de que a diferença entre as


médias populacionais esteja compreendida entre 167 e 233 horas.

9. Em uma amostra aleatória de 400 adultos e 600 adolescentes que assistem a


certo programa de televisão, 100 adultos e 300 adolescentes declararam que o
apreciam. Determinar os limites de confiança de: (a) 957o; (b) 99Vo, para a
diferença entre as proporções de todos os adultos e de todos os adolescentes
que assistem ao progrâma e o apreciam.

Solução
Os limites de confiança das diferenças entre as proporções dos dois grupos são dados por:

Pr- PzX rr{ p1q1lW1+ p2qYN2 ,

em que os índices 1 e 2 referem-se a adolescentes e a adultos, respectivamente.


Neste caso, P1 = 300/600 = 0,50 e Pz - 100/400 = 0,25 são, respectivamente, as
proporções dos adolescentes e dos adultos que gostam do programa.
(o) Limites de confiança de 957o;

0,50-0.25 + 1.96 =0.25 t0.06.


Em conseqüência, pode-se estar 957o confiante de que a verdadeira dife-
rença entre as proporções está compreendida entre 0,19 e 0,31.
(ó) Limites de confiança d,e 99Vo;

0,50 - 0,25 t 2,s8 ! (0,50) (0,50),/600 + (0,2, (0,15)/400 = 0,25 t 0,08.


Por conseguinte, pode-se estar 99Vo conÍiante de que a verdadeira diferença
entre as proporções está compreendida entre 0,1-7 e 0,33.

10. A força eletromotriz média das baterias produzidas por uma companhia é 45,1
volts e o desvio padrão 0,04 volt. Se 4 dessas baterias estão ligadas em série,
determinar os limites de confiança de: (o) 957o; (h) 997o; (c) 99,737o; (d') 50Vo,
para a força eletromotriz total.

Solução
Se -81, Ez, Eg e .84 representam as forças eletromotrizes das 4 baterias, tem-se:

VEr+ Er+ Es+ En = VEr.+ VEz+ lrEs + VEt " o-Er + Er+ Er* Et =
Cap. 9 Teoria estatística da estimaçõ.o 247

l_-..---.-.-
= !"r,' + oE: * ou? + oE?
Então, como

FE, = VE, = VE, = Vnn = 45,1vo1ts


"
oE, = oE, =oqs = ogr= 0,04 vol!

VE, + Ez + E, ', Et= 4(45,1) = 180,4 ê 06r + Er+ Er+ E+={ +(O,O+f = O,Og.
(o) Os limites de confiança de 957o são: 180,4 + 1,96(0,08) = 180,4 + 0,16 volts.

(ó) Os limites de conÍiança de 99Vo são: 180,4 + 2,58(0,08) = 180,4 + 0,2L volts.

(c) Os limites de confiança de 99,73Vo são: 180,4 t 3(0,08) = 180,4 + 0,24 volts.
(d) Os limites de confiança de 50Vo são: 180,4 + 0,6745(0,08) = 139,4 + 0,054
volts.
O valor 0,054 volt é denominado erro prouduel.

lntervalos de confiança para desvios padrões


11. O desvio padrão das durações de uma amostra de 200 lâmpadas elétricas foi
calculado como 100 horas. Determinar os limites de confiança de: (o) 95Vo; (b)
997c, para o desvio padrão de todas essas lâmpadas elétricas.

Solução
Os limites de confiança para o desvio padrão populacional, o, são dados por s +
tz" o/l 21,{, em que z" índica o nível de confiança. Adota-se o desvio padrão da
amostra como estimativa de o.
(a) Os limites de confiançad.e95Vo são: 100 + 1,96(100)l{ 4OO = 100 + 9,8.
Desse modo, pode-se estar 95Vo confiante de que o desvio padrão da
população está compreendido entre 90,2 e 109,8 horas.
(ó) Os limites de confiançad.e99Vo são: 100 + 2,58(100)l{ 4OO = 100 + 12,g.
Por conseguinte, pode-se estar 99Vo corrfrante de que o desvio padráo da
população está compreendido entre 87,1 e 112,9 horas.
248 Estatística Cap. 9

12. Que dimensáo deverá ser tomada, para a amostra das lâmpadas elétricas do
problema anterior, para que se esteja 99,737o confiante de que o verdadeiro
desvio padráo populacional não diferirá do da amostra de mais de: (a) 57a; (b)
l07o?

Solução

Os limites de confiança de gg,7|Ea, para o, são: s X 3o/{ Ü'l = s * 3s/{21'-,


adotando-se s como uma estimativa de o. Então, o erro percentual do desvio
padrão =

_ 3s/{ 2tv = 4go- %.


s \i2N
(o) 5s 300/{2N = 5, N = 1.800. Portanto, o tamanho da amostra deveria ser
1.800 ou maior.
(á) se 300/{ 2N = 10, N = 450. Em conseqüência, o tamanho da amostra
deveria ser 450 ou maior.

Erro provável
13. As voltagens de 50 baterias do mesmo tipo têm uma média de 18,2 volts e um
desvio médio padrão de 0,5 volt. Determinar: (o) o erro provável da média; (á)
Os limites de confiança de 507o.

Solução

(a) Erro provável da média = 0,6745o x = 0,6745- Lr


* = 0,6745+ =
!N !N
= 0,6745 *Lr-
' \iN-l = 0,6745t0,5/"{ agl = 0,048volts.
Observe-se que, se o desvio padrão de 0,5 volt for estimado como igual aâ,
o erro provávelé também de 0,6745 (0,54/ 50) = 0,048, de modo que pode ser adotada
qualquer estimativa, quando N for suficientemente grande.
(ó) Os limites de confianç a d.e 5O7o são: 18 t 0,048 volt.
Cap. 9 Teoria estatística da estimaçõ,o 249

PROB LEMAS SU PLEMENTARES

Estimativas não-tendenciosas e eÍicientes


14. IJma amostra de 10 válvulas de televisão produzidas por uma companhia
apresentou a vida média de 1.200 horas e o desvio padrão de 100 horas.
Estimar: (o) a média; (á) o desvio padrão populacional de todas as válvulas
produzidas pela companhia.
Resp.: (a) 1.200 horas; (b) 105,4 horas.
15. (o) Resolver o Problema 14 quando os mesmos resultados forem obtidos em 30,
50 e 100 válvulas de televisão (ó) Que se pode concluir acerca da relação entre
o desvio padrão da amostra e sua estimativa para a população, para diferentes
tamanhos da amostra?
Resp.: (o) As estimativas dos desvios padrões da população, para as amostras
de tamanhos 30, 50 e 100 válvulas são, respectivamente, 101,2; 101,0
e 100,5 horas. As estimativas das médias populacionais são iguais a
1.200 horas, em todos os casos.

Estimativa do intervalo de conÍiança para a média


populacional
16. Se o desvio padrão das durações das válvulas de televisão é estimado em 100
horas, que tamanho de amostra deveria ser tomado para que se estivesse
confiante: (a) 957o; (b) 907o; (c) 99Vo; (d.) 99,73Vo, de que o erro da estimativa da
duração média não exceda a 20 horas?

Resp.: (o) pelo menos 96; (á) pelo menos 68; (c) pelo menos 167; (d) pelo-menos
225.

17. Quais seriam os tamanhos das amostras do problema anterior, se o erro da


estimativa da duração média não devesse exceder a 10 horas.
Resp.: (o) pelo menos 384; (b) pelo menos 271; (c) pelo menos 666; (d) pelo
menos 900.
Estatística Cap. 9

18. Uma companhia tem 500 cabos. Um ensaio de 40 deles, selecionados ao acaso,
apresentou a tensão de ruptura média de 2.400 kg e o desvio padrão de 150 kg;
(o) quais são os limites de confianç a de 95Vo e 997a, para a estimação da tensão
de ruptura média dos 460 cabos remanescentes? (á) com que grau de confiança
se poderia dizer que a tensão de ruptura média dos 460 cabos remanescentes
é de 2.400 t 35 kg?

Resp.: (a) 2.400 + 45 kg, 2.400 + 59 kg; (b) 87,6Vo.

Estimativa do intervalo de conÍiança para a proporção


19. Acredita-se que uma eleição apresentará uma diferença muito pequena de
votos entre dois candidatos. Qual é o número mínimo de eleitores favoráveis a
um deles que assegure uma confiança de: (a) 807o; (b) 90Va; (c) 95Vo; (d) 99Vo na
decisão a favor de um dos candidatos?
Resp.: (o) 16.400; (b) 27 .r00; (c) 38.420; (d) 66.600.

lntervalos de confiança para diÍerenças e somas


20. A dois grupos semelhantes de pacientes, A e B, constantes de 50 e 100
indivíduos, respectivamente, foram dados: ao primeiro, um novo tipo de sopo-
rífero e, ao segundo, um tipo usual. Para os pacientes do grupo Á, o número
médio de horas de sono foi de 7 ,82, com o desvio padrão de 0,24 hora. Para os
pacientes do grupo B, o número médio de sono foi de 6,75, com o desvio padrão
de 0,30 hora. Determinar os limites de confrança de: (o) 957o; (b) 99Vo, para a
diferença dos números médios de horas de sono produzido pelos dois tipos de
soporíferos.
Resp.: (a) L,07 + 0,09 horas; (á) 1,07 + 0,12 horas.
21. Uma amostra de 200 parafusos produzidos por uma máquina apresentou 15
defeituosos, enquanto uma outra de 100, pro«iuzidos por outra máquina,
apresentou 12 defeituosos. Determinar os limites de conÍiança de: (o) 95Va; (b)
997a; (c) 99,73Vo, para a diferença das proporções das peças defeituosas prove-
nientes das duas máquinas. Discutir os resultados obtidos.
Resp.: (a) 0,045 + 0,073; (á) 0,045 + 0,097; (c) 0,045 + 0,112.
Cap. 9 Teoria estatística da estimaçdo 251

Intervalos de conÍiança para desvios padrões


22. O desvio padrão das tensões de ruptura de 100 cabos ensaiados por uma
companhia foi de 180 kg. Determinar os limites de confiança de: (o) gSVo; (b)
997o; (c) 99,73V0, para o desvio padrão de todos os cabos produzidos pela
companhia.
Resp. (o) 180 + 24,9 kg; (ó) 180 + 32,8 kg; (c) 180 t 38,2 kg.
23. Determinar o erro provável do desvio padrão do problema anterior.
Resp.: 8,6 kg.
24. Que tamanho de amostra deve ser tomado para que se esteja confiante: (o)
95Vo; (b) 997o; (c) 99,737o de que o desvio padrão de uma população não diferirá
do da amostra e mais de 2Vo?
Resp.: (a) pelo menos 4.802; (ó) pelo menos 8.32L; (c) pelo menos 11.250.
h
*§5,1P^
Capítulo
10

Teoria da decisão estatística,


testes de hipóteses e significância

Decisões estatísticas
Na prática, somos chamados com muita freqüência a tomar decisões acerca de
populações, baseadas nas informações das amostras. Essas decisões são denomina-
das decisões estatísticas. Por exemplo, pode-se desejar decidir, com base em dados
amostrais, se um novo soro é realmente eftcaz na cura de uma doença, se um
processo educacional é melhor do que outro, se uma certa moeda é viciada etc.

Hipóteses estatísticas. Hipóteses nulas


Ao se tentar chegar às decisões, é conveniente a formulação de hipóteses ou de
conjecturas acerca das populações interessadas. Essas suposições, que podem ser
ou não verdadeiras, são denominad as hipóteses estatísticas e, em geral, são afirma-
ções acerca das distribuições de probabilidade das populações.
Em alguns casos, formula-se uma hipótese estatística com o único propó-
sito de rejeitá-la ou invalidá-Ia. Por exemplo, se se deseja decidir se uma moeda é
viciada, formula-se a hipótese de que ela não o seja, isto é, P = 0,5, em que p é a
probabilidade de caras. De modo semelhante, se se deseja decidir se um processo é
melhor do que outro, formula-se a hipótese de que não hd diferença entre eles (isto
é, que quaisquer diferenças observadas sejam devidas meramente a flutuações das
amostras provenientes da mesnl.a população). Essas hipóteses são denominadas
hipóteses nulas e representamo-las por 116.

252
Cap. 10 Teoria da decisã.o estatística, testes de hipóteses e significância

Qualquer hipótese que difira de uma prefixada é denominada hipótese


alternatiua. Por exemplo, se se admite que p - 0,5, são hipóteses alternativas: p -
= 0,7, p + 0,5 oup > 0,5. Uma hipótese alternativa da nula é representada por I11.

Testes de hipóteses e significância


Admita uma hipótese particular como verdadeira, se se verificar que os resultados
observados em uma amostra aleatória diferem acentuadamente dos esperados para
aquela hipótese, com base na probabilidade simples mediante a utilização da teoria
da amostragem, poder-se-á concluir que as diferenças observadas são significatiuas
e ficar inclinados a rejeitar a hipótese (ou, pelo menos, a não aceitá-Ia com base nas
provas obtidas). Por exemplo, se 20 lances de uma moeda apresentarem 16 caras,
ficamos inclinados a rejeitar a hipótese de que a moeda é honesta, embora seja
concebível que se esteja incorrendo em erro.
Os processos que habilitam a decidir se se aceitam ou rejeitam as hipóteses,
ou a determinar se as amostras observadas diferem, de modo significativo, dos
resultados esperados, são denominados testes de hipóteses ot de significâ.ncia, ou
regras de decisã.o.

Erros do Tipo I e ll
Se uma hipótese for rejeitada quando deveria ser aceita, diz-se que foi cometido um
erro do Tipo L Se, por outro lado, for aceita uma hipótese que deveria ser rejeitada,
diz-se que foi cometido umerro do Tipo II. Em ambos os casos ocorreu uma decisão
errada ou um erro de julgamento.
Para que quaisquer testes de hipóteses ou regras de decisão sejam bons,
eles devem ser planejados de modo que os erros de decisão sejam reduzidos ao
mínimo. Isso não é tarefa simples, porquanto para um dado tamanho de alnostra,
a tentativa de diminuir um certo tipo de erro é acompanhada, em geral, pelo
acréscimo de outro tipo. Na prátíca, um tipo de erro pode ser mais importante do
que outro, de modo que se deve procurar uma acomodação que favoreça a limitação
do erro mais sério. O único caminho para a redução de ambos os tipos de erros
consiste em aumentar o tamanho da amostra, o que pode ou não ser possível.
254 Estatística Cap. 10

Nível de signiÍicância
Ao testar uma hipótese estabelecida, a probabilidade máxima com a qual estaremos
dispostos a correr o risco de um erro do Tipo I é denominadaníuel d,e significância
do teste. Essa probabilidade, representada freqüentemente por ü,, é geralmente
especificada antes da extração de quaisquer amostras, de modo que os resultados
obtidos não influenciem a escolha.
Na prática, é usual a adição de um nível de significância 0,05, ou 0,01,
embora possam ser usados outros valores. Se, por exemplo, é escolhido um nível de
significância 0,05 ou57o, no planejamento de um teste de hipótese, há então cerca
de 5 chances em 100, da hipótese ser rejeitada, quando deveria ser aceita, isto é, há
uma confiança de cerca de 95Vo de que se tome uma decisáo acertada. Nesses casos,
diz-se que a hipótese érejeitadano níuel de significâ,ncia 0,05, o que significa que
a probabilidade de erro seria de 0,05.

Testes que envolvem a distribuição normal


Para exemplificar as idéias apresentadas, admita-se que, sob uma certa hipótese,
a distribuição amostral de uma estatística S é normal, com a média Fs e o desvio
padrão og. Então, a distribuição da variável reduzida (ou escore z), dado por
z = (S - ps)/os é a distribuição normal reduzida (com média 0 e variância 1) que
está representada na Figura 10.1.

REGIAO i i REGTAO

-1 ,96 z = 1,96

Figura 10.1

Como está indicado na figura,'pode-se estar 957o confiante de que, se a


hipótese for verdadeira, o escore z de uma estatística amostral real, S, estará
compreendido entre -1,96 e 1,96 (visto que a área subtendida pela curva normal,
entre esses valores, é 0,95).
Entretanto, se, ao escolher uma única amostra aleatória, fosse verificado
que o escore z dessa estatística caí fora do intevalo de -1,96 a 1,96, concluir-se-ia
que esse evento poderia ocorrer com a probabilidade de apenas 0,05 (área total
sombreada na figura) se a hipótese estabelecida fosse verdadeira. Dir-se-ia, entào,
Cap. 10 Teoria da decisõ.o estatística, testes d,e hipóteses e significô.ncia

que esse escore z difere de modo significatiuo do que seria esperado daquela
hipótese, e se estaria propenso a rejeitá-la.
A área total sombreada, de 0,05, é o nível de significância do teste. Ela
representa a probabilidade de incorrer-se em erro na rejeição da hipótese, isto é, a
probabilidade de ser cometido um erro do Tipo I. Por essa razão diz-se que a hipótese
é rejeitada no níuel de significâ.ncia 0,05, ou que o escore z da estatística amostral
dada é significatiuo naquele nível.

O conjunto dos escores e, situados fora do intervalo de -1,96 a 1,g6,


constitui a denominada regido crítica de rejeição da hipótese ot de região de
significânclo. O conjunto dos escores z, compreendidos no intervalo de -1,96 a 1,g6
poderia, então, ser denominado regiõto de aceitação da hipótese ot regido de não-sig-
nificância.
Com base nas observações apresentadas, pode ser formulada a seguinte
regra de decisão, teste de hipóteses ou significância.
(o) Rejeição da hipótese no nível de significância 0,05, quando o escore z da
estatÍstica S situar-se fora do intervalo de -1,96 a 7,g6 (isto é, z > 1,96 ou
z < -1,96). Isso equivale a dizer que a estatística amostral observada é
significativa no nível 0,05.
(b) Aceitação da hipótese (ou, se for desejado, não tomar nenhuma decisão) no
caso contrário.

Como o escore e representa papel tão importante nos testes de hipóteses e


na signiÍicância, ele é também denominado teste estatístico.
Deve-se assinalar que poderiam ser utilizados outros níveis de significân-
cia. Por exemplo, se for adotado o nível 0,01, substituir-se-á, em toda a explanação
anterior, 1,96 por 2,58 (veja a Tabela 10.1). ATabela g.1do capítulo anterior pode
também ser usada, porque a soma do nível de significância com o de conÍiança é
igual a l00%o.

Testes unilaterais e bilaterais


Nos testes anteriores, manifestou-se interesse nos valores extremos da estatística
,S, ou nos escores z correspondentes de ambos os lados da média, isto é, em ambas
as "extremidades" da distribuição. Por esta tazã.o, esses testes são denominados
bilaterais ou dos dois lados.
Muitas vezes, entretanto, pode-se ter interesse apenas nos valores extre-
mos de um único lado da média, isto é, em uma "extremidade" da distribuição, como,
por exemplo, quando se está testando a hipótese de um processo ser melhor do que
256 Estatística Cap. 10

outro (o que é diferente de testar se um processo é meihor ou pior do que outro).


Esses testes são denominados unilaterais ot de um lado. Nesses casos, a região
crítica está situada de um só lado da distribuição e sua área é igual ao nível de
significância.
A Tabela 10.1, que dá os valores críticos de z para ambos os testes,
unilateral e bilateral, em vários níveis de signiÍicância, pode revelar-se útil como
referência. Os valores críticos de z, para outros níveis de signiÍicância, são deter-
minados mediante o emprego das tabelas de áreas da curva normal.

Tabela 10.1

Nível de 0, t0 0,05 0,01 0,005 0,002


significância a
Valores críticos -t,28 -1,645 -7 1l -2,58 -2,88
de z para testes ou 1,28 ou 1,645 ou 2.33 ou 2,58 ou 2.88
unilaterais
Valores críticos -1,645 -t,96 -2,58 -2,81 -3,08
de z para testes ou -1.645 e -1,96 e 2,58 e 2,81 e 3,08
bilateruis

Testes especiais
Para grandes amostras, as distribuições amostrais de várias estatísticas são nor-
mais (ou pelo menos, aproximadamente normais), com média pg, e desvio padrão
og. Nesses casos, podem ser utilizados os resultados da Tabela 10.1 para formular
regras de decisão ou testes de hipóteses e signifrcância. Os casos especiais seguintes,
tomados da Tabela 8.1, do Capítulo 8, são apenas algumas estatísticas de interesse
prático. Em cada caso, os resultados prevalecem para populações infinitas ou para
amostragem com reposição. Para amostragem sem reposição, extraída de popula-
ções finitas, os resultados devem ser modificados.

Médias. Neste caso, S =X e a média amostral; pS = pX= Lt é a média


l.
populacional; og = oX = oll N, em que trr é o desvio padrão populacional e N o
tamanho da amostra. O escore e é dado por:

X-tt'
p,z! N
Cap. 10 Teoria da decisdo estatística, testes de hipóteses e significô.ncia 257

euando for necessário, o desvio amostral, or, â, será adotado como a


estimativa de o.
"
2. Proporções. Neste caso, S = P é a proporção de "sucessos" em uma
amostra; ps = pp = p, em que p é a proporção populacional de sucessos e N o
tamanho da amostra; os = o, = {pq/N,em que q = | -p.O escore z é dado por:

-=!:P '
^"1 pq/N

No caso deP =XlN,em queXé o número real de sucessos emuma amostra,


o escore z torna-se:

--A
,, -
Np
t
",1--N pq

istoé, px = tt = Np;ox - o = {NPS eS=X.


De modo semelhante podem ser obtidos os resultados para outras esta-
tísticas.

Curvas características de operação. Potência de um teste


Viu-se como o erro d.e Tipo I pode ser adequadamente limitado, mediante a escolha
do nível de significância. É possível evitar inteiramente o risco de erros do Tipo II,
simplesmente pelo fato de não cometê-los, o que importa em nunca aceitar as
hipóteses. Em muitos casos práticos, entretanto, isto não pode ser feito. Nesses
casos, empregam-se freqüentemente as curuas características de operaçã,o o'tcurüas
CO, qrte são gráficos que indicam as probabilidades de erros do Tipo II, sob várias
hipótãses. Elas proporcionam indicações de como testes bem aplicados podem
possibilitar a redução ao mínimo de erros do Tipo II, isto é, elas indicam apotência
ào tuste, para evitar que sejam tomadas decisões erradas. São úteis no planejamento
de experiências, por amostragem, por exemplo, que tamanhos de amostras devem
ser usados.

Cartas de controle
Na prática, é muitas vezes importante saber quando um processo se modifica
.orr.ld""urelmente, de maneira que devem ser tomadas algumas medidas para
remediar a situação. Esses problemas surgem, por exemplo, no controle de qualida-
Estatística Cap. 10

de, em que se deve, muitas vezes rapidamente decidir se as variações observadas


são devidas simplesmente a flutuações ocasionais ou a variações reais do processo
de fabricação, resultantes da ayaria de elementos da máquina, erros de empregados
etc. As cartas de controle proporcionam um método simples e útil para tratàr desses
problemas (veja o Problema 12).

Testes de signiÍicância que envolvem diÍerenças amostrais

1. DiÍerenças das médias

Sejam X 1eX 2 as médias obtidas em duas grandes amostras, de tamanhos N1 e N2,


retiradas das populações respectivas que têm as médias p1 e p2 e os desvios padrões
01 e 02. Considere-se a hipótese nula de que não hd. diferença entre as médias
populacionais, isto é, p1 = tr[2, ou a de que as amostras são retiradas de duas
populações que têm médias iguais.

Fazendo lrr + Irz na Equação (5) do Capítulo 8, vê-se que a distribuição


amostral das diferenças entre as médias é aproximadamente normal, com a média
e o desvio padrão dados por:

!Í,-fr=o.oxr .rr=@ (l)


em que podemos, se for necessário, adotar os desvios padrões das amostragens, s1
,AA
e s2 (ou s1 e §r), como estimativas para 01 e 02. Usando-se as variáveis reduzidas,
ou os escores z dados por:

, =h:xz _
o
=*r - *_, (2)
oxr-xz oxr-kz
pode-se testar a hipótese nula contra hipóteses alternativas (ou a significância de
uma diferença observada), em um nível apropriado de significância.

2. DiÍerenças de proporções
Sejam P1e P2 as proporções obtidas em duas grandes amostras, de tamanhos N1 e
N2, retiradas das populações respectivas, que apresentam as proporções pr e p2.
Cap. 10 Teoria da decisã.o estatística, testes de hipóteses e significâ.ncia

Considere-se a hipótese nula de que não há. diferença entre os parâmetros das
populações, isto é, pt = p2, e dessa forma as amostras sáo realmente retiradas da
mesma população.
Fazendo-se pL = p2 - p, írà Equação (6) do Capítulo 8, vê-se que a distribui-
ção amostral da diferenças das proporções é aproximadamente normal, com a média
e o desvio padrão dados por:

Itp., - p,= 0 e op, - pz={ pSUNn VN, (3)

NrPt+ NtPz
emquep=-ffiéadotadocomoumaestimativadaproporçãopopu1acional
eq=L-p.
Usando-se a variável reduzida
Pt- P2- O Pt- Pz
z= §Pt- Pz
=_6Pr- Pz (4)

podem ser testadas as diferenças observadas, num nível apropriado de signiÍicância,


e, por este meio, testar a hipótese nula.

Semelhantemente, podem ser planejados os testes que envolvem outras


estatísticas.

Testes que envolvem a distribuição binomial


Os testes que envolvem a distribuição binomial, bem como as de outras espécies,
podem ser planejados de modo anáIogo aos que se utilizam da distribuição normal,
sendo os princípios básicos essencialmente os mesmos (veja os Problemas 16 e t8).

PROBLEMAS RESOLVIDOS

Testes de médias e proporções, usando distribuição


normal
1. Determinar a probabilidade de obter-se entre 40 e 60 caras, inclusive, em 100
Iances de uma moeda honesta.
260 Estatística Cap. 10

Solução
De acordo com a distribuição binomial, a probabilidade desejada é:

roÉ+o
[j ]*[j]uo * roú+r
Ii]- [, ]'n * + roúoo Ij]"[jJ-.
como Np = 100í1)" Nn = .r00[] ambos maiores do que 5, pode-se
l.u"
empregar, para o cálculo J"'*lu ,ornr, o ajustãmento normal à distribuição binomial.

A média e o desvio padrão do número de caras, em 100 lances, são dados


por:

v=Np= 1oo[;)=ro.o- G;= -5.

Considerando-se a escala contínua, o intervalo entre 40 e 60 caras, inclu-


sive, é o mesmo que entre 39,5 e 60,5 caras.

39,5 em unidades reduzidas = (39,5 - 50y5 = -2,10.


60,5 em unidades reduzidas = (60,5 - 50)/S = 2,10.
Probabilidade desejada = área subtendida pela curva normal e1tre z =
= -2,10 ez =2,10 =2(.áreaentrez =0 ez =2,10) =2(O,4g2l) =0,g642.
2. Para testar a hipótese de que uma moeda é honesta, adotou-se a seguinte regra
de decisáo:
(1) Aceitar a hipótese, se o número de caras, em uma única amostra de 100
lances, estiver entre 40 e 60, inclusive.
(2) Rejeitá-la em caso contrário.
(a) Determinar a probabilidade de ser rejeitada a hipótese, quando ela for
realmente correta.
(à) Interpretar graficamente aÍegra de decisão e o resultado do item (o).
(c) Que conclusões se poderiam tirar do fato de uma amostra de 100 lances
apresentar 53 caras? 60 caras?
(d) Poder-se-ia estar errado nas conclusões do item (c)? Explicar.
Cap. 10 Teoria da decisã,o estatística, testes de hipóteses e significâ.ncia 261

REGIAO -DE REGIÃO -DE


REJErÇAO REJErÇAO

z=-2,10 2=2,10
(39,5 caras) (60,5 caras)

Figura 10.2

Solução
(o) De acordo com o Problema 1, a probabilidade de não se obter entre 40 e 60
caras, inclusive, quando a moeda é honesta, é igual a 1 - 0,9642 = 0,0358.
Então, a probabilidade da hipótese ser rejeitada quando e1a é correta =
= 0'0358.
(ó) A regra de decisão é ilustrada pela Figura 10.2, que mostra a distribuição
de probabilidade das caras em 100 lances de uma moeda honesta.

Se uma única amostra de 100 lances resultar num escore z, compreendido


entre -2,10 e 2,10, aceitar-se-á a hipótese; no caso contrário, ela será rejeitada e
decidir-se-á que a moeda é viciada.
O erro cometido ao rejeitar a hipótese, quando deveria ser aceita, é do Tipo
I da regra de decisão e a probabilidade de cometê-Io é igual a 0,0358, conforme o
item (o), e é representado pela área total sombreada da figura.

Se em uma única amostra de 100 lances ocorrer um número de caras, cujo


escore z (ou estatística z) caía na região sombreada, dir-se-á que o escore z difere
de maneira significatiuo do que seria esperado se a hipótese fosse verdadeira. Por
esta razão, a ârea total sombreada (isto é, a probabilidade de um erro Tipo I) é
denominad aníuel de significâ.ncia da regra de decisão e é igual a 0,0358, neste caso.
Portanto, fala-se em rejeição da hipótese do nível de significância 0,0358 ou 3,587o.
a hipótese da moeda ser
(c) De acordo com a regra de decisão, deve-se aceitar
honesta, em amboS oS Casos. Pode-se argumentar que, Se apenas mais uma
cara fosse obtida,teríamos rejeitado a hipótese. Isso é o que se tem de
enfrentar, quando é utilizada uma linha tênue de divisão na tomada de
decisões.
(d) Sim. Poder-se-ia aceitar a hipótese quando deveria ser rejeitada, e esse
seria o caso, por exemplo, se a probabilidade de caras fosse, realmente, de
0,7 em vez de 0,5. o erro cometido ao aceitar a hipótese, quando deveria
ser rejeitada, é do Tipo II da decisão. Para ulterior desenvolvimento, veja
osProblemasSal0.
Estatística Cap. 10

3. Planejar uma regra de decisão para testar a hipótese de uma.moeda ser


honesta, quando é considerada uma amostra de 64 lances e é adotad.o o nível
de significância: (o) 0,05; (ó) 0,01.

Solução
(o) Primeiro método: Se o nível de significância é 0,05, cada área sombreada
da Figura 10.3 é de 0,025, por simetria. Então, a área entre 0 e 21 Q,§QQQ
0,0250 = 0,4750 e z1- 1,96.
= -
-
Então, uma regra de decisão possível será:
(1) Aceitar a hipótese de que a moeda é honesta quando e estiver compre-
endido entre - 1,96 e 1,96.
(2) Rejeitá-la no caso contrário.

Figura t0.B

os valores críticos - 1,9G e 1,96, podem também ser retirados da Tabela


10.1.

Para exprimir essa regra de decisão em relação ao número de caras e serem


obtidas em 64lances da moeda, note-se que a média e o desvio padrão da distribuição
das caras são dados por:

V = Np = 64(0,5) = 32eo = {W =r/O+(OJ) (OO =+,


para a hipótese de que a moeda é honesta. Então, z = (x
- ltyo=(x-82)t+.
sez = 1,96,(X-32)l+ = 1,g6 ouX= 39,g4. Sez = _1,96, (x_32)14 = _1,g6
ou X = 24,16.
Portanto, a regra de decisão torna-se;
(1) Aceitar a hipótese de que a moeda é honesta, quando o número de caras
estiver compreendido entre 24,76 e 39,84, isto é, entre 25 e Bg, in-
clusive.
Cap. 10 Teoria da decisõ.o estatística, testes de hipóteses e significô.ncia

(2) Rejeitá-la, no caso contrário.


Segundo método: Com a probabilidade de 0,95, o número de caras estará
situado entre p* 1,96 e p + 1,96o, isto é, Np -1,96 {NpS eNp + 1,96 {Npq, o,
entre 32 -1,96 (4) = 24,16 e 32 + 1,96 (4) = 39,84, o que conduz à regra de decisão
anterior.

Terceiro método:-1,96 <z <1,96 é equivalente a-1,96 .f,,X- 32) <


< 1,96. Então, -1,96 (4) <(X-32) <1,96(4), ou 32 - 1,96 @) <X<32+ 7,96(4),
isto é, 24,76 < X < 39,84, o que também conduz à mesma regra anterior.
(ó) Se o nível de significância é 0,01, cada área sombreada da tr'igura 10.3 é
0,005. Então, a área entre 0 e zr - 0,5000 - 0,0050 = 0,4950 e zy - 2,58
(mais exatamente,2,575). Esse valor pode também ser retirado da Tabela
10.1.

Adotando-se o processo do segundo método, para o item (o), vê-se que, a


probabilidade de 0,99, o número de caras estará situado entre p - 2,58o e
p + 2,580, isto é, 32 * 2,58 (4) = 21,68 e 32 + 2,58 (4) = 42,32.
Em conseqüência, a regra de decisão torna-se:
(1) Aceitar a hipótese, quando o número de caras estiver compreendido
entre 22 e 42, inclusive.
(2) No caso contrário, rejeitá-la.

4. Como se planejaria uma regra de decisão para o Problema 3, a fim de evitar


um erro do Tipo II?

Solução
Comete-se um erro do Tipo II quando se aceita uma hipótese que deveria ser
rejeitada. Para evitá-lo, em vez de aceitar a hipótese, simplesmente não se á rejeita,
o que pode significar que se está evitando qualquer decisão a respeito. :Em conse-
qüência, podemos, por exemplo, redigir a regra de decisão, para o Problema 3(ó), da
seguinte forma:
(1) Nao rejeitar a hipótese, quando o número de caras estiver compre-
endido enfue 22 e 42, inclusive.
(2) No caso contrário, rejeitá-la.
Estatística Cap. 10

Em muitos exemplos práticos, entretanto, é importante decidir se uma


hipótese deverá ser aceita ou rejeitada. Um estudo completo desses casos exige a
consideração dos erros do Tipo II (veja os Problemas 8 a 10).

5. Em uma experiência sobre a percepção extra-sensorial (PES) um indivíduo


(sujeito), em uma sala, é solicitado a declarar a cor vermelha ou preta de uma
carta escolhida, de um baralho bem embaralhado de 50 cartas, por outro
indivíduo colocado em outra sala. O sujeito desconhece quantas cartas verme-
thas ou pretas há no baralho. Se o sujeito identifica corretamente 32 cartas,
determinar se os resultados são significativos, nos níveis de significância: (o)
0,05; (ó) 0,01.

Solução
Sep é a probabilidade do sujeito declarar corretamente a cor de uma carta, deve-se
decidir, então, entre as duas hipóteses seguintes:
HO: P = 0,5,

e o sujeito está simplesmente adivinhando, isto é, os resultados sào


devidos ao acaso.
Ht: p ) 0,5, e o sujeito tem faculdades de P.E.S.

Escolhe-se um teste unilateral, visto que não há interesse na aptidão de


obter escores extremamente baixos mas, ao contrário, na de obter escores altos.
Se a hipótese Ils for verdadeira, a média e o desvio padrão do número de
cartas corretamente identificadas são dados por:

It = Np= 50(0,5) =25 e o ={ W =^/ 50(05; (0j) = {t2J = 3,5+.


(o) Para um teste unilateral no nível de significância 0,05, deve-se escolherzl,
na Figura 10.4, de modo que a área sombreada da região crítica dos escores
altos seja 0,05. Então, a âreaentre 0 e zL - 0,4500 e zt - 1,645. EsÉe valor
pode também ser tirado da Tabela 10.1.

Portanto, a regra de decisão ou teste de significância será:


(1) Se o escore z observado for maior do que 7,645, os resultados serão
significativos no nível 0,05, e o indivíduo tem faculdades de P.E.S.
(2) Se o escore z for menor do que 1,645, os resultados são devidos ao acaso,
isto é, não serão significativos no nível 0,05.
Cap. 10 Teoria da decisã.o estatística, testes de hipóteses e significância 265

Figura 10.4

Como 32, em unidades reduzidas, é igual a (32 - 25)13,54 = 1,98, superior


aL,645, a decisão (1) é válida, isto é, conclui-se que, no nível 0,05, o indivíduo tem
faculdades de P.E.S.
Note-se que, na realidade, aplicar-se-ia uma correção de continuidade,
posto que 32, em uma escala contínua, está compreendido entre 31,5 e 32,5.
Entretanto, 31,5 tem um escore reduzido de (31,5 - 25)13,54 = 1,84 e, então,
chegar-se-ia à mesma conclusão.
(b) Se o nível de significânciaé 0,01, então a áreaentre 0 e z = 0,4900 e z1 =
= 2,33. Como 32 (ou 31,5), em unidades reduzidas, é 1,98 (ou 1,84), inferior
a2,33, conclui-se que os resultados nã.o sã.o significatiuos no nível 0,01.
Alguns estatísticos adotam a seguinte terminologia: os resultados signifr-
cativos no nível 0,01 são altamente significatiuos; os significativos no nível 0,05,
mas não no 0,01, sáo prouauelmente significatiuos; os resultados signiÍicativos em
níveis superiores a 0,05 sáo nã,o-significatiuos.
De acordo com esta terminologia, concluir-se-ia que os resultados da
experiência sáo prouauelmente significatiuos, de modo que se justificam investiga-
ções ulteriores do fenômeno.
Como os níveis de significância servem de guia para a tomada de decisões,
alguns estatísticos citam as probabilidades reais pertinentes. Por exemplo, neste
problema, como Pr lz > 1,84 | =0,0322, os estatísticos diriam que, baseados na expe-
riência, as probabilidades de incidir em erro, ao concluir-se que o indivíduo tem
faculdades de PES é, aproximadamente de 3 em 100. A probabilidade citarla neste
caso, 0,0322, é, às rrezes, denominada nível de significâ.ncia experimental ou descri-
tiua.

6. O fabricante de uma droga medicinal reivindicou que ela era gl%o eficaz em
curar uma alergia, em um período de 8 horas. Em uma amostra de 200 pessoas
que tinham alergia, a droga curou 160 pessoas. Determinar se a pretensão do
fabricante é legítima.
266 Estatística Cap. 10

Solução
Sejap a probabilidade de obter-se a cura da alergia, mediante o uso da droga. Então,
deve-se decidir entre duas hipóteses:
Ho:P = 0,9, e a Pretensão é correta.
Ht:p<0,9, eelaéfalsa.
Escolhe-se um teste unilateral, porque não há interesse em determinar se
a proporção de pessoas curadas pela droga é muito baixa.

Figura 10.5

Se o nível de signiÍicância considerado é 0,01, isto é, se a área sombreada da


Figura 10.5 é 0,01, então zI = -2,33, como se pode verificar, conforme o Problem a 5(b),
utilizando-se a simetria da curva ou a Tabela 10.1. Toma-se para a regra de decisão:
(1) A pretensão não será legítima quando e for inferior a -2,38 (e, nesse
caso, rejeita-se Ilo).
(2) No caso contrário, a pretensão será legítima e os resultados observados
são devidos ao acaso (e, então, aceita-se FIg).

Se Iís é verdadeira,

p =NP = 200(0,9) = 180 o = {Npq = \D00(0,g) (0,1) = 4,28,


"
Isso posto, 160, em unidades reduzidas = (160 - 180)14,23 = - 4,73, que é
muito menor do que -2,33. Portanto, de acordo com a regra de decisão, conclui-se
que a pretensão não é legítima e que os resultados da amostra sáo altamente
significatiuos (veja o Problema 5, item final).

7 . A tensão de ruptura dos cabos produzidos por um fabricante apresenta a média


de 1.800 kg e o desvio padrão de 100 kg. Mediante nova técnica no processo de
fabricação, proclamou-se que a tensão de ruptura pode ter aumentado. Para
testar essa declaração, ensaiou-se uma amostra de 50 cabos, tendo-se deter-
minado a tensão média de ruptura de 1.850 kg. Pode-se confirmar a declaração
no nível de significância 0,01?
Cap. 10 Teoria da decisã.o estatística, testes de hipóteses e significô,ncia 267

Solução
Deve-se decidir entre duas hipóteses:
Í10:p=1.800k9e,
nesse caso, não há realmente modificação da tensão de ruptura.

Ht: V > 1.800 kg e, então, há modificação daquela tensão.


Deve-se, neste caso, empregar um teste unilateral. O diagrama relativo a
este teste é idêntico ao do Problema 5.
No nível de signifrcância 0,01, a regra de decisão será:
(1) Se o escorez observado for superior a2,33, os resultados serão signiÍi-
cativos no nível 0,01, e Hgserá rejeitada.
(2) No caso contrárío, Hg será aceita ou a decisão ficará em suspensão.
Para a hipótese de que I19 é verdadeira, determina-se:

x- P 1.850- 1.800
-:= o{ru - loo/{ so
- r ii

superior a2,33. Conclui-se, portanto, que os resultados sáo altamente significatiuos


e a declaração é confirmada.

Curvas características de operação


8. Com referência ao Problema 2, qual é a probabilidade de aceitação da hipótese
da moeda ser honesta, quando a probabilidade real de caras fot p = 9,77

Solução
A hipótese I/g de que a moeda é honesta, isto é, p = 0,5, é aceita quando o número de
caras em 100 lances está compreendido entre 39,5 e 60,5. A probabilidade de rejeição
de f16, quando deveria ser aceita (isto é, a probabilidade de ser cometido um erro do
Tipo I) é representada pela áreatotal u da região sombreada subentendida pela curva
normal à esquerda da Figura 10.6. Como foi calculada no Problerna2(a), essa área o,,
que representa o níve} de significância do teste de I/s, é igual a 0,0358.

Se a probabilidade de caras for de p =0,'7, então a distribuição das caras


nos 100 lances será representada pela curva normal à direita da Figura 10.6. Nesse
Estatística Cap. 10

diagrama, é evidente que a probabilidade da aceitação de Ho, quando p for real-


mente igual a 0,7 (isto é, a probabilidade de ser cometido um erro ào Tipo II), é dada
pela área hachurada B da figura.Para calcular essa área, obserrr"-r" qr" a distri-
buição, no caso da hipótese p = O,'l , tem a média e o desvio padrão dadàs por:

=.,[W = ^/ 100(00 (03; = 4,58.


lr= Np = (100) (0,7) = 70 e p
60,5 em unidades reduzidas = (60,5 _70)14,59 = _2,0i.

39,5 em unidades reduzidas = (39,5 _70)l4,SS = _6,66.

Então, B = (área subentendida pela curva normal, entre z =


-6,66 e z =
= -2,07)= 0,0192.

p 0,5 P=0'7

60,5

Figura 10.6

Em conseqüência, de acordo com a regra de decisão estabelecida, há uma


probabilidade muito pequena de ser aceita a hipótese da moeda ser honesta, quando
p for realmente igual a 0,7.
Note-se que, neste problema, estabeleceu-se a regra de decisão e, de acordo
com ela, foram calculados o e P. Na prática, duas outras possibilidades podem
surgir:
(1) Optar por um valor de cr (como 0,05 ou 0,01), chegar a uma regra de
decisão e depois calcular o valor de B.
(2) optar por valores de u e de B e depois chegar a uma regra de decisão.

9. Resolvero problema anterior para:(a)p =0,6;(b)p = 0,8; (c)p =0,g;(d,)p


=0,4.

Solução
(o) sep = 0,6, a distribuição das caras tem a média e o desúo padrão dados por:

$=Np=(100)(0,6)=60eo =.{W= =4,90.


Cap. 10 Teoria da decisõ.o estatística, testes de hipóteses e significância 269

60,5 em unidades reduzidas = (60,5 - 60)14,90 = 0,0102.

39,5 em unidades reduzidas = (39,5 - 60)14,90 = - 4,18.

Então, B = (área sob a curva normal, er.tre z = - 4,18 e z = 0,0102) = 0,5040.

Por conseguinte, de acordo com a regra de decisão estabelecida, há uma


grande possibilidade de ser aceita a hipótese da moeda ser honesta, quando p = 0,6.
(á) Sep = 0,8, então F =Np = (100X0,8) = 80 e o = {Npq = (fOO) (O"g) (0â = +.
^/
60,5 em unidades reduzidas = (60,5 - 80)A = - 4,88.

39,5 em unidades reduzidas = (39,5 - 80)A = -10,12.

Então, B = (área subentendida pela curva normal entre z=-L0,L2 e


z= * 4,88)= 0,0000, com suÍiciente aproximação.
(c) Da comparação com (á), ou por meio de cáIculo, verifica-se eüê, pârâ p =
= 0,9, Ê = 0 para todas as finalidades práticas.
(d) Por simetria, parap = 0,4, obtém-se os mesmos valores de B que parap -
= 0,6, isto é, Ê = 0,5040.
10. Representar graficamente os resultados dos Problemas 8 e 9, mediante a
construção de um gráÍico de: (o) p em função dep; (ó) (1 - Ê) em função dep.
Interpretar os gráficos obtidos.

Solução
ATabela 10.2 apresenta os valores de B correspondentes aos dados dep, obtidos nos
Problemas 8 e 9.

Tabela 10.2

p 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

0 0,0000 0.0000 0,0192 0,s040 0,9642 0,s040 o,ot92 0,0000 0.0000

Note-se que B representa a probabilidade de aceitação da hipótese p = 0,5,


quando p é realmente um valor diferente desse. Entretanto, se é realmente certo
que p = 0,05, pode-se interpretar B como a probabilidade de aceitação de p = 9,5,
quando ele deveria ser aceito. Essa probabilidade é igual a 1 - 0,0358 = 0,9642 e foi
anotada na Tabela 10.2.
270 Estatística Cap. 10

@) O grâfico de B em função dep, representa na Figura l}.7(a), é denominado


curua característica de operação, olJ. curue, co da regra de decisão ou do
teste de hipótese.
Adistância do ponto máximo da curva CO à linha p = 1é igual a s 0,085g,
=
eéo nível de significância do teste.

1,0 1,0
0,9 0,9
0,8 0,8
0,7 0,7
0,6 0,6
0,5 0,5
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0 yP 0 p
o'o o'8 ,0
{r1o'u

Figura 10.7

Em geral, quanto mais agudo for o pique da curva co, mais adequada será
a regra de decisão para a rejeição de hipóteses que não são válidas
(ó) o gráfico de (1 - 0) em função de p, representado na Figura 10.7(b), é
denominado curua de potência da regra de decisão ou do fuúe da hipótese.
Essa curva é obtida simplesmente, med.iante a inversão da co, dã modo
que, na realidade, os dois gráficos são equivalentes.

A quantidad" (t - B) é denominada função de potência, porque indica a


capacidade , oupotência de um teste, de rejeitar hipóteses falsas, isto é, que deveriam
ser refugadas. A quantidade B é também denominad,a funçdo característica de
operação de um teste.

11. Para testar a hipótese de uma moeda ser honesta (isto é, de p ser igual a 0,5),
por meio de certo número de lances, deseja-se impor as seguinteslestrições:
(Á) a probabilidade de rejeição da hipótese, quando for verdadeira, deve
ser,
Cap. 10 Teoria d.a decisdo estatística, testes de hipóteses e significô'ncia 271

no máximo, de 0,05; (B) a probabilidade de aceitação da hipótese, quando p


realmente diferir de 0,5 de 0,1 ou mais (isto é, patap > 0,6 oup < 0,4) deve ser
de 0,05, no máximo. Determinar o tamanho mínimo de amostra necessário e
estabelecer a regrâ de decisão resultante'

Solução
Neste caso, estabelecem-se limites para os riscos de serem cometidos erros do Tipo
I e do Tipo II. Por exemplo, a restrição imposta em (A) exige que a probabilidade de
um erro do Tipo I seja igual a cr = 0,05, no máximo, enquanto a restrição (B) exige
que a de um ã,ro do Tipo II seja, no máximo, Ê = 0'05' A situação está ilustrada
graficamente na Figura 10.8.
Seja N o tamanho da amostra desejada X o número de caras em N lances,
e
acima do qual será rejeitada a hipótesêp = 0,5' De acordo com a Figura 10'8:

(1) Área subentendida pela curva normal p = 0,5, à direita de

X_ No X-0.5N X-0.5/V !t
tr Npq ! N (0.5) (0.5) 0.5 ! N

Figura 10.8

(2) Area subentendida pela curva normalp = 0,6, à esquerda de


x- Np
= 4: Q$, é o.os.
0.49li N
^fW
(Realmente , aâreaentre (X -0,6N)lO,49lFe t(N-X)- 0,6ry)l/0,4g r/Fe 0,05; (2)
é uma boa aproximação).

De (1), = 1.96 ou (3) X = 0,5N + 0,980 [N.

ou (4) x = 0,6N - 0,806 {N.


De (2),
fiffi = -1,645
272 Estatística Cap. 10

Então, de (3) e (4), N = 318,g8. segue-se que o tamanho da amostra deve


ser, no mínimo, igual a 319, isto é, deve-se lançar a moeda pelo menos 819 vezes.
Fazendo-se N = 319 em (B) ou (4), X = I77.

Para p = 0,5, x - Np = 177 - 159,5 = 17,5. Em conseqüência, ad.ota_se a


seguinte regra de decisão:
(o) Aceitar a hipótesep = 0,5, quando o número de caras, em 819 lances, estiver
compreendido no intervalo 159,5 + 17,5, isto é, entre L42 e 177 caras.
(ó) Caso contrário, rejeitá-la.

Cartas de controle
12. Construiu-se uma máquina para produzir mancais de esfera que têm o diâme-
tro médio de 0,574 polegada e o desvio padrão de 0,00g polegada. para
determinar se a máquina está funcionando adequadamente, é retirada uma
amostra de 6 mancais cada 2 horas, por exemplo, e é calculado o diâmetro
médio da amostra.
(a) Planejar uma regra de decisão, por meio da qual se poderá ter suficiente
cetteza de que a qualidade dos produtos está de acordo com as normas
exigidas.
(á) Mostrar como pode ser representada graficamente a regra de decisão do
item (o).

Solução
(a) Com um grau de confianç a de gg,737o, pode-se dizer que a média amostral
X deve estar compreendida no intervalo entre (p X - B o X) e (U.x + B o
76),
ou entre (p- 3 of'[ N ) e (p+ 3 oZr/N ;. Como $ = O,574,o = 0,00g eN=
= 6, segue-se que para aquele grau de confiança, a méd.ia amostral deve
estar compreendida entre (0,524 - 0,024/f-il e (0,574 + 0,024l{ã), ou
entre 0,564 e 0,584 polegada. Portanto, aregra de decisão será a seguinte:
(1) se a média amostral cair no intervalo entre 0,564 e 0,5g4 polegada,
admitir-se-á que a máquina está em funcionamento normal.
(2) No caso contrário, concluir-se-á que seu funcionamento é irregular e
será preciso pesquisar a causa.
Cap. 10 Teoria da decisã,o estatística, testes de hipóteses e significdncia 273

(á) Pode ser mantido um registro das médias amostrais por meio de uma carta
como a apresentada na Figura 10.9, denominada carta de controle de
qualidade. Cada vez que for calculada uma média amostral, ela será
representada por um ponto particular. Enquanto eles caírem entre o limite
inferior, 0,564 polegada, e o superior, 0,584 polegada, o processo está sob
controle. Quando um ponto for para fora desses limites de controle (como
ocorreu com a terceira amostra tomada na quinta-feira), há a possibilidade
de haver alguma coisa errada, o que justifica uma investigação.

Segunda-Íeira Terça{eira Quarta{eira Quinta{eira Sexta{eira

Ê o,sa+
l) o
(ú o a
o a o
a a
o
E
(! 0.574 o o
.§ a a
.lf o a O1
.o a o
0,564
a

Figura 10.9

Os limites de controle especificados são denominados limites de conÍiança


de 99,7\Vo ou, abreviadamente, os limites de 3o. Entretanto, podem ser também
determinados outros limites de confiança, como os de 99Vo ou g1%o. A escolha, em
cada caso, depende de circunstâncias particulares.

Testes que envolvem diÍerença de médias e de proporções


13. Examinaram-se duas classes constituídas de 40 e 50 alunos, repectivamente.
Na primeira, o grau médio foiT 4, com o desvio padrão 8, enquanto, na segunda,
a média foi 78, com o desvio padrão 7 . Há uma diferença signiÍicativa entre os
aproveitamentos das duas classes, no nível de sigriiÍicância: (o) 0,05; (ó) 0,01?

Solução
Suponha-se que as duas classes provêm de populações, cujas médias respectivas são
p1 ep2.Então, deve-se decidir entre as hipóteses:
Estatística Cap. 10

Ho : pI= Fz, e a diferença é meramente devida ao acaso.

H1 : p4* V2, e há uma diferença signiÍicativa entre as classes.


Para a hipótese Irg, as duas classes provêm da mesma população. A média
e o desvio padrão da diferença das médias são dados por:

lLXt-X2 = 0 e oa,-Ír= of tw 1+ oltN2

em que se consideram os desvios padrões das amostras como as estimativas de o1


e 62.

Então,

, = (Xt- X2)/oV,_*r. = (14- 7B)/1,606 = -2,49.


(o) Para um teste bilateral, os resultados serão significativos no nível 0,05
quando z estiver fora do intervalo de -1,96 a 1,96. Portanto, conclui-se que,
no nível de 0,05, há uma diferença significativa entre os aproveitamentos
das duas classes e que a segunda é, provavelmente, a melhor.
(á) Para um teste bilateral, os resultados serão significativos no nível 0,01,
quandoz estiverfora do intervalo de -2,58 a2,58. Em conseqüência, conclui-se
que, no nível de significância 0,01, não há diferença entre as classes.

Visto que os resultados são significativos no nível 0,05, mas não o são no
0,01, conclui-se que os resultados são prouauelmente significatiuos, de acordo com
a terminologia adotada na parte final do Problema 5.

14. Dois grupor, Á, B, são formados, cada um de 100 pessoas que têm a mesma
enfermidade. E"ministrado um soro ao grupo Á, mas não ao B (denominado
grupo de controle); a todos os outros respeitos, os dois grupos são tratados de
modo idêntico. Determinou-se que 75 e 65 pessoas dos grupos A e B, respecti-
vamente, curaram-se da enfermidade. Testar a hipótese do soro auxiliar a cura
da enfermidade, adotando-se os níveis de significância: (o) 0,01; (ó) 0,05;
(c) 0,10.

Solução
Sejam pt e p2, respectivamente, as proporções populacionais curad.as (1) mediante
o uso do soro (2) sem o uso do soro. Deve-se decidir entre as duas hipóteses.
Cap. 10 Teoria da decisã.o estatística, testes d,e hipóteses e significdncia 275

Ho : Pt= P2,
e as diferenças observadas são devidas ao acaso, isto é, o soro náo é eficaz.

Ht: pt) p2, eosoro éeftcaz.


Para a hipótese.Ffs :

Fp,- pr= O ê opr - or= '[pq 1VN1* l/N21 =

= tr (0,70) (0,30) (1,/100 + 1,2100) = 0,0648,


em que foi adotada, para a estimativa de p, a proporção média de curas nos dois
grupos da amostra, dadapor(75 + 65)1200=0,'70, sendo q=1-p = 0,30.
Então, z = (Pt- P2)/opr- pz= (0,750 - 0,650)/0,0648= !,54.
(a) Com base em um teste unilateral, no nível de significância 0,01, rejeitar-
se-ia a hipótese somente quando o escore z fosse superior a 2,33. Como
116
o escore z é apenas 1,54, deve-se concluir que os resultados são devidos ao
acaso, nesse nível de significância.
(ó) Com base em um teste unilateral, no nível de significância 0,05, rejeitar-
se-ia,Ffg somente quando o escorez fosse superior a7,645. Por isso, deve-se
concluir que os resultados também são devidos ao acaso, nesse nível.
(c) Se for empregado um teste unilateral, no níve1 de signiÍicância 0,10,
rejeitar-se-ía Hg somente quando o escore z fosse superior a 1,28. Como
essa condição foi satisfeita, concluir-se-á que o soro é eficaz, no nível de
signiÍicância 0,10.
Note-se que as conclusões acima dependeram de quanto se estaria propen-
so a correr o risco de erro. Se os resultados são realmente devidos ao acaso, e se
conclui que elas são resultantes do soro (erro do Tipo I), poder-se-á continuar
administrando o soro a grupos maiores de pessoas, apenas para verificar depois que
ele é realmente eÍicaz. Esse é um erro que nem sempre se estará disposto a cometer.
Por outro lado, poder-se-ia concluir que o soro não é efi.caz, quando na
realidade ele o é (erro do Tipo II). Essa conclusão é muito perigosa, principalmente
quando há vidas humanas em risco.

15. Resolver o problema anterior quando cada grupo for composto de 300 pessoas
e se forem curadas 225 do grupoA e 105 do B.
276 Estatística Cap. 10

Solução
Note-se que, neste caso, as proporções de pessoas curadas nos dois grupos são
225/300 = 0,750 e 195/300 = 0,650, respectivamente, iguais às do problema prece-
dente. Para a hipótese.F16 :

vp, pr= o
" opr- ,r= Tpq(vt'l
,* vNr) =

(0.70 (0.30) (1,/300+ l/300) = 0.0314,

em que (225 + 195y600 = 0,70 é usado como uma estimativa de p.


Então, z= (Pr- P2)/opr- pz= (0,750- 0,650),/0,0374= 2,67.

Como esse valor de z é superior a2,33, pode-se rejeitar a hipótese, no nível


de significância 0,01, isto é, pode-se concluir que o soro é eftcaz, com uma probabi-
lidade de apenas 0,01.
Isso mostra como o acréscimo de tamanho da amostra pode aumentar a
confiança nas decisões. Em muitos casos, entretanto, pode ser impraticável o
acréscimo de tamanho da amostra. Em tais casos somos forçados a tomar decisões
com base nas informações disponíveis e, dessa forma, deve-se argumentar com
grandes riscos de decisões incorretas.

Testes que envolvem distribuições binomiais


16. Um instrutor dá um questionário rápido, constante de 10 questões do tipo
certo-errado. Para testar a hipótese do estudante estar adivinhando, adota-se
a seguinte regra de decisão: (l) se 7 ou mais estão corretas, o estudante não
está adivinhando; (il) se menos de 7 estão corretas, o estudante está adivi-
nhando. Determinar a probabilidade de rejeiçáo da hipótese, quando ela é
correta.

Soluçào
Seja p a probabilidade de uma questão ser respondida corretamente. A probabilida-
de da obtenção de X problemas entre 10 corretos é:

rcCxp Xqlo -x, em que q = | - p.


Cap. 10 Teoria da decisõ.o estatística, testes de hipóteses e significô.ncia 277

Então, para a hipótese p = 0,5 (isto é, o estudante está adivinhando):


Pr {7 ou mais certos} = pr {Tcertos} + er{Scertos} + r'r{ece.tosf + r'r{tOce.tosl

= r0c7Íl l'Í+ 13 + rocst'll-í+l'


\z)\z I
*
lr./ (rJ \/)\z)
'ocnÍ,+']1+.l.
+ o.l7le.
rocro
[jJ'o =
Portanto, a probabilidade de concluir que o estudante não está adivinhan-
do, quando realmente o está, é 0,7779. Note-se que essa é a probabilidade de um
erro do Tipo I.

t7. No problema anterior, determinar a probabilidade de aceitação da hipótese p =


= 0,5, quando realmente P = 0,7.

Solução
Paraahipótese p =0,7:
Pr{ menosdeT certosi= I - Pr{ 7 oumaiscertos}=
- I - [ roc, (0,7)7(0,3)3 + 16Ca 10,1810,312 +
+ roCs (0,De(0,3) + roCro (0,3)101 = 0,3504.

18. Lança-se uma moeda 6 vezes e aparece cara em todas as 6. Pode-se concluir,
nos níveis de significância: (o) 0,05; (ó) 0,01, que a moeda é viciada? Considerar
ambos os testes, uni e bilateral.

Solução
Sejap a probabilidade de surgir cara em um lance único da moeda. Para a hipótese
Ho: p = 0,5 (isto é, a moeda é honesta):

p(E =Pr{x i 1 f/
= . a[;][
6 lancesl' rf x-=
caras em
]J acx/64

Então, as probabilidades de surgirem 0, 1,2,3, 4,5 e 6 caras são dadas,


respectivamente, por 7164, 6164, 15164,20164, 75164, 6164 e 1164, como está indicado
graficamente na distribuição de probabilidade da Figura 10.10.
278 Estatística Cap. 10

Teste unilateral
Neste caso, deseja-se decidir entre as hipóteses (Hs: p = 0,5) e (H[p > 0,5).
Como Pr {6 caras} = 1164 = 0,01562 e Pr {5 ou 6 caras} =6164 +1164=0,10g4,
pode-se rejeitar Hg,Íro nível 0,05, mas não no 0,01 (isto é, o resultado observado é
significativo no nível 0,05 mas não no 0,01).

p (x)

6t64

Figura 10.10

Teste bilateral
Neste caso, deseja-se decidir entre as hipóteses: (Ho: p = 0,5) e (Hç p * 0,5).
Como Pr {0 ou 6 caras} = L/64 + 7164 = 0,03125, pode-se rejeitarl{6 no nível
0,05 mas não no 0,01.

PROBLEMAS SU PLEMENTARES

Testes de médias e proporções, mediante o emprego


de distribuições normais
19. IJma urna contém bolas de gude que são vermelhas ou azuis. Para testar a
hipótese de haver proporções iguais dessas cores, resolve-se tomar a amostra
de 64 bolas de gude, com reposição, anotando-se as cores retiradas e adotan-
Cap. 10 Teoria d.a decisão estatística, testes de hipóteses e significâ.ncia 279

do-se a seguinte regra de decisão: (1) aceitar a hipótese, se forem retiradas 28


a 36 bolas vermelhas; (2) rejeitá-la, no caso contrário.
(a) Determinar a probabilidade de rejeitar a hipótese, quando ela é realmente
correta.
(b) Interpretar graÍicamente a regra de decisão e os resultados do item (a).

Resp.: 0,2606.
ZO. (o) Que regra de decisão adotar-se-ia para o Problema 19, quando se desejasse
que a probabilidade de rejeitar a hipótese, quando ela é realmente correta,
fãsse, no máximo, de 0,01, isto é, se se desejasse o nível de significância 0,01?
(á) Em que nível de conÍiança seria aceita a hipótese? (c) QuaI seria a regra de
decisão se fosse adotado o nível de significância 0,05?
Resp.: (o) Aceitar a hipótese quando forem retiradas 22 a 42 bolas vermelhas;
no caso contrário, rejeitá-la. (á) 0,99. (c) Aceitar a hipótese quando
forem retiradas 24 a 40 bolas vermelhas; no caso contrário, rejeitá-la.
2L. Suponha-se que, no Problema 19, deseja-se testar a hipótese de haver maior
proporçao de bolas vermelhas do que de azuis. (a) Que hipótese nula seria
considerada e qual a alternativa? (b) Usar-se-ia um teste uni ou bilateral? Por
quê? (c) Que regra de decisão se adotaria se o nível de signiÍicância fosse 0,05?
(d) QuaI seria a regra de decisão se o nível de significância fosse 0,01?

Resp.: (a) Ho: p = 0,5; Hl p > 0,5. (ó) Teste unilateral. (c) Rejeitar Iís: quando
fossem retiradas mais de 39 bolas vermelhas e, no caso contrário,
aceítá-La (ou não tomar nenhuma decisão). (d) Rejeitar F10 quando
fossem retiradas mais de 41 bolas vermelhas e, no caso contrário,
aceitá-ia (ou não tomar nenhuma decisão)'
22. Um fabricante garante que, pelo menos 957o do equipamento que forneceu a
uma fábrica está de acordo com as especificações. O exame de uma amostra de
200 peças desse equipamento revelou que 18 estavam defeituosas. Testar a
afirmativa, nos níveis de significância: (o) 0,01; (ó) 0,05'
Resp.: Pode-se rejeitar a aÍirmativa em ambos os níveis de signiÍicância,
mediante o emprego de um teste unilateral'
2g. Verificou-se, por meio de experiências, que a tensão média de ruptura do fro
de uma certa marca é de9,72kg, com o desvio padrão de 1,40 kg. Recentemente,
uma amostra de 36 peças do Íio apresentou a tensão média de ruptura de
8,gB kg. Pode-se concluir, nos níveis de signiÍicância: (o) 0,05; (á) 0,01 que o
fio se tornou de qualidade inferior?
Resp.: Sim, em ambos os níYeis, mediante o emprego de um teste unilateral
em cada caso.
280 Estatística Cap. 10

24. Em um exame, a que se submeteram estudantes de grande número de escolas


diferentes, o grau médio foi 7 4,5 e o desvio padrão 8. Em uma escola particular,
em que 200 estudantes foram submetidos a esse exame, o grau médio foi 75,9.
Discutir a significância desse resultado no nível 0,05, do ponto de vista de um
teste: (o) unilateral; (ó) bilateral, justiÍicando cuidadosamente as conclusões
baseadas nesses testes.
Resp.: O resultado é significativo no nível 0,05, em ambos os testes, uni e bilateral.

Curvas características de operação


25. Com referência ao Problema 19, determinar a probabiiidade de aceitação da
hipótese de que há proporções iguais de bolas de gude vermelhas e azuis, quando
a proporção realp de bolas vermelhas for de: (o) 0,6; (b) 0,7; (c) 0,8; (d) 0,9; (e) 0,3.

Resp.: @) 0,3172; (ó) 0,0118; (c) 0; (d) 0; (e) 0,0118.


26. Representar graficamente os resultados do problema anterior, mediante a
construção de um gráfrco de; (a) B em função dep; (ó) (1- B) em função dep.
Comparar esses gráficos com os do Problema 10, mediante a consideração da
analogia entre bolas vermelhas e azuis e cara e coroa, respectivamente.

Cartas de controle de qualidade


27. Anteriormente, um certo tipo de fio produzido por uma fábrica apresentava a
tensão média de ruptura de 8,64 kg e o desvio padrão de 1,28 kg. Para verificar
se o produto está de acordo com as especiÍicações é tomada uma amostra de 16
peças cada 3 horas, e determinada sua tensão média de ruptura. Determinar
os limites de controle de: (o) 99,73Va ou 3o; (b) 99Vo; (c) 95Vo, em uma carta de
controle de qualidade e explicar suas aplicações.
Resp.: (a) 8,64 + 0,96; (b) 8,64 + 0,83; (c) 8,64 + 0,63 kg.
28. Em média, cerca de \Vo dos parafusos produzidos por uma companhia são
defeituosos. Para manter esse padrão de qualidade, é examinada uma amostra
de 200 parafusos produzidos, cada 4 horas. Determinar os limites de controle
de: (o) 99Vo; (b) 95Vo, para o número de parafusos defeituosos de cada amostra.
Note-se que apenas os limites de controle superiores são necessários neste caso.
Resp.: Os limites de controle superiores são, respectivamente: (a) 6; (b) 4
parafusos defeituosos.
Cap. 10 Teoria da decisdo estatística, testes de hipóteses e significô.ncia 281

Testes que envolvem diferenças de médias e de


proporções
29. Uma amostra de 100 Iâmpadas elétricas produzidas pela fábrica A indica a
vida média de 1.190 horas, com o desvio padrão de 90 horas. Uma amostra de
75 lâmpadas produzidas pela fábrica B indica a vida média de 1.230 horas, com
o desvio padiao de 120 horas. Há diferença entre as vidas médias das duas
marcas dã lampadas, no nível de signiÍicância: (o) 0,05; (ó) 0,01?
Resp.: (o) sim; (ó) não.
80. No problema anterior, testar a hipótese das lâmpadas fabricadas por B serem
superiores às fabricadas por A, adotados os níveis de significância: (o) 0,05;
(ai Explicar as diferenças entre essa e a pergunta formulada no problema
O,Of .
anterior. os resultados contrariam os do problema anterior?
Resp.: Um teste unilateral, em ambos os níveis de significância, mostra que
amarcaBésuPerioraA.
81. Para testar os efeitos de um novo fertilizanhe sobre a produção de trigo,
dividiu-se uma área de terreno em 60 quadrados de áreas iguais, apresentando
todas essas porções qualidades idênticas como so1o, exposição ao sol etc.
Aplicou-se o novo fertilizante em 30 áreas e nas restantes o fertilizante antigo.
O número médio de sacas de trigo colhido por área, nas terras em que se usou
o novo fertilizante, foi de 18,2, corr. o desvio padrão de 0,63. A média e o desvio
padrão correspondentes às áreas em que se usou o fertilizante antigo foram
12,8 0,54, respectivamente. Testar a hipótese do novo fertilizante ser melhor
do que" o antigo, adotados os níveis de significância: (o) 0,05; (b) 0,01'

Resp.: Um teste unilateral indica que o novo fertilizante é superior, em ambos


os níveis de significância'

82. As amostras aleatórias compostas de 200 parafusos produzidos pela máquina


A e de 100 produzidos pela máquina B apresentam 19 e 5 parafusos defeituosos,
respectivamente. Testar a hipótese de: (o) as duas máquinas apresentarem
padroes de qualidade diferentes; (ó) a máquina B ter padrão melhor do que o
de A. Adotar o nível de signifrcância 0,05.

Resp.: (o) Um teste bilateral não indica diferença de padrão de qualidade, no


níve1 0,05. (á) Um teste unilateral indica que B não tem padrão melhor
do que o de A, no nível 0,05'
Estatística Cap. 10

Testes que envolvem distribuições binornÍais


33. com referência ao Problema 16, determinar o menor número de questões que
um estudante deve responder corretamente para que o instrutor esteja seguro
de que o estudante não está simplesmente adivinhando, adotado o nível de
significância: (a) 0,05; (ó) 0,01; (c) 0,001; (d) 0,06. Discutir os resultados.
Resp.: (a) 9; (b) 10; (c) 10; (d) 8.
34. Lançou-se uma moeda 8 vezes, aparecendo cara 7 vezes. Pode-se rejeitar a
hipótese da moeda ser honesta, nos níveis de significância: (o) 0,05; (ó) 0,10;
(c) 0,01? Empregar um teste bilateral.

Resp.: (o) não; (ó) sim; (c) não.


35. IJma urna contém grande número de bolas de gude vermelhas e brancas. uma
amostra aleatória de 8 bolas revelou 6 brancas e 2 vermelhas. Empregando os
testes e os níveis de significância apropriados, discutir as proporções das bolas
vermelhas e brancas da urna.
36. Discutir como a teoria da amostragem pode ser usada para investigar as
proporções dos diferentes tipos de peixes existentes em um lago.
h
*sf*g^
Capítulo
11

Teoria das pequenas amostras

Distribuição de "Student" Í e Distribuição de Qui-quadrado

Pequenas amostras
Em capítulos anteriores lançou-se mão, freqüentemente, do fato de, para amostras
de tamanho N > 30, denominadas grandes anlostras, as distribuições amostrais de
muitas estatísticas serem aproximadamente normais, tornando-se a aproximação
melhor com o crescimento de N. Para as amostras de tamanho N < 30, denominadas
pequenas amostras, essa aproximaçáo não é boa e torna-se pior com o decréscimo
de N, de modo que devem ser introduzidas as modificações convenientes.

O estudo das distribuições amostrais de estatísticas de pequenas amostras


é denominado teoria das pequenas amostras. Entretanto, o nome mais apropriado
seria teoria exata da amostragem, visto que os resultados obtidos são váIidos tanto
para as grandes como para as pequenas amostras. Nesse capítulo, serão estudadas
duas distribuições importantes, denominadas de Studerut e de qui-quadrado.

Distribuição de "Student" Í
Define-se a estatística

X-V !N-
Í= j t- 1:
X-trt (1)
s t/ií'
283
284 Estatística Cap. 11

semelhante u, = 4-yno capítulo anterior.


ot"'l N
Considerando-se amostras de tamanho N, extraídas de uma população
normal (ou aproximadamente normal) de média p, e, se para cada amostra, calcu-
lar-se o valor de l, por meio da média amostral X e do desvio padrão ooâ, pode-se
obter a distribuição amostral de /. "

Essa distribuição (veja a Figura 11.1) é dada por:

,- Yo Yo
-
lr* t" I
/ ) \N/2 / ),rv+lrz2
l'-rl t,
['- '-' ,J ['-
em que Yg é uma constante que depende de N, de modo que a área subtendida pela
curva é igual a 1, e a constante v = (N - 1) é denominada número de graus de
liberdade (v é a letra grega ni). Adefinição de graus de liberdade, será apresentada
mais adiante.

-3

Figura 11.1

A distribuiçáo (2) é denominada distribuição de Student r, porque seu


descobridor Gosset, publicava seus trabalhos sob o pseudônimo de "Student", du-
rante a primeira parte do século XX.
Para grandes valores de v ou de N (certamente N > 30), as curvas (2) sào
muito próximas da normal reduzida Y = + n-tt2 t', como o mostra a Figura 11.1.
^'l 2n
Cap. 11 Teoria das pequenas amostras 285

lntervalos de conÍiança
Como nas distribuições normais do Capítulo 9, podem ser definidos os intervalos de
confi.ança d.e95Vo,99Vo ou outros, mediante o emprego da tabela da distribuição ú
do Apêndice Dessa maneira, a média da população, p, pode ser estimada dentro
III.
dos limites de confiança especificados.

Por exemplo, se -úg,97 5 e to,gllsão os valores de ú, para os quais 2,57o da


área frcam localizados em cada "extremidade" da distribuição ú, então o intervalo
de confrança de 95Vo, Para t, é:

Í- u

do qual se verifica que p é estimado para que caia dentro do intervalo


s-
X-,o,rrs +<F<X+rs.o 7s
!N-
\41
vN- I I

com a confiança d.e 95Vo (isto é, probabilidade de 0,95). Note-se que ú6,975 representa
o valor do percentilgT,S, enquanto to,o25= -.to,glsrepresenta o percentil 2,5'
Em geral, podem-se representar os limites de confiança para as médias
populacionais por:

t r-' -:,s
X (5)
r/,tt_ t
em que os valores * úc são denominados críticos ot coeficientes de confiança, e
dependem do níve1 de confiança desejado e do tamanho da amostra. Eles podem ser
tirados do Apêndice III.
Uma comparação da expressão (5) com a dos limites de confiança
çX z, o/t[N ) mostra que, para pequenas amostras, z" (deduzido da distribuição
+
normal) é substituído po, i" (reiativo-à ái.t.ibrriçao Í) e o valor de o por {N(N- | s =
= â ,qr" é a estimativa amostral de o. Quando N aumenta, ambos os métodos tendem
para a coincidência.

Testes de hipóteses e signiÍicância


Os testes de hipóteses e significância, estudados no Capítulo 10, são facilmente
estendidos aos problemas qúe envolvem pequenas amostras, com a única diferença
da substituição ào escore z ot d,a estatística z pelo escore t oa estatísticq t conveniente.
286 Estatística Cap. 11

1. Médias

Para testar a hipótese É16 de uma população normal ter a média p, adota-se o escore
t ou a estatística ú.
X*u
t-
,t
iN- =x-1
It ./N , (6)
§

em que X é a média de uma amostra de tamanho N.

*
Isso é anáIogo ao emprego do escorez = X P'
para os grandes valores de
o/íN
N, exceto quanto ao fato de ser usadoâ = r/.nrr4Lr- r; s em vez de o. Adiferença
consiste em que, ao passo que z tem distribuição normal, ú apresenta uma distribui-
ção de "Student". Quando N aumenta, ambas tendem a coincidir.

2. Diferença de médias
Suponha-se que duas amostras aleatórias de tamanhos N1 e N2 são extraídas de
populações normais cujos desvios padrões são iguais (or = oz). Suponha-se, ainda,
que essas duas amostras têm médias e desvios padrões dados por X1, X2 ê s1, s2,
respectivamente. Para testar a hipótese Ilg de que as amostras provêem da mesma
população (isto é, Vl= V2, bem como o1 = o,2) adota-se o escore ú, dado por:

xr- v,
t - ---'emqueo = (7)
o11,zNl + l/N2

A distribuiçáo é a de "studení" t, como v = (Nr + Nz - 2) graus de liberdade.


O uso de (7) torna-se plausível pela substituição, na Equação (2), do
Capítulo 10 do escore z por ot= 6,2= o e depois pela adoção, para estimativa de
o2, da média ponderada

(lrr - 1) tr2 + (lrrz - t) tz2 _ N§] + Nz sz2


(Nr - 1)+ (N2 - 1) N1+N2-2
em que §l são as estimativas não tend.enciosas de o12 e o22 (veja a pro-
"à22 ao desvio padrão
priedade 3 referente no Capítulo 4).
Cap. 11 Teoria das pequenas an'Lostras 287

A distribuição de qui-quadrado
Define-se a estatística:

t Ns2 (\- X)2 + (Xz- X)' + ... + (Xu- X)2


X-= (t', o2
(8)

em que y é aletra grega qui e y2 é lido como qui-quadrado. Considerando amostras


de tamanho N retiradas de uma população normal, com o desvio padrão o, e se, para
cada amostra, for calculado o valor d. X2, pode-se obter uma distribuição amostral
desses valores. Essa distribuição, denominada de qui-quadrado é dada por:
| -l , -l ,
X- X
y= yo(X212(u zt ,z = ynXv-2 ,2 . (e)

em que v = N - I é o número de graus de liberdade e Yg é uma constante dependente


de v, de modo que aárea total subtendida pela curva é igual a 1. As distribuições
de qui-quadrado, correspondentes a vários valores de v, estão apresentadas na
Figura 11.2. O valor máximo de Y ocorre para 72 = v -2, quando v > 2.

0,5

0,4

0,3

0,2

0,1

15

Figura 11.2

lntervalos de confianç a para X2

Como foi feito para as distribuições normal e ú, podem ser definidos os limites e
intervalos de confianç a d.e 957o, 99Va e outros pura 72 , mediante o emprego da tabela
da distribuição de 12 do Apêrrdice IV. Dessa maneira, pode-se estimar, dentro dos
Estatística Cap. 11

Iimites de confiança especiÍicados, o desvio padrão populacional o, expresso em


função do desvio padrão amostral, s.

Por exemplo, ru Xi,ors" Xi,stssão os valores de 12 (denominados ual.ores


críticos), para os quais 2,5Vo da área são localizados em cada "extremidade" da
distribuição, o intervalo de confiança de 95Vo é, então:

. Ns2
xolorr'?'xolnrr' (lo)

do qual se deduz que o é estimado para que fique situado dentro do intervalo:

,{lr <.§ < orF ,rF (11)


X o.sts X o.ozs X o.ozs
-,<6<
com o grau de confiança de 957o. De maneira semelhante, podem ser determinados
outros intervalos de confiança. Os valor"s Xo,ozs Xo,slsrepresentam, respectiva-
"
mente, os valores dos percentís 2,5 e 97 ,5.

A tabela do Apêndice IV dá os valores dos percentis correspondentes aos


graus de liberdade v. Para grandes valores de v (v > 30), pode-se utilizar o fato de
dW'z - ^/rr- 1) ter distribuição aproximadamente normal, com média zero e
desvio padrão 1, de modo que podem ser usadas as tabelas de distribuição normal,
quando v > 30.

Então, se
$ e zu sáo os percentis de ordemp das distribuições de qui-qua-
drado e normal, respectivamente, tem-se:

x;=rern{2,_ t,' (12)

Nesses casos, há concordância muito estreita com os resultados obtidos nos


Capítulos 8 e 9.
Para ulteriores aplicações da distribuição de qui-quadrado, veja o Capitulo tZ.

Graus de liberdade
Para calcular-se uma estatística como as definidas em (1) ou (8), é necessário usar
as observações obtidas de uma amostra, bem como certos parâmetros populacionais.
Se esses parâmetros são desconhecidos, eles devem ser estimados por meio dos da
amostra.
Cap. 11 Teoria das pequenas amostras

O número de graus de liberdade de uma estatística, geralmente repre-


sentado por v, é definido como o número N de observações independentes da amostra
(isto é, seu tamanho) menos o número á dos parâmetros populacionais que devem
ser estimados por meio das observações amostrais. Simbolicamente, v = N - h,.
No caso da estatística definida pela relação (1), o número de observações
independentes da amostra é N, do qual podem ser calculados X e s. Entretanto, como
p deve ser estimado, k = 1 e, então, v = N- 1.
No caso da estatística definida pela relaçáo (8), o número de observações
independentes da amostra é N, do qual pode ser calculado s. Entretanto, como o
deve ser estimado, k = | e,então, v = N- 1.

PROBLEMAS RESOLVIDOS

Distribuição de "Student" Í
1. O gráfico da distribuição de "Student" l, com 9 graus de liberdade, está
representado na Figura 11.3. Determinar os valores de ,1 para os quais: (o) a
área sombreada à direita = 0,05; (b) a área sombreada total = 0,05; (c) a área
não-sombreada total (ou em branco) = 0,99; (d) a área sombreada à esquerda =
= 0,01; (e) a área à esquerda de ú1 = Q,$6.

Figura 11.3

Solução
(o) Se a étrea sombreada à direita é 0,05, então a área à esquerda dehé
(1 - 0,05) = 0,95 e út representa o percentil 95q, ú6,95.
Estatística Cap. 11

Reportando-se à tabela do Apêndice III, percorre-se a coluna encabeçada


por v para baixo até encontrar a casa 9. Segue-se, então, para a direita até encontrar
a coluna encabeçada por úg,95. O resultado, 1,83, é o valor desejado de ú.
(ó) Se a área total sombreada é 0,05, então, por simetria, a sombreada à direita
é 0,025. Portanto, a área à esquerda de ú1 é (1 - 0,025) = 0,975, e tl
representa o percentil 97,5e, to,sls.Na tabela do Apêndice III, encontra-se
2,26 para o valor desejado de ú.
(c) Se a área total não-sombreada é 0,99, então a área sombreada é (1 - 0,99) =
= 0,01, e a sombreada à direita é 0,01/2 = 0,005. Na tabela se determina
to,ggs = 3,25.

(d) Se a área sombreada à esquerda é 0,01, então, por simetria, a sombreada


à direita é 0,01. Na tabela, to,gg = 2,82. Porlanto, o valor crítico de ú, para
o qual a área sombreada à esquerda é 0,01, é igual a-2,82.

(e) Se a área à esquerda de \ é 0,90, então ú1 corresponde ao percentil 90e,


lg,9g, eu€, na tabela, é igual a 1,38.

2. Determinar os valores críticos de ú para os quais a área da extremidade direita


da distribuiçáo t é 0,05, quando o número de graus de liberdade v for igual a:
(a) 16; (b) 27; (c) 200.

Solução
Usando a tabela do Apêndice III, encontram-se, na coluna encabeçada por r0,9b, os
valores: (a) 1,75 correspondente a v = 16; (b) L,70 correspondente a v = 27; (c) 7,645
correspondente a v = 200. (O último valor é o que seria obtido mediante o emprego
da curva normal. Na tabela do Apêndice III corresponde à casa da última linha,
assinalada como @, isto é, infinito).

3. Os coefrcientes de confiança de 957o ("bilatera1"), para a distribuição normal,


são dados por + 1,96. Quais serão os coefrcientes correspondentes-para a
distribuição ú, quando: (o) v = 9; (ó) v = 20;(c) v = 30; (dl v = 60?

Solução
Para os coeficientes de confiança de 957o ("bilateral"), a área total sombreada da
Figura 11.3 deve ser 0,05. Portanto, a área sombreada da extremidade da direita é
0,025 e o valor crítico correspondente de t étg,g7g. Então, os coeficientes de confiança
desejados são: + to,gts.Para os valores dados de v, eles são: (o) + 2,26; (b) ! 2,09;
(c) t 2,04; (d) ! 2,00.
Cap. 11 Teoria das pequenas amostras 291

4. Um ensaio das tensões de ruptura de 6 cabos produzidos por uma companhia


mostrou a tensão média de ruptura de7.750 kg e o desvio padrão de 145 kg,
ao passo que o fabricante declara que aquela tensão média é de 8.000 kg. Será
verdadeira a declaração do fabricante, nos níveis de significância: (o) 0,05;
(ó) 0,01?

Solução
Deve-se decidir entre as hipóteses:

116: p = 8.000 kg, e a declaração do fabricante é justificada.


HI V < 8.000 kg, ela não o é, de modo que um teste unilateral é necessário.
Para a hipótese Iís tem-se:

X- t rI 7.750- 8.000
_16_l=_3,96.
,r-
1___________!\/ -
, 145

(o) Para um teste unilateral, no nível de signiÍicância 0,05, adota-se a regra


de decisão:
(1) Aceitarflg,quandolésuperior a-to,g1, oqual,para6- 1= Sgraus de
liberdade, signiÍica t > -2,01.
(2) No caso contrário, rejeitar -F19.
Comot = - 3,86, rejeita-se Ifg.
(ó) Para um teste unilateral, no nível de signiÍicância 0,01, adota-se a regra
de decisão:
(1) Aceitar ,Fíg quando / for superior a -19,99, o qual, para 5 graus de
liberdade, significa t > - 3,36.
(2) Rejeitar f16, no caso contrário.
Como ú = - 3,86, rejeita-se,Éfg.
Conclui-se que é extremamente improvável que a declaração do fabricante
seja justifrcada.

5. O QI (quociente de inteligência) de 16 estudantes de uma zona de certa cidade


apresentou a média 107, com o desvio padrão 10, enquanto os de 14 estudantes
de outra zona da cidade apresentou a média Ll2, corn o desvio padrão B. Há
uma diferença significativa entre os QI dos dois grupos, nos níveis de signiÍi-
cância: (o) 0,01; (ó) 0,05?
292 Estatística Cap. 11

Solução
Se p1 e p2 representam os QI médios populacionais dos estudantes das duas áreas,
deve-se decidir entre as hipóteses:

Ilo: pr = V2, e não há, essencialmente, diferença importante entre os grupos.

HI lLrí *2, e há uma diferença significativa entre eles.


Para a hipótese 116:

xr-xz Nts?+ Nzs]


I = --------1 enl que o =
or/ t,zl,r1 + l/N2 N1+ N2- 2

Então:

16(10)2+ l4(8)2 112- 101


16+ 14- 2
9.14e t= = 1.45
9.44.'l l/16+ t/14
a) Com base em um teste bilateral, no no nível de signifrcância 0,01, 116 seria
rejeitado, quando / estivesse fora do
do intervalo de - ú9,995 a to,gg5, o qual,
para (N1 + Nz-2) = (16 + 74-2) ==28 graus de liberdade, é o que vai de
-2,76 a 2,76.
Por conseguinte, não se pode rejeitar IIg, no nível de significância 0,01.
(ó) Com base em um teste bilateral no nível de significância 0,05, rejeitar-se-ia
quando Í estivesse fora do intervalo de -ú6,975 atO,g75, o qual, para 28
.É1g,
graus de liberdade, é o que vai de -2,05 a 2,05. Por conseguinte, não se
pode rejeitar Hg, no nível de significância 0,05.

Conclui-se que não há diferença significativa entre os QI dos dois grupos.

6. Em um posto agrícola, desejou-se testar o efeito de certo fertilizante na


produção do trigo. Para realizar esse desejo, foram escolhidos 24 tratos de
terreno de áreas iguais, metade dos quais foi tratado com o fertilizante, e a
outra não (grupo de controle). Todas as outras condições foram mantidas
iguais. A produção média de trigo nos tratos sem fertilizante foi de 4,8 sacas,
com o desvio padrão 0,4, enquanto a dos canteiros tratados foi de 5,1 sacas com
o desvio padrão de 0,36. Pode-se concluir que há um aumento significativo da
produção de trigo por causa do fertilizante, se forem adotados os níveis de
significância: (a) l%o; (b) 57o?
Cap. 11 Teoria das pequenas amostras 293

Solução
Sejam p1 e p2 as produções médias populacionais de trigo nos terrenos tratados e
não, respectivamente; deve-se decidir entre as hipóteses:
IlO: pr = Vz, a a diferença é devida ao acaso.

HI ltt> V2, e o fertilizante aumenta a produção.

Para a hipótese fís:

f =
xt- xz ÊITIQUB 6=
N1sl + N2 s22
o! tZl,r, + l/N2 N1+ N2- 2

Então:

--
t2(0,40)2 + DQ,36)2
O=
12+ 12- 2
= 0,39J e t=

(a) Com base em um teste unilateral, no nível de significância 0,01, rejeitar-


se-ia Ilg quando ú fosse superior a to,gg, o qual, para (N1 + Nz - 2) = (12 +
+ 12 - 2) = 22 graus de liberdade, é 2,51.
Em conseqüência, não se pode rejeitar Hs no nível de significância 0,01.
(ó) Com base em um teste unilateral no nível de signifrcância 0,05, seria
rejeitado 116 quando ú fosse superior a to,g1, o qual, para 22 graus de
liberdade, é 1,72.
Por conseguinte, pode-se rejeitar,Fl6 no nível de signiÍicância 0,05.
Conclui-se que o aumento de produção do trigo, resultante do uso do
fertiliz ante, é p r ou au e lme nt e si g nificatiu o.
Entretanto, antes de chegar a conclusões definitivas, concernentes à utili-
dade do fertilizante, seria desejável que se dispusesse de evidências ulteriores.

A distribuição de qui-quadrado
7. O gráfico da distribuição de qui-quadrado com 5 graus de liberdade está repre-
sentado na Figura 11.4. Determinar os valores críticos d" X2, para os quais:
Estatística Cap. 11

@) A área sombreada à direita = 0,05.


(ó) A área total sombreada = 0,05.
(c) A área sombreada à esquerda = 0,10.
(d) Aârea sombreada à direita = 0,01.

Solução
(o) Se aârea sombreada à direita é 0,05, então a situada à esquerda dey] é
(1 - 0,05) = 0,95, e y] rcpresenta o 95e percentil,X&,rru

x? xl

Figura 11.4

Na tabela do Apêndice IV, percorre-se a coluna encabeçada por v para baixo,


até encontrar a casa 5. Segue-se, depois, para a direita, até encontrar a coluna
encimada po, X&,ss. O resultado, 11,1, é o valor crítico desejado d" X'.

(ó) Como a distribuição é assimétrica, há vários valores críticos para os quais


a área total sombreada é igual a 0,05. Por exemplo, a ârea sombreada à
direita poderia ser 0,04, enquanto a da esquerda seria 0,01. É costume,
entretanto, a menos que haja especificação em contrário, escolher as duas
áreas de valores iguais. Nesse caso, então, cada âreavalerá0,025.

Se a área sombreada à direita é 0,025, a situada à esquerda d"X; é (1 -


- 0,025) = 0,975, e 1r2 representa o 97,5e percentil, xi,nru, que na tabela do Apêndice
IV, é de 12,8.
De modo semelhante, se a área sombreada à esquerda é 0,025, a situada à
esquerda d" X? é 0,025, e 1r2 representa o 2,5q percentil, X&,oruque é igual a 0,831.

Portanto, os valores críticos são 0,831 e 12,8.


Cap. 11 Teoria das pequenas amostras 295

(c) Se a ârea sombreada à esquerda é 0,10, Xr2 representa o 10q percentil,


X &,rc que é igual a 1,67.
(d) Se a ârea sombreada à direita é 0,01, a ârea à esquerda d" é O,gg, e
X22

representa o 99q percentil, X é igual a 15,1.


X 12 o2r, eue

8. Determinar os valores medianos de 12 correspondentes aos graus de liberdade:


(a) 9; (b) 28; k') 40.

Solução

Usando a tabela do Apêndice IV encontram-se, na coluna encimada por 1o2uo(porque


a mediana é o 504 percentil), os valores: (a) 8,34 correspondente a v = 9; (b) 27,3
correspondente a v = 28;(c) 39,3 correspondente a v = 40.
É interessante notar que os valores medianos são aproximadamente muito
iguais aos números de graus de liberdade. De fato, para v > 10, os valores medianos
são iguais a (v - 0,7), como se pode veriÍicar na tabela.

9. O desvio padrão das alturas de 16 estudantes do sexo masculino, escolhidos


aleatoriamente em uma escola de 1.000 estudantes desse sexo, é 2,4 cm.
Determinar os limites de conÍiança de: (a) 957o; (b) 997o, do desvio padrão para
todos os estudantes do sexo masculino da escola.

Solução
(o) 'Os limites de confianç a de 95Vo são dados por e , ffi /Xo,oru.
" ^/-1V210,e25
Para v = 16 - 1 = 15 graus de liberdad", x&,nru= 27,5 o* x0,975-= 5,24 e

x&,oru= 6,26 oo xo,oz5 = 2,50'

Então, os limites de confianç a de 957o sáo 2,40 ",[ tA lS,Z+ e 2,40 ",[ 76 /2,50,
isto é, 1,83 e 3,84 cm. Em conseqüência, pode-se ter 957o de conÍiança de que o desvio
padrão populacional está entre 1,83 e 3,84 cm.
(ó) Os limites de confiança de 997o são dados por:
,fr/xo.nrr. ,fiMxo,oor.
296 Estatística Cap. 11

Para v = 16 - 1 = 15 graus de liberdad", Xo2,gg'= 32,8 o* Xo,ggs = 5,78 e

xoloou = 4,60 o' xo,oos = 2,14'

Então, os limites de confiança de ggTo sáo 2,40 i 16/5,78 e 2,40


",[ lG/2,14, isto é, 1,68 e 4,4g cm.

Portanto, pode-se estar 997o confiante em que o desvio padrão populacional


está entre 1,68 e 4,49 cm.

10. Determina, X&'spara os graus de liberdade: (a) v = 50; (ó) v = 100.

Solução

Paravmaiordoque 30, pode-seutilizarofato deft[ZXz - ^/Z,- f I ter distribui-


ção aproximadamente normal, com a média zero e o desvio padrão 1. Então, se zo é
o escore percentil z da distribuição normal reduzida, pode-se escrever, com grau
elevado de aproximaçào:

{ry,í-í2r- 1= zt) ou {4 = zp*\Tr- 1,


do qual

^.7 -
I
,-,^[r-
l"p- 2\'p- '" f).r.

(o) se v = 50, x&'s=*,,"r.rr+ \D(50) - 1) z =f,o,a+ * rEgl 2 =69,2que


concorda muito bem com o valor 67,5, dado no Apêndice IV.

(ó) sev = 100, x&,ss=Lr,ro.ru+ rD-1rog;


- 1; z =|G,a+* !rggl 2 = t24,0
(valor real = 124,3).

11. O desvio padrão das durações para uma amostra de 200 lâmpadas elétricas, é
100 horas. Determinar os limites'de confiança de: (a) 95Vo; (b) 99Vo, para o
desvio padrão de todas as lâmpadas elétricas desse tipo.
Cap. 11 Teoria d,as pequenas amostras

Solução
(o) os hmites de confianç a de gsvo são dados por' , rffi,,
xo,sts , ffi/xo,oru.
"
Para v = 200 - 1 - 199 graus de confiança, determinam-se, como no
Problema 10:

^1
t'o.sls
^,L - lzo,sts+.D(lrr) - 1 r' = + e,s6+ t9,s»2 = 23s;
2

NZ
,1 lzo,ozs+ l' =; (-1,96+ ts,g»2 - t6t,
^0,025 2

dos quais Xo,szs= 15,5 Xo,ozs= 12,'7.


"
Então, os limites de conÍiança de 957o sáo l0O gl,2 e
^IZOOILS,S =
rcO "'[ ZOOll2,7 = 111,3 horas, respectivamente. Em conseqüência, pode-se
estar 95Vo confiante em que o desvio padrão populacional estará entre 91,2
e 111,3 horas. Esse resultado poderia ser comparado com o do Problema
11(o) do Capítulo 9.
(ó) Os limites de confiança de 997o são dados por:

,1 N/Xo,rr,
" r1 N/Xo.oor.
Para v = 200 - 1 = 199 graus de liberdade:

Xi.nrr= ) Íro.ror+
^D(lrq - I t' =:t2.58+ ts-e2)2 = 253:

xo1oo, = j I ro.oos* \D (lrr, - l t' = +(-2.58+ t9.s2t2 = l5o


dos quais Xo,ss= 15,9 e Xo,oos = 12,2.

ZOO 2t5,9 = 88,9 e 100 r/200,2 12,2 =


Então, os limites de confiança degg%orao rf
= 115,9 horas, respectivamente. Por conseguinte, pode-se ter o grau de confiança de
997o de que o desvio padrão populacional estará entre 88,9 e 115,9 horas. Esse
resultado poderia ser comparado com o do Problema 11(á) do Capítulo 9.

L2. É possível obter um intervalo de confiança de 957o para o desvio padrão


populacional, cuja amplitude seja menor do que a encontrada no Problema
lt(a)?
Estatística Cap. 11

Solução
Os limites de confiança d,e 957o para o desvio padrão populacional, como foram
determinados no Problema 11(a) , foram obtidos escolhendo-se os valores críticos de
X2, de modo que a áreaem cada extremidade era de 2,5Vo.E possível determinarem-
se outros limites de confianç a d,e 957o mediante a escolha de valores críticos de 12
para os quais a soma das áreas das extremidades seja 57o, ou 0,05, mas as áreas de
cada extremidade não serão iguais.
Na Tabela 11.1 foram obtidos esses diversos valores críticos (usando os
métodos do Problema 10) e estão indicados os intervalos de confiança de g57o
correspondentes.

Tabela 11.1

Valores críticos Intervalo de Amplitude


confiança de
957o

xo,or = 12'44' xo,ru= 15'32 92,3 a 113,7 2t,4

xo,o2= 12'64' xo,r,= 15'42 91,7 a lll,9 20,2

ro,o3 = 12'16' xo,nr= 15'54 91,0 a 1 10,8 19,8

x o.oq = 12'85
' x r,rr = 15 '73 89.9 a I10.0 20,t

Vê-se, nessa tabela, que um intervalo de 95Vo, com a amplitude de apenas


19,8, é o compreendido de 91 a 110,8. Pode mesmo ser encontrado um intervalo de
menor amplitude, mediante a aplicação continuada do mesmo método de aproxima-
ção, adotando-se valores críticos co-o X,,Br Xo,ss, Xo,o*z" Xo,ggz
" "t..
Geralmente, contudo, o decréscimo de intervalo obtido dessa maneira é
comumente desprezível e não compensa o trabalho despendido.

13. O desvio padrão dos pesos de certos recipientes de 40 kg, cheios por uma
máquina, era 0,25 kg. Uma amostra aleatória de 20 pacotes apresentou o
desvio padrão de 0,32 kg. O aumento aparente de variação é significativo, nos
níveis de significância: (a) 0,05; (ó) 0,01?
Cap. 11 Teoria das pequenas amostras

Solução
Deve-se decidir entre as hipóteses:

Hg: o = 0,25 kg, e o resultado observado é devido ao acaso.


Hç o > 0,25 kg, e a variação aumentou.
O valor de 12 para a amostra é, X2 - N s2/o2 = 20(0,82)21(0,25)2 = 82,g.
(a) Mediante o emprego de um teste unilateral, rejeitar-se-ia 116, no nível de
significância 0,05, quando o valor amostral de 12 fosse superior a 1o2ru que
é igual a 30,1, para v = 20 - 1 = 19 graus de liberdade. Em conseqüência,
rejeitar-se-ia.F16 no nível de significância 0,05.
(b) Mediante o emprego de um teste unilateral, rejeitar-se-ia Hg, no nível
de
significância 0,01, quando o valor amostral de 12 fosse suierior a X6299, eue
é igual a36,2, para 19 graus de liberdade. Portanto, não se rejeitaria116
no nível de significância 0,01.

Conclui-se que a variação provavelmente cresceu. Deve-se proceder a um


exame da máquina.

PROB LEMAS SU PLEMENTARES

Distribuição f de "Student"
14. os coeficientes de confiança de 9g7a (bilateral), para uma distribuição normal,
são dados por + 2,58. Quais serão os coefrcientes correspondentes para a
distribuição ú, quando i
(o) v = 4; (b) v = t2; (c)v = 2b;(d) v = B0; (e) v = 10?

Resp.: + 4,60; (á) t 3,06; (c)!2,79;(d)+2,75;(e)t2,70.


15, uma amostra constituída de 12 medidas da tensão de ruptura de um fio de
algodão apresentou a média de 7,38 kg e o desvio padrão de 1,24 kg. Deter-
minar os limites de confiança de: (o) g57o;(b)ggVo,pata a tensão de ruptura
real.
Resp.: (a) 7,38 + 0,82; (b) 7,38 + 1,16 kg.
Estatística Cap. 11

16. Resolver o problema precedente, admitindo-se que os métodos da teoria das


grandes amostras são aplicáveis, e comparar os resultados obtidos.
Resp.: (o) 7,38 + 0,73; (b) 7,38 t 0,96 kg.

17. Registraram-se os valores 0,28; 0,30; 0,27; 0,33 e 0,31 segundo, obtidos em
cinco medições do tempo de reação de um indivíduo a certo estímulo. Deter-
minar os limites de confiança de: (o) 957o; (b) 997o, para o tempo real de reação.
Resp.: (o) 0,298 + 0,030; (b) 0,298 + 0,049 segundo.
18. A vida média das lâmpadas elétricas produzidas por uma companhia era,
anteriormente, 1.120 horas, com o desvio padrão de 125 horas. IJma amostra
de 8 lâmpadas, extraída recentemente de uma série há pouco fabricada,
apresentou a vida média de 1.070 horas. Testar a hipótese da vida média das
Iâmpadas não ter se alterado, adotados os níveis de significância: (o) 0,05;
(b) 0,01.
Resp.: Um teste bilateral mostra que não há evidência, tanto no nível 0,05
como no 0,01, que indique que a vida média foi alterada.

19. As especificações para a produção de certa liga exige 23,2Va de cobre. Uma
amostra, constante de 10 análises do produto, apresentou o teor médio de cobre
de 23,\Vo e o desvio padrão de 0,24Va. Pode-se concluir, nos níveis de signiÍi-
cância: (o) 0,01; (ó) 0,05, que o produto satisfaz às especiÍicações exigidas?
Resp.: Um teste bilateral, em ambos os níveis, indica que o produto não
satisfaz às especiÍicações exigidas.
20. Um perito eficiente declara que, mediante a introdução de um novo tipo de
máquina no processo de produção, pode ser substancialmente diminuído o
tempo necessário para a produção. Por causa do custo decorrente da manuten-
ção das máquinas, a administração percebe que, a não ser que o tempo de
produção possa ser reduzido de, pelo menos 9Vo, náo se poderá dispor de
recursos para introduzir o processo. Seis experiências realizadas indicam que
o tempo de produção é reduzido de 8,47o, com o desvio padrão 0,327o. Adotados
os níveis de signiÍicância: (o) 0,01; (á) 0,05, testar a hipótese de que o processo
deveria ser introduzido.
Resp.: Um teste unilateral indica que o processo não deveria ser introduzido,
se o nível de significância adotado fosse 0,01, mas que o seria se fosse
adotado o nível 0,05.
2t. Dois tipos dg solução química, A e B, foram ensaiados para a determinação do
pH (grau de acidez da solução). As análises de 6 amostras de A indicam o pH
médio de 7,52, com o desvio padrão de 0,024. As de 5 amostras de B apre-
sentaram o pH médio d.e7,49, com o desvio padrão 0,032. Adotado o nível de
Cap. 11 Teoria d,as pequenas amostras 301

significância 0,05, determinar se os dois tipos de solução têm valores diferentes


de pH.
Resp.: Mediante o emprego de um teste bilateral, no nível de significância
0,05, não se concluiria, com base nas amostras, que há diferença de
acidez entre os dois tipos de solução.
22. Em um exame de psicologia, 12 estudantes de uma turma tiveram o grau médio
78, com o desvio padrão 6, ao passo que 15 estudantes de outra turma tiveram
o grau médio '74, corn o desvio padrão 8. Adotado o nível de significância 0,05,
determinar se o primeiro grupo é superior ao segundo.
Resp.: Mediante o emprego de um teste unilateral, no nível de signiÍicância 0,05,
seria possível concluir que o primeiro grupo não é superior ao segundo.

A distribuição de qui-quadrado
23. O desvio padrão das durações de 10 lâmpadas elétricas produzidas por uma
fábrica é de 120 horas. Determinar os limites de conÍiança de: (o) 95Va; (b) 99Vo,
para o desvio padrão de todas as lâmpadas fabricadas pela companhia.
Resp.: @)87 a230,9;(b)78,1a 288,5 horas.
24. Mostrar que, para grandes valores de v, uma boa aproximação para 12 é dada por
(;v + zolD, ;, em que zo é o percentil de ordemp da distribuição normal reduzida.

25. Resolver o Problema 23, mediante o emprego de uma distribuição 12, quando
uma amostra de 100 lâmpadas elétricas apresentar o mesmo desvio padrão de
120 horas. Comparar os resultados com os obtidos pelos métodos do Capítulo 9.

Resp.: (a) 106, 1 a 140,5; (b) 102,L a 148,1horas.


26. Qual éo intervalo de confiança de957o do Problema2S que tem amplitude mínima?
Resp.: 105,5 a 139,6 horas
27. Avaliou-se em 240 kg o desvio padrão das tensões de ruptura de certos cabos
produzidos por uma companhia. Delpois de ter sido introduzida uma mudança
no processo de fabricação desses cabos, as tensões de ruptura de uma amostra
de 8 elementos apresentaram o desvio padrão de 300 kg. Investigar a signifi-
cância do aumento aparente de variação, adotados os níveis de signifrcância:
(o) 0,05; (ó) 0,01.

Resp.: Com base na amostra dada, o aumento aparente de variação não é


significativo em qualquer dos níveis.
Capítulo
12

O teste de qui-quadrado

Freqüências observadas e teóricas


Como já foi acentuado algumas vezes, os resultados obtidos por meio de amostras
nem sempre concordam exatamente com os teóricos esperados, de acordo com as
regras de probabilidade. Por exemplo, embora considerações teóricas permitam
esperar 50 caras e 50 coroas, quando uma moeda honesta for lançada 100 vezes, é
raro que esses resultados sejam obtidos exatamente.

Tabela 12.1

E1 E2 E3 Ep
Evento

o1 o2 o3 ok
Freqüência observada

e1 ea e3 ek
Freqüência esperada

Suponha-se que, em uma determinada amostra, observou-se que um con-


junto de eventos possíveis, Et,E2,EB, ...,8n$eja a Tabela 12.1), ocorreram com as
freqüências ot, 02, oB, ... ok, denominadas freqüências obseruadas, e que, de acordo
com as regras de probabilidade, esperar-se-ia que elas ocorressem com as freqüên-
cias e1, €2, e B, ..., €k, denominadas freqüêrucias esperadas ot teóricas.

302
Cap. 12 O teste de qui-quadrado

Deseja-se, freqüentemente, saber se as freqüências observadas diferem, de


modo signiÍicativo, das esperadas. No caso de serem possíveis somente dois eventos
E1e 82, o que é denominado, às vezes, classificação dicotômica ou dicotoüLicl, como,
por exemplo, caras e coroas, parafusos defeituosos ou não etc., o problema é
resolvido satisfatoriamente por meio dos métodos dos capítulos anteriores. Neste
capítulo considera-se o problema geral.

DeÍiniçã o de y2
Uma medida da discrepância existente entre as freqüências observadas e esperadas
é proporcionada pela estatística 12 {leia-se; qui-quad.rado), expressa por:

, (ot - et)zr--+...
(oz - uz)2 (ot -,t)z "t lO;./ - €;l'.)
x--
- -et e2 ek
s l'
€:J
' (l)
i=\

em que, quando a freqüência total é N.

Zo1 =Zei=|tJ. (2)

Uma expressão equivalente a (1) é (veja o Problema 8):

^o?
X'=2 r - N. (3)
'.t

Quando X2 = O, as freqüências teóricas e observadas concordam exa-


tamente, enquanto, quando X2 > 0, isso não se dá. Quanto maior for o valor d" X',
maior será a discrepância entre as freqüências observadas e esperadas.

A distribuição amostral d,e y2 será, com muita aproximação, uma de qui-


quadrado, da forma:
1i _1
y = yo(y212 tu -2t e 2 Xz : yoXu -2 e
))
-x' (4)

(já considerada no Capítulo 11), se as freqüências esperadas forem, pelo menos,


iguais a 5, melhorando a aproximação para valores maiores.
O número de graus de liberdade v é dado por:
(o) v = É - 1, se as freqüências esperadas puderem ser calculadas, sem que se
façam estimativas dos parâmetros populacionais, a partir de estatísticas
amostrais. Note-se que se subtrai I de h, por causa da condição de restrição
304 Estatística Cap. 12

(2) que estabelece que, sendo conhecidas (k - 7) freqüências esperadas, a


remanescente pode ser determinada.
(ó) v = l? - | - /rL, se as freqüências esperadas somente podem ser calculadas
mediante a estimativa de m parâmetros populacionais, a partir de estatís-
ticas amostrais.

Testes de signiÍicância
Na prática, as freqüências esperadas são calculadas com base em uma hipótese I1g.
Se, sob essa hipótese, o valor d" X2, calculado por meio de (1) ou de (3), for maior do
que alguns valores críticos (tais como X&'souX&,rr, que são os valores crÍticos para
os níveis de signiÍicância 0,05 e 0,01, respectivamente), concluir-se-á que as fre-
qüências observadas diferem, de modo significatiuo, das esperadas e rejeitar-se-á
Hg ao nível de significância correspondente. No caso contrário, dever-se-á aceitá-la
ou, pelo menos, não a rejeitar. Esse processo é denominado teste de qui-quadrado
da hipótese ou significância.
Deveria ser assinalado que se deve encarar com suspeita as circunstâncias
em que y2 é muito próximo de zero, porque é raro que as freqüências observadas
concordem muito bem com as esperadas. Para examinar essas situações, pode-se
determinar se o valor calculado de X2 é menor do que Xolos oo do que Xo2o, em cujos
casos decidir-se-á que a concordâncía é muito boa aos níveis de significância 0,05 e
0,0 1, respectivamente.

Teste de qui-quadrado para a prova de aderência


O teste de qui-quadrado pode ser usado para determinar quão aproximadamente as
distribuições teóricas, como a normal, a binomial etc., se ajustam às distribuições
empíricas, isto é, as obtidas por meio dos dados amostrais (veja os Problemas 9 e 10).

Tabelas de contingência
A Tabela 12.1, na qual as freqüências observadas ocupam uma linha única, é
denominad atabela de simples entrada. Como o número de colunas é k,, ela é também
denominad a tabela de 7 x É (leia-se: "1 por à"). Mediante a ampliação dessas idéias,
Cap. 12 O teste de qui-quad,rado

chega-se atabelas de dupla entrada oude h x á, nas quais as freqüências observadas


ocupam à linhas e É colunas. São denominadas tabelas de contingência.

Em uma tabela de contingência de h x h,, em correspondência a cada


freqüência observada, há uma esperada otteórica, que é calculada, para as mesmas
hipóteses, de acordo com as regras de probabilidade. Essas freqüências, que ocupam
as células de uma tabela de contingência, são denominad as freqüências das células.
A freqüência total de cada linha ou coluna é denominada freqüência rnarginal.

Para investigar a concordância entre as freqüências observadas e espera-


das, calcula-se a estatística:

. (o; - e)2
^,2_s"
L -L (5)
j ej

em que é considerada a soma de todas as células da tabela de contingência e os


símbolos oj e ej representam, respectivamente, as freqüências observadas e espera-
das da célula de ordemT. Essa soma, que é análoga à da expressão (1), contém áá
termos. A soma de todas as freqüências observadas é representada por N e é igual
à de todas as freqüências esperadas fcompare com a Equação (2)1.

Como anteriormente, a estatística (5) tem uma distribuição amostral dada


com muita aproximação pela expressão (4), desde que as freqüências esperadas nào
sejam muito pequenas. O número de graus de liberdade, v, dessa distribuição de
qui-quadrado é dado, para h > I e k > 1, por:
(a) v = (h - l) (k - 7), se as freqüências esperadas podem ser calculadas sem
que se tenha de estimar os parâmetros populacionais por meio das estatís-
ticas amostrais. Uma prova é o Problema 3.

(á) v = (h - L) (lr - 1) - nL, se as freqüências esperadas somente podem ser


calculadas mediante a estimativa de m parâmetros populacionais, por meio
das estatísticas amostrais.

Os testes de significância, para as tabelas de à x k, sáo semelhantes aos


para as tabelas de 1 x á. As freqüências esperadas encontram-se sujeita§ a uma
hipótese particular IIs. Uma hipótese comumente admitida é que as duas classifr-
cações são independentes uma da outra.

As tabelas de contingência podem ser ampliadas para maiores dimensões.


Assim, por exemplo, pode haver tabelas de h x h. x l, nas quais estão presentes B
classificações.
306 Estatística Cap. 12

Correção de Yates para a continuidade


contínuas são aplicados a dados
Quando os resultados referentes a distribuições
discretos, podem ser feitas certas correções relativas à continuidade, como se
verifica nos capítulos anteriores. Dispõe-se de correção semelhante, quando for
utilizada a dislribuição de qui-quadrado. A correçáo consiste em transformar a
expressão (1) em:
(l ot - e1l - 0,5)2
12 (corrigido) = e1

(l oz - e2l - 0,5)2 (l o* - elrl - 0,5)2


(6)
e2 ek

e é freqüentemente denominad a correçã,o d.e Yates. Há, também,


uma modificação
análoga para (5).
Geralmente,faz-seacorreçãosomentequandoonúmerodegrausde
liberdade é v = 1. Para grandes amostras, essa correção produz, praticamente,
os

mesmos resultados que o y2 náo-corrigido, mas podem surgir dificuldades nas


proximidades dos valá.es Para pequenas amostras, nas quais cada freqüên-
"*iii.ot.
ãia esperada está compreendida entre 5 e 10, talvez seja melhor comparar
ambos
os valores d" X2, o corrigido e o não-corrigido. Se ambos os valores
conduzirem à
mesma conclusão, quantã a uma hipótese, como sua rejeição ao nível 0,05, raramen-
te serão encontradas dificuldades. se eles conduzirem a conclusões diferentes,
poder-se-á recorrer ao aumento do tamanho da amostra, ou' se isso for impraticável,
poderão ser empregados os métodos exatos de probabilidade que envolve]Irl a distri'
buiçã.o polinomial do CaPítulo 6.

Fórmulas simples para cálculo d" X2

podem ser deduzidas fórmulas simples para o cáIculo d" X', que envolvem somente
para tabelas de
as freqüências observadas. Apresentam-se, a seguir, os resultados
contingêncta de 2 x 2 e 2 x 3.
Tabelas de2x2

x2=
N (atbz -
{a1 +by1@2+b)(a1 +a)(b1 +b2)
azbt)2
=
NL2
' 0)
^LffiN,
na qual A, = atb2- azbt,N = 01 + a2 + b1+ b2, N1 = d.t + bu Nz = az + bz,
Nl.= al +

+ ,2, Ng = bL + bz (veja o Problema 14)'


Cap. 12 O teste d,e qui-quadrad,o 307

Com a correção de Yates, essa expressão torna-se:

N (aft2 - azbtt-l,q'
(corrigido) = (8)
12
@n hi @, + b» @n or) (bn hl
N(r^ I - i*,
NlN2NaNg

I il Totais

A al a2 Na

B b1 b2 N6

Totais N1 N2 N

Tabelasde2xS
. r,rlal. ,?
14'= Nt * ,?j* _l**#*#l_,
rr nr.] rr r, N2 Nrl (e)
Ln, L
em que se adotou o resultado geral, válido para todas as tabelas de contingência:

-2
x2=2!_
ej
N. (10)

I II UI Totais

A al 4.2 a3 N1

B b1 b2 b3 N6

Totais N1 N2 Nr N

Veja o Problema 29. O resultado da expressão (9), para as tabelas de 2 x k,


em que k > 3, pode ser generalizado (veja o Problema 31).
Estatística Cap. 12

CoeÍiciente de conti ngência


Uma medida do grau de aÍinidade, associação ou dependência das classificações de
uma tabela de contingência, é dada por:

c= x2 (11)
x2+N
que é denominado coeficiente de contingência. Quanto maior for o valor de C, tanto
maior é o grau de associação. O número de linhas e colunas da tabela de contingência
determina o valor máximo de C, que nunca é maior do que 1. Se o número de linhas
e colunas de uma tabela de contingência é igual a lz,, o valor máximo de C é dado por
{(k - lW (veja Problemas 17, 34 e 35).

Correlação de atributos
Como as classificações de uma tabela de contingência descrevem, muitas vezes, as
características de indivíduos ou de objetos, elas são freqüentemente referidas como
atributos, e seu grau de dependência, associação ou afinidade é denominado corre-
laçã.o dos atributos. Para uma tabela de É x à, define-se:

( l2)

como o coeficiente de correlação entre os atributos ou classificações. Esse coeficiente


tem valor entre 0 e 1 (veja o Problema 19). Para as tabelas de 2 x 2, na qual k = 2,
a correlação é freqüentemente denominada correlação tetracórica.
O problema geral da correlação de variáveis numéricas é tratado no
CapÍtulo 14.

Propriedade adit iva de y2


Suponha-se que os resultados de experiências repetidas produziram valores amos-
trais de 12, dados por X? , Xr' , Xi,... com \!, \,t2, v3... graus de liberdade, respec-
Cap. 12 O teste de qui-quadrado

tivamente. Então, o resultado de todas essas experiências pode ser considerado


equivalente a um valor de y2 d,ad,o por X? * X: * X? * ...,com v1 * v2 * vB.+ ...
graus de liberdade (veja o Problema 20).

PROBLEMAS RESOLVIDOS

O teste de qui-quadrado
1. Em 200 lances de uma moeda, observaram-se 115 caras e 85 coroas. Testar a
hipótese da moeda ser honesta, adotados os níveis de significância: (o) 0,05;
(á) 0,01.

Solução
As freqüências observadas de caras e coroas são o1 = 115 e 02= 85, respectivamente.
As freqüências esperadas de caras e coroas, quando a moeda é verdadeira,
são e1 = 100 E e2 = 100, respectivamente.

Então:

..2 @1 -e12 * (oz-eil2 =(115-100)2+(85-100)2 _ÁÉ,.


x-= ,r e2 = 1oo r 1oo =4'Ôu'
Como o número de categorias ou classes (caras, coroas) é h = 2,v = k - L=
=2-L=1.
(o) o valor crítico X&,ss,puru um grau de liberdade = 3,84. Então, visto que
4,50 > 3,84, rejeitar-se-á a hipótese da moeda ser honesta, no nível de
significância 0,05.
(ó) O valor crítico d" X&,rn, para 1 grau de liberdade = 6,33. Então, visto que
4,50 < 6,63, náo se pode rejeitar a hipótese da moeda ser honesta, no nível
de significância 0,01.

Conclui-se que os resultados observados sã,o prouauelmente significatiuos


e que a moeda é prouauelmente uiciada.
310 Estatística Cap. 12

Para comparaçáo deste método com os anteriormente usados, veja o pro-


blema 3.

2. Resolver o Problema 1, usando a correção de Yates.

Solução

(l ot - et I - 0,5)2 ll oz - ez |- 0,5)2
(corrigido) =
12
er ez

(l 115 - I - 0,5)2 _ (t 85 -
100 100 I - 0,o2
100 - r 100
_

qL4,512
100 * -10õ- = 4,205.
G4,5)2

Visto que 4,205 > 3,84 e 4,205 < 6,63, as conclusões concentradas para o
Problema 1 são válidas.
Para uma comparação com os métodos anteriores, veja o problema B.

3. Resolver o Problema 1, empregando o ajustamento da curva normal à distri-


buição binomial.

Solução
Para a hipótese da moeda ser honesta, a média e o desvio padrão do número de
caras, esperado rnq 200 lances de uma moeda, são: p = Np = (200) (0,5) = 100 e
o = {NpS = \[200) (0*5) (0O =7,07 respectivamente.

Ie Método
115 caras em unidades reduzidss = (115 - LOO)/7,07 = 2,12. Adotado o nível de
significância 0,05 e um teste bilateral, rejeitar-se-ia a hipótese de a moeda ser
honesta se o escore e estiver fora do intervalo de -1,96 a 1B6. Com o nível 0,01, o
intervalo correspondente seria de -2,58 a2,58. Segue-se, como no problema 1, que
se pode rejeitar a hipótese ao nível 0,05, mas não no 0,01.

Note-se que o quadrado do escore reduzido obtido, (2,L2)2 = 4,50, é igual ao


valor de "trz, obtído no Problema 1. Esse é sempre o caso, para um teste de qui-qua-
drado que inclui duas categorias (veja o Problema 7).
Cap. 12 O teste de qui-quadrado 311

2e Método

Adotada a correção de continuidade, 115 ou mais caras é equivalente a 114,5 ou


mais. Então, L!4,5 em unidades reduzidas = (114,5 - 100)17 ,07 = 2,05.Isso conduz
às mesmas conclusões do primeiro método.

Note-se que o quadrado do escore reduzido é(2,0il2 = 4,20,em concordância


com o valor de 12, corrigido para continuidade mediante o emprego da correçáo de
Yates do Probiema 2. Esse é sempre o caso para um teste de qui-quadrado que
envolve duas categorias ao qual a correção de Yates é aplicada.

4. A Tabela 72.2 apresenta as freqüências observadas e esperadas, ao lançar-se


um lado 120 vezes. Testar a hipótese do dado ser honesto, adotado o nível de
signiÍicância 0,05.

Tabelal2.2

Face I ) 3 4 5 6

Freqüência 25 t'7 l-5 23 24 l6


observada

Freqüência 20 20 20 20 20 20
esperada

Solução

, (ot
,_=_T_T___=
- eiz (o2 - e2)2 (os - es)2 . (o+ - e+)2
1e2e3e4
(o5 - e5)' @u - edz (25 - 2O)2 , G7 - 2U2
-rr2o2o
e5 e6

. (15 - ?9t,
*-zí:* (23 - 2o)2+ Q4' 2q2,+ Ía -)9: - Ãôô
=o'uu'
zo n 20
Como o número de categorias ou classes (faces l, 2, 3, 4, 5, 6) é h = 6, v =
=h,-l=6-1=5.
O valor crítico du X&,rU, para 5 graus de liberdade, é 11,1. Então, visto que
5 < 11,1, não se pode rejeitar a hipótese do dado ser honesto.
312 Estatística Cap. 12

Para 5 graus de liberdad",X&'s= 1,15, de modo q.U.eX2 = 5 > 1,15. Segue-se


que a concordância não é excepcionalmente boa, e que seria considerada com
desconfiança.

5. Nas experiências que Mendel realizou com ervilhas, ele observou 315 redond.as
e amarelas, 108 redondas e verdes, 101 enrugadas e amarelas e 32 enrugadas
e verdes. De acordo com sua teoria de hereditariedade, os números devãriam
estar na proporção 9:3:3:1. Há alguma evidência para se duvidar de sua teoria
aos níveis de significância: (o) 0,01; (ó) 0,05?

Solução
O número total de ervilhas = 315 + 108 + 101 + 32 = 556. Como os números esperados
estão na proporção 9:3:3:1 (e 9 + 3 + 3 + 1= 16), esperaríamos:
q
jA (556) = 312,75 redondas e amarelas.

fr fssol = l}4,2lenrugadas e amarelas.


ft fssol = lol,2lredondas e verdes.

1
(556) = 34,75 enrugadas e verdes.
16

Então:

,z =
t3t5 :-l,f,T\z * tt08 __f91,zs)2 . .
ff
t32 - 34 75t2
*'"2 =0,470

como há 4 categorias, k = 4e o número de graus de liberdade é v = 4 - 1 = B.


(o) Para u = 3, X&,nn= 11,8, de modo que não se pode rejeitar a teoria, no nível
0,01.
(ó) pals u = 3,
Xi,u= 7,81, de modo que não se pode rejeitar a teoria, no nível
0,05.
Conclui-se que a teoria e a experiência estão em concordância.
Cap. 12 O teste de qui'quadrado 313

Note-se que, para 3 graus de liberdad = 0,470 > 0,352.


X &,os= 0,352 e X2
",
Assim, embora a concordância seja boa, os resultados obtidos estão sujeitos a uma
quantidade razoável de erros amostrais.

6. O recenseamento de 320 famílias com 5 crianças revelou a distribuiçào


apresentada na Tabela 72.3. Esse resultado é compatível corn a hipótese dos
nascimentos de homens e mulheres serem igualmente prováveis?

Tabela 12.3

Número 5 meninos 4 meninos 3 meninos 2 meninos I menino 0 menino Total


de 0 meninas 1 menina 2 meninas 3 meninas 4 meninas 5 meninas
meninos e
meninas
Número l8 56 110 88 40 8 320
le famíliat

Solução
Sejap a probabilidade de nascimento de um homem e q = 7 -p a de uma mulher.
Então, as probabilidades de (5 meninos), (4 meninos e l menina), ..., (5 meninas),
são dadas pelos termos do desenvolvimento binomial:
(p + q)2 = p5 + 5p2q * lopsq2 + lop2q3 + Spqa + q5'

Sep= s=+,tem-se:

1 \5 I
Pr {5 meninos e 0 menina } = 2) \)

r \at r ) 5
Pr {4 meninos e 1 menina} - 5
zl./ lzl 7)
\ ) "-
Pr {3 meninos e 2 meninas} - 10
1 \3 / 1 rz - 1o
o
')
I I r I 2')
JL
\-/

I \2 / I \l - 10
Pr {2 meninos e 3 meninas} - 10 tl,/ lzl
\ ) "'7)
314 Estatística Cap. 12

Pr {1 meninoe4meninas} - si jlt
\ ./\llo=+
) -'
Pr {0meninoe5 meninas} = l1 Js=+.
[ 32
',]
Então, os números esperados de famílias com 5, 4, 3,2, 1 e 0 menino, são
obtidos, respectivamente, multiplicando-se as probabilidades obtidas por 320 e os
resultados são 10, 50, 100, 100, 50, 10. Por isso:

r
w-_-I
(18 - 10) 2 (56 - 50) 2 ttto - 100) 2

^ 10 50 100
2 2 2
*' r!A-i99) (40-f\ - *T (8 -10
-I

1oo *
501 10)
50 =
-r 12,0.
Como X&,nu*11,1 e X&,ss, 15, 1, para v = 6 - 1=5 graus de liberdade, pode-se
rejeitar a hipótese ao nível de signifrcância 0,05, mas não ao de 0,01. Em conseqüên-
cia, conclui-se que os resultados são provavelmente significativos e que os nasci-
mentos de homens e de mulheres não são igualmente prováveis.

7. Demonstrar que um teste de qui-quadrado, que envolve apenas duas catego-


rias, é equivalente ao teste de significância do Capítulo 10 (testes especiais
para proporções).

Solução
Se P é a proporção da amostra para a categoria,I, p a proporção populacional e N a
freqüência total, pode-se descrever a situação por meio da tabela anexa.
Então, por deÍinição:

I II Total'
Freqüência observada NP N(1 -P) N
Freqüência esperada Np N(l-p)=Nq

^.2 WP -Np)2 . tN(1 -P) - N(l -à12 _ N2(p -p)2 N2(p -p)2
nNpNq Np Nq

-=
Cap. 12 O teste de qui-quadrado 315

que é o quadrado da estatística z obtido no Capítulo 10 (testes especiais para


proporções).

8. (o) Provar que a fórmula (1) na definição do 12 no Capítulo 12 pode ser escrita
sob a forma:

^ ():/
Xt=L
2

ej
-N.
(á) Usar o resultado do item (o) para verifrcar o valor d" X2, calculado no
Problema 5.

Solução

- 2
(a) Por definiçào, X" =
(o; - e,\2=, ( o? - 2o,e, + e?\
T l---;Í' )=
09,
oi oj' _ N.
-2zo;+Le; = ,.9j -2N+N = z
- L ejrrejej
em que se usam os resultados (2) na definição d'o y2 no Capítulo 12.

th\ !2
oi' * (315)2
+ (10812 (101)2
\ut - L ej - /Y
L =, = +
^/ - 312,75 - 104,25' 104,25'

. P?'-'-o - 556 = 0.470.


,7+r l

Prova de aderência
9. Usar o teste de qui-quadrado para efetuar â prova de aderência dos dados do
Problema 19 do Capítulo 7.

Solução

r
n'l-=+
(38 - 33.2) 2 tt++ - 161,9)', t3+2 - 316,à2 t281 - 308,12
33,2 ,9
16l 326.2 308.7
316 Estatística Cap. 12

+, (164 - 150,7)2
'---T50-J '', + '--
ç25 - 29,412
2sA = 7'54.
Como o número de parâmetros usados para a estimação das freqüências
esperadas ém = 1(a saber, o parâmetrop da distribuição binomial),\ = k -l -m =
- 6-7-L=4.
Parav = ,yl,nr= 9,49. Então, o ajustamento dos dados é bom.

Para v = ,X&,ou = 0,711. Em conseqüência, co^o y2 = 7,54 > 0,711, o


ajustamento não é tão bom quanto se acreditava.

10. Realizar a proya de aderência dos dados do Problema 21, Capítulo 7.

Solução

..2
í- - ç5 - 4,7372+ (18 - 20,68) 2 + é2 - 38,92t2 *
4,rB 20^6g Bg,n
27,71t2
*, \27
T
- , rB - 7,43't2
=0,959.

Como o número de parâmetros usados para a estimação das freqüências


esperadas é m =2 (a saber, a média p e o desvio padrão o da distribuição normal),
y=k-l-m=5-1-2=2.
Para v = 2,Xi.nu= 5,99. Em conseqüência, conclui-se que o ajustamento dos
dados é muito bom.

Para v = 2,Xi,ou= 0,103. Entào, como y2 = 0,959 > 0,103, o ajustamento não
é "demasiadamente bom".

Tabelas de contingência
11. Resolver o Problema 14 do Capítulo 10, mediante o emprego do teste de
qui-quadrado.
Cap. 12 O teste de qui-quad.rad,o 317

Solução
As condições do problema estão apresentadas na Tabela 12.4(a). Para a hipótese
nula, -FIg, do soro não produzir efeito, esperar-se-ia que 70 pessoas de cada grupo
ficassem curadas e que 30 não, como está indicado na Tabela 12.4(b). Note-se que
Ilg é equivalente a estabelecer-se que a cura é independente do uso do soro, isto é,
que as classificações são independentes.

Tabela 12.4(a)
Freqüências observadas

Curqdos Não curados Total

Grupo A 15 25 100
(usando o soro)
Grupo B 65 35 100
(não usando o soro)
Total 140 60 200

Tabela 12.4(b)
Freqüências esperadas sob flo

Curados Não curados Total

Grupo A 70 30 100
(usando o soro)
Grupo B 10 30 100
(não usando o soro)
Total 140 60 200

t 05 - l\z 2
-' * (25 2
a.Í- * ''- :o
(65 - 70) 30) (35 - 30)2
x'=ff +'"- 70
= 2'38'

Para determinar o número de graus de liberdade, considere-se a Tabela


12.5, que é igual às anteriores, com a diferença de somente estarem indicados os
totais. E claro que se tem a liberdade de colocar apenas um número, em uma das
318 Estatística Cap. 12

quatro células yazías, visto que, feito isso, os números das céIulas remanescentes
são determinados dos totais indicados. Em conseqüência, há um grau de liberdade.

Tabela 12.5

Cursdos Não curados Total

Grupo A 100
Grupo B 100

Total t40 60 200

Outro método
PeIa fórmula (veja o Problema 13, v = h- D (k - I) = (2 - t) (2 -1) = 1.)
Como x},ss = 3,84, para 1 grau de liberdade, e que X2 = 2,88 < 8,84,
conclui-se que os resultados nã,o sõ,o significatiuos ao nível 0,05. Portanto, não se
está habilitado a rejeitarFlg nesse nÍvel, e conclui-se que o soro éineficaz ou, então,
deixa-se a decisão pendente de testes ulteriores.

Note-se que X2 = 2,38 é o quadrado de escore z = !,54, obtido no Problema


14 do capítulo 10. Em geral, o teste de qui-quadrado, que envolve as proporções
amostrais de uma tabela de contingência de 2 x 2, é equivalente a um teste de
significância de diferenças de proporções, mediante o emprego de um ajustamento
normal, como nos testes de significância para diferença de proporções, visto no
Capítulo 10 (veja Problema 15).

Note-se também que um teste unilateral, com o emprego d" Xr, é equiva-
lente a um bilateral que emprega apenas X, por exemplo, X2 , Xi.gscorresponde a
(X>Xo,s) ou a (I. -Xo,ss).Como, para as tabelas de2x2,X2 é o quadrado d.o escore
z, segue-se que X, é, nesse caso, igual a z. Por isso, a rejeição de uma hipótese ao
nível de 0,05, utilizando-se y2, é eqtivalente à rejeição, em um teste unilateral, no
nível 0,10, usando-se z.

72. Resolver o problema anterior, mediante o emprego da correção de Yates.


Cap. 12 O teste de qui-quadrado 319

Solução

12(corrigido, = tlõ-ZQl- 0l)2 * (1É!


-Jfr._QJ)2 *

. (125 - 301- 0,5)2 *- (135 - 30 l- 0.5)2


*- 30 30
= 1,93.

Em conseqüência, as conclusões obtidas no problema anterior são válidas.


Isso poderia ter sido constatado imediatamente, mediante a observação de que as
correções de Yates sempre diminuem o valor d" X2.

13. Mostrar que, para uma tabela de contingência de hxh o número de graus de
liberdade é (h - 7) (lt - 1), em que á > 7, k > l.

Solução
Em uma tabela corn h linhas e à colunas, pode-se deixar de lado um único número
de cada linha e coluna, visto que ele pode ser facilmente deduzido dos totais
conhecidos de cada coluna e linha. Segue-se que se tem a liberdade de colocar apenas
(h - 7) (k - 7) número da tabela, sendo os outros automaticamente determinados de
uma só maneira. Portanto, o número de graus de liberdade é (h - l) (k - 1). Note-se
que esse resultado prevalece, contanto que sejam conhecidos os parâmetros popu-
lacionais necessários para a obtenção das freqüências esperadas.

14. (o) Provar que, para a tabela de contingência de 2x2, apresentada na Tabela
12.6@).

) N(aft2-a2b)2
^ NrNzNeNa

(á) Iiustrar o resultado obtido no item (o), com referência aos dados do Pro-
blema 11.
320 Estatística Cap. 12

Tabela 12.6
Resultados observados

I II Totais

A a1 Aa Na
B b, b2 Ns
Totais N1 N2 N
(a)

I il Totais

A NrNelN N2NAIN N1
B NrNn/N NzNnlN N6
Totais N1 Nt N
(b)

Solução
Como no Problema 11, os resultados esperados, para uma hipótese nula, estão
indicados na Tabela 12.6(b).
Então:

L
t (at - N1N/t\,t)'
_II
(o, - N2N/N)2
Nüs/N N2Na/N

* - NtNa/N)2n -
(bt (bz N2NB/Nt2
_
r*yr N2NilN
Mas,
Nrl/a @1 + b) (ay + a2) a1b2 - a2b1
at--N -ol a1 +b1 +a2+b2= N

Semelhantemente,
( NzNa) (, NrNa) í,- NzNa)
lo'-, ,J'l'- r-J"["- r.J
Cap. 12 O teste de qui-quadrado 321

são também iguais a


( orb, - azh \
Ir]
Portanto, pode-se escrever:
z
c N (rúz-ozbr N (oúz_ rrbr\2
x-=arrN.+[ N ,
).NrI,IAI )*
N (oúz-ozbr\z
*N,Nr[-ar N (oúz-ozbr\2
)**r*r[ n- )'
ti;l;r;*i;ur"'
que se simpliÍica em x2 =Y

No Problema ll, ay = 75, a2 = 25, bt = 65, b2 = 35, N1 = 140, N2 = §Q, À/4 =


- 100, eNr - 100 eN =200 então, como se obteve anteriormente:
,
-tr _
L
2OO t (75) (35) -
(25) (65) l2
- (140) (60) (100) (100) = 2,89.

Usando a correção de Yates, o resultado é igual ao do ProblernaT2.

N(1aft2-azbt, -**r'
1(corrigidol = ffi=
200t | (75)(35) - (25)(65) r- 10012
(140) (60) (100) (100) = 1,93 .

15. Mostrar que um teste de qui-quadrado, que envolve duas proporções amostrais,
éequivalente a um de signifrcância da diferença das proporções com o emprego
do ajustamento normal (veja a página 258).

Solução
Sejam P1 e P2 as proporções amostrais e p a populacional. Com referência ao
Problema 14, tem-se:
(1) P1 = ar/Nb P2 = a2lNz, I - Pt = btlNt 1 - Pz= bzlNz
(2) p=N4/N,I-p=e=NalN
Estatística Cap. 12

de modo que
(3) ar = N1P1, a2 = NzP2, ót = Nr(1 - P), bz = Nz(L - Pz)
(a) Na = Np, NB = Nq.

Mediante o emprego de (3) e (4), tem-se, no Problema 14:

N(ayb2- azbiz N [N1p1N2 0- p)- N2p2N1(1- pr) ]2


Í.2= Nú/r^,oArB = Nt4l2NpNq =

N1N2 (P1 - Pz)2 (Pt- Pz)2 (Porque N = Nt + i\2)'


pq l;N-íAt,
-No,
que é o quadrado da estatística e, obtido no Capítulo 10, quando se abordou os testes
especiais para proporções.

CoeÍiciente de contingência
16. Determinar o coeficiente de contingência para os dados da tabela de contin-
gência do Problema 11.

Solução

0,1094.

17. Determinar o valor máximo de C, para a tabela de 2 x 2 do Problema 11.

Solução
O valor máximo de C ocorre quando as duas classiÍicações são perfeitamente
dependentes ou associadas. Nesse caso, todos os que tomaram o soro foram curados
e todos os que não o tomaram não o foram. A tabela de contingência aparece, entào,
como a Tabela 12.7.
Cap. 12 O teste de qui-quadrado

Tabela 12.7

Curados Não-curados Total

Grupo A 100 0 100


(usando o soro)
Grupo B 0 r00 100
(não usando o soro)
Total 100 100 200

Como as freqüências esperadas das células, consideradas completamente


independentes, são todas iguais a 50,

.) (100-50)'* (O-50)2*' (0-50)2


X-= : rl00-50r2
50 SO =200.

oq
Então, o valor máximo de C = x'/w' = {loo,z(2õo * 2oo) =
= 0,7071.
Em geral, para a dependência perfeita, em uma tabela de contingência
cujos números de linhas e colunas são, ambos iguais a h,, as únicas céIulas de
freqüências não-nulas aparecem na diagonal que vai da casa superior esquerda à
inferior direita da tabela.
Para esses casos, C,,r, = 1n
^[ - gtn (veja os Problemas 34 e 35).

Correlação de atributos
18' Para a tabela do Problema 11, determinar o coeficiente de correlação: (o) sem;
(ó) com a correção de Yates.

Solução

(a) como x2=2,BB,N=200 ek=2,tem-se. =


{ \E#=0,1091,
o que "#"=
indica correlação muito pequena entre a cura e o uso do soro.
(á) No Problema 12, r (corrigido) = ^t 1,93/200 = 0,0982.
324 Estatística Cap. 12

19. Provar que o coeficiente de correlação para as tabelas de contingência, definido


pela Equaçáo (12) referente à correlação de atributos deste capítulo, está
compreendido entre 0 e 1.

Solução

Pelo Problema 35, o valor máximo de /(x2 +


x2/(x2 tg e "{ 1n - gt . Então:

X,. k-l (t - \(X2


x2+N- k
trx2< + 1\D, ft x2< kx2 < kx2 - x2 + ÀN - t/,

y2
x2< & - l)N. N(; _ ri < I e r =

Como x2> o, r> 0. Então,0 < r ( l,comoseestabeleceu.

Propriedade aditiva de y2
20. Para testar uma hipótese Hg, ufià experiência foi realizada três vezes. Os
valores resultantes d.e X2 foram2,37,l,86 e 3,54, cada um dos quais corres-
ponde ao grau de liberdade um. Mostrar que, apesar de 1{g não poder ser
rejeitado no nível 0,05, com base em cada experiência individual, ela poderá
sê-lo quando as três experiências forem associadas.

Solução

O valor d" X2, obtido mediante a associação dos resultados d.as três experiências é,
de acordo com a propriedade aditiua:

X2 = 2,37 + 2,86 + 3,54 = 9,77,com 1 + 1 + 1 = 3 graus de liberdade.


Como Xi,ss, p^ru 3 graus de liberdad e, é 7 ,81, pode-se rejeitar Ils no nível
de significância 0,05. Mas, como Xi,su= 3,84, para o grau de liberdade unitário, não
se pode rejeitar I1g, com base em qualquer das experiências.
Cap. 12 O teste de qui-quadrado 325

Ao associar experiências, cujos valores obtidos para X2 correspondem ao


grau de liberdade unitário, omite-se a correção de Yates, por causa de sua tendência
de supercorrigir.

PROB LEMAS SU PLEMENTARES

O teste de qui-quadrado
21. Em 60 lances de uma moeda, observaram-se 37 caras e 23 coroas. Testar a
hipótese da moeda ser honesta, adotados os níveis de significância: (a) 0,05;
(á) 0,01.

Resp.: A hipótese não pode ser rejeitada em nenhum desses níveis.


22. Resolver o problema anterior, usando a correção de Yates.
Resp.: A conclusão é igual à anterior.
23. Durante um longo período de tempo, os graus dados por um grupo de instru-
tores de um curso particular foram, em média, 127o de A, lSVo de B, 407o d,e C,
78Vo de D e lZVo de F. Um novo instrutor atribuiu 22Vo de A, 347a d,e B, 66Vo de
C, 167o de D e l27o de F, durante dois semestres. Determinar, ao nível de
significância 0,05, se o novo instrutor está seguindo o padrão de graus estabe-
Iecido pelos outros.

Resp.: O novo instrutor não está seguindo o padrão de graus dos outros. (O
fato dos graus serem melhor do que a médía, pode ser atribuído à maior
habilidade de ensino ou a padrões de julgamento inferiores ou a ambos
os casos).

24. O número de livros emprestados por uma biblioteca pública, durante uma
determinada semana, está indicado na Tabela 12.8. Testar a hipótese do
número de livros emprestados não depender do dia da semana, adotados os
níveis de significância: (o) 0,05; (ó) 0,01.
Resp.: Não há razáo para rejeitar a hipótese em qualquer dos níveis.
326 Estatística Cap. 12

Tabela 12.8

Segunda Terça Quarta Quinta Sexta

Número de livros r35 108 120 tt4 116


emprestados

25. 200 parafusos foram selecionados, ao acaso, da produção de cada uma de 4


máquinas. Os números de parafusos defeituosos encontrados foram 2,9,10 e
3. Determinar se há uma diferença significativa entre as máquinas, adotado o
nível de signiÍicância 0,05.
Resp.: A diferença é significativa no nível 0,05.

Prova de aderência
26. (o) Usar o teste de qui-quadrado para determinar a prova de aderência dos
dados do Problema 43, Capítulo 7. (á) E o ajustamento "muito bom"? Adotar o
nível de signiÍicância 0,05.
Resp.: (o) O ajustamento é bom. (ó) Não.

Tabelas de contingência
27. A Tabela 12.9 indica os resultados de uma experiência para investigar os
efeitos da vacinação de animais de laboratório contra uma enfermidade parti-
cular. Adotados os níveis de significância: (o) 0,01; (á) 0,05, testar a hipótese
de não haver diferença entre os grupos de vacinados e não-vacinados, isto é,
de serem independentes a vacinaçáo e a enfermidade.

Resp.: A hipótese pode ser rejeitada no nível 0,05, mas não no 0,01.

Tabela 12.9

Adoeceram Não adoeceram

Vacinados 9 42

Náo vacinados t1 28
Cap. 12 O teste de qui-quadrado 327

28. A Tabela 12.10 mostra a relação entre os aproveitamentos dos estudantes em


matemática e física. Testar a hipótese de o aproveitamento em física ser
independente do de matemática, adotados os níveis de significância: (o) 0,05;
(b) 0,01.

Resp.: A hipótese pode ser rejeitada em ambos os níveis.

Tabela 12.10

Matemática

Graus altos Graus mtídios Graus baixos

Graus altos 56 11 t2
Física Graus médios 4't t63 38

Graus baixos I4 42 85

29. (a) Provar qrref2 = » @:ej ) - N, para todas as tabelas de contingência, sendo
N a freqüência total de" todas as células. (á) Utilizando o resultado obtido no
item (o), resolver o Problema 28.
30. Se N; e N; representam, respectivamente, a soma das freqüências da linha de
ordem I e da coluna de ordem 7 de uma tabela de contingêncía (freqüências
marginais), mostrar que a freqüência esperada para a célula pertencente a
essa linha e coluna é NiNi lN, sendo N a freqüência total das células.

31. Estend.er os resultados da fórmula (9) para o cálculo do X2 em tabelas de


contingência de 2 x 2 às tabelas de contingência de 2xk,nas quais k > 3.
32. Por analogia com as idéias explanadas para as tabelas de contingência de á x
x á, discutir as tabelas de contingência de h x h x l, apontando as possíveis
aplicações que elas podem ter.

CoeÍiciente de contingência
33. Determinar o coeficiente de contingência para os dados do Problema 28.
Resp.: 0,4651.
Estatística Cap. 12

34. Provar que o coeÍiciente máximo de contingência, para uma tabela de 3 x 3, é

aProximadamente'
! ã = 0,8165,
35. Pfg"gl_q"qo coeficiente máximo de contingência, para uma tabela de k x k, é

^t(tr- rW

Correlação de atributos
36. Determinar o coeficiente de correlação entre os graus de matemática e física
da tabela do Problema 28.

Resp.: 0,3715.
37. SeCé ocoeÍiciente decontingência, paraumatabeladele x k,eréocoeficiente
de correlação correspondente, provar eüê r = Cl{ G -e) @ - l)

Propriedade adit iva de y2


38. Para testar uma hipótese 116, realizou-se uma experiência 5 vezes. Os valores
resultantes d,e ^trz, cad.a um correspondente a 4 graus de liberdade, são: 8,8; g,1;
8,9; 7,8; 8,6, respectivamente. Mostrar que, apesar de I/6 não poder ser
rejeitada, no nível 0,05, com base em cada experiência considerada separada-
mente, ela poderá ser rejeitada, no nível 0,05, com base nas experiências
associadas.
h
MÀKRON
Capítulo
13

Ajustamento de curvas e o
método dos mínimos quadrados

Relação entre variáveis


Com muita freqüência, na prática, verifica-se que existe uma relação entre duas (ou
mais) variáveis. Por exemplo: os pesos dos adultos do sexo masculino dependem, em
certo grau, de suas alturas; as circunferências de círculos dependem de seus raios;
a pressão de uma determinada massa de gás depende de sua temperatura e de seu
volume.
Deseja-se, freqüentemente, expressar essa relação sob forma matemática,
por meio do estabelecimento de uma equação que iigue as variáveis.

Ajustamento de curvas
Para auxiliar a determinação de uma equação que relacione as variáveis, um
primeiro passo consiste em colecionar dados que indiquem os valores correspon-
dentes das variáveis consideradas.

Por exemplo, admita-se que X e.Y representem, respectivamente, a altura


e o peso de adultos do sexo masculino. Então, uma amostra de N indivíduos
apresentaria as alturasXyX2, ...,XN e os pesos correspondentes Y1, Y2, ...,YN.
uma segunda etapa consiste em locar os pontos (x1,Y1), (xz,Yz),..., (x,r,,, yar)
em um sistema de coordenadas cartesianas. O conjunto de pontos resultante é
denominado, às vezes, diagrama de dispersõ,o.

329
330 Estatística Cap. 13

No diagrama de dispersão é possível, freqüentemente, visualizar uma


curva regular que se aproxime dos dados. Essa curva é denominada de ajustamento.
Na Figura 13.1, por exemplo, os dados parecem estar bem próximos de uma linha
reta, e diz-se que há :uma relação linear entre as variáveis. Na Figura 13.2,
entretanto, embora exista uma relação entre as variáveis, ela não é daquele tipo e,
então, é denominada relaçdo não-linear.
O problema geral da determinação das equações de curvas que se acomo-
dem a certos conjuntos de dados é denominado ajustamento de curud,s.

Figura 13.1

Figura 13.2

Equações das curvas de ajustamento


Para frns de referência, relacionamos a seguir alguns tipos comuns de curvas de
ajustamento e suas equações. Todas as letras, excetoXe Y, representam constantes.
As letras X e Y referem-se, freqüentemente, a uarid.ueis independentes e depen-
dentes, respectivamente, embora esses papéis possam ser permutados.
Cap. 13 Ajustamento de curuas eo método dos mínimos quadrados 331

(1) Y = as + d,yX Linha reta


Q) Y = ao + a1X + a2X2 Parábola ou curva do 2q grau
(3) Y = dg + a1X + azNz + aBXs Curva do 3q grau
(4) Y = ag + o.1X + azx2 + IBXS + a4X4 Curva do 4e grau
(5) Y = ag + a1X + a2X2 + ... + dnxn Curva de grau n.
Os segundos membros das equações anteriores são denominados poliruô-
mios do l, 2, 3,4 e enésimo graus, respectivamente. As funções definidas pelas
quatro primeiras destas equações são, às vezes, denominadas funções linear, qua-
drd,tica, cúbica e do 4e grau, tespectivamente.
Como outras equações possíveis (entre muitas), usadas na prática, mencio-
nam-se as seguintes:

(6)Y= 11
^--.oui=ao+o1X Hipérbole
ao+ovr I
(7) Y =abX oulogY= loga + (1og b)X=as+a1X Curva exponencial
(8) y=aXb oulogY=loga+blogX Curvageométrica
(9)Y=abx+g Curvaexponencial
modificada
(10)Y=o**g Curva geométrica
modificada

(11) y =pqb oulog Y =logp +bxlogq =abx +g Curva de Gompertz

(lz)Y=pqb* +h
35A*".iompertz
(13)Y=+ o,r|=abx+g Curva logístiea
af+g
(14)Y = do + or (log X) + a2(logJí)2.
Para decidir qual a curva a adotar, é conveniente a obtenção de diagramas
de dispersão das variáveis transformadas. Por exemplo, se o diagrama de dispersão
de log Yem função deXapresentar uma relação linear, a equação teráo aspecto da
(7), enquanto, se o de log Yem função do logXindicar relação daquele tipo, a equação
terá a forma da (8). Para facilitar esse processo, emprega-se, freqüentemente, papel
especial para gráficos, no qual uma ou ambas as escalas são logarítmicas. São
denominados papéis semilog ot log-log, respectivamente.
Estatístíca Cap. 13

Método de ajustamento de curva à mão Iivre


Pode-se usar, freqüentemente, critério individual, para traçar umâ curva de ajus-
tamento que se adapte a um conjunto de dados. E o denominado método de
ajustamento de curua à mãn liure. Se é conhecido o tipo de equação dessa curva, é
possível obter suas constantes, mediante a escolha de tantos pontos da curva
quantas são as constantes da equação. Por exemplo, se a equação é de uma linha
reta, são necessários dois pontos; se é de uma parábola, são necessários três. O
método tem a desvantagem de observadores diferentes obterem curvas e equações
diferentes.

A linha reta
O tipo mais simples de curva de ajustamento é a linha reta, cuja equação pode ser
escrita:
Y = ao + a1X. (15)

Dados dois pontos quaisquer (X1,Y) e (Xz, Y2) dessa reta, as constantes
ao e ar podem ser determinadas. A equação resultante da reta pode ser escrita:
( Y,- Y,\
Y-Y1=[rr-J6-xt) ( 16)

ou

Y-Yr-m(X-X),
Yz- Y,
em que
' m = # Át é denominado coeficiente angular (ou decliuidade d.a reta) e
^z- Y, dividida pela correspondente de X.
representa a variação

Quando a equação está escrita sob a forma (15), a constante, a1 é o


coeficiente angular m. Aconstante ag, que é o valor de Y quando X = 0, é denominada
ordenada à origem (ou intercepçd,o no eixo d,os Y).

O método dos mínimos quadrados


Para evitar o critério individual na construção de retas, parábolas ou outras curvas
de ajustamento que se adaptem ao conjunto de dados, é necessário instituir uma
Cap. 13 Ajustamento de curuas e o método dos mínimos quadrad,os

definição da "melhor reta de ajustamento", da "melhor parábola de ajusta-


mento" etc.
Para conseguir uma definição possível, considere-se a Figura 13.3, na qual
os dados estão representados pelos pontos (Xr, Y)(Xz,Y2),..., (X1i, Y1,,). Para um
valor dado de X, por exemplo X1, haverâ uma diferença entre Y1 e o valor corres-
pondente determinado na curva C. Como está indicado na figura, representa-se essa
diferença por Dy que é, muitas vezes, designado como desuio, erro ou resíduo e pode
ser positiuo, negatiuo ort nulo. De modo semelhante, em correspondência com os
valores de X2, ..., XN, obtêm-se os desvios Dz, ..., DN.

YN)

Figura 13.3

Uma medida da "qualidade do ajustamento" da curva C aos dados apre-


sentados (ad.erência) é proporcionada pela quantidade D! + D22 + ... + D7Ç. Se ela é
pequena, o ajustamento é bom; se é grande, o ajustamento é mau. Portanto, pode-se
adotar a seguinte:
?
' Definição: De todas as curvas que se ajustam a um conjunto de pontos, a
que tem a propriedade de apresentar o mínimo valor de

ol + o] + ... + »fi (17)

é denominada a melhor curua de ajustamento.

Diz-se que uma curva, que apresenta essa propriedade, ajusta os dados no
sentido dos mínimos quadrados e é denominada curua de mínimos quadrados. Em
conseqüência, uma reta que apresenta essa propriedade é denominada reta de
mínimos quadrados, uma parábola é paró,bola de mínimos quadrados etc.
334 Estatística Cap. 13

E costume empregar-se a deÍinição apresentada quando X é a variável


independente eY é a dependente. Se Xfor a variável dependente, a definição será
modificada, considerando-se os desvios horizontais em vez dos verticais, o que
corresponde a uma troca entre os eixos dos X e dos I Essas duas deÍinições, em
geral, conduzem a curvas de mínimos quadrados diferentes. A não ser que haja
especificação em contrário, considerar- se-áY como a variável dependente e X como
a independente.

É possível definir outra curva de mínimos quadrados mediante a conside-


ração das distâncias, segundo a normal, de cada um dos pontos representativos dos
dados à curva, err,vez das distâncias verticais ou horizontais. Entretanto, isto não
é muito freqüentemente usado.

A reta de mínimos quadrados


A reta de mínimos quadrados que se ajusta ao conjunto de pontos (xt, x) (x2, x2),
'.., (XN, Y,rr) tem a equação:
Y = ao + a1X, (lg)
em que as constantes o0 e a1 são determinadas mediante a resolução simultânea do
sistema de equações:

2Y=aN+a12Y
( l9)
2XY = asLX + a1 2X2
que são denominadas equações normais da reta de mínimos quadrados (18).

As constantes ag e a1 de (19), se for desejado, podem ser determinadas por


meio das fórmulas:

a0=
(rR(rx')- (»x)(»xy)
N»x2 - en2 .:
a
(20)
N »x Y - Qn §rGMAn
ul =-
N>.X"- (Zn'
As Equações normais (19) são facilmente lembradas, quando se observa
que a primeira pode ser obtida, formalmente, mediante a soma, membro a membro
da Equação (18), isto é,2Y = I(do + a1X): aoN + a1ZX, enquanto a segunda
é obtida, na realidade, multiplicando-se, primeiramente, ambos os membros de (18)
por X e depois somando-as, isto é, Z,XY = 2X(ag + atx) = aoZX + ayLXz.
Note-se que não é feita dessa forma a dedução das equações normais, mas que esse
Cap. 13 Ajustamento de curuas e o método dos mínimos quadrados

é simplesmente um modo de recordá-las. Para a dedução, por meio do cálculo


infinitesimal, veja-se o Apêndice VIII.
Note-se também que, nas expressões (19) e (20), adotou-se a notação
abreviada ü,XY etc., em lugar de:
NN
ZXj, 2Xi Yi etc.
j=L j=t
O trabalho necessário para a determinação de uma reta de mínimos
quadrados pode, muitas vezes, ser abreviado, por meio de uma transformação de
coordenadas, )c = X - X y = Y - Y.A equação da reta de mínimos quadrados pode
"
ser escrita (veja o Problema 6):

írry) ou flrr) (2t)


'= lrl ,l* '= [rl.,l'
Em particular, se X é Lal que XX = 0, isto é,X = 0, ela torna-se:

y=Í + /»xv)
l:j-: lX. (22t
l>x')
Nessas equações, é imediatamente evidente que a reta de mínimos quadra-
dos passa pelo ponto ((X, D, denominado centróide ott centro de grauidade dos
dados.

Se se considerar a variável X como dependente, em vez de independente,


escrever-se-á (18) sob a forma X = bo + b1Y. Então, os resultados obtidos prevalecem
quando X e Y são permutados e a0 e o1 são substituídos por óg e ó1, respectivamente.
Á reta de mínimos quadrados resultante, contudo, geralmente não é igual à obtida
anteriormente [veja o Problema 6(d)].

Relações não-lineares
As relações não-lineares podem, às vezes, ser transformadas em lineares, mediante
a transformação adequada das variáveis (veja o Problema 11)'
Estatística Cap. 13

A parábola de mínimos quadrados


A parábola de mínimos quadrados que se ajusta ao conjunto de pontos (xt, yz), (xz,
Y2), ..., (Xy,Yyg), tem a equação:

Y = a.o + a1X + a2X2, e3)


cujas constantes o6, ar e a.2 são determinadas mediante a resolução das equações:

| ,, = aoN + a1 2X + a22X2
1 Z.XY = asZX + a12X2 + a2ZX3
I

(24)
| »x2v = asZX2 + a1ZX3 + a2ZX4
denominadas equações normais da pardbora de mínimos quadrad,os (28).
As Equações (24) são facilmente relembradas, quando se observar que elas
ser obtidas, formalmente, mediante a multiplicaçao da expressã o rzil por 1,
l_od"_g
z\ e x', respectrvamente, e a soma membro a membro das equações resultántes.
Essa técnica pode ser estendida, para a obtenção das equações normais das
curvas
de 3 grau de mínimos quadrados, das de 4 graue, em geral, de quarquer das
curvas
de mínimos quadrados que corresponda à Equação (5i.

Como no caso da reta de mínimos quadrados, ocorrem simplificações para


as expressões (24) quando x é escolhido de tal modo que z x
= 0. Também o.oi."*
simplificações quando se escolhem novas variáveis:

x=X-X,y=Y-Y.

Regressão
Deseja-se, freqüentemente, com base em dados amostrais, estimar o valor de
uma
variável Y, correspondente ao conhecido de uma variável X. Isso pod.e ser alcançado
mediante a estimação do valor de y, a partir d.e uma curva de mínimos quadràdos
que se ajuste aos dados amostrais. A curva resultante é denominada de regressã,o
de Y para X, visto que Y é estimado a partir de X.

Se se desejar estimar o valor de X a partir de um atribuído a y, usar-se-á


rrma curuct de regressdo de x para \ o que importa em uma permutação das
variáveis, no diagrama de dispersão, de modo que X passa a ser a variáveí depen_
dente e Y a independente. Isso equivale a substituir, na deÍinição de d"
mínimos quadrados, os desvios verticais pelos horizontais. "rrrrrà
Em geral, a reta ou curva de regressão de yparaxnão é igual à dexpara y.
qoa
Cap. 13 Ajustamento de curuas e o método dos mínimos quadrados

Aplicações a séries temporais


Se a variável independente X corresponder ao tempo, os dados representarão os
valores de Y em diversos momentos. Os dados ordenados em relação ao tempo são
denominad os séries temporais. A reta ou curva de regressão de Y para X, neste caso
é denomina d.a de tendência e é freqüentemente empregada para as Íinalidades de
estimaçã,o, predição ou preuisõ,o.

Problemas que envolvem mais de duas variáveis


Os problemas que envolvem mais de duas variáveis podem ser tratados de maneira
análoga aos de duas. Por exemplo, pode haver uma relação entre as três variáveis
X, Y e Z que pode ser descrita pela expressào:
Z=ao+atx+a2Y, (2s)

que é denominada equaçã.o linear das uariá.ueis X, Y e Z.

Em um sistema tridimensional de coordenadas retangulares, essa equação


representa um plano e os pontos amostrais reais (Xt, Yt Zt), (Xz,Yz, Z2), ..., (XN,
Yy, Z7r) podem "dispersar-se" em posições não muito distantes desse plano, que pode
ser denominado de ajustamento.
Mediante a extensão do método dos mínimos quadrados, pode-se falar de
w plano de mínimos quadrados de ajustamento dos dados. Se se está estimado Z
a partir de valores atribuídos aX eY, ele é denominado plano de regressdo de Z
para X e Y As equações normais, correspondentes ao plano de mínimos quadrados
(25), são dadas por:

»Z =aoN + alZX + a2ZY


ZXZ= asZX + a12X2 + a22XY (26)
\YZ= asZXY+ a12XY+ a22Y2,
e podem ser relembradas, considerando-as deduzidas da expressão (25), mediante
a multiplicação por !,X eY, sucessivamente, e, a seguir, a soma membro a membro.

Podem ser também consideradas equações mais complicadas do que a(25).


Elas representam superfícies de regressã.o. Se o número de variáveis exceder a 3,
perder-se-á a intuição geométrica porque, então, seria necessário considerar espa-
ços de quatro ou mais dimensões. Os problemas que envolvem a avaliação
de uma
variável a partir de duas ou mais outras são denominados de regressão múltipla e
serão considerados, com maior desenvolvimento, no Capítulo 15.
338 Estatística Cap. 13

PROBLEMAS RESOLVIDOS

Linhas retas
1. Mostrar que a equação de uma linha reta que passa pelos pontos (Xr, Yr) e (Xz,
Y2) é dada por:

Yt-Y,
Y-Y1=a ,,'(X-Xg.
^2-^t

Solução
A equação da linha reta é (1) Y = d,s + a1X.
Como (Xy Yi pertence à reta, (2) Yt = ao + atxr
Como (X2, Y) pertence à reta, (3) Y2 = a0 * aLXz.

Subtraindo-se a Eq. (2) de (1), (4) Y - Yt = ar (X - Xi.


Subtraindo-se a Eq. (2) de (3):

YZ- Yt = at (XZ-X1) ou o, = Y
xz-xt
Substituindo-se esse valor de o1 em (4), obtém-se:
Yt-Yr (X
Y - Y1 = ;---'
A2 - 1r1 - X t). como se desejava.

2. Determinar: (a) a declividade; (b) a equação; (c) a ordenada à origem; (d) a


abscissa à origem da reta que passa pelos pontos (1, 5) e (4, -l).

Solução
(a) (Xt = l, Yt = 5) e (Xz = 4, Yz = -l). Então:
Yz - Yt -1 - 5
ru = declivid
aoe=yr_ x1= 4-r= =-!z=-'
= -z
Cap. 13 Ajustamento de curuas e o rnétodo dos mínimos quadrad.os 339

O sinal negativo da declividade indica que, à medida que X cresce, Y


decresce, como está indicado na Figura 13.4.

Figura 13.4

(á) A equação da reta é:


Y -Yr - m (X - X1) ou Y - 5= -2 (X - l), isto é,

Y -5 =-2X +2 ou I= 7 -2X.
(c) Aordenada àorigem, que éo valor de Ycorrespondente aX=0, é dada por
Y = 7 - 2(0) = 7. Esse valor pode também ser obtido diretamente no gráÍico.
(d) A abscissa à origem é o valor deXcorrespondente a Y = 0. Substituindo-se
Y= 0 na Equação Y = 7 *2X, tem-se 0 = 7 - 2X ot2){ ='7,X= 3,5. Esse
valor pode também ser tirado diretamente do gráÍico.

3. Determinar a equação de uma reta cuja declividade é - 4 e cuja ordenada à


origem é 16.

Solução
Na equação Y = a0 + a1X,oO = 16 é a ordenada à origem ê a1 = - 4 é adeclividade.
Então, Y = 76 - 4X é a equação desejada.

4. A Tabela 13.1 mostra as alturas e os pesos, arredondados para centímetros e


quilogramas de uma amostra de 12 estudantes do sexo masculino, extraída ao
acaso entre os do primeiro ano de um Colégio Estadual. (o) Construir um
diagrama de dispersão dos dados. (ó) Traçar uma reta, que se ajuste aos dados.
340 Estatística Cap. 13

(c) Determinar a equação da reta traçada no item (b). (d) Estimar a altura de
um estudante, cujo peso conhecido é de 63kg. (e) Estimar o peso de um
estudante, cuja altura conhecida é de 168 cm.

Tabela 13.1

Peso X 10 63 72 60 66 10 14 65 62 67 65 68
(ks)
Altura Y 155 150 180 135 156 168 178 160 t32 145 139 152
(cm)

Solução
(a) O diagrama de dispersão, representado na Figura 13.5, é obtido mediante
a locação dos pontos (70, 155); (63, 150), ... (68, 152).
(á) Em linha tracejada está representada, na figura, uma reta que se ajusta
aos dados. Ela é uma das muitas possíveis que poderiam ser construídas.

190
180 a a..
170 o.e u/
n
E 160 o ut
(J oza
(ú 150 o zC,'o
=
f
140 /a
130
/P3.4
120

74

Figura 13.5

(c) Escolhem-se dois pontos quaisquer da reta traçada no item (ó), tais como
P e Q, por exemplo. As coordenadas destes pontos, tiradas do gráfico, são,
aproximadamente, (60, 130) e (72,770). Então:
Yt-Y,
Y-Yt- v 6-Xt\
^2-^t
-u
Cap. 13 Ajustamento de curuas e o método dos mínimos quadrados 341

Y-r3o=ff-#(x-60)
y=+ x-10.

(d) Se X = 63,então y=
+ (63) - 70 = 140 cm.
(e) SeY= 168,então 168=+ X- 70,f X= 238eX=7!,4ou71kg.

A reta de mínimos quadrados


5. Provar que uma linha de mínimos quadrados sempre passa pelo ponto ff, -n.

Solução
Caso 1. X é avaiável independente.
A equação da reta de mínimos quadrados é (l) Y = ao + atX.

uma equação normal da reta de mínimos quadrados é (2) »Y =asN + a1zx.

Dividindo-se ambos os membros de (2) por N, tem-se (3 t Y = a0 + aax .

Subtraindo-se (3) de (1) pode-se escrever a reta de mínimos quadrados sob


aforma (UY-V = a{X - X) ,quemostraqueelapassapeloponto(X, D.
Caso 2. Y é a variável independente.
Procedendo-se como no Caso 1, com X eY permutados e com as constantes
ao e ar substituídas por ág e á1, respectivamente, verifica-se que a reta de.mínimos
quadrados pode ser escrita sob a forma:

(5)x- X = blY-h.
que indica que ela passa pelo ponto É, D.
Note-se que (4) e (5) não sáo coincidentes, mas se interceptam em (X, D .

6. (o) Considerando-se X como variável independente, mostrar que a equação da


reta de mínimos quadrados pode ser escrita sob a forma:
342 Estatística Cap. 13

)=l.J
í:rv)J"t ou )=l lrxr, )
lx,
\ȃ ) [r|
emquex=X-X. y=Y-V.
(á) Se X = 0, mostrar que a reta de mínimos quadrados do item (a) pode ser
escrita sob a forma:
-. = (zxv\
Y=Y+l:lX.
\»x'
)
(c) Escrever a equação da reta de mínimos quadrados, correspondente à do
item (a), se Yfor a variável independente.
(d) Verificar que as retas dos itens (a) e (c) não são, necessariamente, coinci-
dentes.

Solução
(o) A Equação (4) do Problema 5 pode ser escrita sob a forma
! = dlx, €rn eüê tr =
=X -X ey =Y -V. Também, da resolução simultânea das equações normais
tem-se:

N»xY*(rD(,D NI(x + D() + 9-{:1x + D} {rC, + DJ


ul = ---_ ._-
' N»X2-(Iy12 =
NI(x + n2-{»(, + nl2
_Nl(xy + xy + Xy + Xh- {zx + l,tÍ}{»y + lr7}
N»(* * 2* =

_
Nxxy + NPtr + NxIy + lr2Xy- {r, * Nr}{:r + lrrl}
ttLf + ZN

Mas, Ix, =2(X-E = 0e Zy =»(Y-h = 0;portanto, a igualdade


acima simplifica-se para:

Ntry+ Nzxy-N2xy xry


ul=-
' NZI + Nz xz- N2x2= Zx2
Isso também pode ser escrito sob a forma:

Lxy 2x(Y-g Zxy- ÍZx Zxy


-r zxz »i
n1 =
zt »t
-
Cap. 13 Ajustamento de curuas e o método dos mínimos quadrados 343

Então, a reta de mínimos quadrados é y = aLx, isto é:

íI*y)
,=[r;.,J, or í>rr)
r=[rl ].
(ó) Se X = 0, x = X -X = X. Então, de

(zxy\ /txv) í>xr)..


+l-_,
)=l=
' l. )=l= lx ou Y=Y lx.
\zi') [rr', l:r,/
Outro método
As equações normais da reta de mínimos quadrados, Y = ao + o1X, são:

ZY = aoN + a1 2X e ZXY = aoLN + a12X2:

SeÍ = QX)/N = 0, então,»X :0e as equações normaistornam-se:

2Y=osN e »XY=atLX2,
donde »Y -- r e ot=
LXY
ao= =
N »x2
Então, a equação desejada da reta de mínimos quadrados é:

Y=ao+atx ou Y=X+l-,zx' IX.


/:xv)
l. )
(c) Permutando-se X e Y ou Í e y, pode-se mostrar, como no item (o), que:

í >^'r, )
*r=ljl=
l;r' /lY'
(d) De acordo com o item (o), a reta de mínimos quadrados é:

(lty= í:xv )
" l-" lr. ) I,z*"
De acordo com o item (c), a reta de mínimos quadrados é:
(»xy\ (»t'\
Í=[;p)t ou (2) Y=[L.y).'
344 Estatística Cap. 13

Uomo
Zxy * Zy2
--: ;1,em
Zxz Lxy
geral, as retas de mínimos quadrados (1) e (2)são
diferentes.
Note-se, entretanto, que elas se interceptam em r =0 e ! = O, isto é, no
ponto 6, h.
7. SeX = X + AeY=Y +8, em queA eB são duas constantes quaisquer, provar
que:

N»XY_ (rr)Grô N»X'Y' _ (rX')(,r,)


al' = --* ..- -
N»x2-(»x)2 N»xz-(rx')2 -al'

Solução

x' = X' -X' = (X + Al-(X + A) =X _V =x.


j' - Y' =tY + 81-t7 + B) =y -y = y.
=Y'
f .y Zx, y,
Então, -# = o resultado assemelha-se ao do problema 6. Um
#,e
resultado semelhante prevalece para ó1.

Este resultado é útil, porque possibilita a simplificação dos cálculos para


a obtenção da reta de regressão, mediante a subtração das variáveis X e y de
constantes adequadas.
Nota: O resultado não prevalece quandoX = ctX + A ey = sry 18, a menos
que ct - c2.

8' Ajustar uma reta de mínimos quadrados aos dados do Problema 4 adotando:
(o) x como variável independente (b) x como variável dependente.

Soluçào
(o) De acordo com o Problema 6(a), areta deseja da é y =('+lr, "- Í
eue =
=X-XeJ=Y-Y. [t*" )
As operações necessárias para o cálculo das somas podem ser dispostas
como na Tabela 13.2. Nas duas primeiras colunas determinam-se X = BO2l12 66,8
=
e 7= 1.359/12 = 154,2.
cap. 13 Ajustamento d.e curuas e o método dos mínimos quadrados 345

A última coluna foi acrescentada para ser utilizada no item (b).


A reta de mínimos quadrados pedida é:
/ Irv )
v =l-# =
-- I. Íáffi3
x = 3,22x
\ )
ou Y- 154,2 - 66,8) que pode ser escrito: Y = 3,22X
= 3,22(x - 60,9. Esta equaçào
é denomina da reta de regressã.o de Y para X e é empregada para estimat Y a partir
de valores atribuídos a X.

Tabela 13.2

Peso X Altura Y X=X-X t=Y-Y xy f


.,

f
10 155 7) 0,8 2,56 10,24 0,64

150 _ L) 15,96 14,44 17,64


63 -3,8
12 180 5' 25,8 t34,16 21,04 665,64

60 135 -t9,2 130,56 46,24 368,64


-6,8
66 156 1,8 -l,44 0,64 3,24
-0,8
70 168 7) 13,8 44,16 t0,24 190,44

14 r78 11 23,8 17 t,36 51,84 566,44

65 160 5,8 -10,44 3,24 33,64


-1,8
,),)') 106.56 23,04 492,84
62 132 -4,8
61 \45 0,2 _ q, -1,84 0,04 84,64

65 t39 -15,2 27,36 3,24 231,04


-1,8
68 t52 1.2 ')) -2,64 t,44 4.84

2X = 802 II = 1.850 Lry = 616,32 Lr2 = 191.68I ,r' =


Í = oo.a Y = 154.2
2.659.68

(b) Se Xfor avariável dependente, a linha desejada será:


/ rrv ) 616.32
.'"=l-:^ lv= 2.659.68
^ --^Y=0,2321',
)
I z 12 l'
que pode ser escrita sob a forma x- 66,8 = 0,232 (Y - 154,2) ou x = 3l + 0,232Y-
346 Estatística Cap. 13

Essa equação é denominada reta de regressão de x para y e é empregada


para estimar X a partir de valores atribuídos a I
9. (o) Em um mesmo sistema de eixos, desenhar os gráficos das duas retas do
Problema 8. (ó) Estimar a altura de um estudante, cujo peso conhecido é de GB kg.
(c) Estimar o peso de um estudante, cuja altura conhecida é de 168 cm.

Solução
(o) As duas retas estão representadas na Figura 18.6, juntamente com os
pontos originais dados. Note-se que elas se interceptam no ponto (X, D ou
(66,8; 1,54,2).
(ó) Para estimar Ya partir deX, usa-se a linha de regressão de YparaX, obtida
no Problema 8,Y = 3,22X - 60,9.
Então, paraX = 63,Y = 3,22(63) - 60,9 = !42 cm.
(c) Para estimarXa partir de Y, usa-se a linha de regressão deXpara Y, obtida
no Problema 8, X = 31 + 0,232Y.
Então, para Y = 168, X = 31 + 0,232 (168) = 70 kg.
os resultados dos itens (ó) e (c) poderiam ser comparados com os do
Problema 4(d)e4(e).

190 X= 31,0 + 0.232Y


180
170
E 160
o
(! 150
l
= 140
130
120

60 62 64 66 68 70 72 74
Peso (kg)

Figura 13.6
Cap. 13 Ajustamento de curua,s e o método dos mínirnos quadradns 347

Aplicações a séries temporais


10. A produção de aço nos Estados Unidos, em milhões de toneladas (1 tonelada =
= 1.000 kg), durante os anos de 1946 a 1956, está indicada na Tabela 13.3.

Tabela 13.3

Anos Produção de aço nos


Estados Unidos
(toneladas)

1946 66,6
1941 84,9
t948 88,6
1949 78,0
1950 96,8
195 1 t05,2
t952 93,2
t953 1il,6
t954 88,3

1 955 rt7,0
r 956 t15,2
(Fonte: Instituto Americano de Ferro e Aço)

(o) Representar graficamente os dados.


(ó) Determinar a equação de uma reta de mínimos quadrados que se ajuste
aos dados.
(c) Estimar a produção de aço, durante os anos de 1957 e 1958, e compará-la
com os valores reais, de LL2,7 e 85,3 milhões de toneladas, respectivamente.
(d) Estimar a produção de aço, durante os anos de 1945 e1944, e compará-la
com os valores reais, de79,7 e 89,6 milhões de toneladas; respectivamente.
348 Estatística Cap. 13

Solução

f 120
u]
o
o
100

!Iõ
-. 0)
u.O 80
oF r(ú
()r -
J
'1, 60
o
ÍL
te46 1e4/ ]948 1949 1950 1951 1952 1953 1954 1955 1

Ano

Figura 13.7

(á) Primeiro método:

Utiliza-se a equação , =('3lr,


lz*" ) "- eu€Í = X-XeJ =y -y.
O trabalho pode ser disposto como na Tabela 18.4.

Tabela 13.4

Anos X Y x=X-X Y =Y -Y t xy

1946 0 66,6 -5 -28,4 25 142,0


1947 I 84,9 -4 -10,1 t6 40,4
1948 2 88,6 _J
-6,4 9 19,2
1949 J 78,0 ')
4
-11,0 34,0
1 950 4 96,8 -1 1,8 I -1,8
19s 1 5 to5,2 0 14,2 0 0
1952 6 q1 , '1
-1,8 1
-1,8
1953 7 r 11,6 2 16,6 4 1t ?
t954 8 88,3 3 -6,7 9 -20,1
I 955 9 117,0 4 22,0 t6 88,0
l9-56 10 r15.2 5 20.2 25 101.0
IX=55 ZY = 1.045.4 Z?=ll0 Ixy =
X=5 7 = 95.0 434.1
cap. 13 Ajustamento d.e curuas e o método dos rnínimos quadrados 349

/:rv\ (+s+,t)o"v ó,vôÍ'


^^- que
A equação desejada, t =l r? lx torna-sey = I\ 110 =
t '* / )*
pode ser escrita sob a forma,
Y -95 = 3,95 (X - 5) ou I= 15,2 + 3,95 X,

cuja origem, X = 0,é o ano 1946, e a unidade de escala dosXé 1 ano'


O gráfico desta reta, denominada de tendência, estâ indicado em linha
tracejada ,ã Figo.u 13.7. A equaçáo é freqüentemente denominada equaçã'o de
terud.ência e os valores de Y calculados para os de X, denominam-se ualores de
tendência.

Segundo método
Atribuindo-se os valores de X correspondentes aos anos de 1946 a 1956, de modo
que LX = 0, a equação da reta de mínimos quadrados pode ser escrita da seguinte
forma:
í:xr\Ix.
y=y +l_ ^
\r* )
Como os dados se referem a um número ímpar de anos, pode-se atribuir X = 0
ao ano mediano, 1951, e X = 7,2,3, 4,5 aos anos seguintes e X = -1, -2, -3, -4, -5,
aos precedentes. O resultado está indicado na coluna 2 da Tabela 13.5 e é equiva-
Ientã ao emprego da coluna 4 da tabela do primeiro método'

Tabela 13.5

Anos X Y x2 XY

t946 66,6 25 -333,0


-5
t941 84,9 16 -339,6
-4
1948 _J 88,6 9 -265,8
1949 a 78,0 4 -156,0
1950 -1 96,8 1 -96,8
195 1 0 105,2 0 0
t952 1 93,2 1 93,2
I 953 2 111,6 4 ))7 )
t954 J 88,3 9 264,9
1 955 4 lt7 ,0 16 468,0
5 1t5.2 25 576.0
Í= 0 Z Y = 1.045,4 IX2= 110 LXY = 434,1
Estatística Cap. 13

o ano mediano, 1951, é denominado origem. A não ser que haja especi-
ficação ao contrário, admitir-se-á que os valores de Y são referidos aos dã meio do
ano, isto é, a 1de julho. Em conseqüência,x= 0 correspondente a 1de julho de 1951:
X = -l a 1 de julho de 1950 etc. Os cálculos necessários podem ser dispostos como
na Tabela 13.5.

Então, Y = (ZI)IN = 1.045,4111 = 95, e a equação desejada é:


Y = 95 + (434,11110)X ou Y = 95 + 3,95X,

cuja origem, x = 0, correspondente ao ano de 1g51, e a unidade da escala dos x é 1


ano.

Deslocando-se a origem para 1g46, cinco anos antes, deve-se substituir X


porX- 5, obtendo-se, portanto, a equaçãoY = g5 + 8,95(X- 5) ou y = 75,2 + B,g\X,
como no primeiro método.

O segundo método é superior ao primeiro, porque o trabalho de cálculo fica


reduzido. Entretanto, deverá ser modificado quando o número anos, a que se
referem os dados, for par. o primeiro método pode ser aplicado em todos
".rà..
(c) Usa-se a equação de tendência Y = 95 + 8,95X, em que X 0 corresponde
=
a 1951. Então, os anos de 1952 e 1958 correspondem a X = 6 e X = 7,
respectivamente.
PataX = 6,Y = 95 + 3,95(6) = 118,7, que é muito semelhante ao valor real,
112,7.

Para X = 7,Y = 95 + 3,95(7) = 122,6, que não é muito semelhante ao valor


real, 85,3, o que exemplifica o risco decorrente do processo de extrapolação.
Os mesmos resultados podem ser obtidos, usando-se a equação de tendência
Y = 75,2 + 3,95X, que tem como origem o ano de 1g46, fazendo-se *
= 11 e X = \2,
repectivamente.
(d) usando-se a linha de tendênciaY =75,2 + B,g1x, comX= 1e x-
acham-se os valores:
- -2,

Y=75,2 + 3,95 (-1) = 7l,2eY=15,2 + 3,95 (-2't=67.3.

Equações não-lineares redutíveis à forma linear


11. A Tabela 13.6 dá os valores experimentais da pressão P de uma massa dad.a
de gás, que correspondem a vários valores do volume v. De acordo com os
princípios da termodinâmica, deve existir entre essas variáveis uma relação
da forma PW = C, em que ye C são constantes. (o) Determinar os valores de y
Cap. 13 Ajustamento de curuas e o método dos mínimos quadrados 351

e C. (ó) Escrever a equação de correlação entre P eV. (c) Estimar PparaV =


= 100 polegadas cúbicas.

Tabela 13.6

Volume V em polegadas cúbicas 54,3 61,8 72,4 88,7 118,6 t94.0

Pressão P em libras por polegada 61,2 49,5 31.6 28.4 19.2 10,1
quadrada

Solução
Como PW =C, tem-se:
log P + ylog V= log C ou log P = 1og C - ylogV.

Fazendo logV = X elogP = Y, a última equação pode ser escrita sob a forma:

(1) f =as+a1X,
em que o6 + Iog C e a1= -Y
A Tabela 13.7 relaciona X = Iog V e Y = log P, correspondentes aos valores
de V e P da Tabela 13.6 e indica, também, os cálculos necessários para determinação
da reta de mínimos quadrados (1).
As equações normais correspondentes àquela reta (1) são:

2Y = aoN + a12X eZXY = aoLX + a1ZX2,

(: D t: X2) (»Xn NLXY - (I)0 (: n


:-I.-lU.
-'v
(to=- ---1 -
NZX2_(:X)z 1='1,20, dt=
NZX4-(Znt
Então,Y=4,20-L,40X.
-
352 Estatística Cap. 13

Tabela 13.7

X=logV Y=logP x2 XY

t,1348 ,7868 3,0095 3,0991


1,79t0 ,6946 3,2011 3,03s0
t,8597 ,s752 3,4585 ) a)o^
1,9479 ,4533 3,1943 2,8309
2,0141 ,2833 4,3019 2,6611
2.2818 .0043 5.2340 2,29',76
2X = 11,6953 ZY = 8,'1915 ZX2 = 23,0059 zxY = 16.8543

(o) Como ao=4,20 =logC eat- -1,40=-y,C = 1,60x 104e \=1,40.


(á) A equação desejada, expressa em P e v, pode ser escrita sob a forma pyt,aO
-
= 16.
(c) Para v= 100,X= log v =2 e Y= log p = 4,20- l,4o(2) = 1.40. Entãop
=
= antilog 1,40 =25,7lblpol2

Solução
100
90
80
70
60
50
\
o- 40 \,
o
r(d
\
3so
E
L25 \
20
I
I \c
A
15

10r I r i L ll
10 20 30 40 50 60708090100 150 200 25o3oo
Volume V

Figura 13.8
Cap. 13 Ajustamento de curuas e o método dos mínimos quadrad.os

12. Resolver o Problema 11 mediante a locação dos dados em papel de gráÍico


log-log.
Para cada par de valores de pressão P e do volume V, da Tabela 13.6 do
Problema 11, obtém-se um ponto que é locado no papel de grdfico log-log, de
fabricação especial, representado na Figura 13.8.
Está também representada uma reta (desenhada a sentimento) que se
ajusta a esses pontos. O gráÍico resultante indica que há uma relação linear entre
log P e log V, que pode ser representada pela equação:
log P = ao + allog Vou Y = ao + a1X.

A declividade o1, que neste caso é negativa, é dada, numericamente, pelo


quociente do comprimento AB pelo AC (adotada uma unidade apropriada de com-
primento). Neste caso, as medidas conduziram à a1 = -1,{.
Para obter o0, precisa-se de um ponto da reta. Por exemplo, para V = 100,
P = 25, tirado do gráfico. Então:
a0 = log P - allogV= log 25 + l,4log 100 = 1,4 + (1,4)(2) = 4,2

de modo que:
logP + 1,4logV = 4,2;log PVr'a = 4,2 e PVr'a = 16.

A parábola de mínimos quadrados


13. A Tabela 13.8 mostra a população dos Estados Unidos, durante os anos de 1850
a 1950, com intervalos de dez anos. (a) Determinar a equação de uma parábola
de mínimos quadrados que se ajuste aos dados. (á) Calcular os valores de
tendência, para os anos dados na tabela, e compará-los com os valores reais.
(c) Estimar a população em 1945.

Tabela 13.8

Anos l 850 l 860 1 870 1 880 1 890 I 900 19 10 t920 1 930 t940 I 950

População dos
Estados Uni- )\) 3r.4 39,8 50,2 62,9 76,0 92,0 t05,1 122,8 t3r,7 151 I
dos (milhões)
Fonte: Bureau of the Census.
354 Estatística Cap. 13

Solução
(o) Sejam X e Y as variáveis que representam, respectivamente, o ano e a
população que the corresponde. A equação de uma parábola de mínimos
quadrados que se ajusta aos dados é:

(1) Y= ao+atx+a2X2,
em que ao, at e a2 sáo determinados por meio das equações normais'

fr, = aoN + a12X + a2LX2


Q\1»xY = asZX + a1ZX2 + a2zX3
l»x2r= aoZX2+ a12x3+ a2LX4
É conveniente que X seja escolhido de modo que o ano mediano, 1990,
correspondà àX = 0 e que os anos de 1910, 1920, 1930, 1940, 1950 e de 1890, 1880,
1870, 1860, 1850 correspondam a1,2,3,4,5 e a-1, -2,-3,-4,-5, respectivamente.
Com esta escolha, IX e IX3 são nulos e as Equações (2) ficam simplificadas.
As operações necessárias para o cálculo podem ser dispostas como na
Tabela 13.9.
Usando essa tabela, as equações normais (2) tomam-se:

ft' ttas + ll0a2 = 886,8


(3)lll0a1 = 1.429,8
Il.' ttOao + 1958a2 = 9.209,0

Da segunda equação de (3) obtém-se or = 13; da primeira e da terceira


equações, do = 76,64 e a2 - 0,3974. Então, a equação desejada é:

(4) Y = 16,64 + 13X + 0,3914X2,


cuja origem,X = 0, corresponde a 1de julho de 1990 e em que a unidade dosXé
igual a 10 anos.
a
i

Cap. 13 Ajustameruto de curuas e o método dos mínímos quadrad.os 355

Tabela 13.9

Anos X v x2 x3 x4 XY X2Y

850 -5 )7) 25 -r25 625 -116,0 580,0


860 -4 31,4 16 -64 256 -t25,6 502,4
a1 81 3s8,2
870 -J 39,8 9 -1t9,4
880 a 50,2 4 -8 t6 -100,4 200,8
q 62,9
890 -1 62,9 I -1 1 -6)
900 0 76,0 0 0 0 0 0
910 1 92,0 1 1 1
g?o 92,0
920 2 t05,1 4 8 16 211,4 422,8
930 -l t22,8 9 21 8l 368,4 1.105,2
940 4 t3t,l 16 64 256 526,8 2.t07,2
950 5 15 1,1 25 125 625 7 55.5 3.777,5
IX=0 )'= 886.8 ZX2 = 110 XX3 = 0 L*= ZXY = 2X2 Y=
1.958 1.429,8 9.209,0

(b) Os valores de tendência, obtidos quando se faz X = -5, -4, -3, -2, -1,0, 1,
2,3, 4,5 na Equaç áo (4), estão indicados na Tabela 13.10, juntamente com
os valores reais. Vê-se que a concordância é boa.

Tabela 13.10

Anos X=-5 X=-4 X=-3 X=-2 X=-l X=0 X=l X=2 X=3 X=4 X=5
1 850 I 860 1 870 r 880 1890 1900 19 10 1920 1930 t940 1950
Vqlor
da 21.6 31,0 41,2 \)) 64,0 16.6 90.0 104.2 119,2 135,0 151,6
lendên.
Val. )7) 105,7 122.8 t3t,l l5
31,4 39,8 50,2 62,9 16,0 92.0 1,1
real

(c) 1945 corresponde aX= 4,5 para o qual Y =76,64 + 13(4,5) +0,3974(4,5)2 =
= 1-43,2.
356 Estatística Cap. 13

PROBLEMAS SUPLEMENTARES

Linhas retas
L4. (o) Determinar o coeficiente angular e a ordenada à origem da linha, cuja
equação é3x -5Y=20. (ó) Qual é a equação da reta que é paralela à doitem
(a) e que passa pelo ponto (2, - l)?
Resp.: (o) Coeficiente angular = 3151' ordenada à origem = -4. (b) BX- 5Y = 11.
15. Determinar: (.a) a declividade;(b) a ordenada à origem; (c) a equação da reta
que passa pelos pontos (5,4) e (2,8).

Resp.: (a) *413; (b) 3213; (c) 4X + 3Y = 32.


16. A temperatura de 100'C corresponde à de 212"F, enquanto a de 0'c corres-
ponde à de 32'F. Admitindo-se que há uma relação linear entre os graus
Centígrados e Fahrenheit (representados por C e F, respectivamente) deter-
minar: (o) a equação que correlaciona c a F; (á) o grau F correspondente a g0'c;
(c) o grau C correspondente a 68'F.
q
Resp.: (o) F =
É
C * 32: (br 176"F: (c) 20"C.

A reta de mínimos quadrados


17. Ajustar uma reta de mínimos quadrados aos dados da tabela seguinte, adotan-
do: (o) X como variável independente; (b) X como variável dependente. Repre-
sentar graficamente os dados e as retas de mínimos quadrados utilizando o
mesmo sistema de eixos coordenados.

X 3 5 6 8 9 ll
Y 2 J 4 6 5 8

Resp.: (a)Y =-á.; X ouY= -0,333 + 0,714X;$) X = t *f; VouX= I + !,29y.


Cap. 13 Ajustamento de curuas e o método dos mínimos quddrcrdos 357

18. Determinar, para os dados do problema anterior: (o) os valores de Y corres-


pondentes a X = 5 e X = 12;(á) o valor de Xcorrespondente aY = 7.
Resp.: (a) 3,24, 8,24; (b) 10.
19. A tabela seguinte apresenta os graus finais de Álgebra e de Física obtidos por
10 estudantes, selecionados ao acaso entre um grande grupo de estudantes. (o)
Representar graficamente os dados. (ó) Determinar a reta de mínimos quadra-
dos que se ajusta aos dados, adotado X como variável independente. (c)
Determinar areta de mínimos quadrados que se ajusta aos dados, adotado Y
como variável independente. (d) Se um estudante obteve grau 75 em Algebra,
qual é seu grau esperado em Física?,(e) Se um estudante obteve grau 95 em
Física, qual é seu grau esperado em Algebra?

Álgebra (X) 15 80 93 65 81 11 98 68 84

Física (Y) 82 78 86 72 91 80 95 72 89 74

Resp.: (b) Y = 29,!3 + 0,661X. (c) X = -L4,39 + 1,15Y. (.d) 79.(e) 95.

Curvas de mínimos quadrados


20. Ajustar uma parábola de mínimos quadrados Y = ct; + a1X + a2X2 aos dados
da tabela abaixo.

X 0 1 2 J 4 5 6

Y 2,4 2,1 \) 5,6 9,3 t4,6 21.9

Resp.: Y = 5,51 + 3,20(X- 3) + 0,733 (X - il2ou Y= 2,51 - l,2OX + 0,733X2'


21. O número Y de bactérias, por unidade de volume existente em uma cultura
depois de Xhoras, é apresentado na tabela seguinte. (a) Representar grafica-
mónte os dados, em um papel semilogarítmico, cuja escala logarítmica é
empregad.a para Y e a aritmética para X. (b) Ajustar uma curva de mínimos
quadrados da forma Y = abx aos dados, e explicar por que essa equaçào
particular produziria bons resultados. (c) Comparar os valores de Y, obtidos
por meio dessa equação, com os reais. (d) Estimar o valor de Y para X = 7 .
358 Estatística Cap. 13

Número de horas (X) 0 2 3 4 5 6


Número de bactérius por volume
32 41 65 92 t32 190 275
unitdrio (Y)

Resp.: (b)Y = 32,14(1,427Fou Y = 32,14(lO)0,r544X ou Y= 32,l4s03ssax


sendo e = 2,718... a base dos logaritmos neperianos. (d) B8Z.
22. No problema anterior, mostrar como um gráfico, desenhado em papel de gráfico
semilogarítmico, pode ser usado para a obtenção da equação desejada, sem o
emprego do método de mínimos quadrados.
h
,â5*9"
Capítulo
14

Teoria da correlação

Correlação e regressão
No ú1timo capítulo, considerou-se o problema da regressão ou estimaçdo de uma
variável (a dependente) a partir de uma ou mais variáveis correlatas (as inde-
pendentes). Neste capítulo, considerar-se-á o problema estritamente relacionado, o
dacorrelação,ortdo grau de relação entre as variáveis, que procura determinar quão
bem uma equação linear, ou de outra espécie, descreve ou explica a relação entre as
variáveis.
Se todos os valores das variáveis satisfazem exatamente uma equação,
diz-se que elas esLáo perfeitamente correlacionadas ou que há correlação perfeita
entre elas. Assim, as circunferências C e os raios r de todos os círculos estão
perfeitamente correlacionados, porque C = 2 x r. Se 2 dados são lançados simulta-
neamente 100 vezes, não há relação entre os pontos correspondentes a cada um
deles (a não ser que os dados sejam viciados), isto é, eles são nã.o correlacionqdos.
As variáveis altura e peso de indivíduos revelariam alguma correlação.

Quando estão em jogo somente duas variáveis, fala-se em correlação e


regressão simples. Quando se trata de mais de duas variáveis, fala-se de correlaçã,o
e regressã.o múltipla. Neste capítulo, considera-se apenas a correlação simples. A
correlação e a regressão múltiplas serão tratadas no Capítulo 15.

Correlação linear
SeX e Y representam as duas variáveis consideradas, um diagrama de dispersão
mostra alocalízaçáo dos pontos (X, D em um sistema de coordenadas retangulares.

359
360 Estatística Cap. 14

Se todos os pontos desse diagrama parecem cair nas proximidades de uma reta,
como nas partes (a) e (ó) da
Figura 14.1, a correlação é denominada linear. Nesses
casos, como se viu no Capítulo 13, uma equação linear é apropriada aos Íins de
regressão ou estimação.

se Y tende a aumentar quando X cresce, como na parte (o), a correlação é


denominad a positiua ot direta. Se Y tende a diminuir quando X aumenta, como na
parte (ó), a correlação é denomirtada negatiua ou inuersa.
Se todos os pontos parecem estar próximos de alguma curva, a correlação
é denominada ndo-lineor e uma equação não-linear é apropriada para a regressão
ou a estimação, como vimos no Capítulo 13. É claro que a correlaçãó não-lineãr pode
ser algumas vezes positiva e outras negativa.
se não há relação indicada entre as variáveis, como na Figura l4..r(c),
diz-se que não hd correlação entre elas, ísto é, elas sáo nõ,o correlacionad,as.

ta:\

(a) Correlaçáo Linear Positiva (b ) Corr elação Li near Negativa (c/ Nenhuma CorrelaÇão

Figura 14.1

Medidas de correlação
Pode-se determinar, de modo qualitatiuo, quão bem uma certa reta ou curva
representa a relação entre as variáveis, mediante a observação direta do próprio
diagrama de dispersão. Por exemplo, vê-se que uma linha reta é muito mais
conveniente para representar a relação éntreXe Y,paraos dados da Figura 14.l(a),
do que para os da Figura 14.1(b), graças ao fato de haver menor dispersão em torno
da reta da Figura l(.I(a).

Ao tratar de modo quantitativo do problema da dispersão dos dados amos-


trais, em relação a retas ou a curvas, será necessário estabelecer medid.as de
correlaçã,o.
Cap. 14 Teoria da corcelaçdo 361

Linha de regressão de mínimos quadrados


Considerar-se-á primeiramente o problema de veriÍicar quão bem uma linha reta
representa a relação entre duas variáveis. Para isso, serão necessárias as equações
da reta de regressão de mínimos quadrados, obtidas no CapÍtulo 13. Como se viu, a
reta de regressão de mínimos quadrados de Y para X é:
Y=ao+a1X, (1)

em que aoe ct.t são obtidos das equações normais

Ír, = aoN + alZX (2)


I zxr = aoLX + a1Zy2'
que produzem

(»r)( »x\- (rx)( >xY)


1,.=
l
- (»x)2
Nuxz
(3)
N>Xv - (rx)(»r)
[.,= N>x2 - (»x)2
De modo semelhante , a reta de regressão de X para Y é dada por:
X=bo+bf, (4)

Em que bç e b1são obtidos das equações normais

Ízr = boN + byLY (s)


{ :xr = boLX + b1zy2'
que prod

( z*y '\ í:ry)


,=[rl (1)
)xex= [;rr.,1,
emque x=X-X"y=Y-Y.
362 Estatística Cap. 14

As equações de regressão são idênticas se e somente se todos os pontos do


diagrama de dispersão caírem sobre uma reta. Nesse caso, há arna correlação linear
perfeita entreXe Y.

Erro padrão da estimativa


Se Y"rt representar os valores de Y correspondentes a valores de X, estimados por
meio da Equação (1), uma medida da dispersão em relação à reta de regressão de Y
para X será dada pela fórmula:

SY.X= (8)

que é denominado erro padrã.o da estimatiua de Y para X.

Se for empregada a reta de regressão (4), um erro padrão análogo da


estimativa de X para Y será definido por:

X
sx.Y= ""r)2 (e)

Em geral, sy . X+ sx . y

A Equação (8) pode ser escrita sob a forma:

? tY2-roZY-atzxY
sy-.x= ' (10)
N
que pode ser mais conveniente para o cá1ôulo (veja o Problema 2). Uma expressão
semelhante existe para a Equação (9).
O erro padrão da estimativa tem propriedades análogas às do desvio
padrão. Por exemplo, se se construírem retas paralelas à de regressão de Y paraX,
com as respectivas distâncias verticais sy x, 2sy .71 e Ssy . x entre elas, veri-
Íicar-se-á, se N for suficientemente grande, que estarão incluídos, entre essas retas,
cerca de 68Vo,95Vo e 99,7%o'dos pontos amostrais.

N
Da mesma forma que o desvio padrão corrigido, dado porâ = sré
N-1
conveniente para as pequenas amostras, também o é o erro padrão corrigido, dado por
Cap. 14 Teoria da correlaçdo 363

N
sY x= N-2 sy.x.Por essa razáo, alguns estatísticos preferem deÍinir as

expressões (8) ou (9), com o denominador modiÍicado de N para N - 2.

Variação explicada e não-explicada


Auariaçã,o total d.e Y é definida como I (y - Y) 2, isto é, a soma dos quadrados dos
desvios dos valores de Y em relação à média Y. Como se mostra no Problema 5, essa
expressão pode ser escrita sob a forma:

X(f - Y)'=»(Y - Y"rt)2+ I(I.r, _ Í)' (11)

O primeiro termo à direita da expressão (11) é denominado uariação-expli-


cada, enqaanto o segundo é a uariação explicada, assim denominadâs porque os
desvios Yest - 7 tOm um padrão definido, enquanto os Y - Yssl comportam-se de
maneira casual ou imprevisível. Resultados semelhantes prevalecem para a variá-
vel X.

CoeÍiciente de correlação
O quociente da variação explicada pela variação total é denominado coeficiente de
determinaçõo. Se a variação explicada for nula, isto é, se a variação total for toda
não-explicada, esse quociente será igual a zero. Se a variaçáo não-explicada for nula,
isto é, se a variação total for toda explicada, o quociente será igual a 1. Nos outros
casos, o quociente terá valor compreendido entre zeto e um. Como a relação é não
negativa, ela será representada por r2. A quantidade r, denominada coeficiente d.e
correlaçã,o, é dada por:

variação explicada
(12)
variação total

e varia entre -1 e +1. Os sinais + são usados para a correlação linear positiva e para
a negativa, respectivamente. Note-se que r é uma quantidade sem dimensões, isto
é, independente das unidades adotadas.

Mediante o emprego das expressões (8) e (11) e pelo fato de o desvio padrão
de Y ser
364 Estatística Cap. 14

( 13)

verifrca-se que a Equação (12) pode ser escrita, desprezando o sinal, sob a forma:

OU Sy.X = Sy (14)

Há equações semelhantes, quando X e Y são permutados.


Para o caso da correlação linear, a quantidade r conserva-se a mesma, quer
se considere X ou Y como a variável independente. Por isso, r é uma medida muito
boa da correlação linear entre duas variáveis.

Observações sobre o coeficiente de correlação


As definições (12) ou (14), para o coeficiente de correlação, são absolutamente gerais
e podem ser empregadas tanto para as relações não-lineares como para as lineares,
com a única diferença do Ys$ ser calculado por meio de uma equação de regressão
não-Iinear em lugar de uma linear e dos sinais * serem omitidos. Nesse caso, a Equação
(8), que define o erro padrão da estimativa, é perfeitamente geral. A Equação (10),
entretanto, que somente se aplica a regressão linear, deve ser modificada. Se, por
exemplo, a equação da estimativa for:

Y: aO 1- a1X + a2X'*...or-tx "-1 , ( 1s)

a Equação (10) será substituída por:

-2 = »,Y2 - asLY + aIZXY- ... - en-r»X n-t Y


JY.N (16)
N
Nesse caso, o erro padrã,o corrigido da estimatiua (veja a discussão no
tópico referente à estimativa do erro padrão) é

sY.x =

em que a quantidade N - n é denominada número de graus de liberd,ade.


Cap. 14 Teoria da correlação 365

Deve-se aceÍltuar que o valor de r, calculado em qualquer caso, mede o ÍJrau


de relação correspondente ao tipo de equação que é realmente admitida. Assim, se
for adotada uma equação linear, e se as expressões (12) ou (14) conduzirem a um
valor de r próximo de zero, isso significa que quase não há correlação linear entre
as variáveis. Entretanto, não significa que não há nenhuma correlação, porque pode
realmente existir uma forte correlação nã.o-linear entre as variáveis. Em outras
palavras, o coeficiente de correlação mede a excelência do ajustamento aos dados
da equação realmente considerada. A menos que haja especificação em contrário, o
termo coeficiente de correlação será usado para indicar o de correlaçáo linear.
Poder-se-ia também assinalar que um coeficiente de correlação elevado
(isto é, próximo de 1 ou -1) não indicará necessariamente uma dependência direta
entre as variáveis. Dessa forma, pode haver uma correlação sensível entre o número
de livros publicados anualmente e o de jogos de futebol disputados nesse período.
Esses exemplos são, algumas vezes, designados corr,o correlações disparatados ou
espúrias.

Fórmula da covariância para o coeÍiciente de correlação


Iinear
Se for admitida uma relação linear entre duas variáveis, a Equação (12) tornar-se-á:
Lry
( 17)
tly ')
emquex=X-Xe!=Y- 7 (veja o Problema 8). Esta fórmula que, automa-
ticamente, proporciona o sinal adequado de r, é denominada couariâ,ncla e indica
claramente a simetria entre X eY.
Se se escrever

rx)
sxy= N ,sX= Zx2 ( 18)
N

então sx e sy serão reconhecidos como os desvios padrões das variáveis X e Y,


respectivamente, enquanto sx2 e sy2 serão suas variâncias. A nova quantidade s'16y
é denominadacouarid.ncia deX e Y. Adotados os símbolos (18), pode-se escrever (17)
sob a forma:

SXY
(le)
sx sy
Estatística Cap. 14

Note-se que r não independe apenas da escolha das unidades de X e y, mas


também da origem.

Fórmulas abreviadas para o cálculo


A fórmula (17) pode ser escrita sob a forma equivalente:

N»XY- (rX) Gr)


(20)
r/ Ilrr:x, - (zx)T wzy, - anT
que é freqüentemente usada para o cálculo de r (veja o problema 10).
Para os dados agrupados em uma tabera ot d,istribuiçdo d,e
freqüência
bidimensional (veia o Problema 11), é conveniente usar o método abreuiaáo apre-
sentado em capítulos anteriores. Nesse caso, a expressão (20) pode ser escrita sob
a forma:

,=
' t2lt
./ tu
Veja o Problema L2.Por conveniência, nos cálculos em que se emprega essa fórmula,
usa-se lrma tabela de correlaçã.o (veja o problema 1B).

Para os dados agrupados, as fórmulas (1g) podem ser escritas:


zfux uv ( ,!t-ur
sxy = ^'Lt , _-[T
cx c'y I
\(»fJ!, \1
]t N )) (22\

(23)

,F
sY=cYf/
+ efl (:24)

em que cxe cy são as amplitudes dos intervalos de classe (admitidas como constan-
tes) correspondentes às variáveisXe Y, respectivamente. Note-se que as expressões
(23) e (24) são equivalentes à fórmula (11) do Capítulo 4.

Vê-se que a fórmula (19) será equivalente à (21), se forem utilizados os


resultados das expressões (22) e (24).
Cap. 14 Teoria da cotelaçã.o 367

Retas de regressão e o coeÍiciente de correlação linear


A equaçáo da reta de mínimos quadrados, Y = aO * a1X, ou reta de regressão de Y
paraX, pode ser escrita sob a forma:
fSv fSv
y-Y=-j(x - X) ou ) = Ç.t. (2s)
sX

De modo semelhante, a reta de regressão de X pataY,X = bo + ó1Y, pode


ser escrita:
rSY rSX
X-X=- sy (I-YJou:r Sy
f,
(26)

As declividades das retas (25) e (26) serão iguais se e somente s€ r = * 1.


Nesse caso, as duas retas são idênticas e há correlação perfeita entre as variáveis
X eY. Se r = 0, as retas estão em ângulo reto e não há correlação linear entre Xe
Y. Dessa forma, o coeficiente de correlação linear mede o afastamento angular entre
as duas retas de regressão.
Note-se que, se as Equações (25) e (26) forem e.scritas sob as formas Y = cto +
+ d,1X e X = bo + b1y, respectivamente, então a1b1= r2 (veia o Problema 15).

Correlação ordinal
Em vez de utilizar valores precisos das variáveis, ou quando essa precisão for inúti1,
os dados poderão ser d.ispostos em ordem de tamanho, importância etc., mediante
o emprego dos número s l, 2, ..., N. Se duas variáveis X e Y estão ordenadas dessa
maneira, o coeficiente de correlação ordinal é dado por:
6» D2
_-
,ordinal _t r- (27)
-
N(N2 - 1)

em que D = diferenças entre as ordens dos valores correspondentes de X e X


N = número de pares de valores (X, Y) dos dados.
A fórmula (27) é denominada fórmula de Spearman para a correlaçã,o
ordinal.
368 Estatística Cap. 14

Correlação de séries temporais


se cada uma das variáveis, x e Y, depende do tempo, é possível que exista uma
relação entre x e Y, mesmo que essa relação não seja, necãssariamãnte, de depen-
dência direta e que possa conduzir a uma "correlação sem sentido,,. obtém-se o
coeficiente de correlação pela simples consideração dos pares de valores (x, 11
correspondentes a várias épocas, e procedendo-se, como de costume, mediante o
emprego das fórmulas anteriores.

É possível tentar correlacionar os valores de uma variável X, em certas


épocas, como os correspondentes de Y, em ocasiões anteriores. Isso é freqüen-
temente denominad o autocorrelacão.

Correlação de atributos
Os métodos descritos neste capítulo não nos capacitam a considerar a correlação
de
variáveis que, por sua natureza, náo são numéricas, como os atributos individuais
(exemplo: cor dos cabelos, dos olhos etc.). Para um estudo da correlação de
atributos,
veja o Capítulo 12.

Teoria amostral da correlação


Pode-se imaginar que os N pares de valores (X,Y de duas variáveis constituem uma
amostra, proveniente da população de todos os pares possíveis. Como há duas
variáveis implicadas , essa população é denominad a bid,imensional e admite-se que
ela apresente uma distribuição normal bid.imensional.
Pode-se pensar no coeficiente de correlação de uma população teórica,
representada por P, Que é estimado a partir do coeficiente de correlàção amostral r.
Testes de significância, ou de hipóteses concernentes a vários valorós de p, exigem
o conhecimento da distribuição amostral de r. para p = 0, essa distribuição é
simétrica e pode-se utilizar uma estatística que envolve uma distribuição ae Stu-
dent. Para p + 0, a distribuição é assimétrica. Neste caso, uma transformáção devida
a Fisher produz uma estatística que tem distribuição aproximadamente normal.
Os
testes seguintes resumem os processos atinentes.

1. Teste da hipótesê p 0
=
Aplica-se, neste caso, o fato da estatística:
Cap. 14 Teoria da cotelaçã.o

(28)
t=

ter uma distribuição de student, com v = N - 2graus de liberdade (veja os Problemas


27 e 22).

2. Teste da hiPótesê P = Po É 0
(2e)
z = r,"r.
[=- . )=
,.,5r3rog,. (]-=)
emquee=2,71828...,terdistribuiçáoaproximadamentenormal,comamédiaeo
desvio padrão dados Por:

_ í r * po)=r.r5r3rog í,t *_
r, po). (30)
tr= iros"Ir _ oo
)=,.rJrlusro[, * ]
I
"
6z=
xN -3
Esses fatos também podem servir para determinar
limites de conÍiança
os
dos coeficientes de correlaçáo (veja os Problema 23 e 24).
A expressão (29) é
denominad a transformaçã.o Z de Fisher'

3. SigniÍicância de uma diÍerença entre coeficientes de


correlação
de amostras de
Para determinar se dois coeÍicientes de correlaçáo,11 e 12,Lírados
entre eles, calcu-
tamanhos N1 e N2, respectivamente, diferem signiÍicativamente
lam-seZleZ2,correspondentesarlerz,medianteoempregodaexpressão(29)'
Serve-se, então, do fato da estatística:
Zt-zz-Vzr-l, (3 1)
62r-zz

em que

Vz-2., = Vzr-Vz, e 62r-zz =

ter distribuição normal (veja o Problema 25)'


370 Estatística Cap. 14

Teoria amostral da regressão


A equação de regressão Y = ag + a1X é obtida com base em dados
amostrais.
fnteressa, freqüentemente, conhecer a equação de regressão correspondente
população da qual a amostra foi extraída. Os dois testes à
seguintes referem-se a essa
população.

1. Teste da hipótese aí At.


=
Para testar a hipótese do coeficiente de regressão a1 ser igual a algum valor
específico 41, usâmos o fato da estatística:

ctt - At r-
l= sY
--.. y'/ sy IN-2 = íN-2 (32)

apresentar a distribuição de student, comN-2 graus de liberdade. pode_se,


tam_
bém, utilizar esse fato para encontrar os valores Jmostrais, intervalos a"
dos coeficientes de regressão populacionais (veja os problem
.*âu.rç,
as 26 e 27).

2. Teste de hipótese para valores previstos


seja Yp o valor previsto de Y, correspondente ax xo,estimado por
= meio da equação
de regressão amostral, isto é, Yo ao + a1Xg. Seja Í, o
= rr"lo" d-e yprevist" p;;; ,
população, correspondente a X Xo.Então, a estatística:
=
Yo-Yp
t-
í1,' - 2=
sy xlN+l+(xs-n275rz
yo_yp
(33)
3r, \ I + t/N + (Xo -
^
l-

X\2t(tttrx2)

apresenta uma distribuição de student, com N 2 graus de liberdade.


- Daí podem
encontrados os limites de conÍiança para a população prevista (veja pronlàmais).ser
o

3. Teste de hipótese para varores médios previstos


Seja Yg o valor previsto de y, correspondente a X Xg, estimado
= da equação de
regressão amostral, isto é, YO = ao + o1X6. Seja Y, o ualor médio
previsto de y, para
a população correspondente aX = Xo. Então, a estatística:
Cap. 14 Teoria da correlaçã'o 371

Yo -lp af1'1j=
sy .x 1 + (Xo _ Í)2tti
yo-yp (34)

tr, { t/N + uo - xt2/tNsx2)

graus de liberdade' Daí podem ser


apresenta uma distribuição de student, com N - 2
prevista (veja o Problema 29)'
encontrados os limites de conÍiança para a população

PROBLEMAS RESOLVIDOS

Diagramas de dispersão e retas de regressão


1'ATabela14.lapresentaospesosrespectivos,XeY,deumaamostrade12pais
e de seus filhos mais velhos'
(a) Construir um diagrama de dispersão'
(á) Determinar a linha de regressão de mínimos quadrados de Y para X'
(c)DeterminaralinhaderegressãodemínimosquadradosdeXparaY.

Tabela 14.1

61 64 68 62 10 66 68 67 69 71
Peso X dos Pais (kg) 65 63

71 67 68 '70
66 68 65 69 66 68 65
Peso Y ilos filhos (kg) 68

Solução
(o)odiagramadedispersáoéobtidomediantealocaçãodospontos(X,Y)em
indicado na Figura
um sistema de coôrdenadas retangulares, como está
1,4.2.
372 Estatística Cap. 14

72

670
5
E68
LL
o
:66
íl)
o
ÍL 64

62 64 66 68 70 72
Peso do Pai (kg)

Figura 14.2

(ó) A reta de regressão de Y paraXé dada por y ao +a1X,


= em que o0 e 01
são obtidos mediante a resolução das equações normais:

Ir, = aoN + alZX


l:Xf = asZX+ a1ZX2
As somas estão indicadas na Tabela 14.2 e, então, as equações normais
tornam-se:

I tZas + 800a1 = 8l I

I SOO a6 + 53.41 8 = 54.107

e, por meio delas, encontram-se o0 = 85,82 e a1 0,476, de modo que y


= = 85,g2 +
+ 0,476x. o gráfico dessa equação está representado na Figura 14.2.
Cap. 14 Teoria da correlaçd,o 373

Tabela 14.2

x Y x2 XY Y2

65 68 4225 4420 4624

63 66 3969 41 58 4356

68 4489 4556 4624


61

64 65 4096 4t60 4225

68 69 4624 4692 4161

62 66 3844 4092 4356

10 68 4900 4160 4624

66 65 4356 4290 4225

68 1l 4624 4828 504 1

67 6'7 4489 4489 4489

69 68 47 6t 4692 4624

1l 70 504 1 4970 4900

IX= 800 LY=811 ZX2 = 53.418 LXY = 54.101 2Y2 = 54.849

Outro método

on=W=35.82.
" NLX, _ (x).
N»XY-(:X)(tn
u,=-- --=*_ (zX),
' NLX, =0.416.

(c) Aretaderegressão deXparaYé dadaporX= á0 *


b1Y' em que ós e ó1
são obtidos Ãediante a resolução das equações normais:

l rr = àoN + btzY
+
| :xr = boLxY brzY2
Usando as somas da Tabela 14'2, essas expressões tornam-se:

I tZbs + 811ói : 800


I aua6 + 54.84sÉ-r = 54.t07 ,
374 Estatística Cap. 14

e delas se determinam óg- B,Bg e b1 1,086, de modo


- =
gráfico dessa equação está representãdo na Figura 14.2.
queX = _ B,Bg + 1,0S6y. O

Outro método

(rx) (r y2) - (»Y) Qxn


bo=
N»y2 - (»n2 = - 3.38

br=
N»xY - (ry) (ID
= l'036'
í»yTi»n2

Erro padrão da estimativa


2. Se aretaderegressão de y paraXé dadapory
=ao+ alX,provarque o erro
padrão da estimativa sy.16 é dado por:

^2 Zy2-açZy-a1ZXy
§1.-.)r= __
N

Solução
os valores de Y, estimados por meio da reta de regressão, são
dados por rest = clo +
+ a1X. Então:

_. _I(I- I.rt)z »(y - ao - atX)2


".2 NN =--
ZY(Y - ao - aé) - aoZ(y - ao - arX) _ arZx(y _ as _ a1X)
1/
Mas, »(Y- aç- u,1X) = IY - aoff - alXX = 0
e 2X€- as - ayX) = 1XY as ZX
- - a1ZX2 = O

porque, tendo em vista as equações normais:

2X=00N+a12X
ZXY= asZX+ a1ZX2
Cap. 14 Teoria da correlaçdo 375

Então:

2
2Y (Y - ao - atX) »Y2-asZY-a12XY
SY.X= N
Este resultado pode ser estendido às equações de regressão não-Iineares'
B. Ser X-Xey =T -Y,mostrarque o resultado do Problema 2 pode ser escrito
=
sob a forma:

2
SY.X=
Zy2 - alLxy

Solução

No Problem a 2, para X = x * X e Y = y + Y,tem-se:

N ri. x =Z Y
2
- asL Y - a 1L XY =I g + h' - oo' » 6' + h - 4l: (r +X) ty + 4 =

=2(y2+2y?+Y2)-ao(rv+ND-arLlxy+Xv+xÍ+xh=
- Zy2 + zy») + N Y'-ooNl-apry-a1xLy - aiÍLt'_ a1"1XY =
= >Y2+ - al rr) - aINXV
N7' - ooNY =

- 2y2 - atLrY + NÍÚ - ao = o1x I =


= »Y2 - a1'zxY

em que foram utilizados os resultados Ir = 0, Iy = 0


e Y= + alXrque resulta da
90
+ a12X por N)'
divisáo de ambos os membros da equação normal LY = ooN

do Problema 1'
4. Calcular o erro padrão da estimativa sy71 para os dados
medianteo"*p,"go.(o)dadefrnição;(b)doresultadodoProblema.s.

Solução
(o) No Problema 1(ó), a reta de regressão de Ypara X é Y = 35,82 + 0,476X.
(da tabela do
Na Tabela 14.3 estão relacionados os valores reais de Y
de Y, representados Por Y".1, obtidos
Problema 1) e os valores estimados
da reta de regressão. Por exemplo, em correspondência
a X = 65, tem-se
Yest = 35,82 + 0,476(65) = 66,7 6'
376 Estatística Cap. 14

Também estão reracionados os valores de y- yest,


eue são necessários para
cálculo de sy . ;.

Tabela 14.3

x 65 63 67 64 68 62 70 66 68 67 69 7t
Y 68 66 68 65 69 66 68 65 71 67 68 70
I".t 66.76 65,81 67 ,71 66,28 68,19 65,33 69,14 67,24 68.19
67 .71 68,66 69,62
I'- I est 1.24 0,19 0.29 -1,28 0,81 0,67 -1,14 -) )a 2.81
-0,71 -0,66 0.38

^
sy.x= ,(y -\i: _0,24)2 + (o,te)2 +... + (0,38)2
N = = 1,642

sy x = ,[ t,A+Z = 1,28 kg.


(ó) Nos Problemas 1 e B;

^2
rl'.x= Ly2 - alZxy=-----2
38.92 - 0,476(40,341
N =1.643

sy x = {r,o+s = 1,2gkg.

Variação explicada e não-explicada


5. Provareu€ =I(y -h2 = >(y - y"rt)2 + X(yest _y)2.

Solução

Elevando-se ao quadrado ambos os membros de y _ y = (y_ y".t) + (yest _ y)"


somando-os depois, tem-se:

I(r - y )2
=z(y - r.r,)2 + !(resr - y l2 + 2z(yx- r.r,)(re.r _ r)
O resultado desejado será obtido imediatamente, se se conseguir
que a última soma é nula. No caso da regressão linear isso
mostrar
'
se verifica'porque:

I(f - ys51)(Ig51
- 7) = Z(y - as - a1X) = (ao + a1X_Í) =

= ayZ(Y - ao - atX)+ alZX(y _ ao _ atX)_y Zly _ ao _ a1X) = e


Cap. 14 Teoria da correlaçã.o 377

porcausadasequaçõesnormaist(y - ao - atX)=0 e»X(Y - ao - a1X)=O'


pode-se demonstrar, de maneira análoga, que o resultado é válido para as
regressões não-lineares, mediante o emprego de uma curva de mÍnimos quadrados,
dada por:

Yest = aa * alX + a2X2 + "' anXn '

6. Calcular: (o) a variação total; (á) a variação não-explicada; (c) a variação


explicada, para os dados do Problema 1'

Solução
(a) Variação total = I (Y Y)2 =Zy2 = 38,92
-
(ó) Variação não-explicada = , (y - Y"rt)2 = Ns] . ,= 19,70, do Problema 4.
(c) variação explicada = I(Yest - Y)2 = 38,92 - 19,70 = 79,22, utilizando o
Problema 5.

Outro método

Como Y = gttltZ = 67,58, pode-se construir a tabela seguinte, empregando-se os


valores de Y."t obtidos na Tabela 14.3 do Problema 4'

- y ou ]-o,sz -1,773 0,13 -1,30 0,61 -2,25 1,56 -0,34 0,61 0'13 1,08
2,04
e"t
esr - 67,58

Então, I(Y".t - Y)2 =(-0,82)2 +ç1,77)2 + "' + (2,04)2 =19,27'


Os resultados dos itens (o) e (ô) podem também ser obtidos diretamente'

CoeÍiciente de correlação
7. Determinar: (o) o coeÍiciente de determinaçáo; (ó) o de correlação, para os
dados do Problema 1. Usar os resultados do Problema 6'
378 Estatística Cap. 14

Solução

(o) CoeÍiciente de determinaç variação-explicada 1q ee


áo = 12 - 0'4938'
variação total = #ffi=
(á) Coeficiente de correlação = r t {0/93g + 0,7027.
= =
como a variável yg51 aumenta quando X cresce, a correlação é positiva
e,
portanto, escreve-se r = 0,7027 ou 0,70, com dois algarismos
significativos.
8' Provar que' para a regressão linear, o coeficiente de
correlação entre as
X eY, pode ser escrito sob a forma:
variáveis,
Xxy
{ tr. rl tzyrs
emquex:X-Xe y=y-Y.

Solução
A linha de regressão de mínimo quadrado de Y para
x pode ser escrita sob a forma
Yest = + a'lX,oulest = dtx,em que o,
ctg
=
#ê Jest = Yest - Y lveja o problema
6(o) do Capítulo 1Bl. Então:

variaçãoexplicada_ X(I"rt
,z _ -Í), _Zyr?,
variação total - ,(y _ nf ,r,
_zaÍx2 alZx2 (»*r\2
-))l
Zx2 (X xy) 2

Zy2 Zy2 -l1"rl


\./ zy2
=<
(»x2) (2,y2)
2xv
=
1r: *21t4't .i é positiva,
(:ml)
quando /gs6 âum€nta com o acréscimo de r (isto
é, cor.elação linear positiva) e
negativa quando y""1 diminui com o acréscimo de r (isto
é, correlação linear negati-
va), ela tem automaticamente o sinal adequado a ela associado.
Então, define-se o
coeÍiciente de correlação linear como sendo:

Iry
",1 o*21(»y2)
Cap. 14 Teoria da correlaçã,o 379

(ou de
Esta é denominada, freqüentemente, fórmula do produto montento
covariância), para o coeficiente de correlação linear'

Fórmula da covariância para o coeÍiciente de correlação


linear
X eY' apre-
9. Determinar o coeficiente de correlação linear entre as variáveis,
sentadas na Tabela 14'4'

Tabela 14.4

Solução
na Tabela 14.5.
As operações necessárias ao cálculo podem ser dispostas como

Tabela 14.5

X Y x=(x-x) y=Y-T ,2 xy f
36 24 16
1 1 -6 -4
t6 12 9
J 2 -4 -J
9 J 1
4 4 -J -1
6 4 -1 -l 1 1 1

I 0 1 0 0
8 5
2 4 4 4
9 7 2

11 8 4 '3 I6 t2 9

14 7 4 49 28 l6
9

IY=40 I;xz = 132 Lxy = 34 2Y2 = 56


ZX=56
X=5618=7 7=4018=5

rx) _ __:y-=o.9il.
-
r' =
{(: * t: y
2) 2)= r/ t t:z) lsot

-i--;__=-_-;-
380 Estatística Cap. 14

10. Mostrar que o coeÍiciente de correlação linear é dado por:


NryI_ g{xl)l
r/1ru: x2 - tZE2l [,tr:y, - eyZí

Solução
Fazendo-se x = X -X, ! =Y -Y no resultado do problema B, tem_se:

Í.r, LxY ltx-x)tY-D


=:
"l 1b'112yz't ! tr(X -
-Xlzllȟ _ hzl
Mas,

x(x - n<v-h = zx\xy-xy - xy + xg = zxy_X»,y_y zx +


+ NXy =ZXY_ NXV_ wyX+ UXy =ZXyi_NX} =

=zXy-(:x)(rY)
N
porque X = q»fyN eY = ç2y1171J.

De modo análogo,

z(x_ x)2 = z1x2- zxx+ x2) = Lx2_ zXzx+NX2 =

, »x2_ztZt)2
NNN
* (!-&' = y vz _ ên2

r(Y - 42 = ê!)2
e »Yz - .Então, a expressão (1) torna-se:

»,xY_GX)(rY)/N
I
=
Cap. 14 Teoría da correlaçã.o 381

coeficiente de correlação para dados agrupados


graus finais de 100
1 1. A Tabela 14.6 apresenta as distribuições de freqüência dos
a essa tabela, deter-
estudantes, em'matemátíca e em física. com referência
minar:
(o) o número de estudantes que receberam graus entre 70 e 79 em matemática
e entre 80 e 89 em física;
de 70;
(b) a percentagem de estudantes cujos graus de matemática estáo abaixo

(c) o número de estudantes que receberam grau 70, ou maior, em física, e

menos do que 80, em matemática;


(d)apercentagemdosestudantesquepassaram.tantoemfísicacomoem
matemátici, admitindo-se que 60 é o grau mínimo de promoção'

Tabela 14.6
Graus em Matemâtica

50-59 60-69 70-79 80-89 90-99 Totais


40-49

o 2 4 4 l0
90-99
tr. 16
1 4 6 5
80-89
o
5 l0 8 I 24
70-79
rl 9 5 2 21
60-69 1 4

J 6 6 6 t7
50-59
40-49 3 5 4 l2
25 23 20 10 100
Totais 7 15

Solução
(o)Percorre-separabaixoacolunaencimadaporT0-79(grausemmate-
(graus em física)' O valor
mática), até a linha correspondente a 80-89
encontrado ,4, dâ o número desejado de estudantes'

(b) Número total de estudantes cujos graus de matemática estáo abaixo


40 e 49 + número daqueles
de 70 = número daquele cujos graus estão entre
cujosgrausestãoentre50e59+númerodaquelescujosgrausestãoentre
60e69=7+15*25=47.
382 Estatística Cap. 14

Tabela I4.7 Tabela 14.8


Graus em Matemática Graus em Matemâtica

ocÉ 60-69 70-79 40-49 50-59


q)6
o7)
90-99 2 50-59
L lJr =ô
LE
., 6
80-89 4 40-49 -') 5

70-79 5 10

Percentagem dos estudantes cujos graus de matemática estão


abaixo de
70=471190=47Vo.
(c) O número desejado de estudantes e o total dos valores da
Tabela 14.7, q.e
reproduz uma parte da Tabela 14.6.
Número desejado de estudantes = 1 + 5 + 2 + 4 + lO 22.
=
(d) com referência à Tabela 14.g, que é tirada d,a 14.6, vê-se
que o número de
estudantes cujos graus estão abaixo de 60, tanto em matemática
como em
física,é3+B+6+5=17.
- Então, o número dos estudantes cujos graus são iguais a 60 ou maiores
duas matérias = 100 nas
- L7 = gB, e a percentãgeà desejada? sguroo = g}vo.
A Tabela 14.6 é freqüentemente denominada de
ou rlistribuição de freqüência bid,imensional. Cad.a
freqüência bid.imensional
àá t.tr"tu o áã"ã-i""a"
célula e corresponde a um par de classes ou d.e intôrvalos
".puçá de classe. o número
indicado em cada espaço é dónomina do da cétiía. por exemprã, ,ro i1"-
freqüência
(a), o númeto 4 é afreqüência da célula correspondente
ao par de intervalos de classe
de 70 a 79 em matemática e de g0 a gg em fíiica.

Os totais indicados nas últimas linha e coluna são d.enominados


marginais-ou freqüências marginols. Eles correspondem, respectivamente, totais
qüências de classe das distribLições de freqüência ."p.r"d", às fre-
mática e de física.
d;. ;;;;"ãLã"t"_
12. Mostrar como deve ser modificada a fórmula do problema 10, para o caso de
dados agrupados, como os da tabela de freqüência bidimensional (Tabela
14.6)
do Problema 11.
Cap. 14 Teoria da cotelaçõ'o 383

Solução
valores das variáveis, x
Para os dados agrupados podem-se considerar os diversos
ã ?,'.ot"o coirrciãerries com os pontos médios, enquanto f4 " f'
são as-freqüências
indicadas nas últimas linha
classe de correspondentes, ou as freqüências marginais
Se /representar as várias freqüên-
e coluna da tabela a" fr"qtiO""ia bidimensional'
pontos médios (x, Y pode-se, então'
cias das células .orr".porrdentes aos pares de
substituir a fórmula do Problema 10 por:

NLf XY - (t fxX)(»fvY\
(1) , =

Fazendo X=A+cxuxeY =B + cyuy,em - que c4ecy são as amplitudes dos


arbitrários
intervalos de classe (consíàetados constántes) e A e B pontos médios
correspondentes às variáveis, a fórmula torna-se:
NI/u"u" - Afx"xlAfYA
! tNI Ír EfYuv\2|'
como um pro-
Esse é o métod'o abreuiad,o usado em capítulos anteriores,
cesso prático para o cáIculo de médias, desvios
padrão e momentos de ordem mais
elevada.

13. Determinar o coeficiente de correlação linear entre os graus de matemática e

de física do Problema 11'

Solução
pode ser disposto como na
Emprega-se a fórmula (2) do Problema 12. o trabalho
Tabela 14.9, que é denominada quad.ro d'e correlação. As somas Lfv, Lfvuv,
o emprego do método abreviado'
L fxul,Zfy,Z fy uveL fv u2 vsão obtidas mediante
como nos caPítulos anteriores'

onúmerodocantodecadacélularepresentaoprodutofuxuY,emquefé
em cada linha, está indicada na
a freqüência dessa célula. A soma desses números,
indicada na última linha
última coluna da mesma. sua soma, em cada coluna, está
coluna, são iguais e repre-
da mesma. os totais finais, da ú1tima linha e da última
sentam Lfuxuy.
384 Estatística Cap. 14

Tabela 14.9

Graus em Matêmática. X

x 44,5 54.5 64.5 74,5 84.5 94,5 Soma dos


números
íu1
em cada
Y 0 2 linha

94,5 2 2 4 4 10 20 40 44
n k
84,5 4 6 5 16 16 tb 31
d ls ,4
.9
.9
I
74,5
E
o
0 10 I 1 24 0 0 0
d
t, m to to

64,5 4 I 5 2 -21
l7 ,i lo= 5 li
21 21

54.5 2 3 6 6 2 17 -34 68 20
w fr t,
44,5 3 5 4 12 108
1Í 4

t\ 7 15 25 20 10 Líy uy 2Ív u? Líux uy


= N= 100 = -55 = 253 = 125

íx ux -14 -15 0 40 30 L* ux
=64
;o
uí 2Í, ul ^§'"í"*
f* 28 0 80 90 Cr"
= 236

Soma dos números


dos cantos em 32 31 0 2A Zlux uy
1 39
cada coluna = 125

De acordo com a Tabela 14.9, tem-se:

_
N Zfux uv - (Zfx uil (ZÍy uv)
r/ 1nt:6 ,2 x - (zÍx uil2ltN zyr7 , _ 1yr;7, -
(100) (12s) _ (64) (_ss)
! lrrooi e36t - (64)21 t(100) (2s3) - (-ss)21
16,020
-_F-=u./uôo.
li (19.504) 122.215)
Cap. 14 Teoria da correlaçõ,o Sg5

Retas de regressão e o coeÍiciente de correlação


14. Provar que as retas de regressão de yparaXe de x para ytêm suas equações
dadas, respectivamente, por:

(atY-f =tI 6-X)e(á) x-N=:iO (y-X).

Solução
(o) De acordo com o Problema G(o) do Capítulo 18, a reta de regressão de y
paraXtemaequação:

" lr*') ,o, y-y=ll+) ,r-x;.


y=l:+l --t'
[r*r)'
Então, como r = ---]g -- (veja o problema g),
! r rxzl (zy2)
rx) _ ,^Elt( ryT
zx2 zx2 - §E
_ _,,,
./2;, - ,,
e obtém-se o resultado desejado.
(á) Procede-se como no item (o), permutando-se X ey.

15. Se as retas de regressão de YparaXe deXpara Ysão dadas, respectivamente,


por Y= a0 + atX e X = bO + blY,provar etJe a1b1 = 12.

Solução

e l1(b),
r!
De acordo com os Problemas l4(a) a1 =
"
b., = "4

Então, arbr -|.ry ]


(Ua)=,,.
[ "x /('v,
Esse resultado pode ser tomado como ponto de partida para a definição de
coeficiente de correlação linear.
386 Estatística CaP. 14

Correlação ordinal
16. A tabeia seguinte indica de que modo 10 estudantes, dispostos em ordem
nas aulas
alfabética, foram classiÍicados àe acordo com seus aproveitamentos
de laboratório e de exposiçáo de um curso de biologia.
Determinar o coeficiente
de correlação ordinal.

Lsboratório 8 3 9 2 7 10 4 6 i 5

10 I 8 1 3 4 2 6
Exposição 9 -5

Solução
A diferença das classes, D, em laboratório e exposição' para cada estudante'
é
e ZD2'
apresentada na talãia seguinte. Dela constu-, iu"'úém'-D2

2
Diferenças de -1
a
-1 1 -l 3 -1 -1
classes, D
4 I 9 1 4 1 I ZD2 = 24
D2 1
1

Então:
6LD 6(2-41
rordinal = 1 -
lf 1lf, _ fy =' -1O(10;,_ 1)
=0,g545,

aulas de
o que indica que há uma relação acentuada entre os aproveitamentos nas
Iaboratório e de exPosição.
1e
17. calcular o coeÍiciente de correlação ordinal para os dados do Problema
compará-lo com os resultados obtidos por outros métodos'

Solução
pais são:
Dispostos em ordem crescente de grandeza os pesos dos
(1) 62,63,64,65,66,67,67,68,68,69, 70,71'
Comoosextoeosétimolugaresdesserolapresentamosmesmospesos
(67 kg), atribuem-se-lhes a ordem méd,ia 6,5. De modo semelhante, atribui-se a
Cap. 14 Teoria da correlaçã,o

ordem 8,5 ao oitavo e ao nono lugares. Desse modo,


aos pesos dos pais são atribuídas
as ordens:
(2) r, 2, 3, 4, 5, 6,5, 6,5, 8,5, g,5, 10, 11, 12.
De modo semelhante, os pesos dos filhos, dispostos
em ordem crescente de
grandeza, são:
(3) 65, 65, 66, 66, 67, 6g, 6g, 68, 68, 69, 70, 71.
e, como o sexto, o sétimo, o oitavo e o nono lugares representam
(68 kg), atribuem-se-lhes a ordem méd.ia 7,5 o mesmo peso
Lrci Z * S + g)/41. Dessa _u.rãi*luo,
pesos dos frlhos são atribuídas as ordens:

(4) 1,5, r,5, 3,5, 3,5, 5, 7,5, 7,5, 7,5, 7,5, 10, 11, t2.
Usando-se as correspondências entre (1) e (2) e entre (B) (4),
e aTabela 14.1
do Problema 1 torna-se:

Ordem 4 2 6,5 8.5


.J I l1 5 8,5 6,5 10 I2
dos pais

Ordem 1,5 3,5 1,5 1,5 t0 15 1.5 1,5 t2 5 7,s 11


dos filhos

A diferença das ordens, D, a os cálcuros d,e D2 e z D2 estão indicados no


qüadro a seguir:

D _1 §
t,5 ?5 35 -1 5 1,5 )\ ,0
-1,5 -1.0 -l,5 -)5
D. 12,25 ))\ 1,00 ) )\ ') )\ 6,25 t2,25 1) )< 12,25 ) )< 6,25 1.00 LD2 72.50
=

Então:

/'ordinal= -I- 62D2 6 (72.501


-- r-=
N (Nz_ l)
l- -^ =O'7465,
t2
- - t)
\122
que concorda bem com o valor r = 0,7027, obtido no problema 7.

Correlação não-linear
18' §ustar uma parábola-de mínimos quadrados da forma y
seguinte conjunto de dados.
- oo + a1x + a2x2 ao
388 Estatística CaP. 14

Tabela l4.LO

Solução
As equações normais são (veja o Capítulo 13):

I ;v = aoN + a12X + a22X2


rrrliiY = asLX + a1ZX2+ a22X3
+ ayLXs +
| »x,v = aç2X2 a2LXa

Asoperaçõesnecessáriasaocálculodassomaspodemserdispostascomo
na Tabela 14.71.

Tabela L4.ll

4,5 t,44 1,13 2,.08 5,40 6,5 8


1,2

5,9 3,24 5R1 10,49 t0,62 19,12


1,8
9,61 29,79 92,35 21,70 67,21
3,1 7,0
24,0t r17,65 576,48 38,22 187,28
4,9 1,8
aa 32,49 185,19 1.055,58 41,04 233,93
5,1
50,41 357,9t 2.541,16 48,28 342,79
1,1 6,8
73,96 636,06 5.470,r2 38,70 332,82
8,6 4,5
a1 941,19 9.223,66 26.46 25g,31
9,8 96,O4
»X2Y =
t.449,00

porque N = 8:
Então, as equações normais (1) tornam-se,

i 8r^ * 42,2a1 a 291,20a2 = 46'4


(2) ] 42,2ai+ 291,20av+ 2'275'35a2= 230'42
I zn,zooá * z.zts,3soi * t8'971,92a2 = 7'449'00
Cap. 14 Teoria da corcelaçdo

Resolvendo-al, o0 = 2,588; at = 2,065; ct2 = 0,2110. portanto, a parábola


de mínimo quadrado desejada tem, pÀra equação:
-
Y = 2,588 + 2,065X - 0,21rcX2.

19. usar a parábola de mínimos quadrados do problema 1g, para estimar os


valores de Y a partir dos atribuídos a X.

Solução
Para X = 1,2, Yest = 2,588 + 2,065(L,2) 0,2110(1
- ,2)2 = 4,762. Obtém_se, de modo
semelhante, outros valores estimados. Os resultados estão indicados
na Tabela
l4.L2,juntamente com os valores reais de y.

Tabela 14.12
I.rt 4,762 s,621 6,962 7.640 7,503 6,613 4.74t ), 2,561
Y 4,5 5,9 7,0 '7
7,8 '.' 6.8 4,5 )7

20' (a) Determinar o coeficiente de correlação linear entre


as variáveis, X e y, d,o
Problema 18. (á) Determinar o coeÍiciente de correlação não-linear
entre essas
variáveis, admitida a relação parabólica obtida no problema 1g. (c) o*pli*r.
diferença entre os coeficientes de correlação obtidos nos itens (o) e (ó).
percentagem da variação total permanece não-explicada, quando ial ô,r"
se aámite
uma relação parabólica entre X e y?

Solução
(o) Mediante a utilização dos cálculos anteriormente obtidos
na Tabela 14.11
do Problema 18, tendo-se ainda em vista que X y2 2g0,52, encontra_se:
=
Nr,xY_(rDGr4
=

(8) (230,42) - (42,2) (46,4)


= = _0,3-143.

(á) oe acordo com a Tabela 14.11


do problema 1g, y= (ry)/N = (46,4)/g= 5,g0.
Então, a variação total = Z(y -Y )2 = 21,40.
Estatística Cap. 14

DeacordocomaTabelaL4.L2d'oProblemalg,avariaçãoexplicada=
= X(Yest -Y2 = 21,02'
Portanto:

',z _
variaEão-explic4da
=
W*= 0,9g22 e, r = 0,9911 ou 0,99.
variaçào total 21 '4O

(c) o fato de o resultado do item (o) ser um coeficiente de correlação linear de


apenas-O,ST4Sindica,praticamente'quenãohárelaçãolinearentreXe do
y. Entretanto, fra o-. üo, relaçd,o nã.o'linear, fornecida pela parábola
problema rã, â q"" está indicadt pelo fato da correlação linear do item (b)
ser 0,99.
(d) variação explic?da
=l_r2 =7-O,ggZ2 = 0,0178.
variaçào total
Isso é
Por conseguinte, 1,787o da variação total permanece não-explicado'
adicional que não foi considerada'
devido a flutuações aleatórias ou a uma vâriável

Teoria amostral da corelação


21. um coeficiente de correlação, baseado em uma amostra de tamanho 18, foi
de significância: (o)
calculado como sendo 0,3d. Pode-se concluir, nos níveis
correspondente à populaçáo, é
0,05; (ó) 0,01, que o coeÍiciente de correlaçáo,
diferente de zero?

Solução
Desejamos decidir entre as hipóteses: Ho : P = 0 e Íít
: p > 0'

r_,.^[N-2=@=
Í= r.35.
ú_7=filrr_,..
(o) com base em um teste unilateral da distribuição de student, no nível
0,05,
(18 - 2) = 16 graus de
rejeitar-se-ia Hs quando t > to,s1.=.1,75, para
liúerdade. portanto, não se pode rejeitar Hs no nível0,05'

(ó) Como não se pode rejeit at Hg, no nível 0,05' certamente não se
pode
rejeitá-lo no nível 0,01.
Cap. 14 Teoria da corcelaçdo Sg1

22' Qual é o tamanho mínimo de amostra necessário para que se possa concluir
que um coeficiente de correlação de 0,32 difere significaiiv"-"r,t"
de zero no
nível de 0,05?

Solução
No nível 0,05, mediante o emprego de um teste unilateral da distribuição
de
Student, o valor mínimo de N deve ser tal que:

oJ2.íN-2
-r: to,g1, paraN-2 graus de liberdade.
\ I - (0.32) ,=
Para um número infinito de graus de liberdade, to,g5 1,64 e, portanto,
N = 25,6. =

Para N = 26, v = 24, ts,s5 = 1,71, t = O,B2 Z+nl-t rO,rrf


^[ = 1,65.
Para N = 27, v = 25, ts,s5 = 1,7L, t = O,B2 \[%/{-l _ (O.3Dl. 1,69.
=
Para N = 28, v = 26, ts,gs = 1,71, t = 0,82 ",{ ZA rtt <0,52), = 1,72.
Então, o tamanho mínimo da amostra é N 2g.
=

23. um coeficiente de correlação, baseado em uma amostra de tamanh


o 24, foi
calculado como r = 0,75. Pode-se rejeitar a hipótese do coeficiente
de correlação
da população ser pequeno quanto: (a) v = 0,60; (ó) v 0,50, ,ro nível de
significância 0,05?-tão
=

Solução

(a) Z = 1,1513 r"s


|,+l+# ]= o,gzeo,
I r - u,/b,
rtz = !,rltlr"* o,urrr,
[f:ffi )=
o' =
ffi=# =o'2182'

Então, z = (z _ltà/oz = (0,9730 _0,6932)/0,2lg2 = 1,2g.


Estatística CaP. 14

NoníveldesigniÍicância0,0S,medianteoempregodeumtesteunilateral
,ro*rri.i-rã:àitrr-r"-ia a hipótere ,orrrerrt" q*ando z fosse
maior do
da distribuiçao
que 1,64. Dessa for*á t" pode re;eitar a hipótese de que o coeÍiciente de
"áo quanto 0'60'
áo.""fâçao populacional seja tão pequeno
(b)Parav=0,50,*z=L,L513Iog3=0'5493e2=(0'9730-0'5493y0'2182=7'94'
Entáo,pode-serejeitarahipótesedequeocoefrcientedecorrelaçãopopula-
nível de signiÍicância 0'05'
cional seja táo p"qo""o q"u'to p = 0'50' no
em física e matemática, de
24. O coeÍiciente de correlação entre os graus finais,
0,80. Determinar os limites de
como
um grupo ae Ziestuduriu., foi calcuiãdo
conÍiança de 957o desse coeficiente'

Solução
Como r = 0,80 e N = 21, os limites de confianç a de 957o de p7 são dados por:
(t+r\r .^.f I )
r,oolffi,)= r.0e86 +0.4620.
Z+ t.e6.,z= r.r5r3 roc[fr_
Jt
Entáo,lt1lemointervalodeconÍiançade957ode0'5366a1'5606'

s. rrz= 1,1513 ,"* o,u'uu' P = o'4e04'


[H )=
ír+o\ 1'5606' P = 0'9155'
Se *z= 1,1513 tog I #
('-t'l l=
Assim, os limites de confianç a d'e 957o para p são: 0'49 e 0'92'

de tamanhos N1 -- 28 e N2 =
25. Dois coeficientes de correlação, obtidos de amostras
0,30, respectivamente' Haverá
= 85, foram calculados coÍro 11 = 0,50 ê 12 =
umadiferençasignificativaentreosdoiscoeÍicientes,nonível0,05?

Solução
/t+rr) 0.S+gr. Zz t,l5 l3 log /l+r2) l= 0'3095-
Zr = t.t5 l3''"'['_
log I l= = I('-")
-' ")- -
Cap. 14 Teoria d,a correlaçã,o 393

ozt-Zz = = 0,2669

Deseja-se decidir entre as hipóteses HO: Ht:


$Zt= [LZre VZr=É lLZz.

Para a hipótese Ils:


Zt-Zz-\tzr-ltzr) 0,5493-0,3095_0
ozt - zz 0,2669 = 0,8985.

Por meio de um teste bilateral da distribuição normal, rejeitar-se-


ia Hs
somente se z > 1,96 ou z <
-r,g6. portanto, não se pode rejeit u, Hg qr"
os resultados não são diferentes, de modo signiÍicátivo, ná nivel "iorr.trri-* l
o,os.

Teoria amostral da regressão


26. No Problema 1, determinou-se que a equação de regressão de y para
x era
Y = 35,82 + 0,476X. Testar a hipótese,_no nivet de slgnificârr.iu, o,os, au qrru
o coeficiente de regressão da equação de regressão pipulacional
é inferior a
0,190.

Solução
at-At .'lU-Z 0.476-
/=--sy y/sy
. 0. I 80
vll-2=l'95'
-
=
128/23,6 ^fl,
porque sy.x = L,2B (calculado do problema4) e rx=rf(íi2VN =.,[Eí,6g/12 =
= 2,66.
Com base em um teste unilateral da distribuição de Student, no
nÍvel 0,05,
rejeitar-se-ia a hipótese de que o coeficiente de regreÁsão é inferior a
0,1g0 se ú >
> .to,gs = 1,81, para (72 - 2) = 10 graus dê liberdade. por conseguinte, não pode
se
rejeitar a hipótese.

27' Determinar os limites de confianç a d.e gSVo,para o coeficiente de regressão do


problema anterior.
Estatística CaP. 14

Solução

de confianç a de 957o de A1 (obtidos


At = a\ ,r,,ro, os limites
Ti= [V J' graus de liberdade) são dados por:
fazendo-se r = + ro,sb' =!2,U3,para72-2=lO

istoé,seestágsvoconftantedequeAlestácompreendidoentre0,136e0,816.

2g.NoProblemal,determinaroslimitesdeconfiançadegSToparaospesosdos
(b) 70 kg'
filhos, cujos pais pesam: (o) 65 kg;

Solução
ComoÍ0.95=2,23,paraer2-2)=l0grausdeliberdade'oslimitesdeconÍiançade
957o para Y, são dados Por:

(xo - X)2
YoÍí-r"'
2.23
N + 1+ SX2

.x = 1,28 sls = 2,66


(Problema 26), e
em que Ys = 35,82 + 0,476Xç (Problema 1), sy
N=L2.
(65'0 - 8OOI1D2 = 2'78'
(o) Se Xs - 65,0, Yo = 66,76kg' Também (X - X)2 =
sáo:.
Entáá, os limites de confiança de 957o

66;76 !ffi rt,rrt = 66.16 t 3,31 kg.

que oS pesos dos frlhos estão compreendidos


isto é, pode-se estar 9ÍzoconÍiante dé
entre 63,4 e 70,1kg.
(70 - 800/12)2 = !L'77'
(ó) Para Xs = 70, Yo = 69,L|kg' Também (Xo - X)2 =
Entáo, os timiteJ de confianç a de 95-7o sáo
talculados como 69,14 + 3,45 kg,
istoé,poa.-'"-".tatgSZoconfiantedequeospesosdosÍilhosestãocompre-
endidos entre 65,7 e72,6kg'
Cap. 14 Teoria da correlação

Note-se que, para grandes valores de N, os limites de confianç


a d.e gSVo são
dados, aproximadamente, por Yg + 1,96 sy. yg t 2sy.5 desde que (X6 _ Xl nao
x, ou
seja excessivamente grande. Isso concorda com os resultaáàs
aproximados mencio-
nados no capítulo 9. os métodos utilizados deste probià-,
p."rulecem, inde_
pendentemente do valor de N ou de (xo )0, isto
- é, sào métodos amostrais exatos.
29' No Problema 1, determinar os limites de confianç a d,e gSvopara os pesos médios
dos filhos, cujos pais pesam; (o) 65; (á) Z0 kg.

Solução

!-omo
to-,ss-ls = 2,23, para 10 graus de liberdade, os limites de confian gSVo
Y, ça d,e para
são dados por:

votffisv x (Xo - X)2


-2
§x

em que Yo = 35,82 + 0,476Xs (problema l), sy. x = L,2g, sX = 2,66 (problema 26).
(a) ParuXo = 65, encontram_se [comparar com o problema
2g(a))os limites de
conÍiança de gívo, (66,76 + r,o7) kg, isto é, pode-se estar gSvo
conÍiante de
que o peso médio de todos os filhos, cujos pais pesam
65 kg, estará com_
preendido entre 65,7 e 6T,g kg.
(á) ParaXo = 70, encontram-se lcomparar com o problema
Zg(b)los limites de
confiança de gSVo (69,14 + 1,45) kg, isto é, pode_se estar gSVo
confiante de
que o peso médio de todos os- filhos, cujos pais pesam
70 kg, estará
compreendido entre 67,7 e 70,6 kg.

PROB LEMAS SU PLEMENTARES

Regressão e correlação lineares


30. A tabela seguinte-mostra os dois primeiros graus, representados por x
respectivamente, de 10 estudantes em dois pãquenos tlstes
ey,
de biologia.
(o) Construir um diagrama de dispersão.
396 Estatística CaP. 14

(b)DeterminararetaderegressáodemínimosquadradosdeYparaX.
(c) Determinar a linha de regressão de mínimos quadrados de X para Y'
(d) Representar graÍicamente as duas retas dos itens (á) e (c) no diagrama de
dispersão do item (o).
Resp.: (ó) Y= 4 + 0,5X. (c) X = 2,408 + 0,612Y'

8 '7 6 10 4 9 7
Grau do primeiro 6 5 8

teste (X)

1 1 10 5 8 10 6 8 6,
Grqu do segundo 8
teste (Y)

Y, de 12 mulheres
31. A tabela seguinte indica as idades, X, e as pressões arteriais, '

(o) Determinar o coeficiente de correlação entre X eY'

(á)DeterminaraequaçãoderegressãodemínimosquadradosdeYparaX.
(c) Estimar a pressão arterial de uma mulher de 45 anos'

72 36 63 41 55 49 38 42 68 60
Idade (X) 56 42

t25 160 118 t49 128 150 145 115 140 152 155
Pressão arteriql 141
(Y)

Resp.: (o) 0,8961' (b)Y = 80,78 + 1,138X' (c)132'


r 0,60. Se s;ç = l,§Q,
BZ. O coeficiente de correlação entre duas variáveis, X eY, é =
das retas de regressão de: (a)
;r-:-;,í = 10 e 7= 20, determinar as equações
Y para X; (b) X Para Y.
Resp.: (a) Y -- 0,8X + 72; (b) X = 0,45Y + 1-'

33. Se sY. x = 3 e sY = 5, determinar r'


ResP.: + 0,80
que percentagem da variação
84. Se o coeficiente de correlação entre X e Y é 0,50,
total permanece não-explitada pela equação de regressão?
Resp.: 757o.
Cap. 14 Teoria da correlação

9l r4u de regressão de y para x pode ser escrita sob a


35. Provar quq a equação
Y -Y = svv/sv2 (x -x). Escreíer a equação análogà
{orla
de X para Y.
da reta de regressão

36. (o) Calcular o coeficientg de correlação entre


os valores correspondentes de X
e Y, apresentados na tabela a seguir. (á) Multiplicar por
2 cad.avalor de x da
tabela e adicionar 6. Multiplicu" po" B cada valãr de y du tub"lu
e subtrair 15.
Determinar o coeficiente de correiação entre os dois novos conjuntos
de valores
e explicar por que se obtém, ou não, resultado igual
ao do item (o).
Resp.: (a) - 0,9203.

x 2 4 5 6 8 l1
v 18 t2 10 8 1 5

37. (a) Determinar as equações de regressão de y para


x, para os dados conside_
rados nos itens (a) e (b) do problema anterior.
íól Discutir a relação ãr...
equações de regressão. ".rt."
Resp.: (a)Y= 18,04- I,B X. y= 51,1g _2,01X.
38' Provar que um coeficiente de correlação é independente da escolha da origem
das variáveis, ou das unidades em que elas são expressas. (Sugestão:
conside-
rar X = c\X + A,! = c2y + B,em que ct, c2,A eB sao constantes
quaisquer, e
provar que o coeficiente de correlação entreX e }" é igual
Xey. ao que à"irt"
""t.u

coeÍiciente de correlação para os dados agrupados


39. Determinar o coeficiente de correlação entre as alturas e os pesos de 300
homens, constantes da seguinte tabeia de freqüência:
Estatística Cap. 14

Alturas X(metros)

1,60-1,68 1,70-1,78 1,80-1,88 1,90-1,98


1,50-1,58

45- 54,5 2 1

8 4 2
55- 64,5 1
15 22 7 1

t>.
bo
65- 75,5 5

t2 63 r9 5
75- 84,5 2
0 12
7 28 32
0
0,)
85- 94,5 ,7
2 10 20
95-104,5
4 2
105-114,5

Resp.: 0,5402.
quadrados de Y para X'
40. (o) Determinar a equação de regressão de mínimos
pesos de dois homens, cujas
fár" o. dados protlema anterúr. (ó) Estimar os
do
àItrrtu. são 1,63 e 1,83 metros, respectivamente'
Resp.'. @)Y = 0,0846X - 1,626, (b) 73'35 e 86'67 '

Correlação ordinal
8 candidatos
41. Dois juízes de uma disputa, em que foram solicitados a classificar
indicadas na tabela
na ordem de suas pre-ferências, propuseram as escolhas
ordinal e decidir se os juízes
seguinte. Determinar o coeficiente de correlação
bem concordantes em suas escolhas'
".fir"ru*

pTilnsiyo Juiz

Resp.'. rordinal = 213.


42. (o)DeterminaroCoeÍicientedecorrelaçãoordinalparaosdadosdoProblema
(o,), discutir a possíve1 desvantagem
36. (á) De acordo com a observação do item
do método da correlação ordinal'

Resp.: (o) - 1.
Cap. 14 Teoria da correlaçao

Teoria amostral da correlação


43' Foi calculado um coeficiente de correlação d.e 0,40, baseado
em uma amostra do
tamanho 22. pode-se concluir, nos níveis de signifrcância (o)
0,05, (ó) ó,0i q.r" o
coeficiente de correlação populacional correspJndente
é diferente de zero?
Resp.: (o) Sim; (ó) Nao.
44. Foi calculado um coeficiente de correlação de 0,50, basead.o
em uma amostra
de tamanho 35. Pode-se projetar a hipóiese do coeáciente
de correlação popu-
lacional ser: (o-) tão pequeno quanto p 0,80; (ó) tao grande
= quanto p = 0,70,
adotado o nível de significârr.ú 0,05?

Resp.: (o) Não; (ó) Sim.


45. Determinar os limites de confiança de: (o) gSVo; (b) ggTo,
d.e um coeficiente de
correlação de 0,60, calculado purá,.*u amostra de tamanho
2g.
Resp.: (a) 0,2928 e 0,2951; (b) O,t763 e 0,g861.
46' Foram obtidos dois coeficientes de correlação de 0,g0
e de 0,95 para amostras
de tamanho s 28 e 28, respectivamente. podlr-se-ia
concluir, nos níveis (o) 0,05,
(á) 0,01, que há uma diferença significativa
entre eles?
Resp.: (o) Sim; (ó) Nao.

Teoria amostral da regressão


47. com base em uma amostra de tamanh o 27, foi determinada a equação
regressão de Ypara X, Y = 25 + 2X.Se sy de
2;= 1,5, s;ç = B eX= ZS, dáteÀinar
os limites de conÍiança do coeficiente deiegressão
áà: to) 95vo; (b) 99vo.
Resp.: 2 + 0,2L; (b) 2tO,2B.
48' No Problema4T,testar: as hipóteses do coeÍiciente de regressão
populacional ser:
(a) táo baixo quanto r,70; (ó) tao alto quanto
2,20, no nõel de ,idfi.À;;i" ô,0r.
Resp.: @) Mediante o emprego de um teste unilateral, pode-se rejeitar
a hipótese;

$) Mediante o emprego de um teste unilateral, não se pode


rejeitar a hipótese.
49. No Problem a 47 , d,eterminar os limites de confiança de: (a) gSVo; (b) ggVo, d.a
média de todos os valores de yque correspond"- áX=
6.
Resp.: (a) 37 + 3,28; (b) 37 ! 4,45.
Correlação Parcial e mÚltiPla

Correlação múltiPla
O grau de relação existente entre três ou mais
variáveis é denominado correlaçdo
da correlação
múltipla. Os prircifio.-i""au-entais implicados nos -problemas
no Capítulo 14'
*Uttiptu ,ao trratogás aos da correlação simples' estudados

Notação Por meio de índices


Paraqueseconsigamgeneralizaçõesrelativasagrandenúmerodevariáveis'é
de índices'
emprego
conveniente adotar uma"notação que implique o
Representam-seporX1X2,X3,...,asvariáveisconsideradas.Então,poder- por
se-á representar por X11, Xn, Xt?, " ' os valores assumidos pelas variáveis X1 eessa
por diante' Utilizando
Xzt, Xzz, Xzs ... o. u..,""iaãt peú variav el X2' e assim
notação, uma soma;;;;t, i Xr, * Xzs + ...
+ X2y, por exemplo, seria escrita sob
N
asformas2Xzl,rXziou,simplesmente'»X2'Quandonãopuderacarretar
j
j=t
caso' a média de X2 será expressa
ambigüidade, usar-se-á a última notaçáo. Nesse
2Xo
por X2 = t'.

400
Cap. 15 Corelaçdo parcial e múltipla 401

Equação de regressão. Plano de regressão


TJma equação de regressão é uma expressão utilizada para estimar uma variável
dependente, por exemplo X1, em função das independentes, X2, XB, ... e é denomi-
nada equaçãn de regressã,o de X1 para X2, XB, ... Adotada a notação de função, ela é
escrita, às vezes, sob a forma abreviada como, Xt= F(Xz,Xg, ...), que se lê'.X1 é uma
função de X2, X3 etc.".
No caso de três variáveis, a equação de regressão mais simples de X1 para
X2 e Xs tem a forma
Xt = bt.zz + btz.z Xz + bs.z Xt, (l)
em que bt.22, bD.e e bg.2sáo constantes.

for mantida constante angular igual a bn. e. Se X2 for mantida


Se X3
constante, o gráfico de X1, em função de X3 será uma linha reta, com coeficiente
angular igual a b13.z. É claro que os índices colocados depois do ponto indicam as
variáveis que se conservam constantes, em cada caso.
Em virtude do fato de X1 variar parcialmente por causa da variação de X2
e também por causa da de X3, bn S e ófS . 2 Serão denominados, respectivamente,
coeficientes de regressão parcial de X1 para X2, quando X3 se mantém constante, e
de X1 para X3 quando X2 se mantém constante.
Aexpressão (1) é denominadaequaçã,o de regressã.o linear deXlparaX2e
X3. Em um sistema tridimensionai de coordenadas retangulares, ela representa um
plano denominado plano de regressã,o, que é uma generalização da reta de regressão,
para duas variáveis, considerada no Capítulo 13.

Equações normais do plano de regressão de mínimos


quadrados
Assim como há, em um diagrama de dispersão de duas dimensões, retas de regressão
de mínimos quadrados que se ajustara.m a um conjunto de N pontos (X, Y) dados,
assim também há, em um diagrama de dispersão tridimensional, planos de regres-
sã.o de mínimos quadrados que se ajustam a um conjunto de N pontos (X1, X2, X 3)
dados.

O plano de regressão de mínimo quadrado de X1 pata X2 e Xg é repre-


sentado pela Equação (1), em que bt . 28, bD s e árg . 2 são determinados mediante
a resolução simultânea das equações normais.
402 Estatística Cap. 15

ít' ZX, = bt . zzN + be.32X2 + fu3.22X3


), »XtX, = \ yZX2 + bD.3»,X; + bt: .zLX2X3 (2)
I ZX2Xj = bt zt»X3 + bn .z»X2X3 + bB . 2»X?
Elas podem ser obtidas, formalmente, mediante multiplicação de ambos os
membros da Equação (1) por L,X2 eXg, sucessivamente, e a soma membro a membro
das expressões resultantes.

A não ser que haja especificação em contrário, quando se fizer referência


a uma equação de regressão, admitir-se-á que se trata de uma de mínimos qua-
drados.

Se 11 = Xt-Xt, x2 = X2 -Xz e xB = XB -Xr, u equação de regressão de X1


para X2 e X3 pode ser escrita mais simplesmente sob a forma
x1 = ht2. t 3Xz + bs. 24 (3)

em que btz. I e árg 2 são obtidos mediante a resolução simultânea das equações

I Lrr*, = bp . 3Zx] + b3 . 2Zx]


I Ix1x3 = bn tlx24 + bp.2Zx]
Estas equações, que são equivalentes às normais (2), podem ser obtidas
formalmente mediante a multiplicação de ambos os membros de (3) por x2 e x,B,
sucessivamente, e a soma membro a membro das expressões resultantes (veja o
Problema 6).

Planos de regressão e coeficientes de correlação


Se os coeÍicientes de correlação linear entre as variáveis X1 e X2, X1 e Xg, X2 e Xg,
calculadas no Capítulo 14, são representados, respectivamente, pot r12, r13, r23 (às
vezes denominados coeficientes de correlaçã.o de ordem zero), o plano de regressào
de mínimos quadrados tem para equação.

xr ( ,'r, - r13 r'23 ) x2 ( ,r, - r12 r23 ) r3


(s)
sr I r-r?, /\)
lrz I r-rr3: lr:
em que tct=Xl-Xt, x2= X2-X2, xB- Xg-X3, ê s1, s2 e sg são os desvios padrão de
Xt,Xz eXB, respectivamente (veja o Problema 7).
Note-se que, se não há a variável X3, e se Xt= Y e X2 = X, a Equação (5)
reduz-se à expressão (25) do Capítulo 14.
Cap. 15 Cotelaçã,o parcial e múltipla 403

Erro padrão da estimativa


Por meio de uma generalização evidente da Equação (B) do Capítulo 14, pode-se
definir o erro padrão da estimatiua de Xy por meio de X2 e X3 como

Xt )2
§1 23= "r, (6)

em que X1 est indica os valores estimados de X1, calculados por meio das equações
de regressão (1) ou (5).

Em função dos coeficientes de correlação rLz, rt1 e rzy, o erro padrão da


estimativa também pode ser calculado pela fórmula

t rlz - rlt - rl3 + 2rprt3r23


sr 2i=sr n I - ('7 )
Y l_rrr3
As interpretações amostrais do erro padrão da estimativa para duas variá-
veis, calculadas no Capítulo 14 para o caso de N ser grande, podem ser estendidas
a três dimensões, mediante a substituição das retas paralelas para a reta de
regressão por planos paralelos para o plano de regressão. Uma melhor estimativa
do erro padrào populacional é dada porâ, 2z = {N/iIü - 3)sr '23

O coeÍiciente de correlação mÚltipla

O coeficiente de correlação múltipla é definido por meio de uma extensão das


Equações (12) ou (14), do Capítu1o 14. No caso de duas variáveis independentes, por
exemplo, o coeficiente de correlação múltiplo é dado por

-2 .
Rt.23= 1--,rl 2.1
(8)
§i1
§1-

em que s1 é o desvio padrão da variável X1 e s1. 23 é dado pelas expressões (6) ou


(7). A quantidade .R12 23 é denominada coeficiente de determinaçã.o múltipla.
Estatística Cap. 15

Quando for usada uma equação de regressão linear, o coeficiente de corre-


laçãomúltipla será denominado coeficiente de correlação linear múltipla. Amenos
que haja especiÍicação em contrário, quando houver referência à correlação múltipla
tratar-se-á de uma linear.
Em função de r12, rtz e r2g, (8) pode-se escrever também

Rr z:=\@
y | - rzt
(e)

Um coeficiente de correlação múItipla, como .R1 23, está compreendido


entre 0 e 1. Quanto mais próximo de 1, mais bem deÍinida será a relação linear entre
as variáveis. Quanto mais próximo de 0, menos acentuada ela será. Se o coeficiente
de correlação múltipla for igual a 1, a correlação será denominad a perfeita. Embora
um coeficiente de correlação nulo indique que não há nenhuma relação linear entre
as variáveis, é possível que haja uma nã,o-linear.

Substituição da variável dependente


Os resultados anteriores prevalecem quando X1 é considerado como variável depen-
dente. Entretanto, se se desejasse considerar X3, por exemplo, como variável
dependente, em vez de X1, ter-se-ia apenas de substituir os índices 1 por 3 e 3 por
1, nas fórmulas anteriormente obtidas.

Por exemplo, a equação de regressão de X3 para Xy e X2, sería


.r3 ( ,r, - r1j r12 ) ,r2 ( ,tt - r2j r12 ) x1
l-l r I Tí r (10)
''3 ,-,'í,
[ ,-,Í,
I

[ )', )',
obtidas da Equação (5), usando os resultados r32 = r2g; r1t = rr1; r2t - rt2.

Generalizações para mais de três variáveis


São obtidas por analogia com os resultados anteriores. Por exemplo, a equação de
regressão linear de X1 para Xz, Xs e Xa pode ser escrita sob a forma

Xt = bt . 234 + bn.z+X2+ bp.z+ Xz + btq.zt Xq, (11)

e representa um hiperplano em um espaço quadridimensional. Por meio da multi-


plicação formal de ambos os membros da Equação (11) por 1, Xz,Xg eX4, sucessi-
Cap. 15 Cotelaçdo parcial e múltipla 405

vamente, para a determinação de ó1 . %4; bn 84; btg. 24e bt4. 28 Que, substituídos
em (11), dá a equaçõ,o de regressã.o de mínimos quadrados d,e X1 para X2, X3 e Xa.
Ela pode ser escrita sob forma semelhante à da Equação (5) (veja o Problema 33).

Correlação parcial
É importante, freqüentemente, medir a correlação entre uma variável dependente
e uma independente particular, quando todas as outras implicadas se conservam
constantes, isto é, quando se removem os efeitos de todas as outras variáveis
(situação freqüentemente enunciada pela frase: "todas as outras coisas sendo
iguais"). Isso pode ser obtido pela deÍinição de um coeficiente de correlação parcial,
como o da Equação (12), do Capítulo 14, exceto que se devem considerar as variações
explicadas e não-explicadas que surgem, tanto com a particular variável inde-
pendente como sem ela.
Representando-se rL2. a o coeficiente de correlação parcial entre Xy e X2,
conservando-se X3 constante, verifica-se que:
rt2- rBr23
'f - J -
(12)
\(l-r13t(l
-l
-
)
-,'2zt)
De modo semelhante, se r12.g4 é o coeficiente de correlação parcial entre
X1 e X2, conservando-se Xg e X4 constantes, então:
rD.4 - rn.4123.4 r12.3 - r11.3124.3
( 13)
e -r1+ 3)(t - 1L+.2)

Esses resultados são úteis porque, por meio deles, qualquer coeficiente de
correlação parcial pode ser, finalmente representado em termos dos valores de r12,
r2B etc. (isto é, d.os coeficientes de correlaçõ,o de ordem zero).

No caso de duas variáveis, X e Y, quando as duas retas de regressão têm


equações Y = cL1 + a1X e X = bo + byY,viu-se qr.e .2 = atbt(veja o Problema 15, do
Capítulo 14). Esse resultado pode ser generalizado. Por exemplo, se
Xt = bt . 234 + btz. tq X2 + bp. zqXZ + bs 4X4 (14)

eX4 = bq .nz + bqt .zzXt + h+2.tzX2 + ba3 nX3 (15)

são as equações de regressão linear de X1 para X2, XB, Xa e de X4pata X1, X2 e Xg,
respectivamente, então

r?+ .zz - bA nb4t 23 ( 16)


406 Estatística Cap. 15

(veja o Problema 15). Isso pode ser tomado como ponto de partida para uma definição
de coeficientes lineares de correlação parcial.

Relações entre os coeficientes de correlação múltipla e


parcial
Podem ser encontrados resultados interessantes que associem os coeÍicientes de
correlação múltipla aos vários coeficientes de correlaçáo parcial. Por exemplo,
determinam-se

r-R? n=(t-r?)Q-rh ) G7)

t_ R?.234=(l_ r2tz)Q-rL z)(1-r?+.zt) (18)

As generalizações desses resultados podem ser facilmente obtidas.

Regressão múltipla não-linear


Os resultados anteriores, referentes à regressão múltipla linear, podem ser esten-
didos à não-1inear. Podem, então, ser definidos coeficientes de correlação múItipla
e parcial por meio de métodos semelhantes aos anteriormente expostos.

PROBLEMAS RESOLVIDOS

Equações de regressão que envolvem três variáveis


1. A Tabela 15.1 mostra 12 observações das variáveis X1, X2, e Xs.
(o) Determinar a equação de regressão de mínimos quadrados de X1 para X2
e Xz.
(b) Determinar os valores de X1 avaliados a partir dos valores dados de X2 e
X3.
(c) Determinar o valor de X1 para Xz = 54 e X3 = $.
Cap. 15 Correlaçõ.o parcial e múltipla 407

Tabela 15.1

(xr) 64 11 53 61 55 58 51 56 51 76 68

(xz) 51 59 49 62 51 50 55 48 52 42 6l 51

(x:) 8 10 6 11 8 7 10 9 10 6 l2 9

Solução
(o) A equação de regressão linear de x1 para x2 e x3 pode ser escrita sob a
forma
Xt = bt .zz + bo.lXz + bn'zXz
As equações normais de mínimos quadrados são
í sv- 4 ztN + b12 ' 3ZX2 + b3 ' 2LX3
(l)],xtxz- bt.zzLX2+ bn.3»x? + bn'z»x2x3
|t' »X' X, = bt zz»X3 + bo.tLX2X3 + bB. 2»,X?
As operações necessárias para o cálculo das somas podem ser dispostas
como na Tabela 15.2. Embora a coluna encabeçad.a por Xl não seja presentemente
necessária, ela foi acrescentadapara emprego futuro.

Tabela 15.2

X1 X2 X3 X? xz2 X? xtXz xrxt xzXz

64 51 8 4096 3249 64 3648 512 456


1t 59 10 5041 348 1 100 4t89 1t0 590
53 49 6 2809 240t 36 2591 318 294
67 62 1i 4489 3844 t2l 4t54 737 682
55 5l 8 3025 260t 64 2805 440 408
58 507 3364 2500 49 29AO 406 350
a-
55 10 5929 3025 100 4235 770 550
51 48 9 3249 2304 81 2736 513 432
56 52 10 3t36 2704 100 2912 560 520
51 42 6 2601 t7 64 36 2t42 306 252
76 61 t2 577 6 3121 r44 4636 912 732
57 9 4624 3249 R1 3876 6t2
IX1 = LXz- \x3= ü?= ü]= ü?= 2X1 X2= I.X1X3= ZX2X3=
753 643 106 48r39 34.843 976 40830 6',796 5'.779
408 Estatística Cap. 15

Usando a Tabela 15.2, as equações normais (1) tornam-se:

It' tz4.4a 643fu2.3a to6hp.2= :.53


Q)1643bt.zt+ 34843bp.3+ 5779b3 2= 40830
| 106b1 . y + 5179b12. 3 + 976bs. 2 = 6796
Resolvendo-as,ó1 .zB = 3,6512, bt2. g = 0,8546 , bLB.2 1,5063,eaequa-
ção de regressão desejada é
(3) Xt = 3,6512 + 0,8546X2 + 1,5063X3 ou X1 - 3,65 + 0,855X2 + 1,506X3

Como referência a outro método que evita a resolução das equações simul-
tâneas, veja o Problema 4.
(á) Por meio da equação de regressão (3), obtém-se os valores estimados de X1,
designados porXl mediante a substituição dos valores correspondentes
""1,
de X2 eX3. Por exemplo, fazendo-se em (3), Xz = 57 ê X3 = 8, determina-se
Xt est = 64,4L4'
De modo semelhante obtém-se os outros valores estimados deXl que estão
relacionados na Tabela 15.3, juntamente com os valores amostrais de X1.

Tabela 15.3

X1"., 54.414 59,13( 54.564 73.206 59,28( 56,92: 55,117 i8.229 53,153 48.582 73.851 55,92C

X1 64 71 53 67 55 58 77 57 56 51 76 68

(c) Fazendo-se, em (3), XZ = 54 e XZ = 9, o valor estimado é Xt est = 63,356 ou,


aproximadamente, 63.

2. Calcular os desvios padrões (o) s1; @) s2 e (c) s3, para os dados do Problema 1.

Solução
(o) A quantidade s1 é o desvio padrão d.a variável X1. Então, usando-se a
Tabela 15.2 do Problema 1(o), determinam-se, pelos métodos do Capí-
tulo 4.
Cap. 15 Correlaçõ.o parcial e múltipla 409

',=! #-1Nr"J) =^,y *rrm -[#]


nol;' f ruuf
f
=

= 8,6035 ou 8,6

(b)",=!-tf'-[,
1,";
)=
I ,n*, (un \'
^y'-i#-IHJ =

= 5,6930 ou 5,7

s3=!»-];'-[ft"rf s76 ítt roo )2


(c)
,r= t2-[rr.,J
= 1,8181 ou 1,8

3. Calcular: (a) rn; (ó) rrs e (c) r2g, para os dados do Problema 1.

Solução
(o) A quantidade r12 é o coeficiente de correlação linear entre as variáveis X1
e X2, e sendo ignorada a variável Xg. Então, pelos métodos do Capítulo 14,
tem-se

t'l zxtxz - Axn @x»


rr2 =t/
tl,r:x12 _ (xx1)21 lN»x22 _ exz)z)
(12) (40830) - (753) (643)

r/ (rzl (4818e) - (758)21 I(12) (84844) - (648)21

= 0,8196 ou 0,82
(á), (c). Usando-se as fórmulas correspondentes, obtém-se r1g = 0,7698 ou 0,77
Q r2g = 0,7984 ou 0,80'

4. Resolver o Problema 1(o), usando as EquaçOes (5) e os resultados dos Pro-


blemas (2) e (3).
410 Estatística Cap. 15

Solução
A equação de regressão de X1 para X2 e Xg é, multiplicando-se ambos os membros
da Equação (5), por s1
.1,,
(r) xy = ('tz- t] +( -
rtt'zt'lI
*2
rtt rt2::l1.',
I l-,Í, )\'z) l. t-,h .,J Ir:J
em que xt = Xt -Xl, x2 = X2 -Xz, xg = Xs -Xt. Usando os resultados dos Problemas
2 e 3, a Equação (1) torna-se
.rr = 0,8546x2+ 1.5063x3

ComoX, =
# =E = 62,750,Xr=*= 5B,58B,Xs = 8,888 (da Tabela
15.2 do Problema 1), a equação desejada pode ser escrita sob a forma

Xt - 62,7 50 = 0,8546(Xz- 53,583) + 1,506(X3 - 8,833),

que concorda com o resultado do Problema I(a).

5. Para os dados do Problema 1, determinar (o) o acréscimo médio em X1 por


unidade de aumento em X2, sendo constante Xs; $) o acréscimo médio em X1
por unidade de aumento em X3, sendo constante X2.

Solução
Na equação de regressão, obtida nos Problemas 1(o) ou 4, vê-se que a resposta para
@) é0,8546 ou, aproximadamente,0,9 e para (ó) é 1,5063, ou cerca de 1,5.

6. Mostrar que as Equações (3) e (a) provêm das expressões (1) e (2) deste capítulo.

Solução
Na primeira das Equações (2) obtém-se, mêdiante a divisão de ambos os membros porN.
(l) Xt = br.23 + bn tXz * brt zXt.
Subtraindo-se esta equação da (1) obtém-se:

(2) Xr-Xr= bn t6z-Xz)+ bn z\Xz-Vz) ou x1 = b12.3x2* bs.2r2,


queéaEquação(3).
Cap. 15 Correlação parcial e múltipla 411

Sejam Xt = xt + X1,X2 = x2 + Xz,Xs = xg + X3,nâssegundaeterceira


Equações (2). Então, depois de algumas simplificações algébricas,levando em conta
os resultados Xr1 - 2x2 - L4 = 0 , elas tornam-se

(3) Irl xz= brz 3:.r22 +brt zLx24+N X2lbt zt+ brz tXzlbt3.2X3-Xtl

(4) xx1 13 = b12.32x24+btz.zZx]+Nx2lhr.zz+brz t?z[btt zXt_ Xl


que se reduzem às Equações (4), porque as quantidades entre colchetes, do segundo
membro de (3) e (4), são nulas, por causa da Equação (1).

7. Deduzir a Equação (5).


xr ( rtz - rrcrzz.]xz ( rn - r2r123\x,
,1=l L-r&s l"r*l r-rh l',
\''"r('")
Solução:
Pelas Equações (3) e (4) do Problema 6
(
,r, ) op tz*i + bs.22x24 = )qxz
"' A,r 3lr2x3 + h3 2Zx] = Lrrrl
I
como rr' ='4e
# sf = L x22 = Ns22 e z xsz = 1çrr2 .

como ,r, = ):2:L- -


z x2 x3
' zx2xs -
= N;; Nsz sBr2B'

De modo semelhante,Zxlx2 - Nsr s2rt2 e Exyx3 - Nsrsgrlg.


Substituindo em (1) e simpliÍicando, determinam-se:
(
,rr)bn.ttz -^rí;1raí;?,
+ bn.zs3r23= str12
I hr, 3 s2r23 * bB . z st §1 r13

Resolvendo as Equações (2) simultaneamente


''t2 - t'13r23)
'-. - llír, )^ . 2 = ( rr, - rtzr23)
'-, íff )
btz..t' = |l.''- t-r21 le b1r. | 'l t-,h ll ,,
.J lrr,l l. )\-/ I

Substituindo esses valores na equação xt = btz tz tíz + btdotps [Equaçào


(2) do Problema 6l e dividindo por s1, obtém-se o resultado desejado.
412 Estatística Cap. 15

Erro padrão da estimativa


8. Calcular o erro padrão da estimativa de X1 por meio de x2 e x3, para os dados
do Problema 1.

Solução:
Na Tabela 15.3, do Problema 1(ó), tem-se

(64 - 64,4t4)2 + (7t - 69,136)2 + + (68 - 6s,g2U2

= 4,6447 ou 4,6.

O erro padrão populacional da estimativa é calculado por

st.23 = íNlOr- ) st .23 = 5,3, neste caso.

CoeÍiciente de correlação múltipla


9. Calcular o coeficiente de correlação linear múltipla de X1 parax2 e xs, para
os dados do Problema 1.

Solução
Primeiro método: De acordo com os resultados dos Problemas 2@) e 8 tem-se

Rt.23= , - g,a++t 12
' (81035 É
Segundo método: De acordo com os resultados do Problema B.
Cap. 15 Conelaçã.o parcial e múltipla 413

Rt.23= - ZrtZr13r23

(0,s196) 2 + (0,769812 - Z1O,StO6) (0,7698) (0,7984)


= 0.8418.
1 - (0,7984)2

Note-se que o coeficiente de correlação múltipla Rt . zs é maior do que


qualquer dos coefrcientes r12 ou 113 (veja o Problema 3). Isso é sempre verdadeiro e
é um fato a ser esperado porque se tomam em consideração variáveis independentes
adicionais importantes, que podem conduzir a uma relação mais bem definida entre
as variáveis.

10. Calcular o coeficientede determinação múltipla de X1 por meio de X2 e de Xs,


para os dados do Problema 1.

Solução
O coeficiente de determinação múltipla de X1 por meio de X2 e de X3 é

R? zs = (0,8418)2 = 0,7086,
utilizando o resultado do Problema 9. Em conseqüência, cerca d.eTLVo da variação
total de X1 são explicados pelo emprego da equação de regressão.

11. Calcular (a) R2 13 e (ó) Re . tz, para os dados do Problema 1, e compará-Ios


com o valor de Rt . zs.

Solução

- ZrLZrtyr2g
(a) R2. 1s =

(0,8196) 2+ (0,7984) 2 2(0,8196) (0,7698) (0,7984)


- = 0,8606
1- (0,7698)2
414 Estatística Cap. 15

qo
rlB+rZZ-Zr12r1Zr2B
(ó) ,Es t2 =
T
(0,7698)2 + (0,7984)2-2(0,8196) (0,7698) (0,7984)^ ^^
= 0,8234.

Este problema ilustra o fato de, em geral R2 . lB, Re De Rt zsnão serem


necessariamente iguais, como se vê pela comparação com o Problema g.
12. Se -81 28 = 7, provar que (o) Rz . n = L, (b) Rs . tz = l.

Solução

2rprp r23
(l)Rr.zr=

)) rn-
t'p* Zrnt'13r23
(2) R2.B=

(a) Fazendo, em (1),Rr . 2s= | e elevando ambos os membros ao quadrado,


r!2 + r?s- 2rrrrrzr21 = L - rlr. F;rrtáo,
1 a . ,lz+ 1221-2t'121'1jt't1
ri2 + ril-2rtzrtjr27= I -r'Éou ff = |

isto é, Rz2 n = 1 ou Rz.B = 1, porque o coeficiente de correlação múltipla é


considerado não-negativo.
(ó) Âs t2 = | decorre do item (o), mediante a troca dos índices 2 e 3, no
resultado Rz fi= l.
Cap. 15 Cotelaçã.o parcial e múltipla 415

13. Se ,81 . 28 = 0, conclui-se que, necessariamente, Rz B = 0?

Solução
Pela Equação (1) do Problema 12, R1 . 2s será' nulo se e somente se

,12 + r!3-2rnt"fi t'23= 0 ou 2rprpr23 = rlz + r?t.


Então, segundo a Equação (2) do Problema 12, tem-se

22 rta
Rz.te= =
r2B - o
1 - ris

que não é necessariamente nulo.

Correlação parcial
14. Calcular os coeficientes de correlação parcial linear (a) ru a; (ó) rts . z; k)
r2B r, para os dados do Problema 1.

Solução
rD - rBr23 rl3 - rnr23
it2 . 3 =,t.:::-:::::T-' . ; rs . 2 =
\ (l rr:)(l - - r23') {tr - ,?z)0 - rr2z)

r23 - rtzrn
'/\ ' !tl - riz)(l - r'Í:)
L-------------
'

Usando os resultados do Problema 3 determinam-sê r12 . s = 0,5334;


rta z = 0,3346; r2s . t= 0,4580.

15. SeXr - bt.zs + bn.zXz+btz.zXseXs=b3. t2 + bzz.tXz+bn.zXt


são as equações de regressão de X1 para X2 e Xg e de X3 para X2 e X1,
respectivamente, provar que r?r . r= bn . zb;;- . z.
416 Estatística Cap. 15

Solução
Aequação de regressão deXl paraX2eX3pode ser escrita sob a forma [veja a Equação
(5)t.
.}
il) xr - x, =f'tz-'t1'ztl f: 62 - x2y +
[ ' -'i, )\'z )

( ,'rJ - rt2rB ) í ,, \
+l ll_ l(1.j-xj).
[ .'-"''z J(.':/
Aequação de regressão deX3 paraX2 eX1 pode ser escrita sob a forma [veja
a Equação (10)1.
rryrnl
ot x3 - x, =frn.- l: I (xz -*z) +
[ '-'í' J[",/
--'71i"
.1

. (xr - Xr).
["',
( "i [:: ]
De acordo com as expressões (1) e (2), os coeficientes de X3 e X1 são,
respectivamente,

. z=l(rt1-rt2rzs)ísr'\
bn
rl} - r2\rl .J í'e )
- 2 ll^- Ieb1t.2=
I t-';' ,["3,/
o
L - r72 [" ]
Então, brc.zbs .z
( rre - rnrzy)2 rt1 2. = y2t z
=
(1 -r\ilG-,?z)
16. Se r12 . g = 0, Provar que

(a) rn

(b) rzs
Cap. 15 Correlaçdo parcial e múltipla 417

Solução
r12 rt\rz\
^
se r12 3 = ^m= - 0, tem-se rl2= rl3r23,
\(I-r13)(I-r2s)
rt} - rt2 r2g rr3 - (rrg rzz) rzg
(a) rts.2=
ffi= {tr - rlilG - rzze)

.)
r13\L - r23)
!tt - r1ilG - ríe)
(ó) Alternam-se os índices 1 e 2, no resultado do item (a).

Correlação múltipla e parcial com quatro ou mais variáveis


77. O exame de admissão em um colégio constou de três provas, matemática,
português e conhecimentos gerais. Para testar a capacidade do exame em
predizer o aproveitamento em um curso de estatística, foram reunidos e
analisados os dados referentes a uma amostra de 200 estudantes.
Designando-se por
Xt = o grau no curso de estatística,

X2 = o escore no teste de matemática,

XB = o escore no teste de português,

X4 = o escore no teste de conhecimentos gerais, obtiveram-se, os se-


guintes cáIculos
Xt = 75, sr = 10, XZ= 24, s2= 5,Xl= 5,XZ= 15, §3 = 3, Xq= 36, s4= 6,

rp = O,9O,rn=0,75, 114 = 0,80, ry=0,70,r24=0,70,12+=0,85.


Determinar a equação de regressão de mínimos quadrados deXlparaX2,Xg e X4.

Solução
Generalizando-se o resultado do Problema 6, pode-se escrever a equação de regres-
são de mínimos quadrados de X1 para Xz, Xa e X4 sob a forma
418 Estatística Cap. 15

(1) rr = bt1t . g4fr2 + bfi ZqilS + bu . ZBx4, emqlue b9 . 54, bt1 Z+e bU . zz
podem ser obtidos das equações normais

| »x1x2= b12 . 3a2x] + bn . z+Lx24 * bu . zzLx2r4


(2) ]t--rÍ1Í3 = brz.z+2x24-r bp.2azxl + bA zzL4x4
rxl xa = brz :l-Lx2x4 * bn z+24x4 * b1a yExl
I
em que xl = Xt -Xt, xZ = X2 -X2, xB - X3 -XS, *+ = Xq -X+ .

De acordo com os dados fornecidos, encontram-se

Zx22 = Ns22 = 5.000 zx1x2- Nsr s2rt2= 9.000 Zx2xs- Nsz sBr2B - 2.100
2x32 =Nsf = 1.800, xyx,g=Ns1s3rre = 4.500 Lx2x4-Nsz s4124= 4.200

Zxfr = Ns| =7.200»xtx4- Nsls4rr+ = 9.600 2x3x4=NsB s4ts4= 3.060


Levando esses resultados às Equações (2) e resolvendo-as, obtém-se
(3) bD 84 = 1,3333, árB 24 = 0,0000, bu . 28= 0,5556, que, substituídos
na expressão (1), conduzem à equação de regressão desejada.
(4') xt = 1,333312 + 0,000013 + 0,5556xa

ou X1 - 75 = 1,3333(Xz - 24) + 0,5556(X4 - 27)

ou Xr 22,9999 + 1,3333X2 + 0,5556Xa.

4
Uma solução exata do sistema (2) conduz a bB sa, --
ã
, bt} 24= 0e
5
bu.zz = g , de modo que a equação de regressão pode também SE r escrita sob a
forma

(5) Xr =23 +
45
,Xz+ ,X+'
É inte.essante notar que a equação de regressão não inclui o escore em
português, isto é, X3. Isso não significa que os conhecimentos de alguém em
português não tenham importância sobre o aproveitamento em estatística. Ao
contrário, isso significa que a necessidade de português, no que diz respeito à
previsão do grau de estatística, está amplamente evidenciada pelos escores alcan-
çados nos outros testes.
Cap. 15 Corcelaçd.o parcial e múltipla 419

18. Determinar os coeficientes de correlação parcial: (a) rn 84 (b) rs 2a e (c)


rtg . 22, para os dados do Problema 17.

Solução
rt2 - rt4r24 rtg * rL4rB4
h), (b) rtz . 4 = 'r73 4=
{ rt - r1+)G - rà+) r/tt-r?àÍ-rlq)
r24r34
t'23.4=ffir2B -
Introduzindo-se os valores do Problema 17, obtém-se
rt2 4 = 0,7935, rtl +=0,2215,r28. 4=0,2797. Então,
rtz. 4 - r1B. 4r2A 4
rt2.84=
1(1 - ris. +)(l- rí . +)
rt} 4-r12.
r].s.24= = = 0,0000
(1 -r"rz.à(l- rZs a,)

rt4 - rt\rS4 r\2 * rt\r2\


(c) r14 3 = 'rl2 3
{rr - r1%)(1 - r3+) =
{tr - r?ilG - rls)
r24
- -=0,7814e r2S rg4
''+ o-- !t1-ris)Í-rá+l
Introduzindo-se os valores do Problema 17, obtém-se
rt4 . s = 0,4664, rt2 . s = 0,7939, r24 . s= 0,2791.Então,

rt4.2B=#=0,4193
\(1 -r?.ilO-rZ s)

19. (a) Para os dados do Problema 17; mostrar que:

rt2.4 - rt}.4r2B.4 rL2.3 - r14.3124 3


,--,,
'-'{ii-r?e.+)(1 -r}z +)
-{rr-r7+ B)(1 -r7,+.2)
(ó) Explicar a significação da igualdade do item (o).
Estatística Cap. 15

Solução
h) O primeiro membro de (1) foi calculado no Problema 18(o), tendo-se obtido
o resultado 0,7874. Para calcular o segundo membro de (1), usam-se os
resultados do Problema 18(c) e obtém-se, ainda, 0,78L4. Dessa forma, a
igualdade prevalece neste caso especial. Pode ser demonstrado direta-
mente, por meio de processos algébricos, que a igualdade prevalece, de
modo geral.
(ó) O primeiro membro de (1) é rtz g4 e o segundo é rp 4. Como ry2 . 34é a
correlação entre as variáveis X1 e X2, quando Xg e Xa são mantidas
constantes enquanto rtz . 48é a correlação entre XyeX2quando X4 e são
mantidas constantes, é evidente, imediatamente, a razáo pela qual a
igualdade permanece válida.
20. Determinar (o) o coeÍiciente de correlação múltipla, Rt . 2B4e (ó) o erro padrão
da estimativa s1 . 2s4, para os dados do Problema 17.

Solução
(a') 7-R?.zsa,= (1- 1212)(l-r2LB.2 )(1- r? ze)ou.Br .284= 0,9310
como r12 = 0,90, de acordo com o Problema 17, ry4 . zs = 0,4193, de acordo com o
Problema 18(c), e

rn - rt2r23 75 - (0.90) (0.70)


,l\
-)- ! r tl - Érz)(t -,--v.JoJJ
- r5i ! il - (0.90)'l ll - (0.70)'l

Outro método -

A permutação entre os índ.ices 2 e 4, na primeira equação, conduz a 1 -.R 1 . ,rn =


= (1 - r?+) G - r?e . 4 ) (1 - r?2 . s+), ou.B1 . 284=0,9310, em que foram utilizados
diretamente os resultados do Problema 18(o).
(b) RL . 284 -;T .;r4;Tous1 284= sl
= ^tr
= 10{i - (0,9310f = 3,650.
Comparar com a Equação (8), referente ao coeficiente de correlação múl-
tipla.
Cap. 15 Cotelaçdo parcial e múltipla 421

PROBLEMAS SU PLEMENTARES

Equações de regressão que envolvem três variáveis


21. Escrever as equações normais correspondentes às equações de regressão de (o)
X2 pata X1 e Xs, (b) Xs pata Xy X2, Xg e X4.
22. A tabela apresenta os valores correspondentes de três variáveis X1, X2 e Xg.
(o) Determinar a equação de regressão de mínimos quadrados de X3 para X1 e
Xz. @) Estimar Xg paraXr = 10 e X2 = $.

X1 J 5 6 8 t2 t4
X2 l6 l0 7 4 3 2

Xj 90 72 54 42 30 t2

Resp. (a) Xs = 61,40 - 3,65 X1 + 2,54 Xz, (b) 40.

23. Um instrutor de matemática desejou determinar a relaçáo entre os graus de


um exame final e os de dois questionários realizados durante o semestre.
Designando-se porX1, X2e Xg os graus de um estudante no primeiro e segundo
questionários e no exame final, respectivamente, ele fez os seguintes cáIculos
para um total de 120 estudantes.

X = 6,8 X2= 1,0 X3= 74


.§1 = 1,0 s2 = 0,80 s3 = 9,0
r12 = 0,60 r13 = 0,70 r23 = 0'65

(o) Determinar a equação de regressão de mínimos quadrados de X3 para X1


e Xz.
(á) Estimar os graus finais de dois estudantes cujos escores foram, respecti-
vamente, I e 7,4e 8 nos dois questionários.
Resp.: (a)X3 - 74= 4,36(X1* 6,8) + 4,04(X2- 7,0),ou
Xs = 16,07 + 4,36Xy + 4,0ü(2; (á)8a e 66.
24. Resolver o Problema 6, mediante a escolha das uarid,ueis X2 e X3, de modo que
ZX2= r)(B = 0.
422 'Estatística Cap. 15

Erro padrão da estimativa


25. Determinar o erro padrão da estimativa deX3 por meio de X1 eX2, para os
dados do Problema 22.
Resp.: 3,12.

Coeficiente de correlação múltipla


26. Calcular o coeficiente de correlação múltipla linear de X3 em função de X1 e
X2, para os dados do Problema 22.
Resp.: 0,9927.
27. Se r12 = r1g = rZB= rÉ 1, mostrarque.Rl . 2A= R2. 91=EB rr=:+: .

Discutirocâsor=l. \1+r
28. Se,R1 .28=0, provarquelr23 l> lrpl e lr2gl> lr13 le interpretar.

Correlação parcial
29. Calcular os coeficientes de cor:relação parcial linear (a) rn s, (ó) rrz . 2 e (c) rzs . t,
para os dados do Problema22 e interpretar as respostas.

Resp.: (o) 0,5950; (ó) -0,8995; (c) 0,8727.


30. Resolver o Problema 29, com os dados do Problema 23.
Resp.: (a) 0,2672; (ó) 0,5099; (c) 0,4026.
31. Ser12 =r 13= r2Z=r+ l,mostrarquerl2 g=r1B . 2=r2S . t=rl(l+r).Discutir
OCaSOT=1.

32. Ser12.B = l,mostrarque(o) lr..e z I ; (ó) I rn. t | ; (c)Er zs=L; (d)sr.28 =0.
Cap. 15 Cotelaçdo parcial e ntúltipla 423

Correlação parcia! e múltipla que envolve quatro


ou mais variáveis
33. Mostrar que a equação de regressão de XaparaXl, X2 e Xg pode ser escrita sob
a forma
x4 í*r) l+azlí*r) l+a.tl-l'
írr)
--ayI
s4 ['' ,] ['r, ['3,
em que aL a2 e oB são determinados mediante a resolução simultaneamente das
equações

I or rrt * a2rt2 + a3rt3= rt4


\t--a1 r.1 + a2r2z + q3r2\ = rZ4
I

o, r:' + a2r32 + a3r3j= r34


I
e das quais xj = Xj,Xj ri: - l, j = l, 2, 3,4. Generalizar patao caso de mais de 4
variáveis.
34. Sáo dados: Xt = 20,X2 -- 36,X2 = 12,X+ = 80, s1 = 1,0, s2 = 2,0, s3 = 1,5, s4 =
6,0, r12 = - 0,20, rt} = 0,40, r2s = 0,50, rr4 = 0,40, r24 = 0,30, rB4 = - 0,10. (o)
Determinar a equação de regressão deXa paraX1,X2eXg. (ó) Estimar X4para
Xt=XZ=40eXZ=14.
Resp.: (a) X+ = 6Xr + 3X2 - D$ - 100; (b) 54.

35. Determinar(a)rq . 2s,(b)r42 . tBe(c)r+s . 12,pdra os dados do Problema 34


e interpretar os resultados.

Resp.: (o) 0,8710; (ó) 0,8587; k) -0,8426.


36. Determinar (a) R+ . t2Ze (ó) sa . t2B, para os dados do Problema 34.

Resp.: (a) 0,8947; (ó) 2,680.

37. Um cientista colecionou dados referentes a quatro variáveis T, U, V, e W.


Acreditou que poderia ser encontrada uma equaçã.o da forma W = aTb (J" Vd,
em que a, b, c e d são constantes'desconhecidas, por meio da qual se deter-
minaria V[ se fossem conhecidos T, U e V. Delinear, com clareza,wm processo
segundo o qual aquele intento possa ser realizado. lSugestão: Tomar os loga-
ritmos de ambos os membros da equação.l
h
,s5*9^
Capítulo
16

Análise das séries temporais

Séries temporais
Uma série temporal é um conjunto de observações tomadas em tempos deter-
minados, comumente em intervalos iguais.
Exemplos de séries temporais são a produção total anual de aço no Brasil,
durante um certo número de anos, o valor diário de fechamento de uma determinada
ação na Bolsa de Valores, as temperaturas horárias anunciadas pelo serviço meteo-
rológico de uma cidade e o total mensal das notas de venda de uma loja de depar-
tamentos.
Matematicamente, uma série temporal é definida pelos valores Y1, Y2, ...
de uma variável Y (temperatura, valor de fechamento de uma ação etc.), nos tempos
tt, t2, ... Portanto, Y é uma função de ú simbolízada por Y = F(t).

Representação gráÍica das séries temporais


Uma série temporal que envolve uma variável Y é representada, ilustrativamente,
por meio da construção de um gráfico dle Y em função de Í, como foi feito muitas
vezes em càpítulos anteriores. O gráfico da Figura 16.1 representa os valores de
uma série temporal relativa ao rebanho animal dos Estados Unidos, durante os anos
de 1870 a 1960.

424
Cap. 16 Aná,lise das séries temporais 425

100
90
80
at
E70
(D^
fi,H
v-c
uo
o=
9E 50

EE
CV
40
REBANHO ANIMAL
.=
z 30 dos ESTADOS UNIDOS
1870-1960
20
10
(Fonte: Ministério da Agricultura)

1 870 1 880 1 890 1900 1910 1920 1930 1940 1950 1960
Ano

Figura 16.1

Movimentos característicos das séries temporais


É interessante imaginar que o gráfico de uma série temporal, como representado
na Figura 16.1, é descrito porum ponto que se morre com o decorrer do tempo, de
alguma forma análogo à trajetória de uma partícula material que se desloca sob a
influência de forças físicas. Entretanto, o movimento pode ser provocado, em vez de
forças físicas, por uma combinação de forças econômicas, sociológicas, psicológicas
e outras.

Experiências realizadas com muitos exemplos de séries temporais revela-


ram certos mouimentos ou uariações características, alguns dos quais, ou todos,
estão presentes em graus diversos. A análise desses movimentos é de grande valor
em vários casos, um dos quais é o problema dapreuisão de movimentos futuros. Em
conseqüência, não deve constituir surpresa o fato de muitas indústrias e setores
governamentais estarem profundamente interessados nesse importante assunto.

GlassiÍicação dos movimentos das séries temporais


Os movimentos característicos das séries temporais podem ser classificados em
quatro tipos principais, freqüentemente denominados componentes de uma série
temporal:
426 Estatística Cap. 16

1. Os movimentos a longo prazo ou seculares referem-se à direção


geral, segundo a qual parece que o gráfico da série temporal se desenvolve, em um
longo intervalo de tempo. No gráfico da Figura 16.1, esse movimento secular, ou,
como é às vezes denominado,uariaçã,o ottendência secular, está indicado pela curua
de tendênclo, representada em linha tracejada. Para algumas séries temporais,
pode ser adequada uma reta de tendência. A determinação dessas retas e curvas de
tendências, pelo método dos mínimos quadrados, foi considerada no Capítulo 13.
Outros métodos serão examinados a seguir.
2. Os movimentos ou uariações cíclicas referem-se às oscilações a longo
prazo ou aos desvios em torno da reta ou da curva de tendência. Esses ciclos, como
são freqüentemente denominados, podem ser ou náo periódlcos, isto é, podem ou
não seguir exatamente padrões análogos, depois de intervalos de tempos iguais. Nas
atividades econômicas e comerciais, os movimentos somente são considerados
cíclicos quando ocorrem depois de intervalos de tempo superiores a um ano.
Exemplos importantes de movimentos cíclicos são os denominados clclos
de negócios, que representam intervalos de prosperidade, recesso, depressão e
recuperação.

Na Figura 16.1, os movimentos cíclicos em torno da curva de tendência sào


perfeitamente aparentes.
3. Movimentos ou uariações estacionais (ou sazonals) referem-se à pa-
drões idênticos, ou quase, que uma série temporal parece obedecer durante os
mesmos meses de anos sucessivos. Esses movimentos sáo resultantes de eventos
periódicos que ocorrem anualmente, como, por exemplo, o súbito aumento das
vendas de uma loja de departamentos, antes do Natal.
Na Figura 16.1 náo aparecem movimentos estacionais, porque, na obtenção
do gráfico, foram utilizados apenas dados anuais.

Embora os movimentos estacionais se refiram, geralmente, à periodicidade


anual dos negócios ou das teorias econômicas, as idéias neles implicadas podem ser
estendidas, para incluir a periodicidade relativa a qualquer intervalo de tempo,
como a diária, a horária, a semanal etc., conforme o tipo dos dados disponíveis.
4. Os movimentos irregulares ou aleatórios referem-se aos deslo-
camentos esporádicos das séries temporais, provocados por eventos casuais, como
enchentes, greves, eleições etc. Embora, ordinariamente, admita-se que esses even-
tos produzem variações somente durante curto período, é concebível que elas sejam
tão intensas que acarretem novos movimentos cíclicos ou de outra natureza.
Cap. 16 And.lise das séries temporais 427

Análise das séries temporais


A análise das séries temporais consiste em uma descrição (geralmente matemática)
dos movimentos componentes que se apresentam. Como exemplificação dos pro-
cessos implicados nessa descrição, considerem-se as
Figuras 16.2, que se referem a
uma série temporal ideal.
A Figura (o) representa o gráfico de uma reta de tendência a longo prazo
ou secular (poder-se-ia, também, ter usado uma curva de tendência). A Figura (ó)
apresenta essa linha de tendência a longo prazo com a superposição de um movi-
mento cíclico (considerado periódico). A Figura (c) mostra s superposição de um
movimento estacional ao gráfico da Figura (ó). Se fossem superpostos ao gráfico da
Figura (c) alguns movimentos aleatórios ou irregulares, o resultado apresentaria
maior semelhança com as séries temporais que ocorrem na prática.

t
(a) Tendência a Longo (b) Tendência a Longo Prazo e (c) Tendência a Longo Prazo,
Movimento Cíclico Movimentos Cíclicos e
Estacionais

Figura 16.2

As idéias apresentadas proporcionam uma técnica possível para a análise


das séries temporais. Admita-se que a variável Y da série temporal é um produto
das variáveis t C S e 1, que produzem, respectivamente, os movimentos de
tendência, cíclicos, estacionais e irregulares. Simbolicamente.
Y=TxCxSxl=TCSI. (1)

A análise das séries temporais consiste em uma investigação dos fatores


T,C, S e 1 e é freqüentemente classificada como a decomposição de uma série
temporal em seus movimentos componentes básicos.
Dever-se-ia mencionar que alguns estatísticos preferem considerar Y como
a soma T + C + S + ,I das variáveis básicas envolvidas. Embora seja admitida a
decomposição do tipo (1), nos métodos deste capítulo, dispõe-se de processos análo-
gos para o caso em que admite a soma. Na prática, a decisão acerca do método de
decomposição que deve ser admitido depende do grau de sucesso alcançado com a
aplicação da hipótese.
428 Estatística Cap. 16

Médias móveis. Alisamento das séries temporais


Dado um conjunto de números:
Y1, Y2, Y3, ... (2)

defi.ne-se uma média móuel de ordem N, a que é obtida pela seqüência das médias
aritméticas
Y1+ Y2+...+ Í,n7 Y2+ Y3 +...+ Í1u' * 1

NN
Y3+ Ya+...+ Y7'1 a2 (3)

As somas dos numeradores de (3) são denominados totais móveis de ordem N.

Exemplo 1. Dados os números 2, 6, 1, 5, 3,7 ,2, urna média móvel de ordem 3 será
dada pela seqüência
2+6+ 1 6+1+5 1+5+3 5+3+7
B'B'B'B
,+t , isto é, g,4,8,5, 4.

Costuma-se localizar cada número da média móvel em sua posição apro-


priada em relação aos dados originais. Neste exemplo, escrever-se-ia:
Dados originais 2,6, L,5,3,7,2
Médias móveis de ordem 3,3,4,3,5, 4

cada número da média móvel sendo a média dos 3 números imediatamente acima
dele.

Se os dados são fornecidos anualmente ou mensalmente, as médias móveis


de ordem N são denominadas, respectivamente, média móuel de N anos ou de N
nl.eses. Por consequinte, referimo-nos a médias móveis de 5 anos, de 12 meses etc.
É claro que pode ser usada qualquer outra unidade de tempo.
As médias móveis têm a propriedade de tenderem a reduzir o total da
variação que se apresenta em um conjunto de dados. No caso das séries temporais,
essa propriedade é freqüentemente usada para eliminar flutuações indesejáveis e
o processo é denominado alisamento das séries temporais.
Cap. 16 Anó.lise das séries temporais 429

Se nas expressões (3) forem usadas as médias aritméticas ponderadas,


sendo os pesos especificados antecipadamente, a seqüência resultante é denomina-
da média móuel ponderada de ordem N.
Exemplo 2. Se forem adotados, no exemplo 1, os pesos l, 4, l, a média móvel
ponderada de ordem 3 será dada pela seqüência:
1(2)+ (6)+ 1 (1) 1(6)+ 4(1)+ 1(5) 1(1)+ 4(5)+ 1(3)
t+++t ' l+4+1 ' l+4+l '

1(5)+4 (3)+ 1(7) t(3)+ 4(7)+ t(2)


l+++t ' l+4+l
ou 4,5, 2,5, 4,0, 4,0, 5,5.

Estimação da tendência
A estimação da tendência pode ser obtida de várias maneiras possíveis.
1. O método dos mínimos quadrados do Capítulo 13 pode ser usado para
determinar a equação de uma reta ou curva de tendência apropriada. Pode-se
calcular, por meio dessa equação os valores 7 da tendência.
2. O método a sentimento, que consiste no ajustamento de uma reta ou
curva de tendência, mediante a simples inspeção do gráfico, pode ser adotado para
a estimação de 7. Entretanto, ele apresenta a desvantagem evidente de depender
consideravelmente do critério individual.
3. O método das médias móveis. Mediante o emprego de médias móveis
de ordens apropriadas, podem ser eliminadas as variações cíclicas, estacionais e
irregulares, conservando-se, dessa forma, apenas o movimento de tendência.
Uma desvantagem desse método é que desaparecem os dados do começo e
do fim da série. Dessa forma, no Exemplo 1 parte-se de 7 números e, tomando-se
uma média móvel de ordem 3, chega-se a 5 números. Outra desvantagem é que as
médias móveis podem gerar movimentos cíclicos, ou de outra natureza, que não
existem nos dados originais. Uma terceira desvantagem é que as médias móveis sáo
fortemente afetadas pelos valores extremos. Para superar de certo modo essa
desvantagem, usa-se, às vezes, uma média móvel ponderada, com pesos apropria-
dos. Nesses casos, ao item central (ou itens) é atribuído o maior peso e aos valores
extremos os menores.
4. O método das semimédias consiste em separar os dados em duas
partes (de preferência iguais) e determinar a média de cada uma, obtendo-se, dessa
forma, dois pontos do gráfico d.as séries temporais. É desenhada, então, uma reta
Estatística Cap. 16

de tendência entre esses dois pontos e os valores da tendência podem ser deter-
minados. Os valores da tendência podem também ser determinados diretamente,
sem o emprego de um gráÍico (veja o Problema 5).
Embora este método seja de aplicação simples, ele pode conduzir a resul-
tados medíocres, quando usado indiscriminadamente. Também somente é aplicável
quando a tendência é linear ou aproximadamente linear, embora possa ser estendido
aos casos nos quais os dados são fragmentados em várias partes, em cada uma das
quais a tendência é linear.

Avaliação das variações estacionais. Indice de


estacionalidade
Para determinar o fator estacional, S, da Equação (1) deve-se estimar de que
maneira os dados de uma série temporal variam de mês a mês, através de um ano
típico. Um conjunto de números que mostre os valores relativos de uma variável
durante os meses do ano é denominado índice de estacionalidade da variável. Se,
por exemplo, se sabe que as vendas, durante os meses de janeiro, fevereiro, março
etc., foram 50,720,90, ... por cento da média mensal de todo o ano, os números 50,
120,90,... proporcionam um índice anual por estação e são, às vezes, designados
por números índices de estacionalidade. O índice médio por estação (a média)
correspondente ao ano todo seria de 700Vo, isto é, a soma dos números índices seria
1.2007o.

Dispõe-se de vários métodos para o cáIculo do índice de estacionalidade.


1. O método da percentagem média. Neste método, os dados de cada
mês são expressos em percentagens da média anual. As percentagens dos meses
correspondentes dos diferentes anos são balanceadas mediante o emprego de uma
média ou da mediana. Se for adotada a média, é melhor que se evitem os valores
extremos que possam ocorrer.
As 12 percentagens resultantes dão os índices de estacionalidade. Se sua
média não for de l00Vo (isto é, se a soma não for l.200Va), elas devem ser ajustadas,
mediante sua multiplicação por fatores convenientes.
2. Método da tendência ou relação percentual. Neste método, os dados
de cada mês são expressos em percentagens dos valores da tendência mensal. Uma
média adequada das percentagens dos meses correspondentes dá, então, o índice
desejado. Como no método 1, elas são ajustadas quando a média não for de 1007o.
Note-se que a divisão de cada valor mensal, Y, pelo correspondente da
tendência T,produz o valor YIT = C S 1da Equação (1). Amédia subseqüente dos
valores de Y lT produz os índices de estacionalidade que podem incluir variações
Cap. 16 Andlise das séries temporais 431

cíclicas e irregulares, especialmente quando elas são grandes. Esse fato pode
representar uma desvantagem importante deste método.
3. Método da média móvel percentual ou da relação entre as médias
móveis. Neste método, calcula-se uma média móvel de 12 meses. Como os resulta-
dos assim obtidos caem entre meses sucessivos, em vez de no meio de um deles,
como ocorre com os dados originais, calcula-se a média móvel de 2 meses daquela
de 12 meses. O resultado é freqüentemente denominado média móuel centrada de
72 meses.

Depois disso, os dados originais de cada mês são expressos em percen-


tagens da média móvel centrada de 12 meses correspondente. Calcula-se, então, a
média das percentagens dos meses correspondentes, que dá o índice desejado. Como
anteriormente, eles serão ajustados quando não apresentarem a média 1007o.
Note-se que o raciocínio lógico em que se baseia este método, provém da
Equação (1). Uma média móvel centrada de 72 meses dos valores de Y presta-se
para eliminar os movimentos estacionais e irregulares, S e I, e é, portanto, equiva-
lente aos valores dados por TC. Então, a divisão dos dados originais por TC produz
os valores de 51. As médias subseqüentes para os meses correspondentes prestam-se
para eliminar a irregularidade 1e, dessa forma, conduz a um índice S conveniente.
4. O método dos elos relativos. Neste método, os dados de cada mês são
expressos em percentagens nos dados do mês anterior. Essas percentagens são
denominadas elos relativos porque encadeiam cada mês ao precedente. Toma-se,
então, uma média adequada dos elos relativos, referentes aos meses corres-
pondentes.

Desses 12 elos relativos médios podem ser obtidas as percentagens relati-


vas de cada mês, referidas à de janeiro, que é considerada de l00%o. Depois disso
ter sido feito, verifica-se, usualmente, que o próximo janeiro tem uma percentagem
acumulada superior ou inferior a7007o, dependendo de ter havido, ou não, acréscimo
ou decréscimo da tendência. Ao empregar este método, as várias percentagens
obtidas podem, então, ser ajustadas para essa tendência. As percentagens finais,
ajustadas de modo a apresentarem a média de 1007o, proporcionam o índice esta-
cional desejado.

Desestacionalização dos dados


Se os dados mensais originais são divididos pelos índices estacionais corres-
pondentes, diz-se que os dados resultantes estáo desestacionalizados ou ajustados
à, uariaçõ.o estacional. Esses dados incluem ainda os movimentos de tendência,
cíclicos e irregulares.
432 Estatística Cap. 16

Estimação das variações cíclicas


Depois dos dados serem desestacionalizados, eles podem também ser ajustados à
tendência, mediante sua simples divisão pelos valores de tendência corres-
pondentes. De acordo com a Equação (1), o processo de ajustamento à variação por
estação e à tendência correspondem à divisão de Ypara S 7, o que dá C 1, isto é, as
variações cíclicas e irregulares. Uma média móve1 apropriada, da duração de uns
poucos meses (3, 5 ou 7 meses, por exemplo, de modo que a centralizaçáo subseqüen-
te não seja necessária) serve, então, para atenuar as variações irregulares 1 e deixar
apenas as cíclicas. IJma vez isoladas, elas podem ser estudadas detalhadamente. Se
ocorrer a periodicidade (ou a periodicidade aproximada) dos ciclos, podem ser
idealizados índices cíclicos, de modo muito semelhante ao dos índices de estaciona-
Iidade.

Estimação das variações irregulares ou aleatórias


A estimação das variações irregulares ou aleatórias pode ser realizada mediante o
ajustamento dos dados às variações de tendência, estacionais e cíclicas. Isso importa
em dividir os dados originais Y por 4 S e C, o que, de acordo com a Equação (1),
produz 1. Na prática verifica-se que os movimentos irregulares tendem a ser de
pequena amplitude e que eles, freqüentemente, tendem a seguir o padrão de uma
distribuição normal, isto é, aquela na qual os pequenos desvios ocorrem com grande
freqüência e os grandes com freqüência pequena.

Comparabilidade dos dados


Deve-se, sempre, ser cuidadoso na comparação dos dados, quando essa providência
é justificada.
Por exemplo, ao comparar os dados de março com os de fevereird, deve-se
recordar que março tem 31 dias, enquanto fevereiro tem 28 ou 29 dias. De modo
semelhante, ao comparar os meses de fevereiro de anos diferentes, deve-se lembrar
que, nos anos bissextos, fevereiro tem 29 em vez de 28 dias. Os números de dias de
trabalho de vários meses do mesmo ano, ou de anos diferentes, podem, também, ser
diferentes por causa de férias, greves licenças etc.
Na prática, nenhuma regra deÍinida é seguida para efetuar os ajustamen-
tos devidos a essas variações. Anecessidade desse ajustamento é deixada ao arbítrio
do investigador.
Cap. 16 Andlise das séries temporais 433

Previsão
As idéias apresentadas podem ser usadas como auxílio no importante problema da
preuisã,o de séries temporais. Entretanto, deve-se compreender que o tratamento
matemático dos dados não resolve, isoladamente, todos os problemas. Conjugada ao
bom senso, à experiência, à habilidade e ao bom julgamento do investigador, essa
análise matemática pode, não obstante, ser valiosa para a previsão tanto a longo
como a curto prazo.

Sumário das etapas Íundamentais


na análise das séries temporais
1. Coletar os dados das séries temporais, fazendo todo o esforço para assegurar
que os dados são fidedignos. Na coleta dos dados deve-se ter sempre em mente
a finalidade eventual da análise das séries temporais. Por exemplo, se se deseja
preuer uma certa série temporal, pode ser conyeniente a obtenção de séries
temporais correlatas, bem como outras informações. Se for necessário, ajus-
tam-se os dados para comparaçã.o, isto é, ajustam-se os anos bissextos etc.
2. Representar graficamente a série temporal, assinalando-se qualitativamente
a presença da tendência a longo prazo e as variações cíclicas e por estações.
3. Construir a curva ou a reta de tendência a longo prazo e obter valores
adequados da tendência, mediante o emprego de um dos métodos, dos mínimos
quadrados, a sentimento, das médias móveis ou das semimédias.
4. Se há variações estacionais, obter os índices de estacionalidade e ajustar os
dados àquelas variações, isto é, desestacionalízar os dados.

5. Ajustar os dados desestacionalizados à tendência. Os dados resultantes contêm


(teoricamente) apenas as variações cíclicas e irregulares. Uma média móvel de
3, 5 ou 7 meses serve para remorrer as variações irregulares e revelar as
cíclicas.
b. Representar graficamente as variações cíclicas obtidas na etapa 5, anotando
quaisquer periodicidades (ou periodicidades aproximadas) que possam ocorrer.
7. Mediante a combinação dos resultados das etapas de 1 a 6, e utilizando
qualquer outra informação disponível, fazer uma previsão (se for desejada) e,
se possível, discutir as fontes de erro e a grand.eza deste.
434 Estatística Cap. 16

PROBLEMAS RESOLVIDOS

Movimentos característicos das séries temporais


1. A que movimento característico de uma série temporal está principalmente
associada cada uma das seguintes ocorrências?
(o) Um incêndio em uma fâbrica, atrasando a produção em 3 semanas.
Resp.'. irregular.

(b) Uma era de prosperidade.


Resp.: cíclica.
(c) Uma venda posterior à Páscoa, em uma loja de departamentos.

Resp.: estacional.
(d) A necessidade de aumentar a produção de trigo devido ao acréscimo
constante da população.
Resp.: a longo prazo.
(e) Número mensal de cm da precipitação da chuva, em uma cidade, durante
um período de 5 anos.
Resp.: estacional.

Médias móveis
2. Para os dados da Tabela 16.1, construir uma (o) média móvel de 5 anos; (ó)
média móvel de 4 anos; (c) média móve1 centrada de 4 anos'

Tabela 16.1

Anos 1968 t969 t910 t97 I 1912 r913 191 4 r91 5 t9'7 6 1917 t918

Varidvel 50,0 36,5 43,0 44,5 38,9 38.1 32.6 3 8,7 41,'l 41,t 33,8
Cap. 16 And.lise das séries temporais 435

Solução
(a) Recorra-se à Tabela 16.2.

o primeiro total móvel ,2t2,9, da coluna B é a soma da 1a até a 5a casa da


coluna 2. o segundo total móvel, 201, é a soma da2" até a 6a casa da coluna 2 etc.
Na prática, depois de obter-se o primeiro total móvel ,212,9 o segundo será
facilmente obtido mediante a subtração de 50 (14 casa da coluna 2) e a soma de 88,1
(64 casa da coluna 2), obtendo-se o resultado 201. Os totais móveis sucessivos sào
obtidos de modo semelhante.

Tabela 16.2

Anos Dados Total móvel Média móvel


de 5 anos de 5 anos

1968 50,0
t969 36,5
tgt0 43,0 2t2,9 42,6
191 1 44,5 201,0 40,2
t972 38,9 t91,1 39,4
1973 38,1 t92,8 39,6
t91 4 32,6 190,0 38,0
191 5 38,7 192,2 38,4
197 6 4t,1 181.9 37,6
t917 4t,t
tgt8 33.8

Dividindo-se cada total móvel por 5, obtém-sc a média móvel desejada.


(ó) Recorra-se à Tabela 16.3.

Os totais móveis de 4 anos são obtidos como no item (o), exceto que são
somadas 4 casas da coluna 2, em vez de 5. Note-se que os totais móveis estão
centrados entre os anos sucessivos de modo diferente ao do item (o). Este será
sempre o caso quando um número par de anos for tomado para a média móvel.
Considerando-se que 1969, por exemplo, começa em 1e de julho, o primeiro total
móvel de 4 anos é centrado em 1e dejaneiro de 1970 ou em 31 de dezembro de 19Gg,
436 Estatística Cap. 16

Tabela 16.3

Anos Dqdos Totql móvel Médiq móvel


de 4 anos de 4 anos

1968 50,0
t969 36,5
114,0 43,5

t970 43,0

162,9 40.1

197 I 44,5

164,5 4l I

r972 38,9
t54,1 38,s
1913 3 8,1

148,3 31 1

191 4 32,6
15 1,1 31,8

197 5 38,1
154,1 38,5
1916 41,7

155,3 3 8.8

1977 4l,l
t918 33,8

As médias móveis de 4 anos são obtidas, dividindo-se os totais móveis de 4


anos por 4.
(c) Primeiro método: Veja a Tabela 16.4

Calcula-se, primeiramente, a média móvel de 4 anos, como no item (á).


foi demonstrado.
Esses valores estão centrados entre anos sucessivos, como

Se, agora, se calcular o total móve1 de 2 anos das médias móveis de 4 anos,
os resultados estarão centrados nos anos desejados.
Cap. 16 And.lise das séries temporais 437

Dividindo-se os resultados da coluna 4por 2, obtém-se as desejadas médias


móveis centradas de 4 anos.
Segundo método: Veja a Tabela 16.5
Calcula-se primeiramente, um total móvel de 4 anos, como no item (á).
foi demonstrado.
Esses valores estão centrados entre anos sucessivos, como

Se, agora, se calcular um total móvel de 2 anos dos totais móveis de 4 anos,
os resultados estarão centrados nos anos desejados.

Tabela 16.4

Anos Dados Média móvel Total móvel Médiu móvel


de 4 snos de 2 anos centrada de
da coluna 3 4 anos
(col. 4 + 2)

1968 50,0
1969 36,5
43,5
1970 43,0 84.2 42
40,1
191 I 44,5 8l 8 40,9
41 ,1

1972 38,9 79,6 39,8


3 8,5
1913 38,1 15,6 37,8
197 4 32,6 14.9 175
31,8
r97 5 38,1 '76 J 38,2
3 8,5
t91 6 41,7 77 J 38.7
3 8,6
t911 41,1
1918 11 R

Dividindo-se os resultados da coluna 4 por 8 (col. 2 x 4), obtém-se a média


móvel desejada.
438 Estatística Cap. 16

Tabela 16.5

Anos Dudos Total móvel Total móvel Médiq móvel


de 4 anos de 2 anos centrada de
da coluna 3 4 anos
(col.4 + 8)

1968 50,0
t969 36,5
t74,0
1910 43,0 336,9 42,1
162,9
191 I 44,5 321,4 40,9
164,5
t912 38,9 318,6 39,8
154,1
1973 38,1 302,4 37,8
r48,3
197 4 7)6 )qa 4 31,4
151,1
197 5 38,7 305 2 38,2
154,1
1916 41,1 309.4 38.7
155,3
r977 4l,t
1918 33.8

3. Mostrar que a média móvel centrada de 4 anos do Problema2(c) é equivalente


a uma média móvel ponderada de 5 anos, com os pesos 1,2,2,2, 1, respectiva-
mente.

Solução
Sejam YbY2,...,Ytt os valores correspondentes aos anos 1968, 1969,..., 1978,
respectivamente. Então, procedendo-se como no segundo método do Problema2(c),
obtém-se a Tabela 16.6.
Cap. 16 Andlise das séries temporais 439

De acordo com a úItima coluna, segue-se que a média móvel centrada de 4


anos é a ponderada de 5 anos com os pesos respectivos iguais a 7,2,2, 2, l. Note-se
que 8 é a soma desses pesos, isto é, 1 + 2 + 2 + 2 + I = 8.

Tabela 16.6

Anos Y Total móvel Total móvel Média móvel


de 4 anos de 2 anos centrada de
da coluna 3 4 unos (col.4 + 8)

1968 Y1

1969 Y2

Y1+Y2+Y3+Ya

r910 Y1+2Y2+2Y1+2Ya+Y5 * 2Y2+2Y3+2Ya+Y5\


Y3
f,r,
Y2+Y3+Y4+Y5

t91 t Ya Y2+2Y3+ZYq+2Y5+2Y6
I fr, * 2Y3 + 2Ya + 2Y5 + Y6)
Y3+Ya+Y5+Y6

t912 Y5 Y3+2Ya+2Y5+2Y6+Y7
I tr, * 2Ya+ 2Y5 + 2Y6 + Y7)
Y4+Y5+Y6+Y7
t913 Y6

t978 Ytt

Esse método pode ser usado para obter os resultados do Problema 2(c). Por
exemplo, a primeira casa (correspondente a 1970) é:
(1) (50) + (2) (36.5) + Q) @3) + (2) (44,5) + (1) (38,9)
= 42,1

4. Representar graficamente a média móvel do Problema 2(a), juntamente com


os dados originais.
440 Estatística Cap. 16

Solução
O gráfico dos dados originais está representado na Figura 16.3, por meio de uma
Iinha cheia. O da média móvel está representado pela linha tracejada.

360
o
o
P,
'F(Ú
so
CE

-C
+o
oo
r(§ P

o330
I
o-

(x)C'roN(f)SIr)(Or\@
(o (c| N N l'- l'-
ó o) o) o) o, o) F-
o) I'-
o) l'=
o) F*
o) l]-
o)

Ano

Figura 16.3

Note-se como a média móvel suavizou o gráfico dos dados originais, indi-
cando claramente a linha de tendência.
Uma desvantagem da média móvel é que são perdidos os dados do início e
dofim da série temporal. Isso pode ser sério, quando a quantidade de dados não for
muito grande.

Estimação da tendência
5. Obter os valores da tendência, para os dados do Problema 2, emptegando o
método das semi-médias, em que os valores médios adotados forem (a) a média,
(ô) a mediana.
Cap. 16 Andlise das séries temporais 441

Tahela 16.7

1968 50,2 191 4 32,6


t969 36,5 191 5 38,7
t970 43,0 1976 41,7

t91 1 44,5 1911 4t,t


t972 38,9 1978 33,8
Total
Média = 212,915 Média = 187,915
= 42,6 = 37,6
(correspondente a 1970) (correspondenÍe a 197 6)

(o) Distribuem-se os dados em duas partes iguais (omitido o ano médio, de


1973), como está indicado. Calcula-se a média dos dados de cada parte.
De acordo com os resultados obtidos, conclui-se que, em 6 anos (de 1970 a
L976), houve :urn decréscimo de 5,0 (42,6 - 37 ,6), ou de 5/6 = 0,83.

Desse conhecimento podem ser calculados os valores da tendência. Dessa


forma, os valores da tendência, em 1971 e em 7972 são, respectivamente, 42,6 - 0,88 =
= 41,8 e 42,6 - 2 (0,83) = 40,9 etc., como está indicado na Tabela 16.8.

Tabela 16.8

Anos 1968 1969 1910 t97r 1972 1973 1914 1915 1916 t911 1978
Valor da
tendêncis
44,3 43,4 42,6 41,8 40,9 40,t 39.3 38,5 37,6 36,8 36,0

Os resultados podem ser também obtidos, mediante o desenho do gráfico


de uma reta que ligue os pontos (1970, 42,6) e (1976,37,6) e a leitura, nesse gráfico,
dos valores da tendência.
(á) As medianas de cada uma das duas partes do item (a) sáo 43 e 38,7,
respectivamente. Dessa forma, há um decréscimo de (43-38,7)16 = 0,72 por
ano, e os valores da tendência estão indicados na Tabela 16.9.
442 Estatística Cap. 16

Tabela 16.9

Anos 1 968 1969 1970 t91 1 1912 1973 191 4 t91 5 t97 6 t911 t978

Valor da 44,4 43,1 43,0 42,3 4\,6 40,8 40,t 39,4 38,7 38,0 ?'7 )
tendência

Quando se utilizam as medianas, o método é algumas vezes denominado


das semimedianas. Se não for especificado o tipo do valor médio adotado, fica
implícito que se trata da média.

6. Descrever como seriam empregados os métodos (o) a sentimento e (ó) das


médias móveis para o cálculo dos valores da tendência, para os dados do
Problema 2.

Solução
(o) Neste método, simplesmente construir-se-ia, no gráfico do Problema 4,
uma reta ou curva que se aproximasse estreitamente dos dados fornecidos.
Nesse gráfico seriam lidos, então, os valores da tendência.
(ó) Mediante o uso de uma média móvel de 5 anos, viu-se (Problema 4) que os
dados da série temporal foram consideravelmente suavizados. Podem ser
usadas as médias obtidas como os valores da tendência, para os anos de
l97O a 1976. Em conseqüência, de acordo com o Problema 2(o), viu-se que
os valores da tendência, correspondentes a 1970, 7971,1972 etc., sáo 42,6;
40,2;39,4 etc. ... Por meio deste método, entretanto, não se dispõe dos
valores da tendência para os anos de 1968, 7969, L977 e 1978. Se eles são
desejados, podem ser obtidos, por extrapolação, no gráÍico do Problema 4.

7 . (o) Usar o método dos mínimos quadrados para ajustar uma reta aos dados do
Problema 2.
(ó) A partir do resultado do item (a), determinar os valores da tendência.

Solução
(o) Emprega-se o método do Problema 10 do Capítulo 13.
Cap. 16 Anó.lise das séries temporais 443

Tabela 16.10

Anos X Y x2 XY

1968 -5 50,0 25 -250,0


1969 -4 36,5 t6 -146,0
t970 -J 43,0 9 -129,0
.,
197 I 44,5 4 - 89,0
1912 -l 3 8,9 1
- 38,9
1913 0 38,1 0 0
tgl4 1 32,6 1 32,6
t97 5 2 38,7 4 77,4
r976 3 4t,1 9 125,1
t977 4 41,t t6 t64,4
1918 5 ??R 25 169,0

2Y = 438.9 ZXz = ll0 ZXY = -84.4

Então, a reta de mínimos quadrados desejada é

( zxv\ _ 4g8,9 f -84,4') --


Y= -Y*[
rr, ) * ='"il'" . I ir.,Jxo"
Y = 39,9 - 0,767 X
em que a origemX= 0 corresponde ao ano de 1973, e a unidade deXé 1 ano.
(á) Fazendo X = -5, -4, -3, ..., 5, na equação de mínimos quadrados, deter-
minada no item (o), obtém-se os valores da tendência, apresentados na
Tabela 16.11.

Tabela 16.11

Anos l 968 1969 t910 t9l 1 1972 t973 t97 4 191 5 t9t6 tgll t918

Valor da
43.7 43,0 4)) 4t,4 40,1 39,9 39.1 38,4 37,6 36,8 36. l
tendência

Os resultados comparam-se favoravelmente com os do Problema 5.


444 Estatística Cap. 16

Avaliação da variação estacional.


lndices de estacionalidade
8. Considere os dados da Tabela 16.12. (o) Construir um gráfico dos dados. (ó)
Obter os índices de estacionalidade mediante o emprego do método das percen-
tagens médias.

Tabela 16.12

lan. Fev. Mar. Abr. Mai. Jun. lul. Ago. Set. 0ut. Nov. Dez,

191 5 318 28t 278 250 23t 2t6 223 245 269 302 325 347
t91 6 342 309 299 268 249 236 242 262 288 32t 342 364
1971 361 328 320 287 269 251 259 284 309 345 361 394
tgl8 392 349 342 311 290 273 282 305 328 364 389 411
t979 420 378 370 334 314 296 305 330 3s6 396 422 452
1 980 453 4t2 398 362 341 322 335 359 392 421 454 483
198 1 487 440 429 393 370 341 351 388 4t5 457 49t 516
t982 529 477 463 423 398 380 389 419 448 493 526 560

(á) As médias totais e mensais (média aritmética), para os anos de 1975 a7982,
são as que se seguem.

Dividindo-se os dados mensais fornecidos pelas médias mensais corres-


pondentes a cada ano e exprimindo o resultado em percentagem, obtêm-se as casas
da Tabela 16.14. Por exemplo, a primeira casa da tabela é dada por 3181273,7 =
= lL6,2Vo.


o 600
c
tt 500
E

E 400
o
-Y 300
(I)
E 200 ENERGIA ELETRICA PARA ILUMINACÃO DE
a RUAS E ESTBADAS NOS ESTADOS ÜNIDOS
o
rO 100 NOS ANOS DE 1975 A 1982
:
Ano

Figura 16.4
Cap. 16 Andlise das séries temporais 445

Tabela 16.13

1975 t976 t977 1978 1979 1980 1981 1982


Totais 3.285 3.522 3.780 4.042 4.313 4.738 5.090 5.505
Médias mensais 213,7 293,s 315.0 336,8 364,4 394.8 424,2 458.7

A percentagem média de cada mês é apresentada na última linha da Tabela


16.74. O total dessas percentagens é 1.200,LVo, etre está tão próximo do desejado,
1.2007o, que não é necessário nenhum ajustamento. Então, os números da última
linha representam os índices desejados.

Tabela 16.14

lan. F ev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Out. Nov. Dez..

191 5 116,2 102,1 101,6 91,3 84,4 18,9 81,5 89,5 98,3 110,3 1 18,7 t26,8
t916 116,5 105,3 101,9 91,3 84,8 80,4 82,5 89,3 98,1 t09,4 1 16,5 t24,0
1977 116,5 104,1 101,6 9t,t 85,4 19,7 82,2 90,2 98,1 109,5 1 16,5 t25,1
1918 t16,4 103,6 101,5 9)7 86,1 8 t,1 83,7 90,6 97,4 108,1 115,5 r23,8
t919 115,3 t03,1 101,5 91,7 86,2 81,2 83,1 90,6 91,7 108,7 115,8 t24,0
1980 114,7 t04,4 100,8 91,7 86,4 81,6 84,9 90,9 99,3 108,2 115,0 1)) 7

r981 114,8 t03,7 101,1 92,6 87,2 81,8 84,2 91,5 91,8 t07,7 t15,1 t2t,6
t982 115,3 104,0 100,9 q)) 86,8 82.8 84.8 91,3 97,7 107.5 t14.7 t22,t
Total a)\ 1 831,5 810,9 734,2 687.3 641,5 661,5 723,9 784,4 869,4 928.4 989.1
Média 1t5,1 103,9 101,4 91,8 85,9 80,9 83,4 90,5 98,1 108,7 116,1 t23,7

9. Obter os índices de estacionalidade para os dados do Problema 8, mediante o


emprego do método da tendência percentual ou ria relação da tendência. Ao
aplicar esse método, usar o dos mínimos quadrados para a obtenção dos valores
mensais da tendência.

Solução
De acordo com os dados do Problema 8(o), parece que a tendência a longo prazo pode
ser convenientemente ajustada, por meio de uma linha reta. Em vez de obter essa
446 Estatística Cap. 16

reta por meio dos dados mensais fornecidos, o faremos por meio das médias mensais
dos anos de 1975 a 1982, apresentadas na Tabela 16.15 e reproduzidas na Tabela
16.13 do Problema 8(ó).

Tabela 16.15

Anos t97 5 r9'76 t977 t978 t979 1980 1981 t982


Méilia mensal )77'7 ,o? § 315,0 336,8 364.4 394.8 424.2 458,7

Admitindo-se que os dados mensais fornecidos correspondam ao meio do


mês, as médias dessa tabela referem-se a 30 de junho ou 1e de julho do ano
correspondente.

Tabela 16.16

Anos x Y x2 XY

191 5 -7 273,1 49 -1.915,9


197 6 -5 ?ql 5 25 -r.467 ,5
t971 -J 315,0 9 - 945,0
r978 -1 336,8 1 - 336,8
r979 1 364,4 1 364,4
1980 3 394,8 9 1.184,4
198 1 5 424,2 25 2.t21,0
1982 7 458,7 49 3.210.9

ZY = 2.861.1 2X2 = 168 ZXY = 2.215,5

A reta de mínimo quadrado desejada é

Y=Y .
( »xv ) z.sor.r.
=';'-
( z.zts,s\ *
tx=357'6+ 13'188x'
[;;; ). [-É
em que X é medido em meios anos, com origem em 31 de dezembro de 1978 ou le de
janeiro de 1979.
Em vista dessa equação, conclui-se que os valores de Y aumentam de
13,188, depois de cada meio ano, ou de 13,18816 =2,20 cada mês. Portanto, para
X = 0 (1e de janeiro de 1979, Y = 357 ,6. Meio mês depois (15 de janeiro de 1979,
o valor de Yé 357,6 +f,rZ,ZOl = 358,7,que é o valor da tendência correspondente
Cap. 16 Andlise das séries temporais 447

a janeiro de 1979. Adicionando-se, sucessivamente,2,20 a 358,7 , determinam-


se os valores da tendência em fevereiro de 1979, março de 1979 etc., que sào
358,7 + 2,20 = 360,9; 360,9 + 2,20 = 363,1 etc. De modo semelhante subtrain-
do-se sucessivamente 2,20 de 358,7, determinam-se os valores da tendência
em dezembro de L978, novembro de 1978 etc., que são 358,7 - 2,20 = 356,5;
356,5 - 2,20 = 354,3 etc. Dessa maneira, são obtidos os valores mensais da
tendência apresentados na Tabela 76.17.

Tabela 16.17

Jan. Fev. Mur. Abr. Mai. .Iun. lul. Ago. Set. Out. Nov. Dez.

197 5 253,1 255,3 257,5 )\a 7 261,9 264,t 266,3 268,5 270,1 275,1 )'71 ? )1) q

1916 219,5 28t,7 283,9 286,t 288,3 290,5 )Q)'7 294,9 291,1 299,3 301,5 303,1
1977 105 g 308,1 310,3 312,5 314,1 316,9 319,1 321,3 ??? 5 32s,7 327,9 330, l
1918 334,5 336,7 338,9 341,t 343,3 345,5 347,7 349,9 352,1 354,3 3s6,5
1979 358,7 360,9 363,1 365,3 361 ,5 369,7 371,9 37 4,t 376,3 378,5 380,7 382,9
1980 385, I 381,3 389,5 391,1 393,9 396,1 398,3 400,5 402,1 404,9 407,1 409,3
198 I 4tt,5 413,1 415,9 418,1 420,3 422,5 424,7 426,9 429,t 431,3 433,5 435,1
1982 437,9 440,1 442,3 444,5 446,1 448,9 451.1 451 1 4s5.5 451,7 4s9,9 462,r

Dividem-se, agora, cada um dos yalores mensais, apresentados na Tabela


16.12 do Problema 8, pelos valores de tendência correspondentes, encontrados na
Tabela 16.L7. Os resultados, expressos em percentagem, estão lançados na Tabela
16.18. Por exemplo, a primeira casa da tabela é dada por 318/253,1= 125,6Vo.

Tabela 16.18

Jan. F ev. Mar. Abr. Mai. Jun. .lul. ago. Set. Out. Nov. Dez.

975 t25,6 110,1 108,0 96,3 88,2 8l,8 83,1 91,2 99,4 110,7 118,1 125,1
976 t22,4 110,0 105,3 93,7 86,4 8t,2 82,1 88,8 96,9 r07,3 tt3,4 llg,g
977 120,0 106,5 103,1 9l,8 85,5 79,2 8t,2 88,4 95,5 105,9 111,9 1t9,4
978 I18,0 t04,3 101,6 9l,8 85,0 19,s 81,6 81,1 q1 7 t03,4 109,8 lI7,O
979 117,1 t04,7 101,9 9l ,4 85,4 80,1 82,0 88,2 94,6 t04,6 110,8 118,0
980 117,6 106,4 102,2 q)4 86,6 81,3 84, l 89,6 q7 1 105,5 111,5 118,0
981 118,3 106,4 103,1 94,0 88,0 82,1 84,1 90,9 96,1 106,0 1 13,3 118,4
982 120,8 108,4 104.7 q5? 89.1 84.7 86.2 92.4 98,4 107.7 tt4,4 121.2
Mediana tt9.2 106.4 103. l 93.0 86.5 8t.2 83.2 89.2 96,8 106,0 1 2.6 l 18,9
448 Estatística Cap. 16

Para obter a percentagem média de cada mês dos vários anos, foram
adotadas as medianas, que estão indicadas na última linha da tabela, por causa da
presença de valores extremos. Como a Soma dessas medianas é 1.196,1, elas sào
ajustadas, por meio da multiplicação por 1.20017.196,1-, de modo que sua soma seja
1.200. Dessa maneira, são obtidos os índices de estacionalidade desejados, apre-
sentados na Tabela 16.19.

Tabela 16.19

Jan. F ev. Mar. Abr. Mai. Jun. lul. Ago. Set. Out. Nov. Dez.

Indices 119,6 to6,l 103.4 93,3 86,8 81,5 83,5 Rq5 97,t 106,3 1 13,0 119,3

E interessante assinalar que, para os primeiros sete meses, os índices de


estacionalidade são constantemente maiores do que os obtidos no Problema 8,
enquanto, para os cinco últimos, eles são constantemente menores.
O índice por estação pode também ser obtido mediante o emprego da média,
em vez da mediana, na última linha da Tabela 16.18. Nesse caso, os valores
extremos de cada coluna seriam eliminados ao ser calculada a média.

10. Obter os índices de estacionalidade, para os dados do Problema 8, mediante o


emprego do método da média móvel percentual ou relação das médias móveis.

Solução
Obtém-se, primeiramente, uma média móve1 centrada d,e 12 meses, mediante o
emprego do segundo método do Problema 2(c), que está apresentada na Tabela
16.20.
Divide-se, agora, cada um dos valores reais mensais pela média móvel
centrada de 12 meses correspondente e exprime-se cada resultado em percentagem.
Cap. 16 Andlise das séries temporais 449

Tabela 16.20

Ano e Dados Total Total Média 4no e Dados Totql Total Média
mês móvel de móvel de móvel mês móvel de móvel de móvel
72 meses 2 meses centrada 12 meses 2 meses centradq
da de 12 da de 12
coluna 3 MESES coluna 3 MESCS
(col. (col.
4+24) 4+24)

t975 1976
Jan. 318 Jan. 342 6841 285,3
J+JJ
Fev. 281 Fev. 309 6883 286,8
3450
Mar. 278 Mar. 299 6919 288,3
3469
Abr. 250 Abr. 268 6957 289,9
3488
Mai. 231 Mai. 249 6993 291,4
3505
Jun. 2t6 Jun. 236 702',7 292,8
3285 3522
Jul. 223 6594 214,7 Jul. 242 1069 294,5
3309 3547
Ago. 245 6645 276,9 Ago. 262 7 113 296,4
JJJ / 3566
Set. 269 6695 279.0 Set. 288 '7 t53 298,0
3358 35 87

Out. 302 6734 Out. 321 1 t93 )qq T

3376 3606
Nov. 325 6710 282,1 Nov. 342 1232 310,3
3394 3626
Dez. 347 6808 283.7 Dez. 364 '7267 302,8

3414
450 Estatística Cap. 16

Tabela 16.20 ftontinuaçdo)

Ano e Dados Total Totsl Média 4no e Dados Totul Total Média
mês móvel de móvel de móvel mês móvel de móvel de móvel
12 meses 2 meses centradu 12 meses 2 meses centrada
ds de 12 da de 12
coluna 3 MESCS coluna 3 MCSCS
(col. (col.
4+24) 4+24)

1977 1978
3641
Jan. 367 7299 304,1 Jan. .392 7853 ?)1 )
365 8 3938
Fev. 328 1338 305,1 Fev. 349 7891 329,0
3680 3959
Mar. 320 1381 301 ,5 Mar. 342 7931 330,1
310t 3918
Abr. 287 7 426 309,4 Abr. 311 191 5 11' I
3125 3997
Mai. 269 1415 31 1,5 Mai. 290 8016 334,0
3150 4019
Jun. 251 '7530 313,7 Jun. 213 8061 115 q
3780 4042
Jul. 259 7585 316,0 Jul. 282 8i12 338,0
3805 4010
Ago. 284 7 631 318,0 Ago. 305 8169 340,4
3826 4099
Set. 309 1614 319,7 Set. 328 8226 342,7
3 848 4t27
Out. 345 1120 321,7 Out. 364 8271 344,9
3812 4150
Nov. 367 1165 323,s Nov. 389 8324 346,8
3893 417 4

Dez. 394 7808 t?5 3 Dez. 417 831 I 348,8


3915
Cap. 16 Andlise das séries ternporais 451

Tabela 16.20 (continuação)

Ano e Dados Total Total Méilis 4no e Dados Total Total Média
môs móvel de móvel de móvel mês móvel de móvel de móvel
I2 meses 2 meses centrada 72 meses 2 meses centrqda
da de 12 da de 12
coluna 3 MCSCS coluna 3 MESES
(col. (col.
4+24) 4+24)

t979 1980
4t91
Jan. 420 8411 350,7 Jan. 453 9r28 380,3
4245 4519
Fev. 310 8518 354,9 Fev. 412 9181 382,3
4273 4608
Mar. 310 8518 354,9 Mar. 398 9252 385,5
4213 4644
Abr. 334 8578 351,4 Abr. 362 93t9 388,3
4305 461 5

Mai. 314 8643 360,1 Mai. 341 9382 390 ,9


4338 4101
Jun 296 871 I 363,0 Jun. 322 9445 393,5
4373 4738
Jul. 305 8719 365,8 Jul. 335 9510 396,.2
4406 4712
Ago 330 8846 368,6 Ago. 359 9512 398,8
4440 4800
Set. 356 8908 311,2 Set. 392 963r 40t,3
4468 483 1

Out. 396 8964 313,5 Out. 42'7 9693 403,9

4496 4862
Nov 422 9019 3',75,8 Nov, 454 9753 406,4

4523 489 I

Dez 452 9012 378,0 Dez. 483 9807 408,6


4549
452 Estatística Cap. 16

Tabela 16.20 (continuaçã.o)

Ano e Dados Total Total Médiq 4no e Dados Total Total Média
mês móvel de móvel de móvel mês môvel de móvel de móvel
12 meses 2 meses centrada 72 meses 2 meses centrada
dq de 12 da de 12
coluna 3 MESES coluna i MCSES
(col. (col.
4+24) 4+24)
1981 1982
4916
Jan. 481 9854 4t0,6 Jan. 529 r0620 442,5
4938 5326
Fev. 440 9905 4t2,7 Fev. 477 10683 445,1
4967 5351
Mar. 429 9957 414,9 Mar. 463 t074'7 447,8
4990 5390
Abr. 393 100r0 4ll,l Abr. 423 10816 450,7
5020 5426
Mai. 310 10077 419,9 Mai. 398 I 0887 453,6
5051 5461
Jun. 347 10t41 422,08 Jun. 380 10966 456,9
5090 5505
Jul. 357 t0222 425,9 Jul. 389
5132
Ago 388 10301 429,2 Ago. 419
5169
Set. 415 t0372 432,2 Set. 448
5203
Out. 457 t0436 434,8 Out. 493
5233
Nov. 49t 10494 437,2 Nov. 526
5261
Dez. 516 10555 439,8 Dez. 560
5294
Cap. 16 Andlise das séries temporais 453

Para obter a percentagem média de cada mês dos vários anos, foram
adotadas as medianas que estão indicadas na Tabela 16.2L, por causa da presença
de valores extremos em alguns casos (exemplo: novembro, dezembro). Poderiam,
também, ter sido usadas as médias, mas, nesse caso, oS valores extremos de cada
coluna seriam eliminados.

Tabela 16.21

Jan. F ev. Mar. Abr. Mai. lun. Jul. Ago. Set. Out. Nov. Dez.

197 5 8t,2 88,5 96,4 107,6 1t5,2 t22,3

197 6 119,9 t07,1 r03,7 92,4 85,4 80,6 82,2 88,4 96,6 to1 ,t 113,5 t20,2

1911 t20,7 t07,3 104,t 92,8 86,4 80,0 82,0 89,3 96,7 107,2 1t3,4 tzt,t
t918 119,8 1 06,1 103,4 93,6 86,8 81,3 83,4 89,6 95,1 105,5 t12,2 tt9,6
1979 1 19,8 to1,2 104,3 q1 5 87,2 81,5 83,4 89,5 95,9 106,0 112,3 119,6

1980 tt9,t 107,6 103,2 q7) 87,2 81,8 84,6 90,0 97,7 105,7 ttt,l tt9,2
1981 118,6 106,6 t03,4 94,2 88,1 82,1 83,8 90,4 96,0 105,1 t12,3 ttt.3
1982 119,5 r07,2 t03,4 q1q 81 .1 83.2

Mediana 119,8 101,2 103.4 93,5 87.2 81.5 83.4 89,5 96,4 r06,0 t12,3 tt9,6

A soma das medianas, 1.199,8 , é táo próxima da desejada, L.200, que não
é necessário nenhum ajustamento. Os índices por estação desejados são, portanto,
os apresentados na última linha da Tabela 16.21.

Os resultados concordam muito bem com os do Problema 9.

11. Obter os índices de estacionalidade para os dados do Problema 8, mediante o


emprego do método dos elos relativos.

Solução
Primeiramente, exprimem-Se os dados de cada mês em percentagem dos do mês
anterior, como está indicado na Tabela 1,6.22. Cada uma dessas percentagens é
denominada um elo relativo. Por exemplo, para obter as casas correspondentes a
fevereiro e março de 1975, tem-se, a partir dos dados do Problema 8,
valor de fev.1915
elo relativo de fevereiro de 1975 =
valor de jan. 1975 = ar14
= 88'47o;
454 Estatística Cap. 16

valor de mar. 1975 218


elo relativo a março de 1975 = 98,97o.
valor de fev.1975 28t =

Tabela 16.22

Jan. F ev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Out. Nov. Dez.

t97 5 88,4 98,9 89,9 92,4 93,s 103,2 109,9 109,8 112,3 t07,6 106,8
1976 98,6 90,4 96,8 89,6 92,9 94,8 102,5 108,3 109,9 111,5 r06,5 106,4

t971 100,8 89,4 91,6 89,1 q7'7 q?1 103,2 109,1 108,9 ttt,7 t06,4 107,4
t918 qq5 89,0 98,0 90,9 o?, 94,1 103,3 r08,2 107,5 111,0 r06,9 101,2

1979 100,7 90,0 97,9 90,3 94,0 94,3 103,0 108,2 101,9 ttl,2 r 06,6 r01,t
1980 t00,2 90,9 96,6 9 r,0 94,2 94,4 104,0 107,2 109,2 108,9 r06,3 106,4
1981 100,8 90,3 97,5 91,6 94,1 93,8 102,9 108,7 107,0 110,1 t07,4 105,1
1982 t02,5 90,2 91,r 9r,4 94,1 q55 t02,4 101,1 106,9 110,0 t06,7 106,5
Mediana 100,7 90,1 91,6 90,6 93,8 94,2 103,1 108,2 108,4 ll1 I 106.6 106,6

Os valores médios dos elos relativos de vários meses (no caso, as meridia-
nas) estão representados na última linha da Tabela L6.22. Pode-se, também, usar
a média (veja o Problema 12).
Considera-se que janeiro tem o valor 1007o (veja a Tabela 16.23). Como a
média dos elos relativos de fevereiro é 90,1 (da Tabela 16.22), os dados referentes a
fevereiro são, em média, 90,l%o dos de janeiro, isto é, 90,tVo de 100 = 90,1. De modo
semelhante, a média dos elos relativos de março é 97,6Vo da de fevereiro, isto é,
97,67o de 90,1 = 87,9 etc. Desse modo, obtém-se a Tabela 16.23, cujas casas são
freqüentemente denominadas relatiuas em cadeia.

Tabela 16.23

Jan. Fev. Mar. Abr. Mai. Jun. Jul. Ago. Set. OuÍ. Nov. Dez. Jqn.

100,0 90,1 87.9 79,6 7 4,1 70,4 72,6 18,6 85,2 94,7 101,0 t01,7 108,5

Na Tabela 16.23, os resultados do segundo mês de janeiro (úItima coluna)


é 108,5, com um acréscimo de 8,5 sobre os do primeiro. Esse aumento é devido à
tendência a longo pràzo dos dados. Para ajustá-Io a essa tendência, deve-se subtrair
Cap. 16 And,líse das séries temporais 455

(L2112) (8,5) = 8,5 da casa da última coluna (fazendo, portanto, o valor do último
janeiro igual a 100), (11/12) (8,5) = 7,8 do valor de dezembro (10172) (8,5) = 7,1 do
valor de novembro etc. Os valores ajustados à tendência estão lançados na Tabela
16.24.

falando, dever- se- íam,mu lt iplicar as cgqg§, da direita p ara


Ri goros amente
a esquerda, por (100/108,5)12/t2; (100/108,5)tt/tz' (1001108,5)10/12 etc. Isso, entre-
tanto, conduz, praticamente, aos mesmos resultados que os da Tabela 76.24.

Tabela \6.24

Jqn. Fev. Mar. Abr. Mai. Jan. Jul. ago. Set. Out. Nov. Dez.

'7'7 5
100,0 89.4 86,5 1t,9 66,9 68,4 73.6 79.5 88,3 93.9 99.9

Como o total dessas percentagens é 995,8, elas sáo ajustadas mediante sua
multiplicação por 1.2001995,8, para a obtenção dos índices de estacionalidade da
Tabela 16.25.

Tabela L6.25

Jan. Fev. Mar. Abr. Mui. Jun. Jul. ago. Set. Out. Nov. Dez.

Índices t20,5 r07.7 to4,2 93.4 86,6 80,6 82,4 88,7 95,8 106.4 t13,2 120,4

12. Resolver o Problema 11, adotando a média dos elos relativos, em vez da
mediana.

Solução
A média dos elos relativos está indicada na Tabela 16.26.

Tabela 16.26

Jan. F ev. Mar. Abr. Mai. Jun. Jul. Ago. Set. Out. Nov. Dez.

Média 100.4 89,8 97.6 90,5 93,6 94,2 103,1 108,5 108,4 110,8 106.8 r06,6
456 Estatística Cap. 16

Considerando-se que janeiro tem o valor 700Va, o de fevereiro é 89,*Vo de


100 = 89,8, o de março 97 ,67o de 89,8 = 87 ,6 etc., como está indicado na Tabel a 16.27 .

Tabela 16.27

Jan. Fev. Mar. Abr. Mai. Jan. Jul. Ago. Set. Out. Nov. Dez. Jan.

100,0 89,8 8'7,6 19.3 14.2 69.9 12,7 18,2 84,8 94.0 100,4 t01,0 t07,4

Neste caso, o resultado para o último janeiro é de 107 ,4, com um aumento,
devido à tendência , de 7 ,4 sobre o do primeiro. Para fazer o ajustamento, subtrai-se
(121t2) (7,4) = 7,4 da casa da última coluna, (11172) (7,4) = 6,8 da de dezembro,
(LO/tz) (7,4) = 6,2 da de novembro etc., de modo que os valores são os apresentados
na Tabela 16.28.

Tabela 16.28

lan. Fev. Mar. Ahn Mai. Jun. Jul. Ago. Set. Out. Nov. Dez.

100,0 89,2 86,4 77,5 71.1 66,8 68.4 73.9 19.9 88,4 94.2 100,2

Como a soma das casas da última linha da Tabela 76.28 é 996,6, elas são
ajustadas mediante sua multiplicação por 1.200/996,6 e obtém-se os índices de
estacionalidade, apresentados na Tabela 76.29.

Tabela 16.29

Jan. Fev. Mar. Abr. Mai. Jun. Jul. ago. Set. Out. Nov. Dez.

Indices r20,4 107,4 104,0 93,3 86,3 80,4 82,4 89,0 96.2 106,4 113,4 t20,1

Desestacionalização dos dados


13. Ajustar os dados do Problema I à estacionalidade, isto é, desestacioná-los.
Cap. 16 Andlise das séries temporais 457

Solução
Para ajustar os dados à variação estacional, deve-se dividir cada casa dos dados
originais do Problema 8 pelo índice de estacionalidade do mês correspondente,
determinado por qualquer um dos métodos anteriores.
Se, por exemplo, forem usados os índices de estacionalidade do Problema
10, dividir-se-ão todos os valores de janeiro por ll9,87o (isto é, 1,198), todos os de
fevereiro por 107 ,2Vo (isto é, 1,072) etc. Então, os dados desestacionalizados são os
apresentados na Tabela 16.30.

Tabela 16.30

Jan. Fev. Mar. Abr. Mqi. Jun. Jul. Ago. Set. Out. Nov. Dez.

t975 265 262 269 267 265 265 261 214 279 285 289 290

t916 285 288 289 281 286 290 290 293 299 303 305 304

1971 306 306 309 307 308 308 311 311 321 325 327 329

1978 327 326 331 JJJ JJJ 335 338 341 340 343 346 349

1919 351 353 358 357 360 363 366 369 369 314 376 378

1980 378 384 385 381 391 395 402 40t 407 403 404 404

1981 401 410 415 420 424 426 428 434 430 431 437 43t

t982 442 445 448 452 456 466 466 468 465 46s 468 468

14. (o) Representar, graficamente, os dados desestacionalizados obtidos no pro-


blema anterior.
(b) Comparar esse gráfico com o do Problema 8(o).
Estatística Cap. 16

Solução

Ano

Figura 16.5

(á) O gráfico dos dados ajustados por estação indica claramente a tendência a
longo ptazo que, desprezad.as as flutuações secundárias, aproxima-se
estreitamente de uma linha reta, embora haja uma ligeira tendência para
cima.

Representando-se os dados do Problema 8 por Y = TCSI, o gráfico do item


(a) é o da variável YIS =TCI,locada em relação ao tempo ú e, portanto, contém os
movimentos de tendência a longo prazo, cíclicos e irregular. Como o gráfico também
indica a tendência a longo prazo, parece que o produto CI, correspondente aos
fatores cíclicos e irregulares, deve ser, praticamente, 7007o. Este fato é confirmado
no Problema 16.

Avaliação das variações cíclicas e irregulares


15. Ajustar os dados do Problema 13 à tendência.
Cap. 16 Andlise das séries temporais 459

Solução
Para tornar os dados do Problema 13 independentes da tendência, divide-se cada
casa pelo valor da tendência mensal correspondente, calculado por qualquer dos
métodos considerados. IJsar-se-ão, neste caso, os valores mensais de tendência
obtidos, no Problema 10, pelo método das médias móveis. Os resultados estão
indicados na Tabela 16.31. Para obter a casa correspondente a julho de 1975, por
exemplo, divide-se a casa correspondente,26T, da Tabela 16.30 do Problema 13, pelo
valor 274,7 (veja o Problema 10, primeira casa da coluna 5 da Tabela 16.20), o que
dâ2671274,7 =97,27o. As outras casas são obtidas de maneira semelhante. Uma
desvantagem deste método, como de todos os que envolvem as médias móveis, é que
se perdem os dados de ambas as extremidades das séries temporais.

Tabela 16.31

Jan. Fev. Mar. Abr. Mai. Jun. Jul. ago. Set. Out. Nov. Dez.

t97 5 q7) 99,0 100,0 101,6 t02,4 t02,2


197 6 99,9 100,4 100,2 99,0 98,1 99,0 98,5 97,8 100,3 101,1 t01,2 100,4
1911 100,6 100,1 100,5 aq) 98,9 98,2 98,4 99,1 100,4 101,0 101,l 101,1

t9'78 99,9 99,1 100,1 100,2 99,1 99,7 100,0 too,2 99,2 99,4 99,8 100,1

19't9 100,1 100,1 100,9 100,0 100,0 100,0 100,1 100,1 99,4 100, l 100,1 100,0

1980 ooá 100,3 99,9 99,1 100,0 100,4 101,5 100,6 t01,4 99,8 99,4 98,9
198 1 99,1 99,3 100,0 100,7 101,0 100,8 100,5 101,1 qq5 99,t 100,0 98,0
1982 99,9 100,0 r00,0 100,3 100,5 102,0

16. (a) Representar, graficamente, os dados obtidos no Problema 15.


(á) Explicar o significado do gráÍico.

Solução
(o) Convém subtrair 1007o dos dados do problema anterior e representar,
graficamente, os desvios resultantes. O gráfico obtido, mediante a adoção
de uma escala vertical grandemente ampliada, está representado na Fi-
gura 16.6.
Estatística Cap. 16

(ó) Os dados originais são representados por Y = TCSI. Seu ajustamento à


variação estacional, como foi feito no Problema 1-3, importa em dividir
ambos os membros pelo índice S, obtendo-se Y/S = TCI. O ajustamento
subseqüente à tendência corresponde à divisão por T, obtendo-se Y I ST =
= CI. Asubtração de l00Voconduz aY I ST -100 = CI- 100. Por conseguinte,
a variável dependente da Figura 16.6 é Y I ST - 100 e a independente é o
tempo i.
O gráÍico é composto, teoricamente, apenas de movimentos cíclicos e
irregulares, representados pelos fatores correspondentes C e I respectivamente.
Note-se que o produto CI vaúa entre 97 e l03%o, o que confirma a exposição feita no
Íim do Problema 14.

VARIAçÓES CÍCLTCAS TRREGULARES

F1 975 +1 976 +1977 +1978 +1 979 +1 980 +1 981 +1 e82l


Ano

Figura 16.6

17. (o) Obter as médias móveis de 3 e de 7 meses, para os dados do Problema 15.

(b) Construir os gráficos das médias móveis do item (a).


(c) Interpretá-1os.
Cap. 16 Andlise das séries temporais 461

Solução
(o) As médias móveis desejadas estão lançadas na Tabela 16.32.

Tabela 16.32

Ano e Dados Total móvel Média móvel Total móvel Média móvel
mês de 3 meses de 3 meses de 7 meses de 7 meses

t975
Jul. 91,2

Ago. 99,0 296,2 98,7

Set. 100,0 300,6 r00,2

Out. 101,6 304,0 101,3 102,3 100,3

Nov. 102,4 306,2 102,1 705,5 r00,8

Dez. r02,2 304.5 101.5 706,1 101,0

1976
Jan. 99,9 302,5 100,8 105,7 100,8
Fev. 100,4 300,5 t00,2 102,2 r00,3
Mar. t00,2 299,6 99,9 698,8 qq5
Abr. 99,0 297,3 99,1 695,r qql
Mai. 98,1 296,1 98,1 693,0 99,0
Jun. 99,0 295,6 98,5 692,9 99,0
Jul. 98,5 295,3 98,4 693,8 99,1
Ago. 97,8 296,6 98,9 696,0 99,4
Set. 100,3 )qq ) 99,1 698,3 99,8
Out. 101,1 302,6 100,9 699,9 100,0
Nov. 101,2 302,7 100,9 7 01,5 r00,2
Dez. 100,4 302,2 100,7 104,2 100,6
462 Estatística Cap. 16

Tabela 16.32 (contin uação)

Ano e Dados Total móvel Média móvel Total móvel Média móvel
mês de 3 meses de 3 meses de 7 meses de 7 meses

t977
Jan. 100,6 301,1 100,4 103,t 100,4
Fev. 100,1 30t,2 100,4 100,9 100,1
Mar. 100,5 299,8 99,9 691,9 99,7
Abr. 99,2 298,6 99,5 695,9 99,4
Mai. 98,9 296,3 98,8 695,0 qq1
Jun. 98,2 ,o< < 98,5 695,3 qq?
Ju1. 98,4 296,3 98,8 695,8 99,4
Ago. 99,7 298,5 99,s 697,7 99,7
Set. 100,4 301,1 100,4 699,9 100,0
Out. 101,0 302,5 100,8 101,6 100,2
Nov. 101,1 303,2 101,1 702,3 100,3
Dez. 101,1 302.r 100,7 102,7 100,4

978
Jan. 99,9 300,9 r 00,3 102,5 r00,4
Fev. 99,1 299,1 99,7 701,2 t00,2
Mar. 100,1 299,4 99,8 699,8 r00,0
Abr. 100,2 300,0 100,0 698,7 99,8
Mai. 99,1 299,6 99,9 699,0 99,9
Jun. qq7 299,4 99,8 699,t 99,9
Jul. 100,0 ,qq q 100,0 698,4 99,8
Ago. 100,2 299,4 99,8 698,0 99,7
Set. 99,2 298,8 99,6 698,4 99,8
Out. 99,4 298,4 99,s 698,8 99,8
Nov. 99,8 ,qq ? 99,8 698,9 99,8
Dez. 100,1 300,0 100,0 699,6 100,0
Cap. 16 Anó.lise das séries temporais 463

Tabela 16.32 ( c o ntinu aç ã.o)

Ano e Dados Total móvel Média móvel Total móvel Média móvel
mês de 3 meses de 3 meses de 7 meses de 7 meses

t979
Jan. 100,1 300,3 100,1 100,4 100,1

Fev. 100,1 301,1 r 00,4 701,0 100,1

Mar. 100,9 301,0 100,3 101,2 100,2


Abr. 100,0 300,9 100,3 '70t,2 t00,2
Mai. 100,0 300,0 100,0 701,2 100,2
Jun. 100,0 300,1 100,0 700,5 100,1

Jul. 100,1 300,2 100,1 699,1 100,0


Ago. 100,1 299,6 99,9 699,8 100,0
Set. 99,4 299,6 99,9 699,8 100,0
Out. 100,1 299,6 99,9 699,2 100,0
Nov. 100,1 300,2 100,1 699,4 100,0
Dez. 100,0 ,qq 5 99,8 699.2 100,0

r980
Jan. 99,4 299,7 99,9 699,5 100,0
Fev. 100,3 299,6 99,9 699,4 100,0
,qq q 699,7 100,0
Mar. 99,9 100,0
Abr. 99,1 299,6 99,9 70t,2 100,2
Mai. 100,0 300,1 100,0 702,4 100,3
Jun. 100,4 301,9 i00,6 703,5 100,s
Jul. 101,5 302,5 100,8 703,4 100,5
Ago. 100,6 302,5 100,8 703,1 100,4

Set. 101,4 301,8 100,6 102,0 100,3


Out. 99,8 300,6 t00,2 700,1 100,1
Nov. 99,4 298,1 99,4 698,5 99,5
Dez. 98,9 297,4 99.r 697.9 99,0
464 Estatística Cap. 16

Tabela L6.32 (continuaçã,o)

Ano e Dados Total móvel Média móvel Total móvel Média móvel
mês de 3 meses de 3 meses de 7 meses de 7 meses

1981
Jan. 99,t 297,3 99,1 691,2 99,6
Fev. 99,3 298,4 99,5 698,4 99,8
Mar. 100,0 300,0 100,0 699,8 100,0
Abr. 100,7 30t,1 100,6 701,4 r00,2
Mai. 101,0 302,5 100,8 103,4 100,5
Jun. 100,8 302,3 100,8 103,6 100,5
Jul. 100,5 302,4 100,8 702,7 100,4
Ago. 101,1 301,1 100,4 102,0 100,3
Set. 99,s )qq 1 99,9 699,0 99,9
Out. 99,1 298,6 99,5 698,1 99,7
Nov. 100,0 291,1 99,0 691,6 qq'7

Dez. 98,0 )q7 q 99.3 696,5 99,s

t982
Jan. 99,9 297,9 qql 697,3 99,6
Fev. 100,0 299,9 100,0 698,',l 99,8
Mar. 100,0 300,3 100,1 100,1 100.1
Abr. 100,3 300,8 100,2
Mai. 100,5 302,8 r00,9
Jun. 102.0

(ó) Como no Problema 16, convém subtrair "1.007o


das médias móveis e repre-
sentar graficamente os desvios resultantes, como está indicado na Figura
t6.7.
Cap. 16 And.lise das séries temporais 465

E

(dA +2
MEDIA MÓVEL DE 3 MESES
CF f I

9lo
5,e
rL'ü
o

o(§ -1

ã8
a-z
o 1975 -f 1976 + 1977 -f 1978 -l 1979 + 1980 -]_ 1981 + 1982 -.1

Figura 16.7

E
o§ +2
:9ô MEDIA MOVEL DE 7 MESES
É9
(l)-
+1

g,ú
6cú -1

ã8
ôa-z
F 1975 + 1976 -l 1977 -l- 1978 -f 1979 -f 1980 +- 1981 + 1982 -.1
Ano

Figura 16.8

(c) Como é de esperar, as médias móveis servem para atenuar as irregulari-


dades dos dados do Problema 15, o que é evidenciado pela comparação dos
gráficos do item (á) como o do Problema 16. É claro, também, de acordo com
o gtáfrco, que a média móvel de 7 meses proporciona, neste caso, melhor
suavização dos dados do que a de 3 meses.

É inte.essante assinalar que os 3 máximos, à esquerd.a, e os dois mÍnimos,


à direita, dos gráficos do item (ó), ocorrem todos nas proximidades de dezembro.
Também, os dois mínimos, à esquerda, e os dois máximos, à direita, ocorrem nas
proximidades de junho. Essas observações parecem indicar pequenas variações
estacionais residuais, no começo e no Íim do período de 8 anos, que agem em direções
opostas, o que indica uma possível alteração do padrão estacional. Ao longo do
período total de 8 anos essas alterações seriam naturalmente canceladas. O pequeno
resíduo estacional existente seria posteriormente evidenciado quando se tomasse
uma média móvel centrada de 12 meses.
Ordinariamente, o método deste problema é dotado para os padrões
cíclicos. Esperar-se-ia que fosse este o caso porque, se os dados originais, fornecidos
por Y = TCSI, são ajustados à tendência e à variação estacional, obtém-se novos
dados, Y I ST = CI, que (teoricamente) contém apenas os movimentos cÍclicos e
irregulares. Uma média móvel conveniente, então, serve para eliminar as irregula-
466 Estatística Cap. 16

ridades e revelar o padrão cíclico, quando existir. Para esse fim, talvez seja melhor
uma média móvel centrada de 12 meses, porque elimina as variações estacionais
residuais, bem como as irregularidades.
No problema presente, nenhum efeito cíclico parece presente ou, se estiver,
é desprezível. Na teoria econômica, são necessários, freqüentemente, dados de 20
anos de duração, pelo menos,pàÍa que os ciclos apareçam (veja a Figura 16.1).

Comparabilidade de dados
18. Como seriam modificados os dados do Problema 8, de modo que sejam levados
em consideração os anos bissextos 1976 e 1980?

Solução
Em um ano bissexto, fevereiro tem 29 dias em vez de 28. Para conseguir a
comparabilidade dos dados, multiplicam-se os dados correspondentes ao mês de
fevereiro de um ano bissexto por 28129. Então, na Tabela 16.12 do Problema 8:
O valor de fevereiro de 1976 é substituído por (28129) (309) = 298.

O valor de fevereiro de 1980 é substituído por (28129) (412) = 398'

Esses ajustarnentos não foram feitos na obtenção dos índices de estaciona-


lidade (veja os Problemas 8 a 11). Seus efeitos sobre os resultados, entretanto, sào
desprezíveis.

Previsão
19. Utilizando-se os dados da Tabela 16.12 do Problema 8, prever o valor da
variável para 1983, mês a mês.

Solução
Os futuros valores mensais são dados por Y = TCSI, em que se pode estimar t Q
Se1.
Para estimar a tendência T, podem ser empregados vários métodos pos-
síveis. De acordo com o gráfico do Problema 14 (veja a Figura 16.5), parece que se
Cap. 16 Aná.lise das séries temporais

estaria habilitado a obter estimativas suÍicientemente precisas dos valores da


tendência futura, mediante o ajustamento de uma reta aos valores da tendência dos
dois últimos anos, por exemplo. Isso pode ser feito pelo emprego do método dos
mínimos quadrados ou de qualquer outro dos que foram estudados.
Poder-se-ia obter os valores da tendência pelo método relativamente sim-
ples das semimédias, aplicado aos resultados no Problema 10. Na Tabela 16.36,
distribuíram-se em duas partes iguais as médias móveis centradas de 12 meses,
correspondentes aos meses dejulho de 1980 ajunho de 1982.

Tabela 16.33
Jul. r 980 396,2 Jul. 198 1 425,9
Ago. 1980 398,8 Ago. 1981 429,2
Set. 1980 401,3 Set. 198 1 432,2
Out. 1980 403,9 Out. 1981 434,8
Nov. 1980 406,4 Nov. 1981 437,2
Dez. 1980 408,6 Dez. 198 l 439,8
Jan. 1981 410,6 Jan. t982 442,5
Fev. r 981 412,7 Fev. 1982 445,1
Mar. 198 I 414,9 Mar. 1982 447,8
Abr. 198 I 4r7,1 Abr. 1982 450,1
Mai. 1981 4t9,9 Mai. 1982 453,6
Jun. 198 1 422.8 Jun. 1982 4s6.9
Total 4.913.2 Total 5.295,1
Média 409,4 Média 441,3

De acordo com as médias dos dados de cada parte, conclui-se que houve um
acréscimo de 44I,3 - 409,4 = 31,9, em 12 meses, ou de 31,9/12 = 2,66, por mês.
Mediante a adição, sucessivamente, de 2,66 a 456,g,úItimo valor disponí-
vel, correspondente ajunho de 1982, podem ser obtidos os valores da tendência para
1983, como estão indicados na terceira linha da Tabela 16.34(a).

Para estimar o fator estacional, S, utilizam-se os índices obtidos no Pro-


blema 10, embora possam ser usados, também, os determinados por outros métodos.
Esses índices foram repetidos na quarta linha da Tabela 16.34(a).
Estatística Cap. 16

Tabela 16.34(o)

Jqn. F ev. Mar. Abr. Mai. Jun, Jul. Ago. Set. Out. Nov. Dez.

Valores da 456.9 459,6 462,2 464.9 467.5 410,2 472,9


tendência
de 1982
Valores da 415,5 418,2 480.8 483,5 486,2 488,8 49t,5 494,1 496,8 499.s 502,t 504,8
tendência
de 1983
Índice de 119,8 707,2 r03,4 93,5 81,2 81,5 83.4 89,5 96,4 106,0 tt2,3 119,6
(SVo)
estaciona-
lidade
Valores 510 513 491 452 424 398 410 442 419 s29 564 604
previstos
para 1983
(7xS)

De acordo com a Figura 16.6 do Problema 16, vê-se que a estimativa dos
fatores cíclicos e irregulares, CI , diferem de 1007o de menos de 2,57o. Portanto,
admitindo-se que CI = lOOTo- 1, isto é,Y - T x C xS x1 = (7x S) (C x1) = 7x S, o
desvio de Ynão seria superior a2,5Va.
Multiplicando-se os valores de 7 em 1983 pelos correspondentes de S
(recordando-se que S está em percentagem), obtém-se os valores mensais previstos
ouprojeções para 1983, apresentados na última linha da Tabela 16.34(a), na página
anterior. Por exemplo, o valor previsto para janeiro de 1983 é (475,5) (1,198) = 570
etc.

PROB LEMAS SU PLEMENTARES

Movimentos característicos das séries temporais


20. A que movimentos característicos de uma série temporal estariam principal-
mente associados cada um dos seguintes eventos: (o) uma recessão; (á) um
acréscimo de empregos durante os meses de verão; (c) o declínio da taxa de
Cap. 16 Andlise das séries temporais 469

mortalidade resultante do progresso da ciência; (d) uma greve na indústria do


aÇo; (e) uma procura continuamente crescente de automóveis pequenos.

Resp.: (o) cíclicos; (ó) estacional; (c) tendência a longo prazo; (d) irregular; (e)
tendência a longo prazo.

Médias móveis
27. Dados os números 1; 0; - 1; 0; 1; 0; - 1; 0; 1, determinar uma média móvel de
ordem (o) dois, (á) três, (c) quatro, (d) cinco.
Resp.: (o) 0,5; - 0,5; - 0,5; 0,5; 0,5; - 0,5; -0,5; 0,5.
1
(ó) 0; - g; o; 1..r. 1.^
[; u; -ã; 0.
(c) 0; 0; 0; 0; 0; 0.

tdrl:o:--1,0,
bb'5
1'

22. Provar que, se uma seqüência de números tem período N (isto é, a seqüência
se repete depois de N termos), cada média móvel de ordem inferior a N tem,
então, período igual aN. Ilustrar com referência ao Problema 21.
(o) No Problema 22, o que acontecerá no caso da média móvel de ordem N? (ó)
Que acontecerá se a ordem for superior a N? Ilustrar com referência ao
Problema 21.
24. Provar que, se cada número de uma seqüência for aumentado (ou diminuído)
de uma constante, a média móvel será também aumentada (ou diminuída)
dessa constante.
25. Provar que se cada número de uma seqüência for multiplicado (ou dividido)
por uma constante diferente de zero, a média móvel será também multiplicada
ou dividida por essa constante.
26. Determinar a média móvel ponderâda dos números do Problema 21(ó), (c) e
l; 2; l; (c) I; 2;2; l; (d) 1;2; 2;2; l.
(d), para os pesos respectivos de: (ó)
Comparar com os resultados do Problema 21.

Resp.: (ô) 0; - 0,5; 0; 0,5; 0; - 0,5; 0. (c) - à, - à, á, à' - ât- à,


(d) 0; 0; 0; 0; 0.
470 Estatística Cap. 16

27. (o) Demonstrar as propriedades das médias móveis ponderadas, enunciadas


nos Problemas 24 e 25. @) O resultado do Problerna 22 prevalece para as
médias móveis ponderadas?
28. Uma seqüência tem (a) 24; (b) 25 e (c) 200 números. Quantos números haverá
em uma média móvel de ordem 5?

Resp.: (a) 20; (b) 2l; (c) 196.

29. Uma seqüência tem M números. (a) Provar que, em uma média móvel de ordem
N,haveráM -N + 1 números. Ilustrar por meio de diversos exemplos, adotando
valores diferentes de M e N. (á) Discutir o caso em que M = N.
30. A Tabela 16.35 apresenta a produção de açúcar cristal, no Brasil, em mil
toneladas, no período de 1972 a 1981. Calcular as médias móveis (o) de 2 anos;
(ó) centradade2 anos; (c) de 3 anos; (d) centradade 4 anos; (e) centrada de 6
anos.

Tabela 16.35

Ano Produção de
açúcar cristal
(1.000 t)

1972 4.0t1
r973 4.583

197 4 4.593
t97 5 4.855
1976 5.461
t9'77 6.220

t978 6.009
t919 5.349
1980 5.807

198 l 6.385
Fonte: Anuário Estatístico do IBGE.
Cap. 16 Andlise das séries temporais 471

Estimação da tendência
31. (o) Ajustar uma parábola da forma Y = ao + a1X + a2N2 aos dados do Problema
8, adotando as médias mensais da Tabela 16.13 do Problema 9. (á) Compa-
rar o resultado do item (o) com a reta de mínimos quadrados do Probiema
9 e calcular os valores da tendência.
Resp.: (a) Y = 351,1 + 13,188X + 0,311X 2, em que X é mantido em unidades
de meio-ano, com a origem correspondente a 1e de janeiro de 1979.

32. Obter os valores da tendência, para os dados do Problema 30, mediante o


emprego (o) do método das semimédias;(ó) do método a sentimento; (c) de uma
média móvel centrada de 12 meses; (d) de uma curva de mínimos quadrados
apropriada (para encontrá-la, utilizar o gráÍico dos dados originais, construído
no Problema 30). Discutir as vantagens e desvantagens de cada método.

Estimação das variações estacionais. lndices de


estacionalidade
33. A Tabela 16.36 apresenta o consumo mensal de energia elétrica industrial na
área de São Paulo em milhões de kwh, no período de 1975 a 1980. (o) Repre-
sentar graficamente os dados. (ó) Calcular os índices de estacionalidade me-
diante o emprego do método das percentagens médias.

Tabela 16.36

Jqn. Fev. Mar. Abr. Msi. Jun. .Iul. Ago. Set. Out. Nov. Dez,

191 5 934 941 944 963 t.014 t.029 r.029 r.065 1.043 1.096 1. 139 1.030

197 6 1.032 1.026 1.088 t.061 1.131 1.138 t.161 1.t94 1.204 1.200 1.2t1 1.158
r917 t.t27 1.163 1.125 t.235 1.2t3 1.250 t.250 t.237 1.313 1.313 1.306 r.289
t918 t.242 t.301 1.211 1.323 r.331 1.385 t.376 t.4t1 t.47 5 t.424 t.451 1.402
1979 1.338 1.409 t.431 1.415 1.494 1.523 1.529 1.533 1.6t6 1.51 1 1.583 1.555

1980 t.461 t.516 1.506 1.544 1.540 1.617 t.534 t.125 1.662 1.697 1.148 1.577
Fonte: Boletim Banco Central do Brasil.
472 Estatística Cap. 16

34. Obter um índice por estação para os dados do Problema 33, mediante o emprego
do método da tendência percentual ou da relação da tendência. Para obter os
valores da tendência, ajustar uma curva de mínimos quadrados, apropriada às
médias mensais dos anos dados.
35. Obter um índice por estação para os dados do Problema 33, mediante o emprego
do método da média móvel percentual ou de relação das médias móveis.

36. Obter um índice por estaçáo para os dados do Problema 33, mediante o emprego
do método dos elos relativos.

37. A Tabela 16.37 apresenta o saldo mensal dos meios de pagamentos no Brasil,
em bilhões de cruzeiros, para o período 7976-1982. Obter os índices de estacio-
nalidade mediante o emprego (o) das percentagens médias; (ó) da relação à
tendência; (c) dos elos relativos.

Tabela 16.37

.lan. F ev. Mqr, Abr. Mai. .Iun. .Iul. Ago. Set. Out. Nov. Dez.

1976 161 t64 166 170 t77 t93 t92 192 r97 205 214 237
1977 216 219 226 242 245 261 262 266 277 287 294 325
1978 303 310 320 334 338 360 362 374 392 405 42t 463
t919 436 466 464 476 492 538 547 559 603 628 675 803
1980 738 767 79t 866 910 988 967 1.015 1.052 1.100 l.198 t.367
l98l t.233 t.290 1.256 1.363 1.424 1.550 1.549 1.6t7 1.687 r.892 2.063 2.388
1982 2.204 2.253 2.2t6 2.377 2.491 2.706 2.739 2.846 2.971 3.214 3.511 4.053
Fonte: Boletim do Banco Central do Brasil.

38. Resolver novamente o problema anterior, usando os dados ajustados.para os


anos bissextos, discutindo se o ajustamento tem influência significativa sobre
os índices de estacionalidade finais obtidos.

Desestacionalização dos dados


39. Desestacionalizar os dados do Problema 33, mediante a utilização de qualquer
um dos índices de estacionalidade obtidos nos Problemas 33 a 36. Representar
o resultado graficamente.
Cap. 16 And,lise das séries temporais 473

40. Desestacionalizar os dados do Problema 37, usando qualquer dos índices de


estacionalidade calculados naquele problema.

Avaliação das variações cíclicas e irregulares


41. (o) Ajustar os dados do Problema 39 em relação à tendência, mediante o
emprego de qualquer método, representando grafrcamente os dados obti-
dos. (b) Tomar uma média móvel de 3 ou 5 meses dos dados do item (o). (c)
Representar graficamente os resultados do item (ó), explicando as varia-
ções observadas e, em particular, apontando a existência de qualquer
movimento cíclico que possa haver.
42. A Tabela 16.38 mostra o índice do Produto Interno Bruto do Brasil, com base
em 1949, para o período de 1920 a 1975. Representar graficamente os dados e
discutir a possível existência de ciclos.

Tabela 16.38

PIB Ano PIB


(1949 = 100) (1949 = 100)

1920 1 950 t06,44


t92t 195 1 112,83

t922 t952 115,10


t923 1953 l 18,59
1924 t954 130,57
t925 1955 t39,59
r926 1956 t44,05
t921 1951 155,11

t928 r958 167,10


1929 1959 t17,09
1930 1960 194,27
1931 t96t 214,28
t932 t962 225,63
t933 1963 ))q o')
474 Estatística Cap. 16

Tabela L6.38 (continuaçã,o)

PIB Ano PIB


(1949 = 100) (1949 = 100)

r934 5 1,18 t964 235,66

t935 58,04 1965 242,02

1936 63,19 1966 254,37

t937 66,3s 1961 266,58

1938 68,54 1968 291,3',7

t939 61,43 1969 3r1,59


1940 67,53 r970 347 ,71

t94t 65,07 191 | 386,37

1942 66,03 1972 426,55

t943 66,30 1973 47 5,t8


1944 68,24 t97 4 520,80

1945 7 5,01 191 5 542,67

1946 84,48
1947 87,30
t948 93,16
1949 100.00
Fonte: Cláudio R. Contador, Ciclos econômicos e indicadores de
atividade no Brasil.

Previsão
43. Utilizando os dados do Problema 33 e qualquer dos resultados dos Problemas
94, 35, 36, 39 e 41, fazer a previsão, mês a mês, para 1981, do consumo
industrial de energia elétrica para a área de São Paulo.
h
MAKRON
Capítulo
17

Números índices

Número índice
Um número índice é uma medida estatística idealizada para mostrar as variações
de uma variável, ou de um grupo de variáveis, correlacionadas ao tempo, à locali-
zaçã.o geogtáfíca, ou a outras características como rendimento, profissão etc. Uma
coleção de números índices de diversos anos, localidades etc., é freqüentemente
denominada série de índices.

Aplicações dos números índices


Mediante o emprego de números índices pode-se, por exemplo, comparar os custos
de alimentação ou de vida, em uma cidade, durante um ano, com os de um ano
anterior, ou a produção de aço, durante um determinado ano, em uma regiáo do país,
com a de outra regiáo. Embora sejam usados, principalmente, nos negócios e na
economia, os números índices podem ser aplicados a muitos outros tempos. Na
educação, por exemplo, podem-se usar os números índices para comparar a inteli-
gência dos estudantes de diversas localidades ou em anos diferentes.

Muitas repartições governamentais e particulares estão empenhadas com


o cálculo de números índices, ou índices, como são freqüentemente denominados,
com as Íinalidades da previsão dos negócios e das condições econômicas, proporcio-
nando informações gerais etc. }Já, portanto, índices de salário, de produção, de
desemprego e muitos outros. No Brasil, os índices mais conhecidos são o Índ,ice Geral
de Preços, calculado pela Fundação Getúlio Vargas do Rio de Janeiro, e o Índ,ice
Nacional de Preços ao Consumidor (INPC), calculado pela Fundação IBGE. Em

475
476 Estatística Cap. 17

muitos contratos de trabalho, há certas clá.usulas de indexação que prevêem aumen-


tos automáticos de salário correspondentes a acréscimos no custo de vida.
Neste capítulo, tratar-se-á, principalmente, dos números índices que mos-
trem as alterações em relação ao tempo, embora os métodos descritos possam ser
aplicados a outros casos.

Preços relativos
Um dos exemplos mais simples de número índice é o preço relatiuo, que é a relação
entre o preço de uma única utilidade, em um período determinado, e o de outro
período, denominado bd.sico ou de referência. Para simplificar, admite-se que os
preços mantêm-se constantes em algum período. Se eles não o são, pode-se tomar
uma média adequada desse período, para que essa hipótese seja válida.
Sep6 ep, representam utilidades durante o período básico
os preços das e
o considerado, respectivamente, então, por definição

Pn (1)
Preço relativo
p0

e geralmente é expresso em percentagem, mediante a multiplicação por 100.


De maneira mais geral, se po e p6 sáo os preços de uma utilidade durante
os períodos o e ó respectivamente, o preço relativo do período b, referido ao do pedido
a, é definid o por pblpa e representado por po7á, notação que se verificará que é útil.
Por meio dessa notação, o preço relativo da Equação (1) pode ser representado por
Potn.

Exemplo 1. Admita-se que os preços, para o consumidor, de um litro de


leite, nos anos de 1975 e 1980, são 25 e 30 cruzeiros, respectivamente. Tomando-se
1975 como ano bd.sico e 1980 como o ano dado, tem-se.

Preço relativo = prsTb/lsto=


ilffij*#!= # = 1,2 = t2ovo,
ou, abreviadamente, 120, com a omisSão do símbolo 7o, corrto aparece freqüen-
temente na literatura da estatística. Esse resultado significa simplesmente que em
1980 o preço do leite foi de 1207o do de 1975, isto é, aumentou de 207o.
Exemplo 2. No exemplo 1, tomando-se 1980 como ano básico e 1975 como
o ano dado, tem-se

aa z'
Preço rerativo = p1sto/1s7'=
flffij* 1#ã = # = i = ]-
Cap. 17 Números índices 477

ou, abreviadamente, Sa Isso significa que, em 1975, o preço do leite era AS


]. !f,
do de 1980, isto é, d.imiruuiu ae rc!fr.
Note-se que o preço relativo de um certo período, referido ao mesnlo
período, é sempre 1007o ou 100. Em particular, o preço relativo correspondente a
um período básico é sempre 100. Esse fato explica a notação freqüentemente usada
na literatura da estatística e que consiste em escrever, por exemplo, 1975 = 100,
para indicar que o ano 1975 é tomado como período básico.

Propriedade dos preços relativos


S" pr, pb, pc,... representam os preços dos períodos a, b, c, ... respectivamente,
existem as seguintes propriedades dos preços relativos associados. A demonstraçào
decorre diretamente das definições.
1. Propriedade de identidade pa/a = I
Eia estabelece, simplesmente, que o preço relativo de um dado período,
relacionado ao mesmo período, é 1 ou 1007o.
2. Propriedade da reversibilidade do tempo
I
Pa/b Ph/a= I ou Pa/h=
Pb/a

Ela estabelece que, se dois períodos são permutados, os preços relativos


correspondentes são recíprocos. Veja os exemplos 1 e 2, acirna.
3. Propriedade cíclica ou circular
Pa/h Ph/c Pc/a = | ,

pa/b pb/c pc/cl pc)/a = 1 etc.


4. Propriedade cíclica ou circular modificada
Pa/b Pb/c = Pa/c,

Pa/b Pb/c Pc/d = Pa/detç.


Decorre diretamente das propriedades 2 e 3.
478 Estatística Cap. 17

Relativos de quantidade ou volume


Em vez da comparação dos preços de uma utilidade, pode-se estar interessada na
de suas quantidades ou de seus uolumes, por exemplo a quantidade ou o volume da
produção, consumo, exportação etc. Nesses casos, em quantidades ou uolumes
relatiuos. Para simplificar, como no caso dos preços, admite-se que as quantidades
são constantes em algum período. Se elas não o são, pode-se tomar uma média
adequada desse período, para que aquela hipótese seja válida.
Se qo representa a quantidade ou volume de uma utilidade produzida,
consumida, exportada etc., durante o período básico, enquanto qn representa a
correspondente quantidade produzida, consumida etc., durante um determinado
período, define-se:

Qn
Quantidade ou volume relativo = (2)
q0

que é geralmente expressa em percentagem.

Como no caso dos preços relativos, emprega-se a notação Qa/b = q6lqo, para
representar a quantidade relativa do período ó, referida ao período o. As mesmas
observações e propriedades pertinentes aos preços relativos são aplicáveis às quan-
tidades relativas.

Valores relativos
Se p é o preço de uma utilidade, durante um período, e q é aquantidade ou volume
produzido, vendido etc., durante esse período, pq é, entáo, denominado ualor
iotal. Em conseqüência, se 1.000 litros de leite são vendidos a Cr$ g0 o litro, o valor
total é Cr$ 30 x 1.000 = Cr$ 30.000.
Se p6 e q0 representam o preço e a quantidade de uma utilidade, durante
um período básico, enquanto Pn e Qn representam aquelas grandezas, durante um
determinado período, os valores totais, durante estes períodos são dados por v0 e
vr., respectivamente, e definidos por

v' ( p,\ ( q,\


Valorrelativo= " =-Pn Çn = (3)
Vs qo Po [^][^J=
- preço relativo x quantidade relativa.

As mesmas observações, notações e propriedades pertinentes aos preços e


quantidades relativas podem ser aplicadas aos valores relativos.
Cap. 17 Números índices 479

Particularmente, se pa/b, ea/b ê !a/b representam o preço, a quantidade e


os valores relativos do período á, referidos ao período a, entáo, como na Equação (3):

Ya/b = Pa/b Ça/b,

que é denominada propriedade da reuersibilidade d,os fatores.

Elos e cadeias relativos


Sejam pb pz, pB, ...os preços durante os intervalos sucessivos de tempo 7,2,3, ...
Então, pl/2, p2/8, pB/4, ...representam os preços relativos de cada intervalo de
tempo, referidos ao anterior e são denominados elos relatiuos.
Exemplo 1. Se os preços de uma utilidade durante os anos de 1973,1974,
1975, 1976 são 8, 12, 75, 18 cruzeiros, respectivamente, os elos relativos são
ptsly/rsl4= l2/8 = 150 (Vo); ptslatsll= l5/L2 = 125(Eo); pg75/ts76= 18/15 = 120 (Vo).
Os preços relativos de um período determinado, referido a qualquer outro
período tomado como base, pode ser expresso, sempre, em função dos elos relativos.
Essa é uma conseqüência da propriedade cíclica ou circular dos relativos. Em
conseqüência, por exemplo, pb/z= p5/4 p4/B p3/2.

Exemplo 2. De acordo com o exemplo 1, o preço relativo de 1976, referente


ao ano básico de 1973, é

12.t5.18_18_rr,
p tgi 3/ 197 6 = p 197 3/ I 9i 4 p 191 4/ t9i 5 p 19 65/ 197 6 = g 12.JS= g =zz5(Vo).
Os preços relativos, referidos a um período básico fixo que, como foi visto,
pode ser obtido mediante o emprego de elos relativos, são denominados, às vezes,
relatiuos em cadeia referidos a essa base, ou relativos encadeados à base Íixa.
Exemplo 3. Nos exemplos 7 e 2, a coleção dos relativos em cadeia dos anos
1974,1975 e 1976, referidos ao ano base de 1973, é dada por
t2
P t9'73/ tgi 4 =
8
= 150(7o) .

L2 15
PtgTg/tgl; = Pr97 s/tgl 4 Ptg74/1975 =
812 187 ,5 (Vo)

12.L5 1g_or^
zzo (Vo)
PtgTB/t}7 6 = Pt97 s/t97 4 Prc7aw75 Prg75/r976 = A LZ .

As idéias apresentadas são aplicáveis, também, tanto a quantidades como


a valores relativos.
Estatística Cap. 17

Problemas que implicam o cálculo de nÚmeros índices


Na prática, não interessa muito a comparação de preços, quantidades ou valores de
uma utilidade única, mas a de grandes grupos delas. Por exemplo, ao calcular um
índice de custo de vida, não se deseja, apenas, comparar os preços do leite em um
período, em relação ao de outro, mas deseja-se também comparar os preços dos ovos,
da carne, do pão, dos aluguéis, das roupas etc., a fim de obter-se um quadro geral.
Naturalmente, poder-se-ia simplesmente relacionar os preços relativos de todas as
comodidades. Isso, entretanto, não seria satisfatório. O que se desejaria seria um
único nímero índice que comparasse os preços médios de dois períodos.
Não é difícil prever que os cálculos dos números índices que envolvem
grupos de utilidades incluem muitos problemas que devem ser resolvidos. Por isso,
ao calcular o índice do custo de vida, por exemplo, deve-se determinar quais as
utilidades que serão incluídas, bem como ponderar suas importâncias relativas.
Podem-se coletar dados referentes aos preços e às quantidades dessas utilidades.
Enfrentam-se problemas tais como o que fazet quanto ao que concerne a
diferentes qualidades do mesmo tipo de utilidade, ou quando certos utensílios ou
materiais são disponíveis durante um certo ano e não o são durante o ano básico.
Finalmente, deve-se decidir como dispor em conjunto todas essas informações e
chegar a um único índice de custo de vida, que tenha significado prático.

O uso das médias


Posto que se pode chegar a um único número índice, que englobe uma grande
quantidade de informações, é fácil compreender que médias, como as consideradas
no Capítulo 3, desempenham papel importante no cálculo dos números índices.
Assim como há diversos métodos para o cálculo das médias, há também
vários para o dos números índices, cada um com suas vantagens e desvantagens.
A seguir serão examinados alguns métodos comumente usados na prática
e que se servem de vários tipos de processos para o cálculo das médias. Ainda que
inicialmente se fique restrito aos índices de preços, ver-se-á como são facilmente
feitas as modificações convenientes para os índices de quantidade ou de va1or.

Testes teóricos para os nÚmeros índices


É desejávei, do ponto de vista teórico, que os números índices de grupos de utilidades
tenham as propriedades satisfeitas pelos relativos (isto é, as dos números índices
de uma utilidade única). Diz-se de qualquer número índice que goze de uma certa
Cap. 17 Números índices 481

propriedade, que ele satisfaz ao teste associado a essa propriedade. Dessa forma,
por^ hiz-se que os números índices que apresentam a propriedade da
"""*pIo,
ieversibilidade do tempo satisfazem ao teste da reuersibilidade do tem.po etc.
Nenhum número índice já descoberto satisfaz a todos os testes, embora em
alguns casos eles sejam aproximadamente satisfeitos. O índice ideal de Fisher, que
.""rá ui.to mais adiânte, iatisfaz, particularmente, ao teste da reuersibilidade do
tempo e o da reuersibilid,ad,e d.os fatores, e satisfaz, mais_aproximadamente do que
qrulq,r", outro índice numérico conveniente, as propriedades consideradas impor-
tantes, donde seu nome de ideal.
Do ponto de vista prático, entretanto, outros números índices também são
úteis e alguns deles serão examinados.

Notação
Costuma-se representar por pn(t), pr('2), pn(3),.", os preços de uma primeira,
segunda, terceira,..., utilidade durante um certo período n. Os ?,rPç".,r.,"r"i3;
pondentes, durante um período básico, são representados Por P0''', Po'o', po'"'
ãt". O. números 1,2,3... são sobrescritos e não devem ser confundidos com os
expoentes. Por meio dessa notaçào,.o preço de uma utilidadeT, durante o período
n, pode, então, ser indicado Pot Pr'J'.
Como nos capítulos anteriores, pode-se usar a notação de somatório, para
representar a adição ãm relação ao índice j. Por exemplo, admitindo-se que há um
toial de N utilidades, a soma de seus preços durante o período ru poderia ser indicada
N
porL p§), ou X pP .Ét mais simples, contudo, omitir inteiramente o sobrescrito e
j=1
escrever Zpr, o que será feito quando disso não possa resultar nenhuma confusão.
Deve-se entretanto, ter em mente que Íica subtendido o simbolismo mais
completo. Por meio dessa notação, Ipg representaria a soma dos preços de todas as
utilidades, durante o período básico'
Usa-se uma notação semelhante para as quantidades e os valores.

Método agregado simples


Neste método de cáIcu1o de um índice de preço, expressa-se o total dos preços das
utilidades, em um dado ano, em percentagem do total dos preços das utilidades no
ano base. Em símbolos, tem-se:
Estatística Cap. 17

2p,
Indice de preço agregado simples = _ (4)
Lpo

em que Zpo= soma de todos os preços das utilidades, no ano básico, 2pr= soma dos
preços das utilidades correspondentes, no ano dado, e cujo resultado é expresso em
percentagem, como todos os números índices em geral.
Embora este método tenha a vantagem de ser fácil de aplicar, apresenta
duas grandes desvantagens, que o tornam pouco satisfatório.
1. Não se toma em consideração a importância relativa das várias utilidades.
Portanto, de acordo com este método, o mesmo peso, ou importância, seria
atribuído ao leite e ao creme de barbear, no cálculo do índice do custo de vida.
2. As unidades particulares, adotadas para a fixação dos preços, como litros,
metros cúbicos, quilos etc., afetam o valor do Índice.

Método das médias simples dos relativos


Neste método existem várias possibilidades, dependendo do processo adotado para
a determinação da média dos preços relativos, como a média aritmética, a geomé-
trica, a harmônica, a mediana etc. Adotando-se a média aritmética, por exemplo,
ter-se-ia:
Média aritmética simples dos índices dos preços relativos =
2 pn/po
(s)

em que 2 pn/po = soma de todos os preços relativos das utilidades, N = número


empregado dos preços relativos das utilidades.

Embora este método não apresente a segunda desvantagem do método


agregado simples, oferece ainda a primeira.

Método agregado ponderado


Para superar as desvantagens do método agregado simples, pondera-se o preço de
cada utilidade, mediante um fator conveniente, que é, freqüentemente, a quanti-
dade ou o volume da utilidade vendida durante o ano-base, o ano considerado, ou
qualquer ano típico (que pode consistir em uma média de vários anos). Esses pesos
indicam a importância de cada utilidade particular. Há três fórmulas possíveis,
Cap. 17 Números índices 483

conforme se empregarem as quantidades do ano básico, de um determinado ano, ou


de um ano típico, representadas por Qo, Qn e Ç1, respectivamente.

1. Índie de Laspeyres ou método do ano'base


Índice de preço agregado ponderado em relação às quantidades

zprqo (6.)
do ano-básico =
Lpoqo

2. Índi«e de Paasdre ou método do ano determinado


Índice de preço agregado ponderado em relação às quantidades
2prqn
de um determinado ano = (7)
Lpoqn

3. Método do ano típio


se q, representa o peso correspondente à quantidade' durante algum
período típico ú, define-se então:

Índice de preço agregado ponderado em relação às quantidades do ano típico =

zPnq, (8)
2poq,

Parat = o t = n, essa expressão torna-se equivalente às (6) e (7), respecti-


vamente.

índice ideal de Fisher


É definido por:
Índice de preço ideal de Fisher =

i-
L p_yqo
= l( ) íe.g. ) (e)
\" [i'^'o )l»Poq' )
Este índice é a média geométrica dos números índices de Laspeyres e
Paasche, dados pelas Equações (6) e (7). Como se observou anteriormente, o índice
ideal de Fischer satisfaz tanto o teste da reuersibilidade do tempo como ao da
reuersibilid,ad,e d,os fatores, o que lhe confere certa vantagem teórica sobre os outros
números índices.
484 Estatística Cap. 17

O índice de Marshall-Edgeworth
o índice de Marshall-Edgeworth emprega o método agregado ponderado do ano
típico, sendo o peso a média aritmética das quantidades do ano básico e do deter-
minado, isto é, n, = qnr. Levando esse valor de q; na Equação (8), tem-se:
*(qo +
Índice de preço de Marshall-Edgeworth =

2pn(qo + qn)
= (10)
»roq^ *
^
Método da média ponderada de relativos
Para superar as desvantagens do método da média simples de reiativos, pode-se
empregar uma média ponderada de relatiuos. A média ponderada mais freqüen-
temente usada para esse fim é a aritmética, embora possam também ser emprega-
das outras, como a geométrica (Capítuto 3).

Neste método, pondera-se cada preço relativo, tomando-se para peso o


valor total da utilidade, expresso em alguma unidade monetária, como o cruzeiro.
Como o valor da utilidade é obtido pela multiplicação do seu preço, p, por sua
quantidade, e, os pesos são dados por pq.
Há três fórmulas possíveis, conforme forem adotados os valores do ano básico,
do ano dado ou do ano típico, representados porpg eO,pnene pt qy, respectivamente.

Média aritmética ponderada dos preços relativos, usando os valores do ano base
como pesos

2 (pn/pú (po qo) 2prqo


Lpoqo =-:Zpoqo (11)

Média aritmética ponderada dos preços relativos, usando os valores do ano dado
como pesos

z (pn/po) (P" Q")


(12)
z prqn

Média aritmética ponderada dos preços relativos, usando os valores do ano típico
como pesos =

2 (p"/pú (pt q,)


( 13)
Lp,q,
Cap. 17 Números índices 485

Note-se que a expressão (11) conduz ao mesmo resultado que a fórmula de


Laspeyres dada em (6).

Números índices de quantidade ou de volume


As fórmulas anteriores para a obtençáo de números índices de preços, podem ser
facilmente modificadas para a obtenção de números índices de quantidades ou de
volume, pela simples permutação entre p e q. Por exemplo, uma substituição dep
por q na expressão (5) dá:
Média aritmética simples dos índices de volumes relativos =
2 q,/po (14)

em que Z qn/qo= soma de todas as quantidades relativas das utilidades, N = número


empregado de quantidades relativas das utilidades. De modo semelhante, as fórmu-
las (6) e (7) tornam-se:
Índice agregado ponderado de volume, usando os preços do ano-base como
P€SOS =

L qnpo ( 1s)
2qopo

Este é, às vezes, denominado ín'dice de uolume de Laspeyres.


Índice agregado ponderado de volume, usando os preços do ano dado como
PêSOS =

2 qnp, (16)
=-:Lqopn ,

Este é, às vezes, denominado índice de uolume de Paasche


Nessas fórmulas, usam-se os preços como pesoS. Entretanto, pode-se usar,
em vez deles, quaisquer outros pesos convenientes.
De modo semelhante, podem ser modificadas as fórmulas (8) a (13).
486 Estatística Cap. 17

Números índices de valores


Assim como foram obtidas fórmulas para índices de preço e volume, também podem
ser conseguidas fórmulas para írudices de ualores. O mais simples desses índices é

índice de valor =»=W


LPoqo
, ( 17)

em que 2 pO = valor total de todas as utilidades no período básico,


qO Z pn qr. = valor
total de todas as utilidades no período dado.
Esse é tmíndice agregado simples, porque os valores não são ponderados.
Podem ser estabelecidas outras fórmulas, nas quais os pesos indiquem a impor-
tância relativa dos itens.

Mudança do período-base dos números índices


Na prática, é desejável que o período-base escolhido, para fins de comparação, seja
de estabilidade econômica e não seja muito distante no passado. De tempos em
tempos, entretanto, pode ser necessário mudar o período base.
Uma possibilidade consiste em recalcular todos os números índices, me-
diante a utilização do novo período-base. O método aproximado mais simples
consiste em dividir todos os números índices dos vários anos, correspondentes ao
período-base antigo, pelo número índice correspondente à nova base, exprimindo-se
os resultados em percentagem. Esses resultados representam os novos números
índices, sendo o do novo período-base 100(7o), como deveria ser.
Matematicamente falando, esse método somente é estritamente aplicável
quando os números Índices satisfazem o teste circulqr. Entretanto, para muitos tipos
de números índices, o método, afortunadamente, produz resultados que, na prática,
estão bastante próximos dos que seriam obtidos teoricamente.

DeÍlação das séries temporais


Embora os salários individuais possam, teoricamente, estar ascendendo através de
um período de anos, os sald.rios reois podem, realmente, estar declinando, devido
ao aumento do custo de vida e, em conseqüência, diminuindo de poder aquisitiuo.
Estes salários reais podem ser obtidos mediante a divisão d.os saldrios aparentes ou
físicos dos vários anos pelos números índices do custo de uida ou dos preços para o
consumidor desses anos, adotado um período básico adequado.
Cap. 17 Números índices 487

Por exemplo, se o salário de um indivíduo, em 1960, é l50Vo do de 1950 (isto


é, aumentou de 507o), enquanto o índice de custo de vida dobrou, durante o mesmo
período, o salário real do indivíduo, em 1960, é apenas 15012 = 7íVo do que era em
1950.

Descreveu-se, assim, o processo de deflacionar urna série temporal que


envolve salários. Processo semelhante pode ser usado para deflacionar outras séries
temporais. No Capítulo 16, por exemplo, usou-se um processo anáIogo para deses-
tacionalizar dados, mediante o emprego de números índices por estaçã,o.

Matematicamente falando, esse método de deflação das séries temporais


somente é estritamente aplicável quando o número índice satisfaz o teste de reuersi-
bilidade dos fatores e, por essa razão, o índice ideal de Fisher é adequado. Entre-
tanto, outros números índices podem ser usados porque produzem resultados
corretos, para a maioria dos fins práticos.

PROBLEMAS RESOLVIDOS

Preços relativos
1. Os preços médios, no varejo, de uma produção, por unidade, durante os anos
de 1973 a 1978, estão apresentados na Tabela L7.1. (a) Adotado o ano de 1973
como base, determinar os preços relativos correspondentes aos anos de 1976 e
1978. (á) Adotado o ano de 1976 como base, determinar os preços relativos
correspondentes a todos os anos dados. (c) Adotado o período de 1973 a lg75
como base, determinar os preços relativos correspondentes a todos os anos
dados.

Tabela 17.1

Anos 1913 t91 4 191 5 1976 1971 t918


Preços t4,95 t4,94 1 5,10 15.65 16,28 16,53

Solução
(o) Preço relativo de 1976, adotado o ano de 1973 como base =
t.
Estatística Cap. 17

= ptsi3/1s76= Epgl# = +g = 1,047 = 104.7Vo


preço em 1973 14.95

Preço relativo de 1978, adotado o ano de 19TB como base


=

= ptsi3/tsis= pr9çq9!q+3 = ++ = 1,106 = ll0.6vo.


preç'o em 1973 14,95

Na literatura estatística, é costume omitir o símbolo Vo quand.o são citados


os números índices, embora ele seja subentendido. Por meio dessa convenção, os
preços relativos são citados como 104,7 e 110,6, respectivamente.
(ó) Divide-se cada preço, no varejo, da Tabela 17.1, por 15,65, correspondente
ao ano de 1976. Então, os preços relativos desejados, expressos em percen-
tagem, são os indicados na Tabela 17.2.

Tabela 17.2

Anos 1973 1974 t97 5 1976 1917 1918


Preço relativo q55
(1976 = 100) 95,5 96,5 100,0 104,0 105.6

Eles representam os números índices dos preços no varejo para o produto,


correspondente aos anos de 7973 a 1978, sendo toda a coleção denominadi série de
índices. Note-se que o preço relativo (ou número índice de preço) correspondente ao
ano de 7976 é, em percentagem, igual a 100, o que sempre ocorre em um período-
base. Isso é freqüentemente descrito, simbolicamente, na literatura estàtísti.a,
como 1976 = 100.
(c) Média aritmética dos preços dos anos de 19ZB a LgTS =

L4.95+19.94+15 10
= 15,00.

Divide-se cada preço no varejo, da Tabera 12.1, por esse preço médio do
período-base, 15,00. Então, os preços relativos desejados, expressos em percen-
tagem, são os indicados na Tabela 17.8.

Tabela 17.3

Anos 1973 191 4 t97 5 1916 1917 tgt8


Preço relativo
(1973-1975 = 100) 99,7 99,6 100,7 104,3 108,5 110,2
Cap. 17 Números índices 489

Eles representam os números índices dos preços, no varejo, do produto,


durante os anos de 1973 a 1978, adotado o período de 1973 at975 comobase. Note-se
que a média aritmética dos números índices correspondentes ao período-base, de
1973 a 1975 é (99,7 + 99,6 + 100,7)13 - 100, o que sempre ocorre em um período
base. Isso é freqüentemente descrito, simbolicamente, na literatura estatística,
como 1973-1975 = 100.

2. Provar que (o) pa lb pb lc = palc, @) p" to pb la = L.

Solução

(a) Por deÍinição, palbpblc= Pb Pc Pc


= Pa lc.
Pa ob Pa

(ó) Por definição, palbpbla= Pb


_ Pa
_- t

Pa Pb

3. Usando a Tabela 17.3 do Problema 1(c), com o período de 1973 a 1975 como
base, obter os preços relativos referente ao ano de 1976 como base.

Solução
Divide-se cada preço relativo da Tabela 17.3 por 104,3, preço relativo corres-
pondente aL976. Os números resultantes, expressos em percentagem, são os preços
relativos desejados e estão apresentados, desprezados os erros de arredondamento,
na Tabela 17 .2 do Problema 1(ó).
Este exemplo mostra que, dada uma série de índices correspondente a um
período-base, pode-se obter a série correspondente a outro período-base sem usar
os dados referentes aos preços originais. O processo adotado é conhecido como
mudança do período-base ou deslocamento da base.

4. Em 1976, o preço médio de um bem era 207o xtperíor ao de 1975, inferior ao


d,e 1974 e 50% superior ao de 1977. Reduzir os dados a preços relativos,
adotando como base os anos (a) 1975, (b) 1976 e (c) de lg74 a 1975.

Solução
(a) Tomando-se o ano de 1975 como base, o preço relativo (ou número índice)
que lhe correspondê é 100. (Simbolicamente, 1975 = 100 ou 1007o).
Estatística Cap. 17

Como o preço, em 1976, é 20Vo superior ao de 1975, o preço relativo


correspondente a 1976 é 100 + 20 - L2O, isto é, o preço em 1976 é 1207o do preço em
1975.

Como o preço em 1976 é 207o inferior ao de 1974, ele deve ser 100 - 20 =
= 80Vo do preço eml974. Então, o preço em1974 é 1/0,80 = 514 = 725Vo do preço em
1976, isto é, o preço relativo em 1974 é 1257o do de 1976, isto é, 1257o de 120 = 159.

Como o preço em 1976 é 507o superior ao de L977, ele deve ser 100 + 50 =
= 150 do de 1977. Então, o preço em 7977 é tlL,50 = 213 do preço de 1976, isto é, o
preço relativo em L977 é 2/3 d,o de 1976, isto é, 213 de 120 = 80. Por conseguinte, os
preços relativos desejados são os apresentados na Tabela 17.4.

Tabela 17.4

Anos t91 4 r91 5 t976 t911


Preço relativo
150 100 120 80
(1975=100)

(ó) Usa-se o método da mudança do período-base, estabelecido no Problema B.


Divide-se cada preço relativo da Tabela l7.4por 120 (preço relativo corres-
pondente ao ano-base 1976) e exprime-se o resultado em percentagem.
Então, os preços relativos, referidos ao ano-base de 1976, são apresentados
na Tabela 17.5.

Tabela 17.5

Anos 197 4 t91 5 t976 t911


Preço relativo
125 83,3 100 66,7
(1976=100)

Pode-se também proceder diretamente, por meio de raciocínio, como no


item (o), fazendo-se 1976 = 100.
(c) Primeiro método, utilizando o item (o).
De acordo com a Tabela 17.4, a média aritmética dos preços relativos, em
1
L974e1975,é;(150 + 100) =125. Então, dividindo-secadapreçorelativodaTabela
L7.4 por 125, obtém-se os preços relativos desejados, que estão apresentados na
Tabela 17.6.
Cap. 17 Números índices 491

Tabela 17.6

Anos 197 4 197 5 t916 1977

Preço relativo
120 80 96 64
(1974-1975 = 100)

Segundo método, utilizando o item (b).


De acordo com a Tabela 17.5, a média aritmética dos preços relativos, em
1
1974 e 1975, é)ttZS
+ 83,3) = 104,2. Então, dividindo-se cada preço relativo da
Tabela 17.5 por 704,2, obtém-se resultados iguais aos do primeiro método.

Quantidade ou volume relativos


5. Na Tabela 17.7 encontra-se a produção brasileira anual de tratores no período
1976 a 1982. Reduzir os dados a quantidades relativas, utilizando como base
o ano de 1979.

Tabela 17.7

Anos 1916 1977 t918 r919 I 980 198 1 1982

Tratores '71 .713 59.419 55.87 4 64.5t1 69.993 41.O22 31.566


F onte : Conjuntura Econômtca.

Solução
Dividindo-se a produção de cada ano por 64.511, que é a produção do ano-base,
encontram-se as quantidades relativas desejadas e que estão apreseútadas, em
forma de percentagem, na Tabela 17.8.

Tabela 17.8

Anos t976 1977 r978 t919 1 980 1981 1982

Quantidades relqtivus 111,2 92,1 86,6 100,0 108,5 '7) 7 58,2


(1979=100)
Estatística Cap. 17

Valores relativos
6. Em janeiro de 1980, uma fábrica pagou um total de Cr$ 4.000.000 a I20
empregados incluídos na folha de pagamento. Em julho do mesmo ano, a
fábrica tinha mais 30 empregados e pagou mais Cr$ 600.000 do que em janeiro.
Adotado janeiro de 1980 como base, determinar (a) o número índice de emprego
(quantidade relativa) em julho; (ó) o número índice da despesa com a mão-de-
obra (valor relativo) em julho. (c) De acordo com o resultado da expressão
"Preço relativo" x "Quantidade relativa" = "Valor relativo", que interpretaçào
pode ser dada ao preço relativo, neste caso?

Solução
(o) Número índice de emprego = Quantidade relativa =
120 + 30
= -ff = l'25 = l25Vo ou 125'

(ó) Número índice da despesa com a mão-de-obra = valor relativo =


Cr$ 4.000.000 + Cr$ 600.000
Cr$4.000.000 = 1,15 = llSVo ou 115.

(c) Preço relativo valor relativo


0,92 = 92vo oag2.
= quantidade relativa = #=
Pode-se interpretar esse resultado como número índice de custo por empre-
godo. Significa que, em julho de 1980, o custo por empregado era g2%o do período
básico, janeiro de 1980. Esse valor é, às vezes, denominado número índice do custo
de trabalho per capita.

7. Uma companhia espera que suas vendas de um artigo aumentem de 50Vo no


próximo ano. De que percentagem deverá ser aumentado o preço de venda,
para que a venda bruta duplique?

Solução
Preço relativo x quantidade relativa = valor relativo
ou

Preço relativo x 150Vo = 2007o


Cap. L7 Números índices

Então, preço relativo = 200/150 = 413 = ne !ro, de modo que os preços de

venda deveriam ser aumentados de: 133


*- 100 = zs
!r".

Elo e cadeia relativos


8. Os elos relativos dos preços no período de 1976 a 1980 sáo L25,120, 135, 150
e 175, respectivamente. (o) Determinar o preço relativo de 1977, com o ano de
1975 como base. (ó) Encadear os elos relativos, com o ano de l-976 como base.

Solução

Pr975/1976 = 7,25, p1g767tg77 = 7,20, pp777197g = 1,35,

Prg78/t979 = 1,50, pg7g719gg = 1,75

(a) ptgtsttgTt = prs75/ts76pts76/ts77 = (7,25) (1,20) = 1,50 = 1507o

(b) p$76/rs75 = 11 = -:---:= = 807o


PtsTE/rs76 r,zb
Pt976/t976 = l007a Pp767tgtt = 1207o

PL976/1978 = pts76/tg77 prs77/ts78 = (1,20) (1,35) = 1,62 = 162Vo

Pr976/t979 = p$tatstt Prsy7/tsTyprsTB/ts1s = (1,20) (1,35) (1,50) =

= 2,43 : 243Vo

Pt976/1980 = p t97 6/ t97 7 p t97 7 / t97 8 p L97 8/ 197 Ip r97 9/ 1980 =

(1,20) (1,35) (1,50) (1,75) = 425% .

Números índices. Método agregado simples


9. A Tabela 17.9 apresenta os preços médios por atacado, em um certo país, e a
produção de leite, manteiga e queijo, nos anos de 1969, 1970 e 1978. Calcular
um índice agregado simples dos preços por atacado desses produtos de laticÍnio
para o ano de 1978, tomando como bases os anos (o) 1969; e (ó) de 1969 a 1970.
494 Estatística Cap. 17

Tabela 17.9

Preços Quantidade s produzidas


(tonbladas)

1969 1970 1978 1969 1970 1978

Leite 3,95 3,89 4,t3 961 5 91 t7 t0436


Manteiga 61,5 62,2 59,7 tt7,7 115,5 115,5
34,8 35,4 '77 A7
Queijo 38,9 14,39 82.19

Solução

(o) Índice agregado simples dos preços oo = 3?


LPo =

soma dos preços do ano dado (1978) _ 4,13 + 59,7 + 38,9 _


= . =
79y 3,95 -,. 61ga 34 g =

= 102,5(7o), isto é, os preços médios por atacado, em 1978, são 102,5Vo


dos de 1969 (ou 2,5Vo maiores).
(ó) Preço médio (média aritmética) do leite no período-base
de 1969 a 1970 =|e,os + S,89) =8,92.

Preço médio (média aritmética) da manteiga no período-base


de 1969 a 1970 = * tOr,s
2
+ 62,2)= 61,85.

Preço médio (média aritmética) do queijo no período-base


de 1969 a 1970 = * (g+,g
2
+ 85,4)= 35,1.

Índice agregad.o simples de preço =»-q!


Lpo -

=ro* soma dos preços do ano dado (1978) _


-
4.13+59.7+38.9
3,92+61,85+35,1 = l0].,8%o
Cap. 17 Números índices

Note-se que este método náo faz uso das quantidades produzidas mas,
somente, dos preços das utilidades.
Para as finalidades da exemplifrcaçáo, utilizaram-se apenas 3 bens para o
cálculo de um número índice. Realmente, na prática, muitos outros bens seriam
incluídos.

10. Explicar por que os números índices obtidos no Problema 9 podem ser inade-
q,rádo. para medir as alterações de preços de uma dada utilidade.

Solução
O índice calculado no Problema 9 não leva em consideração a importância relativa
das utilidades, que seria determinada, por exemplo, pela indicação de quanto é
usado pelo consumidor, ou quanto é produzido para os Íins de consumo. Essas
considerações serão feitas em problemas subseqüentes.

Método das médias simples de relativos


11. Usar o método das médias simples de relativos (média aritmética) para o
cálculo do índice de preços, por atacado, dos produtos de laticínio do Problema
9, para o ano de 1978, adotados como anos-base (o) 1969 e (á) de 1969 a 1970.

Solução
(o) os preços relativosdo leite, manteiga e queijo em 1978, com o ano de 1969
como base, são os seguintes:
preço do leite em 19ZQ
preço relativo do lei+^
" - = ++
preço do leite em 1969 3,95
= 104,6 (7o:);

Preço rerativo da manteig, = =


fffi
- ,9,7
= h= 9J,!
61,5 "- "
ç/o);

38'9
Preço relativo do queijo - #preço do queijo
'LrJv =
em 1969- 34,8
= 117,8(7o)'
496 Estatística Cap. 17

Média (aritmética) dos preços relativos =


104'6 + 9Z'1 + 111'8
= »pr/po - 3
= r04,5(vo).

(á) Com referência ao Problema 9(á), os preços relativos de 1978, com o período
de 1969 a 1970 como básico, são:
Preço relativo do leite =

= =
#= lo''4(vo):

Preço relativo da manteiga =

= =#ã1 =e6'5(7o);

Preço relativo do queijo =

= =H =n0,8(vo).
Média (aritmética) dos preços relativos =
2pr/p0.105,4 + 96,5 + 110,g
=N=B =t04,2(vo).

L2. Resolver o Problema 11, quando for usada a mediana em yez da média
aritmética.

Solução
(a) Número índice desejado = mediana dos preços relativos
104,6,97,1e 111,8 = t04,6.
(ó) Número índice desejado = mediana dos preços relativos
105,4, 96,5 e 110,8 = 105,4.
Cap. 17 Números índices

13. Resolver o Problema 11, quando for usada a média geométrica em lugar da
aritmética.

Solução
(o) Número índice desejado = média geométrica dos preços relativos 704,6,
g7,L e111,8 = ffi = 104,s, mediante o emprego de
logaritmos.
(ó) Número índice desejado = média geométrica dos preços relativos 105,4,
96,5 e 110,8 = ffi = 104,1, mediante o emprego de
Iogaritmos.

Método agregado ponderado. índices de Laspeyres e


Paasche
L4. Usando os dados do Problema 9, calcular um número de Laspeyres dos preços
para o ano de 1978, adotados como base (a) o ano de 1969 e (ó) o período de
1969 a 1970.

Solução
(o) Índice de Laspeyres = índice agregado ponderado dos preços, com as

quantidades do período-base como pesos = =


m
_ X (preços em 1978) (quantidades em 1969) _
E (preços em 1969) lquantidades em 1969)
_ (4,13 ) (9.675 ) + (59,7 ) (117,7) + (38,9 ) (77,93 ) = 103',84 ou 103',8(74)'
- (3,95) (9.675) + (61§) (117,7) + (34,8)(77,g3'
(ó) As quantidades médias de leite, manteiga e queijo, produzidas no pe-
ríodo de 1969 a 1970, sào + 115,5)
Iro.azs + 9.7L7) =
9.696;
IOrt,z =
1

= 116,6 e )(77,93 + 74,39) = 76,16, respectivamente. Os preços médios no


período de 1969 a 1970 estão indicados no Problema 9.
Estatística Cap. 17

P'
2 qo
Índice de Laspeyres = zpoqo =

_ I (preços em 1978) (quantidades médias no período 1969-1970) _


I (preços em 1969-70) (quantidades médias no período 196F1970)
_
= ) + (59,7 ) (116,6) + (38,9 ) (76,16 )
(4,13 ) (9.696
= 104'33 oul04'3(7o)'
c4-g2x9.696) + (61,85) (116,6) + (85,1) (76,16,

15. Usando os dados do Problema 9, calcular um número índice de Paasche dos


preços, para o ano de 1978, adotados como base (o) o ano de 1969 e (ó) o período
de 1969 a L970.

Solução
(o) Índice de Paasche = índice agregad.o dos preços com as quantidades do
período-base como pêsos =

z p, qn r (preços em 1978 ) (quantidades em 1978 )


= zpoqr =_ _
=
1p*ç
_ (4,13)(10.436) + (59,7)(115,5) + (38,9)(82,79)
- (3,95 ) (10.436) + (61,5 ) (115,5) + (34,8 ) (82,79 = 108,93 outOB,g(Vo).

2-!'st
ró) Índice de Paasche =
LPoQn
-
_ X (preços em 1978 ) (quantidades em 1978 ) _
- X(preços em 1969-1970)(quantidadesem 1978,1 -

_ (4,13)(10.436) + (59,7)(115,5) + (38,9)(82,79i


=
ê-gzxro.436) + (61,85) (115,5) + (85,1 ) (82,7ú
= lo4'43 ot 104'4(7o)'

16. Apresentar uma interpretação dos números índices de preço de (o) Laspeyres
e (ó) Paasche, com referência ao valor total (ou custo total) das utilidades.

Solução
(o) Ao calcular um índice de preço de Laspeyres, Ipg q0 representa o valor
total (ou custo total) de um conjunto de bens, serviços ou utilidades (às
vezes denominado cesta de mercadorias), no ano ou período-base. A quan-
tidade Zpn qo representa o valor total dessa n'tesnl.a. cesta, no ano ou
Cap. L7 Números índices 499

período dado. Por isso, um índice de preço de Laspeyres serve para medir
o custo total, em qualquer ano dado, de uma cesta de mercadorias adqui-
ridas no ano-base.
(ó) Ao calcular um índice de preço de Paasche,Zpoq, é o valor total (ou custo
total) das utilidades adquiridas, no ano dado, admitidos os preços do
ano-base, enquanto 2prqré o valor total das utilidades adquiridas, no ano
dado, aos preços desse ano. Portanto, um índice de preços de Paasche serve
para medir o custo total de :uma cesta de mercadorlos referido ao valor que
teria, se a compra tivesse sido efetuada no ano-base.

17. Estabelece-se, às vezes, que o índice de preço de Laspeyres tende a superesti-


nxar as variações de preço, enquanto o índice de Paasche tende a subestimd,-las.
Apresentar uma razão possível que comprove essa proposição.

Solução
De acordo com a lei econômica da oferta e da procurd, as pessoas tendem a comprar
menos quando os preços sáo altos e mais quando eles são baixos. Esta é a denomi-
nada demanda eld,stico, que é válida quando a necessidade das utilidades náo é
absolutamente es sencial.
No caso do índice de Laspeyres,Z pn Çg será algo maior do que deveria ser
porque de acordo com a lei da oferta e da procura, as pessoas tendem a comprar
menor quantidade de utilidades de alto preço e maior quantidade das de menor
preço, de modo que o custo total seria menor do que o previsto por meio deZp, q6.

Portanto, o índice de Laspeyr ur,*#, tende a ser maior do que d.everia ser.

No caso do índice de Paasche, os papéis desempenhados pelas quantidades


do ano-base e do ano dado são permutados, em relação aos do caso do índice de
Laspeyres. Essa permutação tende a tornar o índice de Paasche inferior ao que
deveria ser.
O raciocínio apresentado não significa que o índice de Laspeyres é sempre
maior do que o de Paasche mas, somentê, que ele tende a sê-Io. Na prática, o índice
de Laspeyres pode ser maior, menor ou igual ao de Paasche.

18. Provar que os números índices agregados ponderados de preços, com pesos
fixos (quantidades), satisfazem ao teste circular.
500 Estatística Cap. 17

Solução
Se qg representa os pesos fixos, tem-se, para quaisquer períodos a, b e c, os números
índices

,
ta/b =
zpo qo 167,
. zp" qo
Zp, qoe = Zpt qo'

Então,
po qo 2p" qo Zp.. qo Í
IaftIb^=ffi Z

ffi=ffi=Ia/c,
o que mostra que o teste circular é satisfeito.
Os números índices de Laspeyres e Paasche não satisfazem ao teste
circular.

índice ideal de Fisher


19. Mostrar que o índice ideal de Fisher é a média geométrica dos números índices
de Laspeyres e de Paasche.

Solução
Se F, L e P representam os números índices de Fisher, Laspeyres e Paasche,
respectivamente, tem-se

- Yltrosor[Zqoqn) -'
"=1@=",[Lp,
adotadas as definições de Z e P. Como t p ea média geométrica de 1, e P, conclui-se
^[
pelo resultado desejado.

20. Provar que o índice ideal de Fisher está compreendido entre os números índices
de Laspeyres e de Paasche.
Cap. 17 Números índices 501

Solução

Essa proposição decorre imediatamente do fato de que F, por ser igual tp , está
"{
situado entreL eP, porque L eP sáo números positivos. Note-se que, se L = P, então
F-L_P.
Como, de acordo com o Problema t7, L tem uma tendência de superestimar
as variações dos preços, enquanto P tem uma tendência de subestimó,-las, segtte-se que
F, que está situado entre L e P, proporcionará melhor estimativa do que L ou P.

2L. Determinar o índice ideal de Fisher de preços para os produtos de laticínio do


Problema 9, para o ano de 1978, admitidos como base (a) o ano de 1969 e (b) o
período de 1969 a1970.

Solução
(a) F = { LP = \,I1ffi§4) (10er0 - 103,9, de acord.o com os Problemas l4(a) e
15(o).

(b) tr = LP = = 104,4, de acordo com os Problemas L4(b) e


^[
15(ó).

22. Provar que o índice ideal de Fisher satisfaz ao teste de reversibilidade do


tempo.

Solução
SejaFgTro número índice ideal de Fisher para um ano dado, referido a um ano-base,
e Fn/o o índice ideal de Fisher, quando o ano-base e o ano dado são permutados.
Então, o teste da reversibilidade do tempo será satisfeito se
Fo/r= l/Fn|gou FgTrFn/o= l.
Por definição,

Fo/n=W'Então Fn/o=
502 Estatística Cap. 17

Fo/rFn/o: =,

lndice de Marshal l-Edgeworth

2s. (o) Provar que, se \ .f*+;.!r, xz,yL,y2sáo


*.?r,então "*queX1,
quaisquer números positivos.
(á) Usar o resultado
do item (o) para provar que o número índice de Marshall-
Edgeworth está compreendido entre os números índices de Laspeyres e
Paasche.

Solução

(o) Se X, Y.
Xr. yr, então (1) X{2 < XzYr

Somando-seX1X2 a ambos os membros da expressão (1) tem-se X1X2 +


+ X1Y2 < XtXz + X2Y1, ou X1(X2 * Yil < Xz(Xr + Yr), ou (2) {! . f;+; ,

mediante a divisão de ambos os membros por X2(X2 + Yil.


Somando-se Y1Y2 a ambos os membros da expressão (1), tem-se X1Y2 +
+ Y1Y2 < XzYt + Y1Y2 ou Y2(X1+ Yr) < Yt(Xz + Y2) ou

^ Xy+Y1 Y1
$) x2 + Y2' rr'
mediante a divisão de ambos os membros por Y1(X1 + Yr).
De (2) e (3) decorre o resultado desejado.
(á) Caso 1. O índice de Laspeyres é menor do que o de Paasche.

Sejam XL = 2 p, qO, X2 = » pO qO, YL - 2 pn en, Y2 = L po en.

X.'( Y,
Então, -,' liY2
z\2
de modo que, de acordo com (o),
Cap. 17 Números índices 503

Lprqo LPnqo + 2PrQ, -2PnQn


Zpoqo' Zpo^ * ,o* 'ZPoq,
ou
>Jtlo . Lln lgg :-!,\ - 2J, 1n

Lpoqo'z^1n*
^'L-Psq, Paasche'
ou índices de Laspeyres < índice de Marshall-Edgeworth < índice de
Caso2.oíndiced.ePaascheémenordoqueodeLaspeyres.
Sejam Xt=» Pn Qn,Xz=Z P0 Qn,Yt=» Pn Q0'Yz=2 po qo'

!: .!,'de modo que, de acord'o com (o),


Então,'x2
Y2

Zprqn ZPnqn + LPnqo -ZPnÇo


Zpoq,'í por* 2ro^' » nqo
ou
ZP,qn ZPn@o+4à -LPrqn
»poqr' »rrt* >Poq,
^t
ou índice de paasche < índice de Marshall-Edgeworth < índice de Laspeyres'
De acordo com os casos 1 e 2 conclui-se que, independentemente do índice
de Laspeyres ser maior ou menor do que o de Paasche, o de Marshall-Edgeworth
estará compreendido entre eles.

Números índices de valores


24. Provar que o índice ideal de Fisher satisfaz ao teste de reversibilidade dos
fatores.

Solução
que: (índice
o teste de reversibilidade dos fatores será satisfeito se o índice for ta1
de preço) (índice de quantidade) = índice de valor'

sejam Fp e Fq,respectivamente, o índice ideal de preços ê o de


quantidade'
ambos de Fisher. Então,
Estatística Cap. 17

FpFq=m@=r##=índicede
valor, de modo que o índice ideal de Fisher satisfaz ao teste de reversibilidade dos
fatores.

Mudança do período básico dos números índices


25. Estabelecer a validade do método do Problema 3 para a obtenção de preços
relativos, referentes ao novo período básico.

Solução
Admita-se que os períodos são numerados consecutivamente, de 1 a N, como na
primeira linha da Tabela 17.10, e sejam pb p2, -..pN os preços desses períodos,
constantes da segunda linha da tabela.

Tabela 17.10
Período I 2 -l j k N
Preços P1 p2 p3 pi Pk PN
Preços relativos pj/1 Pj/2 P j/3 1007o P j/k Pj/N
correspondentes ao
período primitivo j
Preços relativos P k/l Pk/z Pk/i Pk/3 pk/j Pk/j lOOTo Pk/N
correspondentes ao
período novo k

Os preços relativos correspondentes aos períodos j e k, denominados pri-


mitivo e novo, respectivamente, estão dispostos nas 3ê e 4a linhas da tabela. Nesse
caso pj/L = PtlPj, pj/2 = p2lpj etc.

É claro que a quarta linha pode ser obtida da terceira, mediante a divisão
de cada casa por pj/4, isto é, preço relativo do período É referido ao período7 tomado
como base.
Cap. 17 Números índices 505

Por exemplo:
pi!!=Upi _4 p*rretc.
P1t* P*/Pi Pk'

Os resultados são claramente aplicáveis a quantidades e valores relativos,


bem como a preços relativos.

26. Provar que o método do Problema 25 para a mudança do período-base dos


números índices somente é aplicável quando os números índices satisfazem ao
teste circular.

Solução
Se representarmos os números índices para os vários períodos com o de ordem 7
tomado como base por
(l) Iity lyz, ..., IltN
e os números índices correspondentes com o período á como base por

(2) I*t t, Iuz, ..., I rtN,

obteremos a seqüência (2) dividindo-se cada termo da seqüência (1) pot lj/k se e

somente se
L,,
-!: = Iptr I;,o
t.i ,k
!' k = Ih z, ...
tj.

ou:

Iitt = Iitn ' Ipn, Iitz = Iih ' Ih/2, ...,

o que implica os números índices satisfazerem ao teste circular.


Como os números índices de Laspeyres, Paasche, Fisher e Marshall-Edge-
worth não satisfazer1 ao teste circular, o método para mudança de base não lhes é
exatamente. Entretanto, na prática' há aplicação aproximada'
Os números índices agregados ponderados, com os pesos de um ano fixo,
satisfazem ao teste circular. Aos números Índices calculados dessa maneira, o
método apresentado para a mudança de base tem aplicação exata.

27. A Tabela 17.11 apresenta o Índice de Produçáo Industrial para o Brasil no


período 1975-1980, tendo como ano-base 1975. Obter uma nova série adotando
como base (o) o ano de 1977 e (ó) o período 1977-1978'
Estatística Cap. 17

Tabela 17.11
Anos 191 5 1976 1911 t91 8 1919 1980
Indice (1975=100) 100,0 t12,5 115,1 t23,8 132.8 142,4
F onte : Conjuntura Econômica

Solução
(a) Divide-se cada Índice da tabela por 115,1 (correspondente ao novo ano-
base) e exprime-se o resultado em percentagem, tal como indicado na
Tabela 17.12.

Tabela 17.12
Anos t975 1976 1917 1978 1919 1980
Índice (1977 = 1gg7 86,9 97,1 100,0 t07,6 115,4 123,7
(ó) Calcula-se a média dos índices referentes ao novo período-base, isto é,
referente aos anos de Lg77 e 1978:
l12 (ll5,l + 123,8) = 119,45

Divide-se cada índice da tabela por 119,45, expressando-se o resultado em


percentagem, tal como indicado na Tabela 17.14.

Tabela 17.13
Anos t9'7 5 r916 r917 r978 r979 1980
Indice (77-78 = 100) 83,1 94.2 96.4 103,6 111.2 t19,2

DeÍlação de séries temporais


28. A Tabela 17.14 apresenta os valores do salário mínimo, vigente em dezembro
na cidade do Rio de Janeiro, bem como os valores do Índice de Preços ao
consumidor, também para o Rio de Janeiro e para o mês de dezembro,
calculados pela Fundação Getúlio Vargas. Determinar a respectiva série de
salários mínimos reais (ot q, preços constantes), comparando-os com o de 1975.
Cap. 17 Números índices

Tabela 17.14

Anos t91 5 1916 1977 1918 r919 1 980 198 1 t982


Salário
mínimo em 532.80 768,00 1.106,40 1.560,00 2.932.80 5.788,80 1 1.928,00 23.568.00
dezembro
Índice 55,4 80,2 r 14.8 158,6 279,1 520,1 1.043,3 2.105,5

Fonte: Boletim do Banco Central e Conjuntura Econômica.

Solução
Calcula-se, primeiramente, a nova série do índice de preços com base no ano de
referência, isto é, l975.Paratanto, divide-se cada índice pelo valor de 1975, ou seja,
por 55,4, expressando-se o resultado em percentagem. Tais valores estão na Tabela
17.15. Divide-se, agora, o valor do salário mínimo pelo respectivo índice de preços
da Tabela 17.15, multiplicando o resultado por 100. Esta é a série dos salários
mínimos reais referida a 1975 e que também se encontra na Tabela 17.15.

Tabela 17.15

Anos 191 5 1916 1971 t978 r979 1980 1981 1982

Índice 207,2 286.3 503,8 938,8 1.883,2 3.800.s


r00,0 144.8
( 197 5=100)

Saldrio mínimo 533.98 544.88 582.14 616.62 633.39 620.t3


,rreql,, 532,80 530.39

29. Utilizar o Índice de Preços ao Consumidor do problema anterior par'a deter-


minar o poder aquisitivo do cruzeiro nos diversos anos, com referêncía a 1975.

Solução
Dividindo-se Cr$ 1,00 pelo índice de preço da Tabela 17.15 obtém-se os valores da
Tabela 17.16, que mostram o poder aquisitivo do cruzeiro de 1975 em cada um dos
anos dados. A casa 0,48, por exemplo, significa que um cruzeiro em 7977 poderia
comprar apenas 487o do que comprava em 1975.
508 Estatística Cap. 17

Diz-se que os dados enunciados em função do valor de um cruzeiro, em


algum período específico de tempo, são expressos em moeda constante, com aquele
período considerado como base ou referência.

Tabela 17.16

Anos 197 5 197 6 1911 1918 t979 1980 1981 1982


Poder aquisitivo I,00 0,69 0,48 0,35 0,20 0,11 0.05 0,03

PROBLEMAS SUPLEMENTARES

Preços relativos
30. A Tabela 17.17 apresenta o preço médio anual do quilo do açúcar reÍinado no
município de São Paulo para vários anos. Determinar os preços relativos (o)
em 1977, adotando 1975 como base; (ó) para o período 1979-1982, adotando
1976 como base; (c) para toda a série, adotando como base o período 1977-1978.

Tabela 17.17

Ano Preço (Cr$lkg)

t97 5 1,84
t916 2,98
t911 4,51
1978 6,00
t979 8,93
l 980 18,55
1981 41,25
1982 84,00
Fonte:Anuário Estatístico do IBGE

31. Provar que (o) pa/b pb/c pc/a = 1, (.b) pon pbtc pctd = pa/d,.
Cap. 17 Números índices

32. Provar Qve Potn = po/t' pr/2' pz/g ...P(n-Dn

33. O preço relativo do ano de 1976, com o de 1978 como base, é 62+, enquanto o

de lg77,com o ano de 1976 como base é 133 +3 . Determinar o preço relativo do


ano de 1978, adotados como base (o) o ano de 1977,(b) o período de 1976 a1977.

Resp.: (a) 120, (ó) 137.


34. Em 1980, o preço médio de um bem diminui de 25Vo de seu valor em 1974, mas
aumentou em 5O7o o seu valor em 1966. Determinar, adotado como base o ano
de 1966, os preços relativos de (o) 7974 e (á) 1980:
Resp.: (a')200, (ó) 150.

Quantidades dos volumes relativos


35. A Tabela 17.18 mostra o consumo de energia primária no Brasil em unidades
equivalentes de petróleo, em 1.000 toneladas, para diversos anos. Reduzir os
dados a quantidades relativas tendo como base (o) o ano de 1973; (á) o período
7972-1974.

Tabela 17.18

Consumo de energia

1970 66.699
t91 1 69.892
1972 71.682
t913 86.163
197 4 93.349
t91 5 99.722
t91 6 t09.491
t911 116.501
1978 125.469
t979 t33.666
1980 t39.041
Fonte: Anuário Estatístico IBGE,
510 Estatística Cap. 17

Valores relativos
36. Em 1980, o preço de uma utilidade aumentou de Sovo sobre a de Lg72, enquanto
a quantidade produzida diminuiu de 30vo. De que percentagem o valor total,
em cruzeiros, da utilidade, em 1980, aumentou ou diminuiu em relação ao valor
de 1972?
Resp.: (o) Aumentou de 57o.
ô/. A Tabela 17.19 apresenta os preços e os valores relativos de uma utilidade nos
anos de 7976 a 1980, admitidos os períodos básicos indicados. Determinar as
quantidades relativas da utilidade, adotados como básicos, (o) o ano de Lg76 e
(á) o período de 1976 a 1978. Interpretar os resultados.

Tabela 17.19
Anos t9'7 6 1917 1918 1979 1980
Preços relativos
100 125 150 115 200
(1976 = 100)
Valores relativos
150 180 201 231 252
(1967-1969 = 100)

Resp.: (o) 100; 96;92;88; 84. (b) 704;100; 96; 92 88.

Elos e cadeias relativos


38. os elos relativos do consumo de uma utilidade, durante os anos de lg77 a 19g0,
são de 90, 120,125 e 80, respectivamente. (o) Determinar o preço relativo, em
1978, adotado o ano de 1980 como base. (ô) Encadear os elos relativos, referidos
ao ano de 1979 como base. (c) Encadear os elos relativos, referidos ao período
de 1977 a 1978 como base.
Resp.: (o) 100, (b)74,1;66,7;80,0; 100;80,0, correspondentes aos anos de 1926
a 1980, respectivamente. (c) 101;90,9; 109; 136; 109, correspondentes
aos anos de 1976 a 1980, respectivamente.
39. Ao frm do primeiro de n anos sucessivos, a produção de uma utilidade foi
de Á unidades. Em cada ano sucessivo, a produção aumentou de rvo sobre a
do anterior._(a) Mostrar que a produção, durante o enésimo ano é deA (1 +
+ r/100)n-1 unidades. (á) Mostrar que a produção total, de todos os rL anos,
é de (100 Alr) l(1 + r/100)" - 1) unidades.
r
Cap. 17 Números índices 511

Números índices. Método agregado simples


40. A Tabela 17.20 apresenta os preços e as quantidades consumidas de vários
metais não-ferrosos, nos anos de 1969, 1976 e 1977. Tomando o ano de 1969
como base, calcular os índices de preço, mediante o emprego do método
agregado simples, para os anos (o) de 1976; (b) de 7977 '
Resp.: (a) 721,7; (ó) 110,1.

Tabela 17.20

Preços Quantidades

1969 I 976 1977 1969 1976 1977

Alumínio 17,00 26,O1 21,52 t.357 3.707 3.698

Cobre 19,36 41,88 29,99 2.144 2.134 2.418

Chumbo 15,1 8 15,8 1 14,46 1.916 2.420 2.216

Estanho 99,32 101,26 96,t] 161 202 186

Zilco 12.15 t3,49 11,40 t.872 2.018 1.424

41. Provar que um número índice agregado simples satisfaz aos testes de reversi-
bilidade do tempo e circular, mas náo satisfaz ao de reversibilidade dos fatores.

Método da média simples de relativos


42. Por meio dos dados da Tabela 17.20 do Problema 40, adotada uma média
simples (aritmética) de preços relativos, obter um índice de preços d.e metais
não-ferrosos, admitindo o ano de 1969 como base, para os anos de (a) 1976 e
(b) t977.

Resp.: (ú 137,3: bl 720,5.

43. Resolver o Problema 42, usando a mediana.

Resp.: (a) 111,0; (ó) 96,8.


44. Resolver o Problema 42, usando a média geométrica'

Resp.: (o) 131,3; (ó) 116,8.


512 Estatística Cap. 17

45. Resolver o Problema 42 usando a média harmônica.

Resp.: (a) 126,3; (á) 113,3.

Método agregado ponderado. índices de Laspeyres e


Paasche
46. Por meio dos dados da Tabela 77.20 do Problema 40, obter um índice de preço
de Laspeyres, admitido o ano de 1969 como base, para (o) 1976 e(b) L977.
Resp.: (a) 148,7; (b) 125,5.
47. Por meio dos dados da Tabela L7 .20 d,o Problema 40, obter um índice de
Paasche, admitido o ano de 1969 como base, para (a) 1976 e (b) 1977.

Resp.: (a) 150,5; (b) 134,2.


48. Mostrar que os índices de (o) Laspeyres e (á) Paasche não satisfazem aos testes
de reversibilidade do tempo ou dos fatores.

índice ideal de Fisher


49. Por meio dos dados da Tabela t7.20 do Problema 40, obter o índice de preço
ideal de Fisher, admitido o ano de 1969 como base, para (a) 1976 e (b) 1977.
Resp.'. (a) 149,6; (b) 129,8.
50. Mostrar que o índice ideal de Fisher não satisfaz ao teste circular.

lndice de Marshal l-Edgeworth


51. Por meio dos dados da Tabela 17.20 d,o Problema 40, obter um índice de preço
de Marshall-Edgeworth, admitido b ano de 1969 como base, para (a') lg76 e
(b) 7e77.

Resp.: (a) 149,8; (ó) 130,5.


52. Mostrar que o índice de Marshall-Edgeworth satisfaz ao teste da reversi-
bilidade do tempo mas não ao de reversibilidade dos fatores.
Cap. 17 Números índices 513

Método da média ponderada de relativos


53. Por meio dos dados da Tabela 17 .20 do Problema 40, obter os números índices
da média ponderada de relativos para os anos de 1976 e 1977, considerado 1969
como o ano-base, empregando como pesos (o) os valores do ano dado, (ó) os
valores do ano-base.
Resp.: (o) 163,8; 741,4; (b) 148,7; L25,5.

Números índices de quantidade ou de volume


54. Usar os dados da Tabela L7.20 do Problema 40 para calcular os índices de
volume, para 1976 e 1977, adotado como base o ano de 1969, por meio de (o)
média aritmética simples de volumes relativos; (ó) média geométrica simples
de volumes relativos; (c) índice agregado ponderado de volumes, adotados para
pesos os preços do ano dado (número Índice de volume de Paasche); (e) índice
ideal de volume de Fisher; (D índice de volume de Marshall-Edgeworth.
Resp.: (a) 152,1;139,7; (b) 742,8;726,9; (.c) 149,0;136,8; @) 150,7;146,7; k)
149,9;141,5; (fl 150,0; 142,1.

Números índices de valores


55. (o) Adotado o ano de 1969 como base, nos dados do Problema 40, calcular o
índice de valor para cada um dos anos de 797 6 e L977 . (b) Verificar que o
índice de valor do item (o) é igual ao obtido pelo produto dos Índices ideais
de Fisher e o de quantidade.

Resp.: (a) 224,2; 183,6.


56. Admitido o ano de 1969 como base, nos dados do Problema 40, calcular o
produto "índice de preço" x "índice de quantidade", para os anos de 1976 e 1977,
usando os números índices (o) de Laspeyres e (ó) de Paasche. Comparar com
o verdadeiro índice de valor.

Resp.: (a) 221,6; 171,7; (b) 226,8; 196,3. Os valores verdadeiros sáo 224,2 e
183,6, respectivamente.

57. Provar que os números índices agregados simples de valores satisfazem aos
testes de reversibilidade do tempo e o circular.
514 Estatística Cap. 17

DeÍlação de séries temporais


58. Uma determinada série temporal indica o valor total anual, em cruzeiros, de
um conjunto de utilidades. (o) Descrever como pode ser ajustada a série
temporal de modo a serem eliminados os efeitos da variação do valor do
cruzeiro de ano para ano. (ó) Justifrcar, teoricamente, o método empregado no
item (a). Ilustrar com um exemplo.
59. Provar que o método de deflação de séries temporais, empregado por exemplo
no Problema 28, é estritamente aplicável apenas quando os números índices
satisfazem ao teste de reversibilidade dos fatores.

PROBLEMAS DIVERSOS

60. Provar que, se os números índices de Laspeyres e Paasche forem iguais, eles
serão também iguais aos números índices de Marshall-Edgeworth e ideal de
Fisher.
61. Organizar uma tabela dos vários tipos de números índices, especificando, em
cada caso, se eles satisfazem ou não aos testes de reversibilidade do tempo, de
reversibilidade dos fatores e circular.
h
MÀKRON
Gapítulo
18

Análise da variância

Objetivo da análise da variância


No Capítulo 8 usamos a teoria da amostragem para testar a significância das
diferenças entre duas médias amostrais. Admitimos que as duas populações das
quais se extraíram as amostras possuíam as mesmas variâncias. Em muitos casos
há necessidade de se testar a significância das diferenças entre três ou mais médias
amostrais, isto é, testar a hipótese nula de que as médias amostrais são todas iguais.
Exemplo 1. Suponha-se que em um experimento agrícola quatro trata-
mentos químicos diferentes produziram safras de trigo de 28, 22, 18 e 24 ton,
repectivamente. Existe uma diferença significativa entre essas médias ou a disper-
são observada é devida unicamente ao acaso?

Tais problemas podem ser resolvidos empregando-se uma técnica impor-


tante, conhecida como and,lise da uariâ,ncia, desenvolvida por Fisher. Tal técnica
utiliza-se da distribuiçã,o F, já abordada no Capítulo 11.

ClassiÍicação de um critério ou experimentos de um Íator


Em um experimento de um fator obtêm-se medidas ou observações para a grupos de
amostras independentes, nas quais o número de medidas em cada grupo é ó.
Falamos, assim, de a tratamentos, cada um dos quais possui b repetições ou réplicas.
No Exemplo 1, a = 4.

515
516 Estatística Cap. 18

Os resultados de um experimento de um fator podem ser dispostos em uma


tabela constando dea linhas e ó colunas, como na Tabela 18.1. Nela,X;p simboliza
a medida na linha de ordemT e na coluna de ordem k, ern queir = 1,2, ..., a e lz = L,
2, ..., b.Por exemplo, XB5 referem-se à quinta medida para o terceiro tratamento.

Tabela 18.1

Tratamento 1 Xrr,xn,..-,xto Xy.


Tratamento 2 Xzt,Xzz,...,Xzt X2.

Tratamento a Xat, Xa2, ..., Xoh xa.

Simbolizaremos por 4 . A média das observações na linha de ordem j.


Tem-se:

xj _1 3 Xlri = l, 2, ... a (1)


l)
k= 1

O ponto err,Xl é usado para indicar que se efetuou a soma em relação a à.


Os valores X;. denominam-se médias de grupo, médias de tratamento ott. médias de
linha. A grande média ou geral é a média de todas as observações de todos os grupos
e é simbolizada porX:
-oh
I

X=i;AD Z ZXi* (2)


.l - t ^- |

Variação total, variação dentro dos tratamentos


e variação entre os tratamentos
Define-se a uariação total, sirnbolizada por V, como a soma dos quadrados dos
desvios de cada observação em relação à média geral X:

Variação total = V = +ir 1X11, - X)2 í1\


Cap. 18 Andlise d.a uaridncia 517

Escrevendo-se a identidade

X1*-X=(Xj*-X1 l+f4 -Xl (4)

e, a seguir, elevando-se ao quadrado e somando-se em relação a7 e á tem-se (ver


Problema 18.1)

L (X1 - X)2 =» (X* - \.)2 + I (Xi. - X)2 (s)


j,k j,k .i,k

ou I (Xy7. - h'=Lj,k (X1 - X1)2 + 62 {Xi . - h' (6)


j,k

Denominamos o primeiro somatório à direita das equações (5) e (6) uariaçao


dentro dos tratamentos, pois envolve os quadrados dos desvios de Xip em relação às
médias \ ., e simboliza-se por Vyz. Assim,

Vw =2 (X11,-\ .)2 (7)


j,k

O segundo somatório à direita das equações (5) e (6) denomin a-se uariações
erutre os tratamentos, pois envolve os quadrados dos desvios das várias médias X;.
dos tratamentos em relação à média geral X, e simboliza-se por Vg. Assim,

Va =L (Xi. - X)2 = O L (Xi - h2 (8)


j.A j
Por conseguinte, as Equações (5) e (6) podem ser escritas
V=Vw+Va (e)

Métodos abreviados para obtenção das variações


Para reduzir o trabalho de cálculo das variações apresentadas, são convenientes o
uso das fórmulas que se seguem:

-2
v=Lrxir-f, (10)

,r=ij, f -rbT2 (11)

Vw=V-Vn (12)
518 Estatística Cap. 18

em que 7 é o total de todos os valores Xin e Ti é o total de todos os valores do


tratamento de ordem.i:
T=ZXjt 71.=Z X1* ( 13)
j,k k

Na prática, é conveniente subtrair um certo valor fixo de todos os valores


da tabela com o intuito de simplificar o cálculo; tal procedimento não implica em
qualquer alteração nos resultados finais.

Modelo matemático para a análise da variância


Podemos considerar cada linha da Tabela 18.1 como uma amostra aleatória de
tamanho ó oriunda da população correspondente aquele particular tratamento, Xi2,
diferirá da média da população p;, referente ao tratamento de ordemT por vm erco
ao o.caso ov erro aleatório, que simboliza-se por ejh; por conseguinte

Xir = lL1 + eir (14)

Admite-se que estes erros são normalmente distribuídos com média 0 e


variância o2. Se p é a média da população para todos os tratamentos e se
aj = Wj - p, de modo que Ei = !r + ür, então a equação (14) toma a forma
Xit=V+a1 +\t ( 1s)

onde I %= 0 (ver Problema 18.9). Da equação (15) e na suposição de que os sJà são
J
normalmente distribuídos com média 0 e variância o2, conclui-se que os Xin podem
ser considerados variáveis aleatórias normalmente distribuídas com média p e
variância o2.
A hipótese nula de que todos os tratamentos possuem as mesmas médias
édadapor116 : CLj = 0,j =1,2,...,d, ou, equivalentemente, HO : Vj = V,j =1,2,
..., d.. Se Ilg é verdadeira as populações de tratamento terão todas a mesma
distribuição normal, isto é, as mesmas médias e variância. Há, portanto, uma única
população, ou seja, todos os tratamentos são estatisticamente idênticos: em outras
palavras, não há diferença signifrcante entre os tratamentos.
Cap. 18 Aná,lise da uariô,ncia 519

Valores esperados das variações


Pode ser mostrado (ver Problema 18.10) que os valores esperados de Vg, Vs e V sáo
dados por

E(Vil=a(b-l)o2 (16)

E(Vs)=(a-l)o2 + b»,aJ (17)


j

E (V) = (ab - t)oz + b»$ ( 18)


l
Da equação (16; sg*u.-se que

Ella(hv* l=o,
- t) ) ( 1e)

de modo que

Az =o1a-t,
rw VY
(20)

é sempre a melhor estimativa (não tendenciosa) d.e 02, indiferentemente se Ilg é


verdadeira ou não. Por outro lado, vê-se das equações (16) e (18) que somente seI/s
for verdadeira, isto é, aj = 0, teremos

E('u.)=o, , e( J )=o,
-l.ab-t)- (2r)
[o-lJ
de modo que somente neste caso

§Ê=:i " §'= ab-1 (22)

produzirá estimativas não tendenciosas de o2. Se, todavia, Ilg não for verdadeira,
teremos da equação (16)

b
E(§;) = o2 + a-l »,ú (23)
520 Estatística Cap. 18

Distribuições das variações


Utilizando-se a propriedade aditiva do qui-quadrado, pode-se provar os seguintes
teoremas fundamentais às distribuições das variações Vg, Vg e V.

Teorema lzVy/o2 tem distribuição qui-quadrado com a(b - 1) graus de


liberdade.

Teorema 2: Sob a hipótese nula 116, Vg/o2 possui distribuição qui-quadra-


do com a - I e b - 1 graus de liberdade, respectivamente.

É importante se enfatizar que o Teorema 1 é válido na suposição ou não de


.F16, eneuanto o Teorema 2 só é válido sob a hipótese I/6.

Teste F para a hipótese nula de médias iguais


Se a hipótese nula não é verdadeira, isto é, se as médias dos tratamentos nào
,F16

são iguais, observamos, da Equa çáo (23), que se pode esperar que ôg2 ,"iu maior
que 02, com o efeito tornando-se mais acentuado quanto maior for a discrepância
entre as médias. Por outro lado, das Equações (19) e (20) pode-se esperar que
Âo
Sfi seja igual a o', indiferentemente iguais ou não. Conclui-se
se as médias sejam
que uma boa estatística para testar a hipótese -ÉIs proporcionada por,§r' I §fi, . Se
esta estatística for signiÍicantemente grande, pode-se concluir que há uma diferença
significante entre as médias dos tratamentos e assim rejeitar 116; por outro lado,
pode-se aceitar Ilg ou reservar o julgamento após uma análise posterior.

A fim de fazer uso da estatística §Ê t §& deve-se conhecer sua distribúção


amostral, que é fornecida pelo Teorema 3.

Teorema 3: A estatística F = §Ê ,,§,f, t"* distribuição F' com. a - I e


a(b * 1) graus de liberdade.

O Teorema 3 nos permite testa{ a hipótese nula em um nível de significân-


cia específico usando-se um teste unilateral da distribuição fl como foi visto no
Capítulo 11.
Cap. 18 Andlise da uariâ,ncia 521

Tabelas de análise da variância


Os cálculos necessários para os testes apresentados anteriormente estão resumidos
na Tabela 18.2, que se denominatabela de aná.lise da uariô,ncia.
Na prática, podemos calcular v e vp utilizando-se o método longo
Equações (3) e (8) ou o método abreviado (10) e (11) -
calcula-se VW = V-- Vg. Notar-se-á que o grau - Equações - e, em seguida,
de liberdade para a variação total,
isto é, ab - l, é igual à soma dos graus de liberdade para as variações entre e dentro
dos tratamentos.

Tabela 18.2

Quadrado
Médio

Entre os tratamentos, /Y
Vs=b » (xt -Yf Az Vs .
Jr= sá
a- | Ã-
.t s;,
Dentro dos tratamentos, coma-lea(b-l)
V*=V-Vn graus de liberdade
Total,
V=Vn-lVw
=Z(Xir-D2

ModiÍicações para números desiguais de observações


No caso em que os tratamentos 1, 2, ..., a tiveram números diferentes de observa-
ções, iguais a N1, N2, ..., Nr, respectivamente, os resultados vistos podem ser
facilmente modificados. Assim, obteremos

-)
l,' =L(Xjt
j,k
- xt2 = ?,r ,i
j,k
- '* (24)

^)
l;-
r' 'fL
t
Va =2 (Xj. - nz =»Ni(Íi - X\z=Z - N (2s)
j,k j iNi
Vw=V-Vn (26)
Estatística Cap. 18

ondeI, simbolizao somatório em relação ak deTaNi, e a seguir o somatório em


j,h
relação a7 de 1 até a.ATabela 18.3 é que é apropriada para este caso.

Tabela 18.3

Graus de Quadrado
I.iherdade Médio

Entre os tratamentos, ^,

va=\ \(\ - x)' s;
^t

Dentro dos tratamentos, /:)


\- - Vu coma-leN-a
u*- N-a graus de liberdade
V*= V -Vn
Total,
-
V=Va+Vw
=Z(Xjt -x)'
j,k

ClassiÍicações de dois critérios ou experimentos de dois


Íatores
As idéias da análise da variância para a classiÍicação de um critério ou experimentos
de um fator podem ser generalizados. O Exemplo 2 ilustra o procedimento para a
classificação de dois critérios ou experimentos de dois fatores.
Exemplo 2. Suponha-se que um experimento consiste em examinar as produções
de quatro varied.ades diferentes de trigo, com cada variedade cultivada em cinco
lotes de terra diferentes. Portanto, são necessários (4X5) = 20 lotes' Neste caso é
conveniente combinar os lotes emblocos; por exemplo, quatro lotes para um bloco,
com umâ variedade diferente de trigo cultivada em cada lote dentro de um bloco.
Conseqüentemente, serão necessários cinco blocos.
Neste caso há duas classificações ou dois fatores, pois poderá haver dife-
renças na produção devido (1) ao tipo particular de trigo cultivado ou (2) ao
pariicular bloco utilizado, o que poderá envolver diferentes fertilidades do solo etc.
Cap. 18 Anrilise da uariância

Por analogia com o experimento agrícola do Exemplo 2, referimo-nos,


muitas vezes, aos dois fatores em um experimento como tratamento e blocos, rr,as,
naturalmente, podemos simplesmente apresentá-los como fator I e fator 2.

Notação para experimentos de dois Íatores


Supondo que se tenha o tratamentos e á blocos construímos a Tabela 18.4, onde se
admite que haja um valor experimental, tal como a produção, correspondente a cada
tratamento e bloco. Para o tratamentoT e bloco À, simbolizamos este valor porX;4.
A média dos valores das células correspondentes à linha de ordemT é representada
pot 4., onde i = 7,2, 3, ..., o, enquanto que a média dos valores das células
correspondentes à coluna de ordem á é representada porX p, onde á = 1,2, ..., b.A
grande média ou média total é simbolizada por X. As três médias citadas são
apresentadas a seguir
rhtor
xi =i.z.xi* x*.=àz.Xi* x:)uz,\ (27t
"L=l l=t t.^

Tabela 18.4

Bloco
1 2 b

Tratamento 1 Xtt Xn Xru Xt.


Tratamento 2 X2.

Tratamento a xrt Xo2 Xatt xa.

Variações para experimentos de dois Íatores


Como no caso de experimentos de um fator, podemos definir as variações para
experimentos de dois fatores. Definimos, inicialmente, a uariação total como na
Equação (3), isto é,
524 Estatística Cap. 18

v =Z (X.ft - D2 (28)
j,k

Escrevendo-se a identidade

X1* - X = (Xjk - xj - X*. +h + tVi -D + tX*. - X) \29)

e, em seguida, elevando-se ao quadrado e somando-se em relaçáo a j e h, pode-se


mostrar que
V=Vz+Vp+Vç (30)

onde VE=variaçãodevidaaoerroouacaso =Z (\n -4 -Xp +Xl2


.ih

VE = variação entre as linhas (tratamentos) = ó I


j=t
q - x)2
b
VC = variação entre as colunas (blocos) = o , (Xn - X)2
k=r
A variação devida ao erro ou ao acaso é também conhecida corno uariação residual
ot uariação aleatória.
Seguem-se, analogamente, às equações (10), (11) e (12) fórmulas abrevia-
das de cálculo.

T2
V=2X2- ab
(3 1)
j,k

v*=i,i,t -# (32)

Í,
nC -r3+
- -T2 (33)
,,*.- ab
o 11

Vr,=V-Vn-Vc (34)

onde j,
Q. é o total dos valores das células correspondentes à linha de ord,em T.p é
o total dos valores das células correspondentes à coluna de ordem k e T é o total de
todos os valores das células.
Cap. 18 Andlise da uariô,ncia 525

Análise da variância para experimentos de dois Íatores


A generalização do modelo matemático para experimentos de um fator dado pela
Equação (15) leva-nos a supor, para experimentos de dois fatores que

Xit= F + 0t, + Pk+ Ejk (3s)

onde I g, = 0 e x Êa = 0.Aquipéamédiageraldapopulação,cr;éapartedeXin
devida aos diferentes tratamentos, algumas vezes denominada efeito dos tratamen-
tos,$7ré a parte deXia devida aos diferentes blocos, algumas vezes denominadaefeito
dos blocos, e eipé a parte deXin devida ao erro ou ao acaso. Como anteriormente,
supõe-se que os s;t são normalmente distribuídos com média 0 e variância o2, de
modo que, os Xin são também normalmente distribuídos com média p e variância
I
6".
De acordo com os resultados (16), (17) e (18), pode-se provar que as
esperanças matemáticas das variações sejam dadas por

E(Vs) = (a - t)(b - t)o2 (36)

E(Vp) : (a - 1)o2 + b»q (37)


l
E(Vç) = (b - 1)o2 + a2g7 (3 8)
k

E(1.) = (ab - l)o2 * Eú


jk
+ aLB21, (39)

Existem duas hipóteses nulas que queremos testar:

F10(1)' Todas as médias dos tratamentos (tinhas) são iguais, isto é, q =


- 0, i = 1,2, ..., a.
110(2)' Todas as médias dos blocos (colunas) são iguais, isto' é,9h =
= 0, k = 7,2, ..., b.
Vê-se da Equação (38) que, sem considerar 116(1) e HrQ),um melhor estima-
dor de o2 (não tendencioso), é fornecido por
V6
Sí= (a 1)(b
^i isto e, a1§o,2; = 6z (40)
- - 1)
Estatística Cap. 18

Além disso, se as hipóteses Fí0(1) e F10(2) são verdadeiras, então

NVpAIVç42V sl=,it
sÃ=o_-r s'=,o'_, (41\

serão estimadores não tendenciosos de o2. Todavia, se 170(1) e HoQ) não forem
verdadeiras, então, das Equações (36) e (37), respectivamente, ter-se-á

Ersol
^1 =d+;:1Z0J2
^h (42)

p(fi) = & +;!1»ngi (43)

Os teoremas seguintes assemelham-se aos Teoremas 1 e 2:

Teorema 4:ve/oz tem distribuição qui-quadrado com (a - 1Xó - 1) graus


de liberdade, independentemente de flo(1) ou 170(2).

Teorema 5: Sob a hipótese HgG), Vp/o2 t"^ distribuição qui-quadrado


com o - 1 graus de liberdade; sob a hipótese HrQ), vnto2 te^ distribuição qui-qua-
drado com á - 1 graus de liberdade; sob ambas as hipóteses,l?0(1) e Ho@), v/o2 tem
distribuição qui-quadrado com ab - | graus de liberdade.

Para testar a hipótese H0(1) é natural considerar a estatístic §fu&, pois


^
vê-se da equação @2) que,S é diferir significativamente d.e o2 se as
médias das linhas (tratamentos)".p".ado
são significantemente diferentes. Semelhante-
mente, para testar a hipótese H0(2) cons'deramos a estatístic §bl§'zg As distribui-
"
ções de &r§, " fil§k são dadas no Teorema 6, que é análogo ao Teorema B.

Teorema 6: Sob a hipótese HoG), a estatística §fu§'zn tem distribuição F'


com o - 1e (o - lXó - 1) graus de liberdade. Sob a hipótese HoQ), a estatística
fu§k temdistribuição F com ó - 1 e (o - 1Xó - 1) graus de liberdade. O Teorema
6 nos permite aceitar ou rejeitar F10(1) ou H0(2) em níveis de significância específi-
cos. Por conveniência, como no caso de um fator, pode ser construída uma tabela de
análise da variância como a Tabela 18.5.
Cap. 18 And.lise d.a uaridncia 527

Tabela 18.5

Variação Graus de Quadrado F


Liberdade Médio

/\1 /\a
Entre tratamentos, sh/s-E
A, Vp
vn=b»(x1 --Dz a-7 JR_
a-l coma-le(a-l)lb-
l 1) graus de liberdade

,^1 /\a
Entre blocos. S'c/Sí
b-l 4) Vç
Je=1r-l
Vc=o»(Ír-X)2 comá-le(a-l)(à-
k
- 1) graus de liberdade
Residual ou aleatória,
Vn=V-Vn-Vc
(a-t)(b-t) A)
o'-
Vp
l, - lxb - 1)

Total,
V=VR+Vç+Vg =
ab-l
=»qxy,_ V)2
j,k

Experimentos de dois Íatores com repetição


Na Tabela 18.4 existe somente uma célula correspondente a um dado tratamento e
um dado bloco. Mais informações podem muitas vezes ser obtidas em relação aos
fatores repetindo-se o experimento, processo este denominad o repetiçã,o. Neste caso
haverá mais de uma célula correspondente a um tratamento e um bloco. Admitir-
se-á que haverá c céIulas para cada posição; mudanças apropriadas poderão ser
efetuadas quando os números de repetições forem desiguais.
Devido à repetição, deve ser usado um modelo apropriado para substituir
o fornecido pela equação (35). Usa-se

Xltt = | + cx,/ + Pk + Yjk + tjkt (44)

onde os índices7, h, de Xiwcorrespondem à linha de ordemT (tratamento), à coluna


eI
de ordem à (bloco) e à repetição de ordem l, respectivamente. Na equação (44)
Ir, Gi e Bp são definidos como anteriormente; Eiu é um termo aleatório ou erro,
enquanto T;À representa a linha-coluna (tratamento-bloco), efeitos de interação,
muitas vezes denominada interações. Tem-se as restrições
528 Estatística Cap. 18

(4s)
jkjk
e os Xinl são supostos serem normalmente distribuídos com média p e variância o2.

Como já visto, a variação total V de todos os valores pode ser decomposta


nas variações devidas às linhas V6, às colunas Vg, à interaçáo V7 e ao acaso ou erro
residual Vg:
V=Vn+Vç+V1+VE (46)

onde

v =L (Xjrrr - D2 \41)
j,k,t

a
Vn=bcZ (Xi..-x)' (48)
j=r
h
Vc=ac» (x.t _ x)2 (4e)
k=l
VI= cL (Íir,.- Xj - X.r. + h2 (s0)
j,k

Vo=Z (X1u - \r)2 (sl)


j,k.t

Nestes resultados todos os pontos nos índices têm significado semelhante


aos apresentados anteriormente; assim, por exemplo,

X,..
r" !, r,o,
= brk.t = lzx;1,.
'"' b J"' A
ó2)

Os valores esperados das variações podem ser obtidos como anteriormente.


Fazendo-se uso de um número apropriado de grau de liberdade para cada fonte de
variação, pode-se montar a tabela de análise da variância, como a apresentada na
Tabela 18.6. As razóesF da última coluna podem ser usadas para testar as hipóteses
nulas:

I/o(11 ' Todas as médias dos tratamentos (Iinhas) são iguais, isto é, % = 0.

Ho(2) ' Todas as médias dos blocos (colunas) são iguais, isto é, 0r = 0.

Fí0(3) . Não há interações entre os tratamentos e os blocos, isto é, Tin = 0.


Cap. 18 Anó,lise da uariô.ncia

Tabela 18.6

Variação Graus de liberdade Quadrado médio F

Entre tratamentos, Az Vp §-t§,


Vp
a-7 sR=a-r coma-1eab(c-l)
graus de liberdade

/\a /\a
st/
Entre blocos.

b-l st=;=
zr1 Vr-
comá-leab(c-1)
s'E

graus de liberdade

,^, ,/\f
s; /sí
lnteração, /\) vt
\a - l)tb - 1) sí= (a-1Xb-1) com(a-1Xá-1)e
vt ab(c - 1) graus de
liberdade

Residual ou aleatória, /Y Vç
V6
ab(c' - l) "E-ab(c-l)
Total,
V
abc-l

Sob um ponto de vista prático, decidiríamos, inicialmente, se Fís(3) pode ou


não ser rejeitada ao nível de significância apropriado, usando-se a razáo P equiva-
lente a §?AB daTabela 18.6. Serão, então, possíveis surgir dois casos:
1. Não Pode Ser Rejeitada. Neste caso podemos concluir que as interações
110(3)

não são demasiad.amente grandes. Podemos, então, testar HoQ) s IIr(2) usando-

se as razões F' equivalentes §ÃÂ3 §31§Ã respectivamentq como na


" "
Tabela 18.6. Alguns estatísticos recomendam, neste caso, combinar as varia-
ções, tomando-se o total correspondente aV1 + Vc,e dividi-lo pelo total de graus
de liberdade correspondente, (o - 1Xá - 1) + ab(c - 1), usando-se este valor
para substituir o denominado.,S ,o teste F.

2. fí0(3) Pode SerRejeitada. Neste caso podemos concluir que as interações são
significativamente grandes. Diferenças nos fatores seriam, então, importantes
somente se elas fossem grandes quando comparadas com tais interações. Por
Estatística Cap. 18

esta razáo, muitos estatísticos recomendam que F10(1) e H0(2) sejam testadas
F equivalentes a §fu§? §31§? no lugar das apre-
usand.o-se as razões
" este procedimento alter-
sentadas na Tabela 18.6. Utilizaremos, também,
nativo.
A análise da variância com repetição é realízada mais facilmente totalizan-
do-se, inicialmente, os valores de repetição que correspondem a tratamentos
(linhas) e blocos (colunas) particulares. Isto produz uma tabela de dois fatores com
células individuais, que pode ser analisada como na Tabela 18.5. Este procedimento
está ilustrado no Problema 16.

Planejamento experi mental


As técnicas de anáIise da variância apresentadas são empregadas após ter-se obtido
os resultados de um experimento. Todavia, a fim de se obter tanta informação
quanto for possível, o esquema de um experimento deve ser cuidadosamente plane-
jado com antecedência; isto é geralmente apresentado como o plartejamento do
experimento. Seguem-se alguns exemplos importantes:
1. Aleatorização Completa. Suponha-se que tenhamos um experimento agrÍ-
cola como no Exemplo 1. Para planejar tal experimento, podemos dividir a terra
em 4 x 4 = 16 lotes, indicados na Figura 18.1 pelos quadrados, muito embora,
fisicamente, qualquer configuração possa ser usada, e atribuir cada tratamen-
to, indicado porA, B, C eD, a quatro blocos escolhidos completamente ao acaso.
A finalidade da aleatorizaçáo é eliminar as várias fontes de erro, tal como
fertilidade do solo.

D A C C I C B A D D B C A By 4g D5 Da
B D B A il A B D C B D A C A6 Ba cy Dr,
D C B D il1 B C D A C A D B Du C6 Bg A!
A B C A IV A D C B A C B D Cn Dy Aa B5
Aleatorização Blocos Quadrado Quadrado
Completa Aleatorizados Latino Greco-Latino
Figura 16.1 Figura 16.2 Figura 16.3 Figura 16.4

2. Bloos Aleatorizados. Quando, como no Exemplo 2, for necessário haver um


conjunto completo de tratamentos para cada bloco, os tratamentos Á, B, C e D
são introduzidos de modo aleatório em cada bloco I, II, III e IV, isto é, as linhas
Cap. 18 Arudlise da uariância 531

na Figura L8.2 e por esta razáo os blocos são apresentados corno blocos
aleatorizados. Este tipo de planejamento é usado quando se deseja controlar
uma fonte de erro ou uariabilidade, a saber, a diferença nos blocos.
t). Quadrados Latinos. Para algumas finalidades é necessário controlar duas
fontes de erro ou uariabilidade ao mesmo tempo, tais como as diferenças nas
Iinhas e nas colunas. No experimento como no Exemplo 1, os erros em diferen-
tes linhas e colunas poderiam ser devidos às alterações na fertiiidade do solo
em diferentes partes da terra. Neste caso é desajável que cada tratamento
ocorra uma vez em cada linha e uma vez em cada coluna, como na Figura 18.3.
O arranjo denomina-se quadrado latino, pelo fato de serem usadas as letras
latinas A, B, C e D.
4. Quadrados Greo-Latinos. Se for necessário controlar três fontes de erro ou
uariabilidade, usa-se rm quadrado greco-latino, como na Figura 18.4. Tal
quadrado consiste essencialmente de dois quadrados latinos superpostos, com
as letras latinas A, B, C e D usadas para um quadrado e as letras gregas cx, B,
y e ô usadas para o outro. A condição adicional que deve ser satisfeita é que
cada letra latina deve ser usada uma e somente uma vez com cada letra grega;
quando esta condição for satisfeita, diz-se que o quadrado é ortogonal.

PROBLEMAS RESOLVIDOS

Classificação de um critério ou experimentos de um Íator


1. Provar que V = Vw + Vg, isto é:

2(X1r<
j,k
- X)'=2j,k(Xir, - X1)2 +» (Xi
j,k
- h'

Solução

Temos Xjn - 7 = (Xin - 4.1 + a&j. - X)

Elevando-se ao quadrado e somando-se em telaçã'o j e á obtemos

Z(X1rr - x)2=Z(Xit - Xi.)'+»1X1. - X)'+22(X1, - X1 ltXl - X)


i.k j,k j,k j,k
532 Estatística Cap. 18

Para provar o resultado desejado devemos mostrar que o último somatório


é nulo. Para isto, procede-se como segue:

z(x1r<-x;(x1
j,k -h=íaxi
j=t
; w1',-x1.t)
-D[Lt=1 l

-l(a ) -ll=s
=Z(Xi-fiI1ZXpl-oxt
j=r L(r=r ) )

pois Xi=*
w
!*,u
k=l

2. Verificar que (o t T = abX, tbt Tj = b4 , {ct ZiTi. = qbX, usando a


notação utilizada no início do Capítulo 18.

Solução

(a) T = ZXin = abl


(r Z
)
Xin = abX
j.k ^
["j.â )
(t
)
(b) ri =l\n=bl
r'i[) il*,ul=0x,.
(c) Como Tj. = Z pXih, de acordo com o item (a) temos

LTj.= ZZXin = T = abX


j jh

3. Verificar as fórmulas abreviadas (10), (11) e (12) deste capítulo.

Solução

Temos V = 2 (Xjh - X)2 = » (Xrt - zXXin + X2)


j,h j.k

=24? -ZxzX1r,+ abX2


j,k j.k

= » 4n
j,k
- zx(au-n + abx2 =
Cap. 18 Arudlise da uariô,ncia 533

=»1r, - abX2 =
j,k

= 21r -tbT2
j.k

usando o Problema 2(o) nas terceira e última linhas. Semelhantemente

va=»(4 - hz --» &i - zÍx1. + x21 =


j.k
i.k

=24.-zx
j,k
»X1.+ abx2 =
i,k

..2
(7,\ T,
- 2X » 1' + abx' =
,11.;] .j.k D

rí ! tl - zxtabxl + abx2 =
* 11tr1-r
1í - aa-f =
u 1'=t fi.

1í ^
TZ
-)
t:J:
-
b i"=, 'j'-ab-

usando o Problema 2(b) ta terceira linha e o Problema 2(a) na úItima linha.


Finalmente, a Equaião (12) resulta do fato de que V =Vw+ Vs ou Vw =V - Va.

4. A Tabela 18.7 apresenta a produção, em toneladas, de uma certa variedade de


trigo cultivada em um tipo particular de solo tratado com os fertilizantes A, B
e C. Determinar (o) as produções médias para os diferentes tratamentos; (á) a
média geral de todos os tratamentosi (c) a variaçáo total; (d) a variação entre
os tratamentos; (e) a avaliação dentro dos tratamentos. Usar o método longo.
534 Estatística Cap. 18

Tabela 18.7 Tabela 18.8

A 48 49 50 49 3454
B 47 49 48 48 2433
C 49 51 50 50 46s5

Solução
Para simplificar os cálculos, podemos subtrair um número adequado, por exemplo
45, d.e todas as observações sem afetar os valores das variações, obtendo-se, assim,
os dados da Tabela 18.8.

(a) As médias dos tratamentos (linhas) da Tabela 18.8 são, respectivamente

:4
1

Xy=](3+4+5+41
4'
I
X. =1e+4+
4' 3+3.y =3
1

Xt.=)ê+6+5+5)=5
4

Por conseguinte, as produções médias, obtidas pela adição de 45 aos


resultados anteriores, são 49,48 e 50 ton para A, B e C, respectivamente.
(ó) A média geral de todos os tratamentos é

I
X =i(3 + 4+ 5+4+2+4+3+3+4 +6 + 5 + 5) = 4
Por conseguinte, a média geral para o conjunto de yalores originais é 45 +
+4=49ton.
(c) A variação total é

V =Z (Xjr, - X)2= (3 _ q2 + (_ '4)2


+ (5 -4)2 + (4_ 4)2 + (2-4)2 +
j.k

+ (4_ 4)2 +(3 -+12 + (3 _ 4)2 + (4_ 4)2 + (6-4\2 +

+ (5 _ 4)2+(5-4)2=14
Cap. 18 Andlise da uariô.ncia 535

(d) A variação entre os tratamentos é

va=bL Cxi. - x)' = 4l$ - 4)2 + (3 - q2 + (5 - 4)21 =I


j
(e) A variação dentro dos parâmetros é

VW=V-VB=14-8=6

Outro método

Vw = L (X1* - Xi)'=(3_ q2+ «-412 + (5 -4)2 + (4- 4)2+(2-3)z +


l.L

+ "14 _ 3)2 + (3 _ T2 + Q - 3)2 + (4- 5)2 + (6 - 5)2 + 15 - 5)2 + (5 - 5)2 = 6


Observação: A Tabela 1 8.9 é a tabela para a análise da variância para os
Problemas 4,5 e 6.

Tabela 18.9

Variação Graus d.e Liberd.ade Quadrado Médio F

Entre tratamento A) 8
Vn=8
a-l=2 SÉ=,=4 ôr'4-
= L/3
- =
O
^l

Dentro tratamentos
a(b-l)=(3)(3)=9
A)62
5ú=9=J com2e9
VW=V-Vn graus de liberdade
=14-8=6
Total, ab-t=(3)(4)-1
V=14 = 11

5. Referindo-se ao Problema 4, encontrar um estimador náo tendencioso pata a


variância da populaçã,o (a) da variação entre os tratamentos sob a hipótese
nula da igualdade das médias dos tratamentos e (á) da variação dentro dos
tratamentos.

Solução

,^, ê-2 = va I
(0) DB - - | == B _ 1 =- tL
"
536 Estatística Cap. 18

,,. A2= Vlat 6 2


to) 1) = ã
Dsz
"lb - D= -
3(4
6. Referindo-se ao Problema 4, podemos rejeitar a hipótese nula da igualdade das
médias aos níveis de signiÍicância (o) 0,05 e (ó) 0,01?

Solução

TemosF=ú__=íh=6
§r'4^
2i §w

com o - 1=3 - 1= 2graus de liberdade e a(b - 1) = 3(4 - 1) = 9 graus de liberdade.

(o) Recorrendo-se ao Apêndice IX com vt = 2ê V2 = 9 vemos que Fg,95 = 4,26.


Como F = 6 > F0,95, podemos rejeitar a hipótese nula da igualdade das
médias ao nível0,05.
(ó) Recorrendo-se ao Apêndice X com \t=2 ê v2 = 9 vemos que Fg,99 = 8,02.
Como F = 6 < F0,99, não podemos rejeitar a hipótese nula da igualdade das
médias ao nível 0,01.

7. Usar as fórmulas abreviadas (10), (11) e (12) para obter os resultados do


Problema 4.

Solução
É conveniente organizar os dados como na Tabela 18.10.

Tabela 18.10

T, 7,2

A 3454 t6 256

B 2433 t2 t44
C 4655 20 400

2 X121, = 206 T=ZTj.=48 »t]=800


i.k .t l
Cap. 18 Andlise d.a uariô,ncia 537

(o) Usando a fórmula (10) temos

» X rt=9 + 16 + 25 + 16 + 4+ 16+ 9 + 9 + 16 +36 + 25 + 25 =206


j,k

T =3 + 4 + 5 + 4 +2+ 4+3 +3 +4 +6+ 5 + 5 =48

Assim
-2 ,
^nr2
v --» xfi -; = 206 - ffi = 206 - te2 = t4
j,k

(b) Os totais das linhas são

Tt =3 + 4 + 5 + 4 = 16 Tz= 2 + 4 + 3 + 3 = 12 T3= 4+ 6 + 5 + 5 =20


e

T=16+12+20=48
Usando-se a fórmula (11) temos

vr=lu.iz ri' - # = f, oa' + 122 + 202, -


# = 200 - ts2 = 8

(c) Usando-se a fórmula (12) temos

VW=V-Vs-14-8=6
Os resultados estão de acordo com os obtidos no Problema 4, e a partir deste
ponto a análise prossegue como anteriormente.

8. Uma Companhia deseja comprar uma das cinco diferentes máquinas A, B, C,


D ott E. Em um experimento planejado para testar se existe diferença no
desempenho das máquinas, cinco operários especializados trabalharam em
cada uma das máquinas por períodos de tempo iguais. A Tabela 18.11 apre-
senta os números de unidades produzidas por máquina. Testar a hipótese de
que não há diferença entre as máquinas aos níveis de signiÍicância (o) 0,05 e
(á) 0,01.

Solução
Subtraindo-se um número apropriado, como 60, de todos os dados obtemos a Tabela
18.12. Então
538 Estatística Cap. 18

v=2658 =2658-14s'8 =2512'2


#

vu=IG874) 145.8 =62e.0


ffi=714.8-
Podemos agora montar a Tabela 18.13. Para 4 e 20 graus de liberdade F0,95 =
= 2,87 . Assim, não podemos rejeitar a hipótese nula ao nível 0,05 e, por conseguinte,
não podemos rejeitá-la ao nível 0,01.

Tabela 18.11
11
A 68 12 42 53

B 72 53 63 53 48

C 60 82 64 75 72

D 48 61 57 64 50

E 64 65 70 68 53

Tabela 18.12

T, rl
A 8 t2 t7 -18 -7 t2 144

B t2 -1 3 -1 -12 -l I t2t
C 0 22 4 15 t2 53 2809

D -12 I -3 4 -10 *20 400

E 4 5 10 8 -7 20 400

ZXfi,=2659 54 3814
Cap. 18 Andlise da uariô,ncia 539

Tabela 18.13

Variação Graus de Liberdade Quadrado Médio F

^,
F Entre tratamentos
VB = 629.0
a- I -4 ff=ry=Éi,25 * = 1,67

Dentro tratamentos
VIV = 1883,8
a(b-l)=(5X4)=20 §,7=lffi =e4,t6

Total
ah-l=24
V = 2512.2

ModiÍicações para números desiguais de observações


9. A Tabela 18.4 apresenta a duração, em horas, de amostras de três tipos
diferentes de válvulas para televisão. Usando o método longo, determinar se
existe diferença entre os três tipos de válvulas aos níveis de significância (o)
0,05 e (ó) 0,01.

Tabela 18.14

Amostra 7 401 4tt 409

Amostru 2 404 406 408 405 402

Amostra 3 410 408 406 408

Solução
É conveniente subtrair um número apropriado dos dados, por exemplo 400, obten-
do-se a Tabela 18.15, que apresenta os totais das linhas, as médias das amostras
(ou dos grupos) e a média geral. Assim, temos

V = » (Xjr< - X)' =(1 _ T2+(11 - 1)2 + "' +(8_ 712=72


j,k
540 Estatística Cap. 18

vB »(x, _Íy2 : »r'r14.-x)' = 3(9 - 7)2 + 5(7 -5)2 + 4(8 - t)2 =36
= j.k j
Vw = V -Va=J2-36=36

Tabela 18.15

Total Média

Amostra I 'l 11 9 27 9

Amostra 2 4 6 8 5 2 25 5

Amostra 3 10 8 6 8 32 8

84
X = média geral
" = Lz
,1 = 7

Podemos também obter Vgz diretamente, observando-se que tal variação é igual a

Q _ »2 + (l I - 9)2 + (9 -9)2 + (4 - »2 + (6 - 5)2 + (8 - 5)2 + 15 - 5.12 +

+ (2 -5)2 + (10- 8)2 + (8 - 8)2 + (6- 8)2 + (8 - 8)2

Os resultados podem ser resumidos como na Tabela 18.16 que corresponde


à tabela de análise da variância. Para 2 e 9 graus de liberdade, consultando-se o
Apêndice IX encontramos F g,95 = 4,26 e, o Apêndice X, F6,99 = 8,02' Por conseguinte,
podemos rejeitar a hipótese da igualdade das médias ao nível 0,05, isto é, não há
diferença entre os três tipos de tubos; por outro lado, não podemos fazê-lo ao nível
0,01.

Tabela 18.16

Variação Graus de Quadrado Médio F


Liberdade

Va=36 a-l=2 §3 =! = rc Js 18
6--=4,5
Vw=36 N-a=9 §fr=+=o s'ú/ +
Cap. 18 Andlise da uaridncia 541

10. Resolver o Problema 9 usando as fórmulas abreviadas incluídas nas equações


(24), (25) e (26).

Solução
Da Tabela 18.15 temos Nr - 3, N2 = 5,Ns - 4, N = 12,7,1.= 27, T2.= 25, 73. = 32,
eT=84.
Conseqüentemente, temos

v = z,xi-',i ="+l12+'"+62+"-tW=tz
l.K

Tz ei)2 r- e5Í - Éz)2 _ (8412


i' -,v=-3
rB= -1ú,
T
- 5 4 t2
l
VW = V-VB=36
Usando-se estes resultados, prossegue-se a análise da variância como no
Problema 9.

ClassiÍicação de Dois Critérios ou Experimentos de Dois


Fatores
11. ATabela 18.17 apresenta as produções de quatro diferentes safras de cereais
cultivados em lotes com três tipos diferentes de fertilizantes. Usando-se o
método longo, determinar, ao níve1 de significância 0,01, se existe diferença na
produção (o) devida aos fertilizantes e (ó) devida às safras obtidas.

Tabela 18.17

Safra I Safra II Sqfra III Safra IV

1a 6.7
Fertilizante A 4,5 6.4

Fertilizante B 8,8 7.8 9,6 1,0

Fertilizante C 5,9 6,8 \1 5)


542 Estatística Cap. 18

Solução
Calculam-se os totais das linhas, as médias das linhas, os totais das colunas, as
médias das colunas, o total geral e a média geral como está apresentado na Tabela
18.18.

Tabela 18.18

Safra I Safra II Safra III Safra IV Total dq Média da


Linha Linha

Fertilizante A 4,5 6,4 '7) 6,7 24,8 6)


Fertilizunte B 8,8 J,8 9,6 1,0 ?? ? 8,3

Fertiliz.ante C 5q 6,8 \'7 5) 23.6 5q


Total dq coluns 19,2 2t,0 ))5 18,9 Total geral = 81,6
Média da coluna 6,4 7,0 7.5 6,3 Média geral = 6,8

A variação das médias das linhas em relação à média geral é

Vn = 4[(6,2 - 6,8)2 + (8,3 - 6,8)2 + (5,9 - 6,8)2] = 13,68

A variação das médias das colunas em relação à média geral é

Vc= 3[(6,4 - 6,8)2 + Q,O - 6,8)2 + (1,5 -6,U2 + (6,3 - 6,8;21= 2,92

A variação total é

V = (4,5-6,U2 +9,4-6,8)2+ (j,2-6,U2 +9,1 -6,8)2+


+ (8,8 - 6,8)2 + (7,8 -6,8)2 + (9,6-6,U2 + (7,0 -6,8)2 +

+ (5,9 -6,U2 +(6,8-6,8)2+ (5,1 -6,»2 +§,2-6,8)2=23,93


Avariação aleatóríaé
VE=V-Vp-VC=6.58
Os resultados obtidos conduzem à anáIise da variância na Tabela 18.19.

Ao nível de significância 0,05 com 2 e 6 graus de liberdade, Fo,g5 = 5,14.


Como 6,24 > 5,14, podemos rejeitar a hipótese da igualdade das médias das linhas
e concluir que para tal nível existe diferença significante na produção devida aos
fertilizantes.
Cap. 18 Anó,lise da uariô,ncia 543

Como o valor de F correspondente às diferenças das médias das colunas é


menor que 1, podemos concluir não haver diferença significante na produção devida
às safras.

Tabela 18.19

Variação Graus de Quadrado F


Liberdade Médio

§Ãt§3 = 6.24
Vn = 13,68 2 §n2 = 6,s4
com2 e 6 graus
de liberdade

§Ãt§3 = 0,86
Vc = 2,82 J §.2=o,gq
com3e6graus
de liberdade

vt, = 6,58 6
/\,
S É= 1,091

V = 23.08 t1

12. IJsar as fórmulas abreviadas para obter os resultados do problema anterior.

Solução
Da Tabela 18.18 temos
')
», X fr = (4,5)2 + (6,4)2 + ...+ (5,2)2 = 511,96
i,k

T = 24,8 + 33,2 + 23,6= 81,6

LT ? = (24,8)2 + (33,2)2 + (23,6)2 = 2214,24

»r 3 = Og,2)2 + Ql,O)z + (22,5)2+ (18,9)2 = 7613,10


544 Estatística Cap. 18

Então

_s ?
xi7 577,96 - 554,88 = 23,O8
j,k ah

Vp
b
1
,Tf = ){rrro,r4) - ss4,88 = r3,68


a
1
,T? -rbT, I
= 1t 1673.10) - 554.88 = 2.82

Vp - V-Vn-Vç- 23,08 - 13,68 - 2,82 = 6,58

que está de acordo com o Problema 11.

Experimentos de Dois Fatores com Repetição


13. Um fabricante quer determinar a eficiência de quatro tipos de máquinas, Á, B,
C e D, na produção de parafusos. Para atingir tal intento, obtêm-se os números
de parafusos defeituosos produzidos por cada máquina nos dias de uma certa
semana em cada um dos dois turnos de trabalho; os resultados estão apre-
sentados na Tabela 18.20. Efetuar uma análise da variância para determinar,
ao nível de significância 0,05, se existe diferença (a) entre as máquinas e (ó)
entre os turnos de trabalho.

Solução
Os dados podem ser dispostos como na Tabela 18.21 na qual estão indicados os dois
fatores principais: máquina e turno. Note-se que estão indicados os dois turnos para
cada máquina. Os dias da semana podem ser considerados como repetições do
desempenho de cada máquina para os dois turnos. A variação total para todos os
dados da Tabela 18.21é

V =62 +42 +52 +...+72 +t02 W=1946-t7g5,G=150,4


Cap. 18 Andlise da uaridncia 545

Tabela 18.20

Máquina Primeiro Turno Segundo Turno

Seg. Ter. Qua. Qui. Sex.

A 6 4 5 5 4 5 7 4 6 8

B 10 8 7 1 9 7 9 t2 8 8

C 1 5 6 5 9 9 7 5 4 6

D 8 4 6 5 5 5 7 9 7 10

Tabela 18.21

Fator I: Fator II: Repetições


Mdquina Turno
Seg. Ter. Qua. Qui. Sex. Total

4 5 5 4 24
A Ir 6
30
5 7 4 6 8
12

B Ir 108119 4l
[2 191288 44

C 7 5 6 5 9 32
4 6 31
{t 9 1 5

D 8 4 6 55 28

{; 5 7 9 110 38

Total 51 51 54 4',7 59 268

A fim de considerar os dois fatores principais (máquina e turno), restnn-


jamos nossa atenção ao total dos valores de repetição correspondente a cada
combinação de fatores. Tais valores estão organizados na Tabela 18.22, que é uma
tabela de dois fatores com entradas únicas. A variação total para a Tabela 18.22,
que chamaremos uariaçã.o subtotal Vg, é dada por

O4\2 @Lf B2f *. el)z *, (80)2 , éq2 *, (31)2* (38)2- Q6$2 _=


YS='-5-* 5:*- S E " 5 5 5 40
= I 861 ,2 - 1795.6 = 65.6
546 Estatística Cap. 18

Avariaçáo entre as linhas é dada por

,/ (54)2 (85)2+- (63)2 +.166)2


"t0t0l0l0
lp=-f . ff = 1846,6 - t:,g5,6= 51.0

Avariação entre as colunas é dada por

vr=W. W. W= 1803,7 - 17e5,6=8,1

Tabela 18.22

Mdquina Primeiro Segundo Total


Turno Turno

A 24 30 54
B 4t 44 85
C 32 31 63
D 28 38 66
Total t2s t43 268

Se agora subtrairmos da variação subtotal Vg a soma das variações entre as linhas


e colunas (V4 + V6,), obteremos a variação devida à interação entre as linhas e
colunas, que é dada por
Vt = Vs - Vp - Vc = 65,6 - 51,0 - 8,1 = 6,5

Finalmente, a variação residual, que pode ser considerada aleatória ou


devida a erro (desde que acreditemos que os vários dias da semana não proporcio-
nem quaisquer diferenças importantes) é obtida subtraindo-se a variação subtotal,
isto é, a soma das variações linha, coluna e interação, da variação total, o que produz
Vn = V - (Yn + Vç + V) = V - VS = 150,4 - 65,6 = 84,8
Estas variações estão apresentadas na Tabela 18.23 que representa a
anáIise da variância, fornecendo também o número de graus de liberdade corres-
pondente a cada tipo de variação. Assim, como existem quatro linhas na Tabela
18.22, a variação devida às linhas tem 4 - 1 = 3 graus de liberdade, enquanto a
variação devida às duas colunas tem2 - 1 = 1 grau de liberdade. Para determinar-se
os graus de liberdade devidos à interação, deve-se notar que existem oito entradas
na Tabela 18.22; por conseguinte, o total de graus de liberdade é 8 - 1= 7. Como 3
destes 7 graus de liberdade são devidos às linhas e um às colunas, os restantes, 7 -
- (3 + 1) = 3, são devidos à interação. Como existem 40 entradas na Tabela 18.21,
o total de graus de liberdade é 40 - 1= 39. Assim, os graus de liberdade devidos à
variação aleatória ou residual são 39 -7 = 32.
Cap. 18 Arudlise da uariô.ncia 547

Tabela 18.23

Variação Grsus de liberdade Quadrado Médio F

Linhas (máqu^inas)
VR = 51,0
3
ffi = rz,o ffi:0,0,
Colunas (turnos)
VC =8,1
I
,/s
Só = 8,t fj =:'oo

Interação
VI = 6,5 fr = 2,t6t ffi = r,r,,
Subtotal
I/S = 65,6

Aleatória ou residual
VE = 84,8
32 fi = 2,6s

Além disso, para prosseguir, devemos inicialmente determinar se existe


qualquer interação significante entre os fatores básicos, isto é, as linhas e colunas
da Tabela 18.22. Da Tabela 18.23 vemos que, para a interação, F = 0,817 , que mostra
não ser ela significativa, isto é, não podemos rejeitar a hipótese F10(3). Seguindo as
regras estabelecidas quando se abordou os experimentos de dois fatores com repe-
tição, vemos que o F calculado para as linhas é 6,42. Como Fo,g5 = 2,90 pata 3 e 32
graus de liberdade, podemos rejeitar a hipótese H0(1) de que as linhas possuem as
mesmas médias. Isto equivale a dizer que, ao nível 0,05, podemos concluir que as
máquinas não sáo igualmente eficientes.
548 Estatística Cap. 18

Para 1 e 32 graus de liberdade, Fo,gl= 4,15, e como o F calculado para as


colunas E 3,06, não pod.emos rejeitar a hipótese HoQ) de que as médias das colunas
são iguais, o que equivale a dizer que, ao nível 0,05, não existe diferença significante
entre os turnos.
Se decidíssemos analisar os resultados combinando-se as variações de
intereção e residual, como é recomendado por alguns estatísticos, encontraríamos
V1 + Vg = 6,5 + 84,8 = 91,3 para a variação combinada, e V 7 + Vn = 3 + 32 = 35 para
os graus de liberdade combinados, fornecendo-nos uma variância combinada de
91,3i35 = 2,61. Usando-se este valor ao invés de 2,65 para o denominador de F na
Tabela 18.23, tal fato não afetará as conclusões obtidas anteriormente.

14. Resolver o Problema 13 usando-se o nível de significância de 0,01.

Solução
Ao nível 0,01 ainda não há interação apreciável, de modo que podemos prosseguir
um pouco mais além.
Como F0,99 = 4,47 para 3 e 32 graus de liberdade, e como o valor calculado
de F para as linhas é 6,42, podemos concluir que, mesmo ao nível 0,01, as máquinas
não possuem a mesma eficiência.

Como Fo,gg = 7,5L para I e S2graus de liberdade, e o F, calculado para as


colunas é 3,06, podemos concluir que, ao nível 0,01, não há diferença significante
entre os turnos.

Quadrados Latinos
15. Um fazendeiro deseja testar os efeitos de quatro fertilizantes diferentes,A, B,
C e D, sobre a produção de trigo. A fim de eliminar as fontes de erro devido à
variabilidade da fertilidade do solo, ele usa os fertilizantes em um quadrado
latino como representado na Tabela 18.24, onde os números indicam as produ-
ções em toneladas. Realizar uma anáIise da variância para determinar se
existe diferença entre os fertilizantes aos níveis de significância de (o) 0,05 e
(ó) 0,01.
Cap. 18 And,lise da uariâ.ncia 549

Solução
Inicialmente obtemos os totais de linhas e colunas como está indicado na Tabela
L8.25. Podemos também obter as produções totais para cada fertilizante, como na
Tabela 18.26. Avariação total e as variações das linhas, colunas e tratamentos são
obtidas como de costume.
A variação total é:

y = (18)2 + (21)2 + (25)5+... + ( 10)2 + (17)2 - = 57 69- 5439,06 = 329,94


W

Tabela 18.24

418 c2l D25 Bt1


D22 812 At5 ct9
815 A20 c23 D24
c22 D21 Bt0 All

Tabela 18.25
Total
A18 c21 D25 B 11 t5
D22 Bt2 At5 C19 68

815 A20 c23 D24 82

c22 D2l Bt0 417 70

Total 77 14 l-1 11 295

Tabela 18.26

A B C D
Total 70 48 85 92 295

Avariação entre as linhas é

os\2 (68)2 (82É *+ (70)2 _ qÍ = 5468,25 _ s43g,o6 = 29,19


va=-í-+i* 4 4 --16
550 Estatística Cap. 18

Avariação entre as colunas é

_ (ll-\2 *- e4\2 n
V'c='i o3)2 - o l)2 e9»2 _ <,1A1 1\
+ - + +
t/^
4'-'-iO'=5443.15-5439.06=4.69
A variação entre os tratamentos é

ta= tlOt2 (48)2 (85)2 Ob2 _ Qg5l2 _


4 * 4 + 4 + 4 rc =rtzr,z)
5123.25_ 5439.06 = 284,19

ATabela 18.27 apresenta a análise da variância.

Tabela 18.27

Variação Graus de Quadrado F


liberdade Médio

Linhas,29,l9 -1
q 71 4.92
Colunas, 4,69 3 1,563 0,19
Tratamentos ,284,19 3 94.73 41,9
Residuais, 11,87 6 1,978

Total,329,94 t5

(a) Como Fo,gs;s;o = 4,76 podemos rejeitar, ao nÍvel 0,05, a hipótese da igual-
dade das médias de linhas. Segue-se que, ao nível 0,05, existe diferença na
fertilidade do solo de uma linha para outra.
Como o valor de tr, para as colunas é menor que 1, concluímos náo haver
diferença na fertilidade do solo nas colunas.
Como o valor de F para os tratamentos é 47,9 > 4,76, podemos concluir na
existência de diferença entre os fertilizantes.
(ó) Como F0,99;B;6= 9,78, não podemos aceitar a hipótese de não haver diferen-
ça na fertilidade do solo nas linhas (ou colunas) ao nível 0,01. Contudo,
ainda devemos concluir que existe diferença entre os fertilizantes ao nível
0,01.
Cap. 18 And.lise da uariôncia 551

Quad rados G reco- Lati nos

16. Há interesse em se determinar a existência de diferença significante no


consumo, em litros, entre as gasolinas A, B, C e D. Planejar um experimento
que utilize quatro motoristas diferentes, quatro carros diferentes e quatro
estradas diferentes.

Solução
Como o número de tipos de gasolinas, de motoristas, de carros e de estradas é o
mesmo (quatro), podemos usar um quadrado greco-latino. Suponha-se que os dife-
rentes carros são representados pelas linhas e os diferentes motoristas pelas
colunas, como na Tabela 18.18. Atribuamos, agora, os diferentes tipos de gasolinas
(A, B, C e D) às linhas e colunas de modo aleatório sujeitos somente à condição de
que cada letra apareça uma única vez em cada linha e em cada coluna. Assim, cada
motorista terá oportunidade única para dirigir cada carro e utilizar cada tipo de
gasolina, e nenhum carro será dirigido duas vezes com o mesmo tipo de gasolina.
Atribuem-se, agora, ao acaso, as quatro estradas a serem utilizadas,
representando-as por o, Ê, T e ô, sujeitando-se à mesma condição imposta aos
quadrados latinos. Conseqüentemente, cada motorista terá também a oportunidade
para dirigir ao longo de cada uma das estradas. A Tabela 18.28 apresenta um
possível arranjo.

Tabela 18.28

Motorista
I 2 J 4

Carro I By ÁB D6 ca
Carro 2 Á6 Ba cy DB

Carro 3 Da Ca Bg Ay

Carro 4 CB D.t Acl B6

t7. Suponha-se que, na execução do experimento do Problema 16, as quilometra-


gens, por litro, são as constantes da Tabel a 18.29. Usar a análise da variância
para determinar a existência de quaisquer diferenças aos níveis de significân-
cia 0,05 e 0,01.
552 Estatística Cap. 18

Tabela 18.29

Motorista

I 2 3 4
Carro I By 19 Ap 16 D6 16 ca 14

Carro 2 A6 15 Ba l8 cy tt Ds 15

Carro 3 Dd 14 C6 ll Bg 21 Ay t6
Caro 4 Cs 16 Dy t6 Aa 15 86 23

Solução
Inicialmente determinamos os totais das linhas e das colunas, como na Tabela 18.30.
A seguir obtemos os totais para cada letra latina e cada letra grega, como se segue:

Atotal: 15+ 16+ 15+ 16=62


Btotal: 19+ 18 +21+23=81
Ctotal: 16+ 11+ 11+ 14=52
Dtotal: L4+76+ 16+ 15=61
cr total: 14 + 18 + 15 + t4 = 6l
ptotal: 16+ 16 +21+15=68
ytotal: 19 + 16 + 11 + 16 = 62
ôtotal: 15 + 11 + 16 + 23 =65
Tabela 18.30

Total

By t9 Ag 16 D6 16 cd 14 6-5

Á5 15 Ba 18 cT 1l DB 15 59

Da 14 C5 11 Bg 2t Ay t6 62

CB t6 Dy t6 Ad 15 B6 23 70

Total 64 61 63 68 256
Cap. 18 Anó,lise d,a uariô,ncia 553

Calculamos agora as variações correspondentes, utilizando-se o método abreviado:

Linhas: ry -tu# . *{- . ry ry = 4t12,50- 40e6 = 16,50

^-1
Colunas: '"; +. §! *
$4)2 t63)2 * (6812
_ (2562 = a1o,
4 4 4---={=4LU2,50-4096=6,50
Gasotinas (L B, c, e ot,ff . ry .%-.ry ry = 4207,50 - 4osl= 111,50

Estradas (cr, Ê, y, u)'aY .ry.try.ry W= 4108,50- 40eG=7,50

A variação total é

(19)2 + (16)2 + (16)2 +...+ (15)2 + (%)2 -W= 4244-4096 = 148,00

de modo que a variação devida ao erro é

148,00 - 16,50 - 6,50 - 111,50 - 7,50 = 6,00

Estes resultados encontram-se na Tabela 18.31, a análise da variância. O


número total de graus de liberdad e é N2 - 1 para um quadrado N x N. Cada uma
das linhas, colunas, letras latinas e letras gregas possuemN- 1 graus de liberdade.
Assim, os graus de liberdade para o erro são N2 -1 - +(lf - 1) = (N - 1XN - 3). Neste
caso, N = 4.

Temos F0,95;B;B= 9,28 e Fo,gg;e;e = 29,5. Conseqüentemente, podemos rejei-


tar a hipótese das gasolinas serem iguais ao nível 0,05 mas não ao níve1 0,01.

PROBLEMAS VARIADOS

18. Provar, como na Equação (15) destp capítulo, que I, %= 0.

Solução
As médias populacionais dos tratamentos py e a média total da população p estão
relacionadas por
554 Estatística Cap. 18

1_
F=;'v, (s3)

Por conseguinte, como dj = lrj - tr1, temos, usando a Equação (53),

Iot=l(p;-p)= 2Vj-aV=O (54)


J]J

Tabela 18.31

Variação Graas de liberdade Quadrado Médio F

Linhas (carros) 5,500


J 5.500 = / l\
16.50 2.000
Colunas (motoristas) -

6.50
-) 2,167
ffi= r,os

Gasolinas (A, B, C ,
D), 111,50
J 37,167
T# = 18,6

Estradas (o, Ê, y, ô), 2,500 _ , ..


3 2.500
7,50 2.000
Erro,
J 2,000
6.00
Total
l5
148,01

19. Deduzir (o) a Equação (16) e (b) a Equação (17) deste capítulo.

Solução
(o) Por definição temos

. o [' h
vw = 2 61r, - 4 )2 = b 2 | i » gr< - Vi )' =b»S?
i.k l=1lot,=t" j=1

onde Sr2 é a variância amostral para o tratamento de ordem 7. Então, como o


tamanho da amostra é á,
a - o (n_t ^\
E(Vwt= b,2,= EtS72) = b,\,1= o
'o'l= aú - l)o2
.l--t J-r\ )
(ó) Por definiçáo,
Cap. 18 And,lise da uaridncia 555

Va = b» (Xi -{l2 = brXjz.-2b7 zXi + ab* = b»Xj2.-ab*


j=r j=t j=t j=r
Í = (2i Xià/o. Então, omitindo-se
pois, o índice no somatório temos

E(và = b2 Eé?) - abE (x2 ) (ss)

Ora, para qualquer variável aleatória U, E (U 2) = ,u, (U) + lE ([D]2, onde


var (U) representa a variância de U. Deste modo

E(X? ) = var 1x1S + 1E(x1))2 (s6)

E (-f ) - var ( x) + ls (x)12 (si)


Mas, como as populações dos tratamentos são normais com média
Ilj = Il + o;, temos

var(Xi )= t
(s 8)

_2
var 1)q = Il
an
r5q\

n (x1) = pi = p + crj (60)

E(X) = tL (61)

Usando-se os resultados (56) a (61) juntamente com o resultado (53), temos


f -t ^-l I o2 ,-]
E (va )=bz=
L?
+ (F + )
"r ' .]
- ab l1o * u' )=
= ao2 + b » (pL + q)2 - o2 - abltz =
: (q - 1)o2 + ab1t2 + 2b1t" L u1 +b»ú * ab1t2 =

=(a-t)yt2+b»S
556 Estatística Cap. 18

20. Provar o Teorema 1 deste capítulo.

Solução
Como se mostrou no problema anterior,

vw=bísl o, \=íut]
j=t j=to' o-
onde Sr2 é a variância amostral para amostras de tamanh o b extraídas da
população de tratamento 7. Sabe-se que bsjz/o2 tem uma distribuição qui-qua-
drado com ó - 1 graus de liberdade. Deste modo, como as variâncias Sr2 são
independentes, concluimos que V1ry/oz é qui-quadrado com a$ - 1) graus de
liberdade.

PROB LEMAS SU PLEMENTARES

ClassiÍicação de um critério ou experimentos de um Íator


27. Realiza-se um experimento para determinar-se as produções de cinco varieda-
des de trigo: .4" B, C, D e ,8. São atribuidos quatro lotes de terra para cada
variedade e as produções, em toneladas, estão apresentadas na Tabela 18.32.
Supondo-se que os lotes possuem fertilidades semelhantes e que as variedades
são atribuídas aos lotes aleatoriamente, determinar se existe diferença entre
as produções aos níveis de significância (a) 0,05 e (ó) 0,01.

Tabela 18.32
A 20 t2 15 t9
B t1 t4 t2 15

C 23 16 18 14
D 15 t7 20 t2
E 21 t4 I1 l8

Resp.: Há uma diferença significativa entre as produções em ambos os níveis.


Cap. 18 And,lise da uariâ.ncia 557

22. Uma empresa deseja testar quatro tipos diferentes de pneus: A, B, C e D. Suas
durações, determinadas pelas suas bandas de rodagem, estão na Tabela 18.33
(em milhares de quilômetros), onde cada tipo foi testado, aleatoriamente, em
seis automóveis semelhantes. Determinar se existe diferença significante
entre os pneus aos níveis (o) 0,05 e (á) 0,01.

Tabela 18.33

A JJ 38 36 40 31 35

B 32 40 42 38 30 34

C 3l 31 JI 35 -t -) 30

D 29 34 32 30 JJ 31

Resp.: Não há diferença significativa entre os pneus para cada um dos níveis.

23. Um professor deseja testar três métodos diferentes de ensino: I, II, III. Para
isso, são escolhidos, de modo aleatório, três grupos de cinco estudantes, e cada
grupo é instruído por um método diferente. E dada então a mesma prova a
todos os estudantes e os graus obtidos constam da Tabela 18.34. Determinar
se existe diferença entre os métodos de ensino aos níveis de significância (o)
0,05 e (ó) 0,01.

Tabela 18.34

Método I 15 62 '7t 58 73

Método II 8l 85 68 92 90

Método III 73 79 60 75 81

Resp.: Há uma diferença significativa entre os métodos de ensino ao nível de


0,5 o que não ocorre ao nível de 0,1.

Modificações para números desiguais de observações


24. A Tabela 18.35 fornece as distâncias percorridas, em 1000 km, por automóveis
semelhantes usando cinco qualidades diferentes de gasolina. Determinar se
existe diferença entre a gasolina aos níveis de significância (a) 0,05 e (á) 0,01.
558 Estatística Cap. 18

Tabela 18.35

Qualidade A t2 15 t4 11 15

Qualidade B l4 t2 15

Qualidade C ll t2 10 t4

Qualidade D 15 18 l6 t7 14

Qualidade E 10 t2 14 t2

Resp.: Há uma diferença significativa entre as qualidades de gasolina em cada


um dos níveis.
25. Durante um semestre um estudante obteve notas em várias matérias, como
mostra a Tabela 18.36. Determinar se existe diferença significante entre as
notas aos níveis (o) 0,05 e (ó) 0,01.

Tabela 18.36

Matemáticas 72 80 83 75

Ciências 81 14 11

Inglês 88 82 90 87 80

Economia 14 1t 1'7 10

Resp.: Háuma diferença significativa entre as notas em ambos os níveis.

ClassiÍicação de dois critérios ou


experimentos com dois Íatores
26. Os artigos fabricados por uma companhia são produzidos por três operários
usando três máquinas diferentes. O fabricante deseja determinar se existe
diferença (a) entre os operários e (ó) entre as máquinas. Realiza-se um experi-
mento para determinar o número de artigos, por dia, produzidos por cada operário
utilizando cada máquina; os resultados estão apresentados na Tabela 18.37.
Fornecer as informações desejadas usando o nível de significância de 0,05.
Cap. 18 And.lise da uariô.ncia 559

Tabela 18.37

Operdrio

1 2 3

Máquina Á 23 27 24
Máquina B 34 30 28

Máquina C 28 25 27

Resp.: Não há diferença significativa entre operários e máquinas.

27. Resolver o problema anterior ao nível de significância 0,01.


Resp.: Não há diferença significativa entre operários e máquinas.
28. Plantam-se quatro tipos diferentes de sementes de milho em cinco blocos. Cada
bloco é dividido em quatro lotes, que são atribuídos, aleatoriamente, aos quatro
tipos de sementes. Determinar, ao níve1 de significância 0,05, se as produções,
em toneladas, apresentadas na Tabela 18.38, variam significantemente com
diferenças (o) no solo, isto é, nos cinco blocos e (á) nos tipos de milho.

Tabela 18.38

Tipo de Milho

III N
Bloco A 15

Bloco B t9
Bloco C 14 18 15 t2
Bloco D 1l 16 t2 16

Bloco E 16 11 11 14

Resp.: Há uma diferença signiÍicativa quanto ao tipo de milho, mas não quanto
ao tipo de solo.

29. Resolver o problema anterior ao nível de significância 0,01.

Resp.: Náo há diferença significativa em relação ao tipo de milho ou solo.


560 Estatística Cap. 18

30, Suponha-se que no Problema 22 a primeíra observação para cada tipo de pneu
é feita usando-se um tipo particular de automóvel, a segunda observação em
outro tipo de automóvel, e assim por diante. Determinar, ao nível de signifr-
cância 0,05, se existe diferença (o) entre os tipos de pneus e (ó) entre os tipos
de automóveis.

Resp.: Ao nível de 0,05, há uma diferença significativa entre os tipos de pneus


e automóveis.

31. Resolver o problema anterior ao nível de significância 0,01.


Resp.: Ao nível de 0,01, não há uma diferença significativa entre cada tipo de
pneu e cada tipo de automóvel.
õ2. Suponha-se que no Problema 23 o primeiro dado referente ao método de ensino
corresponda a um estudante de uma escola particular, o segundo método a um
estudante de outra escola, e assim por diante. Testar a hipótese, ao nível de
significância 0,05, de haver diferença (o) entre os métodos de ensino e (á) entre
as escolas.
Resp.: Ao nível de 0,05, há uma diferença signiÍicativa entre os métodos de
ensino, mas não entre as escolas.
33. Realiza-se um experimento para testar se a cor do cabelo e a altura de estu-
dantes do sexo feminino têm alguma relação com o comportamento escolar. Os
resultados aparecem na Tabela 18.39, onde os números indicam os indivíduos
colocados entre os primeiros 107o. Analisar o experimento a um nível de
significância de 0,05.
Resp.: Não há diferença significativa quanto a cor dos cabelos e altura.
34. Resolver o problema anterior ao nível de significância de 0,01.

Tabela 18.39

Ruivq Loura Morena

Alta 75 78 80

Média 81 76 19

Baixa t-t 15 79

Resp.: Não há diferença signiÍicativa quanto a cor dos cabelos e altura.


Cap. 18 Anó.lise da uaridncia 561

Experimentos com dois Íatores com repetição


85. Suponha-se que o experimento do Problema2lfoi realizado no sul do Brasil
qrr" .t colunas da Tabela 18.32 indiquem, agora, quatro tipos diferentes de
"ferlilizantes, enquanto um experimento semelhante realizado no sudeste for-
neceu os resultados apresentados na Tabela 18.40. Determinar, ao nível de
significância 0,05, a existência de diferença nas produções devida (a) aos
fertilizantes e (ó) aos locais.

Tabela 18.40

A 16 18 20 23

B 15 t7 t6 t9
C 2t t9 18 21

D 18 22 21 23
E 17 18 24 20

Resp.: No nível de 0,05, existe uma diferença significativa devido ao local, mas
não com relação aos fertilizantes.

Resolver o problema anterior ao nível de significância 0,01.


Resp.: No nível de 0,01, não existe diferença significativa devido ao local ou
fertilizante.
37. A Tabela 18.41 fornece o número de artigos produzidos por quatro operários
trabalhando em dois tipos de máquinas, I e II, em diferentes dias da semana.
Determinar, ao nível 0,05, se existe diferença signiÍicante (o) entre os operários
e (ó) entre as máquinas.

Tabela 18.41

Mdquina I Máquina II
Seg. Ter. Qua. Qui. Sex. Seg. Ter. Qua. Qui. Sex.

Operador Á 15 18 l7 20 12 t4 16 18 17 15

Operador B t2 16 14 18 11 11 15 12 16 12

Operador C 14 11 18 16 13 t2 14 16 t4 11

Operador D t9 16 21 23 18 17 15 18 20 11

Resp.: Há uma diferença significativa entre os operários, mas não entre as máquinas.
Estatística Cap. 18

Quadrados Latinos
38. Realiza-se um experimento para testar o efeito sobre a produção de milho de
quatro fertilizantes diferentes (A, B, C, e D) e das variações do solo em duas
direções perpendiculares. Obtêm-se o quadrado iatino da Tabela 18.42, onde
os números representam a produção de milho em toneladas. Testar, ao nível
de significância 0,01, a hipótese da não existência de diferença (a) entre os
fertilizantes e (ó) nas variações do solo.

Tabela 18.42

C8 410 Dt2 B 11
At4 c12 B tl D15
D10 Bt4 ct6 410
B1 D16 At4 c12
Resp.: Não há diferença significativa entre fertilizante ou solo.
39. Resolver o problema anterior ao nível de signiÍicância 0,05.
Resp. Não há diferença significativa entre fertilizante ou solo.
40. Referindo-se ao Problema 33, suponha-se que introduzimos um fator adicional
indicando a região E, M ou W onde um estudante nasceu, como mostra a Tabela
18.43. Determinar, ao nível 0,05, se existe diferença significante nos resultados
escolares das estudantes femininas devida (o) à altura, (á) à cor do cabelo e (c)
à região de nascimento.

Tabela 18.43

8151W78M80
M8lE761Wt9
w13lM75lE11
Resp.: Não há diferença signiÍicativa nos resultados escolares devido à dife-
rença de altura, à cor do cabelo e região de nascimento.
Cap. 18 Aná.lise da uariô'ncia 563

Quad rados g reco-lati nos


41. A fim de produzir um tipo superior de ração para galinhas, adicionam-se, aos
ingredienles básicos, quatro quantidades diferentes de dois produtos químicos.
As quantidades do primeiro produto químico são indicadas por A, B, C, e D,
enquanto as do segundo sáo indicadas por oc, 0, Ye ô.4 ração é dada aos pintos
orgLnizados em gmpos de acordo com quatro pesos iniciais diferentes (Wt, Wz,
Wi e W+) e quatro espécies (Sr, Sz, Sg e S+). Os aumentos de peso são
apreserrtàdos no quadrado greco-latino da Tabeia 78.44. Efetuar uma análise
dà variância do experimento ao nível de signiÍicância 0,05, relatando quaisquer
conclusões que possam ser extraídas.

Tabela 18.44

W1 W2 W3 Wa

S1 cy 8 Bp 6 A(\ 5 D5 6

S2 A6 4 Dcx 3 CB 1 By J

S3 DB 5 A"t 6 B5 5 ca 6

Sa Ba 6 C6 l0 D"t t0 AB 8

Resp.: Há uma diferença significante em relação às espécies de galinha e à


quantidade do primeiro produto químico, mas não em termos do segun-
do produto químico ou dos pesos iniciais das galinhas'

42. Quatro tipos diferentes (Tt, Tz, Ts e Tq) são fabricados por cada uma
de cabos
das quatro companhias (cr, cz, cz u c+). Quatro operários (A, B, c e D)
utilizando quatrà máquinas diferentes (cr, 0, Y e ô) medem as resistências dos
cabos. As resistências médias obtidas são apresentadas no quadrado greco-1a-
tino da Tabela t8.45. Realizar uma análise da variância ao níve1 de significân-
cia 0,05, relatando quaisquer conclusões que possam ser extraídas.

Tabela 18.45

Ct C2 Cz Ct +

Ty As 164 B^r 181 cd t93 D6 160

T2 C6 111 Dcr 162 A"t 183 Bg 145

T3 Dy t98 Cn 212 B6 201 Aa 188

Ta Ba 157 Ag 172 Dg r66 cy 136


564 Estatística Cap. 18

Resp.: Há uma diferença significante nas resistências dos cabos, devido ao


tipo de cabo, mas não há diferença significativa devido aos operários,
máquinas ou companhia.

PROBLEMAS DIVERSOS

43. A Tabela 18.46 fornece os dados sobre a ferrugem acumulada sobre o ferro, que
foi tratado quimicamente com os produtos A, B ou C. Determinar se existe
diferença significante nos tratamentos aos níveis (o) 0,05 e (á) 0,01.

Tabela 18.46

A ..) 5 4 4

B 4 2 J 3

C 6 4 5 5

Resp.: Não há diferença significativa em cada um dos níveis.


44. Um experimento mede os quocientes de inteligência (QI) de estudantes do sexo
masculino de estaturas alta, baixa e média, cujos resultados aparecem na
Tabela 18.47. Determinar se existe qualquer diferença nas contagens do QI em
relação às diferentes alturas aos níveis de signiÍicância (o) 0,05 e (ó) 0,01.

Tabela 18.47

Alta 110 10-5 ll8 112 90

Baixa 95 103 115 to7

Média 108 tt2 93 104 96 102

Resp.: Não há diferença signiÍicativa em cada um dos níveis.


45. Provar os resultados (10), (11) e (12) deste capítulo.
46. Realizou-se uma prova para determinar se os veteranos ou não veteranos de
diferentes QI apresentavam melhor desempenho. As contagens obtidas apare-
cem na Tabela 18.48. Determinar, ao nível de significância 0,05, se existe
diferença nas contagens devida (o) a ser veterano ou não e (ó) ao QI.
Cap. 18 Anó.lise da uaridncia 565

Tabela 18.48

Contagem

QI Alto QI Médio QI Baixo

Veterano 90 81 74

Não Veterano 85 78 10

Resp... Ao nível de 0,05 existe uma diferença significativa na contagem obtida


devido ao status de veterano e o QI'
47. Resolver o problema anterior ao nível de significância 0,01.

Resp.: Ao nível de 0,01 a diferença na contagem devido ao status de veteranos


náo é significativa, mas a diferença devido ao QI é'

48. A Tabela 18.49 apresenta as contagens para uma amostra de estudantes


universitários corn diferentes QI e procedentes das diferentes regiões do país'
Analisar a tabela ao nível de signiÍicância 0,05, relatando as conclusões.

Tabela 18.49

Contagem

QI Alto QI Médio QI Baixo

Leste 88 80 72

Centro-Oeste 84 18 75

Sudeste 86 82 10

Norte e Nordeste 80 75 79

Resp.: Não há diferenças significativas entre as contagens em relação à locali-


zaçáo do estudánte, mas há diferença signiÍicativa em termos do QI.

49. Resolver o problema anterior ao nível de significância 0,01.


Resp.: Não há diferenças significativas entre as contagens em relação à
localização do esiudante, mas há diferença signiÍicativa em termos do

Qr.
Estatística Cap. 18

50. No Problema 37 pode-se determinar se existe diferença significante no número


de artigos produzidos nos diferentes dias da semana? nx*phcar.
51. Na análise da variância sabe-se que uma constante adequada pode ser adi_
cionada ou subtraída de cada valor sem afetar as conclusões. Isto também
é
verdadeiro se cada valor for multiplicado ou dividido por uma constante
adequada? Justificar a resposta.
52. Deduzir os resultad os (24), (25) e (26) para números desiguais de observações.

53. suponha-se que os resultados da Tabela 1g.46 do problema 48 mantêm-se para


o nordeste do país, enquanto os correspondentes ao sudeste constam da Tabela
18.50. Determinar, ao nível de significância 0,05, se existem diferenças
devidas
(o) aos produtos quÍmicos e (ó) à localização.

Tabela 18.50
A 5 4 6 3
B J 4 2 3
C 5 1 4 6

Resp.: Ao nível de 0,05 há uma diferença significativa devido a ambos, produto


químico e localização.
54' Referindo-se aos Problemas 21e 35, suponha-se que um experimento adicional
realizado no nordeste produziu os resultados ãonstantes da Tabela 1g.51.
Determinar, ao nível de signifrcância 0,05, se existe diferença ,u. proarrç0".
devida (o) aos fertilizantes e (á) para três locais.

Tabela 18.51
A l7 t4 18 12
B 20 10 20 15
C 18 l5 t6 17
D t2 l1 t4 t1
E 15 t2 t9 14

Resp-: Ao nível de 0,05 há uma diferença signiÍicativa devido à Iocalizaçã.o,


mas não devido ao fertilizante.
55. Resolver o problema anterior ao nível de significância 0,01.
Resp.: Ao nível de 0,01 não há diferença devido à localização ou aos ferti-
lizantes.
Cap. 18 Anó.lise da uariâ.ncia 567

56. Efetuar uma anáIise da variância sobre o quadrado latino da Tabela 18.52 ao
nível de significância 0,05 e relatar as conclusões'
Resp.: Não há diferença signÍicativa devido aos fatos 7 e 2, ou tratamentos A,
BeC.
57. Elaborar um experimento que conduza ao quadrado latino da Tabela 18.52.

Tabela L8.52

Fator 1

B t6 C 21 A 15

Fator 2 A 18 B 23 C l4
C 15 A l8 B t2

Resp.: Nã Há diferença significativa devido aos fatos 1 e 2 ou tratamentos A,


BeC.
58. Realizar uma análise da variância sobre o quadrado greco-latino da Tabela
18.53 ao nível de significância 0,05 e relatar as conclusões'

Tabela 18.53

Futor I
Ay 6 Bp l2 C6 4 Dd 18

Fator 2 B6 J ACL 8 D",t 15 Cs t4


Ds 15 cy 20 Ba 9 A6 5

ca 16 D5 6 Ag t1 B^,t 7

Resp.: Não há diferenças significativas devido aos fatores ou tratamentos A,


BeC.
60. Descrever como fazer uso das técnicas da análise da variância para experimen-
tos com três fatores com repetição.
61. Elaborar e resolver um problema que ilustre o procedimento do Problema 60.
62.Provar(a)aEquaçáo(30)e(ó)osresultados(31)e(34)destecapítulo.
63. Na prática poderia se esperar encontrar (o) um quadrado latino 2x2 e (á) um
quadrado greco-latino 3 x 3? Explicar.
Capítulo
19

Testes não-paramétricos

lntrodução
A maioria dos testes de hipótese e significância (ou regras de decisão) considerados
nos capítulos anteriores necessitam de várias suposições sobre a distribuição da
população da qual as amostras são extraídas. Por exemplo, no estudo da distribuição
amostral das médias admitiu-se que as amostras foram extraídas de populações
normais ou aproximadamente normais.
Na prática surgem situações nas quais tais suposições não se justificam ou
nas quais surgem dúvidas quanto às suas aplicações, como no caso em que a
população pode ser altamente assimétrica. Por isso, os estatísticos imaginaram
vários testes e métodos que independem das distribuições populacionais e dos
parâmetros associados, que são denominados testes ndo-paramétricos.
Os testes não-paramétricos podem ser utilizados como substitutos abrevia-
dos dos testes mais complicados. São de valor especialmente no processamento de
dados não numéricos, como os que surgem quando consumidores classificam, em
ordem de preferência, cereais ou outros produtos.

Teste do sinal
Considere-se a Tabela 19.1, que apresenta os números de parafusos defeituosos
produzidos por duas máquinas de tipos diferentes em 12 dias consecutivos e que
supõe que as máquinas têm a mesma produção total por dia. Desejamos testar a

568
Cap. 19 Testes não-paramétricos

hipótese Ifg de que não existe diferença entre as máquinas: as diferenças observa-
das, em teimos àe parafusos defeituosos produzidos, são meramente resultado do
acaso, o que significa dizer que aS amostras provêm da mesma população.

Um teste não-paramétrico simples para o caso de amostras casadas é


fornecida pelo teste do sinal. TaI teste consiste em tomar-se as diferenças entre os
números dL parafusos defeituosos diariamente e anotar somente o sinal da diferen-
ça; por exemplo, para o dia l temos 47 -71,
que é negativo. Deste modo, obtemos a
seqüência de sinais correspondente à Tabela 19'1
(1)
--+---+-+---
isto é, B mais (positivos) e 9 menos (negativos). Oral'se é igualmente provável
obter-se um + tanto quanto üffi -, esperar-se-ia obter 6 de cada sinal. O teste Ilg é,
por conseguinte, equivalente àquele em que se quer saber se uma moeda é honesta
quando, im 12 lançamentos, obtêm-se 3 caras (+) e 9 coroas (-). Isto envolve a
di.t"ib,riçao binomial, vista no Capítulo 7. O Problema 1 mostra que usando-se um
teste bilateral desta distribuição, ao nível de significância 0,05, não se pode rejeitar
ff6, isto é, não há diferença entre as máquinas neste nível'

Tabela 19.1

Dia I 2 3 4 5 6 7 8 9 10 11 12

MdquinaI 41 56 54 49 36 48 51 38 61 49 56 52

Mdquina Il 7t 63 45 64 50 55 42 46 53 51 15 60

observação 1: se em um dia qualquer as máquinas produzem o mesmo


número de parafusos defeituosos, aparecerá na seqüência (1) uma dtfetença zero.
Neste caso podemos omitir este valor e utilizar 11 observações ao invés de 12.
observação 2: Pode-se, também, utilizar uma aproximação normal para
a distribuição binomial usando-se uma correção para continuidade
(ver Problema 2).

Muito embora o teste do sinal seja particularmente útil para âmostras


casadas, como na Tabela 19.1, o teste pode também ser utilizado para problemas
envolvendo amostras simples (ver Prob.lemas 3 e 4)'

Teste U de Mann-WhitneY
Considere-se a Tabela 19.2, que apresenta as resistências de cabos produzidos de
duas ligas diferentes. Nesta tabela temos duas amostras: uma de 8 cabos da liga I
e a outra de 10 cabos da liga II. Gostaríamos de decidir se existe ou não diferença
570 Estatística Cap. 19

entre as amostras, ou, equivalentemente, se originam-se ou não da mesma popula-


ção. Muito embora este problema possa ser resolvido usando-se o teste ú do Capítulo
11, é de utilidade um teste não-paramétrico denominado teste lJ de Mann-Whitruey,
ou, abreviadamente, teste U. Este consiste das seguintes etapas:

Tabela 19.2

Liga I Liga II
18,3 16,4 22,7 t],8 12,6 t4,t 705 10,7 15,9
18,9 25,3 16,1 24,2 19,6 12,9 t5,2 1 1,8 14.7

Etapa 7. Ordenar todos os valores amostrais, do menor para o maior valor,


e atribuir postos (neste caso de 1 a 18) a todos os valores. Se dois ou mais valores
da amostra forem idênticos, isto é, existem valores empatados, ou empates, são
atribuídos a cada valor amostral um posto igual à média dos postos. Se o valor 18,9
da Tabela 19.2 fosse 18,3, os dois valores 18,3 ocupariam os postos 12 e 18 na
ordenação de modo que o posto atribuído a cada um seria
f,rn * llt = !2,5.

Etapa 2. Determinar a soma dos postos para cada amostra. Representar


estas somas por.R1 e -R2, onde N1 e N2 são os respectivos tamanhos amostrais. Por
conveniência, escolher N1 como o de menor tamanho se forem desiguais, de modo
que N1 3 Nz. Uma diferença signiÍicante entre as somas R1 e R2 implica uma
diferença significativa entre as amostras.
Etapa 3. Para testar a diferença entre as somas dos postos usa-se a
estatística
N' (N, + l)
U=NtNz+ z:-Rt (2)

correspondente à amostra 1. A distribuição de amostragem d.e tl é assimétrica e


possui média e variância dadas, respectivamente, por

NtNz ) N1N2(N1 +rV2+1)


Vu= , o'y= t2
(3)

Se N1 e N2 forem pelo menos iguais a 8, veriÍica-se que a distribuição de


U é aproximadamente normal, de modo que
u-vu (4)
Og
Cap. 19 Testes não-paramétricos 571

énormalmente distribuída com média zero e variância 1. Utilizando-se o Apêndice


II,podemos, então, decidir se as amostras são significativamente diferentes. O
Problema 5 mostra existir diferença signiÍicante entre os cabos ao nível 0,05.
Observação 3: Um valor correspondente à amostra 2 é fornecido pela
estatÍstica
Nr(Nr + 1)
u=NtNz*a:-n, (5)

e tem a mesma distribuição amostral que a estatística (2), com média e variância
iguais às da fórmulas (3). Aestatística (5) está relacionada à estatística (2), pois se
U1e U2 são os valores correspondentes às estatísticas (2) e (5), respectivamente,
temos

U1+U2=ly'tly'2 (6)

Temos também

R1 +R2-1v@t!
2
Q)

onde N = N1 + NZ. A expressão (7) pode fornecer um controle dos cálculos.


[.I na Equaçã"o (2) é o número total de vezes
observação 4: A estatística
que os valores da amostra 1 antecedem os valores da amostra 2 quando todos os
valores amostrais são ordenados crescentemente. Isto fornece ummétodo de conta-
gem alf,ernativo para determinar U.

Teste H de Kruskal-Wallis
O teste (J é tm teste não-paramétrico para decidir se duas amostras se originam da
mesma população. Uma generalização para le amostras é proporcionada pelo teste
H de Krusleal-Wallis, owteste H.
Este teste pode ser descrito deste modo: Suponha-se que possuímos à
amostras de tamanhos N1, N2, ..., Nk, com o tamanho total referente ao conjunto de
todas as amostras dado porN = Nr + N2 +...+ N7r. Suponha-se, além disso, que os
dados do conjunto de todas as amostras são contados (são atribuídos postos) e que
as Somas dos postos para as À amostras são.81, R2,..., -R6, respectivamente. Se
definirmos a estatística
k
a=*t'fe sL R,2 3(l/ + 1) (8)
572 Estatística Cap. 19

então pode-se mostrar que a distribuição amostral de H é muito próxima de uma


distribuiçã,o qui-quadrado com á - l graus de liberdade, desde queN1, N2, ...,Nh
sejam todos pelo menos iguais a 5.

O teste I1 fornece um método não-paramétrico para a análise da uariâ,ncia


para classiÍicação de um critério ou experimentos com um fator, podend.o-se fazer
generalizações.

Teste H corrigido para empates


No caso de existir muitos empates entre as observações dos dados amostrais, o valor
de Í1 dado pela estatística (8) é menor do que deveria ser. O valor corrigido de 11,
representado por 11" é obtido dividindo-se o valor da estatística (8) pelo fator de
correção,

'-t'1i'-n-' (e)

onde 7 é o número de empates correspondente a cada observação e onde a soma é


efetuada para todas as observações. Se náo houver empates, então T = 0 e o fato (9)
reduz-se a 1, de modo que a correção é desnecessária. Na prática, a correção é
usualmente desprezível, isto é, não é suficiente para garantir uma mudança na
decisão.

Teste das séries para aleatoriedade


Apesar da palavra "aleatório" ter sido utilizada várias vezes neste livro, como em
"amostragem aleatória" e "lançamento de uma moeda ao acaso", nenhum capítulo
precedente forneceu qualquer teste para aleatoriedade. Um teste não-paramétrico
para tal fim é fornecido pela teoria das séries.
Para entender-se o que seja uma série, considere-se uma seqüência com-
posta de dois símbolos, o e ó, como
a al bbb I al b bl aqaa al hb bl qaa al (10)

No lançamento de uma moeda, por exemplo, o poderia representar,,caras,,


e ó "coroas", ou, na amostragem, os parafusos fabricados por uma máquina, o
poderia representar "defeituoso" e b "rtáo defeituoso".
Define-se uma série como um conjunto de símbolos idênticos ou relaciona-
dos contidos entre dois símbolos diferentes ou nenhum símbolo como nos extremos
Cap. 19 Testes ndo-paramétricos 573

da seqüência. Deslocando-se da esquerda para direita na seqüência (10), a primerra


série, indicada por uma barra vertical, consiste de dois o; igualmente, a segunda
série consiste de três ó, a terceira série de um o etc. No total existem sete séries.
Parece claro existir alguma relação entre aleatoriedade e o número de
séries. Assim, para a seqüência
al bl al bl al bl al bl al bl al bl (11)

existe tmpadrõ,ocíclico, naqualsevai deapara ó,volta-senovamentepataaetc.,


que poderíamos improvavelmente acreditar ser aleatória. Neste caso temos séries
4emais (de fato, temos o número máximo possível para o dado número de o's e b's).
Por outro lado, para a seqüência
aaa ct a a1 b b b bl a a a a a I b b bl (t2)
parece haver :uma tendên cia padrão, na qual estão agrupados ou aglomerados os o's
e ó's. Neste caso existem poucas séries e poderíamos considerar que a seqüência não
fosse aleatória.

Assim, uma seqüência será considerada não aleatória se houver séries


demais ou muito poucas, e por outro lado aleatória. Para quantificar esta idéia,
suponha-se que formamos todas as possíveis seqüências consistindo de N1 o's e N2
á's para um total de N símbolos (Nr + Nz - N). A coleção de todas estas seqüências
fornece-nos uma distribuição amostral. Cada seqüência possui um número associa-
do de séries, simbolizado por V. Deste modo somos levados à distribuição amostral
da estatísticaV. Pode-se mostrar que esta distribuição possui média e variância
dadas, respectivamente, por
2N, N, NtNz(2NtNz-Nt-Nz)
P'I'=,a;É+1 or?
(l/1 + N2)2 (N1 + N2 - 1)
( 13)

Usando-se tais fórmulas podemos testar a hipótese de aleatoriedade em


níveis de significância apropriados. Mostra-se que se N1 e N2 são pelo menos iguais
a 8, a distribuiçáo amostral de v é aproximadameirte normal. Assim
V-p, ( l+1
6r.

é normalmente distribuída com média zero e variância 1, podendo-se assim utilizar


o Apêndice II.
a

574 Estatística Cap. 19

Aplicações adicionais para o teste das séries


Apresenta-se a seguir outras aplicações do teste das séries para problemas esta-
tísticos:
1. Teste Acima e Abaixo da Mediana para Aleatoriedade de Dados Numé-
ricos. Para se determinar se dados (como os de uma amostra) são aleatórios,
inicialmente dispõem-se os dados fia mesma ordem em que foram coletados.
Em seguida determina-se a mediana e substitui-se cada dado pela letra o ou
á, de acordo com seu valor esteja acima ou abaixo da mediana. Se um valor for
igual ao da mediana, omite-se o mesmo. A amostra será ou não aleatória
conforme a seqüência de o's e ó's seja ou não aleatória (ver Problema 20).
2. Diferenças nas Populações das Quais são Extraídas as amostras. supo-
nha-se que duas amostras de tamanho s m e n são designadas por at, a2, ..., em
e b1, b2, ..., br, respectivamente. Para decidir se as amostras originam-se ou
não da mesma população, ordenamos inicialmente todos os m + n valores
amostrais em uma seqüência obedecendo uma ordem crescente de seus valores.
Se alguns deles forem iguais, eles serão ordenados por um processo aleatório,
como a utilização de números aleatórios. Se a seqüência resultante for alea-
tória, podemos concluir que as amostras não são realmente diferentes e, por
conseguinte, originam-se da mesma população; se a seqüência não for alea-
tória, nenhuma conclusão pode ser extraída. Este teste pode fornecer uma
alternativa para o teste U e Mann-Whitney (ver Problema 21).

Correlação de posto de Spearman


Os métodos não-paramétricos podem também ser usados para medir a correlaçào
entre duas variáveis X eY. Ao invés de usar os valores precisos das variáveis, ou
quando tal precisão é ineÍicaz, os dados podem ser ordenados de 1 a N de acordo
com sua grandeza, importância etc. Se X e Y forem ordenados deste modo, o
coeficiente de corcelaçdo de posto ou fórmula de Spearman pora correlaçdo d.e posto
como é denominado muitas vezes é dado por

rsJ = , - 6ZD2
-| ..
N(N2-1)
(15)

onde D representa as diferenças entre os postos dos valores correspondentes a X e


Y, e N é o número de pares de valores (X, Y dos dados.
Cap. 19 Testes nõ.o-Paramétricos 575

PROBLEMAS RESOLVIDOS

Teste do sinal
Baseando-se na Tabela 19.1, testar a hipótese l7s d9 Uu-e não
há diferença entre
1. de haver diferença a um
as máquinas I e II, contra a hipótese alternativa.Frl
nível de signiÍicância de 0,05'

Pr (X)

0123456789101112
Figura 19.1

Solução
normal para
AFigura 19.1 é um gráfico da distribuição binomial e uma aproximaçáo
2, ...,72 corres-
ela,lue fornece as probabilidades deX assumir os valores 0, 1,honesta L2vezes.
pond.entes .o ,prru.i-ento de cara no lançamento de uma moeda
bo Capítulo 7, a probabilidade de X caras é

f u )f L l'
(tz\(t Írt )''-' :=[,J[
Pr {X} =
[,J[: ]i)l ,l
pelo que Pr {0} = 0,00024, Pr {1} = 0,00293, Pt {21 = 0,01611 e Pr {3} =
0,05371.

Como H7 é a hiPótese de haver diferença entre as máquinas,


ou melhor
dizendo, a hiPótese que a máquina I é melhor do que a máquina II, usa-se um teste

bilateral.Ao nível de significância 0,05, cada cauda tem a probabilidaa" {o,os) =|


576 Estatística Cap. 19

= 0,025. Adicionamos agora as probabilidades à cauda esquerda até que a soma


excede 0,025. Assim

Pr {0, 1 ou 2 caras} = 0,00024 +0,O0293 + 0,01611 = 0,01928


Pr {0,1, 2 ou 3 carasi = 0,00O24 + 0,00293 + 0,01611 + 0,05371 = 0,01299
Como 0,025 é maior que 0,01928 mas é menor que 0,7299, podemos rejeitar
a hipótese f16 se o número de caras for 2 ou menos, ou, por simetria, se o número
de caras for 10 ou mais; todavia, o número de caras correspondente aos sinais
positivos (+) da seqüência (1) deste capítulo é 3. Conseqüentemente, não podemos
rejeitar Hg ao nível 0,05 e devemos concluir dizendo não existir diferença entre as
máquinas neste nível.

2. Resolver o problema anterior utilizando a aproximação normal para a distri-


buição binomial.

Solução
A aproximação normal para a distribuição binomial utiliza o fato de que o escore z
correspondente ao número de caras é

,=x-lt -^rw
o =x-ryp
Devido ao fato de que a variável X para a distribuição binomial ser discreta,
enquanto a distribuição normal é contínua, efetua-se vrrla correçã,o para continui-
dade (por exemplo, 3 caras representam um valor entre 2,5 e 3,5 caras). Isto importa
diminuir 0,5 de X,seX >Np e aumentar 0,5 se X<Np. Ora,N, - 12, lL =Np =
= (12X0,5)=6eo =^[Npq = \,tf2x0ó)(0"5) = l,TS,demodoque
(3+0.s)-6
t.13 -1.45

Como este valor é maior que -1,96 (valor de z para o qual a área da cauda
esquerda é 0,025), chegamos à mesma conclusão do Problema 1.

Note-se que Pr {z A - 1,45} = 0,0735, que está bem de acord.o com Pr {X < 3
caras) = 0,07299 do problema anterior.

3. A Companhia PQR afirma que a duração de um tipo de bateria que ela fabrica
é maior do que 250 horas. IJm consumidor desejando determinar se a aÍirmação
é justa mede a duração de 24 baterias; os resultados estão na Tabela 19.3.
Supondo que a amostra seja aleatóría, determinar se a afirmativa da Compa-
nhia é justa ao nível de significância 0,05.
Cap. 19 Testes nõo-paramétricos 577

Solução
Seja I/6 a hipótese de que as baterias possuem uma duração igual a Z5O h, e H1 a
de que ela seja menor do que 250 h. Para testar Ho cortraIll, podemos usâr o teste
do sinal. Para isto, subtraimos 250 de cada valor da Tabela 19.3 e registramos os
sinais das diferenças como mostra a Tabela 19.4. Vemos que existem 15 sinais
positivos (+) e 9 negativos (-).

Tabela 19.3
Tabela 19.4
21t 230 198 215 282 225 284 219 +- ++-+-
253 216 262 288 236 291 253 224 +- I +-++-
264 295 2tt 252 294 243 212 268 ++ ++++

Usando-se um teste unilateral ao nível de significância 0,05, rejeitaremos


Ils for maior que 1,645 (Figura 19.2). Como o escore z, :utilízando-se a
se o escore e
correção para continuidade é

(15 - 0,s) - (24) (0,s)


= 1,02
fir4xos (oJ)

a afrrmação da Companhia não se justifica ao nível 0,05.

z = 1,645

Figura 19.2

IJma amostra de 40 graus referentes a um certo exame, está apresentada na


Tabela 19.5. Testar a hipótese, ao nível de signiÍicância 0,05, que o grau
mediano de todos os participantes é (o) 66 e (b) 75.
578 Estatística Cap. 19

Solução
(o) Subtraindo-se 66 de todos os valores da Tabela 19.5 e mantendo-se somente
os sinais associados obtemos a Tabela 19.6, na qual existem 23 sinais
positivos, 15 negativos e 2 zeros. Excluindo-se os 2 zetos, nossa amostra
consiste agora de 38 sinais: 23 positivos e 15 negativos. Usando-se um teste
bilateral da distribuição normal com probabilidaa", ]2 (0,05) = 0,025 em
cada cauda (Figura 19.3), adotamos a seguinte regra de decisão:

Tabela 19.5

11 62 55 64 82 66 74 58 79 61

18 46 84 93 12 54 ',78 86 48 52

61 95 70 43 ',70 13 51 64 60 83

'73 40 18 70 64 86 76 62 95 66

Tabela 19.6

Tabela 19.7
Cap. 19 Testes ndo-paramétricos 579

z=1,96 z=1,96

Figura 19.3

Aceitar a hipótese se -1,96 < z < 1,96.


Caso contrário, rejeitar a hipótese.
Como

x-Np - 0,s) - (38) (0,s)


{ Nps (38) (0,s) (0,s)

aceitamos a hipótese de que a mediana é 66 ao nível 0,05.


Note-se que poderíamos ter também 15 sinais negativos. Neste caso
(ls+0,s)-(38X0,5)
(38) (0,s) (0,s)

que conduz à mesma conclusão.


(á) Subtraindo-se75 de todos os valores da Tabela 19.5, obtemos a Tabela 19.7,
na qual há 13 sinais positivos e 27 negatívos. Como
(13 + 0,5) - (40) (0,s)
= *2-06
(40) (0,s) (0,s)

rejeitamos a hipótese de que a mediana é 75 ao nível 0,05.


Usando-se este método, podemos chegar a um intervalo de conÍiança de
grau mediano do exame (ver Problema 30).
957o para o

Teste U de Mann-Whitney
Recorrendo-se à Tabela L9.2, determinar se existe diferença, ao nível
significância 0,05, entre os cabos produzidos pela liga I e pela liga II.
580 Estatística Cap. 19

Solução
Organizemos o trabalho de acordo com as etapas 1,2 e3, descritas anteriormente
neste capítulo.
Etapa 1. Combinando-se todos os 18 valores amostrais e ordenando-os do
menor para o maior obtêm-se a primeira linha da Tabela 19.8. Estes valores estão
numerados de 1 a 18 na segunda linha, os quais nos fornecem os postos.
Etapa 2. Para encontrar-se a soma dos postos de cada amostra, refaçamos
a Tabela 19.2 usando-se os postos associados da Tabela 19.8; isto nos fornece a
Tabela 19.9. As somas dos postos são 106 para liga I e 65 para liga II.

Tabela 19.8

10,7 11,8 12,6 12,9 l4,l 14,1 15,2 15,9 16,1 16,4 17,8 18,3 18,9 19,6 20,5 22,1 24,225,3
| 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 11 18

Etapa 3. Como a amostra da liga I possui o menor tamanho, Nr = 8 e N2 =


= 10. As somas correspondentes dos postos são.R1 = 106 e Rz - 65' Então

u = NrNz ry+f - Rr = (8X10) . (%2 - 106 = 10

, =4=-. orr=w#fl=@-r,1E12)
NrNz
ttu= =126,6i

Por conseguinte,
oij = ll'25e

:= u-lru lo-40
- oy 11.25

Como a hipótese É16 eue estamos testando supõe não haver diferença entre
as ligas, é necessário um teste bilateral. Para o nível de significância 0,05, temos a
seguinte regra de decisáo:
Aceitar Ifg se -1,96 < z < 1,96.

Caso contrário, rejeitar I1g.


Como z = -2,67, rejeitamos 116 e concluímos que existe diferença entre as
ligas ao nível0,05.
Cap. 19 Testes não-paramétricos 581

Tabela 19.9

Liga I Liga II

Resistência do Posto Resistência do Posto


cabo csbo

18,3 t2 12,6 3

16,4 10 t4,t 5

)) '7
16 20,5 t5
17,8 ll 10,1 1

18,9 13 r5,9 8

,5 1 18 t9,6 t4
16,1 9 t2,9 4
)Á-') t7 1 1,8 7

Soma r06 14,7 2

Soma 65

6. Verificar os resultados (6) e (7) deste capítulo utilizando os dados do Problema 5.

Solução
(o) Como as amostras 1 e 2 produzem valores para U dados por

(J1 = N1N2. &qff - R1 = (8X10) . ry - 106 = l0


u2= N1N2. &qfr - R2= (8x10). *f, - 65 = 70

temos (J1 + U2= 10 + zo ="gO e N1N2 = (8X10) = B0


(ó) ComoBr = 106 eRz- 65, temos Ry+ R2 = 106 + 65 = 171 e

N(N+ 1) _ (Nr + N2)(N1 + N2 + 1) _ (lSlttg) _,r,


222
Estatística Cap. 19

7. Resolver o Problema 5 usando-se a estatístícaU para a amostra da liga II.

Solução
Para a amostra da liga II,
N'(Ll ('q1-L'-
u = NrNz* " - *, = (8)rr0) + 65 = 70

de modo que e =u-vu _70-40 =2,67


ou tl,25
Este valor de z tem sinal contrário ao valor de e do Problema 5 e, ao invés
da cauda esquerda, utiliza-se a cauda direita da distribuição normal. Como este
valor de e situa-se também fora do intervalo -1,96 <z < 1,96, a conclusão é a mesma
à do Problema 5.

8. Um professor ministra aulas a duas classes de psicologia: uma pela manhã com
9 estudantes e uma à tarde com 12 estudantes. No exame final, estabelecido
para a mesma hora para todos os estudantes, as classes receberam os graus
apresentados na Tabela 19.10. Pode-se concluir, ao nível de significância 0,05,
que a classe da manhã teve pior desempenho que à da tarde?

Tabela 19.10

86 81 84 88 90 8s 84 92 83 9t s3 84

Solução
Etapa 7. ATabela 19.11 apresenta a ordem dos graus e postos. Note-se que o posto para
11
os graus 75 é;r5 + 6) = 5,5, enquanto o posto para os três graus é;(L1+ 12 + 13) = 12.

Etapa 2. Refazendo-se a Tabela 19.10 em termos de postos obtemos a


Tabela 19.L2.
Controle:Rt=73,R2=158 eN=N1 +N2 =9+L2 =21;assim,R1 +R2=
=73+158=231e
lú (N^+ I ) _ (21)_(zz)
22 =
23t R1 + R2 =
Cap. 19 Testes ndo-pa.ramétricos 583

Tabela 19.11

53 66 t0 73 75 75 19 81 82 83 84 84 84 85 86 81 88 90 91 92 95
1 2 -1 4 5§ 1 8 9 l0 t2 14 15 t6 11 l8 t9 20 2t

Tabela 19.L2

Soma dos
postos

manhã 4 16 7 5,5 9 2 21 5,5 3


Classe da t1
Clqssedatarde 15 8 12 11 18 14 12 20 10 19 I 12 158

Etapa 3.

rJ = NrNz. &qfff - Rl = (ex12) . rP - 73 = 80

wr=\='P =s4.,2u =tw=1e8


Assim

80-54
-=u-v'
og = 14.0i = l'65
Como queremos testar a hipótese iI1 que a classe da manhã teve pior
desempenho que a classe da tarde, contra a hipótese flg eue não há diferença, ao
nível 0,05, necessita-se de um teste unilateral. Recorrendo-se à Figura 19.2, temos
a seguinte regra de decisão:
Aceitar I/s se z < 1,645.

Rejeitar 116 se z > 1,645.


Como o valor d.e z = 1,85 > 1,645, rejeitamos 116 e concluimos que a classe
da manhã teve pior desempenho que à da tarde ao nível 0,05. A conclusão, porém,
não pode ser estendida para o nível 0,01 (ver Problema 33).

9. Determinar U para os dados da Tabela 19.13 usando-se (o) a fórmula (2) deste
capÍtulo e (ó) o método de contagem descrito na observação 4 deste capítulo.
Estatística Cap. 19

Solução
(o) Ordenando-se os dados de ambas as amostras crescentemente e atribuin-
do-se postos de 1a 5 obtemos a Tabela 79.14. Substituindo-se os dados da
Tabela 19.13 pelos respectivos postos obtemos a Tabela 19.15, que nos
fornece as somas dos postos,Ãr = 5 e Rz- 10' Como Nt= 2eN2 = 3, o valor
de Upara a amostra 1é

U = NtNz 'f + l) - Rr = (2)(3) +


* N'(N, (21(3)_5=+
2

O valor de (J para a amostra 2 pode ser determinado de modo semelhante,


obtendo-se U = 2.

Tabela 19.13 Tabela \9.14

Amostral122 10 Dados 10 14 11 22 25

Amostra 2 l7 25 14 Posto lt 2 3 4 5

Tabela 19.15

Soma dos
Postos

Amostra 7 4 1 5

Amostra 2 ., 5 2 t0

(á) Substituindo-se os valores amostrais da Tabela 19.14 por I ou II, depen-


dendo se o valor pertence à amostra I ou 2, a primeira linha da referida
tabela torna-se

Dados I II II I II

Disto vemos que:


Número de valores da amostra I precedendo o primeiro valor da amostra 2 -1
Número de valores da amostra 1 precedendo o segundo valor da amostra 2 -l
Número de valores da amostra I precedendo o terceiro valor da amostra 2
Total -4
Cap. 19 Testes ndo-paramétricos

Assim, o valor de f,I correspondente à primeira amostra é 4.


Analogamente, temos

Número de valores da amostra 2 precedendo o primeiro valor da amostra I =0


Número de valores da amostra 2 precedendo o segundo valor da amostra I = 2

Tofal = 2

Assim, o valor de U correspondente à segunda amostra é 2.


Como Nt =2 e N2 = 3, estes valores satisfazem U1+ [J2 = N1N2, isto é, 4 +
+2=(2)(3)=6.

10. Uma população consiste dos valores 7, L2 e 15. São extraídas duas amostras
sem reposição: amostra 1, consistindo de um único valor, e amostra 2, con-
sistindo de dois valores (as duas amostras esgotam a população).
(o) Determinar a distribuição amostral de U e construir seu gráÍico.
(ó) Determinar a média e a variância da distribuição do item anterior.
(c) Verificar os resultados obtidos no item (á) utilizando as fórmulas (3) deste
capítulo.

Solução
(o) Adotamos amostragem sem reposição para evitar empates que poderiam
ocorrer se, por exemplo, o valor 12 aparecesse em ambas as amostras.
Existem 3 ' 2 = 6 possibilidades de escolher as amostras, como mostrad.o
na Tabela 19.16. Notar-se-á que poderíamos facilmente ter usado os postos 1,2 e 3
ao invés de7, L2 e 15. o valor de Una Tabela 19.16 é o que foi encontrado para a
amostra 1, mas, se [/ correspondesse à amostra 2, a distribuição seria a mesma.
Um gráfico desta distribuição está representado na Figura L9.4, ond,e f é a
freqüência. A distribuição de probabilidade de U pode também ser diagramada;
neste caso Pr {tl- 0} = Pr {u- 1} = Pr Íu - 2l =}. o srafico pedido é o mesmo que
o apresentado na Figura 19.4, com as ordenadas 1e2 substituídas, respectivamen-
te, respectivamente, p".
á" *
586 Estatística CaP. 19

Tabela 19.16

Amostra I Amostra 2 a

7 12 15 2

7 15 12 2

12 115 1

l2 157 I
15 7t2 0

15 12 1 0

012
Figura 19.4

(ó) A média ea variância são dadas por


2+2+l+l+0+0 =I
VU=T
(r-r)2 + (r-r)2 + (o-r)2 + (o-r)2 - z
-2 Q-D2 + (2-r)2 +
oú=- 6 3

(c) Pelas fórmulas (3),


NrNz (1X2) í
VU= 2 =-2 =t
, Nr Nz (Nr + N2 + 1)= @121Lt2-t) _-3?
oa= n tz
mostrando concordância com o item (a).
Cap. 19 Testes nõ,o-paramétricos 587

11. (a) Determinar a distribuição de amostragem de u no problema 9 e construir


o respectivo gráfico.

(á) construir o gráfico correspondente à distribuição de probabilidade de u.


(c) Determinar a média e a variância de tI diretamente dos resultados do item
@).

(d) Verificar o item (c) usando as fórmulas (B) deste capítulo.

Solução
(o) Aqui existem 5' 4'3 '2 = 120 possibilidades para escolher os valores para
as duas amostras e o método empregado no Problema 9 é laborioso demais.
Para simplificá-lo, concentremo-nos na amostra menor, de tamanho Nr -
= 2, e nas possíveis somas dos postos, Êr.A soma dos postos para a amostra
I é amenor quando ela consistir dos menores números ordenados (1,2); por
conseguintê, 81 = 1 + 2 = 3. Analogamente, a soma dos postos para a
amostra I é a maior quando ela consistir dos maiores números ordÃnados
(4,5); conseqüentemente, R1= 4 + 5 = 9. Portanto, E1 varia de B a g.

A coluna 1 da Tabela 19.12 lista estes valores de,B1, de 3 a g, e a2 apresenta


os correspondentes valores amostrais cuja soma é rB1. A coluna B apràsenta a
freqüência (ou número) de amostras cuja soma é ,E1i por exemplo, existem
amostras com -R1 = 5. Como Nt = 2 e N2 = 3, temos
/ =2

{J = N1N2. ry,If-! - Rl = e)e) + AP -Rr = e -,Rr

Tabela 19.17

rR1 Valores da Í U Pr (U = Pr1


Amostra 1

3 (r,2) 1 6 0,1
4 (1,3) I 5 0,1
5 (1,4) (2,3) 2 4 o)
6 (1, s) (2, 4) 2 3 0,2
7 (2, s) (3,4) 2 2 0,2
8 (3, 5) I I 0,1
9 (4, s) I 0 0.1
Estatística Cap. 19

A partir do resultado obtido encontramos na coluna 4 os valores corres-


pondentes de U;note-se que quando.Rlvaria de 3 a 9, [/varia de 6 a 0. Adistribuição
de probabilidade é fornecida pelas colunas 3 e 4, e o gráfico está representado na
Figura 19.5.

0123456
Figura 19.5

P(U}

Figura 19.6

(b) A probabitidade de (J = Rr,isto é, Pr {U = Ã1}, está apresentada na coluna


5 da Tabela 19.17 e é obtida determinando-se a freqüência relativa. Esta
é encontrada dividindo-se cada freqüência/pe1a soma de todas as freqüên-

cias, ou sej a, 10 ; por exemplo, Pr { U = S} = = 0,2. O gr áficoda distribuição


f OZ

de probabilidade está representado na Figura 19.6.


(c) Das colunas 3 e 4 da Tabela 19.17 temos

$u-u- >f 1+1+2+2+2+l+l


Cap. 19 Testes ndo-paramétricos 589

_ 2Í(u - o2
o2rl sr
-.1

_ (lX6 - 3)2 + (lXs - 3)2 + (2)(4 - 3)2


10

(2)(3 - 3)2 + (2)(2 - 3)2 + (t)(t - 3)2 + (t)(o - 3)2


10
-3

Outro método
+ (2téf
o2u = -2 -2- = (t)(6)2 + 11.y15)2
u--u l0 r
(2)(3)2 + (2X2)2 + (1X1)2 + (lX0)2
+
10
-(3)2 = 3

(d) Pelas fórmulas (3) e usando-se N1 = 2 e Nz = 3 temos

NrNz (2)(3) ^ ) N2N2(N1 + N2 + l) (2X3X6)


!u=-2 = 2-=s6Ú= 12 = 12 =t
12. Provar que a soma dos postos de um conjunto de N números ordenados de 1 a
N é tN (N + 7)112.

Solução
Seja,E a soma dos postos. Então temos
R= 1+ 2+3+...+ (N- 1) +N (16)

.R =N+ (N- 1) + (N - 2) +...+2+ I (11)

onde a soma da Equação (17) é obtida invertendo-se a soma da equação (16).


Adicionando-se as duas equações obtemos
2R = (N + 1) + (N+ 1) + (N+ 1) +...+ (N+ 1) + (N+ 1) =1/(N+ 1)

pois (N + 1) ocorre N vezes. Conseqüentemente, .E = [N (N + l))12. Este resultado


taúbém poderia ser obtido fazendo-se uso da progressão aritmética e das séries.
Estatística Cap. 19

13. Se R1 e .82 são as respectivas somas dos postos das amostras 1 e 2 no teste [/,
-
provar eue.R1 + Rz tN (N + 1)112.

Solução
Suponhamos que não existam empates nos dados amostrais. Então -81 deve ser a
soma de alguns dos postos (números) do conjunto 1,2,3,..., N, enquanto.B2 deve
ser a soma dos postos restantes. Assim, a soma R1+ R2 deve ser a de todos os postos
do conjunto, isto é, R1 + R2 = I + 2 + 3 +...+ N = [N (N + l)112, de acordo com o
problema anterior.

Teste H de Kruskal-Wallis
14. Uma companhia deseja comprar uma das cinco máquinas diferentes A, B, C,
D ou E. Em um experimento projetado para determinar se existe diferença de
desempenho entre as máquinas, cada um de cinco operários experientes tra-
balharam com as máquinas por períodos de tempo iguais. A Tabela 19.18
apresenta o número de unidades produzidas por cada máquina. Testar a
hipótese de que não existe diferença entre as máquinas aos níveis de signifr-
cância (o) 0,05 e (ó) 0,01.

Tabela 19.18

A 68 72 77 42 53

B '/2 53 63 53 48

C 60 82 64 15 72

D 48 6t 57 64 50

E 64 65 70 68 53

Solução
Como existem cinco amostras (Á, B, C, D e E), k = 5, e como cada amostra consiste
de cinco valores temos Nr = Nz - N3 = Na = Ns = 5, resulta queN = N1 + N2 + N3 +
+ N4 + Ns = 25. Ordenando-se todos os valores crescentemente e atribuindo-se postos
apropriados aos empates, substituímos a Tabeia 19.18 pela Tabela 19.19, onde a
coluna à direita mostra a soma dos postos. Da Tabela 19.19 vemos que E1 = 70, Rz =
= 48,5, E3 = 93, R+ = 40,5 e Es - 73.Assim
Cap. 19 Testes nd.o-paramétricos 591

1)
'-
Á'
R?
Ll-
N (N + l)'
§
f - 3tlr + ty
i=l
t2 I tzor' (48.5)2 s3f (40.r2 Q121
5.5 +-+ --_t-
5l 3(26) = 6,44
(2s)(26) Ls -)

Tabela 19.19

Soma dos
Postos

A tl.5 2t 24 6,5 10
B 2t 6,5 12 6.5 )\ 48,5
C 10 25 t4 23 21 93
D )5 l1 9 t4 4 40,5
E 14 t6 t9 17,5 6,5 13

Para h - 7 = 4 graus de liberdade ao nível de significância 0,05 do Apêndice


IV temos xl,ss= 9,49. como 6,44 < 9,49 náo podemos rejeitar a hipótese da não
existência de diferença entre as máquinas ao nível 0,05, e, por esta razáo, certa-
mente também não podemos rejeitá-la ao nível 0,01. Em outras palavras, podemos
aceitar a hipótese, ou reservar nosso julgamento de não existir diferença entre as
máquinas em ambos os níveis.
Note-se que este problema já foi resolvido quando se abordou a análise da
variância (ver Problema 8 do Capítulo 16) e tinha-se chegado à mesma conclusão.

15. Resolver o problema anterior se for feita uma correção para os empates.

Solução
A Tabela 19.20 apresenta o número de empates correspondentes a cada uma das
observações empatadas. Por exemplo, 48 ocorre duas vezes, pelo que ? = 2, e 58
ocorre quatro vezes, pelo que T = 4. Calculando-se ?3 - T para ãada um áestes
valoresdeTe somando-seosmesmos,encontramosque ,(?3 -T)= 6+ 60 +24+
+ 6 + 24 = 120, como está apresentado na Tabela L9.20. Então, como N = 25, o fator
de correção é
592 Estatística Cap. 19

:(r3-n '_ t_
.I __. Do
=0,9923
Nr N - Q5f"-- 25

eo valor corrigido de H é

" ( o.992:
u,=^6:11.=6.4e

Esta correção não é sufi.ciente para alterar a decisão adotada no Problema


t9.14.

Tabela 19.20

Observação 48 53 64 68 72

Número de empates 2 4 3 2 3
(r)
13 -r 6 60 24 6 24 ,(73-T)=l2o

16. Três amostras são escolhidas aleatoriamente de uma população. Ordenando-se


os dados de acordo com o posto obtemos a Tabela 79.21. Determinar se existe
diferença entre as amostras aos níveis de significância (o) 0,05 e (ó) 0,01.

Solução
Temos k = 3, Nt= 4,N2= 3,N3 = §,N=Nt + N2 + Ng = 12,
Rt=7 + 4+ 6+ 10= 27,R2= 11 + 9 + 12=32eRs=5 + 1+ 3+ 8+2 = 19'
Assim
k R,2
H=-N(Nr)+ .I+-31N+l;=
l)i:r Nr
,,
_l !27)2 -- eZ,, r*!:),.l _ J\rJ'-v'vJ
(l2ll3) I + +
3(13) = 6,83
5 .]
(o) Para lt, - | =3 -
1 = 2 graus de liberdade XZ,ss= 5,99. Por conseguinte,
como 6,83 > 5,99, podemos concluir que existe diferença significante entre
as arnostras ao nível 0,05.

(á) Para 2 graus de liberdade Xl,ss = 9,27. Como 6,83 < 9,21, náo podemos
concluir que existe diferença entre as amostras ao nível 0,01.
Cap. 19 Testes não-paramétricos 593

Tabela 19.21
Amostra I '7
4 6 t0
Amostra 2 11 9 t2
Amostra 3 5 I 3 8 2

Teste das séries para aleatoriedade


L7. Em 30 lançamentos de uma moeda obtêm-se a seguinte seqüência de caras (H)
e coroas (T):

THHTHTTHTHHTH
(a) Determinar o número de séries, V.

(ó) Testar, ao nível de significância 0,05, se a seqüência é aleatória.

Solução
(a) Utilizando-se uma barra vertical para indicar uma série, vemos de

HIT TIHITIH H HITIH HIT TIHITI


HITIH HITIHIT TIHITIH HITIHITI
que o número de séries 6 Y = 22.
(b) }lâNr = 16 caras e Nz = L4 coroas na amostra, e pelo item (o) sabemos que
o número de séries éV = 22. Assim, das fórmulas (13) deste capítulo temos

2(t6)(t4L*
[' = t6 + 14 I = r5.93
J"J oi
vv =
2U!-X1qp!!!)(!4 - t6- t4l = 7,1.5
(16. 14Ê16. 14 - l)
ouou = 2,679. Oescorezcorrespondente aV=22 sériesé
v - v, 22 - 15.93
L--t
oy 2.679
=

Ora, para um teste bilateral ao nível de significância 0,05, aceitaremos a


hipótese Ilg de aieatoriedade se -1,96 < z < 1,96 e rejeitaremos em caso contrário
(ver Figura 19.7). Como o valor calculado d,e z é 2,27 > 1,96, concluímos que os
lançamentos não são aleatórios ao nível 0,05. O teste mostra que existem séries
demais, indicando um padrão cíclico dos lançamentos.
Estatística Cap. 19

Se usar-se uma correção para continuidade, o escore z obtido será substi-


tuído por

,=@-%W=2,08
alcançando-se a mesma conclusão.

-1,96 1,96

Figura 19.7

18. lJma amostra de 48 ferramentas produzidas por uma máquina apresenta a


seguinte seqüência de ferramentas boas (G) e defeituosas (D):
GGGGGDDGGGGGGGG
GGDDDDGGGGGGDGGG
GGGGGGDDGGGGGDGG
Testar a aleatoriedade da seqüência a um níve1 de significância 0,05.

Solução
Os números de D's e G's são Nr = 10 e N2 = 38, respectivamente, e o número de
séries 5y = ll. Por conseguinte, a média e a variância são dadas por
2(lo)(38)
Ir,,= 10 + l1 = ro,õr oi = 2W
16,83 ot = 4,99i
1to *:aftto *:s_t;
de modo eue Fu = 2,235.

Para um teste bilateral ao nível 0,05 aceitaremos a hipótese 116 de aleato-


riedade se -1,96 > z > 1,96 (ver Figura t9.7) e rejeitaremos em caso contrário. Como
o escore z correspondente aV = 17 é

_
=
v - fr, _ Il - 16,83 = _2.61
oy 2.235
Cap. 19 Testes ndo-paramétricos

e -2,67 < *1,96, podemos rejeitar Hç ào nível 0,05.


O teste mostra que existem séries de menos, indicando uma aglomeração
(ou grupamento) de ferramentas defeituosas. Em outras palavras, parece haver
uma tendência padrã.o na produção de ferramentas defeituosas. Justifica-se um
exame adicional do processo produtivo.

19. (a) Formar todas as seqüências possíveis consistindo de três o's e dois ó's e
determinar o número de séries correspondente a cada seqüência.
(ó) Obter a distribuição de amostragem de V e seu gráfrco.
(c) Obter a distribuição de probabilidade de V e seu gráfico.

Solução
(o) O número de seqüências possíveis consistindo de três o's e dois ó's é

As seqüências estão apresentadas na Tabeia 19.22, acompanhadas do


número correspondente de séries.
(ó) A distribuição de amostragem de V está na Tàbela 19.23 (obtida da Tabela
19.2L), onde V representa o número de séries e /representa a freqüência .
Por exemplo, a Tabela 19.23 mostra que existe um 5, quatro 4's etc. O
gráfico correspondente está representado pela Figura 19.8.
Tabela 19.22 Tabela 19.23

Seqüência V Í

aaabb 2 2 2
aabab 4 J J
aabba 3 4 4
ababa 5 5 1

abbaa 3
ab(tab 4
bbqaa 2
babaa 4
baaqb J
baaha 4
596 Estatística Cap. 19

(c) A distribuição de probabilidade de V, representada na Figura 19.9, é


obtida da Tabela 19.23 dividindo-se cada freqüência peia freqüência
total2 + 3 + 4 + 1 = 10. Por exemplo, Pr {V = u} = 0,1.

Figura 19.8

P( v]

0,4

0,3

0,2

0,1

Figura 19.9

20. Determina r (a) a média e (ó) a variância do número de séries do problema


anterior diretamente dos resultados que foram obtidos.

Solução
(o) Da Tabela 19.22 temos
2+4+3+5+3+4+2+4+3+4 tl
t0 5
Cap. 19 Testes nd.o-paramétricos 597

Outro método
Da Tabela 19.22 o método dos dados grupados fornece

.. sr 2f v (2)(2) + (3X3) + (4X4) + (lxs)


-- 17
lrr- L.l 2+3+4+l 5

(á) Usando-se o método dos dados grupados para calcular a variância, temos
da Tabela 19.23

-2- zÍ(v-v\2
tJ1. - s/
_

2 2 2 )-
17) I
I

_t\ + r+t - 17
17 ) 17 ) . (1)[5- zt
= *[ ,',(' -5 I
+ r:r(:- 5) _l
5) slltt-- 2s
[+

Outro método
Como no Capítulo 3, a variância é dada por

2 _ v2 n2 - Q)Q)2 +
6rt=V/-V
(3)(3)2 + t4)\4)2 + 11)r5)Z rnl 2t
10 ls l 2s

27. Resolver o problema anterior utilizando as fórmulas (13) deste capítulo.

Solução
Como existem três a's e dois ó's, temos N1 =3eNz=2.Assim,
2l'ltNz
(a) g, =
'- -r N2
rv1
+l=2(3!-2r+z
3
+t=! 5
@oZ
2I'{tNz(21{tNz - Nr - Nz) _ 2(3)(:2i)12(3)(:2) - 3 - 2) _ 21
(1ür+Nz)2(Nr+N2-1) (3 +21213+2-lt 25
Estatística Cap. 19

Aplicações adicionais do teste das séries


22. Recorrendo-se ao Problema 3, e utilizando-se um nível de significância de 0,05,
determinar se as amostras correspondentes à duração das baterias produzidas
pela Companhia PQR são aleatórias.

Solução
ATabela 19.24 apresenta o tempo de duração das baterias em ordem crescente.
Como existem 24 valores na tabela, obtêm-se a mediana por intermédio da média
dos valores 253 e262,isto e,Iese + 262) = 257,5' Refazendo-se a Tabela 19'3
usando-se um d se o valor for superior à mediana e ó se for inferior, obtemos a
Tabela 19.25, na qual temos 12 a's, 12 b's e 15 séries. Assim, Nl = 12, N2 = 12,
N = 24, V -- 15, temos
zNN-L+
tl': Nr +N2
+ 1I =
2(r41t2)
D - + t2 ol == a!N!e§!l = 5,139
rr ot
tz++ 1t = 13
e4re3)
de modo que
V-F,=15-13=oR1s
--
z=- oy 2.396

Usando-se um teste bilateral ao nível de significância 0,05 aceitaremos a


hipótese de aleatoriedade se -1,96 < z < 1,96. Como 0,835 pertence ao intervalo,
concluímos que a amostra é aleatória.

Tabela 19.24 Tabela 19.25

198 ztr 216 219 224 225 230 236 abbaabab


243 252 2s3 253 262 264 268 27r bbeababb
212 215 282 284 288 29t 294 295 aabbabaa
Cap. 19 Testes ndo-paramétricos 599

23. Resolver o Problema 5, usando o teste das séries para aleatoriedade.

Solução
A combinação de todos os valores de ambas as amostras já aparece na linha 1 da
Tabela 19.8. Utilizando-se os símbolos a e b para os dados das amostras I e II,
respectivamente, a combinação passa a ser

bbbbbbbbaaQaabbaaa

Como existem quatro séries, temos V = 4, Nt = 8 e Nz - 10. Então

2N1N2
ll,,= .,
lvl
* N" *
+l\2+l | _= 2(8X10)
lg
+ 1 = 9,889

., 2N fi - N t - Nz) 2(8X10)(142),,^.
2QNfi z
o,;= " =+.r-J
(Nr + N2)21N1 + N2 - l) 11312117)

de modo que

, =Y--!t= a ?:989
or, -
2.031
= -2.90

Se é a hipótese de que não existe diferença entre as ligas, é também


-F16
a hipótese de que a seqüência é aleatória. Aceitaremos esta hipótese se -1,96 <
1 z 11,96 e rejeitaremos em caso contrário. Como z = -2,90 não pertence ao
intervalo rejeitamos Ilg e chegamos à mesma conclusáo que a do Problema 5.
Note-se que se for efetuada uma correção para continuidade

- _v - P, _ (4 + 0,5) - 9,889
- _., (;\
oy 2,03r

e a conclusão será a mesma.

Correlação de posto
24. A Tabela 19.26 apresenta como 10 estudantes organizados em ordem alfabética
foram ordenados de acordo com suas realizações no laboratório e nas conferên-
cias de um curso de biologia. Determinar o coeÍiciente de correlação de posto.
600 Estatística Cap. 19

Tabela 19.26

Laboratório 83927t04615
Conferência 951018735426

Solução
Adiferença dos postos, D,no laboratório e nas conferências para cada estudante é
fornecida pela Tabela 19.27, que também fornece D2 e ZD 2. Assim

r"=r- u'.o'-=r- 6(24)


" N(N' - 1) 10(10' - l)
=0,g545

indicando que existe uma marcada relação entre as realizações no laboratório e nas
conferências.

Tabela 19.27

Diferença de postos (D) -1-2-11-1312-l-l


D2 4 1 I 9 1 4 1 L D2 =24

25. A Tabela 19.28 apresenta as alturas de uma amostra de 12 pais e de seus filhos
mais velhos. Determinar o coeficiente de correlação de posto.

Tabela 19.28

Altura do pai (cm) 165 163 167 164 168 t62 170 166 168 t67 169 tlt
Altura do filho (cm) 168 166 168 165 169 166 168 16s 111 t67 168 t70

Solução
Colocando-se as alturas dos pais em ordem crescente temos

t62 163 164 165 166 t67 167 168 168 t69 t7t (18)
Cap. 19 Testes nd.o-paramétricos 601

Como o sexto e o sétimo lugares da seqüência correspondem às mesmas


alturas (170 cm), atribuímos um posto médio *,U
2
* 7) = 6,5 a estes lugares.

Analogamente aos oitavo e nono lugares são atribuídos o posto


I rA * 9) = 8,5.
Conseqüentemente, às alturas dos pais são atribuídas os postos.

I 2 3 4 5 6,5 6,5 8,5 8,5 10 11 t2 (19)

De modo semelhante, as alturas dos filhos em ordem crescente são

165 165 166 t66 167 168 168 168 168 169 110 rlt (20)

e como os sexto, sétimo, oitavo e nono lugares representam a mesma altura (173
cm), atribuímos o posto médio ]4 iO + 7 + 8 + 9) = 7,5 a estes lugares. Assim, aos
filhos são atribuídos os postos

1,5 1,5 3,5 3,5 5 7,5 1,5 7,5 7,5 l0 11 12 (21)

Usando-se as correspondências (18) e (19), (20) e (21), podemos substituir


a Tabela 19.28 pela Tabela 19.29. A Tabela 19.30 apresenta a diferença dos postos,
D, e os correspondentes cálculos pelo que

/'ç=l- 6z"Dt -l-


" N(N'- l) 10?;50)
12\12'- l)
=0.1465

Este resultado está bem de acordo com o coeficiente obtido por outros
métodos (ver Problemas 9, L4, 1,6 e 23 do Capítulo 14).

Tabela 19.29

Posto do pai 4 2 6.5 3 8,5 1 11 5 8,5 6,5 10 12

Posto do filho 7 .5 3,5 7.5 1,5 10 3,5 7,5 1,5 t2 5 7,5 1 I

Tabela 19.30

D -3,5 -1,5 -1,0 1,5 -1,5 -2,5 3,5 3,5 -3,5 1,5 2,5 1,0

D2 t2,25 2,25 1,00 2,25 2,25 6,2512,25 12,25 12,25 2,25 6,25 1,0C Z D2 ='72,50
Estatística Cap. 19

Problemas Su plementares

Teste do sinal
26. Uma companhia divulga que se seu produto for adicionado a um tanque de
automóvel à gasolina, a quilometragem por litro melhorará. Para testar tal
afirmação, são escolhidos 15 automóveis diferentes e mede-se a quilometragem
por litro com e sem uso do aditivo; os resultados estão apresentados na Tabela
19.31. Supondo-se que as condições para dirigir sejam as mesmas, determinar
se existe diferença devido ao uso do aditivo aos níveis de significância (o) 0,05
e (á) 0,01.

Tabela 19.31

Com aditivo 34.7 28.3 19.6 25.r 15,7 24,5 28,7 23,5 21,7 32,1 29,6 22,4 25,7 28,1 24,3
Sem aditivo 31,4 21,2 20,4 24,6 14,9 22,3 26,8 24,1 26,2 31,4 28,8 23,1 24,0 21,3 22,9

Resp.: Há diferença no nÍvel de 0,05, mas não há diferença ao nível de 0,01.


27. Pode-se concluir, ao nível de significância 0,05, que a quilometragem por litro
alcançada no problema anterior é melhor com o aditivo do que sem ele?
Resp.: Sim.
Um clube de emagrecimento avisa que um programa especial que ele planejou
produzirá uma perda de peso de pelo menos 6Vo em um mês se ele for seguido
precisamente. Para testar esta afirmação, 36 adultos experimentam o progra-
ma. Destes, 25 conseguem a perda desejada, 6 aumentam de peso e os restantes
permanecem inalterados. Determinar, ao nÍvel de signiÍicância 0,05, se o
programa é eftcaz.
Resp.: O programaé efrcaz, ao nível de 0,05.
29. Um gerente de treinamento afirma que por dar um curso especial para o
pessoal de vendas da companhia, as vendas anuais aumentarão. Para testar
tal afirmação, o curso é ministrado a 24 pessoas. Destas, as vendas de 16
aumentaram, de 6 diminuiram e as das 2 restantes não se alteraram. Testar,
ao nível de significância 0,05, a hipótese de que o curso contribuiu para o
aumento das vendas da companhia.
Resp.: Podemos rejeitar a hipótese de crescimento das vendas, ao nível de
0,05.
Cap. 19 Testes nd.o-paramétricos

30. Um fabricante de refrigerante instala "testes de sabor" ern27 locais diferentes


a fim de determinar a preferência relativa do público por duas marcas de cola,
A e B.Em 8 locais a marcaA é a preferida, em 17 é aB e nos locais restantes
existe indiferença. Pode-se concluir, ao nível de significância 0,05, que a marca
B é a preferida em detrimento da A?
Eesp.: Não.
31. As resistências de rompimento de uma amostra aleatória de 25 cordas reali-
zadas por um fabricante estão na Tabela 19.32. Com base nesta amostra,
testar, ao nível de significância 0,05, a afirmação do fabricante de que a
resistência de uma corda é (a) 25, (ó) 30, (c) 35 e (d) 40.
Resp.: o) Rejeitar; b) Aceitar; c) Aceitar; d) Rejeitar.

Tabela 19.32
4t 28 35 38 23
37 32 24 46 30
25 36 22 4t 31
43 21 34 27 36
42 33 28 31 24

32. Mostrar como obter os limites de conÍiança de 957o para os dados do Problema 4.

33. Compor e resolver um problema envolvendo o teste do sinal.

Teste U de Mann-Whitney
34. Dois instrutores, A e B, ministram um curso de química em uma escola. Em
um exame final comum, seus estudantes obtiveram os graus constantes da
Tabela 19.33. Testar, ao nível de significância 0,05, a hipótese de que não existe
diferença entre os graus dos dois instrutores.

Tabela 19.33
A 88 15 92 11 63 84 55 64 82 96
B 12 65 84 53 76 80 51 60 51 85 94 81 13 61

Resp.: Náo há diferença significativa ao nível de 0,05.


604 Estatística Cap. 19

35. Referindo-se ao problema anterior, pode-se concluir, ao nível de significância


0,01, que os graus dos estudantes da classe da manhã são piores do que os da
classe da tarde?
Resp.: Não.
36. Um fazendeiro deseja determinar a existência de diferença nas produções
entre duas variedades diferentes de trigo. A Tabela 19.34 apresenta a produção
de trigo por unidade de área usando as duas variedades. O fazendeiro pode
concluir que existe diferença aos níveis de significância (o) 0,05 e (ô) 0,01?

Tabela 19.34

Trigo I 15,9 15,3 t6,4 t4,9 15,3 16,0 14.6 15,3 14,5 16,6 16,0

Trigo II t6,4 r6,8 t7 .l t6.9 r8,0 15,6 18,1 t'7,2 15,4

Resp.: o) Sim; á) Sim.


ÕI. Em relação ao problema anterior o fazendeiro pode concluir que a produção de
trigo II é maior do que a de trigo I a um nível de significância 0,05?
Resp.: o) Sim.
38. Uma companhia deseja determinar se existe diferença entre duas marcas de
gasolina. A Tabela 19.35 apresenta as distâncias percorridas por litro por cada
marca. Podemos concluir, ao nível de significância 0,05, (a) que há diferença
entre as marcas e (ó) que a marcaB é melhor do que arnarcaA?

Tabela 19.35

A 30,4 28,7 29,2 32,5 31,1 29,5 30,8 31,1 30,7 31,8

B 33,5 29,8 30,1 3t,4 33,8 30,9 3t,3 29,6 32,8 33,0

Resp.: a) Sim: á) Sim.

39. Pode-se usar o teste U para determinar se existe diferença entre as duas
máquinas da Tabela 19.1? Explicar.
40. Montar e resolver um problema usando o teste [.I.

41. Determinar (I para os dados da Tabela 19.36 usando (o) o método da fórmula
e (ó) o método da contagem.
Cap. 19 Testes ndo-paramétricos 605

Tabela 19.36
Amostrq I t5 25
Amostra 2 20 32

Resp.: 3.

42. Resolver o problema anterior para os dados da Tabela L9.37.

Tabela 19.37

Amostra I 40 27 30 56
Amostra 2 l0 35

Resp.:6.
43. Uma população compõe-se dos valores 2,5,9 e 12. Duas amostras são retiradas
desta população, sendo a primeira composta de um destes valores, e a segunda
dos outros três valores.
(a) Obter a distribuição amostral de U e seu gráfrco.
(á) Obter a média e a variância desta distribuição, diretamente e pela fórmula.
44. Provar que U1 * U2= NrNz.
45. Provar que -R1 + Rz- [N(N + l)ll2 para o caso em que o número de empates for
(a) l, (b) 2 e (c) qualquer número.
46. Se N1 = 14, N2 = 12 e Ãr = 105, determinar (a) Rz, (b) Ut e (c) Uz.
47 . Se N1 = 10, N2 = 16 e U2 = 60, determinar (a) Rt @) R2 e (c) Uy

48. Qual é o maior número entre os valores NL, Nz, RL, R2, U1 e U2 que pode ser
determinado dos remanescentes? Provar a resposta.

Teste H de Kruskal-Wallis
49. Realiza-se um experimento para determinar-se os rendimentos de cinco varie-
dades diferentes de trigo. Quatro lotes de terra são atribuídos a cada variedade
e os rendimentos estão apresentados na Tabela 19.38. Supondo-se que os lotes
possuem fertilidade semelhante e que as variedades são atribuídas aos lotes
aleatoriamente, determinar se existe diferença significante entre os rendimen-
tos aos níveis (o) 0,05 e (ó) 0,01.
Estatística Cap. 19

Tabela 19.38
A 20 12 l-5 19

B t1 t4 t2 1.5

C 23 16 t7 t4
D l5 t7 20 L2

E 2t t4 t7 18

Não há diferença significativa em cada um dos níveis.

50. Uma companhia deseja testar quatro tipos diferentes de pneus. A duração dos
pneus, determinada de suas bandas de rodagem, consta, em milhares de
quilômetros, da Tabela 19.39; cada tipo foi testado, aleatoriamente, em seis
automóveis semelhantes. Determinar se existe diferença significante entre os
pneus aos níveis (a) 0,05 e (ó) 0,01.

Tabela 19.39

A 1..' 38 36 40 31 35

B 32 40 42 38 30 34

C 31 JI 35 11 34 30

D 27 JJ 32 29 3l 28

A diferença é significativa no nível de 0,05, mas não no nível de 0,01.


51. Um professor deseja testar três métodos de ensino diferentes. Para tal, esco-
lheu, ao acaso, três grupos de cinco estudantes e ensinou cada grupo por um
método diferente. Aplicou, a seguir, a mesma prova a todos os estudantes, e os
graus obtidos constam da Tabela 79.40. Determinar se existe diferença entre
os métodos de ensino aos níveis de significância (o) 0,05 e (á) 0,01.

Tabela 19.40

Método I 18 62 11 58 13

Método II 76 85 90 81

Método III 74 79 60 15 80

Há diferença signiÍicativa ao nível de 0,05, mas não ao nível de 0,01.


Cap. 19 Testes não-paramétricos 607

52. Um estudante recebeu durante um semestre, em várias matérias, os graus


apresentados na Tabela 19.4I. Testar se existe diferença entre os graus nestas
matérias aos níveis de significância (o) 0,05 e (á) 0,01.

Tabela 19.41
Matemática 72 80 83 75
Ciências 8l 14 11
Inslês 88 82 90 87 80
Economia 14 1l 77 70

53. Usando-se o teste 11, resolver os Problemas (o) 9, (b) 2l e (c) 22 do CapÍtulo 16.
54. Usando-se o teste I/, resolver os Problemas (a) 23, (b) 24 e (c) 25 do Capítulo 16.

Teste das Séries para Aleatoriedades


55. Determinar o número de séries, V, para cada seqüência seguinte:
(o)A B A B B A A A B B A B
(á)H H T H H H T T T T H H T H H T H T
Resp.: a) 8; ó) 10.
56. Foram amostrados 25 indivíduos para saber se eles gostavam ou não de um
certo produto indicado por Y e N, respectivamente. A amostra resultou na
seguinte seqüência:
YYN N N NYYYNYN NYN NN NNYYYYN N
(o) Determinar o número de séries, V.

(á) Testar, ao nível de significância 0,05, se as respostas são aleatórias.


Resp.: o) 10; ó) As respostas são aleatórias ao nível de 0,05.
57 . Utilizar o teste
das séries para as seqüências ( 10) e ( 1 1) deste capítulo, e relatar
as conclusões sobre aleatoriedade.

58. (o) Formar todas as seqüências possíveis consistindo de dois o's e um ó, e dar
o número,de séries, V, correspondente a cada seqüência.

(b) Obter a distribuição amostral de V e seu gráfico.


(c) Obter a distribuição de probabilidade de V e seu gráfico.
Estatística Cap. 19

59. No problema anterior determinar a média e a variância de V (o) diretamente


da distribuição amostral e (ó) pela fórmula.

60. Resolver os Problemas 58 e 59 para os casos em que existem (o) dois o's e dois
á's, (b) um o e três ó's e (c) um o e quatro b's.
61. Resolver os Problemas 58 e 59 para os casos em que existem (a) dois o's e quatro
ó's e (ó) três a's e três b's.

Aplicações adicionais para o teste das séries


62. Determinar se a amostra dos 40 graus da Tabela 19.5 é aleatória a um nível
de significância 0,05.

Resp.: A amostra não é aleatória ao níve1 de 0,05. Há vários caminhos indi-


cando um modelo cíclico.

63. Os preços de fechamento de um estoque em25 dias sucessivos estão na Tabela


19.42. Determinar se os preços sào aleatórios a um nível de significância 0,05.

Tabela 19.42
10,315 t1,125 10,875 10,625 I 1,500
tt,625 lt,250 |t,375 10,750 11,000
10,875 10,750 11,500 11,250 12,125
1 1,875 t1,37 5 1 1,875 ll,l25 ll,l50

Resp.: A amostra não é aleatória ao nível de 0,05. Há poucos caminhos


indicando uma tendência.
64. Os primeiros dígitos de {7sáo 1,41427 35623 73095 0488 ... . Que conclusões
se podem extrair a respeito da aleatoriedade dos dÍgitos?

Resp.: Os dígitos são aleatórios ao nível de 0,05.


65. Que conclusões podem ser extraÍdas a respeito da aleatoriedade dos seguintes
dígitos?

(o){ã= t,73205 08075 68877 2935 ...


(b)n = 3,14159 26535 89793 2643...
Resp.: a) Os dígitos são aleatórios ao nível de 0,05.
b) Os dígitos são aleatórios ao nível de 0,05.
Cap. 19 Testes nd.o-paramétricos 609

66. Resolver o Problema 30 usando-se o teste das séries para aleatoriedade.


67. Resolver o Problema 32 usando-se o teste das séries para aleatoriedade.

68. Resolver o Problema 34 usando-se o teste das séries para aleatoriedade.

Correlação de posto
69. Em uma competição, pediu-se a dois juízes ordenar oito candidatos, numerados
de 1 a 8, em ordem de preferência. Os juízes submeteram as escolhas apre-
sentadas na Tabela 19.43.
(o) Determinar o coeficiente de correlação de posto.

(ó) Decidir quanto os juízes concordaram em suas escolhas.

Tabela L9.43

Primeiro juiz 5 2 8 4 6 3 7

Segundo juiz 4 5 7 3 2 8 I 6

Resp.: a) 0,67;
ó) Os juízes não concordaram muito bem com suas escolhas'
70. Usar a correlação de posto para resolver os Problemas (a) 26, (b) 42, (c) 46 e
(d) 63 do CaPítulo 14.

71. O coeficiente de correlação de posto é deduzido usando-se dados ordenados na


fórmula do produto-momento do Capítulo 14. Ilustrar isto usando-se ambos os
métodos para resolver um problema.

72. O coeficiente correlação de posto pode ser determinado para d.ados agrupa-
d.e
dos? Explicar isto, e ilustrar a resposta com um exemplo.
Apêndice I

Ordenadas (y) da curva normal reduzida em z

z 0 I 2 3 4 5 6 7 I 9

0,0 0,3989 0,3989 0,3989 0,3988 0,3986 0,3984 0,3982 0,3980 0,3917 0,3913
0,1 3910 3965 3961 3956 395 1 3945 3939 3932 392s 3918
0,2 3910 3902 3894 3885 3876 3867 3857 3847 3 836 3825
0,3 38 14 3802 3190 3718 3765 3152 3739 3125 37 t2 3691
0,4 3683 3668 3653 3637 3621 3605 3589 3572 3555 3538

0,5 3521 3503 3485 3461 3448 3429 3410 3391 3312 3352
0,6 3332 3312 3292 321 1 3251 3230 3209 3187 3166 3t44
0,7 3123 3101 3019 3056 3034 301 I 2989 2966 2943 2920
0,8 2891 2814 2850 2821 2803 2780 2156 2132 2',709 2685
0,9 2661 2637 2613 2589 2565 2541 2516 2492 2468 2444

610
Apêndice I 611

z 0 I 2 3 4 5 6 7 I 9

1,0 2420\ 23e6 2311 2347 2323 2299 2215 22st | 2221 2203
1,1 2179 2155 2lll I 2101 2083 ,ntn\ 2036 zonJ rsss 1 re6s
',"rà1,i;;;
t,2
I

1942J 19t9 189s I t872 t849 , I


*ru 1804 i,*l
1,3 lit4\ 16e1 1669 1641 t626 ,uoo I 1s82 15611 1539 l5l8
,rrol w4 r:s+L r334
I

t,4 14e7 t416 1456 1435 t4t5 r3rs


\
I

rzool 163 l 14s I ""1


L

.2gSJ D16 r257 r238 t2t9 1r82 l 1121


I 1006 ;;;; r ;;,; oni,
1,5
1,6 110e 1 rcs2 to]4 t057 1040 ro,
I oso: I 0848 os::
1,7
1,8
oe4o
0790
os2s
0115
0909
076r
0893
0148
0878
0134 n rr\ oio., oos+l| 9:l'l gigi
oosrl o66e
t,9 o6s6 ] 0644 0632 0620 0608 0596 0s84 áii,r ãiã,1 ;;;,

2,0 0s40 0529 0s19 I 0s08


I 04e8 0488 0478 0468 o4s9\ 0449

2,t o44o oor,1 0422 041 l 0404 0396 0387 0379 o37t 0363
')) ] ü4il
L

nrrr 03321 0325 0317 03 10 0303 02e1 o2e0


o33e J
2,3 orrrl ,r,rl o21o oruol o2s8 0252 0246 024t o23s 0229
2,4 02241 02t9i 0213 o2o8 I o2o3 0198 0\94 0189 orro ] or80

)5 orzs 1 0r7l 0167 0163 I 0158 01s4 I 01s1 01411 01431 013e

2,6 0r361 01321 0t2e nrr.ul 0122 n, r,I or 16 ott3 orroI oloT
)1 oro+l ototl ooee nnru I ooe3 nnrr I oo88 nnru] ootol oo8l
2,8 oozo] oo77l ooTs nor, I oo,l nru, I 0067 oourl oourl 006r
,o ooool ooss] oos6 0055 0053 oor, ] ooso oo+sl oo+zl 0046

3,0
tl
0044 0043
L

I OO42 oo+o I
l

oo39 I 0037 0036 003s I 0034


0038
3,1 oo:: I oo:z I oo3 I ooro
I oo2s 0028 0027 oozol oozsl oo2s
7) oo24 0023 I 0022 00221 0021 nnro ] oo2o oo,rl oo,tl oors
norr]lt oo,rl 0016 oo,oL oo'rl
J,J
3,4 00121 0ol2l
oot6
0012 norr I
0015
oo11
oo,t
00r01
I oor4
0010 no'o] ooosl
oor3
oooe

15
IL
oooel oooal ooos 0008
I
I

0008 0007
I

0007 ooo;
I

I oooT
I

0006
ooos I ooos ooo, I
3,6 0006
ooo+] ooo+l
oooo I 0006
ooo4 nooo I
ooo5
ooo4
ooot
0004
I ooos
0003 ooor] ooorl
ooo4
ooo3
5, t 1
0002 0002 r 0002
3,8 ooo:l 00031 0003 0003 0003 0002 0002
3g o 0002 0.0002 l 0.0002 o.ooo2I o.ooo, o.ooo21 o.ooo, o.ooo2 o,ooor 1o,or,o,
Apêndice ll

Área subentendida pela curva normal reduzida de O az

z 0 1 ) 3 4 5 6 7 8 9

0,0 0,000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0398 0438 0478 05t'7 0557 0596 0636 0675 07 t4 0754
0,2 0793 0832 087 1 0910 0948 0987 1026 1064 I 103 tt4t
0,3 t179 t2t7 1255 1293 t33t 1 368 1406 t443 1480 l5J1
0,4 1554 1591 t628 1664 1700 t'736 t772 1 808 1844 1819

0,5 1915 1950 1985 20t9 2054 2088 2123 2t57 2t90 2224
0,6 2258 2291 2324 2357 2389 2422 2454 2486 2518 2549
0,7 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852
0,8 288 I 2910 2939 296'7 2996 3023 305 1 3078 3 106 3 133
0,9 3r59 3186 3212 3238 3264 3289 33 15 3340 3365 3389

612
Apêndice II 613

z 0 I 2 j 4 5 6 7 I 9

1,0 34131 3438 346t I 348s :soal :s:rl 3ss4


3577 3599 362t 1

raso I 37291 3749 3770 ,rro I 3810 ,tro


1,1
1,2
I 366s
3643
3849 3869
3708
,rrtl 3s44 3s62 ,rro I 3se., 0n,.,
I

1,3 4032\ 4o4s 4066 4082 onrrl or,tl 4.*r ororJ 4162 orr, I

t,4 4rs2\ 42oj orr.r\ 4236 ortrl orutl 42.,s ornr.\ 4306 43re I

1,5 or.rl $4s | 4310


43s7
I

43821 43941 44061 4418 4429 ooorl


+üq\ 4484
I

1,6 44s21 4463 oorrl otot 4srs 4s2sJ 4s35


l
I ororl
1,7 otto\ 4s64 otrr\ 4s,z or' I otgnl +ooal 46r61 462s oorr\
1,8 464t1 464e 46s6 4664 ourr\ ourrl +ase I +oszl 4699 oroul
t,9 +ttz1 4it9 orrul 4732 orrt I orool ortol ortu\
tl 4161 oro, I

)o 4172 41181 41831 4188 orrr\ orrrl o*n.l o*nrl 4B', 4817
I | 4842 oroul orro I
I

2,t o*r, orrul 4830 4834 os:a 48s4 4857


)) oru, I |otuo 4868 1 48i I 487s 4878 o*s,]tt +ss+l 4887 4890
,)? 4Bs3 +aso | |
+soa 4eot onoot 4so6 49091 49tt 49t3 49r6
I 4s2o 4922 4925 4e27 4e2e orr, I orrr\ 4s34 4936

lt
2,4 +sra
I 4e4el
)\ 4e38 4e4o 494t1 4943 +sqsl 4s46 4e481 4e5t 4952
L qssel 4ss7 o*, | 4s6o |
+sot +sezl
4963 4964
2,6
)'7
] 4ess
4es3
4e65\ 4e66 onurl 4s6B 4969 4910 orrrl orrrl 4si3 4914
2,8 49741 4e7s orru\ 4s71 orrrl 4s7B onrrl onrnJ 4e8o 498t
or*l orsrl 4ss(
2,9 +ssr 4sB2
|
I
4e821
I
4e83 4e84J

4988
I
4e84

4989
tl
+osel +essl 4ss(
4986

4990
3,0
3,t
| 4e81 4e87 \ 4e88
4e87
4990 4991 4991 4991 onrrl 4es2 4ee2l 4ee2l 4ee: 4993
1) onnrl 4ss3 onnol 4ss4 4994\ 4994 4ee41 4ees 4ee:
] 4995

J,J ornt\ 4sss onnt\ 4ss6 orrul 4ss6 4e961 4996\ 499( 4997

4991 orrrl 4ss.. 4997 4997 onrrl 4ss1 4ss-, 4998


3.4 4997
ll
3,s 149981 4998 ornr l 4ss' 4ee8\
I

4ee8 +oeal 4ee8l 49et 4998

3.6 \+ossl +soa onnn\ 4sss 49991 4999 +soel 4ess 4se( 4999

3.i | +sss 4sse ornnl 4sse +oool 4sss 49991 4999 499\ 4999

3.8 1 +sss\ +sss orrrl 4sss 49991 4999 onnr\ orrrl 4ss( 4999
is ln.tooolo.sooo o,sooo l o,tooo o,5ooo l o,tooo o.sooolo.soooLo.soor 0,5000
h
*s5*P*

Apêndice lll

Valores dos percentis (Íp) da distribuição Íde Student com v graus


de liberdade (área sombreada = p)

to,ggs to,cs to,czs to,cs to,so Ío,so to,z s to,ro to,60 to,s s

l 63.66 3 r .82
] e.92 6.e6 4.30
12.7 | 6.3 I 3.08 1.316 I.000 0,721 0,325 0,1 58
2
i 2.92 1.89 1.061 0.816 611 289 142
3 s.84 ', +.s+ | :.la ] z.:s 1.64 0.978 0t.765 584 271 t37
4 4.60 3.75 2.78 2.13 l ,53 0,941 0,141
i
569 27t t34

5 4.03 3.36 2.57 2.02 l,48 0.920 0.121 0,559 0,267 0,132
6t 3,11 3,14',, 2,45 t,94 t.44 906 718 553 265 l3l
1 3,50 3,00 2,36 1,90 896 7tt 549 263 130
8 3,36 2,90 2,31 l,86 889 106 546 262 130
9 3.25 2,82 2,26 r,83 883 703 543 261 t29

614
Apêndice III 615

to,cgs to,g9 to,gzs to,g s to,co to,ao to,7 s to,7o to,60 to,s s

10 3,11 2,16 ))\ 1,8 I 1,37 819 700 542 260 t29
11 3,1 1 )1) 2,20 1,80 1,36 816 691 540 260 t29
t2 3,06 2,68 2,18 1,78 t,36 813 695 539 259 128
13 3,01 2,65 2,16 t,1'7 1,35 870 694 538 259 128
14 2,98 2,62 2,14 t,16 t,34 868 692 531 258 t28

15 ,q5 2,60 2,t3 t,7 5 1,34 866 69t 536 258 128
t6 )q) 2,58 2,12 I,15 t,34 865 690 53s 258 t28
t7 2,90 1<1 2,tt 1,14 1,33 863 689 534 257 128
18 2,88 7 55 2,t0 1,13 1,33 862 688 534 251 r21
t9 2,86 2,54 2,09 1,13 1,33 861 688 533 257 t21

20 2,84 ? 51 2,09 1,72 1,32 860 687 533 251 t21


21 2,83 )\) 2,08 1,72 1,32 859 686 s32 257 t21
22 2,82 2,51 2,07 t,12 1,32 858 686 532 256 r21
/-3 2,81 2,50 2,01 t,7 t t,32 858 685 532 256 121

24 2,80 2.49 2,06 1,11 1,32 851 68.5 -531 256 127

25 2,19 2,48 2,06 t,1r t,32 856 684 531 256 t21
26 2,18 2,48 2,06 t,7 t r,32 856 684 531 256 t27
21 ) 7'7 2,41 2,05 1,70 r,31 855 684 531 256 t21
28 2,76 2,41 2,05 t,70 t,31 855 683 s30 256 t2'7

29 2,16 2,46 2,04 1.10 1,31 854 683 530 256 121

30 )'75 2,46 2,04 1,70 1,31 854 683 530 256 121

40 2,10 )L) 2,02 1,68 1,30 851 681 529 255 t26
60 2,66 ?1q 2,00 1,61 1,30 848 619 527 254 t26
,: )6) 2,36 1,98 1,66 1,29 845 671 526 254 126
2,58 )17 r.96 t,645 t,28 842 614 524 253 t26
Fonte: R. A. Fisher e F. Yates, Statistical Tables for Biological, Agricultural and Medical
Research (51 edição), Table III, Oliver and Boyd Ltd., Edinburgh, com permissão dos autores
e editores.
Apêndice lV

valores dos Percentis (rÊ) da Distribuição de eui-euadrado com v


graus de liberdade (área sombreada = p)

n
x6,r* x3,rn Y"o.rrt xE.rt x3,no x?,.rt xà,to xà,rt xE,ro x3,ot x8,ort xô,or x3.oos

1 7,88 6,63 5,02 3,84 2,71 1,32 0,455 0,t02 0,0158 ),0039 0,0010 0,0002 0,0000
2 10,6 9,21 7,38 5,99 4,61 ) 1'7 1,39 0,575 0,21t 0,103 0,0506 0,0201 0,0100
J t2,8 1 1,3 9,35 7,81 6,25 4,11 2,3 I 1,21 0,584 0,352 0,216 0,115 0,072
4 14,9 13,3 11,1 9,49 "1,78 5]q 3,36 1,92 1,06 0,711 0,484 0,297 0,207

5 16,7 15,1 t2,8 11,1 9,24 6,63 4 15 2,67 1,61 1,15 0,831 0,554 0,4t2
6 18,5 16,8 t4,4 12,6 10,6 7,84 5 t5 3,45 ))o 1,64 t,z4 0,8'72 0,676
7 20,3 18,5 16,0 14,1 12,0 9,04 6,35 4,25 2,83 2,17 1,69 1,24 0,989
8 ))o 20,t 17,5 15,5 13,4 10,2 7,34 5,07 3,49 2,'73 2,t8 1,65 1,34
9 23.6 21,7 r 9,0 16,9 t4.7 11.4 8.34 5.90 4.17 t_ I 1 2.70 2,09 t,73

616
Apêndice IV 617

n xà:r ^.2
v3.nrt xE,ss x8,qs x6,ss xà,so xô,ts xE,so xE.zs xà.os l(0.025 x6,ot xô.oos

10 )5) )7 ) )n5 I 8,3 16,0 12,5 9,34 6,74 4,87 3,94 I ?5 2,56 2,16
1i 26,8 24,7 21,9 t9;7 17,3 13,'7 10,3 7,58 5,5 8 4,57 3,82 105 2,60
t2 28,3 )6) 2t,0 18,5 t4,8 1 1,3 8,44 6,30 5 rl 4,40 157 3,07
13 29,8 27,7 24,'7 1)t 19,8 16,0 1)\ 9,30 7,04 5,89 5,01 4,tl 157
14 31,3 29,1 26,t 23;/ 21,1 t't,1 13,3 10,2 7,'79 6,57 5,63 4,66 4,07

15 32,8 30,6 27,5 25,O ))7 18,2 t4,3 11,0 8,55 7,26 6,26 § r1 4,60
16 34,3 l?o 28,8 26,3 ?t 5 19,4 1 5,3 11,9 9,31 7,96 6,91 5,81 5,14
17 35,7 33,4 30,2 27,6 24,8 20,5 16,3 t2,8 10,1 8,67 7,56 6,41 5,70
18 37,2 34,8 3l ,5 28,9 26,0 2t,6 1',7,3 13,7 10,9 9,39 8,23 7,01 6,26
t9 38,6 36,2 32,9 30,1 )T ') ))7 18,3 14,6 tl,7 10,1 8,91 7,63 6,84

20 40,0 37,6 34,2 31,4 28,4 23,8 19,3 15,5 12,4 10,9 g5q 8,26 7,43
21 41,4 3 8,9 35,5 32,7 29,6 24,9 20,3 16,3 13,2 11,6 10,3 8,90 8,03
22 42,8 40,3 36,8 33,9 30,8 26,0 21,3 17,2 14,0 t2,3 1 1,0 9,54 8,64
23 44,2 4t,6 3 8,1 35,2 t?o )'7 1 ))\ 18,1 14,8 13,1 11,7 10,2 9,26
24 45,6 43,0 39,4 36,4 3),t 28,2 19,0 15,7 13,8 12,4 10,9 9,89

25 46,9 44,3 40,6 1'7 7 34,4 ,q1 24,3 19,9 16,5 14,6 1 3,1 1 1,5 10,5
26 48,3 45,6 41,9 38,9 35,6 30,4 75 l 20,8 17,3 t5,4 1 3,8 12,2 1t,2
27 49,6 47,0 43,2 40,1 36,7 31,5 26,3 21,7 18,1 16,2 t4,6 12,9 1 1,8

28 51,0 48,3 44,5 4t,3 37,9 32,6 )7\ ))'7 18,9 16,9 15,3 t3,6 12,5
29 5' 1 49,6 45,'7 42,6 39,1 )),t 28,3 23,6 19,8 t7,7 16,0 14,3 13,1

30 <? 7 50q 47,0 43,8 40,3 34,8 ?9 1 24,5 20,6 18,5 16,8 15,0 13,8
40 66,8 63,7 5ql 5 5,8 51,8 45,6 39,3 33,'7 29,1 26,5 24,4 )) ', 20,7
50 79,5 76,2 7 t,4 6'1,5 63,2 56,3 49,3 42,9 37,7 34,8 32,4 )o'7 28,0
60 92,0 88,4 83,3 79,1 74,4 67,0 59,3 52,3 46,5 43,2 40,5 37,5 i5 §

70 r04,2 100,4 95,0 90,5 8 5,5 77,6 69,3 61,'7 55,3 51,7 48,8 45,4 43,3
80 1 16,3 t12,3 106,6 101,9 96,6 88,1 79,3 71,1 64,3 60,4 57) 5l 5 51,2
t28,3 113,1 t0'7,6 98,6 89,3 80,6 '73,3 69,t 65,6 61 ,8 59,2
90 124,1 118,1
82,4 '77 q '74,2 70,1 67,3
100 140.2 135.8 129.6 124,3 118,5 109.1 99.3 90,1

Fonte: Catherine M. Thompson,Table of percentage points of the 12 distribution Biometrika,


Yol.32 (1941) com permissão dos autores e editores.
Apêndice V

Logaritmos comuns com quatro decimais

N 0 1 2 3 4 5 6 7 8 I Partes Proporcionais

t23456789
rol 0000 0086 0128 0170
0043 02t2 0253 0294 0334 0374 4 8 t2 t7 21 2s 29 33 37
,t 04r4 0453 0492 0531 0569 0607 0645 0682 0719 0755 4 8 11151923263034
l

12 0792 0828 0864 0899 0934 0969 1004 1038 1072 1106 3 7 10 14 11 21 24 28 31
13 1139 tt'73 1206 1239 1271 1 303 1335 1367 1399 1430 3 6 10 13 16 t9 23 26 29

14 t46t 1492 1523 1553 1584 t614 1644 1673 i703 1732 6 9 121518212427

15 t161 1790 1818 t847 1875 1903 t931 1959 1987 2014 -1 6 8 tl 14 t7 20 22 25

t6 2041 2068 2095 2122 2148 2t'75 2201 2227 2253 22'79 3 5 8 11 13 16 t82124
17 2304 2330 2355 2380 2405 2430 2455 2480 2504 2529 2 5 7 10 12 15 17 20 22

18 2553 2577 2601 2625 2648 2672 2695 2718 2742 2165 2 5 7 9 1214161921
t9 2788 2810 2833 2856 2878 2900 2923 2945 2967 2989 2 4 7 9 11i3161820

20 3010 3032 3054 3075 3096 31 18 3139 3160 3181 3201 2 4 6 8 11 13 15 17 19

21 7))) 7)4\ 3263 3284 3304 3324 3345 3365 3385 3404 2 4 6 8 10 12 14 16 18

22 3424 3444 3464 3483 3502 3522 3541 3560 3579 3598 2 4 6 8 t0 t2 14 15 l7

23 3617 3636 3655 3674 3692 3711 3729 374'7 3'766 3784 2 4 6 7 9 11131517
24 3802 3820 3838 3856 3874 3892 3909 3927 3945 3962 2 4 5 7 9 ltt21416

618
ApêndiceV 619

N 0 I ) 3 4 5 6 7 8 9 Partes Proporcionais

25 3979 3997 4014 4031 4048 4065 4082 4099 4tt6 4133 23 57 9 10121415
26 4150 4166 4183 4200 4216 4232 4249 4265 4281 4298 23 5'7 810 1113 15
2'7 4314 4330 4346 4362 4378 4393 4409 4425 4440 4456 23 56 8 9 111314
28 4472 4487 4502 4518 4533 4548 4564 45'79 4594 4609 23 56 8 9 t11214
29 4624 4639 4654 4669 4683 4698 4113 4728 4'742 475'.7 13 46 7 9 t012t3
30 4771 4786 4800 4814 4829 4843 4857 487t 4886 4900 134679101113
31 4914 4928 4942 4955 4969 4983 4997 5011 5024 5038 1 3 4 6 7 8 1011t2
32 s05 1 5065 5079 5092 s105 5119 5132 5145 5159 5t'/2 1 3 4 s 7 8 91112
-1 -' s185 5 198 521t 5224 5237 5250 5263 5276 5289 5302 1 3 4 5 6 8 9 1012
-)+ 5315 5328 5340 5353 5366 5378 s39r 5403 54t6 5428 1 3 4 5 6 8 910 11
35 5441 5453 546s 54'78 5490 5502 5514 5527 5539 555 1 12456791011
36 5563 5575 5587 5599 561 1 5623 5635 564',7 5658 5670 1 2 4 5 6 7 81011
3'7 5682 s694 5705 57t7 5729 5740 5752 s763 5775 5786 1235678910
38 5798 5809 5821 5832 5843 5855 5866 s877 5888 5899 r235678910
39 591 1 5922 5933 5944 5955 s966 5977 5988 5999 6010 t 2 3 4 5 7 8 9 l0
40 6021 6031 6042 6053 6064 6075 6085 6096 6107 6t17 1234s68910
4l 6t28 6138 6149 6160 6170 6i80 6191 6201 6212 6222 123456789
42 6232 6243 6253 6263 6274 6284 6294 6304 63t4 6325 123456"789
43 6335 6345 63s5 6365 6375 6385 6395 6405 6415 6425 123456'.789
44 6435 6444 6454 6464 6474 6484 6493 6s03 6513 6422 123456789
45 6s32 6542 6551 6561 6571 6580 6590 6599 6609 6618 123456'.789
46 6628 6637 6646 66s6 6665 6675 6684 6693 6702 6712 123 4 5 67 7 8

47 6721 6730 6'.739 6749 6758 6'76'7 67'76 6785 6794 6803 12345s6'/8
48 6812 682t 6830 6839 6848 68s7 6866 6875 6884 6893 123445678
49 6902 6911 6920 6928 6937 6946 6955 6964 69'.72 6981 123445678
50 6990 6998 '/00'7 7016 7024 7033 7042 7050 7059 7067 123345678
51 7076 7084 7093 7101 7110 7118 '7126 7t35'/143 7152 123345678
52 7t60 7168 7177 71 85 7 193 7202 '.7210 7218 7226 7235 122345677
53 7243 '7251 7259 7267 72'7s 7284 7292 7300 7308 73t6 122345667
54 7324 7332 7340 7348 7356 7364 73'72 7380 7388 7396 122345667
620 Estatística

N 0 I 2 3 4 5 6 7 8 9 Partes Proporcionais

55 '7404 7419 7427


7412 743s 7443 7451 7459 7466 7474 t22345567
56 7482 7497 7505
7490 7513 7520 7528 7536 7543'7551 r2234556't
57 '7559 '7566 7574 7582 7589 7597 7604 7612 7619 7627 t2234s56'7
58 7634 7642 '7649 7657 7664 76"72 76'79 7686 7694 7'.701 t22345567
59 7'709'7716 7723 7731 7738 7745 7'152 7760 7'767 7774 t22345567

60 7782 7789 "t796 7803 7810 7818 7825 7832 7839 7846 112344566
61 78-53 7860 7868 7875 7882 7889 '7896 7903 7910 7917 112344566
62 7924 7931 '7938 7945 7952 7959 '7966 7973 7980 '.7987 112334566
63 7993 8000 8007 8014 8021 8028 8035 8041 8048 8055 112334556
64 8062 8069 8075 8082 8089 8096 8102 8109 8116 8122 r12334556

65 8129 8136 8142 8t49 8156 8t62 8176 8182 8189


8169 r12334556
66 8195 8202 8209 82t5 8222 8228 8235 8241 8248 8254 112334556
67 8261 8267 8274 8280 8287 8293 8299 8306 8312 8219 1r2334556
68 8325 8331 8338 8344 8351 8357 8363 8370 8376 8382 112331456
69 8388 8395 8401 8407 8414 8420 8426 8432 8439 8445 112234456
'70 8451 8457 8463 8470 8476 8482 8488 8494 8500 8506 2234456
71 85 13 85 19 8525 8531 8537 8543 8549 855s 8561 856'.7 2234455
'72 85'73 85't9 8585 8591 859'7 8603 8609 8615 8621 8627 2234455
'73 8633 8639 8645 8651 8657 8663 8669 8675 8681 8686 2234455
'74 8692 8698 8704 8710 8716 8722 8727 8733 8739 8'745 2234455
-75
8751 8756 8762 8768 8'7'74 8779 8785 8791 8797 8802 12233455
'76 8808 8814 8820 8825 8831 8837 8842 8848 8854 8859 t2233455
77 8865 8871 8876 8882 8887 8893 8899 8904 89 10 89 1 5 12233445
78 8921 892'.7 8932 8938 8943 8949 8954 8960 8965 897t 12233445
79 8976 8982 8987 8993 8998 9004 9009 9015 9020 9025 12233445

80 9031 9036 9042 9047 9053 9058 9063 9069 9074 9079 112233445
81 9085 9090 9096 9101 9106 9112 91t'7 9t22 9128 9133 112233445
82 9138 9t43 9149 9154 9r59 9165 9170 9175 9180 9186 112233445
83 9r9t 9t96 9201 9206 9212 921'1 9222 9227 9232 9238 112233445
84 9243 9248 92s3 9258 9263 9269 92'74 9279 9284 9289 r1223344s
Apêndice V 621

N 0 I 2 3 4 5 6 7 I 9 Partes Proporcionais

85 9294 9299 9304 9309 9315 9320 9325 9330 9335 9340 ll 2233445
86 9345 9350 9355 9360 9365 9370 9375 9380 9385 9390 11 2233445
87 9395 9400 9405 9410 9415 g42o 9425 9430 943s 9440 0l 1223344
88 9445 9450 9455 9460 9465 9469 9474 9479 9484 9489 01 1223344
89 9494 9499 9504 9509 9513 9518 9523 9528 9533 9s38 0l 1223344

90 9542 9547 9552 9557 9562 9566 95'7 t 95'76 9s81 9586 011223344
91 9590 9595 9600 9605 9609 9614 9619 9624 9628 9633 0rt223344
92 6638 9643 964"1 9652 9657 966t 9666 9671 9675 9680 01t223344
93 9685 9689 9694 9699 9703 9708 9713 97t'.7 9722 972'l 01t223344
94 9731 9736 974t 9745 9750 9754 9759 9'763 9'768 9773 011223344

95 9777 9782 9786 979t 9795 9800 9805 9809 9814 9818 01 1223344
96 9823 9827 9832 9836 9841 9845 9850 9854 9859 9863 01 t223344
9'.7 9868 9872 9817 9881 9886 9890 9894 9899 9903 9908 01 1223344
98 9912 9917 9921 9926 9930 9934 9939 9943 9948 9952 01 1223344
99 9956 9961 9965 9969 9974 9978 9983 9987 9991 9996 0l 1223334

N 0 2 ., 4 5 6 7 8 9 123456789
h
MAKRON

Apêndice Vl

Valores de e i
(0<1.<1)

À 0 1 2 3 4 5 6 7 8 9

0,0 1,0000 0,9900 0,9802 0,9704 0,9608 0,9512 0,9418 0,9324 0,9231 0,9139
0,1 0,9048 8958 8869 878 1 8694 8607 852t 8437 835 3 8270
7866 7788 '7'711 '7634 7558 7483
0,2 8 187 8106 8025 7945
0,3 7408 '7334 7261 7189 71 18 7047 6977 6907 6839 677 t
0,4 6'l03 6636 6570 6505 6440 6376 6313 6250 6188 6126

0,5 6065 600s 5945 5886 5827 5770 5'112 5655 5599 5543

0,6 5488 5434 5379 5326 5273 5220 s 169 5tt'7 5066 5016

0,7 4966 4916 4868 4819 477 1 4'124 4677 4630 4584 4538

0,8 4493 4449 4404 4360 4317 42'14 4232 4190 4148 4107

0.9 4066 4025 3985 3946 3906 3867 3829 379r 3'753 37 16

(À = 1, 2, 3, ..., 10)

T 2 3 5 6 7 8 9 10
1 ^
-À 0,36788 0,13534 0,04979 0,01832 ),006738 ).002479 ),000912 ),000335 ),000123 1,000045

622
h
MAKRON

Apêndice Vll

Números Aleatórios

51772 74640 42331 29044 4662t 62898 93582 04186 19640 87056
24033 23491 83587 06568 21960 21381 16105 10863 9'.7 453 90581
45939 60t73 52078 25424 1t645 55870 56914 31428 93507 942',71
30586 02133 75197 45406 31041 86107 t2973 11169 88116 41287
03585 79353 81938 82322 96799 85659 36081 50884 t4010 14950
64931 03355 95863 20790 65304 55189 00145 65253 11822 15804
15630 64159 5l 135 9852',7 62586 41889 25439 88036 24034 61283
09448 s6301 57683 30217 94623 8541 8 68829 06652 41982 49159
2t631 9t151 7733t 60710 52290 r 683s 48653 1t590 16159 t4676
91097 t1480 29414 06829 81843 28195 21219 47152 35683 41280

50532 25496 95652 42451 73547 76552 50020 248t9 52984 76168
07136 40876 '79971 54195 25708 51817 36732 72484 94923 75936
27989 64728 r0'7 44 08396 56242 90985 28868 99431 50995 20507
85184 13949 36601 46253 00417 25234 09908 365',7 4 72139 70185
s4398 2t154 97810 36764 32869 1 1785 5526t 59009 381t4 38723

65544 34371 0959 1 01839 58892 92843 12828 9134r 84821 63886
08263 65952 85762 64236 39238 18116 84303 99241 46149 03229
398t1 67906 48236 t6051 81812 15 815 63100 85915 t9219 45943
62251 04077 79443 9s203 024'.79 30763 92486 54083 23631 05825
62545 21 03878 075 7 l

623
Apêndice Vlll

Dedução das equações normais


da reta de mínimos quadrados
Seja a equação da reta de mínimos quadrados desejada, Y = a0 + a1X. Os valores de
Y dessa reta, correspondentes a X = Xt, X2, ..., Xrr,r são ag * a1X1, ag I o,1X2, ..., a0
* enquanto os valores reais são Yt,Y2, ...,YN respectivamente. Então, a reta
a1X1tJ,
de mínimos quadrados é tal que

S = (ao + a1X1 -Y)2 + (a0 + a1X2 - Yz)2 + ... + (as + q Xx - Yx)2

é um mínimo.

De acordo com o cálculo infinitesimal, S será mínimo quando as derivadas


parciais de S em relação a a0 e a1 forem nulas. Então:
as _t
2llao + arXr - Y) + (as + atx2 - + ... + (ao+
fr =
Y2) 41SN - fiu)) = 0

AS ^t.
= 2[{as+ arxt-Y)x1+ (as+ a1x2-Y)xz+... + (as+ alxN)xn} = o
fr
e essas expressões fornecem as equações normais desejadas
Nas+a12X-XI=0
aszx+a1ZX2-xXY=0.

624
Apêndice lX

Valores do 954 Percentil para a distribuição,F


(vl graus de liberdade no numerador)
(v2 graus de liberdade no denominador)

\, 1 2 3 4 5 6 7 8 9 l0 12 15 20 24 30 40 60 120
vz\
1 161 200 2t6 225 230 234 237 239 241 aÁa 244 246 248 249 250 25r 252 253 254

2 18,5 19,0 t9,2 t9,2 19,3 19,3 t9,4 19,4 19,4 19,4 t9,4 t9,4 19,4 19,5 19,5 19,5 19,5 19,5 19,5
-l 10,1 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,8 I 8,'79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 R S1

4 7 7t 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,'71 5,'7 5 \'7) 5,69 5,66 5,63

5 6,61 §7q 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,'74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,40 4,31

6 5qg 5,14 4,76 4,53 4lq 4,28 4,2t 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 777 7, t4 3;to 3,67

7 55q 4,74 4,35 /1 1a tq7 3,87 17q 3,t) 3,68 3,64 157 3,51 3,++ 3,41 3,38 3,34 1?O 3,27 3,23

8 5 1' 4,46 4,07 3,84 3,69 3,58 150 3,44 1?q 1 l5 3,28 7)) 3, 15 3,12 3,08 3,04 3,01 )01 , q1

9 5,12 4,26 3,86 161 3,48 1?q 3,18 3,t4 3,07 3,01 2,94 2,90 2,86 2,83 )70 )'7\ 2,11

l0 4,96 4,10 3,71 3,48 3,14 3,07 3,02 2,98 2,91 2,85 )71 2,74 2,70 2,66 2,62 2,58 2,54

11 4,84 3,98 1§q 3,36 3,20 3,09 3,01 ?q5 2,90 2,85 110 "t 1) 2,65 2,61 )\7 , <1 2,49 2,45 2,40

12 4,7 5 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 )7\ 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,34 2,30

13 4,6'7 3,81 3,41 3,18 3,03 )o) 2,83 )11 2,"71 2,67 2,60 ? 51 2,46 2,42 2,38 2,34 2,30 , r< 2,2t
, .) ,,,,
t4 4.60 3,74 3.34 3,11 2.96 2,85 2,76 2,70 2,65 2,60 ? §1 2.46 ?1q 15 2.31 ))1 2,18 2.t3

625
626 Estatística

2 7 4 6 7 10 t2 l5 20 24 t20
\,
V2\
1 5 8 9 30 40 60

15 4,54 3,68 t?q 3,06 2,90 1?ô 2,7 t 2,64 )5q 2,54 2,48 2,40 2 t1 ))g ? )5 2,20 2,t6 111 2,07
t6 4,49 3,63 3,01 2,85 )'74 2,66 ,5q 2,54 )4q )4) ? ?5 2,28 ))4 2,19 2,15 2,t1 2,06 2,Ot
t7 4,45 ?5q 3,20 2,96 2,81 )'70, 2,6t ?55 2,49 )4< 2,38 ? ]t ) )1 2,19 2,t5 2,10 2,06 2,01 1,96
18 4,41 3,55 3,16 I 01 ) '77 2,66 2,58 2,51 2,46 2,41 z,)+ ))1 2,19 ) 1< 2,tt 2,06 )n) 1,97 1,92

t9 4,38 1 5? 3,13 2,90 2,'74 2,63 2,54 2,48 )l) 2,38 2,31 ) )7 2,16 2,11 2,07 , ol 1,98 1,93 1,88

20 4,35 3,49 3,10 2,8'7 2,71 2,60 2,5t 2,45 ?tq 7 t5 2,28 2,20 2,12 2,08 2,04 r,99 1,95 1,90 1,84

21 47? 3,47 3,07 2,84 2,68 )\7 2,49 z,+/. )71 )1) , ,< 2,t8 2,10 2,05 2,0t t,96 1,92 1,87 1,81
22 4,30 3,44 3,05 2,82 2,66 2,55 )46 )ao 2,34 2,30 ))1 ,l§ 2,07 2,03 1,98 t,94 1,89 1,84 1,78

23 4,28 3,42 3,03 2,80 2,64 ? 51 2,44 2,37 )\) )11 ))o 2,13 2,05 2,01 1,96 1,91 1,86 1,81 1,76
aÁ 4,26 3,40 3,01 2,78 2,62 )51 )4) 2,36 7lo ))< 2,18 2,11 2,03 1,98 1,94 1,89 1,84 t,79 1,73
25 4,24 11q ,oo 2,76 2,60 2,49 2,40 )74 2,28
-')')Á
2,t6 ?oq
I,87 t,82 1,77 1 ,71
2,01 1,96 1,92

26 4,23 3,) I 2,98 2,74 ?5q ) ,14 )11 )11 aaa 2,15 2,07 loo 1,95 1,90 1,85 1,80 1,7 5 t,69
a'7

27 4,21 I 15 2,96 2,'73 )\1 2,46 2,37 ) 21 ))\


2,20 2,13 2,06 1,97 1,93 1,88 1,84 t,'79 1,73 1,67

28 4,20 3,34 )95 2,71 2,56 2,45 2,36


.)ro ))4 2,t9 2,12 2,04 1,96 1,91 1,87 I,82 1,77 1,7 | 1,65
? q1 2,70 ? 5§ 2,43 ? .| )
29 4,1 8 15 2,28 1.) 2, 18 2,10 n1 1,94 1,90 1,85 l,8i t,75 1,70 t,64
30 4,1'l 77) )a) 2,69 ? §? ) 4',) , ?1 ) 'r1 ) 11 2,16 2,09 2,Ot t,93 1,89 1,84 1,79 t,"t4 1,68 1,62
10 4,08 111 2,84 2,61 2,4s 2,34 ))\ 2,1 8 2,12 2,08 )oo 1,92 1,84 1,79 1,'74 1,69 1,64 1,58 1,51

60 4,00 3,1 5 2,76 ?51 )77 ?)\ 2,1't 2,10 2,04 1,99 t,92 1,84 1,75 1,70 1,65 1,59 1,53 1,4'.7 1,39

t20 1q? 3,07 2,68 )4\ ))o 2,18 2,49 2,02 1,96 1,9t 1,83 t,7 5 t,66 I ,61 1,55 1,50 1,43 1,35 I ?§

3,84 3,00 2,60 ) 1'7 ) )1 2.10 2.01 1.94 1.88 1.83 1.75 1.67 1,5'7 1,52 1,46 1.39 1,32 1.22 1,00

Fonte: Com permissão de E. S. Pearson e H. O. Hartley, Biometrika Tables for


Statisticians, Vol. 2 (1912), Tabela 5, pá9. 178.
Apêndice X

Valores do 99e Percentil para a distribuição F,

(v1 graus de liberdade no numerador)


(v2 graus de liberdade no denominador)

I 2 1 4 5 6 7 8 9 t0 12 15 20 30 40 60 t20
,\
1 4052 5000 5403 5625 57 64 5 859 5928 598 I 6023 5056 6106 6151 5ZO9 5235 626 1 6 287 5313 6339

2 98,5 99,0 99,2 99,2 gql 99,3 99,4 99,4 99,4 99,4 99,4 99,4 qq4 qq5
qq5 gq5 qq5 gq5 99 ,5

3 34,1 30.8 )q5 28,7 )?, ) )'7 A )1 1 )75 )'t 1 )'7 ) 21 ,1 26,9 26,7 26,6 )6\ 26,4 )67 )6) 26,1
t^ a
4 21,2 16,1 16,0 15,5 15,2 r 5,0 14,8 14,7 14,5 t4,4 14,O 13,9 13,8 13,'7 t3,'7 13,6 13,5
l'8.0
5 16,3 13.3 t2,1 tl,4 11,0 t0,7 10,5 10,3 to,2 10,1 9,89 o1) q §5 9,47 9,38 olq 9,20 9,11 qo?
]
6 13,7 r 0.9 9,78 9, 15 8,75 8,41 8,26 8,10 7,98 7,87 7,12 7,56 7,40 /,Jr 7,14 7,06 6,97 6,88
'7 1l a rq 55 8,45 7,8s 7,46 '7,t9 6qq 6,84 á1) 6,62 6,4'7 6,31 6,t6 6,01 5gq 5,91 5,82 5,7 4 5,65
t' '-'
8 1 1,3 7<O 7,0r 6,63 6,37 6,1 8 6,03 5,91 5,81 5.67 5 52 5,36 5,2 8 5,20 5,12 5,03 4,95 4,86
]s.os
9 10,6 6,99 6,42 6,06 5,80 5,61 5,47 5 ?5 \ )(\ 5.1 I 4,96 4,81 4,73 4,65 4,57 4,48 4,40 4,31
18.02
10 10,0 6 55 5qq 5,64 519 §rn 5,06 4,94 4,85 i4.7 t 4,56 4,41 4,33 4)\ 4,17 4,08 4,00 3,9r
i7.s6
5 12 4,89 4,14 4,63 4,54 ]o.oo 4,25 4,10 4,02 3,94 3,86 3,78 3,69 3,60
11 9,65 '21 6,22 5,67 5,0"1
17 I

12 q t1 5,95 5,41 5,06 4,82 4,64 4,50 4lq 4,30 4,Ot 3,86 3,7 8 3,70 3,62 154 3,45 3,36
l6.el 14.16
13 9,01 5,7 4 5,21 4,86 4,62 4,44 4,30 4,t9 4,t0 I :.eo 3,82 3,66 159 3,5 1 3,43 3,34 1r§ 3,17
]6.70
14 8,8 6 6.5 r 5,5 6 5,04 4,70 4,46 4,28 4,14 14.03 3,94 3,66 J,) r J,+J 3,3s 3,18 3,09 3,00
13,80
15 8,68 16.36 5.42 4.89 4,56 4.32 4,14 4,00 13,8e 3.80 \z.at 3,37 i?q 3,21 3,13 3.05 2,96 2,8'1

627
628 Estatística

\v, I 2 3 4 5 6 '7
8 9 10 1Z 15 20 24 30 40 60 120
ur\
16 8,5 3 6,23 <)o 4,77 4,41 4,20 4,03 3,89 3,78 3,69 ?, << 3,4t 3,26 3,18 3,10 3,02 ) o? 2,84 ) 1<

t7 8,40 6,11 519 4,6-7 4,34 4,10 1ql 3,79 3,68 1§q 3,46 3,3t 3,16 3,08 3,00 )q) 2,83 ) 1\ 2,65

18 8,29 6,01 5,09 4,58 4,25 4,0t 3,84 3,1r 3,60 3,51 5,J t 3,08 3,00 )g) 2,84 ) 1\ 2,66 )\1

t9 8,18 5,93 5,01 4,50 4,t'7 3,94 3,63 1 5? 5,+3 3,30 I l5 3,00 ,o, 2,84 2,76 2,67 ) 5R 2,49

20 8,10 5R5 4,94 4,43 4,10 3,87 3,70 156 3,46 3,23 109 )q4 2,86 2,78 2,69 2,61 ') \) 2,42

2t 8,02 5,78 4,81 4,3'7 4,04 3,81 3,64 3,51 140, 3,31 3,1'7 3,03 2,88 2,80 )'1'.) )64 7 55 2,46 2,36

22 '7,95 \1) 4,82 4,31 3,99 3,76 15q 3,45 1 15 3,26 3,12 2,98 2,83 2,7 5 2,6'7 2,58 2,50 2,40 2,31

23 7,88 5,66 4,7 6 4,26 3,94 3,7 t 3,54 3,41 3,30 3,2r 3,O7 ) q? 2,78 )10 2,62 )\4 2,45 , 15 2,26

24 1 R'.) 5,61 À a) 4,22 3,90 3,67 3,5 0 3,36 \)6 3,t7 101 2,89 2,74 2,66 2,58 2,49 2,40 2,31 2,2t
.r1
25 7,77 <57 4,68 4,1 8 3,86 3,63 3,46 j,tz 3,13 7qg 2,85 111 2,62 2,54 2,45 2,36 1 2,t7

26 11) 5 51 4,64 4,14 3,82 159 3,42 1?q 3,18 3,09 )96 ) 9,) 2,66 2,5 8 ?5(] ) a') ) ?,1 ') )\ 2,13

27 7,68 5,49 4,60 4,11 3,78 3,56 11q 3,26 3,15 3,06 , q? 2,18 2,63 , << 2,47 2,38 ))o 2,20 2,10

28 7,64 5,45 4,57 4,07 ?7§ 3 5l J,J O 3,12 3,03 2,90 11< 2,60 )<) 2,44 2,35 ))6 2,17 2,06

29 1,60 5,42 4,54 4,04 3,73 3,50 J,J.1 3,20 3,09 3,00 2,81 z-,t3 ) <-1 2,49 2,41 ) 11 1)1 2,14 2,O3

30 '7,56 í1q 4,51 4,O2 3,70 3,47 110 3,17 3,07 ,OR 2,84 )10 ? 55 2,47 )79 )ln ) )1 2,tt z,0t
40 7 ,31 5,18 4,31 3,83 3,5 1 t)o 3,t2 ?qq 2,89 2,80 2,66 1<) ))q ))n 2,t1 )o) t,92 1,80

60 7,08 4,98 4,t3 3,65 3,34 11) ?q5 )R) ) 1) )Á1 2,50 ?15 2,20 2,12 2,03 1,94 1,84 t,73 1,60

t20 6,85 4,79 3,95 3,48 3,t7 )§6 2,79 2,66 2,56 2,47 )14 2,19 2,03 t,95 1,86 t,76 1,66 1,53 1,38
6,63 4.61 3.78 11? 3,O2 2,80 2,64 ,51 2,41 ) 1') 2,18 2,04 1,88 |.79 |.70 1.59 t.47 t.32 1.00

Fonte: Com permissão de E. S. Pearson e H. O. Hartley, BiometrikaTables for


Statisticians, Vol. 2 (1972), Tabela 5, pág. 180.
lndice analítico

A Amostras aleatórias, 63,275


Amplitude, 39,47,106, 112, 113
6
Abscissa'
de percentil (10-90), 106, 116
Ajustamento, interquartílica, 106, 11b
da distribuição binomial e normal, 188, 200 ou comprimento da classe, 41
de dados' semi-interquartílica, 106, 115
Poisson,208
pela distribuiçáo de
Análise,
pela distribuição normal, 206
combinatóri a, 160,774
usando o papel de probabilidade. 206
da variância ,515_567
de Stirling para n, L62, 174
modelo matemático para, 51g
de uma curvâ' para experimentos de dois fatores, 525-527
equações de, 329, 330
tabela de,52l
equações especiais empregadas no, 330
das séries temporais (ueja também Séries
método a sentimento do, 332, 361, 371 Temporais),425
método dos mínimos quadrados, 296, e probabilidade, lT4
332 etapas fundamentais na,433
Aleatória fueja também: Probabilidade), 63 Antilogaritmo, (ueja também logaritmos),
Aleatorização completa, 530 10, 28-31
Amostra, 1,62,215 Aplainamento de séries temporais, 428-429
Amostragem, Ar.a,
com reposição,2L5,277,221,222 da distribuiçáo de qui-quadrado, 287 ,616
sem reposição,215,277,22,222 da distribuição t,285,614

629
630 Estatística

subtendida pela curva normal, 787,260, Blocos aleatorizados, 530-531


435 Brutos, dados, 39
Aritmética, média (ueja Média Aritmética) Bureau de Estatística do T?abalho, 475
Arredondamento de dados,3, 12
Assimetria, 47, t39, 148 C
coeficiente, centrado de, 139
de, entre os percentis (10-90), 122,739 Características, 9, 10, 28-31
de Pearson, 139, 148 Cartas (.ueja Gráficos)
quartílico de, 139, 148 de Controle, 257

negativa (para a esquerda), 139 Categorias, 39


para a distribuição, binomial, 185 Centro de gravidade, 335
de Poisson, 188 Centróide,335
normal, 188 Ciclos de negócios, 261,426

positiva (para a direita), 38,47 Classe,

Assimétricas, curvas de freqüência, 45 freqüência, 49


Assintoticamente normal, 2 16 modal,49
Autocorrelaçáo, 368 Classes (ueja também Intervalos de
Classe), 39
Avaliação (.u ej a também Estimativas), 214,
234-257,336 acumuladas, 55

de parâmetros, 314 freqüência de, (ueja também


Freqüência de Classe)
populacional, 192, 274
modais,49
de variações cíclicas, 458,465
relativas, 55
irregulares, 458,465
ClassiÍicação,
por estação, 432, 444, 458
de um critério, ou experimentos de um
e regressão (uejo Regressão) fator,515-516
e teoria amostral, 234-257 de dois critérios, ou experimentos de dois
por intervalo, 236 fatores. 522-523
por ponto, 236 Classificação dicotômica ou dicotomia, 303
Cláusulas de escalonamento, 475
B Coeficiente,
angular de teta,332, 337-338
Base, de conÍiança,235,285
de logaritmos decimais, 9 de contingência,322
de logaritmos naturais, 34 de correlação (ueja também Correlação),
Bastão, gráÍico, 59 359, 365, 377,397
Bernoulli, James, 186 fórmula de covariância para, 365, 379
Índice analítico 631

múltipla, 412,422 auto, 368


ordinal, 367, 386 coeficiente de (ueja Coeficiente de
Correlação)
para dados agrupados, 365, 381, 383
de atributos, 308, 323, 367
para tabelas de contingência, 308, 322
de Sheppard,
retas de regressão e, 38, 367
para momentos, 132, 148
séries temporais e, 368
para variância, 110, 126
teoria amostral e, 368, 390
disparatas ou espúrias, 365
de determinação, 359, 378
linear, 359
de regressão parcial, 301
medidas de, 360
linear, 139, 148,335
percentual de curtose, "1,40,149
múltipla, 400,423
coeficiente de,405,412
quartílico, de dispersão ou variação, 126
não-linear,
de assimetria, 139, 142
correspondência entre variáveis, 330,
de variação, 131
335, 403
Coeficientes,
equações redutíveis à forma linear, 350
binomiais, 186, 191
regressão múltipla, 406
triângulo de Pascal para, 191
ordinal, 367, 386
Combinações, 161, L72-17 3
parcial, 400,423
Comparabilidade de dados, 432,466
coeficiente de,405,417
Conjunto vazio,162
positiva e negativa, 360
Constantes, 2
simples, 359
cruzeiro, 508
tabelas, 365, 381
Contagem ou enumeraçáo,2, 4
tetracórica, 308
Contingência, tabelas (uejo Tabelas de
teoria da, 308
Contingência)
múltipla, 422-423
Controle,
simples. 359-399
de Charlier, 710, 124, 132, 146
Covariância, 365
para média e variância, 710-124
coeÍiciente de correlação em termos de,
para momentos, 138, 148
361
de qualidade, Cartas (uejo Cartas de
Curtose, 140,7 49
Controle)
coeficiente de, 140, 149
grupos de,274,349
da distribuiçáo binomial, 185
Coordenadas retangulares, 6, 17
de Poisson, 18
Correlação, (ueja também Regressão), 359,
423 normal, 186
assimétrica, 47, 139 do coeficiente percentílico, 741, 149
632 Estatística

Curva agrupados, 46
de freqüência multimodal, 47 ajustados por estação, 456
de Gompertz, 331 arredondamento de (ueja
de potência (ueja Ctrvas Características Arredondamento de Dados)
de Operação), 270 brutos, 39
do enésimo grau,762 comparabilidade de, 432-466
exponencial, 331 desestacionalizaç áo, 456
geométrica, 331 dispersão ou variação de, (ueja
normal (ueja tambérn Distribuição também Dispersão e Variação)
Normal), 38 discretos, 58
área limitada pela, 187, 194,221 representação gráfica de, 59, 60
ordenada pela, 196, 610 Decis, 75-76 , 96, 97
papel de, 190 Decisão,
ou reta de tendência,336, 425 estatística,252
simétrica ou em forma de sino, 46 hipóteses (ueja Hipóteses)
Curvas,
inferência, 2,214,234
características de operaç áo, 211, 219, 223
Dedução,
de freqüênci a, 46, 47, 67
das equações normais, 624
assimétrica, 47
pâra a reta de mínimos quadrados, 336,
em forma de J,47 624
em forma de J invertido, 47 Deflação de séries temporais, 486, 506
em forma de U, 47 Demanda elástica, 499
relativa, 45 Desenvolvimento,
tipos de, 46 do polinômio, 190
do 3" grau, 444 ou fórmula binomial, 185-190
finçáo,444 Desestacionalizaçáo de dados, 437, 456
quadráticas, 444
Desigualdade, 8, 28
funçáo,444
Desvio,
médio, 104-105, 113-115
D
da distribuição normal, 187

Dados, para dados agrupados, 104, 110


agrupados, 39 padrão, 104, 106, 109, 110, 130
métodos abreviados par a (uej a corrigido (ueja corueçáo de Sheppard)
Métodos Abreviados) distribuição amostral de, (ueja também
ajustados por estação, 456 Erros Padrões)
contínuos,2, 11 intervalo de confiança para, 216, 221
Índice analítico 633

método abreviado para, 107 relação entre a distribuição normal e,


188, 200
para dados agrupados, 106
relaçâo entre a distribuição de
propriedade do, 109, 710,126,127
Poisson e, 189
propriedade mínima do, 729
testes de hipótese usando, 259,276-278
quartílico (uejo amplitude
contínua de probabilidade, 158
semi-interqualítica)
de Bernoulli (ueja também Distribuição
relação entre a população e a amostra, Binomial), 186
107
de freqüência ou tabela bidimensional,
relação entre o desvio médio e a 365, 368, 381
amplitude semi-interqualítica, 111,
775, L26 percentual ou relativa, 45-51
quarlítico fueja também amPlitude probabilidade, 6t, 157 , 167, 168
semi-interqualítica) regras de formação, 45
Desvios, unimodal, 72
curva de mínimos quadrados, 334 de Gauss (ueja Distribuição Normal)
da média aritmética, 68, 81-83 de probabilidade discreta, 129
média dos (ueja Desvio médio) de Poisson, 788,202
quartis (uejo Amplitude aproximação dos dados, 206
semi-interqualítica) propriedades da, 289
Diagramas, (ueja também Gráficos) relação entre as distribuições binomial
de dispersão, 329, 368-37 4 e normal, 188, 189
tridimensional, 401 de probabilidade,
de Euler, 162,176 acumulada, 158
de Venn fueja diagrama de Euler) contínua, 158
Dispersão (ueja também Variação), 78 discreta,157
absoluta,111,130 de qui-quadrado, 283, 287, 293
coeÍiciente de, 111, 130 tabelas de percentis para, 315
medidas de, 104, 134 testes de hipótese e significância
usando, 311
ou variação relativa, 110, 130
usando intervalos de confiança, 386, 293
Distribuição
invertida, 45
"acima de", 45, 55-56
normal, fueia também Curva Normal),
de probabilidade, 158 110, 11, 188, 189,200,204
ou ogivâ "abaixo de", 45, 55, 60 ajustamento de dados pela,204
percentual, 45, 55, 60 forma reduzida da, 188
binomial propriedades da, 188
ajustamento de dados, 204 relação com a distribuição binomial,
propriedades da, 186 188, 200
Estatística

testes de hipótese e de signiÍicância de regressão,400, 406, 412


usando, 253, 259-267 equivalentes, T ,26
padrão ou teórica, 190 normais, 624
percentual, 43-50 primeiro e segundo membros das, 7
polinomial, 190, 204, 306 quadráticas, 37
ú de Student,283-288 fórmula para solução de, 37
tabela de percentis da, 313 simultâneas , 7 , 26
testes de hipótese e significância solução de, 7
usando, 285-286, 288
transposição de, 26
usada na teoria amostral da
Erro,
correlação e regressão, 311
acumulado de arredondamento, 3, 12
usando intervalos de confiança,
285,287 padrão,

unimodal, 72 da distribuição amostral, 221,227

Distribuições, da estimativa, 363, 407, 472

amostrais, 216,217 modificado, 365

de diferenças e somas, 217 tabela do, para várias estatísticas,


219-220,374
de médias, 216,230
provável, 239, 248
de proporções, 217
Erros,
de variãncias,227
acumulados, 43, 55
de várias estatísticas, 219-220
de agrupamento,42
experimentaT, 222
arredondam ento, 3 , 12
Domínio da variável, 2, 11
provável, 239, 248
tipos I e II,253
E de aproximaçáo,3,72
Escore ou estatística, 285
Eixos,
Escores,
X e Y de um sistema de coordenadas
retangulares,6, 7 reduzidos, 111, 181, 194
Eliminação de incógnitas em equações unidades, 771,194
simultâneas, 27 Espaço amostral, \62, 77 7 -178
Elos relativos, 478, 493 quadridimensional, 404
método dos,432-454 Esperança matemática, 759, 770
Entrada de tabelas, 46 Espúria, correlação, 365
Enumeração,2,4 Estatística, 214, 234
Equações, 7,26-27 amostral, 274,234
de ajustamento de curvas, 330 dedutiva ou descritiva, 2
I n.djre analí.ti.c.o 635

definição de,7,214 distribuição ou tabela, 34, 45-47,55


indutiva, 2 polígono,45
Estimação (ueja também Estimativas), das casas,306, 381
Estimativas de classe, 44
e estimadores, modal, 38
eÍicientes, 235, 239, 240 rclativa,44
ineficazes, 235, 240, 247 curvas, 45
tendenciosos e não-tendenciosos, 234, deÍinição de probabilidade, 126
239,240 distribuiçáo, 45, 55
(ueja também Avaliação), 239, 240
tabela,44
intervalos de conÍiança, 236 Freqüências,
fueja também Intervalos de conÍiança)
marginais, 306, 382
Eventos, 239
observadas, 302
compostos, 155
teóricas ou esperadas, 302
dependentes, 155
Função,5, 15
independentes, 155, 166
caracterÍstica de operação, 269
mutuamente exclusivos, 156, 757
de densidade de probabilidade, 158
probabilidad e de (u ei a Probabilidade)
de distribuição, 157-158
Experimentos,
de freqüência, 158
de um fator, 515-516
de potência, 270
de dois fatores, 522-523
linear, 19
com repetição,527-530
plurívoca,5, 16
notaçáo para,523
probabilidade, 170
variação para,523-524
quadrática,
Expoentes, 4
mínimo da, 104
unívoca, 5
F

Fator de ponderação, 68
Fatorial,160 G
Fidedignidade, 236
Gráficos, 7,17,23
Fórmula, da co-variância para a
correlação, coeficiente, 365, 379, 380 circulares ou em setores, 7, 20
de juros compostos, 75 de linhas, L9,20,29,34
de Spearman para correlação ordinal, 305 em barras, 7 , 20, 23
Freqüência, complement ares, 22
acumulada,44 partes componentes, 18
636 Estatística

em bastão, 59 Indices (ueja Números índices)


em mapas (ueja Gráficos em barras) sobrescritos, 480-48 1

Graus de liberdade, 234, 238 Insucesso, 151, 153-184


Intercessão com X e Y, 27 5, 282
H de conjuntos, 162
Interpolação, 10, 28-31, 57, 57
Hiperbóle, 273 em logaritmos e antilogaútmos, 24-26
Hiperplano,402 Intervalo interquartílico, 106
Hipótese, alternativ a, 252 semi-interquartílico, 106, 107
probabilidade da, usando arregra Intervalo de classe,39, 50
de Bayes, 151
aberto, 40
teste de, (ueja também Testes de
hipóteses e significância), 274, 253 amplitude ou tamanho, 40
Histograma, 42, 44, 46 desigual, 52
de freqüência percentual ou relativa, mediana, 56, 68
42-43 modal, 48
probabilidade, 167 Intervalos de conÍiança,
para desvio padrão, 239, 242-245, 251
I para médias,237,241,
para proporções, 237, 241
Idade cronológ1ca, 722-1,24
para somas e diferenças, 238, 239, 245
mental, 123
Identidade, 7

propriedade de preços relativos, 399 J


Imparcial, estimativa, 234, 240
Juros compostos, T4-75
Independência das classificações da tabela
de contingência,252
Índice,
L
de custo de vida, 397,425,426
de Laspeyres, 476-4t9, 421,483 Leptocúrtico, 140
de Marshall-E dgeworth, 485 Limites,
de notação, 66 de classe, 40
de Paashe, 416,421,483 superior e inferior, 40
de preços (uejo Números índices) verdadeiro, 40
ideal de Fisher, 419-420,427,483 de confiança, 193
transformaçáo 2,365 fiduciais (ueja Limites de confiança)
por estação, 373, 383-384,430 reais de classe, superior e inferior, 34
Índice analítico 637

Linha reta, 20,282,332,338, 341 relação entre população e amostra, 159


coeÍiciente angular da, 332, 338-341 suposta ou considerada,6T, 69
equação da,332 geométrica, 67, 72, 7 3, 7 4,
mínimos quadrados, 332, 334, 353, 356, 361 conveniência para reduzir razões a
termo médio, 74
regressão, 336, 370-37 4
de dados agrupados, 66,74
Logaritmo decimal, 28-31
ponderada, 74
tabela de,439-440
harmônica, 67, 7 4, 7 5'7 6
Logaritmos, 9-10, 28-31
ponderada, 76
base de, 9, 39
método das percentagens, 373, 430
cálculos que empregam, 10, 28-31
móvel, 360,428
características dos, 9-10, 28-31
centrada, 431-435
decimais, 9-10, 28-31
quadrática, 7 4, 76
interpolação de, 28-31
relação com a média geométrica, 76
mantissa de, 9, 28-31
relação entre média geométrica e
neperianos, 39 harmônica, 75
tabela de partes proporcionais, 439-440 Mediana, 67,68,69,7L
tabela dos, decimai s, 439 -440 Médias,
centradas, 43L-437
M método da percentagem, 362
móveis, 392,428,429
Maior do que, 40
ponderadas, 429,440
Mantissa, 9-10, 28-31
Medidas, 2,4
Mapa da aprraçáo,42
da tendência central, 67,704
Média,
Médio,
aritmética, 62, 64, 67, 68
desvio, 104-106
controle de Charlier Para, 101, 110
ponto. 4l
das distribuições de probabilidade, 139
Membros da equação, 7
das médias aritméticas, 64,67
de desigualdade, 8
efeitos dos valores extremos sobre, 62
Menor do que, 8
intervalo de confiança Para, 799, 236,
241.-242 MQ (uejo Média quadrática)
método longo e abreviado Para Mercado de bens de consumo, 44
cáIculo da,67,69 Método,
ponderada, 62-63, 68 abreviado para o coeficiente de correlação,
propriedades da, 62-63, 68-69 321,365
relação entre a mediana e a moda, 72 agregativo,
638 Estatística

simples, 428, 429,481 definição de, 138


ponderado, 429, 430, 482 método abreviado para o cálculo de um,
118,139
a sentimento para ajustamento de curvas,
274,429,439 para dados agrupados, 138, 145
da média simples de relativos, 429 Momentos,
darazão da média móvel, 436, 449 da variância, 136
darazáo da tendência, 430, 445, 449 de uma progressão aritmética, 150

das médias simples de relativo, 475, 429 relação entre, 137


ponderado, 482 Movimentos,
das semimédias, 430, 439 característicos das séries temporais, 425,
433
do ano, base,482
classificação de,425
básico, 482
cíclicos ou variações, 425, 430
típico, 332, 361, 394, 404
seculares, 425
dos mínimos quadrados (ueja também
Ajustamento de Curvas)
Mesocúrtica, 140
N
Mínimos, Nível de significância, 254
parábola dos, 336, 353, 356 descritivo ou experimental, 265
plano dos, 278,335 Níveis de conÍiança, tabela de, 194
quadrados, curva dos, 334 Notação,
reta dos, 309, 310, 332,334,341, 443 científica, 3, 12
Moda, 54, 57 , 67, 72,99-100 para somatório, 60, 61, 66
dedução da fórmula para, 99 Números,
para dados agrupados, 58, 99 aleatórios, 215, 232
relação entre média aritmética e tabela de,442
mediana, 58, 80 uso de, para a seleção de amostras
Modificações para números desiguais de aleatórias,232
observações, 521-522 amostrais, 231
Momento, 136, 150 complexos, 37
abstrato,138 índices, 430
central de assimetria, (ueja também aplicações de, 397
Assimetria), 139, 148
cíclicos, 410
de curtose (ueja também curtose),
722,140 deÍinição de, 397
de preço, 397, 480, 492
controle de Charlier para o cálculo de um,
138,146 de quantidade ou volume,426,430
correção de Sheppard para, 138-148 por estação, 394,395, 425
Índice analítico 639

problemas de cálculo, 480 Percentis, 60,76-78


relativos, 399,426 da distribuiçáo, 235, 437
testes teóricos para, 480 da distribuição de qui-quadrado,
valor, 430
236,438
para dados agrupados, 60,77,78
ou algarismos signiÍicativos, 4, 12-13
Percepção extra-sensorial, 2 18

Período,
básico dos números índices, 397
o mudança de,486,489
Permutações, 160, 182
Ogiva, 43,45,46
PES (ueja Percepção extra-sensorial)
"abaixo de",45
Planej amento experimental, 530-53 1
"acima de", 45, 46, 47
Plano,
decis, percentis e quartis obtidos da, 98
de mínimos quadrados, 279,302
mediana deduzida da, 68-69
XeY,5
percentual, 45
Platicúrtica, 140
regularizada, 45, 67-63
Poder aquisiLivo, 426, 486
Ordenadas, 6
Polígonos de freqüênci a, 45-47
da curva normal, 196
percentual ou relativa, 45
Origem,6
regularizada, 46, 49, 50
nas séries temporais, 349
Polinômios,273
num sistema de coordenadas
retangulares, 6 Ponderada,
média aritmética, 62-63, 67
geoméfuica,7 4
P harmônica, 75
móvel, 429,438
Papel,
Ponderado, método,
de gráficos, log-1og, 331, 350
agregativo, 476, 417, 430-437, 482
de probabilidade, 190, 205
das médias de relativos, 430, 484
semi-log, 331
População, 1,214
ParáboIa,20,272
finita ou inftnita, 7, 214
de mínimos quadrados, 275,353-355
parâmetros (ue7'a Parâmetros)
Partes proporcionais para logaritmos,
tabela de,439,440 Potência de um teste, 211

Pequenas amostras, teoria, 221, 233-248 Preços relativos, 398, 471, 487

Percentil, amplitude (10-90), 85-86, 93, notação para, 398


106-107 propriedade dos, 399
640 Estatística

Previsão, 278,389,433 a
probabilidade, 68, 153, t2G,74B
euadrados,
análise combinatória e' 132' 143
greco-latinos, 581
axiomática, 154
latinos, 581
cíclica ou circular de preços relativos, 399 euadrantes, 6
155
condicional, euadrática, média, TB, Z6
curvas,63 Quadrático, desvio, 67
definição, clássica de,153 Quartis, 73-75
de freqüência relativa, 154 erros-padrões para, 219-220

empírica, 154 para dados agrupados, 75, 96,98

função, 158 Quintis' 98

papel de curva norma l, lgo, 207 Quociente de inteligência (QI)' 122-724

regras fundamentais de, 135-138


relação com a teoria do conjunto de R
pontos,133
Proporções, 276 Razão da tendência, método, 362,374,377

distribuição de amostragem das, 217 Regiáo,

intervalodeconÍiança para,238,243 crítica'208


valores' 193' 235'229
teste de hipótese para, 271,225-227,257,
273-276 de aceitação,209,21.4
Propriedade, Regra ou teorema de Bayes, 151

aditiva de qui-quadrado, 308 Regras,


u" (ueja também Preços relativos)'
correção de Iates para, 263, 306
;:'rtJ'"
definição de, 308 usando logaritmos, 9-70,24-26,28-8l
distribuição (ueio Distribuição de de decisão (ueja também Decisão
qui-quadrado) estatística),207
testes,305 Regressão,278,298
circular ou cíclica dos preços relativos, 399 amostragem, 307, 308
ou teste de reversibilidade dos fatores, curva de, 278
4oo' 430 equações, 400,406,472
Prova, múltipla, 279,298
da reversibilidade do tempo, 399 plano de, 279,400
de aderência (ueja também Ajustamento reta de (ueja também reta de mínimos
de dados), 157 quadrados), 282,284,371,373
Índice analítico 641

simples, 298 Simultânea, equaçáo, 7, 22

superfície de,278 Sistema,


Relação empírica entre média, mediana e de coordenadas retangulares (ueja
moda,72,73 Coordenadas retangulares)
entre medidas de dispersão, 88, 126 tridimensional,2T9
Relação linear entre variáveis, 272, 278, Sobrescritos, índices, 480, 482
363 Solução, de equações, 7
Relativos em cadeia, (ueja também Sucesso, 752,153
Números-elo)
Sub-índice, 66, 335, 341
preços (ueja também Preços relativos)
Superfície de regressão, 279
Rendas ou salários reais, 407, 424
Residual, 275
Risco, 225
Rol, 39, 47-49 T

S
Tabelas,
de contingência, 261, 265, 304, 306
Semi-interquartÍlico, intervalo, 84 para coeficientes de correlação, 265,
Semi-log, papel de grâfico,274 306

Séries, da fórmula de 12, 306

de índice (ueja também Números índices), de correlação, 365, 381


237, 4L0 de freqüênci a (uej a Distribuição de
índices de (ueja também índices de séries) freqüência)

temporais, 20,358,392 acumulada, 45,55,56


relativa, 45
análise das, 358, 392
Tabulaçâo tueja Mapade apuraçâo )
ajustamento de curvas às,277 ,287,290
Tendência,
correlação das, 305, 327,322
estimação da, 370
deflação das, 431, 486
secular ou variaçào, 358
gráfico das, 18,358
Teorema do limite central,2lT
movimentos característicos das, 358,
359, 365 Teoria,

regularização das, 360 amostral da correlação, 307, 326


Significância, nível de, 254, 264 da decisão, 214, 252-282

testes de (ue7'o Testes de hipóteses e


da regressão, 308
significâncias) das amostras, 274, 232, 283-307
Símbolos de desigualdade, 8 correlação das, 306, 326
Simples, correlação, 359-399 grandes, 221
642 Estatística

pequenasouexatas,227,283-307 TYansposição,
estimaçã,o,2\2
uso na nas equações, 26
e
uso nos testes de hipótese nas desigualdades, 28
significância'253'287 Tliângulo de pascar, 191
Teóricas, freqüências, 302
Teste,
das séries para aleatoriedade, 572-573 U
aplicações adicionais do, 57 4
do sinal,568-569 União de conjuntos, 162
F para a hipótese nula de médias iguais, IJniverso, (ueja também Populaçáo), 1
520 lJnívoca, função, 5, 1G
H corrigido para empates, 572
H de Kruskal-Wallis, 571-572
U de Mann-Whitney, 569-571 V
Testes,
bilaterais ou dos dois lados, 255 Valor absoluto, 104
de hipótese e signiÍicância,285,286, Valores
292,325 de números índices, 407, 427
para diferenças de médias e proporções, relativos,39g,472
256-257 vantagem, 154
para médias , 254, 273, 27 6
Variação, (ueja também Dispersão), 68
para proporçóes,257,273' 276
aleatória, 427, 433
que envolvem a distribuiçáo binomial,
cíclica, 384, 389, 427, 431
25g, ZB2
coeficiente de' 90' 106
a distribuição normal, 254,218-2tg,
254,259-267 coeficiente quartílico de, 106
que se referem à correlaçáo e dentro dos tratamentos, 517
regressão, 305-308 entre os tratamentos, 517
do
que usam a distribuição explicada e não-explicada, 801, B1B,
qui-quadrado,251 A25_826
a distribuição t,2B5,2BB, Z4l por estações, 427
254
estatÍsticos, secular, B5g
não paramétricos,574 total,301-802,8r4,825,846
unilaterais ou de um lado só, 255 total, 516_517
Tetracórica, correlaçáo,2í4 variações ou movimentos aleatórios ou
Tipo I e Tipo II, erros,267,268-271 irregulares, 425,458,460
curvascaracterísticasdeoperaçáo,257 Variações,
Totais móveis, 360 distribuição das, 520
Índ.ice analítico 643

métodos abreviados para obtenção das, Variáveis,


51"7-518 relações entre, 27 2, 400 (ueja também
valores esperados das, 519 Ajustamento de Curvas, Correlação e
Regressão)
Variância fueja também Desvio padráo),
85, 93-94 Volume,
amostra modificada da, 234, 240 números índices, 405, 430
conjunta bu combinada, 88, 103 relativo, 400,411
controle de Charlier para, 88, 101
correção de Sheppard para, 88, 102 x
da distribuição amostral das médias, 189
X, coeÍiciente linear, 27 5, 279, 282
da distribuição de probabilidade, 168
X e Y, eixo de coordenadas retangulares, 5
relação entre população e amostra, 167
XY, plano, S
Variável, 1,34,75-17
aleatória, 427,432
Y
contínua, 158, 168
discreta, 157, 168 Y, coeficiente linear, 275,279,282

casual fueja também Variável aleatória) Y, eixo dos, 5

dependente, 5,76-17 Yates, correção para continuidade, 306,


308,331-313
substituição de, na equação de
regressão, 339 nas tabelas de contingências, 263,
265-266,306
discreta,2, 11

domínio da,2,'J-l
Z
estocástica (uej a Yaríâvel aleatória)
independente, 5, 17 Zero,
normalmente distribuída, 154 coeficiente de correlação de ordem, 337, 339
reduzida, 111, 131, 132 exclusão da divisão por, 7
Irnpressào e Acabamento
Oesp Gráfica S.A ( Corr Filmes Fomecidos Pelo Editor )
Dept' Cornercial Alanreda Aragtraia, I 90 I - Barueri - Tarnboré
Tel. :1 195- I 805 Fax .1 195 - l-184
lr ![
r! E
II tÕ
õc
o
o
! --*rr
o LO
-X- oo
i

rE ü!.r
-t
i.-l rl
L loLl
o
L,-l
^.9
ux
!o
o UX\
'ouo
9^T
O-.Yoo
:.Y9ro
oO.iiu
ci
!' -r !l
lri
FYO=C
vY ã.;udi-É
4õ:
:N€o á4

t- q .! r
f
l Itr[]Iu
!'oO--N
dJ
qi
'z
ft-i
q
!l
! i--
E -itl E
o
OO
õ.9
';c,^ o
C,?;J
" ,;-

It
ltIE
rl -l
I

E
i
f,v,ô
* Y*
\.=cE^.9
õ 6
oaf

.o
a
o-
ur,..=
=:: r

ür
-.1 ! LtI! _l o
lo E n -Y O u =
ã=ooX
iúi
ü>
d.\ti.


9Ll !!! io 5:,5eÕ
>U
.-66
ü
^o
,- ! _l OU oN---
- PO
ft
I ! It- t--l
; lrf-flI_ l -õE
o<

llJ ar
E ! -lç+
rl..otI--l
o

É. l z -C

q tl lol
o
Z- E:: 'g^Ê
o

t_
_]
-i
I
Il
o
C
o
o
9OOH
EUYL
+.Txl -9rc
!!rl o
q q-l 9q*Jrõo:Ê;
.Ef*óà2.rpÊ9EE
i \ óõ õ = q p b E; C
l l r F-l t-'

iJúJ,:õ â8É,9r"1
I
EI
cl
+.. 1
N2
:.o§@NÕN
N.o--FNN.t€o--
-l u L-- + E!-
l
, lLl l

u. ,
E
o --l ..u o <o

c..-l oEl
E
ET-
o- c:-
o
o
o
d o_
o E;--
-o
(,!
o
El- l
c
o!tl
c
F-l o
c :U c
'Y.9o.9 ..
+ O

a
d 3. =
É. o+ 6
-[
'-*g "'B
o o
{, t-
(r, 'E
El
Ei
dL l t
ol l
o
.9
--
:;: n: Br - E t a ü
C
ô
(,
oL
f
q, o! + l- 0,
a,
.o
Ê: = ifl õ E E :€ ; ü P E É :
o.+ ='E E
o
ô oi .l
c
g!
arl o
of-- arl
E
.-l af
o
ô
o
§E iI €LI
.. tr
t o,k
õY à o iÉ.q.?3::,g§ÊEs"3Í:
of
:-
(roN-ô

:r
l
l o+ c É- 6 ô N E- o n N 6
- - - -
E .fEL ] u._-
o
z zll E r§LlE-l -L G
l
-l
DOBRE AOUI E COLE

tsR-40 -124818s
UP - AC - ITAIM BIBI
DR/Sáo Pauto
rsBN 85:qE!tr4! ê

88534

Você também pode gostar