Introdução à Estatística Básica
Introdução à Estatística Básica
1. INTRODUÇÃO
ESTATÍSTICA: ramo da matemática aplicada.
ANTIGUIDADE: os povos já registravam o número de habitantes, nascimentos, óbitos.
Faziam "estatísticas".
IDADE MÉDIA: as informações eram tabuladas com finalidades tributárias e bélicas.
SEC. XVI: surgem as primeiras análises sistemáticas, as primeiras tabelas e os números
relativos.
SEC. XVIII: a estatística com feição científica é batizada por GODOFREDO ACHENWALL. As
tabelas ficam mais completas, surgem as primeiras representações gráficas e os
cálculos de probabilidades. A estatística deixa de ser uma simples tabulação de
dados numéricos para se tornar "O estudo de como se chegar a conclusão
sobre uma população, partindo da observação de partes dessa população
(amostra)".
MÉTODO ESTATÍSTICO
MÉTODO: é um meio mais eficaz para atingir determinada meta.
A ESTATÍSTICA
Î É uma parte da matemática aplicada que fornece métodos para coleta, organização,
descrição, análise e interpretação de dados e para a utilização dos mesmos na
tomada de decisões.
Dados primários: quando são publicados pela própria pessoa ou organização que os
haja recolhido. Ex: tabelas do censo demográfico do IBGE.
Dados secundários: quando são publicados por outra organização. Ex: quando
determinado jornal publica estatísticas referentes ao censo
demográfico extraídas do IBGE.
Coleta Direta: quando é obtida diretamente da fonte. Ex: Empresa que realiza uma
pesquisa para saber a preferência dos consumidores pela sua marca.
Fenômenos de massa ou coletivo: são aqueles que não podem ser definidos por
uma simples observação. A estatística dedica-se
ao estudo desses fenômenos. Ex: A natalidade
na Grande Vitória, O preço médio da cerveja no
Espírito Santo, etc.
PARÂMETROS: São valores singulares que existem na população e que servem para
caracterizá-la. Para definirmos um parâmetro devemos examinar toda a
população. Ex: Os alunos do 2º ano da FACEV têm em média 1,70 metros
de estatura.
VARIÁVEL QUALITATIVA: Quando seu valores são expressos por atributos: sexo, cor
da pele,etc.
Exemplos -
. Cor dos olhos das alunas: qualitativa
. Índice de liquidez nas indústrias capixabas: quantitativa contínua
. Produção de café no Brasil: quantitativa contínua
. Número de defeitos em aparelhos de TV: quantitativa discreta
. Comprimento dos pregos produzidos por uma empresa: quantitativa contínua
. O ponto obtido em cada jogada de um dado: quantitativa discreta
AMOSTRAGEM
MÉTODOS PROBABILÍSTICOS
Î Exige que cada elemento da população possua determinada probabilidade de ser
selecionado. Normalmente possuem a mesma probabilidade. Assim, se N for o
tamanho da população, a probabilidade de cada elemento ser selecionado será 1/N.
Trata-se do método que garante cientificamente a aplicação das técnicas estatísticas de
inferências. Somente com base em amostragens probabilísticas é que se podem
realizar inferências ou induções sobre a população a partir do conhecimento da amostra.
.
AMOSTRAGEM CASUAL ou ALEATÓRIA SIMPLES
Î É o processo mais elementar e freqüentemente utilizado. É equivalente a um sorteio
lotérico. Pode ser realizada numerando-se a população de 1 a n e sorteando-se, a
seguir, por meio de um dispositivo aleatório qualquer, x números dessa seqüência, os
quais corresponderão aos elementos pertencentes à amostra.
Ex: Vamos obter uma amostra, de 10%, representativa para a pesquisa da estatura
de 90 alunos de uma escola:
1º - numeramos os alunos de 1 a 90.
2º - escrevemos os números dos alunos, de 1 a 90, em pedaços iguais de papel,
colocamos na urna e após mistura retiramos, um a um, nove números que formarão a
amostra.
OBS: quando o número de elementos da amostra é muito grande, esse tipo de sorteio
torna-se muito trabalhoso. Neste caso utiliza-se uma Tabela de números aleatórios,
construída de modo que os algarismos de 0 a 9 são distribuídos ao acaso nas linhas e
colunas.
.
.AMOSTRAGEM PROPORCIONAL ESTRATIFICADA:
Î Quando a população se divide em estratos (sub-populações), convém que o sorteio dos
elementos da amostra leve em consideração tais estratos, daí obtemos os elementos da
amostra proporcional ao número de elementos desses estratos.
4
Estatística Básica
Ex: Vamos obter uma amostra proporcional estratificada, de 10%, do exemplo anterior,
supondo, que, dos 90 alunos, 54 sejam meninos e 36 sejam meninas. São portanto dois
estratos (sexo masculino e sexo feminino). Logo, temos:
POPULACÃ AMOSTR
SEXO 10 %
O A
MASC. 54 5,4 5
FEMIN. 36 3,6 4
Total 90 9,0 9
AMOSTRAGEM SISTEMÁTICA:
Î Quando os elementos da população já se acham ordenados, não há necessidade de
construir o sistema de referência. São exemplos os prontuários médicos de um hospital,
os prédios de uma rua, etc. Nestes casos, a seleção dos elementos que constituirão a
amostra pode ser feita por um sistema imposto pelo pesquisador.
Ex: Suponhamos uma rua com 900 casas, das quais desejamos obter uma amostra
formada por 50 casas para uma pesquisa de opinião. Podemos, neste caso, usar o
seguinte procedimento: como 900/50 = 18, escolhemos por sorteio casual um número
de 01 a 18, o qual indicaria o primeiro elemento sorteado para a amostra; os demais
elementos seriam periodicamente considerados de 18 em 18. Assim, suponhamos que o
número sorteado fosse 4 a amostra seria: 4ª casa, 22ª casa, 40ª casa, 58ª casa, 76ª
casa, etc.
AMOSTRAGEM ACIDENTAL
Î Trata-se de uma amostra formada por aqueles elementos que vão aparecendo, que
são possíveis de se obter até completar o número de elementos da amostra.
Geralmente utilizada em pesquisas de opinião, em que os entrevistados são
acidentalmente escolhidos.
Ex: Pesquisas de opinião em praças públicas, ruas de grandes cidades;
5
Estatística Básica
AMOSTRAGEM INTENCIONAL
Î De acordo com determinado critério, é escolhido intencionalmente um grupo de
elementos que irão compor a amostra. O investigador se dirige intencionalmente a
grupos de elementos dos quais deseja saber a opinião.
• De acordo com a Resolução 886 do IBGE, nas casas ou células da tabela devemos
colocar :
um traço horizontal ( - ) quando o valor é zero;
três pontos ( ... ) quando não temos os dados;
zero ( 0 ) quando o valor é muito pequeno para ser expresso pela
unidade utilizada;
um ponto de interrogação ( ? ) quando temos dúvida quanto à exatidão de
determinado valor.
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto..
6
Estatística Básica
SÉRIES HOMÓGRADAS: são aquelas em que a variável descrita apresenta variação
discreta ou descontínua. Podem ser do tipo temporal,
geográfica ou específica.
a) Série Temporal: Identifica-se pelo caráter variável do fator cronológico. O local
e a espécie (fenômeno) são elementos fixos. Esta série também é
chamada de histórica ou evolutiva.
ABC VEÍCULOS LTDA.
Vendas no 1º bimestre de 1996
Î São representações visuais dos dados estatísticos que devem corresponder, mas nunca
substituir as tabelas estatísticas.
• Uso indevido de Gráficos: Podem trazer uma idéia falsa dos dados que estão sendo
analisados, chegando mesmo a confundir o leitor. Trata-se, na realidade, de um
problema de construção de escalas.
.
Classificação dos gráficos: Diagramas, Estereogramas, Pictogramas e Cartogramas.
.
1 - DIAGRAMAS:
Î São gráficos geométricos dispostos em duas dimensões. São os mais usados na
representação de séries estatísticas. Eles podem ser :
• Obs: As séries temporais geralmente não são representadas por este tipo de gráfico.
.
2 - ESTEREOGRAMAS:
Î São gráficos geométricos dispostos em três dimensões, pois representam volume. São
usados nas representações gráficas das tabelas de dupla entrada. Em alguns casos este
tipo de gráfico fica difícil de ser interpretado dada a pequena precisão que oferecem.
.
3 - PICTOGRAMAS:
Î São construídos a partir de figuras representativas da intensidade do fenômeno. Este
tipo de gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é
atraente e sugestiva. Os símbolos devem ser auto-explicativos. A desvantagem dos
pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes
minuciosos. Veja o exemplo abaixo:
4- CARTOGRAMAS:
Î São ilustrações relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de
figurar os dados estatísticos diretamente relacionados com áreas geográficas ou
políticas.
DISTRIBUIÇÃO DE FREQÜÊNCIA
Î É um tipo de tabela que condensa uma coleção de dados conforme as freqüências
(repetições de seus valores).
Tabela primitiva ou dados brutos: É uma tabela ou relação de elementos que não
foram numericamente organizados. É difícil
formarmos uma idéia exata do comportamento do
grupo como um todo, a partir de dados não ordenados.
Ex : 45, 41, 42, 41, 42 43, 44, 41 ,50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51
9
Estatística Básica
ROL: É a tabela obtida após a ordenação dos dados (crescente ou decrescente).
Ex : 41, 41, 41, 42, 42 43, 44, 45 ,46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60
Dados Freqüência
41 3
42 2
43 1
44 1
45 1
46 2
50 2
51 1
52 1
54 1
57 1
58 2
60 2
Total 20
LIMITES DE CLASSE: são os extremos de cada classe. O menor número é o limite inferior
de classe ( li ) e o maior número, limite superior de classe ( Li ). Ex:
em 49 |------- 53,... l3 = 49 e L3 = 53. O símbolo |------- representa
um intervalo fechado à esquerda e aberto à direita. O dado 53 do
ROL não pertence a classe 3 e sim a classe 4 representada por 53 |-
------ 57.
10
Estatística Básica
AMPLITUDE DO INTERVALO DE CLASSE: é obtida através da diferença entre o limite
superior e inferior da classe e é simbolizada por
hi = Li - li. Ex: na tabela anterior hi = 53 - 49 =
4. Obs: Na distribuição de freqüência c/ classe
o hi será igual em todas as classes.
PONTO MÉDIO DE CLASSE: é o ponto que divide o intervalo de classe em duas partes
iguais. .......Ex: em 49 |------- 53 o ponto médio x3 = (53+49)/2
= 51, ou seja x3=( l3 + L3 )/2.
I
n
nº de classes
3 |-----| 5 3
6 |-----| 11 4
12 |-----| 22 5
23 |-----| 46 6
47 |-----| 90 7
91 |-----| 181 8
182 |-----| 362 9
Obs: Qualquer regra para determinação do nº de classes da tabela não nos levam a
uma decisão final; esta vai depender, na realidade de um julgamento pessoal, que
deve estar ligado à natureza dos dados.
Freqüências relativas: são os valores das razões entre as freqüência absolutas de cada
classe e a freqüência total da distribuição. A soma das freqüências
relativas é igual a 1 (100 %).
.
Polígono de freqüência: é um gráfico em linha, sendo as freqüências marcadas sobre
perpendiculares ao eixo horizontal, levantadas pelos pontos médios
dos intervalos de classe. Para realmente obtermos um polígono
(linha fechada), devemos completar a figura, ligando os extremos
da linha obtida aos pontos médios da classe anterior à primeira e
da posterior à última, da distribuição.
12
Estatística Básica
Freqüência relativa acumulada de um classe: é a freqüência acumulada da classe,
dividida pela freqüência total da
distribuição.
3. MEDIDAS DE POSIÇÃO
Introdução
Î São as estatísticas que representam uma série de dados orientando-nos quanto à
posição da distribuição em relação ao eixo horizontal do gráfico da curva de freqüência.
MÉDIA ARITMÉTICA =
Î É igual ao quociente entre a soma dos valores do conjunto e o número total dos valores.
......
13
Estatística Básica
Dados não-agrupados: Quando desejamos conhecer a média dos dados não-agrupados em
tabelas de freqüências, determinamos a média aritmética simples.
Ex: Sabendo-se que a venda diária de arroz tipo A, durante uma semana, foi de 10,
14, 13, 15, 16, 18 e 12 kilos, temos, para venda média diária na semana de:
.= (10+14+13+15+16+18+12) / 7 = 14 kilos
. di = Xi -
Y = 12+16+15+17+18+20+14 / 7 = 16 kilos ou
Y= .+ 2 = 14 +2 = 16 kilos
Y = 30+42+39+45+48+54+36 / 7 = 42 kilos ou
Y= x 3 = 14 x 3 = 42 kilos
14
Estatística Básica
.Dados agrupados:
Nº de meninos freqüência = fi
0 2
1 6
2 10
3 12
4 4
total 34
..
ou ..
Ex - Calcular a média geométrica dos valores da tabela abaixo:
...xi... ...fi...
1 2
3 4
9 2
27 1
Total 9
= (12 * 34 * 92 * 271) (1/9)........R: 3,8296
.
MÉDIA HARMÔNICA - h
.. ou
.
Média Harmônica Ponderada : (para dados agrupados em tabelas de freqüências)
..
16
Estatística Básica
Ex.: Calcular a média harmônica dos valores da tabela abaixo:
OBS: A média harmônica não aceita valores iguais a zero como dados de uma
série.
• A igualdade g= h.= ....só ocorrerá quando todos os valores da série forem iguais.
g = ( .+ h ) /.2
.
MODA - Mo
• Desse modo, o salário modal dos empregados de uma fábrica é o salário mais comum,
isto é, o salário recebido pelo maior número de empregados dessa fábrica.
.
A Moda quando os dados não estão agrupados Î
• A moda é facilmente reconhecida: basta, de acordo com definição, procurar o valor que
mais se repete.
17
Estatística Básica
• Há séries nas quais não exista valor modal, isto é, nas quais nenhum valor apareça mais
vezes que outros.
• .Em outros casos, pode haver dois ou mais valores de concentração. Dizemos,
então, que a série tem dois ou mais valores modais.
Temperaturas Freqüência
0º C 3
1º C 9
2º C 12
3º C 6
Mo = ( l* + L* ) / 2
18
Estatística Básica
.
Método mais elaborado pela fórmula de CZUBER: Mo = l* + (d1/(d1+d2)) x h*
Obs: A moda é utilizada quando desejamos obter uma medida rápida e aproximada de
posição ou quando a medida de posição deva ser o valor mais típico da
distribuição. Já a média aritmética é a medida de posição que possui a maior
estabilidade.
MEDIANA - Md
O valor que divide a série acima em duas partes iguais é igual a 9, logo a Md = 9.
.
Método prático para o cálculo da Mediana:
Î Se a série dada tiver número ímpar de termos: O valor mediano será o termo de
ordem dado pela fórmula :
.( n + 1 ) / 2
1º - ordenar a série { 0, 0, 1, 1, 2, 2, 3, 4, 5 }
n = 9 logo (n + 1)/2 é dado por (9+1) / 2 = 5, ou seja, o 5º elemento da série ordenada
será a mediana
A mediana será o 5º elemento = 2
.
Se a série dada tiver número par de termos: O valor mediano será o termo de ordem
dado pela fórmula :....
Obs: n/2 e (n/2 + 1) serão termos de ordem e devem ser substituídos pelo valor
correspondente.
19
Estatística Básica
Ex: Calcule a mediana da série { 1, 3, 0, 0, 2, 4, 1, 3, 5, 6 }
1º - ordenar a série { 0, 0, 1, 1, 2, 3, 3, 4, 5, 6 }
n = 10 logo a fórmula ficará: [( 10/2 ) + (10/2 + 1)] / 2
[( 5 + 6)] / 2 será na realidade (5º termo+ 6º termo) / 2
5º termo = 2
6º termo = 3
A mediana será = (2+3) / 2 ou seja, Md = 2,5 . A mediana no exemplo será a média
aritmética do 5º e 6º termos da série.
Notas:
• Quando o número de elementos da série estatística for ímpar, haverá coincidência da
mediana com um dos elementos da série.
• Quando o número de elementos da série estatística for par, nunca haverá coincidência
da mediana com um dos elementos da série. A mediana será sempre a média
aritmética dos 2 elementos centrais da série.
• Em uma série a mediana, a média e a moda não têm, necessariamente, o mesmo
valor.
• A mediana, depende da posição e não dos valores dos elementos na série
ordenada. Essa é uma da diferenças marcantes entre mediana e média ( que se deixa
influenciar, e muito, pelos valores extremos). Vejamos:
Em { 5, 7, 10, 13, 15 } a média = 10 e a mediana = 10
Em { 5, 7, 10, 13, 65 } a média = 20 e a mediana = 10
• isto é, a média do segundo conjunto de valores é maior do que a do primeiro, por
influência dos valores extremos, ao passo que a mediana permanece a mesma.
A mediana em dados agrupados Î
a) Sem intervalos de classe: Neste caso, é o bastante identificar a freqüência acumulada
imediatamente superior à metade da soma das freqüências. A
mediana será aquele valor da variável que corresponde a tal
freqüência acumulada.
Ex.: conforme tabela abaixo:
• Quando o somatório das freqüências for ímpar o valor mediano será o termo de ordem
dado pela fórmula :
• Como o somatório das freqüências = 35 a fórmula ficará: ( 35+1 ) / 2 = 18º termo = 3..
20
Estatística Básica
• Quando o somatório das freqüências for par o valor mediano será o termo de ordem
dado pela fórmula:
2º) Calculamos ;
Ex:
classes freqüência = fi Freqüência acumulada
50 |------------ 54 4 4
54 |------------ 58 9 13
58 |------------ 62 11 24
62 |------------ 66 8 32
66 |------------ 70 5 37
70 |------------ 74 3 40
total 40
21
Estatística Básica
l* = 58........... FAA = 13........... f* = 11........... h* = 4
Emprego da Mediana
• Quando desejamos obter o ponto que divide a distribuição em duas partes iguais.
• Quando há valores extremos que afetam de maneira acentuada a média aritmética.
• Quando a variável em estudo é salário.
SEPARATRIZES
22
Estatística Básica
Ex 2: Calcule os quartis da série: { 1, 1, 2, 3, 5, 5, 6, 7, 9, 9, 10, 13 }
Assim, temos:
- O quartil 2 = Md , logo:
- O quartil 1 : E fi / 4 = 10
Q3 = 62 + [ (30 -24) x 4] / 8 = 62 + 3 = 65 = Q3
DECIS - D
Î A definição dos decis obedece ao mesmo princípio dos quartis, com a modificação da
porcentagem de valores que ficam aquém e além do decil que se pretende calcular. A
fórmula básica será : k .E fi / 10 onde k é o número de ordem do decil a ser calculado.
Indicamos os decis : D1, D2, ... , D9. Deste modo precisamos de 9 decis para
dividirmos uma série em 10 partes iguais.
• De especial interesse é o quinto decil, que divide o conjunto em duas partes iguais.
Assim sendo,o QUINTO DECIL É IGUAL AO SEGUNDO QUARTIL, que por sua vez É
IGUAL À MEDIANA.
k= 3 onde 3 .E fi / 10 = 3 x 40 / 10 = 12.
PERCENTIL ou CENTIL
• A média - ainda que considerada como um número que tem a faculdade de representar
uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou
heterogeneidade que existe entre os valores que compõem o conjunto.
24
Estatística Básica
25
Estatística Básica
4. MEDIDAS DE DISPERSÃO ABSOLUTA
AMPLITUDE TOTAL: É a única medida de dispersão que não tem na média o ponto
de referência.
• Quando os dados não estão agrupados a amplitude total é a diferença entrE o maior e o
menor valor observado:
AT = X máximo - X mínimo.
AT = 4 - 0 = 4
AT = 10 - 4 = 6
1- O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e
de interpretar. Além do mais, não é afetado pelos valores extremos, grandes ou
pequenos, sendo recomendado, por conseguinte, quando entre os dados figurem
valores extremos que não se consideram representativos.
26
Estatística Básica
2- O desvio quartil deverá ser usado preferencialmente quando a medida de tendência
central for a mediana.
3- Trata-se de uma medida insensível ã distribuição dos itens menores que Q1, entre Q1 e
Q3 e maiores que Q3.
Para dados brutos: É a média aritmética dos valores absolutos dos desvios tomados
em relação a uma das seguintes medidas de tendência central:
média ou mediana.
• para a Média = Dm = E | Xi - | /n
• para a Mediana = Dm = E | Xi - Md | / n
• As barras verticais indicam que são tomados os valores absolutos, prescindindo do sinal
dos desvios.
Xi Xi - | Xi - | Xi - Md | Xi - Md |
-4 (- 4) - (-0,2) = -3,8 3,8 (- 4) - (-2) = - 2 2
-3 (- 3) - (-0,2) = -2,8 2,8 (- 3) - (-2) = - 1 1
-2 (- 2) - (-0,2) = -1,8 1,8 (- 2) - (-2) = 0 0
3 3 - (-0,2) = 3,2 3,2 3 - (-2) = 5 5
5 5 - (-0,2) = 5,2 5,2 5 - (-2) = 7 7
E= 16,8 E= 15
27
Estatística Básica
DESVIO PADRÃO - S
Xi
-4 - 0,2 - 3,8 14,44
-3 - 0,2 - 2,8 7,84
-2 - 0,2 - 1,8 3,24
3 - 0,2 3,2 10,24
5 - 0,2 5,2 27,04
E= 62,8
Obs: Quando nosso interesse não se restringe à descrição dos dados mas, partindo da
amostra, visamos tirar inferências válidas para a respectiva população, convém efetuar
uma modificação, que consiste em usar o divisor n - 1 em lugar de n. A fórmula ficará
então:
2ª = Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante
(diferente de zero), o desvio padrão fica multiplicado ( ou dividido) por essa constante.
28
Estatística Básica
• Quando os dados estão agrupados (temos a presença de freqüências) a fórmula do
desvio padrão ficará :
Xi f i Xi . f i .fi
0 2 0 2,1 -2,1 4,41 8,82
1 6 6 2,1 -1,1 1,21 7,26
2 12 24 2,1 -0,1 0,01 0,12
3 7 21 2,1 0,9 0,81 5,67
4 3 12 2,1 1,9 3,61 10,83
Total 30 63 E= 32,70
Obs: Nas tabelas de freqüências com intervalos de classe a fórmula a ser utilizada é
a mesma do exemplo anterior.
VARIÂNCIA - S2
Î É o desvio padrão elevado ao quadrado. A variância é uma medida que tem pouca
utilidade como estatística descritiva, porém é extremamente importante na inferência
estatística e em combinações de amostras.
Î Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados
limita o seu emprego quando desejamos comparar duas ou mais séries de valores,
relativamente à sua dispersão ou variabilidade, quando expressas em unidades
diferentes.
29
Estatística Básica
Î Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou
variabilidade dos dados em termos relativos a seu valor médio, medida essa
denominada de CVP: Coeficiente de Variação de Pearson (É A RAZÃO ENTRE O
DESVIO PADRÃO E A MÉDIA REFERENTES A DADOS DE UMA MESMA SÉRIE).
CVP = (S / ) x 100
Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que
os pesos.
CVT = ( S / Md ) x 100 %
30
Estatística Básica
5. MEDIDAS DE ASSIMETRIA
Introdução:
Escalas de assimetria:
MEDIDAS DE CURTOSE
Introdução:
Î Quando a distribuição apresenta uma curva de freqüência mais fechada que a normal
(ou mais aguda ou afilada em sua parte superior), ela recebe o nome de leptocúrtica.
Î Quando a distribuição apresenta uma curva de freqüência mais aberta que a normal
(ou mais achatada em sua parte superior), ela recebe o nome de platicúrtica.
31
Estatística Básica
Î A curva normal, que é a nossa base referencial, recebe o nome de mesocúrtica.
Coeficiente de curtose
C2 = 3 Î curva mesocúrtica
C2 > 3 Î curva leptocúrtica
C2 < 3 Î curva platicúrtica
32