17
Variável
Qualquer característica associada a uma população
Classificação de variáveis
{
Nominal sexo, cor dos olhos
Qualitativa
Ordinal Classe social, grau de instrução
{
Contínua Peso, altura,salario
Quantitativa
Discreta Número de filhos, numero de
carros
18
Medidas Resumo
Variáveis Quantitativas
MEDIDAS DE POSIÇÃO: Moda, Média, Mediana, Percentís,
Quartis.
MEDIDAS DE DISPERSÃO: Amplitude, Intervalo-Interquartil,
Variância, Desvio Padrão, Coeficiente de Variação.
19
Medidas de Posição
Moda(mo): É o valor (ou atributo) que
ocorre com maior freqüê[Link]
Variavel
Ex: 4,5,4,6,5,8,4,4 qualitativa
Mo = 4
20
Média
n
x + x + x + ... + x ∑ x i
x = 1 2 3 n
= i=1
n n
Ex:2,5,3,7,8
Média = [(2+5+3+7+8)/5]=5
21
Mediana
A mediana é o valor da variável que ocupa a
posição central de um conjunto de n dados
ordenados.
Posição da mediana: (n+1)/2
Ex: 2,5,3,7,8
Dados ordenados: 2,3,5,7,8 => (5+1)/2=3
=> Md = 5
Ex: 3,5,2,1,8,6
Dados ordenados:1,2,3,5,6,8 =>
(6+1)/2=3,5 => Md=(3+5)/2=4
22
Percentis
O percentil de ordem px100 (0<p<1), em um
conjunto de dados de tamanho n, é o valor da
variável que ocupa a posição px(n+1) do conjunto
de dados ordenados.
O percentil de ordem p (ou p-quantil) deixa
px100% das observações abaixo dele na amostra
ordenada.
Casos Particulares:
Percentil 50=mediana, segundo quartil(md,Q2,q(0,5))
Percentil 25= primeiro quartil (Q1), q(0,25)
Percentil 75= terceiro quartil (Q3) , q(0,75)
23
O p-quantil, 0<p<1, pode ser calculado como:
i − 0 .5
x (i) , se p = p i = , i = 1,..., n
n
q ( p ) = (1 - f i ) q ( p i ) + f i q ( p i + 1 ), se p i < p < p i + 1
x (1) , se p < p 1
x (n), se p > p n
Onde:
Estatisticas de ordem
p − pi i − 0.5
f i= , pi =
p i+1 − p i n
x ( 1 ) ≤ x ( 2 ) ≤ x ( 3 ) ≤ ...... ≤ x (n)
24
Exemplos
Ex(1): 15,5,3,8,10,2,7,11,12
=>n=9
=> ordenamos: 2<3<5<7<8<10<11<12<15
P1=1/18; p2=3/18; p3=5/18; p4=7/18; p5=1/2;
p6=11/18; p7=13/18; p8=15/18; p9=17/18
Posição Md : q(0.5)=8
Posição de Q1: q(0.25)=4,5
Posição de Q3: q(0.75)=11,25
25
Exemplo 2: Considere as notas de um teste de 3 grupos de alunos:
Grupo 1: 3, 4, 5, 6, 7; Grupo 2: 1, 3, 5, 7,9; e Grupo 3: 5,5,5,5,5.
0 10
G1
10
0
G2
0 10
G3
5
Temos : x 1 = x 3 = x 3 = 5 Md 1 = Md 3 = Md 3 = 5
26
Medidas de Dispersão
Finalidade: encontrar um valor que resuma a
variabilidade de um conjunto de dados
Amplitude (A): A=máx-min
Para os grupos anteriores, temos:
Grupo 1, A=4
Grupo 2, A=8
Grupo 3, A=0
27
Intervalo-Interquartil (d)
É a diferença entre o terceiro quartil e o primeiro
quartil, ou seja,
d= Q3-Q1
Ex(1): 15,5,3,8,10,2,7,11,12
Q1=4,5 e Q3=11,25
d =Q3-Q1=4,9-2,05=2,85
Max,Min,Q1,Q3,Q2: importantes para se ter uma boa ideia da
forma dos dados (simetrica ou assimetrica) e construir box-plots
28
Variância
n
(x1−x)
2
+ (x −x) + ...+ (x −x)
2
2
n
2
∑i
(
i=1
x − x ) 2
S 2
= =
n −1 n −1
Desvio padrão S
Desvio Padrão : S = Variância
29
Cálculo da variância para o grupo 1:
G1:3, 4, 5, 6, 7: Vimos que: x =5
(3−5)2
+(4−5)2
+(5− 5)2
+(6−5)2
+(7−5)2
10
S2 = = =2,5
5−1 4
Desvio padrão S= 2,5 = 1,58
G1 : S 2
= 2 ,5 S = 1,58
G2 :S 2
= 10 S = 3,16
G3 :S 2
=0 S =0
30
Coeficiente de Variação (CV)
) É uma medida de dispersão relativa;
) Elimina o efeito da magnitude dos dados;
) Exprime a variabilidade em relação a média
) Útil Comparar duas ou mais variáveis
S
CV = × 100 %
X
31
Exemplo 4: Altura e peso de alunos
Média Desvio padrão Coeficiente de
variação
Altura 1,143m 0,063m 5,5%
Peso 50Kg 6kg 12%
Conclusão: Com relação as médias, os alunos são,
aproximadamente, duas vezes mais dispersos quanto ao peso
do que quanto a altura
32
ORGANIZAÇÃO E REPRESENTAÇÃO DOS DADOS
Uma das formas de organizar e resumir a informação contida em
dados observados é por meio de tabela de freqüências e gráficos.
Tabela de freqüência: relaciona categorias (ou classes) de valores,
juntamente com contagem (ou freqüências) do número de valores que
se enquadram em cada categoria ou classe.
1. Variáveis qualitativas: Podemos construir tabela de freqüência
que os quantificam por categoria de classificação e sua
representação gráfica é mediante gráfico de barras, gráfico setorial
ou em forma de pizza.
33
Exemplo 1: Considere ao variável grau de Instrução dos dados da
tabela 1.(Variável qualitativa)
Tabela de freqüência
Grau de
Contagem fi f ri f ri %
instrução
1o Grau 12 0,3333 33,3%
2o Grau 18 0,5000 50 %
Superior 6 0,1667 16.7%
total n=36 1,0000 100%
fi :Frequência absoluta da categoria i (número de indivíduos
que pertencem à categoria i
fi
f ri = : Frequência relativa da categoria i
n
f ri % = f ri *100% : Frequência relativa percentual da categoria i
34
Representação gráfica de variáveis qualitativas
• Gráfico de Barras
• Diagrama circular, de sectores ou em forma de “pizza”
Diagrama de barras para a variável
grau de instrução
60,00%
50,00%
50,00%
40,00%
33,33%
30,00%
20,00% 16,70%
10,00%
0,00%
1o Grau 2o Grau Superior
35
Diagrama circular para a variavel grau de instrução
Diagrama circular para a variável grau de
1oGrau (33.3%)
instrução
Superior
17% 1o Grau
33%
2oGrau (50.0%) Superior (16.7%)
2o Grau
50%
36
2. Organização e representação de variáveis quantitativas
2.1 Quantitativas discretos: Organizam-se mediante tabelas de
frequências e a representação gráfica é mediante gráfico de
barras
Exemplo: Considere a variável número de filhos dos dados da tabela 1.
Tabela 2.1:Distribuição de freqüências de funcionários da empresa,
segundo o número de filhos
i Número de Número de % de funcionários
filhos funcionários (fri)
(Xi ) (fi )
1 0 4 20%
2 1 5 25%
3 2 7 35%
4 3 3 15%
5 5 1 5%
total 20 100%
37
Observação 1: A partir da tabela 2.1 podemos recuperar as 20
observação da tabela 1.1, ou seja, aqui não temos perda de
informação dos dados originais.
Representação gráfica : Diagrama de Barras
Mo=2
35%
35
25%
%de funcionários
25
20%
15%
15
5%
5
0 1 2 3 4 5
Número
de filhos
38
Determinação das medidas de posição e medidas de dispersão para
variáveis quantitativas discretas agrupados em tabela de freqüências:
• Média: X 1 f1 + X 2 f 2 + L + X k f k
∑X
i =1
i fi
X = =
n n
Exemplo: Considere a tabela 2.1 e determine a média de filhos dos
funcionários.
0 × 4 + 1 × 5 + 2 × 7 + 3 × 3 + 5 × 1 33
X = = = 1,65
20 20
• Mediana:
Dados ordenados:
0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 5 =>
(20+1)/2=10,5 => Md = (2+2) /2=2
39
• Variância:
k
( X 1 − X ) 2 f1 + ( X 2 − X ) 2 f 2 + L + ( X k − X ) 2 f k
∑
i =1
(X i − X )2 fi
S =
2
=
n −1 n −1
Cálculo da variância para os dados da tabela 2.1
4 ( 0 − 1, 65 ) 2
+ 5 (1 − 1, 65 ) 2
+ 7 ( 2 − 1, 65 ) 2
+ 3( 3 − 1, 65 ) 2
+ ( 5 − 1, 65 ) 2
S2 =
19
16,3125
= = 0,858553
19
Desvio padrão:
S= S 2 = 0,858553 = 0,927
40
2.2 Quantitativas continuas: Os seus valores podem ser qualquer
número real e ainda geralmente existe um grande nùmero de
valores diferentes. Como proceder a construir uma tabela de
frequência nestes casos?
A alternativa consiste em construir classes ou faixas de valores e
contar o número de ocorrências em cada faixa
No caso da variavel salario podemos considerar as seguintes
faixas de valores: [4,0; 7,0); [7,0;10,0);......
NOTAÇÃO: 4,0|----7,0
41
2.2 Procedimento de construção de tabelas de freqüência para
variáveis contínuas:
1. Escolha o número de intervalos de classe (k)
2. Identifique o menor valor (MIN) e o valor máximo (MAX) dos
dados.
3. Calcule a amplitude dos dados (A): A=MAX –MIN
4. Calcule o comprimento de cada intervalo de classe (h): h = A
k
5. Arredonde o valor de h de forma que seja obtido um número
conveniente.
6. Obtenha os limites de cada intervalo de classe.
PRIMEIRO INTERVALO :
Limite inferior : LI 1 = MIN
Limite superior : LS 1 = LI 1 + h
42
SEGUNDO INTERVALO :
Limite inferior : LI 2 = LS 1
Limite superior : LS 2 = LI 2 + h
k - ÉSIMO INTERVALO :
Limite inferior : LI k = LS k −1
Limite superior : LS k = LI k + h
7. Construa uma tabela de freqüências, constituída pelas seguintes
colunas:
• Número de ordem de cada intervalo (i)
• Limites de cada intervalo. Os intervalos são fechados á
esquerda e aberta à direita: NOTAÇÃO:|----
43
• Ponto médio (ou marca de classe) de cada intervalo de classe:
LSi + LI i
X í´ =
2
• Contagem dos dados pertencentes a cada intervalo.
•Freqüências absolutas de cada intervalo de classe.
•Freqüências relativas de cada intervalo de classe.
•Freqüências acumuladas absolutas de cada intervalo de classe.
i
Fi = f1 + f 2 + L + f i = ∑j =1
f j
•Freqüências acumuladas relativa de cada intervalo de classe.
i
∑
Fi
Fri = f r1 + f r2 + L+ f ri = f rj ; ou Fri =
j =1 n
44
Exemplo: Considere a variável salário da empresa comercializadora de
produtos de informática.
Procedimento:
1. Considere k=5.
2. MIN=4; MAX=23,30.
3. A=MAX-MIN=23,30-4=19,30
4. h=19,3/5=3,86
5. h≈3,9
6. Cálculo dos limites de cada intervalo:
PRIMEIRO INTERVALO
LI 1 = 4
LS 1 = 4 + 3 ,9 = 7 ,9
SEGUNDO INTERVALO
LI 2 = 7 , 9
LS 2 = 7 , 9 + 3 , 9 = 11 , 8
Os demais limites dos intervalos foram gerados seguindo o
procedimento anterior.
45
=
(4 + 7,9)
= 5,95; =
(7,9 + 11,8)
= 9,85.....
• Ponto médio:X
´ ´
1 X 2
2 2
De forma similar obtém-se os outros pontos médios.
Tabela 2.2: Distribuição de freqüências da variável salário.
i Intervalos Ponto médio Freqüência Freqüência Freqüência Freqüência
de classe (X´i) Absoluta (fi) Relativa ( f ri ) Acumulada Acumulada
Absoluta (Fi) Relativa ( Fri )
1 4,0 |-- 7,9 5,95 10 0,277778 10 0,277778
2 7,9 |-- 11,8 9,85 12 0,333333 22 0,611111
3 11,8 |-- 15,7 13,75 7 0,194444 29 0,805556
4 15,7 |-- 19,6 17,65 6 0,166667 35 0,972222
5 19,6 |-- 23,5 21,55 1 0,027778 36 1
Total 36 1,000000
Nesta organização de dados, temos perda de informação dos
dados originais
46
Representação gráfica:
• Histograma de freqüências relativas (em %) para a variável salário
33,33%
30 27,78%
%de funcionários
20 19.44%
16,67%
10
2,7%
0
4.0 7.9 11.8 15.7 19.6 23.5
Salário
47
Útil para encontrar os percentis: Exemplo Q2 ou Md
11 ,8 − 7 ,9 Md − 7 ,9
= ⇒ Md = 10 ,5
33 ,33 % 22 , 22
22.22%
Assimétrica a direita
33,33%
30 27,78%
%de funcionários
20 19.44%
16,67%
10
2,7%
0
Md
4.0 7.9 11.8 15.7 19.6 23.5
Salário
48
. Histograma usando densidade de frequência (mais comum!)
Área=1
7,1%*3,9=27,6
49
• Histograma de freqüência acumulada relativa (em %)
61% dos empregados tem salário
inferior a 12 salarios mínimos
Frequência acumulada percentual (%) 97,22% 100%
100
80,56%
61,11%
50
27,78%
4.0 7.9 11.8 15.7 19.6 23.5
Salario
19% possuim salário superior a 16
salários mínimos
50
Gráfico de Ramo e Folhas: Variável salário
4 00 56
5 25 73
6 26 66 86
7 39 44 59
8 12 46 74 95
9 13 35 77 80 • Valores concentrados entre 4 e 19
10 53 76
11 06 59 • Leve assimetria na direção dos valores
12
13
00 79
23 60 85
grandes( assimétrica à direita)
14
15
69 71
99
• Destaque do valor 23.30
16 22 61
17 26
18 75
19 40
20
21
22
23 30
51
Medidas de posição e medidas de dispersão para variáveis
contínuas agrupadas em tabela de freqüências.
k
• Média: ∑ X i´ f i
X f1 + X
´ ´
f2 + L X ´
fk i =1
X = 1 2 k
=
n n
Exemplo: Considere a tabela 2.2
5 , 95 × 10 + 9 ,85 × 12 + 13 , 75 × 7 + 17 , 65 × 6 + 21 , 55 × 1
X =
36
401,4
= = 11,15
35
Se calculamos a média para dados não agrupados apresentadas
anteriormente resulta:
X1 + X +L + X 4 + 4 , 36 + L + 23 , 30
X = 2 36
= = 11,122
36 36
Este resultado difere do valor obtido anteriormente. Porque?
52
• Moda (mo): ⎛ d1 ⎞
mo = LIi + ⎜⎜ ⎟⎟ × h
⎝ d1 + d 2 ⎠
i : Classe modal (é aquela classe que tem maior frequência absoluta (f i ))
LI i : é o limite inferior da classe modal.
d 1 = f i − f i −1
d 2 = f i − f i +1
h : comprimento do intervalo de classe.
Exemplo: Considere a tabela 2.2. TDF
Já que, f 2 = 12 > f j j ≠ 2⇒ i =2, é a classe modal
⎛ d1 ⎞ ⎛ 12 − 10 ⎞
mo = LI 2 + ⎜⎜ ⎟⎟ × h = 7,9 + ⎜⎜ ⎟⎟ × 3,9 = 9,014
⎝ d1 + d 2 ⎠ ⎝ (12 − 10) + (12 − 7) ⎠
53
• Mediana (Md) ⎛ 0,5n − Fi −1 ⎞
Md = LI i + ⎜⎜ ⎟⎟ × h
⎝ fi ⎠
i : é a classe médiana (é o intervalo de classe onde a coluna dos Fi na TDF
superou o 50% dos dados)
LI i : Limite inferior da classe mediana.
Fi-1 : é a frequência acumulada absoluta da classe anterior a classe mediana
f i : frequência absoluta da classe mediana.
h : compriment o do intervalo de classe.
Exemplo: Considere a tabela 2.2
Já que, F 2 = 22 > n / 2 ⇒ i =2, é a classe mediana
⎛ 0,5n − F1 ⎞ ⎛ 18 − 10 ⎞
Md = LI 2 + ⎜⎜ ⎟⎟ × h = 7,9 + ⎜ ⎟ × 3,9 = 8,55
⎝ f 1 ⎠ ⎝ 12 ⎠
54
2
∑ f (X )
k
´
−X
• Variância:
i i
i =1
S2 =
n −1
Exemplo: Considere a tabela 2.2. Vimos que X = 11 ,15
i Intervalos
de classe
X´i fi (
f i X i´ − X )
2
1 4,0 |-- 7,9 5,95 10 270,40
2 7,9 |-- 11,8 9,85 12 20,28
3 11,8 |-- 15,7 13,75 7 47,32
4 15,7 |-- 19,6 17,65 6 253,50
5 19,6 |-- 23,5 21,55 1 108,16
Total 36 699,66
∑ f (X )
5
i
´
i −X
i =1 699,66
S2 = = = 19,99029 ⇒ S = 4,47105 (Desvio Padrão)
36 − 1 35
55