UNIVERSIDADE DA REGIÃO DE JOINVILLE - UNIVILLE
Bacharelado em Engenharia de Software (BES)
Estatística para computação
Professora Priscila Ferraz Franczak
Engenheira Ambiental - UNIVILLE
Mestre em Ciência e Engenharia de Materiais - UDESC
Doutoranda em Ciência e Engenharia de Materiais - UDESC
[Link]@[Link]
1
Plano de Aula
Estatística Descritiva
1. Notações de soma e produto
2. Medidas de posição amostral
3. Medidas de dispersão amostral
4. Covariância e correlação
5. Exercícios
2
Estatística Descritiva
• É a parte da Estatística que descreve e
avalia certo grupo de dados, seja ele
população, seja amostra.
• No caso de estarmos trabalhando com
amostras, o simples uso de estatísticas
descritivas não nos permite tirar quaisquer
conclusões ou inferências sobre um grupo
maior.
• Para estabelecimento de inferências ou
conclusões sobre um grupo maior (a
população) precisaríamos usar
métodos estatísticos, que caracterizam
a área da Estatística conhecida como
Estatística Indutiva ou Inferência
Estatística.
Há na Estatística Descritiva dois métodos que
podem ser usados para a apresentação dos
dados:
• Métodos gráficos (envolvendo
apresentação gráfica e tabular);
• Métodos numéricos (envolvendo
apresentações de medidas de posição e
dispersão, entre outras).
1. Notações de soma e produto
Somatório
• Muitos dos processos estatísticos exigem o
cálculo da soma.
• Para simplificar a representação da operação de
adição nas expressões algébricas, utiliza-se a
notação Ʃ, que é o sigma maiúsculo do alfabeto
grego.
n
• Lê-se σ 𝑥𝑖 como somatório de x índice i,
i=1
com i variando de 1 a n, em que n é a ordem da
última parcela ou limite superior do somatório.
• Na verdade, o somatório nada mais é que uma
notação simplificada da adição de elementos de
um conjunto.
Exemplos:
6
2
Encontre a soma σ 𝑌𝑖
i=2
i≠5
Produtório
• O símbolo produtório é utilizado para
facilitar a representação dos produtos.
• Emprega-se a notação Π, que é o pi
maiúsculo do alfabeto grego.
n
• Lê-se ς 𝑥𝑖 como produtório de x índice i,
i=1
com i variando de 1 a n, em que n é a ordem da
última parcela ou limite superior do produtório.
Exemplos:
4
Encontre o produtório ς 𝑧𝑖
i=1
2
Encontre o produtório ς 𝑧𝑖
i=1
2. Medidas de posição amostral
Média aritmética
• Dados não agrupados
Sejam os elementos x1, x2, x3,...,xn de uma amostra, portanto
“n” valores da variável x. A média aritmética da variável
aleatória de x é definida por:
12
𝑠𝑜𝑚𝑎 𝑑𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑥 σ𝑥
𝑥ҧ = =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑛
Exemplo:
Suponha o conjunto de tempo de serviço de cinco
funcionários: 3, 7, 8, 10 e 11. Determinar a média
aritmética simples deste conjunto de dados.
3 + 7 + 8 + 10 + 11 39
𝑥ҧ = = = 7,8
5 5
Interpretação: o tempo médio de serviço deste
grupo de funcionários é de 7,8 anos.
13
• Dados agrupados em uma distribuição de
frequência por valores simples
Quando os dados estiverem agrupados numa
distribuição de frequência usaremos a média
aritmética dos valores x1, x2, x3,...,xn, ponderados
pelas respectivas frequências absolutas: f1, f2, f3, ... ,
fn. Assim:
σ 𝑥𝑖 𝑓𝑖
𝑥ҧ =
𝑛
14
Exemplo:
Em um determinado dia foi registrado o número de
veículos negociados por uma amostra de 10 vendedores
de uma agência de automóveis obtendo a seguinte tabela:
Veículos Número de σ 𝑥𝑖 𝑓𝑖
negociados vendedores [Link] 𝑥ҧ =
𝑛
(xi) (fi) 26
1 1 1 𝑥ҧ = = 2,6
10
2 3 6
3 5 15 Interpretação: em
4 1 4 média, cada
Total 10 26 vendedor
negociou 2,6
veículos.
15
• Dados agrupados em uma distribuição de
frequência por classes
Usaremos a média aritmética dos pontos médios
𝑥ሶ 1, 𝑥ሶ 2, 𝑥ሶ 3,...,𝑥ሶ n de cada classe, ponderados pelas
respectivas frequências absolutas: f1, f2, f3, ... , fn.
Desta forma, o cálculo da média passa a ser igual
ao da situação anterior. Assim:
σ 𝑥ሶ 𝑖 𝑓𝑖
𝑥ҧ =
𝑛
16
• A média é a medida de posição mais
conhecida e pode ser obtida facilmente no R
com o comando mean( ):
17
• Em algumas situações é possível haver um
ou mais dados ausentes (NA).
• Neste caso basta usar o argumento [Link]=T
para que o R desconsidere os elementos NA
no cálculo da média.
18
Mediana
• A mediana é definida como o número que se apresenta
no centro de uma série de números dispostos
segundo uma ordem.
• Construído o ROL, o valor da mediana é o elemento
que ocupa a posição central, ou seja, é o elemento que
divide a distribuição em 50% de cada lado:
20
• A mediana é uma medida de posição indicada
quando o conjunto de dados possui valores
extremos discrepantes dos demais, o que pode
comprometer a discussão dos dados baseados
simplesmente na média.
21
• Embora os valores precisem estar ordenados
para se calcular a mediana, o R já realiza
automaticamente a ordenação:
22
Moda
• Dentre as principais medidas de posição,
destaca-se a Moda. É o valor mais
frequente da distribuição.
• Amodal: quando nenhum valor do
conjunto pode ser considerado moda.
• Unimodal: quando possui apenas um
valor modal.
23
• Bimodal: quando tem dois valores de
moda.
• Multimodal: para um conjunto de dados
com mais de dois valores modais.
24
O comando table( ) cria uma tabela de frequência
de cada elemento de determinado objeto:
25
• Para achar a moda, podemos usar o
comando mfv, do pacote modeest (que
precisa ser instalado no R), digitando no
console:
[Link]("modeest")
26
• Outro comando que pode ser usado , sem
a necessidade de instalação de pacote é:
28
• Resumindo as medidas de posição:
29
3. Medidas de dispersão amostral
• Essas medidas descrevem a variabilidade que
ocorre no conjunto de dados analisado e são
úteis para complementar as informações
fornecidas pelas medidas de posição.
• Assim, as medidas de dispersão são elementos
fundamentais na caracterização de uma amostra.
30
Variância (s2)
• A variância é uma das medidas que fornecem
informações complementares à informação
contida na média aritmética.
• Ela apenas indica se há dispersão em relação à
média.
• É definida como sendo a média aritmética dos
quadrados dos desvios em relação à média da
população (ou amostra).
31
• A variância é expressa pela fórmula:
σ 2
2
𝑓𝑖 (𝑑 𝑖 )
𝑠 =
𝑛
Quanto maior a variância, maior a dispersão dos dados
amostrais
Observação: Alguns autores usam s2 para indicar a variância
e s para indicar o desvio padrão da amostra. Quando temos
amostra com número de elementos menor que 30, dividimos
por (n-1).
32
Exemplo: Nascimentos diários na maternidade M no período X.
𝑑𝑖 2 2
𝑥𝑖 fi 𝑥ഥ 𝑑 𝑖 = 𝑥𝑖 − 𝑥ҧ fi 𝑑𝑖
1 2 4 -3 9 18
2 3 4 -2 4 12
3 1 4 -1 1 1
4 3 4 0 0 0
5 3 4 1 1 3
7 2 4 3 9 18
8 1 4 4 16 16
Total 𝑓𝑖 = 15 2
fi 𝑑𝑖 = 68
33
σ 2
2
𝑓𝑖 (𝑑𝑖 )
𝑠 =
𝑛−1
2
68
𝑠 =
14
𝑠 2 = 4,86
34
• Com apenas um comando podemos obter a
variância amostral:
35
Desvio padrão (s)
• O desvio padrão é uma medida de variação em
relação a média largamente usada nos testes
estatísticos.
• Indica por meio de uma medida padronizada o
quanto um dado está afastado da média.
• É útil, por exemplo, para verificar se há melhoria
de qualidade na produção de determinado
elemento através de novo processo de fabricação
36
O desvio padrão é calculado extraindo a raiz
quadrada da variância:
σ 𝑓𝑖 (𝑑𝑖 )2
𝑠=
𝑛
Exemplo: A média de idade de funcionários de
uma empresa é:
38,44 ±11,58 anos
𝑥ҧ ± 𝑠
• Com apenas um comando podemos obter o
desvio padrão:
Ou raiz quadrada da variância
38
Amplitude total
• A amplitude total é dada pela diferença entre a variável
de maior valor e a variável de menor valor da amostra.
• Leva em conta os valores extremos da série em
prejuízo dos valores intermediários.
• Usa-se a amplitude total quando se quer determinar,
por exemplo, a variação de temperatura de um dia do
ano ou quando a compreensão popular é mais
importante que a exatidão e a estabilidade dos
resultados.
39
Fonte: [Link]
40
Exemplo:
Consideremos os seguintes conjuntos de valores que
representam o número de pacientes atendidos em postos
de saúde de três bairros A, B e C, num período de 5 dias.
Temos os resultados, para cada posto, dados por:
bairro A: 60, 60, 60, 60, 60
𝑥𝐴 = 60
𝐻𝐴 = 0
bairro B: 58, 62, 59, 61, 60
𝑥𝐴 = 60
𝐻𝐴 = 4
bairro C: 5, 15, 115, 105, 60
𝑥𝐴 = 60
𝐻𝐴 = 110 41
• No R obtemos a amplitude dos dados através do
comando:
42
Coeficiente de variação (C.V.)
Desvio padrão é limitado
Podemos caracterizar a dispersão ou variabilidade
dos dados em termos relativos a seu valor médio:
𝑠
𝐶. 𝑉. = .ҧ 100
𝑥
Mede a dispersão relativa do conjunto de dados
Assim, podemos comparar duas ou mais séries de
valores
Interpretações do coeficiente de variação:
Se:
C.V. < 15% há baixa dispersão
15% ≤ C.V. < 30% há média dispersão
C. V. ≥ 30% há elevada dispersão
4. Covariância e correlação
• Quando existirem duas séries de dados, existirão
várias medidas estatísticas que podem ser usadas
para capturar como as duas séries se movem
juntas através do tempo.
• As duas mais largamente usadas são
a correlação e a covariância.
45
A covariância fornece uma medida não
padronizada do grau no qual elas se movem
juntas, e é estimada tomando o produto dos
desvios da média para cada variável em cada
período.
• O sinal na covariância indica o tipo de relação que
as duas variáveis tem.
• Um sinal positivo indica que elas movem juntas e
um negativo que elas movem em direções
opostas.
• Enquanto a covariância cresce com o poder do
relacionamento, ainda é relativamente difícil fazer
julgamentos sobre o poder do relacionamento
entre as duas variáveis observando a covariância,
pois ela não é padronizada.
47
A correlação é a medida padronizada da relação
entre duas variáveis.
A correlação nunca pode ser maior do que 1 ou
menor do que -1.
Uma correlação próxima a zero indica que as
duas variáveis não estão relacionadas.
Uma correlação positiva indica que as duas
variáveis movem juntas, e a relação é forte
quanto mais a correlação se aproxima de 1.
No R, a covariância e a correlação entre dois
conjuntos de dados podem ser obtidas pelos
comandos cov(x,y) e cor(x,y):
5. Exercícios