0% acharam este documento útil (0 voto)

24 visualizações50 páginas

Aula 8

Enviado por

Matheuspz

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

24 visualizações50 páginas

Aula 8

Enviado por

Matheuspz

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

UNIVERSIDADE DA REGIÃO DE JOINVILLE - UNIVILLE

Bacharelado em Engenharia de Software (BES)

Estatística para computação

Professora Priscila Ferraz Franczak

Engenheira Ambiental - UNIVILLE
Mestre em Ciência e Engenharia de Materiais - UDESC
Doutoranda em Ciência e Engenharia de Materiais - UDESC

[Link]@[Link]
1
Plano de Aula
Estatística Descritiva

1. Notações de soma e produto

2. Medidas de posição amostral
3. Medidas de dispersão amostral
4. Covariância e correlação
5. Exercícios

2
Estatística Descritiva

• É a parte da Estatística que descreve e

avalia certo grupo de dados, seja ele
população, seja amostra.

• No caso de estarmos trabalhando com

amostras, o simples uso de estatísticas
descritivas não nos permite tirar quaisquer
conclusões ou inferências sobre um grupo
maior.
• Para estabelecimento de inferências ou
conclusões sobre um grupo maior (a
população) precisaríamos usar
métodos estatísticos, que caracterizam
a área da Estatística conhecida como
Estatística Indutiva ou Inferência
Estatística.
Há na Estatística Descritiva dois métodos que
podem ser usados para a apresentação dos
dados:

• Métodos gráficos (envolvendo

apresentação gráfica e tabular);

• Métodos numéricos (envolvendo

apresentações de medidas de posição e
dispersão, entre outras).
1. Notações de soma e produto

Somatório

• Muitos dos processos estatísticos exigem o

cálculo da soma.

• Para simplificar a representação da operação de

adição nas expressões algébricas, utiliza-se a
notação Ʃ, que é o sigma maiúsculo do alfabeto
grego.
n

• Lê-se σ 𝑥𝑖 como somatório de x índice i,

i=1
com i variando de 1 a n, em que n é a ordem da
última parcela ou limite superior do somatório.

• Na verdade, o somatório nada mais é que uma

notação simplificada da adição de elementos de
um conjunto.
 Exemplos:

6
2
 Encontre a soma σ 𝑌𝑖
i=2
i≠5
Produtório

• O símbolo produtório é utilizado para

facilitar a representação dos produtos.

• Emprega-se a notação Π, que é o pi

maiúsculo do alfabeto grego.
n

• Lê-se ς 𝑥𝑖 como produtório de x índice i,

i=1
com i variando de 1 a n, em que n é a ordem da
última parcela ou limite superior do produtório.
 Exemplos:

4
 Encontre o produtório ς 𝑧𝑖
i=1

2
 Encontre o produtório ς 𝑧𝑖
i=1
2. Medidas de posição amostral

Média aritmética

• Dados não agrupados

Sejam os elementos x1, x2, x3,...,xn de uma amostra, portanto

“n” valores da variável x. A média aritmética da variável
aleatória de x é definida por:

12
𝑠𝑜𝑚𝑎 𝑑𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑥 σ𝑥
𝑥ҧ = =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 𝑛
Exemplo:
Suponha o conjunto de tempo de serviço de cinco
funcionários: 3, 7, 8, 10 e 11. Determinar a média
aritmética simples deste conjunto de dados.
3 + 7 + 8 + 10 + 11 39
𝑥ҧ = = = 7,8
5 5

Interpretação: o tempo médio de serviço deste

grupo de funcionários é de 7,8 anos.

13
• Dados agrupados em uma distribuição de
frequência por valores simples

Quando os dados estiverem agrupados numa

distribuição de frequência usaremos a média
aritmética dos valores x1, x2, x3,...,xn, ponderados
pelas respectivas frequências absolutas: f1, f2, f3, ... ,
fn. Assim:

σ 𝑥𝑖 𝑓𝑖
𝑥ҧ =
𝑛

14
Exemplo:
Em um determinado dia foi registrado o número de
veículos negociados por uma amostra de 10 vendedores
de uma agência de automóveis obtendo a seguinte tabela:

Veículos Número de σ 𝑥𝑖 𝑓𝑖
negociados vendedores [Link] 𝑥ҧ =
𝑛
(xi) (fi) 26
1 1 1 𝑥ҧ = = 2,6
10
2 3 6
3 5 15 Interpretação: em
4 1 4 média, cada
Total 10 26 vendedor
negociou 2,6
veículos.
15
• Dados agrupados em uma distribuição de
frequência por classes

Usaremos a média aritmética dos pontos médios

𝑥ሶ 1, 𝑥ሶ 2, 𝑥ሶ 3,...,𝑥ሶ n de cada classe, ponderados pelas
respectivas frequências absolutas: f1, f2, f3, ... , fn.

Desta forma, o cálculo da média passa a ser igual

ao da situação anterior. Assim:

σ 𝑥ሶ 𝑖 𝑓𝑖
𝑥ҧ =
𝑛
16
• A média é a medida de posição mais
conhecida e pode ser obtida facilmente no R
com o comando mean( ):

17
• Em algumas situações é possível haver um
ou mais dados ausentes (NA).

• Neste caso basta usar o argumento [Link]=T

para que o R desconsidere os elementos NA
no cálculo da média.

18
Mediana

• A mediana é definida como o número que se apresenta

no centro de uma série de números dispostos
segundo uma ordem.

• Construído o ROL, o valor da mediana é o elemento

que ocupa a posição central, ou seja, é o elemento que
divide a distribuição em 50% de cada lado:

20
• A mediana é uma medida de posição indicada
quando o conjunto de dados possui valores
extremos discrepantes dos demais, o que pode
comprometer a discussão dos dados baseados
simplesmente na média.

21
• Embora os valores precisem estar ordenados
para se calcular a mediana, o R já realiza
automaticamente a ordenação:

22
Moda

• Dentre as principais medidas de posição,

destaca-se a Moda. É o valor mais
frequente da distribuição.

• Amodal: quando nenhum valor do

conjunto pode ser considerado moda.

• Unimodal: quando possui apenas um

valor modal.

23
• Bimodal: quando tem dois valores de
moda.

• Multimodal: para um conjunto de dados

com mais de dois valores modais.

24
O comando table( ) cria uma tabela de frequência
de cada elemento de determinado objeto:

25
• Para achar a moda, podemos usar o
comando mfv, do pacote modeest (que
precisa ser instalado no R), digitando no
console:

[Link]("modeest")

26
• Outro comando que pode ser usado , sem
a necessidade de instalação de pacote é:

28
• Resumindo as medidas de posição:

29
3. Medidas de dispersão amostral

• Essas medidas descrevem a variabilidade que

ocorre no conjunto de dados analisado e são
úteis para complementar as informações
fornecidas pelas medidas de posição.

• Assim, as medidas de dispersão são elementos

fundamentais na caracterização de uma amostra.

30
Variância (s2)

• A variância é uma das medidas que fornecem

informações complementares à informação
contida na média aritmética.

• Ela apenas indica se há dispersão em relação à

média.

• É definida como sendo a média aritmética dos

quadrados dos desvios em relação à média da
população (ou amostra).

31
• A variância é expressa pela fórmula:

σ 2
2
𝑓𝑖 (𝑑 𝑖 )
𝑠 =
𝑛
Quanto maior a variância, maior a dispersão dos dados
amostrais

Observação: Alguns autores usam s2 para indicar a variância

e s para indicar o desvio padrão da amostra. Quando temos
amostra com número de elementos menor que 30, dividimos
por (n-1).
32
Exemplo: Nascimentos diários na maternidade M no período X.

𝑑𝑖 2 2
𝑥𝑖 fi 𝑥ഥ 𝑑 𝑖 = 𝑥𝑖 − 𝑥ҧ fi 𝑑𝑖
1 2 4 -3 9 18
2 3 4 -2 4 12
3 1 4 -1 1 1
4 3 4 0 0 0
5 3 4 1 1 3
7 2 4 3 9 18
8 1 4 4 16 16
Total ෍ 𝑓𝑖 = 15 2
෍ fi 𝑑𝑖 = 68

33
σ 2
2
𝑓𝑖 (𝑑𝑖 )
𝑠 =
𝑛−1
2
68
𝑠 =
14
𝑠 2 = 4,86

34
• Com apenas um comando podemos obter a
variância amostral:

35
Desvio padrão (s)

• O desvio padrão é uma medida de variação em

relação a média largamente usada nos testes
estatísticos.

• Indica por meio de uma medida padronizada o

quanto um dado está afastado da média.

• É útil, por exemplo, para verificar se há melhoria

de qualidade na produção de determinado
elemento através de novo processo de fabricação

36
O desvio padrão é calculado extraindo a raiz
quadrada da variância:

σ 𝑓𝑖 (𝑑𝑖 )2
𝑠=
𝑛

Exemplo: A média de idade de funcionários de

uma empresa é:
38,44 ±11,58 anos
𝑥ҧ ± 𝑠
• Com apenas um comando podemos obter o
desvio padrão:

Ou raiz quadrada da variância

38
Amplitude total
• A amplitude total é dada pela diferença entre a variável
de maior valor e a variável de menor valor da amostra.

• Leva em conta os valores extremos da série em

prejuízo dos valores intermediários.

• Usa-se a amplitude total quando se quer determinar,

por exemplo, a variação de temperatura de um dia do
ano ou quando a compreensão popular é mais
importante que a exatidão e a estabilidade dos
resultados.

39
Fonte: [Link]
40
Exemplo:
Consideremos os seguintes conjuntos de valores que
representam o número de pacientes atendidos em postos
de saúde de três bairros A, B e C, num período de 5 dias.
Temos os resultados, para cada posto, dados por:

bairro A: 60, 60, 60, 60, 60

𝑥𝐴 = 60
𝐻𝐴 = 0

bairro B: 58, 62, 59, 61, 60

𝑥𝐴 = 60
𝐻𝐴 = 4

bairro C: 5, 15, 115, 105, 60

𝑥𝐴 = 60
𝐻𝐴 = 110 41
• No R obtemos a amplitude dos dados através do
comando:

42
Coeficiente de variação (C.V.)
 Desvio padrão é limitado
 Podemos caracterizar a dispersão ou variabilidade
dos dados em termos relativos a seu valor médio:
𝑠
𝐶. 𝑉. = .ҧ 100
𝑥

 Mede a dispersão relativa do conjunto de dados

 Assim, podemos comparar duas ou mais séries de
valores
Interpretações do coeficiente de variação:

Se:

 C.V. < 15% há baixa dispersão

 15% ≤ C.V. < 30% há média dispersão
 C. V. ≥ 30% há elevada dispersão
4. Covariância e correlação

• Quando existirem duas séries de dados, existirão

várias medidas estatísticas que podem ser usadas
para capturar como as duas séries se movem
juntas através do tempo.

• As duas mais largamente usadas são

a correlação e a covariância.

45
A covariância fornece uma medida não
padronizada do grau no qual elas se movem
juntas, e é estimada tomando o produto dos
desvios da média para cada variável em cada
período.
• O sinal na covariância indica o tipo de relação que
as duas variáveis tem.

• Um sinal positivo indica que elas movem juntas e

um negativo que elas movem em direções
opostas.

• Enquanto a covariância cresce com o poder do

relacionamento, ainda é relativamente difícil fazer
julgamentos sobre o poder do relacionamento
entre as duas variáveis observando a covariância,
pois ela não é padronizada.

47
 A correlação é a medida padronizada da relação
entre duas variáveis.

 A correlação nunca pode ser maior do que 1 ou

menor do que -1.

 Uma correlação próxima a zero indica que as

duas variáveis não estão relacionadas.

 Uma correlação positiva indica que as duas

variáveis movem juntas, e a relação é forte
quanto mais a correlação se aproxima de 1.
 No R, a covariância e a correlação entre dois
conjuntos de dados podem ser obtidas pelos
comandos cov(x,y) e cor(x,y):
5. Exercícios

Aula 8

Enviado por

Aula 8

Enviado por

UNIVERSIDADE DA REGIÃO DE JOINVILLE - UNIVILLE

Bacharelado em Engenharia de Software (BES)

Estatística para computação

Professora Priscila Ferraz Franczak

1. Notações de soma e produto

• É a parte da Estatística que descreve e

• No caso de estarmos trabalhando com

• Métodos gráficos (envolvendo

• Métodos numéricos (envolvendo

• Muitos dos processos estatísticos exigem o

• Para simplificar a representação da operação de

• Lê-se σ 𝑥𝑖 como somatório de x índice i,

• Na verdade, o somatório nada mais é que uma

• O símbolo produtório é utilizado para

• Emprega-se a notação Π, que é o pi

• Lê-se ς 𝑥𝑖 como produtório de x índice i,

• Dados não agrupados

Sejam os elementos x1, x2, x3,...,xn de uma amostra, portanto

Interpretação: o tempo médio de serviço deste

Quando os dados estiverem agrupados numa

Usaremos a média aritmética dos pontos médios

Desta forma, o cálculo da média passa a ser igual

• Neste caso basta usar o argumento [Link]=T

• A mediana é definida como o número que se apresenta

• Construído o ROL, o valor da mediana é o elemento

• Dentre as principais medidas de posição,

• Amodal: quando nenhum valor do

• Unimodal: quando possui apenas um

• Multimodal: para um conjunto de dados

• Essas medidas descrevem a variabilidade que

• Assim, as medidas de dispersão são elementos

• A variância é uma das medidas que fornecem

• Ela apenas indica se há dispersão em relação à

• É definida como sendo a média aritmética dos

Observação: Alguns autores usam s2 para indicar a variância

• O desvio padrão é uma medida de variação em

• Indica por meio de uma medida padronizada o

• É útil, por exemplo, para verificar se há melhoria

Exemplo: A média de idade de funcionários de

Ou raiz quadrada da variância

• Leva em conta os valores extremos da série em

• Usa-se a amplitude total quando se quer determinar,

bairro A: 60, 60, 60, 60, 60

bairro B: 58, 62, 59, 61, 60

bairro C: 5, 15, 115, 105, 60

 Mede a dispersão relativa do conjunto de dados

 C.V. < 15% há baixa dispersão

• Quando existirem duas séries de dados, existirão

• As duas mais largamente usadas são

• Um sinal positivo indica que elas movem juntas e

• Enquanto a covariância cresce com o poder do

 A correlação nunca pode ser maior do que 1 ou

 Uma correlação próxima a zero indica que as

 Uma correlação positiva indica que as duas

Você também pode gostar