Estatística Aplicada à Saúde: Fundamentos
Estatística Aplicada à Saúde: Fundamentos
saúde
Neste conteúdo, vamos estudar o conceito de estatística e suas aplicações na área de saúde. Você vai
conhecer as principais ferramentas de análise exploratória de dados, as medidas de tendência central, de
posição e as medidas de dispersão.
Prof. Paulo Henrique Coelho Maranhão, Prof. Rafael Monteiro
1. Itens iniciais
Preparação
Antes de iniciar o estudo deste tema, tenha em mãos um software de planilhas no seu computador ou
smartphone.
Objetivos
• Identificar as fases do método estatístico, as ferramentas de análise exploratória de dados e suas
aplicações na área da saúde.
• Aplicar as medições de posição ou tendência central em situações gerais e na área da saúde.
• Aplicar as medições de dispersão em situações gerais e na área da saúde.
Introdução
A estatística é um conjunto de métodos e técnicas de tratamento e análise de dados. Na área de saúde, ela é
fundamental para dar suporte em soluções de problemas práticos relacionados aos aspectos de pesquisa,
avaliação, prescrição e eficiência de medicamentos, vacinas e tratamentos medicamentosos ou não. É uma
ferramenta que, se utilizada adequadamente, contribui para o processo de desenvolvimento de
conhecimentos, sendo a base para tomada de decisão na área de saúde.
Veremos, neste conteúdo, que a estatística é um segmento da matemática aplicada e que as análises
estatísticas podem ser divididas em cinco etapas: coleta, organização, descrição, análise e interpretação de
dados. Para dar embasamento ao tomador de decisão na utilização dos dados, as três primeiras etapas —
coleta, organização e a descrição dos dados – geralmente ficam a cargo da estatística descritiva. Por outro
lado, as análises mais complexas e a interpretação dessas análises ficam a cargo da estatística inferencial.
Além disso, vamos estudar a estatística descritiva e compreender as principais ferramentas para apresentar e
sintetizar um conjunto de dados, as medidas de tendência central (média, mediana e moda) e as medidas de
dispersão (desvio-padrão, mínimo, máximo, amplitude).
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
1. Fases do método estatístico
Etapas da estatística
Neste vídeo, o professor vai explicar a importância da estatística para a área da saúde e as etapas do
processo estatístico. Assim, você vai compreender a importância da estatística para a tomada de decisão na
área da saúde.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
A estatística tem um papel fundamental na geração de conhecimento em ciências biológicas e da saúde. Por
meio do seu uso, governos, empresas, pesquisadores, professores, universidades, escolas e organizações de
diversas naturezas atuam na formulação de soluções dos problemas da sociedade contemporânea.
Coleta de dados
A primeira etapa no processo de um estudo estatístico, após o planejamento dos objetivos que serão
pesquisados e a determinação das características do que se quer pesquisar, é dar início à coleta dos dados.
Veja a seguir!
Exemplo
Objetivo do estudo: investigar a relação entre o consumo de frutas e vegetais e a incidência de doenças
cardiovasculares em adultos acima de 40 anos. Dados que deverão ser coletados: idade, sexo, histórico
médico familiar de doenças cardiovasculares, hábitos alimentares (consumo de frutas e vegetais),
histórico de tabagismo, níveis de atividade física.
Seleção da amostra
Selecionar uma amostra representativa de adultos acima de 40 anos em uma determinada região
geográfica.
Questionário
Exames
Realizar exames para verificar a saúde cardiovascular dos participantes, incluindo medições de
pressão arterial, níveis de colesterol, glicemia etc.
Pedir aos participantes que mantenham um registro detalhado de sua ingestão de frutas e vegetais
ao longo de um período específico, como uma semana.
Acompanhamento
Realizar acompanhamento regular dos participantes ao longo do estudo para atualização das
informações e identificação de eventuais mudanças nos hábitos de vida.
Análise de dados
Após a coleta dos dados, realizar análises estatísticas para identificar padrões e relações entre as
variáveis estudadas.
Essas etapas fornecerão dados sugnificativos para entender a relação entre o consumo de frutas e vegetais e
a saúde cardiovascular, auxiliando na formulação de políticas de saúde pública e intervenções preventivas.
Iniciaremos o estudo de uma ferramenta importante da estatística e conheceremos os dados com os quais
vamos trabalhar. Veremos desde os conceitos básicos — tais como classificação de variáveis — até as
principais ferramentas para apresentar e sintetizar os dados, como distribuição de frequência e
representações gráficas.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Variáveis são características de interesse em um estudo qualquer. Elas podem ser classificadas em:
Quantitativas
Qualitativas
Quando assumem valores numéricos. Por
Quando seus possíveis valores não são
exemplo, massa corporal de uma paciente, a
numéricos. São exemplos o estado civil
estatura, o índice de massa corporal (IMC), a
(solteiro, casado, união estável), sexo,
glicemia sanguínea, os valores de colesterol
nível de escolaridade etc.
etc.
Distribuições de frequência
Neste vídeo, o professor vai explicar a distribuição de frequências e as suas aplicações na área da saúde.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
É uma das formas mais simples e úteis de resumir um conjunto de dados. Nada mais é do que a apresentação
dos dados em classes às suas respectivas frequências absolutas.
Exemplo 1
A distribuição de frequência a seguir representa as notas na disciplina de estatística em uma turma de 40
alunos.
Classe (Notas)
0⊢2 1 2,5
2⊢4 5 12,5
4⊢6 12 30,0
6⊢8 15 37,5
8⊢10 7 17,5
Soma 40 100
Tabela: Distribuição de frequência referente a notas de 40 alunos. Paulo Henrique Coelho Maranhão e Rafael
Monteiro.
Observe que a tabela demonstra, na primeira coluna, os intervalos de classe com as notas que podem variar
entre 0 e 10.
Na segunda coluna, vemos o número de alunos (frequência absoluta) que tiraram a nota naquele intervalo de
classe. Observe que o somatório de notas é igual a 40, o mesmo que o número de alunos.
A frequência relativa, ou seja, o percentual de alunos naquele intervalo de classe está na terceira coluna.
Observe que, na última linha das notas, aqueles que tiraram entre 8 e 10, estão 7 alunos (coluna da frequência
absoluta), o que corresponde a 17,5% dos alunos (frequência relativa). Por fim, note que o somatório da
frequência relativa é 100, o que corresponde a 100%.
Exemplo 2
A próxima distribuição de frequência refere-se à quantidade de famílias que receberam auxílio escolar por
número de filhos.
1 52
2 38
3 18
4 12
Soma 120
Tabela: distribuição de frequência referente à famílias que receberam auxílio por número de filhos. Paulo
Henrique Coelho Maranhão e Rafael Monteiro.
Observe que, na primeira coluna, estão as classes, que correspondem ao número de filhos de cada família; e
que, na segunda coluna, está o número de famílias em cada classe. Perceba que o número de famílias com
mais de um filho diminui progressivamente, demonstrando uma importante tendência da população brasileira.
20 25 45 50 60
20 25 45 50 60
20 25 45 50 60
20 30 45 50 60
20 30 45 60 60
Observe que a tabela vista anteriormente está com dados em ordem crescente, de acordo com as colunas.
Por outro lado, na tabela a seguir, os dados estão agrupados pela idade na coluna da esquerda e pela
frequência absoluta na coluna da direita. Assim, a apresentação fica mais simplificada, facilitando a
visualização.
20 5
25 3
30 2
45 5
50 4
Tabela: Métodos de avaliação e consumo de alimentos. Paulo Henrique Coelho Maranhão e Rafael Monteiro.
A partir a coleta de dados, o profissional da saúde pode realizar a tabulação, em que cada elemento é
ordenado na coluna Idade, chamada de xi, e cada ocorrência deste elemento será inserido na coluna
frequência simples (fi).
Após a conclusão da tabela, precisamos realizar o somatório da coluna fi. Para isso, utilizamos o símbolo
(sigma) que representa uma autossoma dos elementos. Assim, podemos dizer que o somatório da frequência
simples será 25.
Limites de classe
Há várias formas de expressar os limites de classe em uma distribuição de frequência. O limite à esquerda é
chamado de limite inferior (Li), e o limite à direita é chamado de limite superior (Ls) da classe. Vejamos alguns
exemplos:
Li |---| Ls Li |--- Ls
Indica uma classe que é fechada à esquerda e à Indica uma classe que é fechada à esquerda e
direita, em que os limites inferior e superior aberta à direita, ou seja, o limite inferior está
estão incluídos na classe. incluído na classe, mas o limite superior não.
Li ---| Ls
Entre os limites de classes apresentados, o mais utilizado é o do número 2, isto é, fechada à esquerda e
aberta à direita.
Obs.: No cálculo do ponto médio da classe (Xi), os limites superior e inferior são considerados,
independentemente da classe ser fechada ou aberta nos limites Li ou Ls.
A seguir vemos os dados organizados em uma tabela com os valores de frequência absoluta (fi) e frequência
relativa (fri%):
20 5 20
25 3 12
30 2 8
45 5 20
50 4 16
60 6 24
Tabela: Frequência absoluta x Frequência relativa. Paulo Henrique Coelho Maranhão e Rafael Monteiro.
Para isso, devemos primeiro somar as frequências absolutas. No exemplo, o somatório é 25, esse é o “n” na
fórmula. Em seguida, devemos aplicar a fórmula para cada valor de frequência absoluta encontrada, ficando:
Frequência
xi - Idade Frequência Frequência Frequência relativa
simples acumulada
(anos) absoluta (fi) relativa (fri) % acumulada (Fri) %
(Fi)
20 5 5 20 20
25 3 8 12 32
30 2 10 8 40
45 5 15 20 60
50 4 19 16 76
60 6 25 24 100
Tabela: Frequência simples acumulada (fi) x Frequência relativa acumulada (Fri). Paulo Henrique Coelho
Maranhão e Rafael Monteiro.
• Para isso, usaremos como referência a frequência simples. O primeiro elemento desta nova coluna será
o primeiro elemento da coluna da frequência simples. Nesse caso, será cinco.
• O segundo elemento será o valor anterior, já encontrado, que é o cinco, somado à próxima frequência
que é o três. Teremos 5 + 3 = 8, esse será o valor do segundo elemento da frequência simples
acumulada. Agora, basta repetir o processo assim por diante.
Veja na fórmula:
O último elemento da frequência simples acumulada deve ser igual ao somatório da frequência simples.
A construção será a mesma da frequência simples acumulada. Contudo, agora, a coluna de referência será a
coluna da frequência relativa. Assim, teremos:
• O primeiro elemento desta nova coluna será o primeiro elemento da coluna da frequência relativa.
Neste caso, será 20%.
• O segundo elemento será o valor anterior, já encontrado, que é 20%, somado à próxima frequência
relativa que é o 12%. Teremos 20 + 12 = 32%, esse será o valor do segundo elemento da frequência
relativa acumulada. Como antes, o processo continua.
Veja na fórmula:
• O último elemento da frequência simples acumulada deve ser igual ao somatório da frequência simples.
• O último elemento da frequência relativa acumulada será um valor igual ou próximo de 100%.
• Utilize duas casas decimais após a vírgula!
Dica
Quando a quantidade de dados é muito grande, a melhor forma de apresentá-los é por meio de uma
tabela.
No intuito de melhorar a apresentação, é comum dispor os dados em uma distribuição de frequência. Desse
modo, veremos a seguir alguns passos práticos para construir uma distribuição de frequência.
A partir desse valor, acrescentamos a amplitude de classe para obter o limite superior da primeira classe. O
limite superior da primeira classe será o limite inferior da segunda classe, independentemente do tipo de
classe escolhida. O limite superior da segunda classe será o limite inferior da segunda somada à amplitude de
classe. O limite superior da segunda classe será o limite inferior da terceira e assim por diante. É comum, na
última classe, usarmos a classe fechada no limite inferior e no limite superior. Veja no exemplo a seguir.
Exemplo
O rol a seguir representa a altura (em centímetros) de 26 jogadores de uma equipe de futebol.
160 165 166 168 170 170 172 174 175 175 175 178 180 180 182 183 185 185 187 188 188 190 191 195 198 200
Construa uma distribuição de frequência das alturas dos jogadores dessa equipe de futebol.
Passo 1
Observe a fórmula a seguir:
Nesse caso, usaremos a regra de arredondamento e consideraremos k igual a 5, mas em alguns casos é
interessante arredondar para cima, sempre verificando se a distribuição de frequência contempla todo o
conjunto de dados.
Passo 2
Veja a fórmula referente a esse passo:
Passo 3
Veja a fórmula referente a esse passo:
Passo 4
Construindo a distribuição de frequência.
Classe (Alturas)
160⊢168 3
168⊢176 8
176⊢184 5
184⊢192 7
192⊢200 3
Soma 26
Representações gráficas
Neste vídeo, o professor vai explicar as principais representações gráficas e como utilizá-las para apresentar
relatórios e sintetizar uma grande quantidade de dados.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Atenção
Embora atualmente não seja mais necessário saber as técnicas de construção dos gráficos como se
fazia há alguns anos, é importante conhecer os principais tipos de gráficos e quando devem ser
empregados, pois ainda hoje são ferramentas indispensáveis para visualização e interpretação de dados.
Observe que a tabela e o gráfico apresentam os dados de forma sintética, mas o gráfico pode destacar as
diferenças numéricas de forma mais visual, tornando a apresentação mais atraente.
Gráfico da quantidade de famílias por número de filhos
Histograma
Esse é o gráfico típico da distribuição de frequência. A diferença desse gráfico para o gráfico de barras ou
colunas se dá pelo fato de as colunas apresentarem-se justapostas, ou seja, sem espaçamento entre elas.
Em geral, o eixo horizontal desse gráfico é representado pelas classes, e a representação do eixo vertical é
feita pela frequência absoluta ou relativa.
Considere a distribuição de frequência a seguir, que representa as notas na disciplina de estatística em uma
turma de 40 alunos. Observe que a maioria dos alunos obteve notas entre 6 e 8; a segunda maior classe foi de
4 a 6 pontos. Importante: os dados da tabela são redundantes com dados apresentados no gráfico.
Gráficos de linhas
É o gráfico mais apropriado quando trabalhamos com uma série de tempo.
Considere o número de acidentes por mês ao longo de um ano. Observe a seguir que o maior número de
acidentes ocorre nos meses de janeiro e julho, respectivamente, pois são os meses de férias escolares, nos
quais muitas famílias viajam e o fluxo de carros nas estradas aumenta significativamente.
Gráfico referente ao número de acidentes.
Setor
Comumente chamado de gráfico de pizza, é o mais apropriado quando trabalhamos com porcentagens.
Atenção
Em uma pesquisa de satisfação sobre o atendimento humanizado em uma rede de laboratórios, 55% dos
entrevistados disseram que estavam satisfeitos com os serviços de coleta sanguínea, 35% disseram que
estavam insatisfeitos e 10% disseram que eram indiferentes.
Dados dessa natureza devem nortear a tomada de decisão de gestores para a implantação de treinamento de
pessoal e humanização do atendimento de saúde.
Caixa (boxplot)
É um dos gráficos mais utilizados atualmente, visto que traz várias informações sobre o conjunto de dados.
Com esse gráfico é possível verificar a tendência central, a variabilidade e a simetria da distribuição dos
dados, conceitos esses que serão vistos de forma mais detalhada posteriormente.
Outra vantagem desse gráfico é que podemos observar a presença de valores atípicos ( outliers). Para isso é
necessário determinar o intervalo interquartil (IQR), que é a diferença entre o 3º e o 1º quartil. Multiplicando
esse IQR por 1,5, obtemos a faixa interquartil. Quando subtraímos o 1º quartil dessa faixa e somamos o 3º
quartil a esta, encontramos o intervalo no qual seria comum a variação dos dados. Valores acima desse
intervalo são considerados outliers.
Considere os dados referentes aos preços de aluguéis de imóveis (em reais) em certo bairro do Rio de Janeiro.
Observe que nesse gráfico temos informações como: o primeiro e o terceiro quartis, a mediana e a média. Os
traços abaixo do primeiro quartil e acima do terceiro quartil representam o menor e o maior valor dentro do
intervalo normal de variação dos dados.
Como vimos, o IQR é calculado subtraindo o terceiro quartil do primeiro quartil, que, nesse caso, é igual a
1400. Note que a faixa interquartil (1,5 IQR) é igual a 2100; logo, se somarmos o 3º quartil a essa faixa
interquartil, temos o valor limite (5225), que seria considerado normal para variação dos aluguéis. No entanto,
como o aluguel de R$ 7.000,00 reais está acima de R$ 5.225,00, podemos dizer que se trata de um valor
atípico.
Mão na massa
Questão 1
O conhecimento sobre as classificações das variáveis estatísticas é fundamental para o profissional de saúde,
visto a aplicação desses dados para a tomada de decisão baseada em evidências. Dessa forma, considere
dados sobre o peso dos pacientes:
Quantitativa discreta.
Quantitativa contínua.
Qualitativa nominal.
Qualitativa ordinal.
E
Qualitativa contínua.
Questão 2
Questão 3
Dados sobre atendimentos médicos por faixa etária foram coletados e organizados na seguinte distribuição de
frequência:
20
25
30
35
40
Questão 4
280
600
680
780
E
1000
Para determinar a frequência acumulada da terceira classe, lembre-se de que, para a primeira classe, a
frequência acumulada é igual à frequência absoluta. A partir daí, começamos a somar as frequências
absolutas, de forma que a frequência acumulada da segunda classe é a frequência absoluta da primeira
classe mais a frequência absoluta da segunda classe, ou seja, F(ac)(2a classe) = F1 + F2 = 280 + 320 = 600.
Para determinar a frequência acumulada da terceira classe somamos a frequência acumulada da segunda
classe com a frequência absoluta da terceira classe, ou seja,
F(ac)(3a classe) = F(ac)(2a classe) + F3 = 600 + 180 = 780.
Questão 5
Questão 6
De acordo com o diagrama de caixa a seguir, julgue a alternativa verdadeira:
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Teoria na prática
O conjunto de dados a seguir representa o número de horas extras mensais trabalhadas por 17 funcionários
de um banco de investimentos:
10 12 12 14 15 16 16 18 19 20 20 21 24 24 25 28 30
Chave de resposta
Distribuição de frequência
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Verificando o aprendizado
Questão 1
Dados sobre evasão escolar em determinado município estão exibidos na distribuição de frequência a seguir:
20 44 64 72 200
Paulo Henrique Coelho Maranhã e Rafael Monteiro. Determine a amplitude entre as frequências relativas.
10
16
26
E
36
20 44 64 72 200
10 22 32 36 100
Como desejamos a amplitude entre as frequências relativas, basta calcular a diferença entre a maior e a
menor frequência relativa. Assim, a amplitude entre as frequências relativas é igual a 36-10=26.
Questão 2
20 44 64 72 200
Barra
Histograma
Linha
Setor
E
Caixa
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Medidas de posição ou tendência central são medidas que visam representar os fenômenos por seus valores
centrais, em torno dos quais tendem a concentrar-se os dados. Apresentaremos essas medidas considerando
que os dados podem apresentar-se:
Quando estão dispostos em uma distribuição de Quando estão dispostos em rol ou dados
frequência. brutos.
Média
É a medida de posição mais conhecida e mais usada na prática para verificar o comportamento central dos
dados. Vejamos a definição da média considerando a forma como os dados são apresentados:
Lê-se: x barra é igual ao somatório de xi divido por n. Assim, vemos que para o cálculo, somam-se todos os
valores e, em seguida, divide-se pelo número de observações (n).
Exemplo 1
Determine a média para o seguinte Rol de dados: 1, 2, 3, 4, 5.
•
é ponto médio da classe i.
•
é a frequência absoluta da classe i.
Exemplo 2
Considere os dados sobre o peso (em Kg) de recém-nascidos de certa maternidade, dispostos na distribuição
de frequência abaixo:
Classe
2,0⊢2,5 2
2,5⊢3,0 4
3,0⊢3,5 7
3,5⊢4,0 5
4,0⊢4,5 5
4,5⊢5,0 7
Soma 30
Veja a resolução.
Resolução:
Vimos que, para calcular a média para dados agrupados, usamos a seguinte expressão:
Dessa forma, precisamos determinar o produto de . Assim, podemos utilizar a própria distribuição de
frequência acima para obter esse produto. Daí,
Classe Fi Xi Xi.Fi
2,5⊢3,0 4 2,75 11
Soma 30 - 111,5
Logo, a média do peso dos recém-nascidos dessa maternidade é de aproximadamente 3,72 kg.
Mediana
Disposto o conjunto de dados em ordem crescente ou decrescente, a mediana é o elemento que ocupa a
posição central, isto é, divide o conjunto de dados em duas partes iguais, de forma que metade dos dados
está acima e a outra metade está abaixo da mediana.
Se n é ímpar:
A mediana será o valor dado pela posição determinada pelo elemento mediano.
Se n é par
A mediana será a média aritmética entre as medianas obtidas pela posição dos elementos medianos e
que são determinados da seguinte forma:
Exemplo: 3, 4, 6, 8, 10, 11
Observe que, nesse caso, o primeiro elemento mediano é o elemento que ocupa a terceira posição e o
segundo elemento mediano é o elemento que ocupa a quarta posição, o que equivale aos valores 6 e 8,
respectivamente. Então, a mediana é a média aritmética entre esses valores (6 e 8), que é igual a 7.
Passo 01:
Passo 2:
Passo 03:
Aplicar a fórmula:
Em que:
Em que:
Limite inferior da classe mediana.
Frequência acumulada anterior à classe mediana.
Frequência absoluta da classe mediana.
Amplitude da classe mediana (diferença entre as amplitudes de classe superior e inferior).
Exemplo
Considerando os dados dos pesos dos recém-nascidos, determine o valor da mediana.
Classe
2,0⊢2,5 2
2,5⊢3,0 4
3,0⊢3,5 7
3,5⊢4,0 5
4,0⊢4,5 5
4,5⊢5,0 7
Soma 30
Vimos que para calcular a mediana é necessário obter a classe mediana. Dessa forma, para determinar quem
é a classe mediana é necessário obter a frequência acumulada (Fac) para cada classe.
Relembrando
Para determinar as frequências acumuladas de cada classe, basta ir acumulando (somando) as
frequências absolutas.
Classe
2,0⊢2,5 2 2
2,5⊢3,0 4 6
Classe
3,0⊢3,5 7 13
3,5⊢4,0 5 18
4,0⊢4,5 5 23
4,5⊢5,0 7 30
Soma 30 -
Note que esse elemento mediano ocupa a décima quinta posição no conjunto de dados.
A classe que contém o elemento mediano é a quarta classe, visto que ela contém o décimo quinto elemento.
Note ainda, que essa classe contém do décimo quarto ao décimo oitavo elemento.
Classe
2,0⊢2,5 2 2
2,5⊢3,0 4 6
3,0⊢3,5 7 13
4,0⊢4,5 5 23
4,5⊢5,0 7 30
Soma 30 -
A interpretação da frequência acumulada é feita da seguinte forma: note que na primeira classe, temos o
primeiro e o segundo elementos do conjunto de dados, pois os dados estão em ordem crescente, conforme
definição de mediana.
Na segunda classe, temos do terceiro ao sexto elemento. Na terceira classe, temos do sétimo ao décimo
terceiro elemento, e assim por diante, de forma que, a última classe contém do vigésimo quarto ao trigésimo
elemento.
Atenção
Verifique que o valor da frequência acumulada da última classe deve ser igual à soma da frequência
absoluta.
Exemplo 1 Exemplo 2
Exemplo 3
(bimodal).
Passo 01:
Determinar a classe modal que é a classe com maior frequência, seja ela absoluta ou relativa.
Passo 02:
Observe que os valores obtidos para as modas são apenas aproximações. Eles devem ser obtidos desse
modo somente se não for possível dispor dos dados originais.
Exemplo
Considerando novamente os dados dos pesos dos recém-nascidos, obtenha o valor da moda.
Classe
2,0⊢2,5 2
2,5⊢3,0 4
3,0⊢3,5 7
3,5⊢4,0 5
4,0⊢4,5 5
4,5⊢5,0 7
Soma 30
Seguindo os passos para a determinação da moda para o caso de dados agrupados, temos:
1) Determinar a classe modal ( ) que, como vimos, é a classe com maior frequência absoluta.
Classe
2,0⊢2,5 2
2,5⊢3,0 4
3,0⊢3,5 7
3,5⊢4,0 5
4,0⊢4,5 5
4,5⊢5,0 7
Soma 30
2) Calculando as modas:
Note que há um caso especial, pois a segunda classe modal está na última classe e, para o cálculo de ,
considera-se que a classe imediatamente posterior é igual a zero. 0 mesmo procedimento deve ser adotado
quando a classe modal está na primeira classe, com a diferença que, nesse caso, para o cálculo de
considera-se que a classe imediatamente anterior é igual a zero.
Separatrizes
Neste vídeo, o professor vai explicar o conceito de separatrizes e demonstrar as aplicações na área da saúde.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
As separatrizes têm a função de dividir o conjunto de dados em certo número de partes iguais. A mediana que
divide os dados em duas partes iguais é um caso particular de separatriz. No entanto, outras separatrizes têm
papel de destaque na estatística, como é o caso dos quartis, decis e percentis, cujos conceitos serão vistos a
seguir.
Quartil
O quartil divide o conjunto de dados em quatro partes iguais.
Para o cálculo dessas medidas, serão adotados os mesmos procedimentos realizados para o cálculo da
mediana para dados agrupados. Assim, seguiremos os passos a seguir.
Passo 01:
Lembre-se de que, neste caso, há quatro quartis, ou seja, i = 1, 2,3,4. Observe que se i = 2, equivale à
mediana. Além disso, não importa se n é ímpar ou par, pois estamos trabalhando com dados agrupados.
Passo 02:
Passo 03:
Aplicar a fórmula:
Exemplo
A corretora XYZ tem em seu portifólio 60 imóveis que foram distribuídos de acordo com seu valor de venda
(em milhares de reais). Os dados estão representados na distribuição de frequência a seguir:
Classe
0⊢100 5 5
100⊢200 17 22
200⊢300 20 42
300⊢500 13 55
500⊢800 5 60
Classe
Soma 60 -
A partir de que valor estão os 25% dos imóveis mais caros dessa corretora?
Solução: Note que o problema pede para determinar o valor que divide os 25% mais caros dos 75% mais
baratos, o que é equivalente a determinar o 3º quartil (Q3). Então:
Classe
0⊢100 5 5
100⊢200 17 22
200⊢300 20 42
300⊢500 13 55
500⊢800 5 60
Soma 60 -
Observe pela frequência acumulada que a classe que contém o elemento quartil 3 é a quarta, visto que essa
classe contém do elemento ao .
Decil
O Decil divide o conjunto de dados em 10 partes iguais.
O cálculo dos decis é análogo ao dos quartis. Dessa forma, os seguintes passos serão realizados:
Passo 01:
Aqui temos 10 decis, ou seja, i = 1, 2,3, ... ,10. Observe que se i = 5, equivale à mediana e ao segundo quartil.
Passo 02:
Passo 03:
Aplicar a fórmula:
Na qual:
•
Limite inferior da classe decil i.
•
Frequência acumulada anterior à classe decil i.
•
Frequência absoluta da classe decil i. Amplitude da classe decil i (diferença entre as
amplitudes de classe superior e inferior).
Exemplo
Considerando o exemplo da corretora, a partir de que valor estão os 10% dos imóveis mais baratos?
Solução: Veja que o problema pede para determinar o valor que representa justamente o 10º decil. Logo:
Classe
0⊢100 5 5
100⊢200 17 22
200⊢300 20 42
300⊢500 13 55
500⊢800 5 60
Soma 60 -
3) Aplicar a fórmula:
Percentil
O percentil divide o conjunto de dados em 100 partes iguais.
Passo 01:
Neste caso, temos 100 percentis, ou seja, i = 1, 2,3, ... ,100. Observe que se i = 50, equivale à mediana, ao
segundo quartil e ao quinto decil.
Passo 02:
Determinar a classe decil i , que é a classe que contém o elemento decil i.
Passo 03:
Aplicar a fórmula:
Exemplo
Considerando o exemplo da corretora, a partir de que valor estão 1% dos imóveis mais caros?
Solução: Veja que o problema pede para determinar o valor que representa justamente o 99º percentil. Então:
Classe
0⊢100 5 5
100⊢200 17 22
200⊢300 20 42
300⊢500 13 55
500⊢800 5 60
Soma 60 -
Mão na massa
Questão 1
O rol a seguir representa os valores de itens vendidos (em reais) em uma loja de produtos alimentícios durante
um dia de trabalho.
5, 8, 10, 10, 12, 15, 18, 20, 20, 24, 25, 25, 25, 30, 38, 45, 52, 52, 60, 65, 70, 70, 79, 84, 90
25, 25 e 25
38, 30 e 25
38, 25 e 25
30, 25, 20
38, 34 e 25
• Mediana
Para o cálculo da mediana levamos em consideração o tamanho da amostra (n). Dessa forma, como o
tamanho da amostra é igual a 25, n é ímpar. Portanto:
Logo, a mediana é o elemento que ocupa a décima terceira posição:
• Moda
Para determinarmos a moda, basta verificarmos no conjunto de dados qual o valor que mais se repete.
Assim, verificamos que o valor que representa a moda é 25.
Questão 2
A Secretaria de educação de certo município coletou dados sobre o número de evasão escolar no ensino
fundamental durante os últimos 5 anos. Os dados estavam salvos em uma planilha eletrônica, mas por um
descuido do digitador, os dados foram multiplicados por 2. Sobre esse deslize do digitador é correto afirmar:
Questão 3
Um plano de saúde fez um levantamento da quantidade de famílias associadas levando em conta o número de
dependentes. Os dados foram resumidos na distribuição de frequência a seguir:
0 800
Nº de dependentes Quantidade de Famílias
1 1200
2 350
3 150
Soma 2500
0e1
1e1
1e0
1e2
2e2
• Média
Nº de dependentes Fi Xi.Fi
0 800 0
1 1200 1200
2 350 700
Nº de dependentes Fi Xi.Fi
3 150 450
Daí,
• Mediana
0 800 0 800
A classe que contém o elemento mediano é a segunda, visto que essa classe contém o elemento de ordem
1250, que é o elemento mediano.
3) Aplicar a fórmula:
Veja que a amplitude das classes é zero. Então, a fórmula para o cálculo da mediana se reduz a:
Na qual é o limite inferior da classe mediana.
Questão 4
A distribuição de frequência a seguir representa a faixa etária dos funcionários de certa empresa.
Classe
20⊢30 25 30 750
30⊢40 35 40 1400
40⊢50 45 25 1125
50⊢60 55 17 935
60⊢70 65 13 845
Questão 5
Considere agora que a distribuição de frequência a seguir representa a faixa etária dos funcionários da
empresa XYZ.
Classe
20⊢30 25 25 25
30⊢40 35 35 60
40⊢50 45 20 80
50⊢60 55 12 92
60⊢70 65 8 100
Soma - 100 -
30
35
45
50
55
Classe
20⊢30 25 25 25 → Classe Q1
30⊢40 35 35 60
40⊢50 45 20 80
50⊢60 55 12 92
60⊢70 65 8 100
Soma - 100 -
Observe, pela frequência acumulada, que a classe que contém o elemento quartil 1 é a primeira classe,
visto que essa classe contém do primeiro ao 25º elemento.
Logo, o primeiro quartil é igual a 30, o que significa que 25% dos funcionários têm menos de 30 anos e 75%
deles têm mais de 30 anos.
Questão 6
O histograma a seguir representa o número de funcionários de uma consultoria jurídica por tempo de serviço
em anos.
Com base no histograma, julgue as alternativas e marque a incorreta:
Soma - 50 400 -
Calculando a média:
Calculando a mediana:
1.
2.
Calculando a moda:
Observe que a classe modal é a segunda classe, uma vez que possui a maior frequência absoluta.
Portanto, a opção correta é a letra E, pois a mediana que é 7,5 divide o conjunto de dados em duas partes
iguais, ou seja, 50% estão abaixo e 50% estão acima de 7,5.
Teoria na prática
Uma loja de produtos naturais tem suas vendas (em reais) do mês de janeiro apresentadas na distribuição de
frequência a seguir:
Venda (R$)
0⊢20 24
20⊢60 52
60⊢100 80
100⊢200 38
200⊢400 6
Soma 200
Chave de resposta
Cálculo da média
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Verificando o aprendizado
Questão 1
Foram coletados dados sobre o número de passageiros, em certa companhia aérea nos aeroportos do Brasil,
de janeiro a outubro conforme a seguir:
Jan Fev Mar Abr Mai Jun Jul Ago Set Out
8522 12630 7453 6005 5874 6612 8439 7531 6430 4986
5814
B
6438
6840
7034
7448
Questão 2
A distribuição de frequência a seguir representa o lucro líquido de 50 empresas do setor petroquímico (em
milhares de reais).
100⊢300 8
300⊢500 10
500⊢1000 12
1000⊢2000 15
2000⊢5000 5
Soma 50
25% das empresas com maior lucro tem lucro aproximado de R$2.000.000,00.
Soma - 50 54600 -
Calculando a média:
Calculando a mediana:
1.
2.
Calculando a moda:
Veja que a quarta classe é a classe modal, visto que tem a maior frequência absoluta.
Variância S2
Neste vídeo, o professor vai explicar os conceitos de variância e desvio-padrão e demonstrar as aplicações na
área da saúde.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
A variância e o chamado desvio-padrão são as medidas mais conhecidas, servindo de base para medir o
quanto os dados estão dispersos com relação à média, ou seja, o quanto os dados estão afastados da média.
Uma forma de calcular o afastamento de cada dado da média é calcular a diferença entre o dado e a média.
Mas se calcularmos todas estas diferenças e as somarmos, obteremos ZERO. Ou seja, tal soma não avalia o
afastamento total.
Veja:
Então, uma forma de evitar que o cálculo do desvio TOTAL simplesmente nos conduza ao valor zero é, por
exemplo, elevar ao quadrado os desvios anteriores, ANTES de somá-los!
De fato, chamamos de desvio quadrático total (DQ), ao somatório dos desvios subtrativos simples,
previamente elevados ao quadrado, ou seja:
Para calcularmos um desvio quadrático médio que é a medida de dispersão de nosso interesse, chamada de
VARIÂNCIA, devemos analisar duas situações:
1. Dispomos de todos os dados que temos interesse em analisar, ou seja, toda a POPULAÇÃO;
2. Os dados fornecidos correspondem apenas a uma AMOSTRA dos dados totais de interesse.
Além disso, é útil distinguir as situações em que os dados estão agrupados ou não.
O estudo mais avançado da estatística nos indica que o desvio quadrático médio da população e de uma
amostra devem ser calculados como se segue:
Observe que no caso da população, dividimos o desvio quadrático total pela própria quantidade n de objetos
da população em análise.
Entretanto, no caso de analisarmos uma amostra, devemos realizar um ajuste, justificado pela estatística, e
que envolve o conceito de graus de liberdade, que não é abordado neste nível de curso.
Devemos, então, neste caso, dividir o desvio quadrático total por n-1, e não por n, a quantidade de elementos
da nossa amostra.
Observação
Se tivermos os dados agrupados em uma tabela de frequência, podemos escrever:
Exemplo
Considere a seguinte amostra de dados: 1, 3, 5, 7 e 9. Determine o valor da variância.
Solução: Veja que, para determinar a variância, é necessário inicialmente calcular a média dos dados.
Dados agrupados
O cálculo da variância para dados agrupados, ou seja, quando os dados estão dispostos em distribuição de
frequência, levam em consideração o ponto médio da classe e a frequência absoluta. Tecnicamente, supõe-se
que o ponto médio de cada classe é um bom representante dos dados de cada classe.
Exemplo
Considere os dados sobre o peso (em Kg) de uma amostra de recém-nascidos de certa maternidade
dispostos na distribuição de frequência abaixo:
Classe
2,0⊢2,5 2
2,5⊢3,0 4
3,0⊢3,5 7
3,5⊢4,0 5
4,0⊢4,5 5
4,5⊢5,0 7
Soma 30
Solução: Veja que, para calcularmos a variância, vamos precisar dos produtos . Assim,
podemos utilizar a própria distribuição de frequência anterior para obter esses produtos. Daí:
Classe
Logo,
Note que essa medida tem a interpretação prejudicada, visto que eleva ao quadrado os desvios .
Esse fato faz com que a unidade da variável com que estamos trabalhando fique ao quadrado.
Comentário
Se a variável de interesse é medida em quilogramas (Kg), como no exemplo acima, a variância nos dará a
resposta em quilogramas ao quadrado (Kg2) e isso compromete a interpretação da referida medida. Para
solucionar esse problema, foi criado o desvio-padrão, que será a próxima medida que veremos.
Desvio-padrão (S)
O desvio-padrão é simplesmente definido como a raiz quadrada da variância, pois sua unidade, então, é
exatamente a unidade dos dados! Assim, fica claro porque indicamos a variância por S 2. Ou seja, S é o desvio-
padrão da população ou da amostra.
Vimos que nesse exemplo o resultado da variância foi igual a 10. Logo,
Relembrando:
Então nesse caso, podemos dizer que a dispersão em torno da média é de 3,2. Portanto, com essa medida, é
possível verificar como se concentram os dados em torno da média.
Dados agrupados
Note que, apesar de o desvio-padrão ser uma boa medida da variabilidade, é uma medida absoluta, e nem
sempre conseguimos ver com clareza se o seu valor reflete maior ou menor variabilidade dos dados.
Exemplo
Imagine um analista que trabalha com uma quantidade enorme de dados, por exemplo, na casa dos
milhares ou mesmo milhões de dados: seria quase impossível dizer se a dispersão desses dados é alta
ou baixa, simplesmente observando o valor do desvio-padrão.
Para resolver tal problema, foi criado o coeficiente de variação, que veremos a seguir.
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
O coeficiente de variação é uma medida de dispersão relativa, sendo muito útil quando temos uma quantidade
expressiva de dados ou quando queremos fazer comparações entre variáveis que são medidas em diferentes
amostras ou populações. Essa medida é definida por:
Em que:
• é o desvio-padrão.
• a média da amostra.
Na prática, considera-se a seguinte regra para dizer se os dados são poucos ou muito dispersos:
Exemplo
Foi aplicada uma prova de conhecimentos gerais em duas turmas, digamos A e B. A turma A obteve média 8 e
desvio-padrão 2, a turma B obteve média 6,5 e desvio-padrão 1,8. Qual turma teve maior dispersão em torno
da média?
Solução: Aparentemente, a turma que teve maior dispersão foi a A, pois tem desvio-padrão igual a 2, enquanto
a turma B teve desvio-padrão igual a 1,8. Porém, para sabermos de fato qual turma teve maior variabilidade,
temos que calcular o coeficiente de variação. Assim:
Portanto, a turma B teve maior dispersão do que a turma A. Note que ambas as turmas apresentam dispersão
moderada.
Mão na massa
Questão 1
O rol a seguir representa os valores dos itens vendidos (em reais) em uma loja de produtos alimentícios
durante um dia de trabalho.
5, 8, 10, 10, 12, 15, 18, 20, 20, 24, 25, 25, 25, 30, 38, 45, 52, 52, 60, 65, 70, 70, 79, 84, 90
22,24
26,44
28,16
30,14
32,66
A alternativa B está correta.
Veja que, para determinar o desvio-padrão para dados não agrupados, temos que inicialmente calcular a
média, que nesse caso é dado por:
Assim,
Questão 2
A medida mais adequada de variabilidade para medir a variabilidade dos dados é a variância porque possui a
mesma unidade dos dados.
A maior concentração dos dados em torno da média está entre R$12,00 e R$65,00 reais.
Logo, podemos dizer que a dispersão em torno da média para o valor dos itens vendidos é de
aproximadamente reais.
Questão 3
50,33%
58,34%
60,26%
69,43%
75,62%
Assim, podemos dizer que esses dados têm uma dispersão relativa em torno da média de .
Questão 4
A distribuição de frequência a seguir representa a faixa etária de funcionários de certa empresa. O desvio-
padrão da idade desses funcionários é de aproximadamente:
Classe
20⊢30 25
30⊢40 35
40⊢50 20
50⊢60 12
60⊢70 8
Classe
Soma 100
12
15
18
20
25
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Questão 5
21%
25%
28%
D
31%
35%
Assim,
Questão 6
Considerando o resultado obtido do coeficiente de variação da questão anterior, é possível afirmar que:
Teoria na prática
Considere que os dados informados a seguir se referem à idade dos alunos de duas turmas de inglês.
Chave de resposta
Cálculo da média
Conteúdo interativo
Acesse a versão digital para assistir ao vídeo.
Verificando o aprendizado
Questão 1
Foram coletados dados sobre o número de passageiros, em determinada companhia aérea nos aeroportos do
Brasil, de janeiro a outubro, conforme o quadro a seguir.
Jan Fev Mar Abr Mai Jun Jul Ago Set Out
8522 12630 7453 6005 5874 6612 8439 7531 6430 4986
2144
2200
2224
D
2340
2451
Questão 2
A distribuição de frequência a seguir representa o lucro líquido de 50 empresas do setor petroquímico (em
milhares de reais).
100⊢300 8
300⊢500 10
500⊢1000 12
1000⊢2000 15
2000⊢5000 5
Soma 50
C
O coeficiente de variação é de aproximadamente 87%.
Calculando a média:
Calculando a variância:
Calculando o desvio-padrão:
Considerações finais
• Importância da estatística na área de saúde.
• Conceitos fundamentais da estatística descritiva.
• Conceitos associados à análise exploratória de dados.
• Organização dos dados e representação gráfica.
• Principais medidas de tendência central e variabilidade.
Explore +
Para saber mais sobre os assuntos tratados neste tema, assista:
Referências
FONSECA, J. S.; MARTINS, G. A. Curso de Estatística. 6. ed. São Paulo: Atlas, 1996.
MORETTIN, P. A.; BUSSAB, W. O. Estatística Básica. 9. ed. São Paulo: Saraiva, 2017.
OVALLE, I. I.; TOLEDO, G. L. Estatística Básica. 2. ed. São Paulo: Atlas, 2010.
SICSU, A. L.; DANA, S. Estatística Aplicada - Análise Exploratória de Dados. São Paulo: Saraiva, 2012.