Introdução à Bioestatística e Variáveis
Introdução à Bioestatística e Variáveis
Assim, se utiliza sempre dos métodos e técnicas de organizar dos dados, analisar e tomar decisão em ambientes de
incertezas com ferramentas da estatística, no contexto que envolve problemas e soluções nas áreas da saúde.
Ex: investigação de efeitos de novos remédios; saber a frequência de aparecimentos de uma doença, controle de
poluição e dos eventos do meio ambiente etc.
Para entender como a bioestatística funciona, devemos aprender sobre os métodos e técnicas da estatística. É o que
será estudado adiante.
O que é estatística?
É a ciência que desenvolve métodos para coletar dados, organizá-los, resumi-los, descrevê-los e interpretar seus
resultados, facilitando na tomada de decisões e ajudando nas previsões sobre determinados assuntos.
A estatística é dividida em 3 partes:
Estatística DESCRITIVA Estatística ANALÍTICA Estatística INFERENCIAL
DESCREVE a caracterização dos Analisa/investiga as relações entre INFERE/avalia se os resultados
indivíduos estudados. as características estudadas. obtidos em uma amostra aleatória
podem ser generalizados para a
Também chamada de Em cada uma das técnicas utilizadas população da qual a amostra foi
procedimentos de análise calculamos um ou mais indicadores retirada.
exploratória de dados. quantitativos que nos ajudam a
avaliar como e com que força duas Ela traz testes para verificar se os
Principais técnicas das ou mais variáveis estão associadas. valores obtidos para as estatísticas
Estatísticas Descritiva: descritivas ou analíticas no estudo
- Cálculo de medidas de tendência Principais técnicas das realizado são válidos para a
central (moda, média aritmética, Estatísticas Analítica: população.
média ponderada, mediana) - Elaboração de diagramas (os
- Cálculo de medidas de dispersão mesmos da Estatística Descritiva, Principais técnicas das
(amplitude, desvio médio, variância, porém considerando mais de uma Estatísticas Inferencial:
desvio-padrão, coeficiente de variável; diagrama de dispersão, p. - Teste z para uma ou duas médias
variação) ex.) - Teste t para uma ou duas médias
- Cálculo de medidas de posição - Elaboração de tabelas de - Elaboração de diagrama de barra
(porcentis) contingência bivariáveis (com duas de erro
- Elaboração de gráficos variáveis) ou multivariáveis (com
(cartograma, histograma, diagrama mais de duas variáveis)
de talo e folha, diagrama de caixa, - Cálculo de medidas de associação
diagrama de setores, diagrama de entre variáveis (razão ou diferença
barras, etc.) entre prevalências; entre
- Avaliação da forma como as incidências ou risco relativo ou
frequências de uma variável se atribuível; entre chances;
distribuem coeficientes de correlação (de
Pearson, de Spearman, parcial,
parcial múltiplo, etc.); coeficientes
de regressão)
- Análise estratificada
- Análise multivariável
Variáveis
É uma característica que varia entre os indivíduos estudados.
Ex.: A idade, o peso, a altura, o sexo, a raça; uns são mais jovens, outros mais velhos, entre outras, são características
que variam entre os indivíduos a serem estudados
a) Tipos de variáveis:
Ex.: Peso do indivíduo: 0 < peso ≥ Ex.: tipo de material para algo,
200 kg, Estatura: 0 < estatura ≥ método de pagamento, cor favorita,
2,50m, a temperatura: Ela é gênero: que pode ter apenas 2
contínua porque se pode medir, valores: masculino e feminino.
digamos, como sendo 40° C ou,
então, se pode medi-la de forma
mais precisa como 40,2558 ºC.
As variáveis podem ser classificadas quanto a sua natureza como sendo: qualitativas ou quantitativas.
Qualitativas: quando os resultados possíveis de uma variável são atributos ou qualidades, a variável
é dita qualitativa. Existem dois tipos: nominal e ordinal.
Gênero: tem duas categorias, masculino e Classe econômica: baixa, média, alta;
feminino. Você deve ser capaz de ver que não Nível de satisfação: muito satisfeito, pouco
existe uma maneira lógica de ordenar essas satisfeito, insatisfeito;
duas categorias em termos de magnitude; Nível de escolaridade: ensino fundamental,
Estado civil: solteiro, casado, divorciado, viúvo; ensino médio, ensino superior.
Prática de exercícios físicos: sim, não; Queremos saber quão nervosa uma pessoa está
Grupo étnico: podemos categorizar pessoas em antes de tomar parte em um estudo que
termos do seu grupo étnico, mas não podemos estamos realizando. Poderíamos usar uma
colocar esses grupos em uma ordem em escala como a apresentada abaixo para avaliar
particular - eles são simplesmente categorias quão nervosa está. 1 2 Eu estou bem. 3 Opa.
diferentes. isto está ficando sério! 4 5 Estou uma pilha de
nervos! Usando tal escala podemos colocar os
participantes em um tipo de ordem em termos
de quão nervosos eles estão antes do estudo
(portanto, escala ordinal). Diria que alguém que
circulasse o "l" estaria menos nervoso do que
alguém que circulasse o "3" ou o "5.
Quantitativas: quando os resultados possíveis de uma variável são números resultantes de uma escala de
contagem ou mensuração. As variáveis quantitativas podem ser classificadas em:
Assim, uma variável pode ser contínua, discreta ou categórica e ainda podem ser contínuas qualitativa ou
quantitativa, discreta qualitativa ou quantitativa, categórica qualitativa ou quantitativa.
Exemplos:
- Para saber a velocidade máx. de um carro: contínua, quantitativa de razão
- Para saber o nº de jogos de PS3 jogados fora: discreta, quantitativa de razão
- Para saber o gênero de alguém: categórico, qualitativo nominal
- Para saber a temperatura de algo ou alguém: discreta, quantitativa intervalar
Amostra
É retirar uma parte das pessoas da população (todas as pessoas) para ser estudada.
O processo de seleção do melhor método de amostra para ser utilizado na pesquisa é chamado de amostragem.
Amostragem
A ideia da amostragem é estabelecer um critério de seleção de representantes do público alvo, uma vez que
entrevistar todos seria trabalhoso, dispendioso ou, dependendo do caso, impossível. Assim, você extrai uma amostra
desse segmento, colhe os dados e projeta os resultados obtidos em todo o contexto. A seguir, veremos os tipos de
amostragem, detalhando uma a uma para melhor compreendimento.
O pesquisador irá
O método dá a escolher, Neste tipo de Neste tipo de Este tipo de
cada indivíduo da sistematicamente, ou amostragem, a amostragem, a amostragem tende a ter
amostra, igual seja, um em cada cinco população é dividida população encontra-se um rigor mais elevado
oportunidade indivíduos, ou um em em subpopulações em localizada em dentro das técnicas não-
(probabilidade) de cada dez etc., para função de conglomerados que probabilísticas. Na
ser escolhido para compor sua amostra. características em podem ser ruas, bairros amostragem por quotas
o estudo, porque a comum, o que é ou empresas, por (ou cotas), o
seleção é feita por De modo geral, esse chamado de estrato. exemplo. pesquisador define
sorteio, evitando a tipo de amostragem é Em seguida, cada classes populacionais e,
influência de relevante no participante recebe Os conglomerados em seguida, determina
fatores subjetivos, planejamento amostral, uma identificação recebem identificações a proporção da
sendo todos os quando se tem uma dentro de seu estrato que, por sua vez, são população para cada
indivíduos listagem de indivíduos e o processo de sorteadas. Todos os classe. Pode ser
igualmente suficientemente amostragem aleatória participantes e devem utilizada em situações
considerados para grande, a fim de seguir simples é feito dentro ser acessados. em que não se tem
o sorteio. o procedimento de em cada estrato. muitas informações
amostragem de cada k a Atente que é possível Um exemplo para uma sobre características
Vantagens: Evita o k ordem que os participantes situação de populacionais para fazer
erro sistemático e recebam os mesmos amostragem por uma técnica
viés de seleção. números. conglomerado: a probabilística, mas
Tende a ser simples prefeitura de uma cidade sabe-se o suficiente
de se planejar e Por exemplo, se no deseja pesquisar os casos para criar classes.
comunicar aos estrato 1 há 100 existentes de uma Eventualmente,
outros. pessoas, os números determinada doença, mas
pesquisas eleitorais e
para realizar um
Desvantagens: irão de 1 a 100 dentro análise de mercado
procedimento de
Tende a ter deste estrato. Se no amostragem aleatória podem contar com esta
execução complexa segundo estrato há simples em todas as técnica.
e cara. também 100 pessoas, regiões da cidade o custo
Eventualmente, os participantes deste é muito elevado. Deste
pode não estrato também modo, divide-se a área
representar bem receberão números de total do município em
subgrupos 1 a 100. Com muita diversas áreas menores e,
populacionais. frequência, as em seguida, em bairros e,
depois, em quarteirões,
características de
consistindo em uma
interesse na
amostra aleatória de
população são casas. Consequentemente,
desbalanceadas e, aplica-se o questionário
com isso, os estratos e nas famílias das casas
a amostra também selecionadas.
serão desbalanceados.
Erro amostral:
Erros que podem afetar a pesquisa, de modo, a dificultar a interpretação dos dados.
Ele ocorre porque não estamos utilizando todos os membros da população-alvo na pesquisa, mas apenas uma
amostra dela.
OBS: Sempre que selecionarmos uma amostra de alguma população, irá existir incerteza sobre quão representativa
a amostra é realmente. Assim, se calcularmos uma estatística amostral, nunca estaremos seguros sobre o quanto ela
poderá diferir do parâmetro populacional.
Quando se deseja realizar uma pesquisa, é necessário o planejamento amostral, sendo decidido antes da fase do
trabalho estatístico de coleta de dados.
Os tópicos a seguir irão tratam de elementos metodológicos que complementam o planejamento e organização das
informações de uma pesquisa científica.
As áreas da ciência que utilizam estudos experimentais dependem essencialmente de medidas de precisão e rigor
para seus cálculos.
Quando se realiza os cálculos estatísticos de frequências ou de medidas, o valor resultante pode ser próximo ou
distante da grande maioria dos dados e sua representação numérica nem sempre é parecida como, por exemplo, o
conjunto de números (18 25 31 41 26 38 19), que resulta na média aritmética de 28,285714...
Os números do conjunto de dados são números inteiros e o resultado do cálculo da média aritmética é um número
decimal e infinito. Por questões práticas, é muito comum representar o número “28,285714...” em apenas 28,
resultando em arredondamento do algarismo em unidades, ou 28,3, em décimos, ou 28, 29, arredondamentos em
centésimos.
Todos esses resultados de arredondamento estão corretos, mas alguns são mais precisos que os outros. Tudo
depende do grau de precisão e rigor exigido no estudo.
Ainda, há de considerar que, em estatística, os resultados de números originários de arredondamentos têm uma
interpretação e sentido dependendo do contexto de aplicação.
O arredondamento dos números, então, se baseia no princípio de que o máximo erro pode ocorrer em um dado
resultado.
Principais regras de arredondamento:
De acordo com a resolução 886/66 do IBGE, têm-se as seguintes regras:
1) Se o número deve ser arredondado na posição dos décimos (após a vírgula) e o caráter seguinte, o
centésimo (é o nº após o decimo), for menor do que 5, o algarismo dos décimos fica inalterado.
Ex.: 93,24 = 93,2
Neste caso, o algarismo dos décimos (2) fica inalterado porque na posição dos centésimos temos um valor (4) que é
menor que o número 5. Então, basta suprimir os valores seguintes a casa decimal (2).
2) Se o número deve ser arredondado na posição dos décimos (nº após a vírgula) e o caracter seguinte, o
centésimo (é o nº após o decimo), for maior do que 5, aumenta-se uma unidade (soma +1) no algarismo dos
décimos.
3) Se o número deve ser arredondado na posição dos décimos e o caracter seguinte for igual a 5 seguido, em
qualquer casa decimal, de um algarismo diferente de zero, aumenta-se uma unidade no algarismo dos décimos.
Para se ter a média, é preciso Será o valor observado com mais Indica exatamente o valor central
somarmos todos os números e frequência em um conjunto de dados. de um conjunto de dados quando
dividirmos pela quantidade de organizados em ordem crescente
números. Por exemplo, digamos que o Palmeiras ou decrescente.
em determinado torneio de futebol fez,
Por exemplo, vamos determinar em dez partidas, a seguinte quantidade Por exemplo, vamos considerar
a média dos de gols: 5, 4, 2, 1, 3, 7, 1, 1, 2 e 1. que um aluno tirou as seguintes
números 3,12,23,15,2. notas em 5 provas de uma
d) 3+12+23+15+2 /5= 55/5= 11 Para essa sequência de gols marcados, a determinada matéria:
moda é de 1 gol, pois é o número que 5, 8, 7, 4 e 8.
aparece mais vezes (1,1,1,1,2,2,3,4,5,7).
Colocando as 5 notas em ordem
Outra situação comum seria se crescente, por exemplo, obtemos:
dentre 7 pessoas tomássemos suas 4,5,7,8,8.
idades, a saber:
15 anos, 20 anos, 32 anos, 13 anos. A mediana é o valor que está no
Nesse caso, não há moda, pois nenhuma centro dessa sequência, ou seja, 7.
idade se repetiu mais vezes que a outra.
Delineamentos da pesquisa
Existem muitas técnicas estatísticas que podem ser usadas para se analisar dados coletados em uma pesquisa. Um
dos principais fatores na determinação de qual teste estatístico será utilizado para analisar os dados é a forma como
o estudo foi projetado ou planejado.
Existem várias maneiras de projetar ou planejar um estudo e a forma como este é feito exercerá grande influência
nos tipos de procedimentos estatísticos que estarão disponíveis.
Assim, serão apresentadas maneiras de se planejar estudos e os tipos de testes disponíveis para que o pesquisador
analise os resultados.
a) Delineamentos correlacionais: São aqueles que investigam relacionamentos entre variáveis.
Dissemos anteriormente que o principal objetivo da ciência é o entendimento das variáveis. Mais especificamente,
que desejamos entender como e por que certas variáveis estão relacionadas. Talvez a forma mais simples de
examinar o relacionamento entre variáveis é pela utilização de delineamentos correlacionais.
Excelente exemplo de pesquisa conduzida com a utilização de desenho correlacional é a que verifica a relação entre
o hábito de fumar e o câncer. Tem sido geralmente verificado, que à medida que aumenta o consumo de cigarros, o
mesmo ocorre com a incidência de câncer. Portanto existe um relacionamento entre o número de cigarros
consumidos e a chance de contrair câncer. Se você usar um delineamento correlacional, então o tipo de técnica
estatística provavelmente utilizada será o coeficiente de correlação momento-produto de Pearson* ou talvez o
coeficiente de correlação p de Spearman*.
- Causação: Um dos principais objetivos da ciência é descobrir a causa dos acontecimentos. Em todos os ramos da
ciência, os pesquisadores estão tentando determinar relações causais entre variáveis. Por exemplo, Newton***
produziu uma teoria elegante para explicar o que causa a queda de maçãs. Ele estabeleceu uma relação causal entre
a queda das maçãs e a gravidade. Quando usamos delineamentos correlacionais, no entanto, é difícil estabelecer se
a alteração em uma variável causa a mudança em outra variável. A razão disto é que em tais delineamentos estamos
simplesmente observando e registrando mudanças em variáveis e tentando estabelecer se elas covariam de alguma
forma que faça sentido.
Você pode ver, portanto, que a existência de um relacionamento entre duas variáveis não, necessariamente, nos
informa, muita coisa, sobre causa e efeito.
b) Projeto experimental: Para estabelecermos relações causais entre variáveis mais facilmente,
precisamos manipular uma das variáveis (variável independente - VI) sistematicamente e ver qual o efeito obtido na
outra variável (variável dependente - VD). Tal processo é, essencialmente, o realizado no projeto experimental.
Em projetos experimentais estamos, geralmente, procurando por diferenças entre as condições da VI.
Por exemplo, queremos ver o que ocorre com o sódio quando exposto ao ar e comparar isto com ele exposto a água
- Água -> estado do sódio -> ar
O sódio colocado na água deixa ela efervescente. Já se colocar o sódio por um determinado tempo com o ar, a
superfície fica esbranquiçada. Nesse caso, o sódio é a variável dependente, pois misturada com outras substâncias
ela pode ser modificada. Em contrapartida, a água e o ar, são variáveis dependentes, pois para ter os resultados
mencionados, eles precisam ser misturados ao sódio.
c) Delineamentos quase-experimentais: Para ressaltar o fato de que tais projetos não são estritamente
experimentais, eles são denominados de projetos quase-experimentais.
Caso você esteja inseguro se está lidando com um projeto experimental ou quase- -experimental, observe a alocação
aleatória dos participantes às condições. Se ela não for uma característica do estudo, então é mais provável que você
esteja lidando com um estudo quase-experimental.
Se você está utilizando um estudo experimental ou quase-experimental, então algumas das técnicas disponíveis para
você são: o teste t, o teste U de Mann-Whitney*, o teste de Wilcoxon** e a análise de variância -ANOVA.
Fique de olho!!!!
-Variáveis estranhas: são aquelas que podem ter um impacto em outras variáveis que estamos interessados, mas
falhamos em considerá-las quando delineamos nosso estudo.
Se elas forem negligenciadas, as conclusões obtidas do estudo podem não ser confiáveis.
Assim, se for pensar no exemplo do cão e interação social, percebe-se que existem outros fatores, além do de
possuir o cachorro, que podem afetar o número de encontros sociais das pessoas enquanto caminham. Alguns
desses fatores incluem a timidez de quem está caminhando, a atratividade, o gênero, a raça do cão e diversas outras
variáveis. Todos são fatores que o pesquisador não levou em consideração, mas que podem ter influenciado a
interação social. Esses fatores são denominados de variáveis estranhas.
- Variáveis de confusão: um tipo específico de variável estranha que está relacionado a ambas as variáveis principais
em que estamos interessados.
Por exemplo, vamos supor que estamos interessados nas diferenças de sexo na habilidade de jogar sucessivamente,
com sucesso, uma bola em uma cesta de basquete. Vamos presumir que executamos um estudo e descobrimos que
os homens pontuaram mais do que as mulheres. Podemos concluir disso que os homens são melhores do que as
mulheres no jogo de basquete. O problema é que poderia haver um relacionamento potencial do sexo dos
participantes com a habilidade de pontuar e a altura. Pode acontecer que pessoas altas sejam melhores em pontuar
no basquete e existe o fato de que os homens são, em geral, mais altos do que as mulheres. Poderia, também, ser
simplesmente a altura dos participantes, ao invés de seu sexo, o que determinou sua habilidade de marcar pontos
no nosso estudo. A altura, neste caso, seria a variável de confusão.
3. Em um estudo em que o gênero é a variável a ser 12. Um pesquisador acabou de conduzir um estudo
manipulada, a VI é: correlaciona! investigando o relacionamento da
(a) intraparticipantes. quantidade de álcool ingerida por fãs do time da casa
(b) correlaciona antes de um jogo de futebol e o número de gols marcados
(c) entre participantes. pelo time. Descobriu-se que existe um relacionamento
(d) Nenhuma das anteriores. entre as duas variáveis. Qual das seguintes afirmações é
válida?
4. Qual das seguintes afirmações é verdadeira para o (a) A quantidade de álcool ingerido está relacionada com a
delineamento correlaciona!? habilidade do time de fazer gols, mas não se pode afirmar
(a) Não apresenta VI nem VD. que seja a causa dos gols marcados
(b) Procura-se por relacionamentos entre variáveis. (b) A habilidade do time da casa de marcar gols não está
(c) Não se pode inferir causação a partir de correlação. relacionada à quantidade de álcool ingerida, mas à
(d) Todas as anteriores. quantidade de incentivo dada pelos fãs bebedores.
(c) Um aumento na quantidade ingerida de álcool causará
5. Qual das seguintes pode ser considerada uma variável um aumento no número de gols marcados.
categórica? (d) Todas as anteriores.
(a) Gênero
(b) Marca de feijão 13. Em um projeto intraparticipantes com duas condições,
(c) Cor do cabelo se você não utilizar o contrabalanceamento das condições,
(d) Todas as anteriores. então seu estudo poderá sofrer de:
6. O delineamento intraparticipantes pode ser: (a) efeitos de ordem.
(a) tanto quase experimental quanto experimental. (b) efeitos da hora do dia.
(b) somente experimental. (c) falta de participantes.
(c) somente quase-experimental. (d) Todas as anteriores.
(d) somente correlacionai.
14. Você conduziu um estudo mostrando que, quanto
7. Qual das seguintes afirmações é verdadeira para mais cedo as pessoas levantam, mais trabalho elas
experimentos? conseguem fazer. Qual das seguintes conclusões é válida?
(a) A VI é manipulada pelo pesquisador. (a) Não existe necessariamente uma relação causal entre
(b) A VD é assumida como dependente sobre a VI. levantar cedo e a quantidade produzida de trabalho.
(c) Eles são difíceis de serem realizados. (b) Pessoas que levantam cedo precisam trabalhar mais.
(d) Alternativas (a) e (b) acima. (c) Levantar cedo é a causa de mais trabalho ser produzido.
(d) As alternativas (b) e (c) acima.
8. O projeto quase-experimental apresenta:
(a) uma VI e uma VD. 15. Com qual dos seguintes projetos (delineamentos) é
(b) alocação não aleatória dos participantes as condições. menos provável que se possa estabelecer relacionamentos
(c) nem VI e nem VD. causais entre variáveis?
(d) Alternativas (a) e (b) acima. (a) Projeto experimental
(b) Projeto quase-experimental
9. Uma variável contínua pode ser descrita como: (c) Projeto correlacional
(a) podendo assumir certos valores discretos em uma faixa (d) Delineamento intraparticipantes
de valores.
(b) podendo assumir qualquer valor dentro de uma faixa de 16. Efeitos de demanda são possíveis variáveis de
escores. confusão em que:
(c) ser caracterizada por categorias.
(a) os participantes se comportam de acordo com o que o (d) Nenhuma das anteriores.
pesquisador quer.
(b) os participantes apresentam baixo desempenho, pois 18. Qual das seguintes seria VI apropriada em um estudo
estão cansados ou chateados. quase experimental?
(c) os participantes apresentam bom desempenho, pois (a) Gênero
praticaram as tarefas do experimento. (d) Nenhuma das (b) Se ou não alguém apresenta Transtorno de Ansiedade
anteriores. Generalizada
(c) Estudantes versus não estudantes
17. Suponha que você queira conduzir um estudo para (d) Todas as anteriores.
verificar se pessoas com depressão roem mais as unhas do
que pessoas não depressivas. Qual das seguintes será a 19. Em um delineamento intraparticipantes, os efeitos de
melhor maneira de proceder? ordem ocorrem quando:
(a) Medir a depressão dos participantes com um (a) os participantes ficam cansados nas últimas condições.
questionário e então solicitar que atribuam um escore (b) os participantes desempenham igualmente em todas as
sobre o quanto roem as unhas. Após, classificar os condições.
participantes como "depressivos" e "não depressivos" com (c) os participantes têm problemas em conseguir bebida no
base nos resultados do questionário. Podemos verificar, bar.
então, se existem ou não diferenças no quanto eles roem as (d) Nenhuma das acima.
unhas.
(b) Como a situação (a) acima, mas sem dividir os 20. Qual dos seguintes problemas está associado com a
participantes em dois grupos. Utilizar os escores de dicotomização de variáveis contínuas?
depressão obtidos e verificar se existe uma relação entre (a) Perda de poder experimental.
roer as unhas e depressão. (b) Podem ocorrer efeitos espúrios.
(c) Esse tipo de estudo é impossível de ser executado e (c) Existe uma séria perda de informação.
então não deve ser tentado. (d) Todas as alternativas acima
1.c, 2.c, 3.c, 4.d, 5.d, 6.a, 7.d, 8.d, 9.b, 10.d, 11.c, 12.a, 13.a, 14.a, 15.c, 16.a, 17.b, 18.d, 19.a, 20.d.
Descrição gráfica dos dados
Uma vez que você tenha terminado uma pesquisa, é importante que seus dados sejam analisados. Uma das
melhores formas de fazer isso é por meio da AED (Análise Exploratória de Dados). AED consiste, basicamente, em
explorar os dados por meio de técnicas gráficas.
Nesta seção, mostraremos as principais técnicas para explorar os seus dados, começando com o histograma de
frequências. Após, iremos explicar o box plot e o diagramas de caule e folhas.
Histograma de frequências:
É um meio gráfico de representar a frequência da ocorrência de cada valor em uma variável na nossa amostra. O
eixo-x contém detalhes de cada valor na nossa variável e o eixo-y representa a frequência da ocorrência destes
valores.
Por exemplo, se você coletou informações sobre a profissão das pessoas, pode estar interessado em descobrir
quantos trabalhadores estão em cada uma das categoriais de emprego. Vejamos o ex. abaixo:
Respostas:
a) O 4, pois foi o que teve mais votação (mais se repetiu)
b) 8
c) 4
d) 2
e) Qual é a média do gráfico?
1,1,2,2,3,3,4,4,4,4,4,5,5,5,5,6,6,6,6,7,7,7,8= 105/23=4,56 (arredondando= 4,6)
f) Qual é a mediana do gráfico?
A mediana é o número 5, pois está no meio.
OBS: se a mediana tiver 2 números no meio, deve somar os dois valores e dividir por 2. O valor encontrado será a
mediana.
O histograma de frequências é também utilizado para descobrir outras características importantes dos dados. Por
exemplo, você pode facilmente ver qual é o valor modal procurando pela coluna mais alta.
A melhor maneira de gerar um histograma manualmente é, primeiro, ordenar os dados, ao se determinar a
mediana, você, simplesmente conta o número de vezes que cada valor ocorre; esta será a frequência de ocorrência
de cada escore. A frequência é, então, registrada no gráfico como mostrado acima.
BOX PLOT:
Esse tipo de diagrama traz números simultâneos das duas variáveis, deixando visível se o que acontece em uma
variável causou interferência na outra.
Ao estudar a correlação, você tem uma variável dependente Y (efeito), que se relaciona a variáveis independentes X
(causas). O modelo hipotético seria, portanto, y = f (x).
A correlação criada com base no diagrama pode ser:
a) Correlação perfeita: Ela é identificada como perfeita quando não há uma grande dispersão entre os pontos,
a correlação será total entre os dados, independente da tendência, seja ela positiva ou negativa.
b) Correlação forte: Quanto menor for a dispersão dos pontos, maior será a correlação entre os dados. Com
isso, podemos identificar como forte quando os dados estão bem próximos, altamente concentrados.
c) Correlação fraca: Quanto maior for a dispersão dos pontos, menor será o grau de correlação entre os dados,
ou seja, eles quase não possuem uma correlação.
Nesses diagramas pode-se perceber que aparentemente não existe relacionamento entre as variáveis. Quando a
procrastinação aumenta, não existe um padrão consistente de variação da ansiedade estatística. Nesse caso, as
nossas amostras são boas representantes da população subjacente. Se agora selecionarmos mais duas amostras
(uma contendo três pessoas e a outra contendo 20 pessoas), nós podemos obter os diagramas mostrados nas
Figuras 3.18 (a) e (b).
Nesse caso, no diagrama com três pessoas podemos concluir que é possível um relacionamento negativo entre as
duas variáveis. Quando a ansiedade estatística diminui, a procrastinação aumenta. Na amostra com 20 pessoas,
entretanto, a sugestão é, novamente, de que não existe relacionamento aparente entre as variáveis. Você pode ver
que uma amostra pequena não reflete acuradamente o padrão da população, enquanto a maior o faz. Finalmente,
se você selecionar mais duas amostras poderá obter o padrão ilustrado na Figura 3.19. Aqui você deverá ser capaz
de perceber que a amostra de três pessoas não sugere inferir um relacionamento entre as duas variáveis, mas a 20
sim. Se observar a Figura 3.19, perceberá que parece existir um padrão na amostra de 20 pessoas sugerindo que
quando a procrastinação aumenta a ansiedade estatística também cresce. Nesse caso, a amostra grande não
representa acuradamente o relacionamento existente na população, ao passo que a pequena sim. Você deve notar
que é muito menos provável de se obter uma situação como a ilustrada na Figura 3.19 do que nas Figura 3.17 e 3.18.
Como foi indicado, anteriormente, neste capítulo, amostras grandes apresentam uma probabilidade maior de
representar corretamente a população em estudo. Embora o cenário da Figura 3 .19 seja improvável, ele poderá
ocorrer. Então, você deve ser cuidadoso ao generalizar os resultados de amostras para populações. A principal
conclusão dos exemplos acima é que qualquer generalização que se possa fazer a partir de dados de amostras está
sujeita ao erro amostral. Raramente estaremos certos de que o que acontece em uma amostra reflita o que ocorre
na população. De fato, como os diagramas de dispersão acima ilustraram, os dados amostrais podem nos enganar.
Eles podem mostrar um padrão de valores que é completamente diferente do padrão da população. Entretanto,
quanto maior a amostra maior a probabilidade de que ela reflita acuradamente os resultados populacionais.
Distribuição normal
É uma distribuição de valores que apresenta um pico na região central. A distribuição é geralmente dita ter "forma
de sino".
Na nossa pesquisa podemos utilizar esta informação para formular hipóteses sobre a forma com que as populações
estão distribuídas. E por esse motivo que muitas das mais poderosas técnicas estatísticas utilizadas por nós assumem
que as populações de onde retiramos nossas amostras são distribuídas normalmente. Para que uma população
possa ser classificada como normalmente, ela deve apresentar as seguintes características:
• deve ser simétrica em torno da média;
• as caudas encontram o eixo-x no infinito;
• deve ter a forma de sino e
• A média, a mediana e a moda devem se coincidir com o ponto do pico da curva
A curva ilustrada abaixo é de distribuição normal. Na vida diária muitas variáveis tais como peso, altura, tamanho do
sapato, níveis de ansiedade e resultados de testes tendem a ser normalmente distribuídas, isto é, elas se parecem
com a curva da figura.
Observe que se tivermos uma distribuição normal, a média, a mediana e a moda coincidem. Outra característica
importante é que ela é uma função da sua média e do seu desvio padrão (vamos explicar o desvio padrão mais
tarde). O que se quer dizer é que, uma vez conhecidos a média e o desvio padrão, podemos desenhar a curva com a
sua fórmula. Não vamos apresentar esta fórmula aqui; apenas lembre-se que qualquer distribuição normal pode ser
desenhada uma vez que se saiba sua média e seu desvio padrão.
Variação ou dispersão de distribuições
Indica o grau no qual os escores da variável são diferentes entre si.
Introduzimos as medidas de tendência central, que fornecem uma indicação do valor típico de uma amostra. Outro
aspecto importante de uma amostra ou população de valores é quão dispersa elas são. Colocando de outra forma,
quanta variação existe numa amostra ou população.
OBS: Variância ou variação dos escores indica o grau no qual os escores da variável são diferentes uns dos outros.
A amplitude:
Uma maneira simples de se ter uma indicação da dispersão dos valores de uma amostra ou população é comparar o
valor máximo com o mínimo, ou seja, é o escore mais alto em uma amostra menos o escore mais baixo . Esse
resultado é conhecido como amplitude.
A amplitude é simplesmente a diferença entre os valores máximo e mínimo.
Ex:
A amplitude dos escores de depressão na Figura 3.3 é 64, isto é, 64 menos O. Nesse exemplo, o escore mais baixo é
zero e o mais alto 64, de modo que a amplitude é 64. Embora a amplitude nos informe sobre a variação total do
conjunto, ela não fornece qualquer indicação do que ocorre no interior do conjunto.
Por exemplo, dê uma olhada nas duas distribuições na Figura 3.22.
Esses histogramas são gerados a partir de dois conjuntos de dados que têm a mesma média (16) e os mesmos
escores mínimos e máximos (5 e 27). Ambos apresentam, portanto, a mesma amplitude que é 22 (27 menos 5). Elas
são, entretanto, distribuições totalmente diferentes; os valores da distribuição B estão distribuídos em grande parte
próximos da média, enquanto na distribuição A eles estão bem mais espalhados. De forma ideal, precisamos ter uma
ideia da variação total de uma distribuição e de quanto os valores variam em tomo da média. Desta forma, embora a
amplitude forneça uma ideia da variação total dos valores, ela, de fato, não nos dá uma ideia da forma global da
distribuição dos valores de uma amostra.
O único problema da amplitude é porque não sabemos o valor da média e para resolver isso, utilizamos o desvio
padrão. Vejamos no próximo tópico.
Desvio padrão:
Uma medida mais informativa da variação dos dados é o desvio padrão (DP). E é o grau/medida no qual os escores
em um conjunto de dados se desviam em torno da média.
Um dos problemas da amplitude é que ela não nos informa o que está ocorrendo com os valores entre o mínimo e o
máximo. O DP, no entanto, fornece uma indicação do que está ocorrendo entre os dois extremos. A razão de o
desvio padrão poder fazer isto é que ele informa o quanto os valores do conjunto variam em tomo da média.
O DP será 70% da amostra.
Se o DP for baixo, melhor será a distribuição da sua amostra e maior será o pico da curva de normalidade.
Como calcular?
Ex.: (1,4,5,6,9,11)
1) Calcular a média: soma todos os desvios e dividi o resultado pelo número de dados do conjunto.
Média do ex.: 6
2) Subtrai todos os nº pelo valor da média:
Ex.: 1-6= -5 6-6= 0
4-6= -2 9-6= 3
5-6= -1 11-6= 5
2.1)Subtrai todos os valores encontrados no passo 2.
OBS: sempre dará 0. Se deu, você sabe que os valores estão corretos e segue para o próximo passo.
3) Elevar todos os número do passo 2 ao quadrado:
Isso porque não pode ter número negativos, apenas positivos.
Ex.: -52= 25 02= 0
2
-2 =4 32= 9
-12= 1 52= 25
4) Calcular a média dos quadrados(chamado de variância) do passo 3:
Ex.: (25, 4, 1, 0, 9, 25)
Média: 10,666= 10,67
5) Calcular o Desvio Padrão:
FÓRMULA:
FÓRMULA:
- Média + PD
- Média – DP
Ex.: 6+3,27= 9,27
6-3,27= 2,73
Ex.: Suponha que temos o seguinte conjunto de valores coletados de um estudo sobre o número de barras de
chocolate que são consumidas por semana: 1, 4, 5, 6, 9, 11.
Para calcular o desvio padrão, procederemos da seguinte forma:
o Primeiro calculamos a média, que é 6.
o Os desvios a partir da média de cada um dos valores são: - 5, - 2, - 1, O, 3, 5 (se você somar esses
valores poderá verificar que o resultado é zero).
o Para eliminar os valores negativos, vamos elevar cada um destes desvios ao quadrado, obtendo os
seguintes resultados: 25, 4, 1, O, 9, 25.
o A seguir, é calculada a média desses resultados que é 10,67, isto é, 64/6, fornecendo a variância.
o Finalmente, o desvio padrão é obtido através da raiz quadrada da variância, dando como resultado o
valor 3,27.
O valor de 3,27 do desvio padrão é um indicativo de quão próximo os valores estão da média do conjunto de dados.
Geralmente, você vai verificar que aproximadamente 70% dos dados estão situados em um intervalo de um desvio
padrão a contar da média.
No exemplo acima, o desvio padrão é 3,27, informando que a maioria dos valores desta amostra está 3,27 unidades
acima ou abaixo da média. Isto é, aproximadamente 70% dos valores estarão entre 2,73 (6 menos 3,27) e 9,27 (6
mais 3,27).
QUESTÕES!!!
1. Qual das seguintes representa a melhor estimativa da média populacional?
(a) A média da amostra.
(b) A média de várias médias amostrais.
(c) A moda de várias médias amostrais.
(d) A mediana de várias médias amostrais.
2. Se você obtivesse uma amostra de dados que eram aproximadamente normalmente distribuídos e não
apresentavam valores extremos, que medida de tendência central você usaria?
(a) Moda
(b) Mediana
(c) Média
(d) Nenhuma das alternativas acima
3. Quais das seguintes medidas de tendência central são sensíveis a valores extremos?
(a) Moda
(b) Mediana
(c) Média
(d) Nenhuma das acima
4. Dado o seguinte diagrama, como você descreveria a distribuição?
5. O desvio padrão é igual:
(a) a variância.
(b) a raiz quadrada da variância
(c) ao quadrado da variância
(d) a variância dividida pelo número de valores.
6. Qual a relação entre tamanho da amostra e erro amostral?
(a) Quanto maior o tamanho da amostra, maior o erro amostral.
(b) Quanto maior o tamanho da amostra, menor o erro amostral.
(c) O tamanho da amostra é igual ao erro amostral.
(d) Nenhuma das alternativas acima.
7. A moda é:
(a) a frequência do valor mais comum dividido pelo número total de valores.
(b) o valor do meio após a ordenação de todos os escores.
(c) o valor que ocorre com mais frequência.
(d) a soma de todos os valores dividida pelo número de valores.
8. No diagrama de caixa e bigodes (box plot), um valor extremo é caracterizado como:
(a) o valor situado além da caixa interna.
(b) o valor situado entre a caixa interna e os bigodes.
(c) o valor que está situado entre a caixa interna e o valor adjacente.
(d) um valor que está situado entre os dois bigodes.
9. A distribuição normal deve possuir qual das seguintes propriedades?
(a) Forma de sino.
(b) Ser simétrica.
(c) As caudas devem encontrar o eixo das abscissas no infinito.
(d) Todas as alternativas acima.
10. Se você seleciona ao acaso uma amostra de 20 pandas (amostra A) e então seleciona outra de 300 pandas
(amostra B) e calcula o peso médio para cada uma, qual é a mais provável de fornecer uma melhor estimativa do
peso médio da população?
(a) Amostra A.
(b) Amostra B.
(c) Ambas fornecerão boas estimativas da média populacional.
(d) Nenhuma delas fornecerá uma boa estimativa da média populacional.
11. Que tipo de relação é indicado por um diagrama de dispersão (scattergram) onde os pontos se acumulam ao
redor de uma linha imaginária que vai do canto inferior esquerdo até o topo do canto superior direito?
(a) Positiva (b) Negativa (c) Bimodal (d) Plana
12. Qual é a média do seguinte conjunto de valores: 5 7 10 12 18 20 24 22 24 25?
(a) 145 (b) 17,2 (c) 16,7 (d) 167
13. Se você tem uma distribuição negativamente assimétrica, então: (a) a média, a mediana e a moda são iguais. (b)
a cauda da direita é estendida. (c) a cauda da esquerda é estendida. (d) Nenhuma das alternativas acima.
14. Uma distribuição perfeitamente normal: (a) apresenta forma de sino, é simétrica e apresenta caudas que se
estendem até o infinito. (b) é somente aplicável a pessoas normais. (c) tem média, mediana e moda iguais. (d) (a) e
(c) acima.
15. Quando você tem variáveis categóricas e está simplesmente contando a frequência de ocorrência em cada
categoria, então sua medida de tendência central deve ser: (a) moda. (b) mediana. (c) média. (d) Nenhuma das
alternativas acima.
16. Dado o seguinte conjunto de dados (8 7 9 12 14 10 14 11 13 14), quais são os valores da média, mediana e
moda? (a) 11,2 11,5 14 (b) 1121214 (c) 10 5 14 (d) 10 12 14
17. Se uma distribuição é descrita como platicúrtica, então ela é: (a) bem pontiaguda. (b) bem plana. (c) bimodal. (d)
bem fina.
18. Tendo calculado a variância de um conjunto de dados com 12 participantes como sendo 36, qual será o valor do
desvio padrão? (a) 36 (b) 1296 (c) 6 (d) 3
19. Quais das seguintes afirmações são verdadeiras?
(a) Parâmetros descrevem amostras e estatísticas descrevem populações.
(b) Estatísticas descrevem amostras e populações.
(c) Parâmetros descrevem populações e estatísticas descrevem amostras.
(d) Alternativas (a) e (b).
Probabilidade
É a chance de um determinado evento de interesse ocorrer.
e) Probabilidades condicionadas:
é a probabilidade de um evento em particular acontecer se outro evento (ou um conjunto de condições) também
aconteceu.
Ex.: A probabilidade de contrair câncer se você é fumante é uma probabilidade condicional, tanto como a
probabilidade de doença cardíaca se você beber quantias moderadas de cerveja.
OBS: Como aplicar a probabilidade na análise de dados? Lembre-se, a estatística inferencial é uma coleção de técnicas utilizadas
para tirar conclusões a partir de um conjunto de dados. Uma pesquisa é geralmente conduzida com o objetivo de tirar
conclusões de observações, isto é, com o objetivo de fazer inferências.
Na maioria das vezes, quando testamos uma amostra de pessoas, estamos tentando tirar conclusões sobre a população de onde
a amostra foi retirada. Se quiséssemos descobrir se a ansiedade gerada pela estatística está relacionada à procrastinação,
selecionaríamos aleatoriamente uma amostra e obteríamos os valores dessas duas variáveis. Desses dados faríamos inferências
sobre a relação dessas duas variáveis na população. Para esse fim usamos técnicas de estatística inferencial. Entretanto, existe a
possibilidade de tirarmos as conclusões erradas de nossas análises estatísticas. Isso acontece, porque as técnicas estatísticas que
usamos, para tirar conclusões, são baseadas em probabilidades. Portanto, é importante estar sempre ciente da falibilidade de
tais técnicas.
Essa distribuição nos permite comparar valores de amostras diferentes, valores de uma mesma amostra e muito
mais.
f) Como utilizá-la?
Ele é o número de desvios padrão a contar da média, isto é, ele indica quantos desvios padrão o nosso valor está
acima ou abaixo da média.
Se ele der:
Portanto, um valor-z igual a 1 nos informa que ele está um desvio padrão acima da média da distribuição.
Ex.: A média para valores de QI em testes de inteligência é 100 com um desvio padrão de 15. Se você tem um QI de
135, seu valor-z seria:
Isto quer dizer que seu QI está 2,33 desvios padrão acima da média: você tem um valor-z de 2,33.
ATENÇÃO!!! Como a DNP é uma distribuição de probabilidade. E a distribuição de probabilidade é uma distribuição
matemática de valores, em que conhecemos as probabilidades associadas com a ocorrência de cada valor na
distribuição e sabemos qual é a probabilidade da seleção aleatória de um valor em particular ou de um conjunto de
valores da distribuição. Teremos que 68% até 70% de probabilidade de encontrarmos ao acaso um valor entre os
scores -1 e 1.
Atenção!!!! Valores-z extremos (acima de 2 e abaixo de -2), têm uma chance bem menor de serem obtidos do que
valores no meio da distribuição.
g) Comparando populações:
Pág 119