0% acharam este documento útil (0 voto)
174 visualizações56 páginas

Estatística na Qualidade de Alimentos

Este documento discute conceitos estatísticos básicos aplicados à qualidade de alimentos, incluindo distribuição de dados, medidas de tendência central e dispersão, testes estatísticos e correlação. Apresenta os conceitos de forma a desmistificar visões negativas sobre estatística e demonstrar formas objetivas de aplicá-la em estudos de qualidade e segurança alimentar.
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
174 visualizações56 páginas

Estatística na Qualidade de Alimentos

Este documento discute conceitos estatísticos básicos aplicados à qualidade de alimentos, incluindo distribuição de dados, medidas de tendência central e dispersão, testes estatísticos e correlação. Apresenta os conceitos de forma a desmistificar visões negativas sobre estatística e demonstrar formas objetivas de aplicá-la em estudos de qualidade e segurança alimentar.
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd

Estatística Básica Aplicada à

Qualidade na Indústria de
Alimentos
Alinhamento de Expectativas
• 1° Parte: Conceitos Gerais da Estatística e Análise Exploratória de
Dados

• 2° Parte: Distribuição Normal e Testes estatísticos

• 3° Parte: Testes para comparação de Amostras

• 4° Parte: Correlação
O que vêm a sua mente quando percebe que precisa usar estatística?
Esse negócio não vai dar certo,
Putz Olhando
euDeus, esses
não devia ter dois conjuntos de dados
Meu
Sai pra nunca
lá com já tentei
vou da outra vez, depender
essediferença
negócio,
doado parece
aquelafazer haver
calculadora significativa.
conseguir tô do Excel
isso!!!!
fora!!! para fazer esses testes
científica para o meué um verdadeiroparecido,
Humm mas aquele ali ta meio
pesadelo.
será que
sobrinho! tem diferença mesmo? Bah
acho que se eu olhar as médias vai ter...
• Este nosso treinamento vem com o objetivo de desmistificar essas
visões acerca da estatística e demonstrar formas objetivas e
relativamente fáceis de aplica-la em estudos na área da Qualidade e
Segurança de Alimentos
Conceitos Gerais da Estatística

• A ciência não é um conhecimento definitivo


sobre a realidade, mas um conhecimento
hipotético → Método Científico exige
organizar os dados, analisar e tomar
decisões em situações de incerteza.

• Estatística dá suporte técnico a esse


trabalho, a qual pode ser vista como uma
ferramenta do método científico pelo
pesquisador
Variáveis
• Variável Qualitativa: Quando os dados podem ser distribuídos
em categorias mutuamente exclusivas.
• Exemplo: Cor; causa da morte, grupo sanguíneo,
presença/ausência etc; estágio da doença, etc.

• Variável Quantitativa: Quando é expressa por números:


• Exemplo: pH; Acidez; Contagem de Mesófilos; temperatura, etc.
Tipos de Amostra
• Amostra Casual Simples: É composta por elementos retirados ao acaso da
população. “Amostra aleatória”.
• Ex.: Amostra da água de enxágue para acompanhamento semanal da eficiência do
CIP; Swab microbiológico operacional.
• Amostra Sistemática: Não são escolhidas ao acaso, mas por um sistema:
• Ex.: A cada “x” lotes de Soro concentrado coletar para Microbiologia; Nascos do
Início, meio e Fim; A cada “x” limpeza de tanque realizar Swab ATP;
• Amostra Estratificada ou composta: Amostra proveniente de todos os
estratos da população.
• Ex.: Amostra do Coletor automático; Pool das amostras físico-químicas;
• Amostra de Conveniência: Amostras escolhidas simplesmente porque se
dispunha delas.
• Ex.: Quando detectado um problema em uma amostra e se analisa mais parâmetros
nela por conta disso.
Apresentação dos dados
Tabelas
• Composta pelo Título, Corpo (linhas e colunas de dados), Cabeçalho (explica
o conteúdo das colunas) e Coluna Indicadora (especifica o conteúdo das
linhas). Algumas vezes pode ter a fonte e nota.
• Tabelas de Contingência: Usadas quando os elementos da Amostra
são classificados de acordo com dois fatores (Dupla entrada).
• Tabelas de Distribuição de Frequências:
• Usadas quando se tem um grande número de dados e uma tabela simples se
torna cansativa e não dá ao leitor uma visão global do fenômeno.
• Mas afinal, quantas classes usar? Pois se tenho poucas classes perde-se
muita informação, se tenho muitas acabo tendo um detalhamento
desnecessário.

• Não existe um “número ideal”, mas recomenda-se trabalhar de 5 a 20.


Contudo também existe uma fórmula para se determinar uma quantidade
razoável, o teorema de Sturgs.
• K = 1 + 3,222 . log n; Sendo K o número de classes e n o número de unidades
amostrais.

• Ou seja, se tenho 100 unidades amostrais (n) ➔ k = 1 + 3,222 . Log 100 ➔


K = 7,444
Gráficos
Gráfico de Barras: Usado para apresentar variáveis qualitativas ou ordinais.
Tem como base o sistema cartesiano, onde no eixo y entram as categorias das
variáveis em estudo e no eixo x (eixo Horizontal) a frequência ou o valor de
cada categoria.
- Também pode ser o contrário, onde é chamado também de gráfico de
coluna.
• Gráfico de Setores
• Usado para representar variáveis qualitativas ou ordinais.
• O cálculo da área de cada categoria leva em consideração a frequência relativa
de cada categoria e calcula-se o ângulo central.
• X = (360/100) . f
• Histograma
• Os dados apresentados em tabelas de distribuição de frequências podem ser
graficamente apresentadas em histogramas.
• As bases das barras retangulares serão iguais, correspondendo ao intervalo e a altura
será correspondente as respectivas frequências.
Medidas de Tendência Central
• Os dados quantitativos, apresentados em tabela e gráficos,
constituem a informação básica do problema em estudo.
• É conveniente mostrar, além dos dados, medidas que mostrem a
informação de maneira resumida.

• As medidas de tendência central dão o valor do ponto em torno do


qual os dados se distribuem.
• São medidas de tendência central: média aritmética, mediana e
moda.
• Média aritmética (ou simplesmente média): Soma de todos os valores dividido
pelo valor de n.
• Ex. No conjunto de dados: 03, 05, 08, 09, 13 → 𝑋= 7,60

• Mediana: Se a amostra é constituída por um número ímpar de dados, a


mediana é o valor que fica no centro dos dados ordenados.
• Ex. No conjunto de dados 04, 01, 12, 05, 06.
• Primeiro deixar na ordem, depois selecionar o número que ficará no centro → 01, 04, 05,
06, 12, Md =05

• Se a amostra é constituída por um número par, a mediana é o valor da média


aritmética dos dois valores que ficam na posição central dos dados ordenados.
• Ex. No conjunto de dados 04, 01, 13, 09, 18, 06 → 01, 04, 06, 09, 13, 18, calcular a média
entre 06 e 09, Md = 7,50
• Moda: É o valor que ocorre com maior frequência.
• Ex. 3, 4, 5, 5, 7,7, 7, 8, 10 → O valor que ocorreu com maior frequência foi o
07, logo Mo = 07

• Um conjunto de dados pode ter mais de uma moda (bimodal).


• Ex. 3, 4, 5,5,5,7,7,7,8,10 → Os valores que ocorreram com mais frequência
foram o 5 e o 7, logo meu conjunto de dados é Bimodal.
Medidas de Dispersão
• Apesar das medidas de tendência central fornecerem uma ideia do
comportamento de um conjunto de dados, elas podem esconder
valiosas informações.

• A dispersão de um conjunto de dados se refere a variedade que eles


exibem. Uma medida de dispersão fornece informação a respeito da
quantidade de variabilidade presente no conjunto de dados.

• São medidas de dispersão a amplitude, a variância e o desvio padrão.


• Amplitude: É a diferença entre o maior e o menor dado observado.

• A amplitude de Antônio é 0 (5-5); de João é 2 (6-4); de José é 10 (10-0) e de Pedro


é 10 (10-0).
• A amplitude nesse caso não mostra que a nota de Pedro variou mais que a de
José!
• Por trabalhar com valores extremos a amplitude não mede muito bem a dispersão
dos dados, porém quando usada na forma de gráficos (boxplot) pode ajudar na
interpretação.
Variância:
• Os dados distribuem-se em torno da média. Então o grau de dispersão de um
conjunto de dados pode ser medido pelos desvios em relação a média.
• Desvio em relação a média é a diferença entre cada dado e a média do conjunto.
• Ex. Se a idade média de uma população é de 30 anos, a pessoa que tiver 54 anos terá um
desvio em relação a média de 24 anos (54-30=24).

• Como cada dado tem um desvio em relação a média, para julgar o grau de
dispersão de uma amostra é preciso observar todos os desvios.

• Temos então um problema, pois não se pode calcular a média dos desvios,
porque a soma dos desvios sempre será zero!
• Considere os seguintes dados:
• 0, 4, 6, 8 e 7.
• A média destes dados é igual a 05.
• Os desvios em relação a média seriam os seguintes:
0 – 5 = -5
4 – 5 = -1
6–5=1
8–5=3
7–5=2

Em conjunto, esses desvios mostram o grau de dispersão dos dados em torno da média,
mas a soma destes desvios é igual a zero (-5 - 1 + 1 + 3 + 2 = 0), porque os valores
negativos se anulam.
• Elevando tudo ao quadrado!
• Como todos os quadrados de números negativos são positivos, toda a soma
dos quadrados é positiva ou nula (quando todos os desvios forem zero).

• Vem então a primeira medida de dispersão dos dados: A soma dos quadrados
dos desvios

• Porém ela tem um problema... Mesmo que a dispersão se mantenha constante,


quanto maior for o meu n amostral, maior será o meu resultado.
• Para entender essa ideia, imagine os dois grupos de pessoas:
• No primeiro grupo, formado por 03 pessoas, as pessoas tem os seguintes pesos: 60, 70 e
80.
• No segundo grupo, formado por 06 pessoas: 60, 60, 70, 70, 80, 80.
• Ambos tem média de 70, mas agora compare a soma do quadrado dos desvios:
• Portanto a soma dos quadrados dos desvios por si só não é um bom descritor
do grau de dispersão dos dados.
• Levando em consideração o tamanho da amostra.
• Fazendo a soma dos quadrados dos desvios e dividindo pelo valor de n-1
chegamos ao que é chamado de variância, representada pelo símbolo s².
• Calcule a Variância considerando os seguintes dados: 0, 4, 6, 8 e 7.
• A média destes dados é igual a 05.
• Os desvios em relação a média seriam os seguintes:
0 – 5 = -5
4 – 5 = -1
6–5=1
8–5=3
7–5=2
• A soma do quadrado dos desvios:
25 + 1 + 1 + 9 +4 = 40
• O valor de n é igual a 05, menos um é igual a 04.
S² = 40/4 → s² = 10
• Voltando para as notas, conseguimos enxergar o porque a variância é uma
boa medida de dispersão

• Porém, a variância tem a desvantagem de apresentar a unidade de medida


sempre igual ao quadrado da unidade de medida dos dados. Por exemplo, se
os dados estão em metros, a variância fica em metros quadrados.
• Existe outra medida de dispersão que apresenta todas as propriedades da
variância, porém tem a mesma unidade de medida dos dados.
• É o desvio padrão, definido como a raiz quadrada da variância, com sinal
positivo, o qual é representado pela letra s.

• Para as notas, as quais já foram calculadas a variância, temos o desvio padrão


como: 0; 1; 3,5 e 5.
Coeficiente de Variação.

É a razão entre o desvio padrão e a média, onde o resultado é multiplicado por


100, para que o coeficiente de variação seja dado em porcentagem.
CV = s/ 𝑋. 100
Imagine os dois grupos de pessoas com as seguintes idades:
Grupo A: 3, 1 e 5 e Grupo B: 55, 57 e 53
No primeiro grupo a média de idade é 3 anos e no segundo grupo é 55 anos. Nos dois
grupos a dispersão dos dados é a mesma, ambos tem s²=4.
Porém a diferença de dois anos é muito mais importante no primeiro grupo que tem média
03, do que no segundo que tem média 55.
CV Grupo A: 2/3 . 100 = 66,67%
CV Grupo B: 2/55 . 100 = 3,64%
• O Coeficiente de Variação indica a Dispersão Relativa, ou melhor dizendo traz
a dispersão em porcentagem.

• Enquanto que a variância e o desvio padrão indicam a dispersão do conjunto


total dos dados em torno da média.

• Qual é a aplicação do coeficiente de variação?


• O CV mede a dispersão em termos percentuais e não na unidade de medida dos
valores.
• Com isso conseguimos comparar qual conjunto de dados variou mais mesmo com
unidades de medidas diferentes.
• Ex. Peso x Altura; Pressão x Velocidade, etc.
2° Parte Distribuição Normal
• Ao obter dados, todas as medidas de mensuração estão sujeitas a um erro de
medida, a qual pode ter diferentes fontes, desde a variação da temperatura,
umidade do ar, tempo e inúmeras outras não identificáveis.

• Com isso, geramos uma diferença entre os dados obtidos, os quais seguiram
uma probabilidade de serem obtidos.

• Seguindo uma linha de raciocínio bem simples, a distribuição normal avalia se


os dados obtidos estão de acordo com a probabilidade de serem obtidos
aqueles dados.
• Como então é definido essa probabilidade?
• Existe uma fórmula matemática para definir se os dados seguem distribuição normal,
contudo como o objetivo do curso é simplificar o uso da estatística iremos direto ao
ponto.

• A maioria das variáveis ao serem obtidas ao acaso, permitem construir um


histograma que quando possuem distribuição normal apresentam aparência
típica.
• A distribuição normal tem as seguintes características:
• A variável aleatória pode assumir qualquer valor real.
• O gráfico é uma curva em forma de sino, simétrica em torno da média.
• A área total sob a curva vale 1 (ou 100% em termos probabilísticos)
• Como a curva é simétrica em torno da média e os valores menores ou maiores do que a
média ocorrem com igual probabilidade.
• A configuração da curva é dada por dois parâmetros: a média e a variância, mudando a
média muda a posição da distribuição, mudando a variância mudamos a dispersão.
• Como posso saber se os meus dados seguem distribuição normal? Para que eu
preciso saber?
• Existem diversas formas de se saber se os dados seguem distribuição normal, contudo a
forma que irei lhes passar é através do Teste de Shapiro-Wilk, Kolmogorv-Smirnov e Teste
Liliefors.
• Para obtermos inferências mais robustas a partir dos nossos dados, podemos aplicar
testes estatísticos paramétricos como Correlação e testes de comparação de médias.
• Mas estes testes possuem como pressupostos que os dados sigam distribuição normal,
pois ao utilizarem-se principalmente da média para os seus cálculos, a média deve ser um
bom descritor amostral.

• Antes de aplicarmos um teste para verificar normalidade, devemos ter em


mente que nem todos os fenômenos estudados seguem distribuição normal e
não é por isso que os dados “são ruins”, deve-se sempre ter conhecimento do
tipo de fenômeno que está se buscando explicar.
Conceitos importantes antes de aplicarmos e interpretarmos um teste estatístico:
• Erro do Tipo 01 e do Tipo 02.

• Em estatística há um consenso no qual é considerado como um limite aceitável


de erro 5% de probabilidade. Porém esse limite é o Pesquisador quem determina.
• Esse “limite aceitável” também é chamado de Nível de Significância e é simbolizado pelo α
(alfa).
• Como resultado dos testes estatísticos sempre teremos um valor calculado do teste o qual
é comparado com o Valor crítico do resultado (o qual é estabelecido com base no n
amostral). O valor crítico é o maior valor que posso encontrar sem extrapolar o meu nível
de significância. Porém, para fins práticos na indústria trabalharemos somente com o valor
de p fornecido pelo teste.
• Ficando o valor de p menor que 5%, podemos rejeitar a hipótese nula do teste e ficando o p
maior ou igual a 5% (0,05) não rejeitamos a hipótese nula.
• Teste de Shapiro-Wilk através do software Bioestat 5.3
• Software gratuito disponível no site
https://www.mamiraua.org.br/downloads/programas/

• O BioEstat calcula este teste para amostras: 2 < n < 51.


• Portanto não é recomendado para amostras com n maior que 51.
• H0: a variável é normalmente distribuída;
• H1: a variável não apresenta normalidade em sua distribuição;
• Nível de decisão: alfa = 0.05 → Valor de p menor que 0,05 rejeito H0, valor de p
maior que 0,05 aceito H0
• Teste de Kolmogorov-Smirnov
• Prova de aderência destinada a comparar o grau de concordância entre a distribuição
acumulada de um conjunto de valores de uma amostra com a distribuição teórica
acumulada esperada.
• O que isso significa? Que irá comparar a distribuição dos nossos dados com uma distribuição normal
teórica.
• O que seria essa Distribuição Normal Teórica? A distribuição da população.
• Para isso então deve-se ter a média e o desvio padrão da População.
• Se estiver disponível essa informação é um teste muito importante e pode ser usado para amostras
grandes.
• Mesma interpretação do Teste de Shapiro Wilk:
• H0: a variável é normalmente distribuída;
• H1: a variável não apresenta normalidade em sua distribuição;
• Nível de decisão: alfa = 0.05 → Valor de p menor que 0,05 rejeito H0, valor de p maior que 0,05 aceito
H0
• Teste de Liliefors
• Uma “adaptação” do Kolmogorov Smirnov, possibilitando verificar normalidade em
amostras grandes sem precisar da média teórica e desvio padrão teórico.
• Mesma interpretação do Teste de Shapiro Wilk e Kolmogorov-Smirnov:
• H0: a variável é normalmente distribuída;
• H1: a variável não apresenta normalidade em sua distribuição;
• Nível de decisão: alfa = 0.05 → Valor de p menor que 0,05 rejeito H0, valor de p maior que 0,05 aceito
H0
Meus dados não
seguem distribuição
normal. E agora meu
Deus?!
• Verificar a presença de Valores extremos ou Outliers
• Também chamados de Dados discrepantes, pontos fora da curva, observações fora do
comum, anomalias, valores atípicos, dentre outros.

• Um valor extremo pode ser introduzido em um conjunto de observações em decorrência


de falha na coleta de dados, de erro no registro durante a coleta, na introdução
equivocada desse escore no momento da execução dos cálculos ou, ainda, do fato de que
o valor extremo obtido está correto.

• Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e


provavelmente irá) causar anomalias nos resultados obtidos.
• Como identificar os outliers?
• Uso de gráficos: Gráfico de dispersão e Box-Plot.
• Na estatística, o Boxplot, ou diagrama de caixa, é uma maneira gráfica de representar a alteração dos
dados de uma variável por meio de quartis.
• Fornece informação sobre as seguintes características do conjunto de dados: localização, dispersão,
assimetria, comprimento da cauda e outliers.
• Em um boxplot são apresentadas 5 estatísticas: o mínimo, o primeiro quartil (Q1), a mediana, o
terceiro quartil (Q3) e o máximo.
• O Centro da Distribuição é indicada pela linha da mediana
• A dispersão é avaliada pela amplitude.
• O retângulo contém 50% dos valores do conjunto de dados.
• Uma distribuição simétrica teria a mediana no centro do retângulo.
• A mediana próxima de Q1 os dados são positivamente assimétricos
• Mediana próxima de Q3 os dados são negativamente assimétricos.
• Os outliers aparecem como pontos/asteriscos fora das “linhas”
• Identificar outliers através de testes estatísticos:
• Teste de Valores extremos baseado nos desvios.
• O programa determina a quantidade de possíveis outliers com base na equação:
• min({n/10},5); onde n é o tamanho da amostra e cinco (5) é a quantidade
máxima de valores extremos que podem ser detectados em uma distribuição
normal.
• Teste de Valores extremos com base nos quartis
• A determinação dos valores extremos pode ser calculada com base nos
quartis, onde os outliers serão:
• a) Os escores menores que o limite inferior, com base no primeiro quartil
ajustado;
• b) Os escores maiores que o limite superior, baseado no terceiro quartil ajustado
• O que fazer com os outliers?

• Excluir as observações discrepantes da amostra de dados: quando suspeita-se que o


dado discrepante é fruto de um erro de coleta ou instrumentação, então ele precisa ser
removido da amostra.
• Realizar uma análise separada apenas com os outliers, se no caso forem muitos.
• Utilizar métodos de agrupamento (clusterização) para encontrar uma aproximação que
corrige e dá um novo valor aos dados outliers, quando não podemos excluir esses dados
por conta devido a perdermos mais dados com a exclusão. → Último caso.

• Os programas estatísticos e os gráficos nos dão uma panorama sobre os


outliers, mas a decisão de exclusão cabe ao analista através de observação de
outros fatores, pois aquele dado pode ser realmente um dado real.
Poucos dados: Dados insuficientes podem fazer com que uma distribuição normal pareça
completamente deformada.

Distribuição não normal: Por vezes, a distribuição pode simplesmente ser de outra natureza
por conta da natureza do fenômeno avaliado.

Coleta incorreta dos dados: Se em um planilha existe uma coluna na qual é esperada uma
curva normal, e esta fica deformada, verifique se não há filtros aplicados, ou se a coleta está
sendo feita de forma adequada.
• Por conta de existirem fenômenos que ao serem obtidos dados os mesmos não
seguirem distribuição normal por conta da sua natureza, existe na estatística a
opção de transformação dos dados.

• Assim como existem os testes estatísticos não-paramétricos que não se


baseiam na média para os cálculos do teste e que ajudam o pesquisador a
tomar inferências a cerca dos seus resultados.

• Contudo os testes não-paramétricos são menos poderosos que os testes


paramétricos.
• Em estatística entende-se como “menos poderosos” a maior probabilidade
de erro do Tipo 01.
3° Parte: Testes para comparação de Médias
• DUAS AMOSTRAS INDEPENDENTES: Um dos testes mais frequentes em
estatística consiste na avaliação da diferença entre duas amostras
independentes, que devem representar as respectivas populações, em
que os dados de uma não estão relacionados com os escores da outra.

• DUAS AMOSTRAS RELACIONADAS: avaliação da diferença entre duas


amostras relacionadas, que devem representar as respectivas populações,
em que os dados de uma estão relacionados com os escores da outra

• Testes paramétricos:
Teste t: dados amostrais;
Teste Z: dados amostrais;
• TESTE t DE STUDENT: DADOS AMOSTRAIS:
Possui os dois tipos, independentes e relacionadas.
• Teste paramétrico de largo uso o qual possui os seguintes pressupostos para
duas amostras independentes:
• n menor ou igual a 30
• As variâncias das duas amostras comparadas devem ser homogêneas
(homocedasticidade)
• As amostras devem apresentar distribuição normal
Para duas amostras relacionadas os dados só precisam seguir distribuição
normal

• H0: A diferença não é estatisticamente significativa;


• H1: A diferença é estatisticamente significativa;
• Nível de decisão: alfa = 0.05 → Valor de p menor que 0,05 rejeito H0, valor
de p maior que 0,05 aceito H0
• TESTE Z: DADOS AMOSTRAIS
• Apresenta características semelhantes ao Teste t, mas é indicado para duas
amostras independentes quando n é maior do que 30.
• Também possui o pressuposto de que as duas amostras sigam distribuição
normal, mas não precisa ter variâncias homogêneas.
• Antes de se realizar o teste precisa-se obter o valor da variância.

• Mesma decisão do teste t


• H0: A diferença não é estatisticamente significativa;
• H1: A diferença é estatisticamente significativa;
• Nível de decisão: alfa = 0.05 → Valor de p menor que 0,05 rejeito H0,
valor de p maior que 0,05 aceito H0
• Teste de Wilcoxon
Prova não-paramétrica destinada a comparar duas amostras relacionadas do
mesmo tamanho ou desiguais, cujos escores tenham sido mensurados pelo
menos a nível ordinal.

• Wilcoxon-Mann-Whitney
Prova não-paramétrica destinada a comparar duas amostras independentes do
mesmo tamanho ou desiguais, cujos escores tenham sido mensurados pelo
menos a nível ordinal.

• Mesma decisão do teste t


• H0: A diferença não é estatisticamente significativa;
• H1: A diferença é estatisticamente significativa;
• Nível de decisão: alfa = 0.05 → Valor de p menor que 0,05 rejeito H0, valor
de p maior que 0,05 aceito H0
4° Parte: Correlação
• A Análise de Correlação proporciona um
meio de se verificar o grau de associação
entre duas ou mais variáveis.

• Existem diversos testes de correlação, mas


no nosso caso iremos focar no Teste de
Correlação de Pearson.

• O teste avalia como a variável x


(independente) influencia na Variável y
(dependente) -> y=f(x)
• COEFICIENTE DE CORRELAÇÃO DE PEARSON
• Recomendável trabalhar o Teste de Correlação de Pearson associado ao
gráfico de Dispersão e linha de tendência linear (excel).
• Possui como pressuposto a distribuição normal dos dados.

• H0: Não há correlação entre as variáveis;


• H1: Há correlação entre as duas variáveis;
• Nível de decisão: alfa = 0.05 → Valor de p menor que 0,05 rejeito H0,
valor de p maior que 0,05 aceito H0

• Valores de R2 quanto mais próximo de 1 mais forte é a correlação.


• R2 ≤ 0,40: Fraca correlação
• R2 > 0,40 ≤ 0,70: Moderada correlação
• R2 > 0,70 ≤ 0,9: Forte correlação
• R2 > 0,90 ≤ 1,0: Muito Forte correlação
• COEFICIENTE DE CORRELAÇÃO DE SPEARMAN
• Teste não-paramétrico, portanto não tem pressupostos lineares como na
correlação de Pearson.

• H0: Não há correlação entre as variáveis;


• H1: Há correlação entre as duas variáveis;
• Nível de decisão: alfa = 0.05 → Valor de p menor que 0,05 rejeito H0, valor
de p maior que 0,05 aceito H0

r = ≤0,30 -> correlação fraca


r = 0,31 - 0,50 -> correlação moderada
r = 0,51 - 0,70 -> correlação forte
r = 0,71 – 1,0 -> correlação Muito Forte
• Um cuidado que devemos tomar
é com as “falsas correlações”,
pois os testes estatístico fazem
somente a parte matemática, a
parte de inferência através do
teste fica por conta do
pesquisador.

• Atenta-se se a lógica entre as


duas variáveis tem um sentido
real.
FLUXOGRAMA

• Organizar os Dados em tabelas

• Obter as medidas de Tendência Central e de Dispersão (Média, moda, mediana, variância e


Desvio padrão) e construir gráficos

• Realizar o teste para verificar Distribuição Normal (Shapiro-Wilk, K-S, Liliefors)

• No caso de Distribuição Não Normal verificar outliers (gráfico box-plot ou teste de Valores
extremos)

• Realizar teste estatístico adequado para atender o objetivo da pesquisa (Teste T, Teste Z ou
Correlação linear de Pearson, Correlação de Spearman)
• Aos Desenvolvedores do Programa Bioestat 5.3
Desenvolvimento Estatístico
• Manuel Ayres
Professor Emérito da Universidade Federal do Pará
• Manuel Ayres Jr. Ph.D.,
Universidade de Maryland

Desenvolvimento do Software
• Daniel Lima Ayres
Engenheiro de Computação
Universidade de Illinois
• Alex de Assis Santos dos Santos
Tecnólogo em Processamento de Dados
Instituto Bioestatístico de Ciência e Tecnologia
• O Instituto Mamirauá

• É uma Organização Social


fomentada e supervisionada pelo
MCTI. Desde o início, o Instituto
Mamirauá desenvolve suas
atividades por meio de programas
de pesquisa, manejo de recursos
naturais e desenvolvimento social,
principalmente na região do
Médio Solimões, estado do
Amazonas.
• Doe para o Instituto Mamirauá

• https://doe.mamiraua.org.br/salvandoamazoniaem1passo/single_step
OBRIGADO!

Você também pode gostar