Normalidade e testes
estatísticos
Ivan Onone Gialain
[email protected]
Quais são os dados que serão estudados
Variáveis independentes (exposição)
Variáveis dependentes (desfecho)
Número de grupos e se são pareados
(relacionados)
Escolha dos
testes Tipos de variáveis
Qualitativas (nominal ou ordinal)
Quantitativas (discreta ou contínua)
Para qualitativas – número de classes
Para quantitavias – distribuição normal
Temos um novo conceito agora. Os grupos
podem ser pareados ou independentes
Pareamento e
independência Começando com grupos independentes: são
medidas feitas em objetos, pessoas ou
fenômenos que não tem relação entre si
Grupos pareados: significa que podemos
Pareamento e encontrar algum tipo de relação entre uma
independência medida que foi coletada de um grupo em
relação a outro grupo.
Quando temos pareamento entre os grupos,
não vemos apenas os grupos de maneira geral.
O teste vai comparar cada caso com seu par
Pareamento
Exemplos de pareamento: mesmo paciente
medido do lado direito ou esquerdo; mesmo
objeto medido com instrumentos diferentes
Tudo aquilo que é mais comum de aparecer
‘ANORMAL’ é algo diferente, que não é tão
comum
Conceito de
normalidade Ex: eu tenho uma anormalidade, sou canhoto.
O normal para os seres humanos é ser destro.
Não existe relação se está certo ou errado,
apenas que não é tão comum
Também chamada de distribuição de Gauss ou
curva gaussiana
É um tipo de distribuição de dado onde há
equilíbrio, isto é, a maioria dos valores são mais
Distribuição centrais, e valores extremos são menos comuns
normal
Vamos pensar em relação de altura. O que é
considerado normal em São Paulo, um homem
com 1,70m ou com 2,15m?
Vemos isso pois percebemos que um grande número de
homens tem altura próxima desse valor médio, e menos
com alturas mais extremas
Percebemos que na natureza existe esse
equilíbrio em muitos aspectos
Distribuição Essa distribuição pode ser encontrada para
variáveis numéricas e (quase sempre) contínuas
normal
Para entender vamos observar o gráfico
histograma que pode também ser desenhado
como um gráfico de linha
Lembrar que o histograma é um gráfico que
demonstra frequência
Portanto quando falamos de distribuição
normal, vemos a frequência com que cada
IMPORTANTE valor aparece
Ainda no exemplo da altura, vamos ver a
frequência de pessoas com cada altura (ou em
cada grupo de altura)
Um histograma pode ser
demonstrado como barras
justapostas (uma “colada” a
outra”
Barras ou linha
Ou podemos criar uma linha
onde unimos os topos das
barras
Observar a linha laranja
Podemos observar que a
altura com maior frequência
é de 1,70m
Interpretar
Quanto mais extremo,
observamos uma frequência
menor de pessoas
Observando essa linha e não as barras,
normalmente prestamos atenção no formato
dessa curva
Curva normal Chamamos de curva normal ou gaussiana
Se pensarmos numa curva normal perfeita
(quase impossível de acontecer) teremos uma
série de informações
A média, mediana e moda são coincidentes (tem o
mesmo valor)
A curva do gráfico tem sempre o formato de sino
Metade dos valores são menos que a média e a outra
metade é maior
Curva perfeita
Quando temos uma distância da média de um desvio
padrão para mais ou para cima, temos
aproximadamente 68% da população nesse intervalo
Se utilizarmos duas vezes o desvio padrão para mais ou
para menos, estamos contando com aproximadamente
95% da população
Curva perfeita
Curvas mais “magras” – menor desvio padrão
Curvas mais “abertas” – maior desvio padrão
Curvas com mesmo pico – tendência na média
Observações das curvas, podendo ter dispersões diferentes
da curva
Existem diferentes tipos de testes, os que eu
mais utilizo são:
Shapiro-Wilk: quase sempre, a menos que a
Testes de amostra seja muito grande (acima de 50)
normalidade
Kolmogorov-Smirnov ou Lilliefors: para
amostras maiores
H0 = distribuição normal
Amostras com distribuição normal: vamos
considerar a média e desvio padrão como
valores de estudo
Utilização
prática
Amostras sem distribuição normal: vamos
considerar a mediana e intervalo interquartílico
para fazer nossas comparações
Concordância (testes de diagnóstico)
Verificar se os avaliadores estão calibrados – tem
resultados semelhantes
Comparação
Procura se há diferença entre os grupos estudados
Tipos de testes
Correlação
2 variáveis que se alterem da mesma maneira – não
mostra causalidade
Regressão
O quanto uma variável influencia o valor de outra
variável
Muito utilizados para verificar a concordância
entre avaliadores ou intra-avaliador (dele com
ele mesmo, em momentos diferentes)
O resultado final do teste é entre 0 e 1 –
Testes de queremos ao menos 0,75
concordância
Quanto mais alto, maior a concordância entre
as situações
Muito usado para calibração prévia ao estudo
Apresenta a Livre da
condição condição
Verdadeiro
Teste de Teste positivo
positivo
Falso positivo
diagnóstico
Verdadeiro
Teste negativo Falso negativo
negativo
Variável
dicotômica A partir destes dados, podemos calcular os
seguintes padrões do teste:
• Acurácia
• Sensibilidade
• Especificidade
Acurácia: capacidade do teste de diagnosticar
corretamente
𝑉𝑃+𝑉𝑁
𝑉𝑃+𝐹𝑃+𝐹𝑁+𝑉𝑁
Acurácia
Sensibilidade: encontrar os VP dentre todos os
Sensibilidade indivíduos com a condição
𝑉𝑃
𝑉𝑃+𝐹𝑁
Especificidade
Especificidade: encontrar os VN dentre todos
os indivíduos sem a condição
𝑉𝑁
𝐹𝑃+𝑉𝑁
Letra grega κ
Um teste que avalia a concordância em
variáveis qualitativas (nominais ou ordinais)
Teste kappa
Verifica se os dois avaliadores, ou o mesmo em
tempos diferentes, avaliam a situação da
mesma maneira
As respostas precisam ser únicas e excludentes
Teste semelhante ao teste kappa
Coeficiente de Para variáveis numéricas (discretas ou
correlação contínuas)
intraclasse
Avalia quanto dois avaliadores variam suas
observações
Variáveis qualitativas
Principalmente nominais
Aplicado a dados nominais ou ordinais
(normalmente)
Avalia frequências e a proporção entre elas
Teste Número de observações em cada grupo deve ser
de, no mínimo, 10 eventos
qui-quadrado
χ² Muitas vezes usamos tabelas 2x2
Duas variáveis dicotômicas
O valor do χ² é consultado em uma tabela (valor
crítico)
Principais aplicações
Verificar aderência: se a distribuição de
frequências que foi observada é semelhante à
Teste esperada – comparação
qui-quadrado H0 = a freq. observada é semelhante à esperada
χ² Diferença entre os grupos (outra opção é o teste
exato de Fisher – n pequeno)
Verificar independência entre duas variáveis.
Se um interfere em outra - associação
H0 = não há associação entre as variáveis
Em tabelas 2 x 2, se as variáveis forem pareadas
Por exemplo, estamos avaliando o resultado dos
mesmos pacientes em 2 tipos de testes diferentes
Teste de
O teste de McNemar verifica a diferença entre as
McNemar variáveis
H0: não há diferença
Se houver 3 ou mais variáveis independentes, mas
pareadas, usamos o teste Q de Cochram
Uma variação do teste qui-quadrado
Mede o grau de associação entre duas variáveis
Correlação em uma tabela 2x2
entre variáveis
qualitativas
Dois resultados:
Teste de Yule
Teste de Yule: mostra a associação (positiva ou
negativa)
Qui-quadrado: mostra a significância
Variáveis quantitativas
ou qualitativas ordinais
Testes não paramétricos podem ser usados para qualitativas
ordinais
Primeiro passo: verificar normalidade
Se as variáveis são pareadas
Testes de
Entre 2 grupos:
comparação Teste t de Student ou teste t pareado
entre variáveis Teste de Mann-Whitney ou Wilcoxon
numéricas
Entre 3 ou mais grupos:
ANOVA ou ANOVA de medidas repetidas
Kruskal-Wallis ou Friedman
Nesses testes, o resultado mostra se há ou não
diferença entre os grupos
Testes com 3 Mas não indica onde está a diferença
ou mais grupos
Para isso utilizaremos testes de comparação
múltipla (ou post hoc) – minhas escolhas
ANOVA com Tukey
Kruskal-Walis e Friedman com Dunn
Lembrar do gráfico de dispersão
Os testes de correlação mostra se as duas
Testes de variáveis sofrem alterações simultâneas
correlação Não mostra efeito de causalidade
entre variáveis
numéricas
Resultado em forma de um coeficiente de
correlação
Vamos ver apenas a correlação linear
O coeficiente pode ser:
Positivo: ao observar aumento em uma variável a
outra também aumenta OU observamos
diminuição em uma variável e a outra também
diminui
Coeficiente de
correlação Negativo: enquanto uma aumenta o valor, a outra
letra r abaixa
Forte: os dados se apresentam menos dispersos
Fraca: os dados se apresentam muito dispersos
r = 1; correlação
perfeita positiva
r = -1; correlação
perfeita negativa
r = 0; correlação
nula
Para amostras paramétricas, utilizamos o teste
de correlação de Pearson
Resultado em forma de r
Paramétricos
Para amostras não-paramétricas, utilizamos o
Não- teste de correlação de Spearman
Resultado em forma de ro (ρ)
paramétricos
Os resultados dos coeficientes podem ou não
ser significantes (p valor)
Na correlação nós observamos se as variáveis
caminha juntas, em sentidos opostos ou se não
tem relação entre si
Testes de Na regressão, procuramos saber quanto a
regressão variação de um dado influencia a variação de
outro
Por exemplo, quanto meu salário aumenta a
cada hora que eu trabalho a mais
Podemos ter testes de regressão entre duas
variáveis numéricas
Regressão linear
Resultado aparece com r²
Regressão
Podemos utilizar com a variável dependente
(desfecho) é categórica (binária)
Regressão logística
Existe uma fórmula que mostra a associação
entre as duas variáveis (relação de X
influenciando Y)
Regressão Y = a + bX
linear Constante: onde a “reta” começa
Coef. angular: angulação da reta
Com essa fórmula definida, podemos prever o
valor de Y, a partir de um valor de X
Primeiro devemos entender qual a natureza
das nossas variáveis
Sequencia Para variáveis nominais normalmente
para decidir o utilizamos:
Qui-quadrado – para comparação e associação
teste McNemar ou Q de Cochram – grupos pareados
estatístico Regressão logística
Em variáveis ordinais, vamos utilizar os teste
não-paramétricos
Em variáveis numéricas:
Precisamos fazer o teste de normalidade e
depois decidir de acordo com o tipo de análise
Sequencia
para decidir o Comparação: 2 grupos ou 3+ grupos
teste
Comparação: grupos pareados ou
estatístico independentes
Correlação: Pearson ou Spearman
Regressão: linear (só falamos dessa)