0% acharam este documento útil (0 voto)

307 visualizações57 páginas

Fundamentos de Bioestatística

A Unidade II discute técnicas estatísticas para tomada de decisões, incluindo conceitos de probabilidade, inferência estatística, testes de hipóteses e correlação. Ela também apresenta as principais distribuições teóricas de probabilidade usadas em bioestatística, como a distribuição normal.

Enviado por

rafa141088

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

307 visualizações57 páginas

Fundamentos de Bioestatística

Enviado por

rafa141088

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Unidade II

Unidade II
Como já falamos, o objetivo maior da Bioestatística é a tomada de decisões, agora trataremos
exatamente das técnicas disponíveis para tomada de decisões. Iniciaremos com uma revisão de conceitos
de probabilidade para entendermos melhor como esses conceitos são utilizados em bioestatística, pois
podem nos apresentar proporções interessantes a respeito de amostras.

A inferência estatística é o momento em que podemos determinar os parâmetros de nossas variáveis

e, consequentemente, chegar a conclusões a respeito da população em estudo por meio da amostra.

As técnicas que apresentaremos são os testes de hipóteses para amostras pequenas e grandes,
incluindo o teste T de Student e o teste qui‑quadrado.

Esses testes nos permitem levantar hipóteses a respeito de nossa pesquisa, da amostra e da média
fazendo comparações que nos permitem validar ou não essas hipóteses.

Apresentaremos ainda o teste para correlação entre duas variáveis por meio da determinação
do coeficiente de correlação do gráfico gerado pelos dados e da equação de regressão, que nos dará
previsão de resultados para novos valores das variáveis.

5 DISTRIBUIÇÕES TEÓRICAS DE PROBABILIDADE

5.1 Introdução à probabilidade

A Teoria da Probabilidade estuda as possibilidades da ocorrência de um experimento aleatório, ou

seja, eventos que, mesmo quando repetidas inúmeras vezes, nas mesmas condições, podem apresentar
resultados diferentes.

5.1.1 Experimento aleatório

As características de um experimento aleatório são: repetir‑se várias vezes na mesma condição. O

conjunto de todos os resultados possíveis é conhecido e, mesmo assim, não se pode prever qual é o
resultado.

Os elementos de um experimento aleatório são:

Espaço amostral ou Universo (U)

É o conjunto de todos os resultados possíveis de um experimento aleatório.

90
BIOESTATÍSTICA

A cada experimento corresponde, em geral, a vários resultados possíveis.

Exemplos:

1) Quando lançamos uma moeda, há dois resultados possíveis: ocorrer cara ou coroa. Portanto, o
espaço amostral é U = {cara, coroa}.

2) Quando jogamos um dado, há seis resultados possíveis: 1, 2, 3, 4, 5 ou 6, portanto o espaço

amostral é U = {1, 2, 3, 4, 5, 6}.

3) Quando utilizamos um baralho de 52 cartas, nosso espaço amostral são as 52 cartas, que podem
ser de quatro naipes diferentes: ouros, copas, espadas e paus, conforme figura a seguir. Cada naipe
tem nove cartas numeradas de 2 a 10, o número 1 é representado pela carta Às (A) e 3 cartas
representadas pelas figuras de um valete, uma dama e um rei.

Copas Espadas Ouros Paus

Figura 75 – Naipes do baralho

4) Se lançarmos duas moedas sucessivamente, teremos o espaço amostral: U = {(Ca, Ca), (Ca, Co),
(Co, Ca), (Co, Co)}, como podemos verificar na figura a seguir:

1ª moeda 2ª moeda Resultados possíveis

Cara, cara

Cara, coroa

Coroa, cara

Coroa, coroa

Figura 76 – Diagrama das possibilidades do lançamento de duas moedas sucessivamente

5.1.2 Probabilidade da ocorrência de um evento P(A)

Chamamos de probabilidade de um evento A (A ⊂ U) o número real P(A), tal que:

n( A )
P (A ) =
n (U)

91
Unidade II

Onde:

n(A) é o número de elementos de A.;

n(U) é o número de elementos de U.

Exemplos:

1. Considerando o lançamento de uma moeda e o evento A “obter cara”, temos:

U = {Ca, Co}, então n(U) = 2 A = {Ca}, então n(A) = 1

Portanto,

1
P (A ) =
2
ou P(A) = 0,5

ou ainda P(A) = 50%

2. Sabe‑se que a quantidade de quartos do Asilo Seja Bem‑Vindo é 50, se 30 deles estão ocupados,
qual é a porcentagem de leitos ocupados?

N(U) = 50, N(A) = 30, logo:

30
P (A ) = = 0, 6
50
Ou seja 0,6 x 100 = 60% dos quartos estão ocupados.

5.1.3 Eventos complementares

Sabemos que um evento pode ocorrer (sucesso) ou não (insucesso). Sendo s a probabilidade de que
ele ocorra e i a probabilidade de que ele não ocorra, temos a relação:

s + i = 1, pois a probabilidade da ocorrência de um evento qualquer sempre está entre 0 e 1, ou seja:

0<P(A)<1.

No exemplo do asilo, temos 60% (sucesso) dos quartos ocupados, portanto, restam 40% (insucesso)
dos quartos para ser ocupados, pois 60%: 60% + 40% = 100% ou ainda:

30 20 50
+ = =1
50 50 50
92
BIOESTATÍSTICA

5.1.4 Eventos independentes (e)

Dois eventos são independentes quando a realização ou não de um não afeta a probabilidade da
realização do outro. A fórmula para seu cálculo é dada por:

P = P1 x P2

Exemplo:

No lançamento de dois dados, simultaneamente, qual a probabilidade de ocorrer 3 no primeiro dado

e 5 no segundo dado?

1 1
p1 = (3 no 1º dado) p2 = (5 no 2º dado)
6 6
Então, a probabilidade de obtermos, simultaneamente, 3 no primeiro dado e 5 no segundo dado é:

1 1 1
P= x =
6 6 36

5.1.5 Eventos mutuamente exclusivos (ou)

Dizemos que dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a
realização do(s) outro(s).

Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à
soma das probabilidades de que cada um deles se realize: P = P1 + P2

Exemplo:

No lançamento de dois dados, simultaneamente, qual a probabilidade de ocorrer 2 no primeiro ou

4 no segundo dado?

1 1
p1 = (2 no 1º dado) p2 = (4 no 2º dado)
6 6

Então, a probabilidade de obtermos 2 no primeiro dado ou 4 no segundo dado é:

1 1 2 1
P= + = =
6 6 6 3

93
Unidade II

Lembrete

Quando estamos lidando com eventos independentes (e) devemos

multiplicar as probabilidades. Para eventos dependentes (ou), somamos as
probabilidades.

Observação

Neste primeiro momento desta parte do estudo, iremos relembrar

probabilidade, pois em Bioestatística utilizamos apenas as distribuições
teóricas de probabilidade para descrever o comportamento das variáveis.

5.2 Distribuições teóricas de probabilidade

A cada variável aleatória é associada uma distribuição de probabilidade para as variáveis discretas,
especifica todos os resultados possíveis da variável aleatória e a probabilidade de sua ocorrência,
já para as contínuas, nos permite determinar as probabilidades de sua ocorrência nos intervalos
específicos de valores.

Para uma amostra de observações, a distribuição de frequências exibe os resultados observados e

quantas vezes aparecem no conjunto de dados.

A distribuição de probabilidades para variáveis aleatórias discretas mostra cada possível resultado da
variável e sua probabilidade correspondente.

As probabilidades representam a frequência relativa de ocorrência de cada resultado em vários ensaios

repetidos sob condições essenciais idênticas, o que pode ser associado com amostras infinitamente grandes.

São distribuições de probabilidade: a distribuição binomial para variáveis aleatórias discretas, a distribuição
de Poisson e a distribuição normal de probabilidade. Em Bioestatística, vamos abordar apenas a última.

Exemplos:

1. O Hospital e Maternidade Baruch de Toulouse realizará concurso para preencher alguns cargos
administrativos para os quais 100 candidatos se inscreveram. O gestor do hospital deseja saber
qual a proporção do grau de instrução dos candidatos.

Resolução:

Para tanto, basta encontrar a frequência relativa das classes e teremos a proporção do grau de
instrução dos 100 candidatos, conforme tabela a seguir.

94
BIOESTATÍSTICA

Figura 77 – Grau de instrução dos candidatos ao cargo administrativo do hospital

2. O gestor do Hospital e Maternidade Athena de Toulouse deseja saber qual a proporção de

funcionários de cada geração, entre os 30 funcionários que fizeram o curso oferecido em Ensino
a Distância. Para tanto, utilizou as respostas à questão:

Q.1: Você nasceu:

a) Antes de 1955 – considerada geração Baby Boomers.

b) Entre 1956 e 1970 – considerada geração X.

c) Entre 1971 e 1990 – considerada geração Y.

d) Após 1990 – considerada geração Z.

O gestor obteve o seguinte resultado:

Figura 78 – Proporção de respondentes em relação à geração a que pertence

95
Unidade II

Lembrete

As probabilidades representam a frequência relativa ou proporcional de

ocorrência de cada resultado:
Fi
Fr =
∑ Fi

Observação

Os cálculos de todas as frequências são apresentados quando criamos a

distribuição de frequências completa, porém, as frequências são utilizadas
de acordo com a necessidade.

5.2.1 Distribuição normal de probabilidade

A distribuição normal de probabilidade é uma das mais empregadas entre as distribuições teóricas
de variável aleatória contínua.

O aspecto gráfico de uma distribuição normal é (curva normal ou de Gauss):

f(x)

Média x

Figura 79 – Curva de Gauss

A variável x pode assumir qualquer valor real.

Curva de Gauss é uma curva em forma de sino assintótica em relação ao eixo x e simétrica em
relação à média. Portanto, a probabilidade de ocorrer valor maior que a média é igual à probabilidade de
ocorrer valor menor do que a média.

96
BIOESTATÍSTICA

Escrevemos:

P(x>x) = P(x<x) = 5.

A distribuição normal reduzida, ou padronizada, que admite média 0 e desvio padrão 1, é indicada pela
letra Z. Para reduzirmos os valores que desejamos para a curva padronizada, devemos utilizar a fórmula:

Para amostras:

x−x
Z=
S

Para população:

x−µ
Z=
σ

A utilização da fórmula nos dá a associação das probabilidades à distribuição normal reduzida, que
se apresenta na tabela de distribuição normal:

Tabela 2 – Tabela de distribuição normal reduzida. Áreas sob a curva normal padrão.
Para os valores negativos de z as áreas são obtidas por simetria

z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586
0,10 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535
0,20 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409
0,30 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173
0,40 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793
0,50 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240
0,60 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490
0,70 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524
0,80 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327
0,90 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891
1,00 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214
1,10 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298
1,20 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147
1,30 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774
1,40 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189
1,50 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408
1,60 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449
1,70 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327

97
Unidade II

1,80 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062
1,90 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670
2,00 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169
2,10 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574
2,20 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899
2,30 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158
2,40 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361
2,50 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520
2,60 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643
2,70 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736
2,80 0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807
2,90 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861
3,00 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900
3,10 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929
3,20 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950
3,30 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965
3,40 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976
3,50 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983
3,60 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989
3,70 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992
3,80 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995
3,90 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
4,00 0,49997 0,49997 0,49997 0,49997 0,49997 0,49997 0,49998 0,49998 0,49998 0,49998

Observação

Esta tabela foi criada no Microsoft Excel, com a função [Link].N

Exemplos:

1. Admitindo que a distribuição de QI dos funcionários do Hospital e Maternidade Baruch de

Toulouse seja normal, com média 100 pontos e desvio padrão 10 pontos, qual a probabilidade de
um funcionário, tomado ao acaso, apresentar QI superior a 120 pontos?

Para que possamos utilizar a tabela de distribuição Z, devemos transformar o nosso valor de QI
em Z, temos x = 100, s=10 e desejamos saber P(X)>120

x−x 120 − 100 20

Z= Z = =2
s 10 10

Portanto, queremos saber: P(X)>120, que se transforma em P(Z)>2

98
BIOESTATÍSTICA

Então, temos: P(x)>120 = P(Z)>2

Vamos então, fazer o esboço da curva normal, gráfico 13:

–5 –4 –3 –2 –1 0 1 2 3 4 5
Figura 80 – Esboço curva normal para z>2

Como queremos apenas a parte do gráfico que está em amarelo, devemos retirar o intervalo de
0 a 1, da área do gráfico, então:

P(Z) >2 = P(Z>0) – P(0<Z<2)

P(Z>0) é igual a 0,5 ou 50%, e P(0<Z<2), devemos procurar, na tabela de distribuição normal
reduzida (tabela 2), a intersecção da linha onde se encontra o nº 2,0 e a coluna 0,00, pois o número é
2,00, obtendo o valor 0,4772.

Substituindo os valores, temos:

P(Z) >2 = 0,5 – 0,4772

P(Z) >2 = 0,0228 x 100

P(Z) >2 = 2,28 %

Então, concluímos que a probabilidade de um funcionário, tomado ao acaso, apresentar QI superior

a 120 pontos é de 2,28%.

Observação

A Fórmula no Excel, nesse caso, é: =0,5‑([Link].N(2;1)‑0,5)=

2,28% (não esqueça de formatar o número da célula em que está a fórmula
para porcentagem).
99
Unidade II

2. Admitindo‑se o exemplo anterior, qual a probabilidade de um desses funcionários, tomado ao

acaso, apresentar QI entre 80 e 115 pontos?

Temos x = 100, s=10 e desejamos saber P(80<X<115)

x−x 80 − 100 −20 115 − 100 15

Z= Z= = = −2 Z2 = = = 15
,
s 10 10 10 10

Então, temos: P(80<X<115) = P(‑2<Z<1,5)

Vamos então, fazer o esboço da curva normal:

2 0 1,5

Figura 81 – Esboço de curva normal para ‑2<Z<1,5

Para obtermos a área total do gráfico que está em amarelo, devemos juntar a área de ‑2 até 0 e de 0 até 1,5.

P(‑2<Z<1,5) = P(‑2<Z<0) + P(0<Z<1,5)

Procurando na tabela, temos:

P(‑2<Z<1,5) = P(‑2<Z<0) + P(0<Z<1,5)

P(‑2<Z<1,5) = 0,4772 + 0,4332

P(‑2<Z<1,5) = 0,9104 x 100

P(‑2<Z<1,5) = 91,04%

Então concluímos que a probabilidade de um dos funcionários apresentar QI entre 80 e 115 pontos,
é de 91,04%.

Portanto, podemos concluir que, com base em grandes amostras, podemos estimar média, variância
e desvio padrão, e com base na distribuição normal, podemos definir critérios de normalidade e não
normalidade.
100
BIOESTATÍSTICA

Observação

A Fórmula no Excel, nesse caso é:

=0,5‑[Link].N(‑2;1)+[Link].N(1,5;1)‑0,5 =91,04%

Lembrete

Quando desejamos saber a probabilidade da ocorrência de uma

variável, resultado de uma pesquisa, devemos recorrer à distribuição
normal de probabilidade.

Saiba mais

Você pode achar mais exemplos com o tema saúde e distribuição normal
de probabilidades no livro:

PAGANO, M.; GAUVREAU, K. Bioestatística. 2. ed. São Paulo: Thomson

Learning, 2006.

6 INTRODUÇÃO AO TESTE DE HIPÓTESES

Quando se faz pesquisa, tem‑se por objetivo responder a perguntas, que devem ser transformadas
em hipóteses, ou hipótese, que é uma pressuposição a respeito de determinado problema.

6.1 Conceito de hipótese

Quando formulamos uma hipótese, desejamos comprová‑la por meio de uma amostra e ela não será
de valor se não pudermos generalizá‑la. Para generalizar uma pesquisa, ou responder a uma hipótese,
existe, em estatística, um mecanismo chamado teste de hipóteses.

Assim, testar uma hipótese nada mais é do que generalizar um pressuposto e, assim, chegar a
uma conclusão.

Testar uma hipótese pode ser, então, aceitar ou rejeitar uma afirmação sobre um determinado
parâmetro. Essa afirmação é chamada de hipótese e denominada de teste de hipótese.

Existem dois tipos de hipóteses em um teste de hipóteses, a hipótese nula, que comumente chamamos
de H0, e a hipótese alternativa, que comumente chamamos de H1. Então, temos:

101
Unidade II

Hipótese nula (H0): a hipótese a ser testada.

Hipótese alternativa (H1): a hipótese a ser considerada como uma alternativa à hipótese nula.

A hipótese nula, em um teste de hipótese relacionado com a média de uma população m, deve
sempre especificar um único valor para aquele parâmetro.

Portanto:

No caso da hipótese nula H0

H0: m = m0

A hipótese alternativa deve refletir o propósito do teste de hipótese em questão. Existem três
possibilidades para a escolha da hipótese alternativa:

• Teste bilateral: se estivermos preocupados em decidir se a média de uma população é diferente

de um valor especificado:

H1: m ≠ m0

• Teste unilateral à esquerda: se quisermos comprovar que a média de uma população é menor
que um valor especificado. Neste caso expressamos a hipótese alternativa como:

H1: m<m0

• Teste unilateral à direita: se estivermos preocupados em decidir se a média de uma população

é maior que um valor especificado.

H1: m>m0

Exemplo:

1. O gestor da Maternidade Athena de Toulouse, percebeu que na maioria dos casos de nascimento de
crianças com baixo peso, as mães utilizavam algum tipo de droga ilícita, portanto, questionou‑se:
a probabilidade de baixo peso ao nascer é maior quando a mãe faz uso contínuo de drogas ilícitas
durante a gestação?

Resolução:

Para responder à pergunta, será necessário comparar o peso ao nascer de filhos de dois grupos de
mães: as que usaram drogas ilícitas durante a gestação e as que não usaram drogas ilícitas durante a
gestação, o que gerou as seguintes hipóteses:

102
BIOESTATÍSTICA

H0: a probabilidade de ter filhos com baixo peso ao nascer é a mesma para mães que usaram ou não,
drogas ilícitas durante a gestação.

H1: a probabilidade de ter filhos com baixo peso ao nascer é maior para mães que usaram drogas
ilícitas durante a gestação.

Lembrete

Hipótese nula (H0): a hipótese a ser testada.

Hipótese alternativa (H1): a hipótese a ser considerada como uma

alternativa à hipótese nula.

6.2 Aplicação do teste

Após a definição das duas hipóteses, nula e alternativa, utilizar de cálculos que nos permitam
determinar qual das duas é verdadeira, ou qual das hipóteses iremos rejeitar e qual iremos aceitar.

Devemos, então, escolher uma amostra aleatória da população e fazer uma comparação com
a hipótese nula. Se os dados da amostra forem consistentes com ela, não rejeitamos a hipótese
nula, caso não sejam consistentes, rejeitamos a hipótese nula e assumimos que a hipótese
alternativa é verdadeira.

Por convenção, testa‑se sempre H0. Dessa forma, aceitar H0 implica comprovar a igualdade e rejeitar
H0 implica comprovar a diferença entre os grupos testados.

6.3 Nível de significância

Para confirmar ou rejeitar alguma hipótese, devemos estabelecer o valor da probabilidade tolerável de
incorrer no erro de rejeitar H0, quando H0 é verdadeira. Esse valor é conhecido como nível de significância
do teste e é designado pela letra grega a.

É comum adotar um nível de significância de 5%, porém ainda pode ser de 10% ou de 1%. Isto é,
respectivamente: a = 0,05, a=0,10 ou a = 0,01.

Quando o nível de significância é de 5% significa que há uma confiança de 95% de que a decisão
tomada foi acertada.

Lembrete

Sempre que desejamos confirmar ou rejeitar hipóteses, devemos

determinar o nível de significância.
103
Unidade II

Observação

Nível de significância do teste é a probabilidade de cometer um erro,

como rejeitar H0 quando H0 é verdadeira.

6.4 Teste para amostras com a média de uma população

Uma amostra é considerada pequena quando apresenta n<30 e grande quando apresenta n>30.

6.4.1 Amostras grandes (n>30)

Devemos, em primeiro lugar, escrever as hipóteses nula e alternativa e, depois, definir o nível de
confiança, calcular o valor da estatística do teste, rejeitar ou não H0 e concluir.

A estatística do teste

Devemos, em primeiro lugar, determinar a média aritmética da amostra com a fórmula:

x=
∑x
n
Depois, vamos determinar o desvio em relação à média, com a fórmula:

S
σx =
n

Onde:

σ x = desvio em relação à média.

S = desvio padrão amostral.

n = raiz quadrada do tamanho da amostra.

Depois devemos determinar o valor relativo ao nível de significância a escolhida, chamado za que se
encontra na tabela a seguir:

Tabela 3 – Valores críticos de za

a 0,10 0,05 0,025 0,01 0,005

za Z0,10 Z0,05 Z0,025 Z0,01 Z0,005
Valores críticos de za 1,28 1,645 1,96 2,33 2,575

104
BIOESTATÍSTICA

Então, determinamos o valor de z, que chamaremos de zcalc utilizando os valores da pesquisa, por
meio da fórmula:

x −µ
Zcalc =
S
n

Onde:
Zcalc = estatística do teste.
x = média amostral.
m = média da população.
S = desvio padrão amostral.
n = nº de elementos da amostra.
Uma vez determinado zcalc, devemos decidir por H0 ou H1 por meio do teste da média das amostras,
conforme figura a seguir:

H0:µ1 = µ2 contra uma das alternativas

Unilateral
H1:µ1 ≠ µ2 (bilateral) ou a direita

H1:µ1>µ2 (unilateral superior) ou

Unilateral
a esquerda
H1:µ1<µ2 (unilateral inferior) ou

Figura 82 – Teste de hipóteses

A decisão é feita por meio da área da calda da curva de Gauss, como mostra a figura seguinte:

Não
Rejeite rejeite Rejeite Rejeite Não rejeite H0 Não rejeite H0 Rejeite
H0 H0 H0 H0 H0

α/2 α/2 α α

Z Z Z
-Zα/2 0 Zα/2 -Zα 0 0 Zα
Bilateral Unilateral à esquerda Unilateral à direita

µ1 ≠ µ2 µ1<µ2 µ1>µ2
Região crítica Região crítica Região crítica
bilateral: Rejeita‑se unilateral à esquerda: unilateral à direita:
H0 se Rejeita‑se H0 se Rejeita‑se H0 se
Zcalc<Zα/2 ou Zcalc<Zα Zcalc>Z(1–α)
Zcalc>Z(1–α/2)

Figura 83 – Como aceitar ou rejeitar Ho na curva normal

105
Unidade II

Exemplos:

1. O gestor do Hospital Baruch Toulouse verificou que, o valor das refeições, em 2014, no restaurante
que serve funcionários e clientes, que é terceirizado, teve preço médio de R$ 28,44 das refeições.
Fez, então, uma pesquisa em 40 restaurantes aleatoriamente escolhidos na cidade, e foi obtida a
média de R$31,75 e desvio‑padrão R$7,35. Os dados fornecidos proporcionam evidência suficiente
para concluir que o preço médio pesquisado nos restaurantes da cidade é maior em relação ao
restaurante que serve o hospital? Utilize nível de significância de 1%.

Resolução:

Devemos, em primeiro lugar, escrever as hipóteses:

H0: m = 28,44 (o preço médio não aumentou).

H1: m>28,44 (o preço médio aumentou).

Agora, vamos utilizar a tabela 3, mencionada anteriormente, para determinar za:

Nível de significância 1%: a = 0,01

Z0,01 = 2,33 (valor da tabela, Anexo III)

Cálculo do valor de zcalc:

Dados: x = 31,75, µ = 28,44, s = 7,35, n = 40

x−µ
Zcalc =
S
n

, − 28, 44
3175
Zcalc =
7, 35
40

Zcalc = 2,85

Decisão por H0 ou H1:

Temos: Za = 2,33 e Zcalc = 2,85. De acordo com o gráfico a seguir, devemos rejeitar H0 em favor de H1,
pois o valor de zcalc está à direita de Za, zcalc>za ⇒ rejeita‑se H0, em favor de H1.

106
BIOESTATÍSTICA

Não rejeite H0 Rejeite H0

Área de 0,01

Z
0 2,33

Figura 84 – Área da cauda, rejeição de Ho

Concluímos, então, que os dados fornecidos proporcionam evidência suficiente para concluir que
o preço médio pesquisado nos restaurantes da cidade é maior em relação ao restaurante que serve o
hospital, podendo, assim, o gestor manter os mesmos comerciantes da terceirização.

6.4.2 Teste T de Student, para amostras pequenas (n<30)

Para uma população de amostra normalmente distribuída, pode‑se realizar um teste de hipóteses
com a hipótese nula (H0: m = m0), empregando a fórmula, agora para t, e utilizando a tabela da distribuição
T para obter o valor crítico.

Tabela 4 – Tabela de distribuição T de Student

Probabilidade unicaudal de t de Student

Área na cauda superior
/ 0,8 0,9 0,95 0,98 0,99 0,995 0,998 /
gl 0,250 0,1 0,050 0,025 0,01 0,005 0,0025 0,001 0,0005
1 1,00 3,08 6,31 12,71 31,82 63,66 127,32 318,31 636,62
2 0,82 1,89 2,92 4,30 6,96 9,92 14,09 22,33 31,60
3 0,76 1,64 2,35 3,18 4,54 5,84 7,45 10,21 12,92
4 0,74 1,53 2,13 2,78 3,75 4,60 5,60 7,17 8,61
5 0,73 1,48 2,02 2,57 3,36 4,03 4,77 5,89 6,87
6 0,72 1,44 1,94 2,45 3,14 3,71 4,32 5,21 5,96
7 0,71 1,41 1,89 2,36 3,00 3,50 4,03 4,79 5,41
8 0,71 1,40 1,86 2,31 2,90 3,36 3,83 4,50 5,04
9 0,70 1,38 1,83 2,26 2,82 3,25 3,69 4,30 4,78
10 0,70 1,37 1,81 2,23 2,76 3,17 3,58 4,14 4,59
11 0,70 1,36 1,80 2,20 2,72 3,11 3,50 4,02 4,44
12 0,70 1,36 1,78 2,18 2,68 3,05 3,43 3,93 4,32
13 0,69 1,35 1,77 2,16 2,65 3,01 3,37 3,85 4,22
14 0,69 1,35 1,76 2,14 2,62 2,98 3,33 3,79 4,14
15 0,69 1,34 1,75 2,13 2,60 2,95 3,29 3,73 4,07
16 0,69 1,34 1,75 2,12 2,58 2,92 3,25 3,69 4,01
17 0,69 1,33 1,74 2,11 2,57 2,90 3,22 3,65 3,97
18 0,69 1,33 1,73 2,10 2,55 2,88 3,20 3,61 3,92

107
Unidade II

19 0,69 1,33 1,73 2,09 2,54 2,86 3,17 3,58 3,88

20 0,69 1,33 1,72 2,09 2,53 2,85 3,15 3,55 3,85
21 0,69 1,32 1,72 2,08 2,52 2,83 3,14 3,53 3,82
22 0,69 1,32 1,72 2,07 2,51 2,82 3,12 3,50 3,79
23 0,69 1,32 1,71 2,07 2,50 2,81 3,10 3,48 3,77
24 0,68 1,32 1,71 2,06 2,49 2,80 3,09 3,47 3,75
25 0,68 1,32 1,71 2,06 2,49 2,79 3,08 3,45 3,73
26 0,68 1,31 1,71 2,06 2,48 2,78 3,07 3,43 3,71
27 0,68 1,31 1,70 2,05 2,47 2,77 3,06 3,42 3,69
28 0,68 1,31 1,70 2,05 2,47 2,76 3,05 3,41 3,67
29 0,68 1,31 1,70 2,05 2,46 2,76 3,04 3,40 3,66
30 0,68 1,31 1,70 2,04 2,46 2,75 3,03 3,39 3,65

Observação

A tabela foi criada no Excel com o comando =INV.T($N$4;M5)*(‑1)

Em primeiro lugar, devemos escrever as hipóteses nula (H0) e a alternativa (H1), definimos, então,
o nível de significância a e determinamos os valores críticos: para teste bilateral é ±ta/2, para teste
unilateral à esquerda é ‑ta e para teste unilateral à direita é ta.

Para utilizarmos a tabela de distribuição t‑Student (tabela 4), precisamos calcular os graus de
liberdade (GL).

Cálculo de GL (Graus de Liberdade):

GL = (número de linhas ‑1) x (número de colunas ‑1)

Simplificando, temos:

gl = (l‑1) x (c‑1)

A decisão é feita por meio da área da calda da curva de Gauss, como mostra a figura a seguir:

108
BIOESTATÍSTICA

Não
Rejeite rejeite Rejeite Rejeite Não rejeite H0 Não rejeite H0 Rejeite
H0 H0 H0 H0 H0

α/2 α/2 α α

t t t
-tα/2 0 tα/2 -tα 0 0 tα
Bilateral Unilateral à esquerda Unilateral à direita

µ≠0 µ<0 µ>0

Para teste bilateral: Para teste unilateral à Para teste unilateral à
±tα/2 esquerda –tα direita tα

Figura 85 – Como aceitar ou rejeitar Ho na curva normal

A estatística do teste é dada pela fórmula:

x − µ0
t=
s/ n

Onde:

t = estatística do teste.

x = média amostral.

m0 = média da população.

S = desvio padrão amostral.

n = nº de elementos da amostra.

Se o valor da estatística de teste cair na região de rejeição, deve‑se rejeitar H0, caso contrário, não
rejeitar H0 e fazer a conclusão.

Exemplo:

1. A média de gastos com plano de saúde de todas as famílias de certa região é de R$

1123,00 em um determinado ano. Neste mesmo ano, coletando‑se uma amostra aleatória
de 15 famílias de classe média alta obteve‑se média de R$ 1344,27 e desvio padrão de
R$ 231,00. Com um nível de significância de 5%, os dados indicam que famílias da classe
média alta gastam, em média, com plano de saúde, mais do que a média da região?
Assuma que a distribuição de gastos com planos de saúde das famílias de classe média
seja normalmente distribuída.

109
Unidade II

Resolução:

Hipóteses:

Ho: m = 1123 (a média não é maior que a média da região).

H1: m>1123 (a média é maior que a média da região).

Nível de confiança: 5%, a = 0,05, Gl = n‑1

Gl = 15‑1=14

ta = 1,76, como mostra a figura a seguir:

Figura 86 – Como achar o valor na tabela

A tabela completa se encontra mencionada anteriormente, na tabela 4.

Estatística do teste:

Dados: m0 = 1123; n = 15; x = 1344,27; s = 231

x − µ0
t=
s/ n

1344, 27 − 1123
t=
231 / 15

110
BIOESTATÍSTICA

22127
,
t=
231 / 3, 87

22127
,
t=
59, 69

t = 3,710

Temos: t = 3,710 e ta = 1,761

Se temos t>ta, o valor está dentro da região de rejeição, portanto, Rejeita‑se H0, como mostra a figura:

Não rejeite H0 Rejeite H0

Curva t com
GL = 14

0,05

t
0 1,761

Figura 87 – Área da cauda, rejeição de Ho

Então, podemos concluir que famílias da classe média alta gastam, em média, com plano de saúde,
mais do que a média da região.

Lembrete

Temos maneiras diferentes para tratar o teste para amostras com média
da população, com relação a amostras pequenas e amostras grandes.

6.4.3 Teste de hipóteses para média de duas populações

É utilizado para comparação de duas médias de populações para decidir se existe alguma diferença
entre elas. A condição para a aplicação desse teste é termos amostras grandes (n>30). As médias das
amostras são calculadas e comparadas.

A conclusão é dada a partir da comparação, as amostras não são iguais se houver uma diferença
significativa entre elas.

O procedimento é o mesmo dos outros testes. Primeiro devemos determinar a hipótese nula:

H0: m1 = m2 (as médias são iguais)

111
Unidade II

Depois, retiramos uma amostra de cada uma das populações e calculamos as médias.

A diferença observada x1 – x2 é, agora, a estatística do teste.

Considerando que a distribuição da amostragem é aproximadamente normal, se a hipótese nula

H0: m1 = m2 é verdadeira, então a média da distribuição das diferenças das médias das amostras deve
ser zero. Para localizar a estatística de teste na distribuição, necessitamos calcular o desvio‑padrão da
distribuição, que é dado pela fórmula:

 σ12 σ22 
σx1 − x2 =  +
 n1 n2 

Onde:

σx1– x2 = desvio padrão da diferença das médias das populações.

σ12 = variância da população 1.

σ22 = variância da população 2.

n1 = nº de elementos da amostra 1.

n2 = nº de elementos da amostra 2.

Como, normalmente, os valores das variâncias das populações não são conhecidos, podemos utilizar
as variâncias das amostras com os estimadores ou estimativas das variâncias das populações para
calcular uma estimativa do desvio‑padrão, com a fórmula:

S 2 S 2
Sx1 − x2 =  1 + 2 
 n1 n2 

Onde:

S x1– x2 = desvio padrão da diferença das médias das amostras.

S12 = variância da amostra 1.

S22 = variância da amostra 2.

n1 = nº de elementos da amostra 1.

n2 = nº de elementos da amostra 2.
112
BIOESTATÍSTICA

A localização da estatística da amostra x1 – x2 relativa à média da distribuição, pode ser encontrada

calculando‑se o valor de z:

Z=
( x1 − x2 )
S x1− x2

Onde:

z = estatística do teste.

x1 = média da amostra 1.

x2 = média da amostra 2.

S x1– x2 = desvio padrão da diferença das médias das amostras.

Se a estatística do teste cair na região de rejeição, então rejeite H0, caso contrário, não rejeite H0.

A figura a seguir mostra as regiões de rejeição para os valores de z.

Não
Rejeite rejeite Rejeite Rejeite Não rejeite H0 Não rejeite H0 Rejeite
H0 H0 H0 H0 H0

α/2 α/2 α α

Z Z Z
-Zα/2 0 Zα/2 -Zα 0 0 Zα
Bilateral Unilateral à esquerda Unilateral à direita

Figura 88 – Regiões de rejeição de comparação das médias de duas amostras

Exemplo:

1. O gestor do Hospital Baruch de Toulouse deseja verificar se existe diferença entre os salários
dos enfermeiros que atuam nos hospitais da capital e dos hospitais do interior por meio
de um teste de hipóteses. Para isso, selecionou aleatoriamente 30 enfermeiros do hospital
da capital e, com base em seus salários anuais, determinou‑se a média de seus salários
como sendo de R$ 46.720,00 com desvio‑padrão de R$ 14.700,00. O mesmo procedimento
foi adotado para uma amostra de 35 enfermeiros dos hospitais do interior, obtendo‑se
média de R$ 51.910,00 e desvio‑padrão de R$ 16.200,00. Ele optou por utilizar nível de
significância de 5%.

113
Unidade II

Resolução:

Devemos, em primeiro lugar, escrever as hipóteses:

H0: m1 = m2 (as médias de salários são iguais, bilateral).

H1: m1 ≠ m2 (as médias de salários são diferentes).

Os valores críticos de z com nível de significância de 5% a = 0,05 são:

± za/2 = ± z0,05/2 = ± z0,025 = ± 1,96

Como mostra a figura:

Rejeite H0 Não rejeite H0 Rejeite H0

α/2 = 0,025 α/2 = 0,025

Z
–1,96 0 1,96

Figura 89 – Valores críticos de rejeição

Estatística do teste:
2 2
Dados: s1 = 14.700,00; s2 = 16.200; n1 = 30; n2 = 35

 s12 s22 
s x1− x 2 =  + 
 n1 n2 

14.7002 16.2002
S x1− x 2 = +
30 35

S= 3834,23

z=
( x1 − x2 )
Sx1 − x2

46.720 − 51.910
z=
3.843, 23

z = – 1,35

114
BIOESTATÍSTICA

Pela figura 89, percebemos que o valor de z= ‑1,35 não está na área não rejeite H0.

Portanto, com base nos dados da amostra, o gestor do hospital tem evidências suficientes para
concluir que existe diferença entre as médias salariais dos enfermeiros que atuam nos hospitais da
capital e dos hospitais do interior.

Lembrete

Para fazer o teste de hipóteses, a pergunta de que está fazendo a

pesquisa é transformada em duas hipóteses, ou seja, duas afirmativas que
se contradizem. As hipóteses, em geral, são chamadas de H0 e H1, a primeira
é chamada de hipótese de nulidade e a segunda de hipótese alternativa.

Saiba mais
O meio de se generalizar os resultados de uma pesquisa e poder responder
às perguntas para toda uma população são as inferências estatísticas.
Você pode saber mais sobre teste de hipóteses em:
SIEGEL, S.; CASTELLAN JR., N. J. Estatística não paramétrica para as
ciências do comportamento. São Paulo: Artmed Bookman, 2006.

7 TESTE DE HIPÓTESES QUI‑QUADRADO

7.1 Teste de associação qui‑quadrado clássico

É utilizado para testar a significância entre duas variáveis qualitativas, ou comparar duas ou
mais amostras, quando os resultados da variável de resposta estão dispostos em categorias. O teste
qui‑quadrado clássico é utilizado quando o número total de dados é maior do que 40.

Se a amostra for 20<n<40, o teste de x² só pode ser aplicado se nenhuma frequência esperada for
menor do que 1.

As variáveis devem ser qualitativas nominais. Para as variáveis qualitativas ordinais, se aplica o teste
de x² para tendências.

A distribuição de qui‑quadrado, ou x², corresponde à distribuição de probabilidade da soma dos

quadrados de n variáveis aleatórias independentes, distribuídas normalmente e padronizadas (média 0
e desvio padrão 1). Ou seja:

x2 = x12 + x22 xn2

115
Unidade II

A distribuição x2 está associada ao teste x2. O teste x2 é utilizado para comparar os valores observados
e os esperados.

Exemplo:

Uma experiência genética pode gerar a hipótese de que a próxima geração de plantas exibirá
determinado conjunto de cores. Comparando os resultados observados com os esperados, você poderá
decidir se a hipótese original é válida.

O cálculo do teste x² é utilizado para comparar valores observados e valores esperados, isto é, mede
a distância entre as frequências observadas e as frequências que esperadas, na suposição das variáveis
serem independentes (H0 verdadeira).

A estatística do teste é calculada com a aplicação das fórmulas:

E=
(total da linha) x (total da coluna)
(total geral)
Onde:

E = representa a frequência esperada

X =∑
2
r
(Oi − Ei )2
i=1 Ei

Onde:

x² = valor do qui‑quadrado.

O = representa as frequências observadas.

E = representa as frequências esperadas.

Graus de Liberdade (GL):

GL = (número de linhas ‑1) x (número de colunas ‑1), ou

gl = (l‑1) x (c‑1).

Nível de significância (a)

Nível de significância para qui‑quadrado encontra‑se na tabela a seguir (valores de x², segundo os
graus de liberdade e o valor de a):
116
BIOESTATÍSTICA

Tabela 5 – Valores de x², segundo os graus de liberdade e o valor de a

Graus de a
Liberdade 10% 5% 1%
1 2,7055 3,8415 6,6349
2 4,6052 5,9915 9,2103
3 6,2514 7,8147 11,3449
4 7,7794 9,4877 13,2767
5 9,2364 11,0705 15,0863
6 10,6446 12,5916 16,8119
7 12,0170 14,0671 18,4753
8 13,3616 15,5073 20,0902
9 14,6837 16,9190 21,6660
10 15,9872 18,3070 23,2093
11 17,2750 19,6751 24,7250
12 18,5493 21,0261 26,2170
13 19,8119 22,3620 27,6882
14 21,0641 23,6848 29,1412
15 22,3071 24,9958 30,5779
16 23,5418 26,2962 31,9999
17 24,7690 27,5871 33,4087
18 25,9894 28,8693 34,8053
19 27,2036 30,1435 36,1909
20 28,4120 31,4104 37,5662
21 29,6151 32,6706 38,9322
22 30,8133 33,9244 40,2894
23 32,0069 35,1725 41,6384
24 33,1962 36,4150 42,9798
25 34,3816 37,6525 44,3141
26 35,5632 38,8851 45,6417
27 36,7412 40,1133 46,9629
28 37,9159 41,3371 48,2782
29 39,0875 42,5570 49,5879
30 40,2560 43,7730 50,8922

Observação

A tabela foi criada no Excel, utilizando o comando =[Link](0,1;A3).

117
Unidade II

Aplica‑se, então a seguinte regra:

Se x2<xt → H0 deve ser aceita

Se x2>xt → H0 deve ser rejeitada

Onde

xt = valor da tabela.

Exemplo:

Foi feita uma pesquisa com uma amostra de 95 funcionários do Hospital e Maternidade Baruch de
Toulouse, com a intenção de investigar o impacto da utilização dos cursos promovidos pelo método
de ensino a distância nas gerações x e y desses funcionários. Uma das questões da pesquisa era: “O
curso promovido pelo método de ensino a distância é mais adequado do que o presencial?” As opções
de respostas foram formuladas em escala Likert, contemplando cinco categorias, com cinco graus de
importância em 1, 2, 3, 4 e 5, sendo:

1: não concordo totalmente.

2: não concordo parcialmente.

3: indiferente.

4: concordo parcialmente.

5: concordo totalmente.

O gestor do hospital não achou que a opção três seja uma boa opção para essa resposta, então,
decidiu testar com o teste qui‑quadrado essa opção, utilizando nível de confiança de 5%

Resolução:

O resultado da pesquisa está exposto na tabela a seguir.

118
BIOESTATÍSTICA

Figura 90 – Dados da pesquisa do Hospital Baruch de Toulouse sobre os cursos a distância

Hipóteses:

H0: A opção de resposta “3: Indiferente” deve ser considerada válida como qualquer outra resposta.

H1: A opção de resposta “3: Indiferente” não deve ser considerada válida como qualquer outra
resposta.

A estatística do teste:

Cálculo das frequências esperadas:

E=
(total da linha) x (total da coluna)
(total geral)

A tabela a seguir apresenta o cálculo das frequências esperadas:

Figura 91 – Tabela das respostas esperadas

119
Unidade II

Cálculo das parcelas do qui‑quadrado:

X =∑
2
r
(Oi − Ei )2
i=1 Ei

A tabela a seguir apresenta as parcelas do qui‑quadrado:

Figura 92 – Tabela das parcelas do qui‑quadrado para a soma

x2 = 0,540613566 + 0,462882697 + 1,073684211+0,149384774+ 0,015597818 + 0,117826034 +

0,10088469 + 0,234008097 + 0,03255822 + 0,003399524.

x2 = 2,730839631

ou utilizamos os totais:

x2 = 2,242163066 + 0,488676566

x2 = 2,730839631

Graus de liberdade:

gl= (5–1) x (2‑1)

gl = 4 x 1

gl = 4

A figura a seguir é uma tabela parcial da tabela 5, apresentada anteriormente, com os valores de x²,
segundo os graus de liberdade e o valor de α.

120
BIOESTATÍSTICA

Figura 93 – Tabela parcial x²

Análise:

Se x2<xt → H0 deve ser aceita.

Se x2>xt → H0 deve ser rejeitada.

Onde:

xt = valor da tabela.

O valor encontrado para x² = 2,73

O valor encontrado na tabela é xt = 9,49 (a = 5%)

Decisão:

Se x2<xt → H0 deve ser aceita.

Se x2>xt → H0 deve ser rejeitada.

Portanto, o valor do x2 = 2,73 é menor que o valor crítico da tabela, com 4 graus de liberdade e ao
nível de 5% de significância, que é de 9,49. Neste caso, não se rejeita H0.

Então, o gestor do Hospital Baruch de Toulouse pode considerar as respostas com a opção “3:
Indiferente”, que deve ser válida como qualquer outra resposta.

Lembrete

O teste qui‑quadrado clássico é utilizado quando o número total de

dados é maior do que 40.

121
Unidade II

8 CORRELAÇÃO E REGRESSÃO

Correlação é uma medida estatística que testa a relação entre duas variáveis. Talvez seja uma das
medidas mais importantes, pois variáveis próximas podem ser correlacionadas para que possamos fazer
previsões a seu respeito.

Exemplo: existe relação entre o fumo e doenças cardíacas?

Para sabermos se as variáveis fumo e a variável doenças cardíacas estão relacionadas, fazemos a
correlação entre elas.

8.1 Diagrama de dispersão

É a representação gráfica da relação entre duas variáveis.

Cada unidade da amostra fornece dois valores numéricos. Uma se refere à variável x e a outra
à variável y, portanto, fazermos um gráfico, chamado diagrama de dispersão, que relaciona as duas
variáveis.

Para fazer esse gráfico, diferentemente dos gráficos estatísticos, devemos considerar os dois eixos do
sistema de coordenadas cartesianas, e os valores das variáveis x e y serão as coordenadas dos pontos do
gráfico, formando o par ordenado (x, y).

Assim, podemos responder se existe relação entre as variáveis, qual é o tipo de relação e em que grau
as variáveis estão correlacionadas.

Portanto, o diagrama de dispersão permite visualizar a relação entre duas variáveis.

Se as variáveis crescem no mesmo sentido, a correlação é dita positiva, se variam em sentidos

opostos, existe correlação negativa entre as variáveis.

Observação

O gráfico que devemos utilizar no Microsoft Excel para correlação é

chamado de dispersão, pois é o único que utiliza os dois eixos do sistema
de coordenadas cartesianas.

Quando a imagem é uma reta ascendente, dizemos que a correlação é linear positiva, isto é, os
pontos do diagrama têm como “imagem” uma reta ascendente, como mostra o gráfico a seguir.

122
BIOESTATÍSTICA

Figura 94 – Correlação linear positiva

Quando a imagem da reta for descendente, dizemos que a correlação é linear negativa, ou seja, os
pontos têm como “imagem” uma reta descendente, como mostra o gráfico a seguir.

Figura 95 – Correlação linear negativa

A correlação não é linear, correlação não linear, se os pontos têm como “imagem” uma curva, como
o gráfico a seguir.

Figura 96 – Correlação não linear

123
Unidade II

Não existe correlação entre as variáveis quando os pontos se apresentam dispersos, não oferecendo
uma “imagem” definida, como mostra o gráfico a seguir.

Figura 97 – Correlação nula

8.2 Coeficiente de correlação de Pearson (R)

É uma medida para analisar o grau de correlação linear entre duas variáveis numéricas, é representada
pela letra r e é definida pela fórmula:

r=
n∑ xiyi − (∑ xi) . (∑ yi)
n. xi2 −
 ∑ (∑ xi)2  ⋅ n.∑ yi2 − (∑ yi)2 
Onde:

n= nº de observações.

Os valores limites de R são ‑1 e +1, isto é, valor de r pertence ao intervalo numérico [‑1,1].

Assim, a correlação pode ser:

Perfeita e positiva: se a correlação entre duas variáveis for: r = +1.

Perfeita e negativa: se a correlação entre duas variáveis for: r = ‑1.

Não há correlação entre as variáveis, se r = 0.

Para que haja correlação entre as variáveis é necessário que 0,6≤|r|≤1, ou seja, o valor de r deve estar
entre 0,6, inclusive, e 1.

Se 0,3<|r|<0,6, há correlação relativamente fraca entre as variáveis.

124
BIOESTATÍSTICA

Se 0<|r|<0,3, a correlação é muito fraca e praticamente nada se pode concluir sobre a relação entre
as variáveis em estudo.

Lembrete

Correlação entre variáveis depende do resultado do coeficiente de

correlação.

Exemplo:

1. O gestor do Hospital Baruch de Toulouse deseja avaliar o curso que está proporcionando a seus
colaboradores no sistema de educação a distância. Para os alunos estudarem, existem questionários
que valem nota. Os colaboradores acessam a plataforma, podem estudar e fazer os questionários.
Após fazer o questionário, o colaborador obtém a nota relativa aos seus erros ou acertos. Ao final
do curso, o colaborador faz a sua prova. O gestor deseja saber se existe correlação entre a nota
dos questionários e a nota da prova, para tanto, colheu uma amostra, por amostragem aleatória
simples, de 10 colaboradores e obteve os resultados da tabela a seguir.

Figura 98 – Dados das médias dos questionários e provas

Resolução:

Temos então que verificar se existe correlação entre a média das notas dos questionários e a nota
da prova.

125
Unidade II

r=
n∑ xiyi −(∑ xi) ⋅ (∑ yi)
n ⋅ xi2 −
( xi)  ⋅ n ⋅ ∑ yi2 − (∑ yi) 
2 2
 ∑ ∑   

Vamos então calcular a correlação dos dados que estão dispostos na tabela já com as colunas
acrescidas para a fórmula, como na tabela a seguir, na qual acrescentamos uma coluna para o cálculo
de xiyi, uma coluna para o cálculo do xi² e outra para o cálculo de yi², pois iremos utilizar na fórmula os
seus somatórios.

Figura 99 – Cálculo dos somatórios para a fórmula

Devemos agora utilizar os dados desta tabela.

Substituímos então os valores na fórmula, para o cálculo de r:

r=
n∑ xiyi −(∑ xi) ⋅ (∑ yi)
n ⋅ xi2 −
 ∑ ( ∑ xi)  ⋅ n ⋅ ∑ yi2 − (∑ yi) 
2
 
2


10 × 730, 2 − (93, 2) × (77, 9)

r=
10 × 870, 5 − (93, 2)2  × 10 × 618, 4 − (77, 9)2 
   

7302 − 7260, 28
r=
[8705 − 8686, 24 ] × [6184 − 6068, 41]

126
BIOESTATÍSTICA

41, 72
r=
(18, 76) × (115, 59)

41, 72
r=
2168, 4684

4172
,
r=
46, 57

r = 0,8958

Portanto, podemos dizer que existe correlação entre a média dos questionários e a nota da prova
dos colaboradores, pois r = 0,89, o que significa uma correlação linear positiva altamente significativa
entre as variáveis.

Observação

Para o Excel, devemos utilizar a função CORREL (intervalo de dados da

primeira variável; intervalo de dados da segunda variável). No exemplo, a
fórmula é: =CORREL(B2:B11;C2:C11) = 0,897.

Gráfico da correlação linear: o gráfico a seguir apresenta os dados da correlação.

Figura 100 – Correlação entre as notas de questionário e nota da prova

No Microsoft Excel, basta selecionarmos os valores das colunas B e C, sem os totais, e escolher inserir
dispersão, como mostra a figura a seguir.

127
Unidade II

Figura 101 – Dados, nota de questionário e prova

Portanto, devemos selecionar as células B2 até C11, escolher “inserir”, “gráfico de dispersão somente
com marcadores” e vamos obter o gráfico a seguir, chamado de diagrama de dispersão:

Figura 102 – Diagrama de dispersão relativo às notas de questionários e provas

Quando olhamos para o conjunto dos pontos obtidos no gráfico, podemos perceber que formam
uma elipse em diagonal, quanto mais fina for a elipse, mais ela se aproximará de uma reta. Então,
podemos dizer que a correlação de forma elíptica tem como “imagem” uma reta, e, por isso, é chamada
de correlação linear. Quanto maior a dispersão dos dados, menor será o grau de correlação entre eles e
vice‑versa. Veja o gráfico a seguir:

Figura 103 – Diagrama de dispersão com a linha de tendência

128
BIOESTATÍSTICA

Lembrete

O valor resultante (r) da aplicação da fórmula de correlação linear nos

indica se existe ou não correlação entre as variáveis.

Observação

Para determinarmos a reta da correlação no Excel, basta, com o gráfico

selecionado, clicar em “Ferramentas do Gráfico”, “Layout”, “Linha de
Tendência” e escolher a “Linha de Tendência Linear”.

8.3 Coeficiente de determinação (R²)

Determina a proporção em que uma variável é explicada em relação a outra. Quando há relação
entre as variáveis x e y, se o valor de x aumenta, o valor de y também aumentará, quanto maior for o
coeficiente de determinação, maior será a força da relação entre as variáveis.

O coeficiente de determinação é dado por r², isto é, o valor de R (correlação) elevado a 2, portanto,
ele será um valor entre 0 e 1, sendo que, mesmo que a correlação seja negativa, ele nunca o será, pois
está elevado a 2 (0<R²<1). Se o resultado for 1, é uma correlação linear perfeita, o que significa que
todas as variações de y estão diretamente relacionadas as variações de x.

No exemplo, temos r = 0,90, R² = 0,7921, então podemos dizer que 79% da variação de y pode ser
explicada pela relação linear entre x e y, os outros 21% não.

8.4 Regressão linear simples

Se existe correlação entre as variáveis, então pode‑se prever resultados futuros, para isso, podemos,
já que a correlação é linear, determinar a equação que dá origem à reta de regressão.

Como ela é uma correlação linear, a nossa reta será uma função linear, ou seja, uma função de 1º
grau, que tem a forma:

Y = Ax + B

Onde:

Y = variável dependente.

X = variável independente.

129
Unidade II

A = coeficiente de x, se A for positivo, a inclinação da reta será positiva, se A for negativo, a inclinação
da reta será negativa.

B = termo independente.

Para determinarmos A, a fórmula será:

n∑ xy − ∑ x ∑ y
A=
n∑ x2 − (∑ x )2
Para determinarmos B, a fórmula será:

B = y – ax

Onde:

y=
∑y e x=
∑x
n n

Todos os elementos da fórmula já foram encontrados na tabela a seguir.

Figura 104 – Dados para determinação da equação linear da reta de correlação

130
BIOESTATÍSTICA

Vamos, então, calcular o valor de A:

n∑ xy − ∑ x ∑ y
A=
n∑ x2 − (∑ x )2
10 × 730, 2 − 93, 2 × 77, 9
A=
10 × 870, 5 − 93, 22

7302 − 7260, 28
A=
8705 − 8686, 24

4172
,
A=
18, 76

A = 2,22

Vamos determinar B:

y=
∑ y = 77, 9 = 7, 79
n 10

x=
∑ x = 93, 2 = 9, 32
n 10

B = y – ax

B = 7,79 – (2,2) × (9,32)

B = 7,79 – 20,504

B = – 12,714

Portanto, a nossa equação de regressão será:

Y = Ax + B,

Onde:

A= 2,22 e B= ‑12,714

Então, a equação de regressão é:

Y= 2,22x – 12,714
131
Unidade II

A equação de regressão nos permite tirar conclusões a respeito de valores que não temos na tabela.

Exemplo:

1. O gestor do hospital deseja saber que nota o colaborador poderia tirar na prova, caso tivesse
média 6,0 nos questionários.

Resolução:

Devemos então substituir a variável x (média dos questionários) pelo valor 6,0 na equação de
regressão para determinar qual é o provável valor de y (nota da prova).

Assim temos:

Y= 2,22x – 12,714

Y = 2,22. (6,0) – 12,714

Y = 13,32 – 12,714

Y= 0,6

Y @ 1,0

Portanto, se o colaborador tirar nota 6,0 na média dos questionários, provavelmente ele iria muito
mal na prova, tendo como nota prevista 1,0. Isso ocorreu porque as notas de questionários e de provas
foram relativamente altas.

Observação

O Excel faz automaticamente a equação de regressão, assim como o

coeficiente de determinação. Sempre temos algumas variações pequenas
de resultados, por conta dos arredondamentos.

Saiba mais

Você pode obter mais informações sobre a utilização do Excel em

estatística na obra:

LEVINE, D. M. et al. Estatística: teoria e aplicações: usando Microsoft

Excel em português. Tradução de Teresa Cristina Padilha de Souza. Rio de
Janeiro: LTC, 2013.

132
BIOESTATÍSTICA

Para obter a equação e o coeficiente de determinação no Excel, basta pedir para fazer o gráfico
como exposto. Com o gráfico selecionado, clicamos em “Ferramentas do Gráfico”, “Layout”, “Linha de
Tendência”, mais opções de Linha de Tendência, escolher “Linear”, marcar as opções “Exibir Equação no
gráfico” e “Exibir valor de R‑quadrado no gráfico” e, por fim, “Fechar”, como na figura a seguir:

Figura 105 – Formatando linha de tendência no Excel

Então, o gráfico a seguir apresenta a reta de correlação, a equação da reta e o coeficiente de

determinação.

Figura 106 – Gráfico da correlação com a

equação de regressão e coeficiente de determinação

Portanto, podemos, por meio do gráfico e da equação, prever valores de Y, atribuindo valores a X.

Utilize de forma correta e coerente os seus conhecimentos e procure sempre se informar, caso tenha
alguma dúvida, e atualizá‑los.

133
Unidade II

Resumo

A Teoria da Probabilidade estuda as possibilidades da ocorrência de

um experimento aleatório, ou seja, eventos que, mesmo quando repetidas
inúmeras vezes, nas mesmas condições, podem apresentar resultados
diferentes.

Distribuições teóricas de probabilidade para as variáveis discretas

são utilizadas para especificar todos os resultados possíveis da
variável aleatória e a probabilidade de sua ocorrência. Quando
desejamos saber a probabilidade da ocorrência de uma variável,
resultado de uma pesquisa, devemos recorrer à distribuição normal
de probabilidade.

Os testes de hipótese são utilizados, em Bioestatística, para

generalizar uma pesquisa. Um teste de hipóteses admite duas
hipóteses: a hipótese nula (H0), que é a hipótese a ser testada, e a
hipótese alternativa (H1), que é a hipótese a ser considerada como
uma alternativa à hipótese nula.

O teste T de Student é utilizado para amostras pequenas, menores do

que 30. O teste de hipóteses para média de duas populações é utilizado para
comparação entre elas para decidir se existe alguma diferença. A condição
para a aplicação desse teste é termos amostras grandes (n>30). As médias
das amostras são calculadas e comparadas.

O valor da probabilidade permite decidir, com base nos dados, se há

evidência suficiente para rejeitar a hipótese de nulidade.

A distribuição de qui‑quadrado, ou x², corresponde à distribuição

de probabilidade da soma dos quadrados de n variáveis aleatórias
independentes, distribuídas normalmente e padronizadas (média 0 e
desvio padrão 1). O cálculo do teste x² é utilizado para comparar valores
observados e valores esperados, isto é, mede a distância entre as frequências
observadas e as frequências esperadas, na suposição das variáveis serem
independentes (H0 verdadeira).

Correlação é uma medida estatística que testa a relação entre duas

variáveis. Talvez seja uma das medidas mais importantes, pois variáveis
próximas podem ser correlacionadas para que possamos fazer previsões a
seu respeito.

134
BIOESTATÍSTICA

O diagrama de dispersão permite visualizar a relação entre duas

variáveis. Se as variáveis crescem no mesmo sentido, a correlação é dita
positiva, se variam em sentidos opostos, existe correlação negativa entre
as variáveis.

A equação de regressão nos permite prever dados a respeito das

variáveis, quando estas estão correlacionadas.

O Microsoft Excel é um programa que apresenta todas as funções

estatísticas. Porém, devemos tomar cuidado, pois essas funções são apenas
para dados não agrupados. Para dados agrupados, devemos inserir as
fórmulas para que a resposta seja correta. Com relação a gráficos estatísticos,
apresenta uma infinidade de modelos. Temos que prestar atenção que o
modelo de gráfico para correlação deve ser o de dispersão.

A Bioestatística nos permite, então, determinar uma série de dados

para que possamos chegar a conclusões a respeito de qualquer pesquisa
que desejamos fazer, devemos apenas seguir a metodologia estatística de
coleta, organização, tabulação e interpretação dos dados.

Exercícios

Questão 1. O estudo da Teoria das Probabilidades teve início por volta do século XVII, com as análises
de Fermat e Pascal a respeito da Teoria dos Jogos de Azar. Posteriormente, a probabilidade associou‑se
também a outros fenômenos naturais, distintos dos jogos de azar, e conseguiu, com isso, uma enorme
evidência até os dias de hoje. A definição clássica de probabilidade é: dado um espaço amostral S, com
n(S) elementos, e um evento A de S, com n(A) elementos, a probabilidade do evento A é o número P(A),
tal que P(A) = n(A) / n(S). Desta forma, se num hospital há 250 pacientes, sendo que destes 120 são
mulheres, qual a probabilidade de uma enfermeira escolher uma paciente do sexo feminino para ser
entrevistada para um estudo?

A) 50%

B) 52%

C) 10%

D) 48%

E) 12%

Resposta correta: alternativa D.

135
Unidade II

Análise das alternativas

A) Alternativa incorreta.

Justificativa: a resposta é incorreta, pois, mesmo não aplicando a fórmula clássica de probabilidades,
observa‑se pelo caso apresentado que há mais homens do que mulheres no hospital, portanto a
probabilidade de mulheres serem escolhidas é menor do que a de homens. Desta forma, 50% é uma
resposta errada.

B) Alternativa incorreta.

Justificativa: a mesma justificativa da alternativa A se aplica para a alternativa B, pois 52% é uma
resposta incoerente com o que foi apresentado na questão.

C) Alternativa incorreta.

Justificativa: aplicando‑se a fórmula clássica de probabilidades, o resultado encontrado é de 48% e

não 10%.

Cálculo da probabilidade:

P(A) = _n(A)____ = 120/250. 100 = 48%

n(S)

D) Alternativa correta.

Justificativa: após a aplicação da fórmula para o cálculo de probabilidades, o resultado corresponde

a 48%: 120/250 = 0,48, que multiplicado por 100, resulta em 48%.

E) Alternativa incorreta.

Justificativa: o resultado apresentado nesta alternativa não corresponde ao resultado encontrado

após a aplicação da fórmula.

Questão 2. O estudo da Bioestatística compreende dois aspectos importantes quando da utilização

da estatística: a descritiva e a indutiva. Com relação à estatística indutiva ou inferencial, um estudo
importante é o realizado com a aplicação dos chamados testes de hipóteses. Independentemente do
tipo de teste escolhido, todos eles devem apresentar as hipóteses iniciais (Ho) e as hipóteses alternativas
(Ha). Analise, então, a seguinte situação: uma pesquisadora se interessou em averiguar se as crianças
internadas em um hospital estariam sujeitas a apresentar um nível de estresse diferente de 100. Diante
do exposto, como deve ser representada a hipótese alternativa (Ha) neste caso?

A) Ha: m = 100
136
BIOESTATÍSTICA

B) Ha: m<100

C) Ha: m>100

D) Ha: m ≠ 100

E) Ha: m = 50

Resolução desta questão na plataforma.

137
FIGURAS E ILUSTRAÇÕES

Figura 82

COSTA NETO, P. L. D. O. Estatística. 2. ed. São Paulo: Edgard Blucher, 2002. p. 91‑92. Adaptada.

Figura 83