Fundamentos de Bioestatística
Fundamentos de Bioestatística
Unidade II
Como já falamos, o objetivo maior da Bioestatística é a tomada de decisões, agora trataremos
exatamente das técnicas disponíveis para tomada de decisões. Iniciaremos com uma revisão de conceitos
de probabilidade para entendermos melhor como esses conceitos são utilizados em bioestatística, pois
podem nos apresentar proporções interessantes a respeito de amostras.
As técnicas que apresentaremos são os testes de hipóteses para amostras pequenas e grandes,
incluindo o teste T de Student e o teste qui‑quadrado.
Esses testes nos permitem levantar hipóteses a respeito de nossa pesquisa, da amostra e da média
fazendo comparações que nos permitem validar ou não essas hipóteses.
Apresentaremos ainda o teste para correlação entre duas variáveis por meio da determinação
do coeficiente de correlação do gráfico gerado pelos dados e da equação de regressão, que nos dará
previsão de resultados para novos valores das variáveis.
90
BIOESTATÍSTICA
Exemplos:
1) Quando lançamos uma moeda, há dois resultados possíveis: ocorrer cara ou coroa. Portanto, o
espaço amostral é U = {cara, coroa}.
3) Quando utilizamos um baralho de 52 cartas, nosso espaço amostral são as 52 cartas, que podem
ser de quatro naipes diferentes: ouros, copas, espadas e paus, conforme figura a seguir. Cada naipe
tem nove cartas numeradas de 2 a 10, o número 1 é representado pela carta Às (A) e 3 cartas
representadas pelas figuras de um valete, uma dama e um rei.
4) Se lançarmos duas moedas sucessivamente, teremos o espaço amostral: U = {(Ca, Ca), (Ca, Co),
(Co, Ca), (Co, Co)}, como podemos verificar na figura a seguir:
Cara, cara
Cara, coroa
Coroa, cara
Coroa, coroa
n( A )
P (A ) =
n (U)
91
Unidade II
Onde:
Exemplos:
Portanto,
1
P (A ) =
2
ou P(A) = 0,5
2. Sabe‑se que a quantidade de quartos do Asilo Seja Bem‑Vindo é 50, se 30 deles estão ocupados,
qual é a porcentagem de leitos ocupados?
30
P (A ) = = 0, 6
50
Ou seja 0,6 x 100 = 60% dos quartos estão ocupados.
Sabemos que um evento pode ocorrer (sucesso) ou não (insucesso). Sendo s a probabilidade de que
ele ocorra e i a probabilidade de que ele não ocorra, temos a relação:
No exemplo do asilo, temos 60% (sucesso) dos quartos ocupados, portanto, restam 40% (insucesso)
dos quartos para ser ocupados, pois 60%: 60% + 40% = 100% ou ainda:
30 20 50
+ = =1
50 50 50
92
BIOESTATÍSTICA
Dois eventos são independentes quando a realização ou não de um não afeta a probabilidade da
realização do outro. A fórmula para seu cálculo é dada por:
P = P1 x P2
Exemplo:
1 1
p1 = (3 no 1º dado) p2 = (5 no 2º dado)
6 6
Então, a probabilidade de obtermos, simultaneamente, 3 no primeiro dado e 5 no segundo dado é:
1 1 1
P= x =
6 6 36
Dizemos que dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a
realização do(s) outro(s).
Se dois eventos são mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à
soma das probabilidades de que cada um deles se realize: P = P1 + P2
Exemplo:
1 1
p1 = (2 no 1º dado) p2 = (4 no 2º dado)
6 6
1 1 2 1
P= + = =
6 6 6 3
93
Unidade II
Lembrete
Observação
A cada variável aleatória é associada uma distribuição de probabilidade para as variáveis discretas,
especifica todos os resultados possíveis da variável aleatória e a probabilidade de sua ocorrência,
já para as contínuas, nos permite determinar as probabilidades de sua ocorrência nos intervalos
específicos de valores.
A distribuição de probabilidades para variáveis aleatórias discretas mostra cada possível resultado da
variável e sua probabilidade correspondente.
São distribuições de probabilidade: a distribuição binomial para variáveis aleatórias discretas, a distribuição
de Poisson e a distribuição normal de probabilidade. Em Bioestatística, vamos abordar apenas a última.
Exemplos:
1. O Hospital e Maternidade Baruch de Toulouse realizará concurso para preencher alguns cargos
administrativos para os quais 100 candidatos se inscreveram. O gestor do hospital deseja saber
qual a proporção do grau de instrução dos candidatos.
Resolução:
Para tanto, basta encontrar a frequência relativa das classes e teremos a proporção do grau de
instrução dos 100 candidatos, conforme tabela a seguir.
94
BIOESTATÍSTICA
95
Unidade II
Lembrete
Observação
A distribuição normal de probabilidade é uma das mais empregadas entre as distribuições teóricas
de variável aleatória contínua.
Média x
Curva de Gauss é uma curva em forma de sino assintótica em relação ao eixo x e simétrica em
relação à média. Portanto, a probabilidade de ocorrer valor maior que a média é igual à probabilidade de
ocorrer valor menor do que a média.
96
BIOESTATÍSTICA
Escrevemos:
P(x>x) = P(x<x) = 5.
A distribuição normal reduzida, ou padronizada, que admite média 0 e desvio padrão 1, é indicada pela
letra Z. Para reduzirmos os valores que desejamos para a curva padronizada, devemos utilizar a fórmula:
Para amostras:
x−x
Z=
S
Para população:
x−µ
Z=
σ
A utilização da fórmula nos dá a associação das probabilidades à distribuição normal reduzida, que
se apresenta na tabela de distribuição normal:
Tabela 2 – Tabela de distribuição normal reduzida. Áreas sob a curva normal padrão.
Para os valores negativos de z as áreas são obtidas por simetria
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586
0,10 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535
0,20 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409
0,30 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173
0,40 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793
0,50 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240
0,60 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490
0,70 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524
0,80 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327
0,90 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891
1,00 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214
1,10 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298
1,20 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147
1,30 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41309 0,41466 0,41621 0,41774
1,40 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189
1,50 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408
1,60 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449
1,70 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327
97
Unidade II
1,80 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062
1,90 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670
2,00 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169
2,10 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574
2,20 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899
2,30 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158
2,40 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361
2,50 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520
2,60 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643
2,70 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736
2,80 0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807
2,90 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861
3,00 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900
3,10 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929
3,20 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950
3,30 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965
3,40 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976
3,50 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983
3,60 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989
3,70 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992
3,80 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995
3,90 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997
4,00 0,49997 0,49997 0,49997 0,49997 0,49997 0,49997 0,49998 0,49998 0,49998 0,49998
Observação
Exemplos:
Para que possamos utilizar a tabela de distribuição Z, devemos transformar o nosso valor de QI
em Z, temos x = 100, s=10 e desejamos saber P(X)>120
98
BIOESTATÍSTICA
–5 –4 –3 –2 –1 0 1 2 3 4 5
Figura 80 – Esboço curva normal para z>2
Como queremos apenas a parte do gráfico que está em amarelo, devemos retirar o intervalo de
0 a 1, da área do gráfico, então:
P(Z>0) é igual a 0,5 ou 50%, e P(0<Z<2), devemos procurar, na tabela de distribuição normal
reduzida (tabela 2), a intersecção da linha onde se encontra o nº 2,0 e a coluna 0,00, pois o número é
2,00, obtendo o valor 0,4772.
Observação
2 0 1,5
Para obtermos a área total do gráfico que está em amarelo, devemos juntar a área de ‑2 até 0 e de 0 até 1,5.
P(‑2<Z<1,5) = 91,04%
Então concluímos que a probabilidade de um dos funcionários apresentar QI entre 80 e 115 pontos,
é de 91,04%.
Portanto, podemos concluir que, com base em grandes amostras, podemos estimar média, variância
e desvio padrão, e com base na distribuição normal, podemos definir critérios de normalidade e não
normalidade.
100
BIOESTATÍSTICA
Observação
=0,5‑[Link].N(‑2;1)+[Link].N(1,5;1)‑0,5 =91,04%
Lembrete
Saiba mais
Você pode achar mais exemplos com o tema saúde e distribuição normal
de probabilidades no livro:
Quando se faz pesquisa, tem‑se por objetivo responder a perguntas, que devem ser transformadas
em hipóteses, ou hipótese, que é uma pressuposição a respeito de determinado problema.
Quando formulamos uma hipótese, desejamos comprová‑la por meio de uma amostra e ela não será
de valor se não pudermos generalizá‑la. Para generalizar uma pesquisa, ou responder a uma hipótese,
existe, em estatística, um mecanismo chamado teste de hipóteses.
Assim, testar uma hipótese nada mais é do que generalizar um pressuposto e, assim, chegar a
uma conclusão.
Testar uma hipótese pode ser, então, aceitar ou rejeitar uma afirmação sobre um determinado
parâmetro. Essa afirmação é chamada de hipótese e denominada de teste de hipótese.
Existem dois tipos de hipóteses em um teste de hipóteses, a hipótese nula, que comumente chamamos
de H0, e a hipótese alternativa, que comumente chamamos de H1. Então, temos:
101
Unidade II
Hipótese alternativa (H1): a hipótese a ser considerada como uma alternativa à hipótese nula.
A hipótese nula, em um teste de hipótese relacionado com a média de uma população m, deve
sempre especificar um único valor para aquele parâmetro.
Portanto:
H0: m = m0
A hipótese alternativa deve refletir o propósito do teste de hipótese em questão. Existem três
possibilidades para a escolha da hipótese alternativa:
H1: m ≠ m0
• Teste unilateral à esquerda: se quisermos comprovar que a média de uma população é menor
que um valor especificado. Neste caso expressamos a hipótese alternativa como:
H1: m<m0
H1: m>m0
Exemplo:
1. O gestor da Maternidade Athena de Toulouse, percebeu que na maioria dos casos de nascimento de
crianças com baixo peso, as mães utilizavam algum tipo de droga ilícita, portanto, questionou‑se:
a probabilidade de baixo peso ao nascer é maior quando a mãe faz uso contínuo de drogas ilícitas
durante a gestação?
Resolução:
Para responder à pergunta, será necessário comparar o peso ao nascer de filhos de dois grupos de
mães: as que usaram drogas ilícitas durante a gestação e as que não usaram drogas ilícitas durante a
gestação, o que gerou as seguintes hipóteses:
102
BIOESTATÍSTICA
H0: a probabilidade de ter filhos com baixo peso ao nascer é a mesma para mães que usaram ou não,
drogas ilícitas durante a gestação.
H1: a probabilidade de ter filhos com baixo peso ao nascer é maior para mães que usaram drogas
ilícitas durante a gestação.
Lembrete
Após a definição das duas hipóteses, nula e alternativa, utilizar de cálculos que nos permitam
determinar qual das duas é verdadeira, ou qual das hipóteses iremos rejeitar e qual iremos aceitar.
Devemos, então, escolher uma amostra aleatória da população e fazer uma comparação com
a hipótese nula. Se os dados da amostra forem consistentes com ela, não rejeitamos a hipótese
nula, caso não sejam consistentes, rejeitamos a hipótese nula e assumimos que a hipótese
alternativa é verdadeira.
Por convenção, testa‑se sempre H0. Dessa forma, aceitar H0 implica comprovar a igualdade e rejeitar
H0 implica comprovar a diferença entre os grupos testados.
Para confirmar ou rejeitar alguma hipótese, devemos estabelecer o valor da probabilidade tolerável de
incorrer no erro de rejeitar H0, quando H0 é verdadeira. Esse valor é conhecido como nível de significância
do teste e é designado pela letra grega a.
É comum adotar um nível de significância de 5%, porém ainda pode ser de 10% ou de 1%. Isto é,
respectivamente: a = 0,05, a=0,10 ou a = 0,01.
Quando o nível de significância é de 5% significa que há uma confiança de 95% de que a decisão
tomada foi acertada.
Lembrete
Observação
Uma amostra é considerada pequena quando apresenta n<30 e grande quando apresenta n>30.
Devemos, em primeiro lugar, escrever as hipóteses nula e alternativa e, depois, definir o nível de
confiança, calcular o valor da estatística do teste, rejeitar ou não H0 e concluir.
A estatística do teste
x=
∑x
n
Depois, vamos determinar o desvio em relação à média, com a fórmula:
S
σx =
n
Onde:
Depois devemos determinar o valor relativo ao nível de significância a escolhida, chamado za que se
encontra na tabela a seguir:
104
BIOESTATÍSTICA
Então, determinamos o valor de z, que chamaremos de zcalc utilizando os valores da pesquisa, por
meio da fórmula:
x −µ
Zcalc =
S
n
Onde:
Zcalc = estatística do teste.
x = média amostral.
m = média da população.
S = desvio padrão amostral.
n = nº de elementos da amostra.
Uma vez determinado zcalc, devemos decidir por H0 ou H1 por meio do teste da média das amostras,
conforme figura a seguir:
A decisão é feita por meio da área da calda da curva de Gauss, como mostra a figura seguinte:
Não
Rejeite rejeite Rejeite Rejeite Não rejeite H0 Não rejeite H0 Rejeite
H0 H0 H0 H0 H0
α/2 α/2 α α
Z Z Z
-Zα/2 0 Zα/2 -Zα 0 0 Zα
Bilateral Unilateral à esquerda Unilateral à direita
µ1 ≠ µ2 µ1<µ2 µ1>µ2
Região crítica Região crítica Região crítica
bilateral: Rejeita‑se unilateral à esquerda: unilateral à direita:
H0 se Rejeita‑se H0 se Rejeita‑se H0 se
Zcalc<Zα/2 ou Zcalc<Zα Zcalc>Z(1–α)
Zcalc>Z(1–α/2)
105
Unidade II
Exemplos:
1. O gestor do Hospital Baruch Toulouse verificou que, o valor das refeições, em 2014, no restaurante
que serve funcionários e clientes, que é terceirizado, teve preço médio de R$ 28,44 das refeições.
Fez, então, uma pesquisa em 40 restaurantes aleatoriamente escolhidos na cidade, e foi obtida a
média de R$31,75 e desvio‑padrão R$7,35. Os dados fornecidos proporcionam evidência suficiente
para concluir que o preço médio pesquisado nos restaurantes da cidade é maior em relação ao
restaurante que serve o hospital? Utilize nível de significância de 1%.
Resolução:
x−µ
Zcalc =
S
n
, − 28, 44
3175
Zcalc =
7, 35
40
Zcalc = 2,85
Temos: Za = 2,33 e Zcalc = 2,85. De acordo com o gráfico a seguir, devemos rejeitar H0 em favor de H1,
pois o valor de zcalc está à direita de Za, zcalc>za ⇒ rejeita‑se H0, em favor de H1.
106
BIOESTATÍSTICA
Área de 0,01
Z
0 2,33
Concluímos, então, que os dados fornecidos proporcionam evidência suficiente para concluir que
o preço médio pesquisado nos restaurantes da cidade é maior em relação ao restaurante que serve o
hospital, podendo, assim, o gestor manter os mesmos comerciantes da terceirização.
Para uma população de amostra normalmente distribuída, pode‑se realizar um teste de hipóteses
com a hipótese nula (H0: m = m0), empregando a fórmula, agora para t, e utilizando a tabela da distribuição
T para obter o valor crítico.
107
Unidade II
Observação
Em primeiro lugar, devemos escrever as hipóteses nula (H0) e a alternativa (H1), definimos, então,
o nível de significância a e determinamos os valores críticos: para teste bilateral é ±ta/2, para teste
unilateral à esquerda é ‑ta e para teste unilateral à direita é ta.
Para utilizarmos a tabela de distribuição t‑Student (tabela 4), precisamos calcular os graus de
liberdade (GL).
Simplificando, temos:
gl = (l‑1) x (c‑1)
A decisão é feita por meio da área da calda da curva de Gauss, como mostra a figura a seguir:
108
BIOESTATÍSTICA
Não
Rejeite rejeite Rejeite Rejeite Não rejeite H0 Não rejeite H0 Rejeite
H0 H0 H0 H0 H0
α/2 α/2 α α
t t t
-tα/2 0 tα/2 -tα 0 0 tα
Bilateral Unilateral à esquerda Unilateral à direita
x − µ0
t=
s/ n
Onde:
t = estatística do teste.
x = média amostral.
m0 = média da população.
n = nº de elementos da amostra.
Se o valor da estatística de teste cair na região de rejeição, deve‑se rejeitar H0, caso contrário, não
rejeitar H0 e fazer a conclusão.
Exemplo:
109
Unidade II
Resolução:
Hipóteses:
Gl = 15‑1=14
Estatística do teste:
x − µ0
t=
s/ n
1344, 27 − 1123
t=
231 / 15
110
BIOESTATÍSTICA
22127
,
t=
231 / 3, 87
22127
,
t=
59, 69
t = 3,710
Se temos t>ta, o valor está dentro da região de rejeição, portanto, Rejeita‑se H0, como mostra a figura:
0,05
t
0 1,761
Então, podemos concluir que famílias da classe média alta gastam, em média, com plano de saúde,
mais do que a média da região.
Lembrete
Temos maneiras diferentes para tratar o teste para amostras com média
da população, com relação a amostras pequenas e amostras grandes.
É utilizado para comparação de duas médias de populações para decidir se existe alguma diferença
entre elas. A condição para a aplicação desse teste é termos amostras grandes (n>30). As médias das
amostras são calculadas e comparadas.
A conclusão é dada a partir da comparação, as amostras não são iguais se houver uma diferença
significativa entre elas.
O procedimento é o mesmo dos outros testes. Primeiro devemos determinar a hipótese nula:
111
Unidade II
Depois, retiramos uma amostra de cada uma das populações e calculamos as médias.
σ12 σ22
σx1 − x2 = +
n1 n2
Onde:
n1 = nº de elementos da amostra 1.
n2 = nº de elementos da amostra 2.
Como, normalmente, os valores das variâncias das populações não são conhecidos, podemos utilizar
as variâncias das amostras com os estimadores ou estimativas das variâncias das populações para
calcular uma estimativa do desvio‑padrão, com a fórmula:
S 2 S 2
Sx1 − x2 = 1 + 2
n1 n2
Onde:
n1 = nº de elementos da amostra 1.
n2 = nº de elementos da amostra 2.
112
BIOESTATÍSTICA
Z=
( x1 − x2 )
S x1− x2
Onde:
z = estatística do teste.
x1 = média da amostra 1.
x2 = média da amostra 2.
Se a estatística do teste cair na região de rejeição, então rejeite H0, caso contrário, não rejeite H0.
Não
Rejeite rejeite Rejeite Rejeite Não rejeite H0 Não rejeite H0 Rejeite
H0 H0 H0 H0 H0
α/2 α/2 α α
Z Z Z
-Zα/2 0 Zα/2 -Zα 0 0 Zα
Bilateral Unilateral à esquerda Unilateral à direita
Exemplo:
1. O gestor do Hospital Baruch de Toulouse deseja verificar se existe diferença entre os salários
dos enfermeiros que atuam nos hospitais da capital e dos hospitais do interior por meio
de um teste de hipóteses. Para isso, selecionou aleatoriamente 30 enfermeiros do hospital
da capital e, com base em seus salários anuais, determinou‑se a média de seus salários
como sendo de R$ 46.720,00 com desvio‑padrão de R$ 14.700,00. O mesmo procedimento
foi adotado para uma amostra de 35 enfermeiros dos hospitais do interior, obtendo‑se
média de R$ 51.910,00 e desvio‑padrão de R$ 16.200,00. Ele optou por utilizar nível de
significância de 5%.
113
Unidade II
Resolução:
Estatística do teste:
2 2
Dados: s1 = 14.700,00; s2 = 16.200; n1 = 30; n2 = 35
s12 s22
s x1− x 2 = +
n1 n2
14.7002 16.2002
S x1− x 2 = +
30 35
S= 3834,23
z=
( x1 − x2 )
Sx1 − x2
46.720 − 51.910
z=
3.843, 23
z = – 1,35
114
BIOESTATÍSTICA
Pela figura 89, percebemos que o valor de z= ‑1,35 não está na área não rejeite H0.
Portanto, com base nos dados da amostra, o gestor do hospital tem evidências suficientes para
concluir que existe diferença entre as médias salariais dos enfermeiros que atuam nos hospitais da
capital e dos hospitais do interior.
Lembrete
Saiba mais
O meio de se generalizar os resultados de uma pesquisa e poder responder
às perguntas para toda uma população são as inferências estatísticas.
Você pode saber mais sobre teste de hipóteses em:
SIEGEL, S.; CASTELLAN JR., N. J. Estatística não paramétrica para as
ciências do comportamento. São Paulo: Artmed Bookman, 2006.
É utilizado para testar a significância entre duas variáveis qualitativas, ou comparar duas ou
mais amostras, quando os resultados da variável de resposta estão dispostos em categorias. O teste
qui‑quadrado clássico é utilizado quando o número total de dados é maior do que 40.
Se a amostra for 20<n<40, o teste de x² só pode ser aplicado se nenhuma frequência esperada for
menor do que 1.
As variáveis devem ser qualitativas nominais. Para as variáveis qualitativas ordinais, se aplica o teste
de x² para tendências.
115
Unidade II
A distribuição x2 está associada ao teste x2. O teste x2 é utilizado para comparar os valores observados
e os esperados.
Exemplo:
Uma experiência genética pode gerar a hipótese de que a próxima geração de plantas exibirá
determinado conjunto de cores. Comparando os resultados observados com os esperados, você poderá
decidir se a hipótese original é válida.
O cálculo do teste x² é utilizado para comparar valores observados e valores esperados, isto é, mede
a distância entre as frequências observadas e as frequências que esperadas, na suposição das variáveis
serem independentes (H0 verdadeira).
E=
(total da linha) x (total da coluna)
(total geral)
Onde:
X =∑
2
r
(Oi − Ei )2
i=1 Ei
Onde:
x² = valor do qui‑quadrado.
gl = (l‑1) x (c‑1).
Nível de significância para qui‑quadrado encontra‑se na tabela a seguir (valores de x², segundo os
graus de liberdade e o valor de a):
116
BIOESTATÍSTICA
Graus de a
Liberdade 10% 5% 1%
1 2,7055 3,8415 6,6349
2 4,6052 5,9915 9,2103
3 6,2514 7,8147 11,3449
4 7,7794 9,4877 13,2767
5 9,2364 11,0705 15,0863
6 10,6446 12,5916 16,8119
7 12,0170 14,0671 18,4753
8 13,3616 15,5073 20,0902
9 14,6837 16,9190 21,6660
10 15,9872 18,3070 23,2093
11 17,2750 19,6751 24,7250
12 18,5493 21,0261 26,2170
13 19,8119 22,3620 27,6882
14 21,0641 23,6848 29,1412
15 22,3071 24,9958 30,5779
16 23,5418 26,2962 31,9999
17 24,7690 27,5871 33,4087
18 25,9894 28,8693 34,8053
19 27,2036 30,1435 36,1909
20 28,4120 31,4104 37,5662
21 29,6151 32,6706 38,9322
22 30,8133 33,9244 40,2894
23 32,0069 35,1725 41,6384
24 33,1962 36,4150 42,9798
25 34,3816 37,6525 44,3141
26 35,5632 38,8851 45,6417
27 36,7412 40,1133 46,9629
28 37,9159 41,3371 48,2782
29 39,0875 42,5570 49,5879
30 40,2560 43,7730 50,8922
Observação
117
Unidade II
Onde
xt = valor da tabela.
Exemplo:
Foi feita uma pesquisa com uma amostra de 95 funcionários do Hospital e Maternidade Baruch de
Toulouse, com a intenção de investigar o impacto da utilização dos cursos promovidos pelo método
de ensino a distância nas gerações x e y desses funcionários. Uma das questões da pesquisa era: “O
curso promovido pelo método de ensino a distância é mais adequado do que o presencial?” As opções
de respostas foram formuladas em escala Likert, contemplando cinco categorias, com cinco graus de
importância em 1, 2, 3, 4 e 5, sendo:
3: indiferente.
4: concordo parcialmente.
5: concordo totalmente.
O gestor do hospital não achou que a opção três seja uma boa opção para essa resposta, então,
decidiu testar com o teste qui‑quadrado essa opção, utilizando nível de confiança de 5%
Resolução:
118
BIOESTATÍSTICA
Hipóteses:
H0: A opção de resposta “3: Indiferente” deve ser considerada válida como qualquer outra resposta.
H1: A opção de resposta “3: Indiferente” não deve ser considerada válida como qualquer outra
resposta.
A estatística do teste:
E=
(total da linha) x (total da coluna)
(total geral)
119
Unidade II
X =∑
2
r
(Oi − Ei )2
i=1 Ei
x2 = 2,730839631
ou utilizamos os totais:
x2 = 2,242163066 + 0,488676566
x2 = 2,730839631
Graus de liberdade:
gl = 4 x 1
gl = 4
A figura a seguir é uma tabela parcial da tabela 5, apresentada anteriormente, com os valores de x²,
segundo os graus de liberdade e o valor de α.
120
BIOESTATÍSTICA
Análise:
Onde:
xt = valor da tabela.
Decisão:
Portanto, o valor do x2 = 2,73 é menor que o valor crítico da tabela, com 4 graus de liberdade e ao
nível de 5% de significância, que é de 9,49. Neste caso, não se rejeita H0.
Então, o gestor do Hospital Baruch de Toulouse pode considerar as respostas com a opção “3:
Indiferente”, que deve ser válida como qualquer outra resposta.
Lembrete
121
Unidade II
8 CORRELAÇÃO E REGRESSÃO
Correlação é uma medida estatística que testa a relação entre duas variáveis. Talvez seja uma das
medidas mais importantes, pois variáveis próximas podem ser correlacionadas para que possamos fazer
previsões a seu respeito.
Para sabermos se as variáveis fumo e a variável doenças cardíacas estão relacionadas, fazemos a
correlação entre elas.
Cada unidade da amostra fornece dois valores numéricos. Uma se refere à variável x e a outra
à variável y, portanto, fazermos um gráfico, chamado diagrama de dispersão, que relaciona as duas
variáveis.
Para fazer esse gráfico, diferentemente dos gráficos estatísticos, devemos considerar os dois eixos do
sistema de coordenadas cartesianas, e os valores das variáveis x e y serão as coordenadas dos pontos do
gráfico, formando o par ordenado (x, y).
Assim, podemos responder se existe relação entre as variáveis, qual é o tipo de relação e em que grau
as variáveis estão correlacionadas.
Observação
Quando a imagem é uma reta ascendente, dizemos que a correlação é linear positiva, isto é, os
pontos do diagrama têm como “imagem” uma reta ascendente, como mostra o gráfico a seguir.
122
BIOESTATÍSTICA
Quando a imagem da reta for descendente, dizemos que a correlação é linear negativa, ou seja, os
pontos têm como “imagem” uma reta descendente, como mostra o gráfico a seguir.
A correlação não é linear, correlação não linear, se os pontos têm como “imagem” uma curva, como
o gráfico a seguir.
123
Unidade II
Não existe correlação entre as variáveis quando os pontos se apresentam dispersos, não oferecendo
uma “imagem” definida, como mostra o gráfico a seguir.
É uma medida para analisar o grau de correlação linear entre duas variáveis numéricas, é representada
pela letra r e é definida pela fórmula:
r=
n∑ xiyi − (∑ xi) . (∑ yi)
n. xi2 −
∑ (∑ xi)2 ⋅ n.∑ yi2 − (∑ yi)2
Onde:
n= nº de observações.
Os valores limites de R são ‑1 e +1, isto é, valor de r pertence ao intervalo numérico [‑1,1].
Para que haja correlação entre as variáveis é necessário que 0,6≤|r|≤1, ou seja, o valor de r deve estar
entre 0,6, inclusive, e 1.
124
BIOESTATÍSTICA
Se 0<|r|<0,3, a correlação é muito fraca e praticamente nada se pode concluir sobre a relação entre
as variáveis em estudo.
Lembrete
Exemplo:
1. O gestor do Hospital Baruch de Toulouse deseja avaliar o curso que está proporcionando a seus
colaboradores no sistema de educação a distância. Para os alunos estudarem, existem questionários
que valem nota. Os colaboradores acessam a plataforma, podem estudar e fazer os questionários.
Após fazer o questionário, o colaborador obtém a nota relativa aos seus erros ou acertos. Ao final
do curso, o colaborador faz a sua prova. O gestor deseja saber se existe correlação entre a nota
dos questionários e a nota da prova, para tanto, colheu uma amostra, por amostragem aleatória
simples, de 10 colaboradores e obteve os resultados da tabela a seguir.
Resolução:
Temos então que verificar se existe correlação entre a média das notas dos questionários e a nota
da prova.
125
Unidade II
r=
n∑ xiyi −(∑ xi) ⋅ (∑ yi)
n ⋅ xi2 −
( xi) ⋅ n ⋅ ∑ yi2 − (∑ yi)
2 2
∑ ∑
Vamos então calcular a correlação dos dados que estão dispostos na tabela já com as colunas
acrescidas para a fórmula, como na tabela a seguir, na qual acrescentamos uma coluna para o cálculo
de xiyi, uma coluna para o cálculo do xi² e outra para o cálculo de yi², pois iremos utilizar na fórmula os
seus somatórios.
r=
n∑ xiyi −(∑ xi) ⋅ (∑ yi)
n ⋅ xi2 −
∑ ( ∑ xi) ⋅ n ⋅ ∑ yi2 − (∑ yi)
2
2
7302 − 7260, 28
r=
[8705 − 8686, 24 ] × [6184 − 6068, 41]
126
BIOESTATÍSTICA
41, 72
r=
(18, 76) × (115, 59)
41, 72
r=
2168, 4684
4172
,
r=
46, 57
r = 0,8958
Portanto, podemos dizer que existe correlação entre a média dos questionários e a nota da prova
dos colaboradores, pois r = 0,89, o que significa uma correlação linear positiva altamente significativa
entre as variáveis.
Observação
No Microsoft Excel, basta selecionarmos os valores das colunas B e C, sem os totais, e escolher inserir
dispersão, como mostra a figura a seguir.
127
Unidade II
Portanto, devemos selecionar as células B2 até C11, escolher “inserir”, “gráfico de dispersão somente
com marcadores” e vamos obter o gráfico a seguir, chamado de diagrama de dispersão:
Quando olhamos para o conjunto dos pontos obtidos no gráfico, podemos perceber que formam
uma elipse em diagonal, quanto mais fina for a elipse, mais ela se aproximará de uma reta. Então,
podemos dizer que a correlação de forma elíptica tem como “imagem” uma reta, e, por isso, é chamada
de correlação linear. Quanto maior a dispersão dos dados, menor será o grau de correlação entre eles e
vice‑versa. Veja o gráfico a seguir:
128
BIOESTATÍSTICA
Lembrete
Observação
Determina a proporção em que uma variável é explicada em relação a outra. Quando há relação
entre as variáveis x e y, se o valor de x aumenta, o valor de y também aumentará, quanto maior for o
coeficiente de determinação, maior será a força da relação entre as variáveis.
O coeficiente de determinação é dado por r², isto é, o valor de R (correlação) elevado a 2, portanto,
ele será um valor entre 0 e 1, sendo que, mesmo que a correlação seja negativa, ele nunca o será, pois
está elevado a 2 (0<R²<1). Se o resultado for 1, é uma correlação linear perfeita, o que significa que
todas as variações de y estão diretamente relacionadas as variações de x.
No exemplo, temos r = 0,90, R² = 0,7921, então podemos dizer que 79% da variação de y pode ser
explicada pela relação linear entre x e y, os outros 21% não.
Se existe correlação entre as variáveis, então pode‑se prever resultados futuros, para isso, podemos,
já que a correlação é linear, determinar a equação que dá origem à reta de regressão.
Como ela é uma correlação linear, a nossa reta será uma função linear, ou seja, uma função de 1º
grau, que tem a forma:
Y = Ax + B
Onde:
Y = variável dependente.
X = variável independente.
129
Unidade II
A = coeficiente de x, se A for positivo, a inclinação da reta será positiva, se A for negativo, a inclinação
da reta será negativa.
B = termo independente.
n∑ xy − ∑ x ∑ y
A=
n∑ x2 − (∑ x )2
Para determinarmos B, a fórmula será:
B = y – ax
Onde:
y=
∑y e x=
∑x
n n
130
BIOESTATÍSTICA
n∑ xy − ∑ x ∑ y
A=
n∑ x2 − (∑ x )2
10 × 730, 2 − 93, 2 × 77, 9
A=
10 × 870, 5 − 93, 22
7302 − 7260, 28
A=
8705 − 8686, 24
4172
,
A=
18, 76
A = 2,22
Vamos determinar B:
y=
∑ y = 77, 9 = 7, 79
n 10
x=
∑ x = 93, 2 = 9, 32
n 10
B = y – ax
B = 7,79 – 20,504
B = – 12,714
Y = Ax + B,
Onde:
A= 2,22 e B= ‑12,714
Y= 2,22x – 12,714
131
Unidade II
A equação de regressão nos permite tirar conclusões a respeito de valores que não temos na tabela.
Exemplo:
1. O gestor do hospital deseja saber que nota o colaborador poderia tirar na prova, caso tivesse
média 6,0 nos questionários.
Resolução:
Devemos então substituir a variável x (média dos questionários) pelo valor 6,0 na equação de
regressão para determinar qual é o provável valor de y (nota da prova).
Assim temos:
Y= 2,22x – 12,714
Y = 13,32 – 12,714
Y= 0,6
Y @ 1,0
Portanto, se o colaborador tirar nota 6,0 na média dos questionários, provavelmente ele iria muito
mal na prova, tendo como nota prevista 1,0. Isso ocorreu porque as notas de questionários e de provas
foram relativamente altas.
Observação
Saiba mais
132
BIOESTATÍSTICA
Para obter a equação e o coeficiente de determinação no Excel, basta pedir para fazer o gráfico
como exposto. Com o gráfico selecionado, clicamos em “Ferramentas do Gráfico”, “Layout”, “Linha de
Tendência”, mais opções de Linha de Tendência, escolher “Linear”, marcar as opções “Exibir Equação no
gráfico” e “Exibir valor de R‑quadrado no gráfico” e, por fim, “Fechar”, como na figura a seguir:
Portanto, podemos, por meio do gráfico e da equação, prever valores de Y, atribuindo valores a X.
Utilize de forma correta e coerente os seus conhecimentos e procure sempre se informar, caso tenha
alguma dúvida, e atualizá‑los.
133
Unidade II
Resumo
134
BIOESTATÍSTICA
Exercícios
Questão 1. O estudo da Teoria das Probabilidades teve início por volta do século XVII, com as análises
de Fermat e Pascal a respeito da Teoria dos Jogos de Azar. Posteriormente, a probabilidade associou‑se
também a outros fenômenos naturais, distintos dos jogos de azar, e conseguiu, com isso, uma enorme
evidência até os dias de hoje. A definição clássica de probabilidade é: dado um espaço amostral S, com
n(S) elementos, e um evento A de S, com n(A) elementos, a probabilidade do evento A é o número P(A),
tal que P(A) = n(A) / n(S). Desta forma, se num hospital há 250 pacientes, sendo que destes 120 são
mulheres, qual a probabilidade de uma enfermeira escolher uma paciente do sexo feminino para ser
entrevistada para um estudo?
A) 50%
B) 52%
C) 10%
D) 48%
E) 12%
135
Unidade II
A) Alternativa incorreta.
Justificativa: a resposta é incorreta, pois, mesmo não aplicando a fórmula clássica de probabilidades,
observa‑se pelo caso apresentado que há mais homens do que mulheres no hospital, portanto a
probabilidade de mulheres serem escolhidas é menor do que a de homens. Desta forma, 50% é uma
resposta errada.
B) Alternativa incorreta.
Justificativa: a mesma justificativa da alternativa A se aplica para a alternativa B, pois 52% é uma
resposta incoerente com o que foi apresentado na questão.
C) Alternativa incorreta.
Cálculo da probabilidade:
n(S)
D) Alternativa correta.
E) Alternativa incorreta.
A) Ha: m = 100
136
BIOESTATÍSTICA
B) Ha: m<100
C) Ha: m>100
D) Ha: m ≠ 100
E) Ha: m = 50
137
FIGURAS E ILUSTRAÇÕES
Figura 82
COSTA NETO, P. L. D. O. Estatística. 2. ed. São Paulo: Edgard Blucher, 2002. p. 91‑92. Adaptada.
Figura 83
COSTA NETO, P. L. D. O. Estatística. 2. ed. São Paulo: Edgard Blucher, 2002. p. 90. Adaptada.
Figura 84
COSTA NETO, P. L. D. O. Estatística. 2. ed. São Paulo: Edgard Blucher, 2002. p. 90. Adaptada.
Figura 85
COSTA NETO, P. L. D. O. Estatística. 2. ed. São Paulo: Edgard Blucher, 2002. p. 90. Adaptada.
Figura 87
COSTA NETO, P. L. D. O. Estatística. 2. ed. São Paulo: Edgard Blucher, 2002. p. 90. Adaptada.
Figura 88
COSTA NETO, P. L. D. O. Estatística. 2. ed. São Paulo: Edgard Blucher, 2002. p. 90. Adaptada.
Figura 89
COSTA NETO, P. L. D. O. Estatística. 2. ed. São Paulo: Edgard Blucher, 2002. p. 90. Adaptada.
REFERÊNCIAS
Textuais
ARANGO, H. G. Bioestatística teórica e computacional. 3. ed. Rio de Janeiro: Guanabara Koogan, 2009.
CALIXTO, T. Ensino médio é o desafio da educação. A Tribuna, Santos, p. A7, 17 ago. 2014.
CENTRAL de questionários de saúde. Survey Monkey, Califórnia, 1999‑2015. Disponível em: <https://
[Link]/mp/healthcare‑surveys/>. Acesso em: 26 maio 2015.
CURI, A. Z.; MENEZES‑FILHO, N. A. A relação entre o desempenho escolar e os salários no Brasil. In:
ENCONTRO NACIONAL DE ECONOMIA, 33, 2005, Natal. Trabalhos. Natal: Anpec, 2005.
FEGER, J. E.; NODARI, L. D. T.; LAZZAROTTI, F. Método da correlação de variáveis para a previsão da
demanda turística: uma aplicação visando o planejamento do desenvolvimento turístico em uma
região sul brasileira. Caderno Virtual de Turismo, Rio de Janeiro, v. 11, n. 3, p. 294‑307, dez. 2011.
Disponível em: <[Link]
view&path%5B%5D=580&path%5B%5D=298>. Acesso em: 1 jun. 2015.
JULIÃO, L. Transporte coletivo em Santos é regular, dizem entrevistados. A Tribuna, Santos, p. A7, fev.
2014.
LEVINE, D. M. et al. Estatística: teoria e aplicações: usando Microsoft Excel em português. Tradução de
Teresa Cristina Padilha de Souza. Rio de Janeiro: LTC, 2013.
MENESES, A.; MARIANO, F. Noções de estatística para concursos. Rio de Janeiro: Elsevier, 2010.
MORETTIN, L. G. Estatística básica: inferência. São Paulo: Pearson Makron Books, 2000. v. 2.
PAGANO, M.; GAUVREAU, K. Bioestatística. 2. ed. São Paulo: Thomson Learning, 2006.
PEDROSO, D. Região registra alta em roubos, mas homicídios têm queda. A Tribuna, Santos, p. A6, 26
jul. 2014.
PEIXE sobe, mas público desce. A Tribuna, Santos, p. B1, 3 mar. 2014.
QUEIRÓS, S. Erro do Ipea não esconde situação preocupante. A Tribuna, Santos, p. A6, 6 abr. 2014.
SABESP registra nova queda nos reservatórios de água. A Tribuna, Santos, p. C5, 5 mar. 2014.
SANTOS, M. Homem, 43 anos, casado e investidor de imóvel em Santos. A Tribuna, Santos, p. C1, 16
mar. 2014.
139
SIEGEL, S.; CASTELLAN JR., N. J. Estatística não paramétrica para as ciências do comportamento. São
Paulo: Artmed Bookman, 2006.
SILVA, I. A. A arte de enfermeiro: Escola de Enfermagem Dr. Ângelo da Fonseca. Coimbra: Imprensa da
Universidade de Coimbra, 2008.
THADEU, S. Metade dos jovens não usa preservativo em relação. A Tribuna, Santos, p. A7, 27 mar. 2014.
___. Região “cresceu” para quem viaja entre cidades. A Tribuna, Santos, p. A3, 17 mar. 2014.
140
141
142
143
144
Informações:
[Link] ou 0800 010 9000