0% acharam este documento útil (0 voto)

51 visualizações18 páginas

Distribuição Normal e Testes de Hipóteses

Enviado por

Gilberto Santos

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

51 visualizações18 páginas

Distribuição Normal e Testes de Hipóteses

Enviado por

Gilberto Santos

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

AULA 2

ANÁLISE PREDITIVA

Prof.ª Sachiko A. Lira

TEMA 1 – DISTRIBUIÇÃO NORMAL

A inferência estatística compreende um conjunto de técnicas que, por meio

de dados amostrais, possibilita tirar conclusões sobre os parâmetros
populacionais. As técnicas estatísticas paramétricas presumem que a distribuição
de probabilidade dos dados seja conhecida.

1.1 Distribuição normal

A distribuição normal, conhecida também como distribuição Gaussiana, é

uma das mais importantes distribuições de probabilidades para variáveis
aleatórias contínuas, sendo aplicada em probabilidades e frequentemente
utilizada para o desenvolvimento teórico da inferência estatística, por exemplo,
estimação e testes de hipóteses.
A função densidade de probabilidade de uma varável aleatória continua X,
que segue distribuição normal e é dada por:
(1)
1 1 𝑥−𝜇 2
𝑓 (𝑥 ) = 𝑒 −2( 𝜎 )
𝜎√2𝜋

Em que:

• 𝑥 ∈ 𝑅;
• 𝜇 ∈ 𝑅;
• 𝜎 ∈ 𝑅+ .

Os parâmetros da distribuição normal são:

Média: 𝐸(𝑋) = 𝜇 (2)

Variância: 𝑉(𝑋) = 𝜎 2 (3)

A notação 𝑋 ~𝑁(𝜇, 𝜎 2 ) é muito usada para denotar que a distribuição da

variável aleatória X é normal com parâmetros 𝜇 e 𝜎 2 .
Algumas características da distribuição normal são:

• o gráfico da distribuição normal ter aspecto típico, que é a curva em forma

de sino;
• a curva ser simétrica em torno da média 𝜇 e os valores da média, mediana
e moda serem iguais;

2
∞
• a área total sob a curva se igual a 1, ou seja, ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1.

O Gráfico 1 apresenta as probabilidades associadas a uma distribuição

normal.

Gráfico 1 – Distribuição normal

Fonte: elaborado com base em Gupta; Guttman, 2017.

A área compreendida entre 𝜇 ± 𝜎 é igual a 68,27%; entre 𝜇 ± 2𝜎 é igual a

95,45% e entre 𝜇 ± 3𝜎 é igual a 99,73%.

TEMA 2 – TESTES DE HIPÓTESES

Os testes de hipóteses são procedimentos para a tomada de decisão

quanto a uma afirmação sobre um parâmetro populacional. A afirmação sobre os
parâmetros é chamada de hipótese estatística.
Em geral, uma hipótese estatística constitui-se de um par de afirmativas
sobre o parâmetro desconhecido, a hipótese nula, representada por 𝐻0 , que
representa uma convicção ou algo conhecido, e a hipótese alternativa,
representada por 𝐻1 , que é uma afirmativa baseada em alguma nova informação.
Com base nos dados amostrais, rejeita-se a hipótese nula 𝐻0 ou não se rejeita a
hipótese nula 𝐻0 . A hipótese alternativa 𝐻1 pode assumir diferentes situações,
tendo como base alguma nova informação. Genericamente, tem-se:

• teste unilateral à esquerda: 𝐻0 : 𝑇 = 𝑇0 , 𝐻1 : 𝑇 < 𝑇0 ;

• teste unilateral à direita: 𝐻0 : 𝑇 = 𝑇0 , 𝐻1 : 𝑇 > 𝑇0 ;
• teste bilateral: 𝐻0 : 𝑇 = 𝑇0 , 𝐻1 : 𝑇 ≠ 𝑇0 .

Para a definição da região de rejeição de 𝐻0 , é necessário considerar a

hipótese 𝐻1 , uma vez que é ela que define o tipo do teste, se é unilateral à

3
esquerda, unilateral à direita ou bilateral. Por meio do tipo do teste identifica-se a
área de rejeição de 𝐻0 , conforme é possível visualizar na Figura 1.
Os pontos 𝑐1, 𝑐2 , 𝑐3 , e 𝑐4 são os pontos críticos, obtidos nas tabelas das
distribuições das estatísticas do teste para o nível de significância adotado.

Figura 1 – Região de rejeição (RR) da hipótese

Fonte: elaborado com base em Gupta; Guttman, 2017.

2.1 Erro estatístico

Na realização de testes estatísticos, é possível cometer dois tipos de erros.

• Erro tipo I: probabilidade de rejeitar a hipótese nula quando ela for

verdadeira, também denominado erro alfa (𝛼).

𝛼 = 𝑃(𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 /𝐻0 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎)

• Erro tipo II: probabilidade de não rejeitar a hipótese nula quando ela for
falsa, também denominado erro beta (𝛽).

𝛽 = 𝑃(𝑛ã𝑜 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 /𝐻0 𝑓𝑎𝑙𝑠𝑎)

2.2 Nível de significância (𝜶) e valor-p

O nível de significância 𝛼 é a probabilidade máxima com a qual se

sujeitaria correr o risco de um erro tipo I. Está relacionado ao valor-p (ou p-value),
obtido com a aplicação do teste estatístico. O valor-p é a probabilidade de se obter
uma estatística de teste igual ou maior do que a obtida por meio de dado amostral.
4
Se o valor-p for menor ou igual ao valor de 𝛼 estabelecido a priori, a hipótese nula
𝐻0 é rejeitada.
O nível de significância é definido pelo pesquisador, sendo os valores mais
utilizados iguais a 1% e 5%.

TEMA 3 – TESTES DE HIPÓTESES PARA UMA POPULAÇÃO

Ao realizar o teste de hipóteses quando a variância populacional é

desconhecida e se trata de amostras pequenas (𝑛 < 30), a população de onde a
amostra foi retirada deve ser normalmente distribuída. Para amostras grandes
(𝑛 ≥ 30), não é necessário observar tal condição, o que é justificado pelo teorema
central do limite.
De acordo com o teorema central do limite, à medida que o tamanho da
amostra aumenta, independentemente da forma de distribuição da população, a
distribuição amostral de médias (𝑋̅) aproxima-se da distribuição normal. Para
maiores detalhes, consultar Morettin e Bussab (2017).
Existem diferentes testes estatísticos para verificar a normalidade dos
dados, entre eles, o teste de Lilliefors. Esse teste é utilizado para verificar a
aderência dos dados a uma distribuição normal, sem a especificação de seus
parâmetros, ou seja, a média e o desvio padrão são calculados com base na
amostra. Detalhes sobre o teste podem ser obtidos em Razali e Wah (2011).

3.1 Teste para média populacional

Se a variância populacional 𝜎 2 for desconhecida, a estatística do teste

deverá ser calculada por:

𝑋̅ − 𝜇0 (4)
𝑡=
𝑆⁄√𝑛

Na equação, a distribuição t de Student é com n – 1 graus de liberdade.

Ainda:

• 𝑋̅ é a média amostral;
• 𝜇0 é o valor a ser testado;
• 𝑆 é o desvio padrão amostral;
• 𝑛 é o tamanho da amostra.

As hipóteses estatísticas a serem testadas são:

5
𝐻0 : 𝜇 = 𝜇0

A hipótese 𝐻1 pode assumir diferentes situações:

• 𝐻1 : 𝜇 < 𝜇0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎);

• 𝐻1 : 𝜇 > 𝜇0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎);
• 𝐻1 : 𝜇 ≠ 𝜇0 (𝑇𝑒𝑠𝑡𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙).

A conclusão do teste é feita analisando o valor-p ou p-value, conforme

apresentado na seção 2.2.

3.2 Teste para proporção populacional

Utiliza-se o teste para a proporção populacional (𝑝) quando se deseja testar

a hipótese de que 𝑝 é supostamente igual a um determinado valor (𝐻0 ), e a
hipótese 𝐻1 , que vai definir o tipo de teste, assume diferentes situações (unilateral
à direita, unilateral à esquerda ou bilateral).
As hipóteses estatísticas a serem testadas são:

𝐻0 : 𝑝 = 𝑝0

A hipótese 𝐻1 pode assumir diferentes situações:

• 𝐻1 : 𝑝 < 𝑝0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎);

• 𝐻1 : 𝑝 > 𝑝0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎);
• 𝐻1 : 𝑝 ≠ 𝑝0 (𝑇𝑒𝑠𝑡𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙).

Os critérios a serem obedecidos é que 𝑛𝑝 ≥ 5 e 𝑛(1 − 𝑝) ≥ 5, exigindo

assim que a amostra seja grande. Para amostras grandes, a estatística do teste é
dada por:

𝑝̂ − 𝑝0 (5)
𝑍=
√𝑝0 × (1 − 𝑝0 )
𝑛

Em que:

• 𝑝̂ é a proporção amostral;
• 𝑝0 é o valor a ser testado;
• 𝑛 é o tamanho da amostra.

6
A conclusão do teste é feita analisando o valor-p ou p-value, conforme
apresentado na seção 2.2.

TEMA 4 – TESTES DE HIPÓTESES PARA DUAS POPULAÇÕES

Em algumas situações, por exemplo, o consumidor pode desejar testar as

hipóteses sobre a diferença entre os tempos médios de vida útil de um produto,
considerando duas marcas diferentes, A e B. Ele poderá escolher a marca que
apresentar tempo médio de vida útil maior, com base no resultado do teste de
hipóteses para a diferença entre duas médias populacionais.

4.1 Teste para a diferença entre duas médias populacionais

Normalmente as variâncias populacionais 𝜎12 e 𝜎22 são desconhecidas e,

portanto, devem ser estimadas por meio de amostras. Nesse caso, a aplicação do
teste requer que as populações de onde as amostras foram retiradas sejam
normalmente distribuídas para amostras pequenas (n < 30).
As hipóteses estatísticas a serem testadas são:

𝐻0 : 𝜇1 − 𝜇2 = 𝑑0

A hipótese 𝐻1 pode assumir diferentes situações:

• 𝐻1 : 𝜇1 − 𝜇2 < 𝑑0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎);

• 𝐻1 : 𝜇1 − 𝜇2 > 𝑑0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎);
• 𝐻1 : 𝜇1 − 𝜇2 ≠ 𝑑0 (𝑇𝑒𝑠𝑡𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙).

4.1.1 Quando as variâncias populacionais são desconhecidas e

supostamente iguais

Para aplicar esse teste, é necessário que as variâncias populacionais

desconhecidas sejam iguais. Portanto, deve-se realizar inicialmente o teste de
igualdade de duas variâncias, que será tratado mais adiante.
A estatística do teste é dada por:

(𝑋̅1 − 𝑋̅2 ) − 𝑑0 (6)

𝑡=
1 1
√𝑆𝑝2 ( + )
𝑛1 𝑛2

7
sendo:
(7)
2
(𝑛1 − 1)𝑆12 + (𝑛2 − 1)𝑆22
𝑆𝑝 =
𝑛1 + 𝑛2 − 2

Em que:

• 𝑋̅1 é a média da amostra 1;

• 𝑋̅2 é a média da amostra 2;
• 𝑆12 é a variância da amostra 1;
• 𝑆22 é a variância da amostra 2;
• 𝑛1 é o tamanho da amostra 1;
• 𝑛2 é o tamanho da amostra 2.

A conclusão do teste é feita analisando o valor-p ou p-value, conforme

apresentado na seção 2.2.

4.1.2 Quando as variâncias populacionais são desconhecidas e

supostamente diferentes

Uma vez realizado o teste de igualdade de duas variâncias e rejeitada a

hipótese 𝐻0 , isto é, de que variâncias são iguais, utiliza-se esse teste para testar
a diferença entre duas médias populacionais.
A estatística do teste é dada por:

(𝑋̅1 − 𝑋̅2 ) − 𝑑0
𝑡=
(8)
𝑆12 𝑆22
√
𝑛1 + 𝑛2

A determinação da região crítica será com base no valor de t da tabela da

distribuição t de Student, com nível de significância 𝜶 e graus de liberdade dados
pela expressão a seguir:

(9)
(𝑤1 + 𝑤2 )2
𝜐=
𝑤12 𝑤22
+
𝑛1 − 1 𝑛2 − 1

Na equação:

8
𝑆12
𝑤1 = (10)
𝑛1

𝑆22
𝑤2 = (11)
𝑛2

Em que:

• 𝑋̅1 é a média da amostra 1;

• ̅
X 2 é a média da amostra 2;
• S12 é a variância da amostra 1;
• S22 é a variância da amostra 2;
• n1 é o tamanho da amostra 1;
• n2 é o tamanho da amostra 2.

A conclusão do teste é feita analisando o valor-p ou p-value, conforme

apresentado na seção 2.2.

4.2 Teste para igualdade de duas variâncias populacionais

Para aplicar o teste para a variância é necessário que as populações de

onde foram extraídas as amostras sejam normalmente distribuídas.
As hipóteses estatísticas são:

𝐻0 : 𝜎12 = 𝜎22
𝐻1 : 𝜎12 ≠ 𝜎22

A estatística do teste é calculada por:

𝑆12 (12)
𝐹= 2
𝑆2

Em que:

• 𝑆12 é a variância da amostra 1;

• 𝑆22 é a variância da amostra 2;
• 𝑛1 é o tamanho da amostra 1;
• 𝑛2 é o tamanho da amostra 2.

A conclusão do teste é feita analisando o valor-p ou p-value, conforme

apresentado na seção 2.2.

9
TEMA 5 – EXEMPLOS DE APLICAÇÃO

Aplicaremos os diferentes tipos de testes de hipóteses abordados nesta

aula. Para a aplicação, será utilizado o conjunto de dados do arquivo Wages1,
disponível na biblioteca Ecdat, no Sistema R.
O arquivo Wages1 contém 3.294 observações (registros) e as seguintes
variáveis:

• exper: tempo de experiência (em anos);

• sex: gênero (masculino de feminino);
• school: anos de estudo;
• wage: salário por hora (U$).

5.1 Teste de hipóteses para média populacional

Inicialmente é necessário instalar a biblioteca Ecdat, como segue:

[Link]("Ecdat") # instala a biblioteca ECDAt

Uma vez instalada:

library(Ecdat) # ativa a biblioteca Ecdat

data(Wages1)
dados<-Wages1 # cria objeto dados
str(dados) # mostra o conteúdo do objeto dados

O R vai apresentar as variáveis e o tipo de dados da seguinte forma:

> str(dados)
'[Link]': 3294 obs. of 4 variables:
$ exper : int 9 12 11 9 8 9 8 10 12 7 ...
$ sex : Factor w/ 2 levels "female","male": 1 1 1 1 1 1 1 1 1
$ school: int 13 12 11 14 14 14 12 12 10 12 ...
$ wage : num 6.32 5.48 3.64 4.59 2.42 ...

Retira-se uma amostra de salários (em U$/hora) de 30 pessoas.

[Link](51)
amostra<-sample(dados$wage,30,replace=F)
amostra<-round(amostra,2)

Em que:

10
• [Link]: pseudonúmero aleatório, possibilitando reproduzir os
resultados;
• sample: função para selecionar amostra;
• dados$wage: variável para retirar amostra;
• 30: tamanho da amostra;
• replace=F: sem reposição;
• round: função para arredondamento de números;
• 2: número de casas decimais.

amostra<-c(3.67,5.31,3.74,8.57,4.11,6.96,6.13,3.22,4.60,7.66,
6.01,4.70,5.69,4.35,2.84,1.99,4.77,10.31,4.17,1.71,
4.07,8.35,7.47,3.16,3.27,4.41,0.92,11.13,6.15,1.07)

A amostra de salários (em U$/hora) está apresentada na Tabela 1.

Tabela 1 – Salários de uma amostra de 30 pessoas

Salário Salário Salário

Obs. Obs. Obs.
(U$/hora) (U$/hora) (U$/hora)

1 3,67 11 6,01 21 4,07

2 5,31 12 4,70 22 8,35
3 3,74 13 5,69 23 7,47
4 8,57 14 4,35 24 3,16
5 4,11 15 2,84 25 3,27
6 6,96 16 1,99 26 4,41
7 6,13 17 4,77 27 0,92
8 3,22 18 10,31 28 11,13
9 4,60 19 4,17 29 6,15
10 7,66 20 1,71 30 1,07
Fonte: Sistema R, 2020.

O salário médio por hora e o desvio padrão são respectivamente iguais a

U$ 5,0170 e U$ 2,5182.
Deseja-se testar as hipóteses a seguir, adotando nível de significância de
5%:

𝐻0 : 𝜇 = 6,0 (𝑈$/ℎ𝑜𝑟𝑎) Salário médio igual a 6,0 U$/hora

𝐻1 : 𝜇 < 6,0 (𝑈$/ℎ𝑜𝑟𝑎) Salário médio menor que 6,0 U$/hora

Para realizar o teste de hipóteses para a média populacional, deve-se

instalar a biblioteca nortest.
11
[Link]("nortest") # instala a biblioteca nortest
library(nortest) # carrega a biblioteca nortest
[Link](amostra,alternative ="less",mu=6)

Em que:

• [Link]: teste t de Student;

• amostra: variável que contém os dados;
• alternative=less: define a hipótese 𝐻1 (neste caso, 𝜇 < 6,0);
• mu=6: valor a ser testado (hipótese 𝐻0 ).

Resultado apresentado no R:

One Sample t-test

data: amostra
t = -2.138, df = 29, p-value = 0.02053
alternative hypothesis: true mean is less than 6

Analisando, o 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,02053 (valor-p) é menor do que do que o nível

de significância de 5%, logo, rejeita-se a hipótese de que o salário médio
populacional é igual a U$ 6,00/hora, portanto, é possível afirmar que é menor do
que U$ 6,00/hora.
Para verificar a normalidade dos dados por meio do teste de Lillierfors
utilizando o Sistema R:

library(nortest) # carrega a biblioteca nortest

[Link](amostra)

Em que:

• [Link]: teste de lilliefors;

• amostra: variável que contém os dados.

Tem-se o seguinte resultado:

Lilliefors (Kolmogorov-Smirnov) normality test

data: amostra
D = 0.13907, p-value = 0.146

O valor-p ou p-value obtido é igual a 0,1460, maior do que o nível de

significância adotado de 5%, portanto, conclui-se que os dados provêm de uma
população normal.

12
5.2 Teste de hipóteses para a proporção populacional

Retira-se uma amostra de 200 pessoas do arquivo “Wages1” para analisar

a proporção de pessoas segundo gênero.

[Link](51) # pseudo número aleatório

amostra_genero<-matrix(sample(dados$sex,200,replace=F))
amostra_genero[amostra_genero=="male"]<-"M"
amostra_genero[amostra_genero=="female"]<-"F"

Em que:

• [Link]: pseudo número aleatório, possibilitando reproduzir os resultados;

• matrix: gera uma matriz com dados amostrados.

As frequências segundo gênero:

tabela<- table(amostra_genero)

Para visualizar a tabela de frequências, basta digitar:

tabela

O resultado será:

> tabela
F M
115 85

Tem-se, na amostra, 57,5% de pessoas do gênero feminino e 42,5% do

gênero masculino.
Deseja-se testar as hipóteses a seguir, adotando-se nível de significância
de 5% com relação à proporção de pessoas do gênero feminino.

• 𝐻0 : 𝑝 = 0,50 (proporção de pessoas do gênero feminino é igual a 0,50);

• 𝐻1 : 𝑝 > 0,50 (proporção de pessoas do gênero feminino é maior do que
0,50).

A estimativa da proporção amostral será obtida fazendo-se:

𝑛𝑜. 𝑑𝑒 𝑝𝑒𝑠𝑠𝑜𝑎𝑠 𝑑𝑜 𝑔ê𝑛𝑒𝑟𝑜 𝑓𝑒𝑚𝑖𝑛𝑖𝑛𝑜 115

𝑝̂ = = = 0,575
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑝𝑒𝑠𝑠𝑜𝑎𝑠 𝑛𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎 200

A estatística do teste é calculada por meio de:

13
𝑝̂ − 𝑝0
𝑍=
√𝑝0 × (1 − 𝑝0 )
𝑛

Utilizando o Sistema R para realizar o teste:

Z<-(0.575-0.50)/(sqrt((0.50*(1-0.50))/200))
Z
> Z
[1] 2.12132
valor_p<-(pnorm(Z,[Link]=F))
valor_p
> valor_p

[1] 0.01694743

O valor-p é igual a 0,017, menor do que o nível de significância adotado de

5%, portanto, rejeita-se a hipótese 𝐻0 e conclui-se que a proporção de pessoas
do gênero feminino na população é maior do que 0,50 (50%).

5.3 Teste para diferença entre duas médias populacionais

Serão obtidas duas amostras com 30 observações e as variáveis wage

(salário por hora) e sex (gênero), com base no arquivo “Wages1”. A primeira
amostra será composta por pessoas do gênero feminino, e a segunda, por
pessoas do gênero masculino.

[Link]("Ecdat") # instala a biblioteca Ecdat

Uma vez instalada, deve-se ativar a biblioteca:

library(Ecdat) # carrega a biblioteca Ecdat

data(Wages1)
dados<-Wages1 # cria objeto dados

Separando as pessoas do gênero masculino e feminino:

[Link]("dplyr") # instala a biblioteca DPLYR

library(dplyr) # ativa a biblioteca dplyr
dadosF<-filter(dados, dados$sex=="female") # arquivo com pessoas
# do gênero feminino
dadosM<-filter(dados, dados$sex=="male") # arquivo com pessoas

14
# do gênero masculino

Retirando amostra de salários das pessoas do gênero feminino:

[Link](51)
amostraF<-sample(dadosF$wage,30,replace=F)
amostraF<-round(amostraF,2)
amostraF
> amostraF
[1] 3.77 5.14 8.10 2.24 3.71 8.64 3.83 5.51 6.12 6.91
5.05 4.27
[13] 7.96 5.19 3.27 3.28 3.51 11.45 5.67 1.98 5.86 8.70
8.77 5.82
[25] 3.95 6.85 3.69 5.34 0.93 4.64

Calculando o salário médio das pessoas do gênero feminino:

média_sal_F<-mean(amostraF)
média_sal_F
> média_sal_F
[1] 5.338333

Retirando amostra de salários das pessoas do gênero masculino:

[Link](40)
amostraM<-sample(dadosM$wage,30,replace=F)
amostraM<-round(amostraM,2)
amostraM
[1] 5.51 3.70 10.43 5.71 5.39 6.60 1.85 0.82 8.52 5.70
5.94 5.51
[13] 7.26 10.11 3.34 7.40 2.76 3.63 7.96 6.68 8.71 5.24
7.04 7.04
[25] 5.86 6.65 5.21 5.55 9.97 3.94

Calculando o salário médio das pessoas do gênero masculino:

média_sal_M<-mean(amostraM)
média_sal_M
> média_sal_M
[1] 6.001

A Tabela 2 apresenta os salários (U$/hora) de 60 pessoas segundo gênero.

15
Tabela 2 – Salários de 60 pessoas segundo gênero

Feminino Masculino
Salário Salário Salário Salário
Obs. Obs. Obs. Obs.
(U$/hora) (U$/hora) (U$/hora) (U$/hora)
1 3,77 16 3,28 1 5,51 16 7,40
2 5,14 17 3,51 2 3,70 17 2,76
3 8,10 18 11,45 3 10,43 18 3,63
4 2,24 19 5,67 4 5,71 19 7,96
5 3,71 20 1,98 5 5,39 20 6,68
6 8,64 21 5,86 6 6,60 21 8,71
7 3,83 22 8,70 7 1,85 22 5,24
8 5,51 23 8,77 8 0,82 23 7,04
9 6,12 24 5,82 9 8,52 24 7,04
10 6,91 25 3,95 10 5,70 25 5,86
11 5,05 26 6,85 11 5,94 26 6,65
12 4,27 27 3,69 12 5,51 27 5,21
13 7,96 28 5,34 13 7,26 28 5,55
14 5,19 29 0,93 14 10,11 29 9,97
15 3,27 30 4,64 15 3,34 30 3,94
Fonte: Sistema R, 2020.

Define-se os salários médios da seguinte forma:

• 𝜇𝐴 : salário médio das pessoas do gênero masculino;

• 𝜇𝐵 : salário médio das pessoas do gênero feminino.

Considerando nível de significância de 5%, deseja-se testar as hipóteses a

seguir:

• 𝐻0 : 𝜇𝐴 = 𝜇𝐵 (os salários médios são iguais);

• 𝐻1 : 𝜇𝐴 > 𝜇𝐵 (o salário médio das pessoas do gênero masculino é maior do
que o salário das pessoas do gênero feminino).

É necessário verificar inicialmente se as populações de onde as amostras

foram retiradas são normalmente distribuídas, entretanto, para esse caso, pelo
fato de o tamanho das amostras ser igual a 30, consideradas grandes amostras,
não é necessário. Deve-se verificar se as variâncias populacionais desconhecidas
são iguais ou diferentes. Para isso, realiza-se o teste de igualdade de duas
variâncias, com as seguintes hipóteses:

𝐻0 : 𝜎12 = 𝜎22

𝐻0 : 𝜎12 ≠ 𝜎22

Utilizando o software R:

[Link](amostraF, amostraM, alternative = "[Link]")

16
Em que:

• [Link]: teste para variâncias;

• amostraF e amostraM: variáveis a serem testadas;
• alternative = "[Link]": teste bilateral.

Tem-se o seguinte resultado:

F = 1.0116, num df = 29, denom df = 29, p-value = 0.9754

alternative hypothesis: true ratio of variances is not equal to 1

O p-value é igual a 0,9754, superior ao nível de significância de 5%,

portanto, conclui-se que as variâncias populacionais são iguais.
Aplicando o teste de hipóteses para a diferença entre duas médias
populacionais, com variâncias populacionais desconhecidas e supostamente
iguais:

[Link](amostraM, amostraF, [Link]=TRUE,alternative="greater")

Em que:

• amostraM: variável de interesse para o teste;

• amostraF: variável de interesse para o teste;
• [Link]: igualdade das variâncias. Ao escolher a opção TRUE, assume
que as variâncias populacionais são iguais;
• alternative: hipótese alternativa (𝐻1 ). A opção greater é para teste unilateral
à direita.

Resultado apresentado no R:

Two Sample t-test

data: amostraM and amostraF
t = 1.1034, df = 58, p-value = 0.1372

O p-value é igual a 0,1372, superior ao nível de significância de 5%,

portanto, conclui-se que os salários médios (U$/horas) dos gêneros masculino e
feminino são iguais.

17
REFERÊNCIAS

GUPTA, B. C; GUTTMAN, I. Estatística e probabilidade com aplicações para

engenheiros e cientistas. Rio de Janeiro: LTC, 2017.

MORETTIN, P. A.; BUSSAB, W. O. Estatística básica. 5. ed. São Paulo: Saraiva,

2017.

SISTEMA R. Biblioteca Ecdat. Disponível em: <[Link]

[Link]/Rdatasets/[Link]>. Acesso em: 21 jan. 2021.

SISTEMA R. Disponível em: <[Link] Acesso em: 21 jan. 2021.

SWANI, L; TYAGI, P. Predictive modelling anatytics through data mining.

International research journal of engineering and technology (IRJET), v. 4, n.9,
set. 2017.

RAZALI, N. M.; WAH, Y. B. Power comparisons of Shapiro-Wilk, Kolmogorov-

Smirnov, Lillierfors and Anderson-Darling tests. Journal of Statistical Modeling
and Analytics, v. 2. n. 1, p. 21-33, 2011.