AULA 2
ANÁLISE PREDITIVA
Prof.ª Sachiko A. Lira
TEMA 1 – DISTRIBUIÇÃO NORMAL
A inferência estatística compreende um conjunto de técnicas que, por meio
de dados amostrais, possibilita tirar conclusões sobre os parâmetros
populacionais. As técnicas estatísticas paramétricas presumem que a distribuição
de probabilidade dos dados seja conhecida.
1.1 Distribuição normal
A distribuição normal, conhecida também como distribuição Gaussiana, é
uma das mais importantes distribuições de probabilidades para variáveis
aleatórias contínuas, sendo aplicada em probabilidades e frequentemente
utilizada para o desenvolvimento teórico da inferência estatística, por exemplo,
estimação e testes de hipóteses.
A função densidade de probabilidade de uma varável aleatória continua X,
que segue distribuição normal e é dada por:
(1)
1 1 𝑥−𝜇 2
𝑓 (𝑥 ) = 𝑒 −2( 𝜎 )
𝜎√2𝜋
Em que:
• 𝑥 ∈ 𝑅;
• 𝜇 ∈ 𝑅;
• 𝜎 ∈ 𝑅+ .
Os parâmetros da distribuição normal são:
Média: 𝐸(𝑋) = 𝜇 (2)
Variância: 𝑉(𝑋) = 𝜎 2 (3)
A notação 𝑋 ~𝑁(𝜇, 𝜎 2 ) é muito usada para denotar que a distribuição da
variável aleatória X é normal com parâmetros 𝜇 e 𝜎 2 .
Algumas características da distribuição normal são:
• o gráfico da distribuição normal ter aspecto típico, que é a curva em forma
de sino;
• a curva ser simétrica em torno da média 𝜇 e os valores da média, mediana
e moda serem iguais;
2
∞
• a área total sob a curva se igual a 1, ou seja, ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1.
O Gráfico 1 apresenta as probabilidades associadas a uma distribuição
normal.
Gráfico 1 – Distribuição normal
Fonte: elaborado com base em Gupta; Guttman, 2017.
A área compreendida entre 𝜇 ± 𝜎 é igual a 68,27%; entre 𝜇 ± 2𝜎 é igual a
95,45% e entre 𝜇 ± 3𝜎 é igual a 99,73%.
TEMA 2 – TESTES DE HIPÓTESES
Os testes de hipóteses são procedimentos para a tomada de decisão
quanto a uma afirmação sobre um parâmetro populacional. A afirmação sobre os
parâmetros é chamada de hipótese estatística.
Em geral, uma hipótese estatística constitui-se de um par de afirmativas
sobre o parâmetro desconhecido, a hipótese nula, representada por 𝐻0 , que
representa uma convicção ou algo conhecido, e a hipótese alternativa,
representada por 𝐻1 , que é uma afirmativa baseada em alguma nova informação.
Com base nos dados amostrais, rejeita-se a hipótese nula 𝐻0 ou não se rejeita a
hipótese nula 𝐻0 . A hipótese alternativa 𝐻1 pode assumir diferentes situações,
tendo como base alguma nova informação. Genericamente, tem-se:
• teste unilateral à esquerda: 𝐻0 : 𝑇 = 𝑇0 , 𝐻1 : 𝑇 < 𝑇0 ;
• teste unilateral à direita: 𝐻0 : 𝑇 = 𝑇0 , 𝐻1 : 𝑇 > 𝑇0 ;
• teste bilateral: 𝐻0 : 𝑇 = 𝑇0 , 𝐻1 : 𝑇 ≠ 𝑇0 .
Para a definição da região de rejeição de 𝐻0 , é necessário considerar a
hipótese 𝐻1 , uma vez que é ela que define o tipo do teste, se é unilateral à
3
esquerda, unilateral à direita ou bilateral. Por meio do tipo do teste identifica-se a
área de rejeição de 𝐻0 , conforme é possível visualizar na Figura 1.
Os pontos 𝑐1, 𝑐2 , 𝑐3 , e 𝑐4 são os pontos críticos, obtidos nas tabelas das
distribuições das estatísticas do teste para o nível de significância adotado.
Figura 1 – Região de rejeição (RR) da hipótese
Fonte: elaborado com base em Gupta; Guttman, 2017.
2.1 Erro estatístico
Na realização de testes estatísticos, é possível cometer dois tipos de erros.
• Erro tipo I: probabilidade de rejeitar a hipótese nula quando ela for
verdadeira, também denominado erro alfa (𝛼).
𝛼 = 𝑃(𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 /𝐻0 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎)
• Erro tipo II: probabilidade de não rejeitar a hipótese nula quando ela for
falsa, também denominado erro beta (𝛽).
𝛽 = 𝑃(𝑛ã𝑜 𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0 /𝐻0 𝑓𝑎𝑙𝑠𝑎)
2.2 Nível de significância (𝜶) e valor-p
O nível de significância 𝛼 é a probabilidade máxima com a qual se
sujeitaria correr o risco de um erro tipo I. Está relacionado ao valor-p (ou p-value),
obtido com a aplicação do teste estatístico. O valor-p é a probabilidade de se obter
uma estatística de teste igual ou maior do que a obtida por meio de dado amostral.
4
Se o valor-p for menor ou igual ao valor de 𝛼 estabelecido a priori, a hipótese nula
𝐻0 é rejeitada.
O nível de significância é definido pelo pesquisador, sendo os valores mais
utilizados iguais a 1% e 5%.
TEMA 3 – TESTES DE HIPÓTESES PARA UMA POPULAÇÃO
Ao realizar o teste de hipóteses quando a variância populacional é
desconhecida e se trata de amostras pequenas (𝑛 < 30), a população de onde a
amostra foi retirada deve ser normalmente distribuída. Para amostras grandes
(𝑛 ≥ 30), não é necessário observar tal condição, o que é justificado pelo teorema
central do limite.
De acordo com o teorema central do limite, à medida que o tamanho da
amostra aumenta, independentemente da forma de distribuição da população, a
distribuição amostral de médias (𝑋̅) aproxima-se da distribuição normal. Para
maiores detalhes, consultar Morettin e Bussab (2017).
Existem diferentes testes estatísticos para verificar a normalidade dos
dados, entre eles, o teste de Lilliefors. Esse teste é utilizado para verificar a
aderência dos dados a uma distribuição normal, sem a especificação de seus
parâmetros, ou seja, a média e o desvio padrão são calculados com base na
amostra. Detalhes sobre o teste podem ser obtidos em Razali e Wah (2011).
3.1 Teste para média populacional
Se a variância populacional 𝜎 2 for desconhecida, a estatística do teste
deverá ser calculada por:
𝑋̅ − 𝜇0 (4)
𝑡=
𝑆⁄√𝑛
Na equação, a distribuição t de Student é com n – 1 graus de liberdade.
Ainda:
• 𝑋̅ é a média amostral;
• 𝜇0 é o valor a ser testado;
• 𝑆 é o desvio padrão amostral;
• 𝑛 é o tamanho da amostra.
As hipóteses estatísticas a serem testadas são:
5
𝐻0 : 𝜇 = 𝜇0
A hipótese 𝐻1 pode assumir diferentes situações:
• 𝐻1 : 𝜇 < 𝜇0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎);
• 𝐻1 : 𝜇 > 𝜇0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎);
• 𝐻1 : 𝜇 ≠ 𝜇0 (𝑇𝑒𝑠𝑡𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙).
A conclusão do teste é feita analisando o valor-p ou p-value, conforme
apresentado na seção 2.2.
3.2 Teste para proporção populacional
Utiliza-se o teste para a proporção populacional (𝑝) quando se deseja testar
a hipótese de que 𝑝 é supostamente igual a um determinado valor (𝐻0 ), e a
hipótese 𝐻1 , que vai definir o tipo de teste, assume diferentes situações (unilateral
à direita, unilateral à esquerda ou bilateral).
As hipóteses estatísticas a serem testadas são:
𝐻0 : 𝑝 = 𝑝0
A hipótese 𝐻1 pode assumir diferentes situações:
• 𝐻1 : 𝑝 < 𝑝0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎);
• 𝐻1 : 𝑝 > 𝑝0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎);
• 𝐻1 : 𝑝 ≠ 𝑝0 (𝑇𝑒𝑠𝑡𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙).
Os critérios a serem obedecidos é que 𝑛𝑝 ≥ 5 e 𝑛(1 − 𝑝) ≥ 5, exigindo
assim que a amostra seja grande. Para amostras grandes, a estatística do teste é
dada por:
𝑝̂ − 𝑝0 (5)
𝑍=
√𝑝0 × (1 − 𝑝0 )
𝑛
Em que:
• 𝑝̂ é a proporção amostral;
• 𝑝0 é o valor a ser testado;
• 𝑛 é o tamanho da amostra.
6
A conclusão do teste é feita analisando o valor-p ou p-value, conforme
apresentado na seção 2.2.
TEMA 4 – TESTES DE HIPÓTESES PARA DUAS POPULAÇÕES
Em algumas situações, por exemplo, o consumidor pode desejar testar as
hipóteses sobre a diferença entre os tempos médios de vida útil de um produto,
considerando duas marcas diferentes, A e B. Ele poderá escolher a marca que
apresentar tempo médio de vida útil maior, com base no resultado do teste de
hipóteses para a diferença entre duas médias populacionais.
4.1 Teste para a diferença entre duas médias populacionais
Normalmente as variâncias populacionais 𝜎12 e 𝜎22 são desconhecidas e,
portanto, devem ser estimadas por meio de amostras. Nesse caso, a aplicação do
teste requer que as populações de onde as amostras foram retiradas sejam
normalmente distribuídas para amostras pequenas (n < 30).
As hipóteses estatísticas a serem testadas são:
𝐻0 : 𝜇1 − 𝜇2 = 𝑑0
A hipótese 𝐻1 pode assumir diferentes situações:
• 𝐻1 : 𝜇1 − 𝜇2 < 𝑑0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑒𝑠𝑞𝑢𝑒𝑟𝑑𝑎);
• 𝐻1 : 𝜇1 − 𝜇2 > 𝑑0 (𝑇𝑒𝑠𝑡𝑒 𝑢𝑛𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙 à 𝑑𝑖𝑟𝑒𝑖𝑡𝑎);
• 𝐻1 : 𝜇1 − 𝜇2 ≠ 𝑑0 (𝑇𝑒𝑠𝑡𝑒 𝑏𝑖𝑙𝑎𝑡𝑒𝑟𝑎𝑙).
4.1.1 Quando as variâncias populacionais são desconhecidas e
supostamente iguais
Para aplicar esse teste, é necessário que as variâncias populacionais
desconhecidas sejam iguais. Portanto, deve-se realizar inicialmente o teste de
igualdade de duas variâncias, que será tratado mais adiante.
A estatística do teste é dada por:
(𝑋̅1 − 𝑋̅2 ) − 𝑑0 (6)
𝑡=
1 1
√𝑆𝑝2 ( + )
𝑛1 𝑛2
7
sendo:
(7)
2
(𝑛1 − 1)𝑆12 + (𝑛2 − 1)𝑆22
𝑆𝑝 =
𝑛1 + 𝑛2 − 2
Em que:
• 𝑋̅1 é a média da amostra 1;
• 𝑋̅2 é a média da amostra 2;
• 𝑆12 é a variância da amostra 1;
• 𝑆22 é a variância da amostra 2;
• 𝑛1 é o tamanho da amostra 1;
• 𝑛2 é o tamanho da amostra 2.
A conclusão do teste é feita analisando o valor-p ou p-value, conforme
apresentado na seção 2.2.
4.1.2 Quando as variâncias populacionais são desconhecidas e
supostamente diferentes
Uma vez realizado o teste de igualdade de duas variâncias e rejeitada a
hipótese 𝐻0 , isto é, de que variâncias são iguais, utiliza-se esse teste para testar
a diferença entre duas médias populacionais.
A estatística do teste é dada por:
(𝑋̅1 − 𝑋̅2 ) − 𝑑0
𝑡=
(8)
𝑆12 𝑆22
√
𝑛1 + 𝑛2
A determinação da região crítica será com base no valor de t da tabela da
distribuição t de Student, com nível de significância 𝜶 e graus de liberdade dados
pela expressão a seguir:
(9)
(𝑤1 + 𝑤2 )2
𝜐=
𝑤12 𝑤22
+
𝑛1 − 1 𝑛2 − 1
Na equação:
8
𝑆12
𝑤1 = (10)
𝑛1
𝑆22
𝑤2 = (11)
𝑛2
Em que:
• 𝑋̅1 é a média da amostra 1;
• ̅
X 2 é a média da amostra 2;
• S12 é a variância da amostra 1;
• S22 é a variância da amostra 2;
• n1 é o tamanho da amostra 1;
• n2 é o tamanho da amostra 2.
A conclusão do teste é feita analisando o valor-p ou p-value, conforme
apresentado na seção 2.2.
4.2 Teste para igualdade de duas variâncias populacionais
Para aplicar o teste para a variância é necessário que as populações de
onde foram extraídas as amostras sejam normalmente distribuídas.
As hipóteses estatísticas são:
𝐻0 : 𝜎12 = 𝜎22
𝐻1 : 𝜎12 ≠ 𝜎22
A estatística do teste é calculada por:
𝑆12 (12)
𝐹= 2
𝑆2
Em que:
• 𝑆12 é a variância da amostra 1;
• 𝑆22 é a variância da amostra 2;
• 𝑛1 é o tamanho da amostra 1;
• 𝑛2 é o tamanho da amostra 2.
A conclusão do teste é feita analisando o valor-p ou p-value, conforme
apresentado na seção 2.2.
9
TEMA 5 – EXEMPLOS DE APLICAÇÃO
Aplicaremos os diferentes tipos de testes de hipóteses abordados nesta
aula. Para a aplicação, será utilizado o conjunto de dados do arquivo Wages1,
disponível na biblioteca Ecdat, no Sistema R.
O arquivo Wages1 contém 3.294 observações (registros) e as seguintes
variáveis:
• exper: tempo de experiência (em anos);
• sex: gênero (masculino de feminino);
• school: anos de estudo;
• wage: salário por hora (U$).
5.1 Teste de hipóteses para média populacional
Inicialmente é necessário instalar a biblioteca Ecdat, como segue:
[Link]("Ecdat") # instala a biblioteca ECDAt
Uma vez instalada:
library(Ecdat) # ativa a biblioteca Ecdat
data(Wages1)
dados<-Wages1 # cria objeto dados
str(dados) # mostra o conteúdo do objeto dados
O R vai apresentar as variáveis e o tipo de dados da seguinte forma:
> str(dados)
'[Link]': 3294 obs. of 4 variables:
$ exper : int 9 12 11 9 8 9 8 10 12 7 ...
$ sex : Factor w/ 2 levels "female","male": 1 1 1 1 1 1 1 1 1
$ school: int 13 12 11 14 14 14 12 12 10 12 ...
$ wage : num 6.32 5.48 3.64 4.59 2.42 ...
Retira-se uma amostra de salários (em U$/hora) de 30 pessoas.
[Link](51)
amostra<-sample(dados$wage,30,replace=F)
amostra<-round(amostra,2)
Em que:
10
• [Link]: pseudonúmero aleatório, possibilitando reproduzir os
resultados;
• sample: função para selecionar amostra;
• dados$wage: variável para retirar amostra;
• 30: tamanho da amostra;
• replace=F: sem reposição;
• round: função para arredondamento de números;
• 2: número de casas decimais.
amostra<-c(3.67,5.31,3.74,8.57,4.11,6.96,6.13,3.22,4.60,7.66,
6.01,4.70,5.69,4.35,2.84,1.99,4.77,10.31,4.17,1.71,
4.07,8.35,7.47,3.16,3.27,4.41,0.92,11.13,6.15,1.07)
A amostra de salários (em U$/hora) está apresentada na Tabela 1.
Tabela 1 – Salários de uma amostra de 30 pessoas
Salário Salário Salário
Obs. Obs. Obs.
(U$/hora) (U$/hora) (U$/hora)
1 3,67 11 6,01 21 4,07
2 5,31 12 4,70 22 8,35
3 3,74 13 5,69 23 7,47
4 8,57 14 4,35 24 3,16
5 4,11 15 2,84 25 3,27
6 6,96 16 1,99 26 4,41
7 6,13 17 4,77 27 0,92
8 3,22 18 10,31 28 11,13
9 4,60 19 4,17 29 6,15
10 7,66 20 1,71 30 1,07
Fonte: Sistema R, 2020.
O salário médio por hora e o desvio padrão são respectivamente iguais a
U$ 5,0170 e U$ 2,5182.
Deseja-se testar as hipóteses a seguir, adotando nível de significância de
5%:
𝐻0 : 𝜇 = 6,0 (𝑈$/ℎ𝑜𝑟𝑎) Salário médio igual a 6,0 U$/hora
𝐻1 : 𝜇 < 6,0 (𝑈$/ℎ𝑜𝑟𝑎) Salário médio menor que 6,0 U$/hora
Para realizar o teste de hipóteses para a média populacional, deve-se
instalar a biblioteca nortest.
11
[Link]("nortest") # instala a biblioteca nortest
library(nortest) # carrega a biblioteca nortest
[Link](amostra,alternative ="less",mu=6)
Em que:
• [Link]: teste t de Student;
• amostra: variável que contém os dados;
• alternative=less: define a hipótese 𝐻1 (neste caso, 𝜇 < 6,0);
• mu=6: valor a ser testado (hipótese 𝐻0 ).
Resultado apresentado no R:
One Sample t-test
data: amostra
t = -2.138, df = 29, p-value = 0.02053
alternative hypothesis: true mean is less than 6
Analisando, o 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,02053 (valor-p) é menor do que do que o nível
de significância de 5%, logo, rejeita-se a hipótese de que o salário médio
populacional é igual a U$ 6,00/hora, portanto, é possível afirmar que é menor do
que U$ 6,00/hora.
Para verificar a normalidade dos dados por meio do teste de Lillierfors
utilizando o Sistema R:
library(nortest) # carrega a biblioteca nortest
[Link](amostra)
Em que:
• [Link]: teste de lilliefors;
• amostra: variável que contém os dados.
Tem-se o seguinte resultado:
Lilliefors (Kolmogorov-Smirnov) normality test
data: amostra
D = 0.13907, p-value = 0.146
O valor-p ou p-value obtido é igual a 0,1460, maior do que o nível de
significância adotado de 5%, portanto, conclui-se que os dados provêm de uma
população normal.
12
5.2 Teste de hipóteses para a proporção populacional
Retira-se uma amostra de 200 pessoas do arquivo “Wages1” para analisar
a proporção de pessoas segundo gênero.
[Link](51) # pseudo número aleatório
amostra_genero<-matrix(sample(dados$sex,200,replace=F))
amostra_genero[amostra_genero=="male"]<-"M"
amostra_genero[amostra_genero=="female"]<-"F"
Em que:
• [Link]: pseudo número aleatório, possibilitando reproduzir os resultados;
• matrix: gera uma matriz com dados amostrados.
As frequências segundo gênero:
tabela<- table(amostra_genero)
Para visualizar a tabela de frequências, basta digitar:
tabela
O resultado será:
> tabela
F M
115 85
Tem-se, na amostra, 57,5% de pessoas do gênero feminino e 42,5% do
gênero masculino.
Deseja-se testar as hipóteses a seguir, adotando-se nível de significância
de 5% com relação à proporção de pessoas do gênero feminino.
• 𝐻0 : 𝑝 = 0,50 (proporção de pessoas do gênero feminino é igual a 0,50);
• 𝐻1 : 𝑝 > 0,50 (proporção de pessoas do gênero feminino é maior do que
0,50).
A estimativa da proporção amostral será obtida fazendo-se:
𝑛𝑜. 𝑑𝑒 𝑝𝑒𝑠𝑠𝑜𝑎𝑠 𝑑𝑜 𝑔ê𝑛𝑒𝑟𝑜 𝑓𝑒𝑚𝑖𝑛𝑖𝑛𝑜 115
𝑝̂ = = = 0,575
𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑝𝑒𝑠𝑠𝑜𝑎𝑠 𝑛𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎 200
A estatística do teste é calculada por meio de:
13
𝑝̂ − 𝑝0
𝑍=
√𝑝0 × (1 − 𝑝0 )
𝑛
Utilizando o Sistema R para realizar o teste:
Z<-(0.575-0.50)/(sqrt((0.50*(1-0.50))/200))
Z
> Z
[1] 2.12132
valor_p<-(pnorm(Z,[Link]=F))
valor_p
> valor_p
[1] 0.01694743
O valor-p é igual a 0,017, menor do que o nível de significância adotado de
5%, portanto, rejeita-se a hipótese 𝐻0 e conclui-se que a proporção de pessoas
do gênero feminino na população é maior do que 0,50 (50%).
5.3 Teste para diferença entre duas médias populacionais
Serão obtidas duas amostras com 30 observações e as variáveis wage
(salário por hora) e sex (gênero), com base no arquivo “Wages1”. A primeira
amostra será composta por pessoas do gênero feminino, e a segunda, por
pessoas do gênero masculino.
[Link]("Ecdat") # instala a biblioteca Ecdat
Uma vez instalada, deve-se ativar a biblioteca:
library(Ecdat) # carrega a biblioteca Ecdat
data(Wages1)
dados<-Wages1 # cria objeto dados
Separando as pessoas do gênero masculino e feminino:
[Link]("dplyr") # instala a biblioteca DPLYR
library(dplyr) # ativa a biblioteca dplyr
dadosF<-filter(dados, dados$sex=="female") # arquivo com pessoas
# do gênero feminino
dadosM<-filter(dados, dados$sex=="male") # arquivo com pessoas
14
# do gênero masculino
Retirando amostra de salários das pessoas do gênero feminino:
[Link](51)
amostraF<-sample(dadosF$wage,30,replace=F)
amostraF<-round(amostraF,2)
amostraF
> amostraF
[1] 3.77 5.14 8.10 2.24 3.71 8.64 3.83 5.51 6.12 6.91
5.05 4.27
[13] 7.96 5.19 3.27 3.28 3.51 11.45 5.67 1.98 5.86 8.70
8.77 5.82
[25] 3.95 6.85 3.69 5.34 0.93 4.64
Calculando o salário médio das pessoas do gênero feminino:
média_sal_F<-mean(amostraF)
média_sal_F
> média_sal_F
[1] 5.338333
Retirando amostra de salários das pessoas do gênero masculino:
[Link](40)
amostraM<-sample(dadosM$wage,30,replace=F)
amostraM<-round(amostraM,2)
amostraM
[1] 5.51 3.70 10.43 5.71 5.39 6.60 1.85 0.82 8.52 5.70
5.94 5.51
[13] 7.26 10.11 3.34 7.40 2.76 3.63 7.96 6.68 8.71 5.24
7.04 7.04
[25] 5.86 6.65 5.21 5.55 9.97 3.94
Calculando o salário médio das pessoas do gênero masculino:
média_sal_M<-mean(amostraM)
média_sal_M
> média_sal_M
[1] 6.001
A Tabela 2 apresenta os salários (U$/hora) de 60 pessoas segundo gênero.
15
Tabela 2 – Salários de 60 pessoas segundo gênero
Feminino Masculino
Salário Salário Salário Salário
Obs. Obs. Obs. Obs.
(U$/hora) (U$/hora) (U$/hora) (U$/hora)
1 3,77 16 3,28 1 5,51 16 7,40
2 5,14 17 3,51 2 3,70 17 2,76
3 8,10 18 11,45 3 10,43 18 3,63
4 2,24 19 5,67 4 5,71 19 7,96
5 3,71 20 1,98 5 5,39 20 6,68
6 8,64 21 5,86 6 6,60 21 8,71
7 3,83 22 8,70 7 1,85 22 5,24
8 5,51 23 8,77 8 0,82 23 7,04
9 6,12 24 5,82 9 8,52 24 7,04
10 6,91 25 3,95 10 5,70 25 5,86
11 5,05 26 6,85 11 5,94 26 6,65
12 4,27 27 3,69 12 5,51 27 5,21
13 7,96 28 5,34 13 7,26 28 5,55
14 5,19 29 0,93 14 10,11 29 9,97
15 3,27 30 4,64 15 3,34 30 3,94
Fonte: Sistema R, 2020.
Define-se os salários médios da seguinte forma:
• 𝜇𝐴 : salário médio das pessoas do gênero masculino;
• 𝜇𝐵 : salário médio das pessoas do gênero feminino.
Considerando nível de significância de 5%, deseja-se testar as hipóteses a
seguir:
• 𝐻0 : 𝜇𝐴 = 𝜇𝐵 (os salários médios são iguais);
• 𝐻1 : 𝜇𝐴 > 𝜇𝐵 (o salário médio das pessoas do gênero masculino é maior do
que o salário das pessoas do gênero feminino).
É necessário verificar inicialmente se as populações de onde as amostras
foram retiradas são normalmente distribuídas, entretanto, para esse caso, pelo
fato de o tamanho das amostras ser igual a 30, consideradas grandes amostras,
não é necessário. Deve-se verificar se as variâncias populacionais desconhecidas
são iguais ou diferentes. Para isso, realiza-se o teste de igualdade de duas
variâncias, com as seguintes hipóteses:
𝐻0 : 𝜎12 = 𝜎22
𝐻0 : 𝜎12 ≠ 𝜎22
Utilizando o software R:
[Link](amostraF, amostraM, alternative = "[Link]")
16
Em que:
• [Link]: teste para variâncias;
• amostraF e amostraM: variáveis a serem testadas;
• alternative = "[Link]": teste bilateral.
Tem-se o seguinte resultado:
F = 1.0116, num df = 29, denom df = 29, p-value = 0.9754
alternative hypothesis: true ratio of variances is not equal to 1
O p-value é igual a 0,9754, superior ao nível de significância de 5%,
portanto, conclui-se que as variâncias populacionais são iguais.
Aplicando o teste de hipóteses para a diferença entre duas médias
populacionais, com variâncias populacionais desconhecidas e supostamente
iguais:
[Link](amostraM, amostraF, [Link]=TRUE,alternative="greater")
Em que:
• amostraM: variável de interesse para o teste;
• amostraF: variável de interesse para o teste;
• [Link]: igualdade das variâncias. Ao escolher a opção TRUE, assume
que as variâncias populacionais são iguais;
• alternative: hipótese alternativa (𝐻1 ). A opção greater é para teste unilateral
à direita.
Resultado apresentado no R:
Two Sample t-test
data: amostraM and amostraF
t = 1.1034, df = 58, p-value = 0.1372
O p-value é igual a 0,1372, superior ao nível de significância de 5%,
portanto, conclui-se que os salários médios (U$/horas) dos gêneros masculino e
feminino são iguais.
17
REFERÊNCIAS
GUPTA, B. C; GUTTMAN, I. Estatística e probabilidade com aplicações para
engenheiros e cientistas. Rio de Janeiro: LTC, 2017.
MORETTIN, P. A.; BUSSAB, W. O. Estatística básica. 5. ed. São Paulo: Saraiva,
2017.
SISTEMA R. Biblioteca Ecdat. Disponível em: <[Link]
[Link]/Rdatasets/[Link]>. Acesso em: 21 jan. 2021.
SISTEMA R. Disponível em: <[Link] Acesso em: 21 jan. 2021.
SWANI, L; TYAGI, P. Predictive modelling anatytics through data mining.
International research journal of engineering and technology (IRJET), v. 4, n.9,
set. 2017.
RAZALI, N. M.; WAH, Y. B. Power comparisons of Shapiro-Wilk, Kolmogorov-
Smirnov, Lillierfors and Anderson-Darling tests. Journal of Statistical Modeling
and Analytics, v. 2. n. 1, p. 21-33, 2011.
18