0% acharam este documento útil (0 voto)
23 visualizações9 páginas

Apostila - Inferência Estatística No RStudio

A aula aborda inferência estatística utilizando RStudio, destacando testes de hipóteses Z e T. O teste Z é aplicado a amostras grandes com desvio padrão conhecido, enquanto o teste T é utilizado para amostras pequenas com desvio padrão desconhecido. O documento também explora conceitos fundamentais de estatística inferencial, como hipótese nula e p-valor, e oferece exemplos práticos de aplicação no RStudio.

Enviado por

Fábio Menezes
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
23 visualizações9 páginas

Apostila - Inferência Estatística No RStudio

A aula aborda inferência estatística utilizando RStudio, destacando testes de hipóteses Z e T. O teste Z é aplicado a amostras grandes com desvio padrão conhecido, enquanto o teste T é utilizado para amostras pequenas com desvio padrão desconhecido. O documento também explora conceitos fundamentais de estatística inferencial, como hipótese nula e p-valor, e oferece exemplos práticos de aplicação no RStudio.

Enviado por

Fábio Menezes
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd

PROFESSOR(A): FERNANDA MICHELOWSKI

Análise de Dados Usando o RStudio

Inferência Estatística no RStudio


Objetivo da Aula

Demonstrar o conceito de inferência estatística, aplicando técnicas incluindo testes de


hipóteses Z e T, utilizando o RStudio.

Apresentação

Em um mundo cada vez mais complexo, a estatística inferencial permite estimar médias
e prever cenários a partir de amostras. Esta ciência é essencial para análises rápidas e
precisas em áreas como previsões do tempo, cenários eleitorais e mercados financeiros.
O RStudio facilita a aplicação dessas técnicas de forma ágil e eficaz. Testes como o Z e o T
podem ser aplicados com a utilização desse software.
O teste Z é ideal para amostras grandes com desvio padrão populacional conhecido. Por
exemplo, para verificar se uma empresa de delivery cumpre o prazo médio de 3 dias, utilizamos
uma amostra de entregas, calculamos a média e o desvio padrão, e aplicamos o teste Z no RStudio.
O teste T é usado para amostras pequenas com desvio padrão desconhecido. Ele permite
avaliar, por exemplo, o impacto de uma nova metodologia de ensino sobre salários. No
RStudio, importamos os dados, calculamos as estatísticas necessárias e executamos o
teste T para interpretar os resultados. Vamos começar?
Boa aula!

1. Introdução a Hipóteses e Estatística Inferencial

Qual a diferença entre estatística descritiva e inferencial, você sabe?


A estatística inferencial nos ajuda a tirar conclusões sobre uma população a partir
de uma amostra. Este processo, conhecido como inferência, é essencial para validar
nossas previsões e hipóteses por meio de técnicas estatísticas.

Livro Eletrônico
[Link] 1 de 9
Professor(a): Fernanda Michelowski

De acordo com Schmuller (2019, p. 10), “se o estudo for focado nas propriedades as
estatísticas serão descritivas. Se o estudo tiver ênfase na estimativa das propriedades
populacionais, as estatísticas são inferenciais”. O autor explica que “hipótese é um palpite
sobre como o mundo funciona. É uma tentativa de explicação de algum processo, ocorra
ele na natureza ou em um laboratório” (Schmuller; 2019, p. 181).
Inferência (ou indução) pode ser compreendido como processo lógico pelo qual se
utilizam informações de uma parte para fazer generalizações sobre o todo (Bekman, 2009).
A primeira coisa que um pesquisador faz antes de estudar os dados propriamente dito é
prever como eles devem ser, criar cenários e, por consequência, formular hipóteses.
As hipóteses, por sua vez, possibilitam mensurar se os dados estão ou não dentro
do senso esperado, avaliando se essa perspectiva é válida, alternativa ou nula. Cabe ao
profissional responsável pela pesquisa aceitar ou rejeitar as hipóteses. Schmuller (2019)
diz que podemos medir os indivíduos de uma amostra, calcular as estatísticas e tomar uma
decisão a respeito da hipótese nula.
A estatística inferencial surgiu no final do século XIX, com o pesquisador Karl Pearson –
matemático e estatístico britânico, que desenvolveu um conjunto de técnicas para validar
hipóteses sobre amostras de uma população. Pearson fez contribuições significativas para a
área da estatística, incluindo o desenvolvimento do teste qui-quadrado (X²) e o coeficiente
de correlação de Pearson, que mede a força e a direção da relação linear entre duas variáveis.
Para resumir alguns pontos importantes da inferência, podemos destacar:

• Calcular a estatística da amostra, ou seja, uma medida dos dados;


• Analisar essa estatística comparando-a com uma estatística calculada sob a suposição
de efeito nulo;
• Calcular a probabilidade de obter uma medida oriunda da hipótese nula;
• Decidir se a medida possui significância estatística.

Os conceitos oriundos da estatística inferencial são clássicos, baseados na distribuição


normal e agregados, afinal, antes dos computadores, não havia escolha. Em análises
inferenciais, discute-se muito a distribuição amostral, que é o conjunto de todos os valores
possíveis de uma estatística para um dado tamanho amostral. As inferências ou generalizações
podem ser classificadas em dois modelos: estimações ou decisões, realizadas por meio de
testes de hipóteses.

O conteúdo deste livro eletrônico é licenciado para Fabio - 75214636091, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição
sujeitando-se aos infratores à responsabilização civil e criminal.

[Link] 2 de 9
Professor(a): Fernanda Michelowski

Vejamos um exemplo de estatística inferencial usando RStudio:

# Exemplo Teste

dados <- c(6, 4, 5, 3, 7, 2, 8, 3, 5, 4)

# Teste t de uma amostra

resultado_teste <- [Link](dados, mu = 5)

if (resultado_teste$[Link] < 0.05) {

print(“Rejeitar a hipótese nula.”)

} else {

print(“Não rejeitar a hipótese nula.”)

O que esse exemplo traz? Você saberia dizer?


Antes de interpretar o código, é interessante e necessário conhecer ou relembrar
alguns conceitos que aprendemos na estatística:
1) Amostra: uma amostra é um subconjunto de dados retirado de uma população
maior. No exemplo, temos uma amostra de 10 valores: 6, 4, 5, 3, 7, 2, 8, 3, 5, 4;
2) Teste t: este teste é uma técnica estatística usada para determinar se há uma
diferença significativa entre a média de uma amostra e um valor específico (ou
entre as médias de duas amostras). No exemplo, estamos usando o teste t de uma
amostra para verificar se a média da nossa amostra é significativamente diferente
de um valor específico, que neste caso é 5;
3) Hipótese Nula (H0): a hipótese nula é uma suposição inicial de que não há efeito
ou diferença significativa. No contexto do teste t de uma amostra, a hipótese nula
é que a média da amostra é igual a um valor específico (mu = 5). Assim, a hipótese
nula (H0) neste exemplo é: “A média da amostra é igual a 5”;
4) p-valor: o p-valor é a probabilidade de obter um resultado pelo menos tão extremo
quanto o observado, assumindo que a hipótese nula é verdadeira. Em termos
simples, o p-valor nos ajuda a decidir se devemos ou não rejeitar a hipótese nula. Se
o p-valor for menor que um nível de significância pré-definido (geralmente 0.05),
rejeitamos a hipótese nula. Se o p-valor for maior ou igual ao nível de significância,
não rejeitamos a hipótese nula.

O conteúdo deste livro eletrônico é licenciado para Fabio - 75214636091, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição
sujeitando-se aos infratores à responsabilização civil e criminal.

[Link] 3 de 9
Professor(a): Fernanda Michelowski

Agora, vamos à interpretação do Código. No código, é feito o seguinte:


• dados <- c(6, 4, 5, 3, 7, 2, 8, 3, 5, 4): com este comando foi criado um vetor chamado
dados contendo a nossa amostra de valores;
• resultado_teste <- [Link](dados, mu = 5): com este comando foi feito o teste t de
uma amostra, comparando a média da nossa amostra com o valor 5, e armazenamos
os resultados na variável resultado_teste;
• if (resultado_teste$[Link] < 0.05) { print(“Rejeitar a hipótese nula.”) } else {
print(“Não rejeitar a hipótese nula.”) }: com este comando foi verificado o p-valor
do teste. Se o p-valor for menor que 0.05, imprimimos “Rejeitar a hipótese nula”,
indicando que há evidência suficiente para concluir que a média da amostra é
significativamente diferente de 5. Caso contrário, imprimimos “Não rejeitar a
hipótese nula”, indicando que não há evidência suficiente para concluir que a média
da amostra é diferente de 5.

Este exemplo demonstra como usar o teste t de uma amostra no R Studio para inferir
se a média da nossa amostra é significativamente diferente de um valor específico. Vale
destacar que o R Studio possui uma função específica para o teste t, [Link]().
A grande diferença entre a estatística descritiva da inferencial é que a descritiva foca na
descrição dos dados e na síntese numérica ou gráfica. A estatística ou análise inferencial,
tende a fazer conclusões gerais diante de amostras representativas, usufruindo de técnicas
como estimações e testes de hipóteses.

Liste ao menos cinco exemplos de situações que se encaixam em estatística inferencial


e cinco que se encaixam em estatística descritiva. Quais são mais presentes em seu
dia a dia? Se possível, tente replicar posteriormente no R Studio.

2. Análise Estatística com Teste Z no RStudio

O teste Z é uma técnica de inferência estatística usada para testar hipóteses sobre a
média ou proporção de uma população quando o desvio padrão populacional é conhecido.
Este teste baseia-se na distribuição normal e é particularmente útil para amostras grandes,
onde a distribuição da média amostral se aproxima da distribuição normal devido ao
Teorema Central do Limite.

O conteúdo deste livro eletrônico é licenciado para Fabio - 75214636091, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição
sujeitando-se aos infratores à responsabilização civil e criminal.

[Link] 4 de 9
Professor(a): Fernanda Michelowski

De acordo com Moore, Notz e Fligner (2023), “o desvio-padrão é a raiz quadrada da


variância”. O teste Z calcula a probabilidade de obter uma amostra com uma média específica,
assumindo que a hipótese nula é verdadeira. Essa probabilidade, conhecida como valor-p,
é então usada para decidir se a hipótese nula deve ser rejeitada.
Para realizar um teste Z, seguem-se os seguintes passos:
1) Calcular a média aritmética da amostra (x);
2) Subtrair a média da população sob a hipótese nula (µ0);
3) Multiplicar o resultado pela raiz quadrada do tamanho da amostra (n);
4) Dividir pelo desvio padrão da população (σ)
Exemplo Prático no RStudio:
Vamos aplicar o teste Z em um cenário onde queremos verificar se as pessoas vivendo
em um CEP específico têm QIs acima da média populacional. Suponha que analisamos uma
amostra de nove pessoas deste CEP, aplicamos testes de QI, inserimos os resultados em
planilhas e calculamos as estatísticas.
Primeiro, carregue o pacote necessário:

# carregar o pacote

library(BSDA)

Como o R não possui uma função nativa para o teste Z, utilizamos a função [Link] do
pacote BSDA:

[Link] <- c(100, 101, 104, 109, 125, 116, 105, 108, 110)

[Link]([Link], mu = 100, sigma.x = 15)

O resultado será algo como:

z = 1.733

one-tailed probability = 0.042

two-tailed probability = 0.084

O conteúdo deste livro eletrônico é licenciado para Fabio - 75214636091, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição
sujeitando-se aos infratores à responsabilização civil e criminal.

[Link] 5 de 9
Professor(a): Fernanda Michelowski

Podemos também criar uma função personalizada para realizar o teste Z:

[Link] = function(x, mu, popvar) {

[Link] <- round((mean(x) - mu) / (popvar / sqrt(length(x))), 3)

[Link].p <- round(pnorm(abs([Link]), [Link] = FALSE), 3)

cat(“z =”, [Link], “\n”, “one-tailed probability =”, [Link].p, “\n”,

“two-tailed probability =”, 2 * [Link].p, “\n”)

Exemplos e Aplicações do Teste Z:


Uma situação prática para o teste Z seria uma pesquisa com motoristas habilitados,
perguntando quantos, em média, são flagrados ultrapassando o sinal vermelho de cada
10 que cometem essa infração. Esse tipo de problema pode ser resolvido com estatística
e o uso do RStudio.
O livro Testes de Hipóteses Estatísticas (Assis, Sousa e Linhares, 2020) oferece diversos
exemplos de uso do teste Z no RStudio, proporcionando uma compreensão mais profunda
do contexto estatístico e das análises inferenciais.

Liste três situações no ambiente profissional em que seria possível executar um


teste Z e mencione uma em qual ele não seria viável? Explique o motivo.

3. Análise Estatística com Teste T no RStudio

O teste T é uma ferramenta estatística amplamente utilizada para comparar médias de


amostras e verificar hipóteses. Ele é particularmente útil em situações em que o tamanho
da amostra é pequeno e o desvio padrão populacional é desconhecido.
Por exemplo, considere o caso em que uma empresa de delivery alega fazer as entregas
em uma média de 3 dias, mas há suspeitas de que esse tempo seja maior. Para testar essa
alegação, pode-se selecionar uma amostra de dez entregas, calcular a média amostral e o
desvio padrão. Essa situação ilustra bem a aplicabilidade do teste T, uma vez que envolve
amostras pequenas e desvios padrão desconhecidos.

O conteúdo deste livro eletrônico é licenciado para Fabio - 75214636091, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição
sujeitando-se aos infratores à responsabilização civil e criminal.

[Link] 6 de 9
Professor(a): Fernanda Michelowski

Segundo Rumsey (2019):

Há dois casos nos quais não podemos usar a distribuição Z de uma estatística de teste para
uma média populacional. O primeiro caso é quando o tamanho amostral é pequeno (e pequeno
significa abaixo de 30); o segundo caso é quando o desvio-padrão populacional, σ, não é conhe-
cido e você precisa estimá-lo usando o desvio-padrão amostral, s. Em ambos os casos, há uma
informação menos confiável sobre a qual fundamentar nossas conclusões, então devemos pagar
caro por fazer isso usando uma distribuição com mais variabilidade na extremidade do que uma
distribuição Z (Rumsey, 2019, p. 269).

Além disso, o teste T possui uma função nativa no R, denominada [Link]. Para ilustrar sua
aplicação prática, suponha que seja necessário avaliar se uma nova metodologia de ensino
em faculdades de economia impacta o salário médio dos economistas. Considerando um
salário médio de 5 mil reais, avaliou-se uma amostra de 30 economistas formados com a
nova metodologia:

salario_inicial <- c(6585.8, 6880.8, 7326.1, 5411.9, 6745.4, 7318.1,


7068.9, 6978.3, 6114.8, 7564.6, 7754.5, 5276.7, 6733.6, 5981.9, 6565.7,
6347, 7653.2, 8157.5, 6112.8, 7113.6, 8496.9, 7636.2, 7284.5, 6831.7, 5531.3,
6447.9, 7054.1, 7002.1, 8002.2, 7567.3)

t_renda <- [Link](x = salario_inicial, mu = 5000)

t_renda

O resultado foi:

One Sample t-test

data: salario_inicial

t = 13.24, df = 29, p-value = 8.014e-14

alternative hypothesis: true mean is not equal to 5000

95 percent confidence interval:

6621.873 7214.487

sample estimates:

mean of x

6918.18

O conteúdo deste livro eletrônico é licenciado para Fabio - 75214636091, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição
sujeitando-se aos infratores à responsabilização civil e criminal.

[Link] 7 de 9
Professor(a): Fernanda Michelowski

Os resultados do teste indicam que é possível rejeitar a hipótese nula ao nível de


significância de 5%, ou seja, a metodologia de ensino tem um impacto positivo no salário
dos economistas.
Field (2020), em seu livro Descobrindo a estatística usando o SPSS, fornece exemplos
didáticos e cotidianos de como aplicar estatísticas no dia a dia, facilitando o entendimento
mesmo para iniciantes.
Aplicar testes estatísticos no R é direto, mas requer conhecimento básico da ferramenta
e das bibliotecas estatísticas. Além do teste T, outro teste relevante é o teste F, utilizado
para analisar a variância entre grupos e testar o efeito conjunto de variáveis explicativas
sobre a variável dependente.

Outro teste de análises de regressão é o teste F, que por sua vez tem como objetivo
testar o efeito conjunto de variáveis explicativas sobre a dependente, ou seja, validar
se uma das variáveis tem influência linear sobre a variável dependente.

Considerações Finais da Aula

A ciência estatística está presente em todos os momentos do dia a dia e se tornou


uma ferramenta imprescindível para o desempenho das atividades de profissionais e
estudantes, sendo utilizada tanto por pesquisadores quanto por empresários em diferentes
áreas. O conceito de probabilidade, que remonta à Idade Média, evoluiu significativamente,
permitindo avanços nas avaliações de hipóteses e previsões, e hoje é fundamental para
decisões estratégicas em negócios, saúde e governo.
É inevitável lidar com conceitos matemáticos e probabilidades; a rotina exige que esse
conhecimento seja absorvido, mesmo que de forma básica. Sistemas automatizados não
substituem completamente o pensamento lógico humano; ainda precisamos de profissionais
com inteligência e conhecimento para gerenciar máquinas e imputar dados.
Saber manipular informações preciosas tornou-se um recurso escasso e necessário.
Profissionais com esse know-how são altamente valorizados e reconhecidos no mercado.

O conteúdo deste livro eletrônico é licenciado para Fabio - 75214636091, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição
sujeitando-se aos infratores à responsabilização civil e criminal.

[Link] 8 de 9
Professor(a): Fernanda Michelowski

Material Complementar

Testes de hipóteses estatísticas


2020, Janilson Pinheiro Assis, Roberto Pequeno Sousa e Paulo César Ferreira Linhares.
182 páginas.
Entender melhor as análises inferenciais, o uso e hipóteses no dia a dia, conhecer prá-
tica e teoria de um assunto tão profundo e essencial nos dias de hoje, faz parte dessa
leitura. Temas que vão desde estudantes a profissionais da área, incluindo exemplos
didáticos e curiosos fazem de cada capítulo algo surpreendente.
Disponível em: [Link] Acesso
em: 15 jul. 2024.

Referências

ASSIS, Janilson Pinheiro; SOUSA, Roberto Pequeno; LINHARES, Paulo César Ferreira. Tes-
tes de hipóteses estatísticas. Editora UFERSA; Mossoró, RN. 2020.

BEKMAN, Otto R. Análise estatística da decisão. Editora Blucher, 2009. E-book. ISBN
9788521215448. Disponível em: [Link]
books/9788521215448/. Acesso em: 3 jun. 2024.

COHEN, J. The earth is round. American Psychologist, v. 49, n. 12, p. 997–1003. 1994.

FIELD, Andy. Descobrindo a estatística usando o SPSS. Grupo A, 2020. E-book. ISBN
9788584292011. Disponível em: [Link]
books/9788584292011/. Acesso em: 3 jun. 2024.

MEEHL, P. E. Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress
of soft psy-chology. Journal of Consulting and Clinical Psychology, v, 46, p. 806–834. 1978.

MOORE, David S.; NOTZ, William I.; FLIGNER, Michael A. A estatística básica e sua prática.
Grupo GEN, 2023. E-book. ISBN 9788521638612. Disponível em: [Link]
[Link]/#/books/9788521638612/. Acesso em: 3 jun. 2024.

RUMSEY, Deborah J. Estatística para leigos. Editora Alta Books, 2019. E-book. ISBN
9786555200409. Disponível em: [Link]
books/9786555200409/. Acesso em: 2 jun. 2024.

SCHMULLER, José. Análise estatística com R para leigos. Editora Alta Books, 2019. E-book.
ISBN 9788550807850. Disponível em: [Link]
books/9788550807850/. Acesso em: 1º jun. 2024.

O conteúdo deste livro eletrônico é licenciado para Fabio - 75214636091, vedada, por quaisquer meios e a qualquer título, a sua reprodução, cópia, divulgação ou distribuição
sujeitando-se aos infratores à responsabilização civil e criminal.

[Link] 9 de 9

Você também pode gostar