0% acharam este documento útil (0 voto)

62 visualizações21 páginas

Sistema de Equações de Regressão Linear

O documento apresenta um trabalho de pesquisa sobre sistemas de equações de regressão linear, abordando conceitos fundamentais, metodologias e aplicações na análise preditiva. Os autores discutem a regressão linear simples e múltipla, suas hipóteses, coeficientes de determinação e limitações da análise. O objetivo é entender como variáveis preditoras influenciam uma variável dependente e a importância de um modelo de regressão adequado.

Enviado por

Onissimo Francisco Zuca

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

62 visualizações21 páginas

Sistema de Equações de Regressão Linear

Enviado por

Onissimo Francisco Zuca

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato DOCX, PDF, TXT ou leia on-line no Scribd

Abdul Baptista Gastene

Justo Agostinho
Silva Tonecas Augusto
Rema Manssur Abdala
Onissimo Francisco Zuca
Rosário Jacinto Fernando

SISTEMA DE EQUAÇÕES DE REGRESSÃO LINEAR

(Licenciatura em Ensino de Matemática) 4° Ano

Universidade Rovuma
Lichinga
2023
2

Abdul Baptista Gastene

Justo Agostinho
Silva Tonecas Augusto
Rema Manssur Abdala
Onissimo Francisco Zuca
Rosário Jacinto Fernando

SISTEMA DE EQUAÇÕES DE REGRESSÃO LINEAR

(Licenciatura em Ensino de Matemática) 4° Ano

Trabalho de Pesquisa Científica da

Cadeira de Econometria Básica a ser
entregue no Departamento de
Ciências Naturais, Matemática e
Estatística para fins avaliativos sob
orientação da docente: Mcs. Juma
Mayawo.

Universidade Rovuma

Lichinga

2023
3

Índice
1. Introdução..................................................................................................................................4
1.1. Objectivos:.............................................................................................................................4
1.1.1. Objectivo Geral..................................................................................................................4
1.1.2. Objectivos específicos........................................................................................................4
1.2. Metodologias..........................................................................................................................4
2. Sistema de equações de regressão linear....................................................................................5
2.1. Regressão linear simples........................................................................................................5
2.2. Hipóteses do modelo linear simples.......................................................................................8
2.2.1. HIPÓTESE 1: O MODELO É LINEAR NOS PARÂMETROS........................................8
2.2.2. HIPÓTESE 2: A AMOSTRAGEM É ALEATÓRIA.........................................................8
2.2.3. HIPÓTESE 3: VARIAÇÃO AMOSTRAL DA VARIÁVEL INDEPENDENTE (X)........9
2.2.4. HIPÓTESE 4: MÉDIA CONDICIONAL DO ERRO IGUAL A ZERO............................9
2.3. Coeficiente de determinação (R ²).........................................................................................9
2.4. Regressão linear múltipla.....................................................................................................11
2.5. Correlação/autocorrelação....................................................................................................11
2.6. Teste t em um coeficiente de regressão................................................................................12
2.7. Estatística F..........................................................................................................................12
2.1.1. Exercício 1.............................................................................................................................13
2.1.2. Exercício 2.............................................................................................................................15
2.1.3. Exercício 3.............................................................................................................................16
2.1.4. Exercício 4.............................................................................................................................17
3. Limitações da análise de regressão...........................................................................................19
4. Conclusão.................................................................................................................................20
5. Referencias bibliográficas........................................................................................................21
4

1. Introdução

O presente trabalho está no propósito de abordar conteúdos relacionados com sistema de

equações de regressão linear. Encontramos no trabalho que Uma regressão linear é
normalmente utilizada para análises preditivas e possui como objetivo geral analisar duas
coisas: primeiro, um conjunto de variáveis preditoras (capaz de um bom trabalho ao prever
uma variável dependente); segundo, quais variáveis em particular são preditores
significativos e de que forma elas impactam (magnitude e sinal das estimativas) a variável
dependente.

1.1. Objectivos:
1.1.1. Objectivo Geral
 Encontrar E(Y ∨X i ), ou seja, a esperança do valor de Y dado um valor de X i .
1.1.2. Objectivos específicos
 Descrever a relação linear entre duas variáveis;
 Representar os valores observados ( X i ; Y i ) num diagrama de dispersão;
 Calcular o coeficiente de correlação linear.

A estrutura do trabalho segue a seguinte sequencia: Capa, contra capa, índice, introdução,
desenvolvimento, conclusão e por fim as referências bibliográficas.

1.2. Metodologias

Para a realização do trabalho recorreu-se a recolha de dados bibliográficos sobre o assunto

em destaque, que consistiu na leitura de diversos manuais e fontes na internet, seguiu-se a
compilação da informação e por fim culminou na elaboração do trabalho.
5

2. Sistema de equações de regressão linear

Uma regressão linear é normalmente utilizada para análises preditivas e possui como
objetivo geral analisar duas coisas: primeiro, um conjunto de variáveis preditoras (capaz de
um bom trabalho ao prever uma variável dependente); segundo, quais variáveis em
particular são preditores significativos e de que forma elas impactam (magnitude e sinal das
estimativas) a variável dependente.

2.1. Regressão linear simples

Para um conjunto de dados com duas variáveis ( X e Y ) o objetivo da regressão é encontrar

E(Y ∨X i ), ou seja, a esperança do valor de Y dado um valor de X i . A equação que mede o
verdadeiro impacto de X em Y é a Função de Regressão Populacional (FRP), que é dada
por E(Y ∨X i )= α^ + ^β∗X i. Como trabalhamos com amostras na maioria das vezes, temos
somente estimativas de α^ e ^β , chamadas de “α chapéu” e “ β chapéu”. Assim, a equação da
reta de uma Função de Regressão Amostral (FRA) é dada por:

^
Y^ i= α^ + β∗X i

Em que:

 Y é a variável dependente e Y^ i é o valor predito de Y dado um X i ;

 X é a variável independente;

 α^ é o valor previsto de Y quando X =0(o intercepto); e

 ^β é o quanto Y muda, em média, por unidade de mudança em X (a inclinação).

Assim, a inclinação ou coeficiente de regressão ( ^β ) mede a direção ou magnitude da

relação, de forma que se as duas variáveis estão correlacionadas positivamente, a inclinação
será positiva e vice-versa.
6

O conjunto de dados muito provavelmente não mostrará uma relação exata entre X e Y .
Isso porque (1) é possível ter outros fatores que afetam Y além de X , e (2) a variância da
amostra cria uma dispersão nos dados, fazendo que amostras diferentes tenham FRAs
diferentes. Assim, podemos representar a FRA em sua forma estocástica da seguinte forma:

^
Y^ i= α^ + β∗X ^
i + ui

Em que u^ i representa o resíduo da regressão (amostral) para a observação i . O erro é o

termo que inclui todos os fatores que determinam Y e não são explicados por X , e o resíduo
u^ i pode ser considerado a estimativa do erro.

Exemplo: Considere as seguintes amostras de X e Y :

Tabela – Amostras de X e Y.

X 4 6 7 5 8 10

Y 15 18 19 20 21 23

Fonte: Elaborada pelo autor.

Colocando estes pontos em um gráfico, podemos ver que eles estão dispersos e não
formam uma linha reta. O objetivo da regressão linear é encontrar o intercepto e a
inclinação de uma reta que melhor ajuste a estes dados, ou seja, que minimize a variância
dos erros, e, portanto, nos gere a melhor estimativa de α^ e ^β . A reta que realiza este objetivo
é encontrada pela técnica de mínimos quadrados, por meio da minimização da soma dos
quadrados dos resíduos. A reta encontrada pelos Mínimos Quadrados Ordinários (MQO ou
Ordinary Least Squares – OLS) da amostra é a seguinte:
7

Figura – Regressão linear simples.

Fonte: Elaborado pelo autor

Como o ^β estimado é igual a 1 , 24, podemos dizer que, em média, quando X muda 1
unidade, Y varia em 1 , 24 unidades.

Cada observação i pode ser resumida em uma fórmula que relaciona Y i com a reta mais um
resíduo. Utilizando os dados acima, temos:

Y 1= α^ + ^β∗X 1+ u^ i → 15=11 ,21+1 , 24∗4−1 , 18

Y 2= α^ + ^β∗X 2+ u^ i → 18=11 ,21+1 , 24∗6−0 , 66

^
Y i= α^ + β∗X ^
i + ui
8

A variável dependente (Y ) pode ser chamada de variável de resultado, variável de critério

ou variável endógena. Já as variáveis independentes (X ) também podem ser chamadas de
variáveis exógenas, preditoras ou regressores.

As fórmulas de β e α podem ser encontradas pelas covariâncias, variâncias e valores

médios de X e Y :

^β= Cov( X ,Y ) = XY = ∑ i i ∑ i ∑ i
S n XY− X Y
Var (X ) S XX 2 2
n ∑
X −( X ) i ∑ i

(∑ Y i− β^ ∑ X i )
α^ =Y − ^β X =
n

Em que S XX e S XY são as somas dos quadrados de X e soma dos desvios de X e Y ,

respectivamente:

S XX =Var ( X )∗( n−1 )=∑ ¿ ¿

S XY =Cov ( XY )∗( n−1 )=∑ ( X ¿¿ i−¿ X )(Y i−Y )=∑ X i Y i−n XY ¿ ¿

2.2. Hipóteses do modelo linear simples

O estimador de MQO apresenta um conjunto de quatro hipóteses fundamentais sobre as

quais se sustenta o seu uso como o melhor estimador linear não viesado:

2.2.1. HIPÓTESE 1: O MODELO É LINEAR NOS PARÂMETROS.

A primeira hipótese se refere ao fato de o modelo ser linear nos parâmetros, ou seja, os
betas do modelo populacional entram de forma linear na equação.

2.2.2. HIPÓTESE 2: A AMOSTRAGEM É ALEATÓRIA.

A segunda hipótese diz que existe uma amostra aleatória de tamanho n , f (X i , Y i), i=1 … n,
proveniente de um modelo populacional. Cabe lembrar que, em muitos casos, problemas de
seleção amostral estarão presentes, daí será necessário tratar de forma especial os casos em
que a hipótese de amostragem aleatória não estiver presente. Pode-se pensar no exemplo de
retornos salariais do investimento em capital humano. Em geral, em base de dados com
9

informações individuais, como a PNAD e o Censo Demográfico, observam-se os

rendimentos do trabalho apenas para aqueles trabalhadores que estão ocupados, ou seja,
empregados, logo, a amostra de rendimentos pode apresentar um viés de seleção, sob a
hipótese de que os trabalhadores ocupados são aqueles mais produtivos.

2.2.3. HIPÓTESE 3: VARIAÇÃO AMOSTRAL DA VARIÁVEL INDEPENDENTE

(X).

A terceira hipótese estabelece que os resultados amostrais de X não têm todos o mesmo
valor. Essa hipótese também é conhecida como a hipótese de variabilidade do regressor.
Na maior parte das aplicações, esta hipótese sempre estará presente. Faz pouco sentido
tentar explicar a variação de y por variações em X , se X não varia.

2.2.4. HIPÓTESE 4: MÉDIA CONDICIONAL DO ERRO IGUAL A ZERO.

O erro tem valor esperado igual a 0 dado X . A quarta hipótese se refere ao fato de que a
distribuição condicional dos erros, dada a variável independente, apresenta média zero.
Em termos matemáticos, tem-se que:

E ( ui| X i )=0

2.3. Coeficiente de determinação (R ²)

O coeficiente de correlação (R), que varia de −1 a 1, é o que fará a mensuração da relação

linear entre as duas variáveis. Um R igual a 1 indica correlação perfeita; o oposto, forte
correlação negativa. Já valores próximos a zero indicam fraca correlação.

Também é importante considerar, na interpretação dos dados, o cálculo Coeficiente de

Determinação (R ²), que é uma medida de ajustamento que varia de 0 a 1, indicando, em
porcentagem, o quanto o modelo consegue explicar os valores observados. Assim, quanto
maior o R ² , mais explicativo é o modelo e melhor ele se ajusta à amostra.

Uma maneira de calcular o R ² é por meio das somas dos quadrados totais, dos resíduos e
explicados (SQT, SQR e SQE):
10

n
SQT=∑ ¿ ¿
i=1

SQT é a soma dos quadrados totais; n o número de observações; Y io valor observado; e Y é

a média de observações. A equação, então, nos fornece a soma dos quadrados das
diferenças entre a média e cada valor observado.

n
SQR=∑ ( Y i −Y^ i )
2

i=1

SQR é a soma dos quadrados dos resíduos, que calcula a parte não explicada do modelo,
e Y^ i é o valor estimado (previsão) de Y i .

n n
SQE=∑ ( Y^ i −Y ) = β^ 2∗∑ ( X− X ) = ^β 2∗S XX
2 2

i=1 i=1

SQE é a soma dos quadrados explicados, que indica a diferença entre a média das
observações e o valor estimado para cada observação, e soma os respectivos quadrados.
Assim, quanto menor for a diferença, maior poder explicativo o modelo possui.

Como R² é o percentual que o modelo ( α^ + ^β∗X ) explica a variação total (Y ),

R ²=SQE / SQT . E como SQT =SQE+ SQR , também podemos calcular o R ² da seguinte
forma:

2 SQE SQR
R= =1−
SQT SQT

Outra forma de calcular o R² é calculando o R:

Cov( X ,Y ) (X ¿¿ i−¿ X)(Y i −Y )

R= =∑ ¿¿
√ Var ( X ) Var (Y ) √∑ ¿ ¿ ¿ ¿ ¿
e elevando o resultado ao quadrado.

O R ² possui uma capacidade de encontrar a probabilidade de eventos futuros dentro dos

resultados previstos. Assim, caso mais amostras sejam adicionadas, o coeficiente mostrará a
probabilidade de um novo ponto cair na linha estimada pela regressão. Mesmo se houver
uma forte conexão entre as duas variáveis, a determinação não provará causalidade. Por
11

exemplo, um estudo sobre aniversários que mostra que um grande número de aniversários
acontece dentro de um período em determinado mês não significa que a passagem do tempo
ou a mudança das estações do ano influencie na ocorrência de gravidez.

2.4. Regressão linear múltipla

A equação é dada por Y = β0 + β 1 X 1 + β 2 X 2 +…+ β k X k + ε , em que ε é o erro aleatório.

Obviamente, quando acrescentamos mais variáveis dentro de uma equação, surgem mais
problemas visto que a variável dependente acaba condicionada a valores de n fatores. Os
princípios seguem o mesmo da regressão simples vista anteriormente, porém o analista
deve se preocupar com o R2, que indica a variabilidade total do modelo de regressão.

É importante, contudo, que se tenha cuidado ao adicionar variáveis desnecessárias ao

modelo, pois pode ocorrer o que é chamado de overfitting, o que reduz a generalização do
modelo. Assim, quanto mais simples, melhor. A Navalha de Occam descreve o problema
extremamente bem: um modelo simples é geralmente preferível a um modelo mais
complexo. Estatisticamente, se um modelo inclui um grande número de variáveis, algumas
das variáveis serão estatisticamente significativas devido ao acaso. A rejeição da hipótese
nula continua a mesma: a rejeição ocorre caso o valor calculado seja maior que o valor
tabelado.

2.5. Correlação/autocorrelação

Como vimos, o valor de um coeficiente de correlação varia de -1 até 1. Um valor de -1

indica uma correlação negativa perfeita, enquanto um valor de 1 indica uma correlação
positiva perfeita. Uma correlação de zero significa que não há relação entre as duas
variáveis. Quando há uma correlação negativa entre duas variáveis, conforme o valor de
uma variável aumenta, o valor da outra variável diminui e vice-versa. Ou seja, para uma
correlação negativa, as variáveis trabalham uma em frente da outra. Quando há uma
correlação positiva entre duas variáveis, conforme o valor de uma variável aumenta, o valor
da outra variável também aumenta, já que as variáveis se movem juntas. A probabilidade da
estatística-t indica se o coeficiente de correlação observado ocorreu por acaso quando a
correlação verdadeira for zero. Em outras palavras, questiona se a correlação é
significativamente diferente de zero.
12

Assim, se E(ε i ε j)≠ 0, para i,j = 1, 2, 3…, então o valor de um resíduo passa a influenciar os
resultados futuros da média condicional estimada para Y, trazendo o problema de
autocorrelação serial. Dentre as principais fontes de correlação, podemos citar: omissão de
variável relevante, má especificação funcional ou dinâmica do modelo.

Um dos pressupostos básicos da regressão linear é de que o termo residual é distribuído de

forma independente e também os resíduos não são correlacionados entre si. A
autocorrelação viola esse pressuposto. Assim, caso haja presença de autocorrelação, é
importante que se use um modelo autorregressivo, pois é mais adequado para o caso.

2.6. Teste t em um coeficiente de regressão

Para realizar testes de hipóteses no coeficiente de regressão de uma regressão linear

simples, utilizamos o mesmo conceito para testes em médias. O teste é dado por:

^β−β
0
t=
^
ep( β)

Onde ^β é o ^β estimado pela amostra, ^β 0 é uma constante definida pelo teste desejado e
ep ( ^β) é o erro padrão do ^β estimado.

Para testar a significância do teste, testamos a hipótese nula de que não há correlação entre
X e Y , e portanto, neste caso, nossa constante ^
β 0 é igual a zero.

2.7. Estatística F

A estatística F é usada para testar a hipótese de todos os coeficientes de regressão, excepto

a constante. É útil quando nosso modelo possui mais de uma inclinação. Nossa hipótese
nula H 0 é ^β 1 = ^β 2 = … = ^β k = 0 e a hipótese alternativa é que nem todos os ^β são iguais a
0. Ela pode ser escrita em função da soma dos quadrados:

SQE /(k −1)

F=
SQR /(N −k )

Ou, alternativamente, em função do R²:

F∗(
( SQT )
SQE
/(k−1)
)
2
SQT R /(k−1)
= =
SQT
( SQR
SQT )
2
(1−R )/(N −k )
/( N−k )

Em que k é a quantidade de coeficientes na regressão (incluindo o intercepto).

Considerando a ideia de que os resíduos teóricos possuem distribuição normal, essa
estatística tem distribuição F com (k −1) graus de liberdade e (N −k ) graus de liberdade no
denominador. Para testar a hipótese nula, usa-se o nível de significância associado à
estatística F (se for menor do que 5 %, podemos rejeitar a hipótese nula).

2.1.1. Exercício 1
Dado um experimento em que se analisa a octanagem da gasolina (Y) em função da adição
de um novo aditivo (X) e no qual foram realizados ensaios com percentuais de 1% até 6%
de aditivo. Considerando os resultados a seguir, calcule a reta de regressão.

Tabela – Resultados.

X (%) 1 2 3 4 5 6

Y 80 , 5 81 , 6 82 , 1 83 , 7 83 , 9 85 , 0

Fonte: Elaborada pelo autor.

Resolução:

A estimativa da reta é E(Y )= α^ + β^ X i, na qual α^ e ^β são os parâmetros do modelo.

Para obtermos a equação, é preciso criar uma tabela com os cálculos:

Tabela – Dados e cálculos.

Dados Cálculos

2
i Xi Yi Xi Xi Y i

1 1 80 , 5 1 80 , 5

2 2 81 , 6 4 163 , 2

3 3 82 , 1 9 246 , 3

4 4 83 , 7 16 334 , 8

5 5 83 , 9 25 419 ,5

6 6 85 , 0 36 510

Soma 21 496 ,8 91 1754 , 3

Fonte: Elaborada pelo autor.

Aplicando os resultados obtidos na fórmula de β e α estimados, temos:

n ∑ X i Y i−∑ X i ∑ Y i 6∗1754 , 3−21∗496 ,8

^β= =
2
n ∑ X i −( ∑ X i )
2
6∗91−¿ ¿

(∑ Y i − ^β ∑ X i ) 496 , 8−0,886∗21 496 ,8−18,606 478,194

α^ = = = = =79 , 7
n 6 6 6

Assim, temos a reta da equação:

Y^ i=79 , 7+ 0,886 X i
15

2.1.2. Exercício 2
Espera-se que a massa muscular de uma pessoa diminua à medida que a idade aumenta.
Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e
79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y).

Tabela – Dados do Exercício 2.

i Massa Muscular (Y) Idade (X) i Massa Muscular (Y) Idade (X)

1 82 , 0 71 , 0 10 84 ,0 65 , 0

2 91 , 0 64 ,0 11 116 ,0 45 ,0

3 100 , 0 43 ,0 12 76 , 0 58 , 0

4 68 , 0 67 , 0 13 97 , 0 45 ,0

5 87 , 0 56 , 0 14 100 , 0 53 , 0

6 73 , 0 73 , 0 15 105 , 0 49 ,0

7 78 , 0 68 , 0 16 77 , 0 78 , 0

8 80 , 0 56 , 0 17 73 , 0 73 , 0

9 65 , 0 76 , 0 18 78 , 0 68 , 0

Fonte: Elaborada pelo autor.

a) Calcule o coeficiente de correlação linear R entre X e Y.

b) Calcule a reta de regressão para a relação entre as variáveis Y: massa muscular
(dependente) e X: idade (independente).
c) Estime a massa muscular média de mulheres com 50 anos.

Resolução:

a) X =61,556 Y =85
16

18 18 18

∑ X 2i =¿ 70.362 ¿ ∑ Y 2i =¿ 133.300 ¿ ∑ X i∗Y i=¿ 91.964 ¿

i=1 i=1 i=1

S XX =∑ X i −n X =70.362−18∗( 61,556 ) =2.157 , 4 6

2 2 2

SYY =∑ Y i −n Y =¿ 133.300−18∗¿ ¿
2 2

S XY =∑ X i Y i−n XY =91.964−18∗61,556∗85=−2.216 ,68

S XY −2.216 , 68 −2.216 , 68 −2.216 , 68

R= = = = =−0,837
√ S XX SYY √2.157 , 46∗3.250 √7.011.745 2.648 , 05
R=−0,837, o que significa que há uma forte correlação linear negativa entre a variável
massa muscular e idade.

O β e α estimados do modelo são:

S XY −2.216 , 68
^β= = =−1 , 027
S XX 2.157 , 4 6

α^ =Y − ^β X =85−(−1,027 )∗61,556=85+63,218=148,218

Portanto, a reta de regressão estimada da variável massa muscular (Y ) em função da idade

(X ) é:

Y^ i=148,218−1 , 027 X i

Para encontrar a estimativa da massa muscular média para mulheres com 50 anos, basta
substituir os valores de X para o caso em que X =50 na equação que obtivemos acima:

Y^ =148,218−1 , 027∗X

Y^ =148,218−1 , 027∗50=96 , 86 8

2.1.3. Exercício 3
(FCC Analista BACEN 2005) Uma empresa com a finalidade de determinar a relação entre
os gastos anuais com propaganda (X ), em R$ 1000,00, e o lucro bruto anual (Y ), em R$
17

1000,00, optou por utilizar o modelo linear simples Y i= α^ + β^ X i +ε i , em que Y i é o valor do

lucro bruto auferido no ano (i), X i é o valor do gasto com propaganda no ano (i) e ε i o erro
aleatório com as respectivas hipóteses consideradas para a regressão linear simples.
Considerou, para o estudo, as seguintes informações referentes às observações dos últimos
10 anos da empresa:

2 2
∑ Y i=100 ; ∑ X i=60 ; ∑ Y i X i=650 ; ∑ X i =400 ; e ∑ Y i =1080.

Montando o quadro de análise de variância (ANOVA), encontre:

 a variação total (SQT);

 a variação explicada, fonte de variação devido à regressão (SQE);

 a variação residual (SQR).

Resolução:

10
⦁SQT =∑ Y 2i −¿ ¿¿ ¿
i=1

n n
⦁SQE =∑ ( Y^ i−Y ) = β^ 2∗∑ ( X− X ) = ^β 2∗S XX =1,5625∗40=62, 5
2 2

i=1 i =1

⦁ SQR =SQT −SQE =80−62, 5=17 ,5

Sendo assim, a variação total é 80, a explicada é 62,5 e a residual apresenta um

valor igual a 17,5.

2.1.4. Exercício 4
(SUSEP 2010 modificada) A partir de uma amostra aleatória
[ X (1),Y (1)],[ X (2),Y (2)]… [ X (20),Y (20)] , foram obtidas as estatísticas:

Média de X =12 ,5 ;

Média de Y =19 ;

Variância de X =30;

Variância de Y =54 ; e
18

Covariância entre X e Y =36.

a. Calcule a reta de regressão estimada de Y contra X .

b. Determine o valor da estatística F para testar a hipótese nula de que o coeficiente

angular

da reta do modelo de regressão linear simples de Y contra X é igual a zero. Considere que,
com um intervalo de confiança de 95%, o F tabelado é 4,414.

Resolução:

^β= Cov ( X , Y ) = 36 =1 ,2
Var ( X ) 30

α^ =Y − ^β X =19−1 , 2∗12 , 5=19−15=4

Sendo assim, a reta é igual a:

Y^ i=4+1 , 2∗X i

A partir das variâncias de X e Y e da estimativa do parâmetro β , podemos encontrar as

somas dos quadrados:

SQT =SYY =Var (Y )∗( n−1 )=54∗( 20−1 )=54∗19=1.026

SQE= ^β ∗S XX = ^β ∗Var ( X )∗( n−1 ) =¿

2 2

SQR=SQT −SQE=1026−820 , 8=205 , 2

Considerando que k =2 (um intercepto + uma inclinação) e n=20, podemos calcular o F da

seguinte maneira:

SQE /(k −1) 820 , 8/(2−1) 820 , 8

F= = = =72
SQR /(N −k ) 205 ,2 /(20−2) 11, 4

O valor da estatística F é igual a 72. Como 72> 4,414, rejeitamos a hipótese nula de que
todos os β estimados são iguais a zero com 95 % de confiança. Nesta regressão há somente
19

um β , e, portanto, o teste mostra que a inclinação desta regressão linear simples é

estatisticamente significante para um nível de significância de 5 %.

3. Limitações da análise de regressão

Sabemos que a regressão é um modelo estatístico que permite examinar a relação entre uma
variável dependente e uma ou mais variáveis independentes. A regressão linear analisa
apenas relações lineares entre as variáveis dependentes e independentes, o que pressupõe
que exista uma relação direta entre eles e isso nem sempre está correto.

A regressão linear analisa uma relação entre a média da variável dependente e as variáveis
independentes, e como a média não se constitui como uma descrição completa de uma
única variável, a regressão linear também não é uma descrição completa da relação entre as
variáveis. Vale ressaltar que no caso da regressão linear os dados devem ser independentes.
A análise de regressão necessita de fortes suposições como a normalidade, independência e
homocedasticidade dos erros, sendo essas suas principais limitações.
20

4. Conclusão

No presente trabalho concluímos que a regressão é um modelo estatístico que permite

examinar a relação entre uma variável dependente e uma ou mais variáveis independentes.
A regressão linear analisa apenas relações lineares entre as variáveis dependentes e
independentes, o que pressupõe que exista uma relação direta entre eles e isso nem sempre
está correto. A regressão linear analisa uma relação entre a média da variável dependente e
as variáveis independentes, e como a média não se constitui como uma descrição completa
de uma única variável, a regressão linear também não é uma descrição completa da relação
entre as variáveis.
21

5. Referencias bibliográficas

Galvão de Mello, F. (2000). Probabilidades e estatística: conceitos e métodos fundamentais.

Vol. I. Escolar Editora. Galvão de Mello, F. (1997). Probabilidades e estatística: conceitos e

métodos fundamentais. Vol. II. Escolar Editora.

Griffiths, W. E., Hill, R. C. e Judge, G. G. (1993). Learning and practicing econometrics.

John Wiley & Sons, Inc. Guimarães, R. C. e Cabral, J. A. S. (2010). Estatística. 2ª Edição.
Verlag Dashöfer

Murteira, B. e Black, G. (1983). Estatística descritiva. McGraw-Hill.

Murteira, B., Ribeiro, C. S., Silva, J. A. e Pimenta, C. (2007). Introdução à estatística.

McGraw-Hill.

Newbold, P., Carlson, W. e Thorne, B. (2013). Statistics for business and economics. 8ª
Edição. Pearson.

Pestana, D. D. e Velosa, S. (2002). Introdução à probabilidade e à estatística. Volume 1,

Fundação Calouste Gulbenkien.