Abdul Baptista Gastene
Justo Agostinho
Silva Tonecas Augusto
Rema Manssur Abdala
Onissimo Francisco Zuca
Rosário Jacinto Fernando
SISTEMA DE EQUAÇÕES DE REGRESSÃO LINEAR
(Licenciatura em Ensino de Matemática) 4° Ano
Universidade Rovuma
Lichinga
2023
2
Abdul Baptista Gastene
Justo Agostinho
Silva Tonecas Augusto
Rema Manssur Abdala
Onissimo Francisco Zuca
Rosário Jacinto Fernando
SISTEMA DE EQUAÇÕES DE REGRESSÃO LINEAR
(Licenciatura em Ensino de Matemática) 4° Ano
Trabalho de Pesquisa Científica da
Cadeira de Econometria Básica a ser
entregue no Departamento de
Ciências Naturais, Matemática e
Estatística para fins avaliativos sob
orientação da docente: Mcs. Juma
Mayawo.
Universidade Rovuma
Lichinga
2023
3
Índice
1. Introdução..................................................................................................................................4
1.1. Objectivos:.............................................................................................................................4
1.1.1. Objectivo Geral..................................................................................................................4
1.1.2. Objectivos específicos........................................................................................................4
1.2. Metodologias..........................................................................................................................4
2. Sistema de equações de regressão linear....................................................................................5
2.1. Regressão linear simples........................................................................................................5
2.2. Hipóteses do modelo linear simples.......................................................................................8
2.2.1. HIPÓTESE 1: O MODELO É LINEAR NOS PARÂMETROS........................................8
2.2.2. HIPÓTESE 2: A AMOSTRAGEM É ALEATÓRIA.........................................................8
2.2.3. HIPÓTESE 3: VARIAÇÃO AMOSTRAL DA VARIÁVEL INDEPENDENTE (X)........9
2.2.4. HIPÓTESE 4: MÉDIA CONDICIONAL DO ERRO IGUAL A ZERO............................9
2.3. Coeficiente de determinação (R ²).........................................................................................9
2.4. Regressão linear múltipla.....................................................................................................11
2.5. Correlação/autocorrelação....................................................................................................11
2.6. Teste t em um coeficiente de regressão................................................................................12
2.7. Estatística F..........................................................................................................................12
2.1.1. Exercício 1.............................................................................................................................13
2.1.2. Exercício 2.............................................................................................................................15
2.1.3. Exercício 3.............................................................................................................................16
2.1.4. Exercício 4.............................................................................................................................17
3. Limitações da análise de regressão...........................................................................................19
4. Conclusão.................................................................................................................................20
5. Referencias bibliográficas........................................................................................................21
4
1. Introdução
O presente trabalho está no propósito de abordar conteúdos relacionados com sistema de
equações de regressão linear. Encontramos no trabalho que Uma regressão linear é
normalmente utilizada para análises preditivas e possui como objetivo geral analisar duas
coisas: primeiro, um conjunto de variáveis preditoras (capaz de um bom trabalho ao prever
uma variável dependente); segundo, quais variáveis em particular são preditores
significativos e de que forma elas impactam (magnitude e sinal das estimativas) a variável
dependente.
1.1. Objectivos:
1.1.1. Objectivo Geral
Encontrar E(Y ∨X i ), ou seja, a esperança do valor de Y dado um valor de X i .
1.1.2. Objectivos específicos
Descrever a relação linear entre duas variáveis;
Representar os valores observados ( X i ; Y i ) num diagrama de dispersão;
Calcular o coeficiente de correlação linear.
A estrutura do trabalho segue a seguinte sequencia: Capa, contra capa, índice, introdução,
desenvolvimento, conclusão e por fim as referências bibliográficas.
1.2. Metodologias
Para a realização do trabalho recorreu-se a recolha de dados bibliográficos sobre o assunto
em destaque, que consistiu na leitura de diversos manuais e fontes na internet, seguiu-se a
compilação da informação e por fim culminou na elaboração do trabalho.
5
2. Sistema de equações de regressão linear
Uma regressão linear é normalmente utilizada para análises preditivas e possui como
objetivo geral analisar duas coisas: primeiro, um conjunto de variáveis preditoras (capaz de
um bom trabalho ao prever uma variável dependente); segundo, quais variáveis em
particular são preditores significativos e de que forma elas impactam (magnitude e sinal das
estimativas) a variável dependente.
2.1. Regressão linear simples
Para um conjunto de dados com duas variáveis ( X e Y ) o objetivo da regressão é encontrar
E(Y ∨X i ), ou seja, a esperança do valor de Y dado um valor de X i . A equação que mede o
verdadeiro impacto de X em Y é a Função de Regressão Populacional (FRP), que é dada
por E(Y ∨X i )= α^ + ^β∗X i. Como trabalhamos com amostras na maioria das vezes, temos
somente estimativas de α^ e ^β , chamadas de “α chapéu” e “ β chapéu”. Assim, a equação da
reta de uma Função de Regressão Amostral (FRA) é dada por:
^
Y^ i= α^ + β∗X i
Em que:
Y é a variável dependente e Y^ i é o valor predito de Y dado um X i ;
X é a variável independente;
α^ é o valor previsto de Y quando X =0(o intercepto); e
^β é o quanto Y muda, em média, por unidade de mudança em X (a inclinação).
Assim, a inclinação ou coeficiente de regressão ( ^β ) mede a direção ou magnitude da
relação, de forma que se as duas variáveis estão correlacionadas positivamente, a inclinação
será positiva e vice-versa.
6
O conjunto de dados muito provavelmente não mostrará uma relação exata entre X e Y .
Isso porque (1) é possível ter outros fatores que afetam Y além de X , e (2) a variância da
amostra cria uma dispersão nos dados, fazendo que amostras diferentes tenham FRAs
diferentes. Assim, podemos representar a FRA em sua forma estocástica da seguinte forma:
^
Y^ i= α^ + β∗X ^
i + ui
Em que u^ i representa o resíduo da regressão (amostral) para a observação i . O erro é o
termo que inclui todos os fatores que determinam Y e não são explicados por X , e o resíduo
u^ i pode ser considerado a estimativa do erro.
Exemplo: Considere as seguintes amostras de X e Y :
Tabela – Amostras de X e Y.
X 4 6 7 5 8 10
Y 15 18 19 20 21 23
Fonte: Elaborada pelo autor.
Colocando estes pontos em um gráfico, podemos ver que eles estão dispersos e não
formam uma linha reta. O objetivo da regressão linear é encontrar o intercepto e a
inclinação de uma reta que melhor ajuste a estes dados, ou seja, que minimize a variância
dos erros, e, portanto, nos gere a melhor estimativa de α^ e ^β . A reta que realiza este objetivo
é encontrada pela técnica de mínimos quadrados, por meio da minimização da soma dos
quadrados dos resíduos. A reta encontrada pelos Mínimos Quadrados Ordinários (MQO ou
Ordinary Least Squares – OLS) da amostra é a seguinte:
7
Figura – Regressão linear simples.
Fonte: Elaborado pelo autor
Como o ^β estimado é igual a 1 , 24, podemos dizer que, em média, quando X muda 1
unidade, Y varia em 1 , 24 unidades.
Cada observação i pode ser resumida em uma fórmula que relaciona Y i com a reta mais um
resíduo. Utilizando os dados acima, temos:
Y 1= α^ + ^β∗X 1+ u^ i → 15=11 ,21+1 , 24∗4−1 , 18
Y 2= α^ + ^β∗X 2+ u^ i → 18=11 ,21+1 , 24∗6−0 , 66
^
Y i= α^ + β∗X ^
i + ui
8
A variável dependente (Y ) pode ser chamada de variável de resultado, variável de critério
ou variável endógena. Já as variáveis independentes (X ) também podem ser chamadas de
variáveis exógenas, preditoras ou regressores.
As fórmulas de β e α podem ser encontradas pelas covariâncias, variâncias e valores
médios de X e Y :
^β= Cov( X ,Y ) = XY = ∑ i i ∑ i ∑ i
S n XY− X Y
Var (X ) S XX 2 2
n ∑
X −( X ) i ∑ i
(∑ Y i− β^ ∑ X i )
α^ =Y − ^β X =
n
Em que S XX e S XY são as somas dos quadrados de X e soma dos desvios de X e Y ,
respectivamente:
S XX =Var ( X )∗( n−1 )=∑ ¿ ¿
S XY =Cov ( XY )∗( n−1 )=∑ ( X ¿¿ i−¿ X )(Y i−Y )=∑ X i Y i−n XY ¿ ¿
2.2. Hipóteses do modelo linear simples
O estimador de MQO apresenta um conjunto de quatro hipóteses fundamentais sobre as
quais se sustenta o seu uso como o melhor estimador linear não viesado:
2.2.1. HIPÓTESE 1: O MODELO É LINEAR NOS PARÂMETROS.
A primeira hipótese se refere ao fato de o modelo ser linear nos parâmetros, ou seja, os
betas do modelo populacional entram de forma linear na equação.
2.2.2. HIPÓTESE 2: A AMOSTRAGEM É ALEATÓRIA.
A segunda hipótese diz que existe uma amostra aleatória de tamanho n , f (X i , Y i), i=1 … n,
proveniente de um modelo populacional. Cabe lembrar que, em muitos casos, problemas de
seleção amostral estarão presentes, daí será necessário tratar de forma especial os casos em
que a hipótese de amostragem aleatória não estiver presente. Pode-se pensar no exemplo de
retornos salariais do investimento em capital humano. Em geral, em base de dados com
9
informações individuais, como a PNAD e o Censo Demográfico, observam-se os
rendimentos do trabalho apenas para aqueles trabalhadores que estão ocupados, ou seja,
empregados, logo, a amostra de rendimentos pode apresentar um viés de seleção, sob a
hipótese de que os trabalhadores ocupados são aqueles mais produtivos.
2.2.3. HIPÓTESE 3: VARIAÇÃO AMOSTRAL DA VARIÁVEL INDEPENDENTE
(X).
A terceira hipótese estabelece que os resultados amostrais de X não têm todos o mesmo
valor. Essa hipótese também é conhecida como a hipótese de variabilidade do regressor.
Na maior parte das aplicações, esta hipótese sempre estará presente. Faz pouco sentido
tentar explicar a variação de y por variações em X , se X não varia.
2.2.4. HIPÓTESE 4: MÉDIA CONDICIONAL DO ERRO IGUAL A ZERO.
O erro tem valor esperado igual a 0 dado X . A quarta hipótese se refere ao fato de que a
distribuição condicional dos erros, dada a variável independente, apresenta média zero.
Em termos matemáticos, tem-se que:
E ( ui| X i )=0
2.3. Coeficiente de determinação (R ²)
O coeficiente de correlação (R), que varia de −1 a 1, é o que fará a mensuração da relação
linear entre as duas variáveis. Um R igual a 1 indica correlação perfeita; o oposto, forte
correlação negativa. Já valores próximos a zero indicam fraca correlação.
Também é importante considerar, na interpretação dos dados, o cálculo Coeficiente de
Determinação (R ²), que é uma medida de ajustamento que varia de 0 a 1, indicando, em
porcentagem, o quanto o modelo consegue explicar os valores observados. Assim, quanto
maior o R ² , mais explicativo é o modelo e melhor ele se ajusta à amostra.
Uma maneira de calcular o R ² é por meio das somas dos quadrados totais, dos resíduos e
explicados (SQT, SQR e SQE):
10
n
SQT=∑ ¿ ¿
i=1
SQT é a soma dos quadrados totais; n o número de observações; Y io valor observado; e Y é
a média de observações. A equação, então, nos fornece a soma dos quadrados das
diferenças entre a média e cada valor observado.
n
SQR=∑ ( Y i −Y^ i )
2
i=1
SQR é a soma dos quadrados dos resíduos, que calcula a parte não explicada do modelo,
e Y^ i é o valor estimado (previsão) de Y i .
n n
SQE=∑ ( Y^ i −Y ) = β^ 2∗∑ ( X− X ) = ^β 2∗S XX
2 2
i=1 i=1
SQE é a soma dos quadrados explicados, que indica a diferença entre a média das
observações e o valor estimado para cada observação, e soma os respectivos quadrados.
Assim, quanto menor for a diferença, maior poder explicativo o modelo possui.
Como R² é o percentual que o modelo ( α^ + ^β∗X ) explica a variação total (Y ),
R ²=SQE / SQT . E como SQT =SQE+ SQR , também podemos calcular o R ² da seguinte
forma:
2 SQE SQR
R= =1−
SQT SQT
Outra forma de calcular o R² é calculando o R:
Cov( X ,Y ) (X ¿¿ i−¿ X)(Y i −Y )
R= =∑ ¿¿
√ Var ( X ) Var (Y ) √∑ ¿ ¿ ¿ ¿ ¿
e elevando o resultado ao quadrado.
O R ² possui uma capacidade de encontrar a probabilidade de eventos futuros dentro dos
resultados previstos. Assim, caso mais amostras sejam adicionadas, o coeficiente mostrará a
probabilidade de um novo ponto cair na linha estimada pela regressão. Mesmo se houver
uma forte conexão entre as duas variáveis, a determinação não provará causalidade. Por
11
exemplo, um estudo sobre aniversários que mostra que um grande número de aniversários
acontece dentro de um período em determinado mês não significa que a passagem do tempo
ou a mudança das estações do ano influencie na ocorrência de gravidez.
2.4. Regressão linear múltipla
A equação é dada por Y = β0 + β 1 X 1 + β 2 X 2 +…+ β k X k + ε , em que ε é o erro aleatório.
Obviamente, quando acrescentamos mais variáveis dentro de uma equação, surgem mais
problemas visto que a variável dependente acaba condicionada a valores de n fatores. Os
princípios seguem o mesmo da regressão simples vista anteriormente, porém o analista
deve se preocupar com o R2, que indica a variabilidade total do modelo de regressão.
É importante, contudo, que se tenha cuidado ao adicionar variáveis desnecessárias ao
modelo, pois pode ocorrer o que é chamado de overfitting, o que reduz a generalização do
modelo. Assim, quanto mais simples, melhor. A Navalha de Occam descreve o problema
extremamente bem: um modelo simples é geralmente preferível a um modelo mais
complexo. Estatisticamente, se um modelo inclui um grande número de variáveis, algumas
das variáveis serão estatisticamente significativas devido ao acaso. A rejeição da hipótese
nula continua a mesma: a rejeição ocorre caso o valor calculado seja maior que o valor
tabelado.
2.5. Correlação/autocorrelação
Como vimos, o valor de um coeficiente de correlação varia de -1 até 1. Um valor de -1
indica uma correlação negativa perfeita, enquanto um valor de 1 indica uma correlação
positiva perfeita. Uma correlação de zero significa que não há relação entre as duas
variáveis. Quando há uma correlação negativa entre duas variáveis, conforme o valor de
uma variável aumenta, o valor da outra variável diminui e vice-versa. Ou seja, para uma
correlação negativa, as variáveis trabalham uma em frente da outra. Quando há uma
correlação positiva entre duas variáveis, conforme o valor de uma variável aumenta, o valor
da outra variável também aumenta, já que as variáveis se movem juntas. A probabilidade da
estatística-t indica se o coeficiente de correlação observado ocorreu por acaso quando a
correlação verdadeira for zero. Em outras palavras, questiona se a correlação é
significativamente diferente de zero.
12
Assim, se E(ε i ε j)≠ 0, para i,j = 1, 2, 3…, então o valor de um resíduo passa a influenciar os
resultados futuros da média condicional estimada para Y, trazendo o problema de
autocorrelação serial. Dentre as principais fontes de correlação, podemos citar: omissão de
variável relevante, má especificação funcional ou dinâmica do modelo.
Um dos pressupostos básicos da regressão linear é de que o termo residual é distribuído de
forma independente e também os resíduos não são correlacionados entre si. A
autocorrelação viola esse pressuposto. Assim, caso haja presença de autocorrelação, é
importante que se use um modelo autorregressivo, pois é mais adequado para o caso.
2.6. Teste t em um coeficiente de regressão
Para realizar testes de hipóteses no coeficiente de regressão de uma regressão linear
simples, utilizamos o mesmo conceito para testes em médias. O teste é dado por:
^β−β
0
t=
^
ep( β)
Onde ^β é o ^β estimado pela amostra, ^β 0 é uma constante definida pelo teste desejado e
ep ( ^β) é o erro padrão do ^β estimado.
Para testar a significância do teste, testamos a hipótese nula de que não há correlação entre
X e Y , e portanto, neste caso, nossa constante ^
β 0 é igual a zero.
2.7. Estatística F
A estatística F é usada para testar a hipótese de todos os coeficientes de regressão, excepto
a constante. É útil quando nosso modelo possui mais de uma inclinação. Nossa hipótese
nula H 0 é ^β 1 = ^β 2 = … = ^β k = 0 e a hipótese alternativa é que nem todos os ^β são iguais a
0. Ela pode ser escrita em função da soma dos quadrados:
SQE /(k −1)
F=
SQR /(N −k )
Ou, alternativamente, em função do R²:
13
F∗(
( SQT )
SQE
/(k−1)
)
2
SQT R /(k−1)
= =
SQT
( SQR
SQT )
2
(1−R )/(N −k )
/( N−k )
Em que k é a quantidade de coeficientes na regressão (incluindo o intercepto).
Considerando a ideia de que os resíduos teóricos possuem distribuição normal, essa
estatística tem distribuição F com (k −1) graus de liberdade e (N −k ) graus de liberdade no
denominador. Para testar a hipótese nula, usa-se o nível de significância associado à
estatística F (se for menor do que 5 %, podemos rejeitar a hipótese nula).
2.1.1. Exercício 1
Dado um experimento em que se analisa a octanagem da gasolina (Y) em função da adição
de um novo aditivo (X) e no qual foram realizados ensaios com percentuais de 1% até 6%
de aditivo. Considerando os resultados a seguir, calcule a reta de regressão.
Tabela – Resultados.
X (%) 1 2 3 4 5 6
Y 80 , 5 81 , 6 82 , 1 83 , 7 83 , 9 85 , 0
Fonte: Elaborada pelo autor.
Resolução:
A estimativa da reta é E(Y )= α^ + β^ X i, na qual α^ e ^β são os parâmetros do modelo.
Para obtermos a equação, é preciso criar uma tabela com os cálculos:
Tabela – Dados e cálculos.
14
Dados Cálculos
2
i Xi Yi Xi Xi Y i
1 1 80 , 5 1 80 , 5
2 2 81 , 6 4 163 , 2
3 3 82 , 1 9 246 , 3
4 4 83 , 7 16 334 , 8
5 5 83 , 9 25 419 ,5
6 6 85 , 0 36 510
Soma 21 496 ,8 91 1754 , 3
Fonte: Elaborada pelo autor.
Aplicando os resultados obtidos na fórmula de β e α estimados, temos:
n ∑ X i Y i−∑ X i ∑ Y i 6∗1754 , 3−21∗496 ,8
^β= =
2
n ∑ X i −( ∑ X i )
2
6∗91−¿ ¿
(∑ Y i − ^β ∑ X i ) 496 , 8−0,886∗21 496 ,8−18,606 478,194
α^ = = = = =79 , 7
n 6 6 6
Assim, temos a reta da equação:
Y^ i=79 , 7+ 0,886 X i
15
2.1.2. Exercício 2
Espera-se que a massa muscular de uma pessoa diminua à medida que a idade aumenta.
Para estudar essa relação, uma nutricionista selecionou 18 mulheres, com idade entre 40 e
79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y).
Tabela – Dados do Exercício 2.
i Massa Muscular (Y) Idade (X) i Massa Muscular (Y) Idade (X)
1 82 , 0 71 , 0 10 84 ,0 65 , 0
2 91 , 0 64 ,0 11 116 ,0 45 ,0
3 100 , 0 43 ,0 12 76 , 0 58 , 0
4 68 , 0 67 , 0 13 97 , 0 45 ,0
5 87 , 0 56 , 0 14 100 , 0 53 , 0
6 73 , 0 73 , 0 15 105 , 0 49 ,0
7 78 , 0 68 , 0 16 77 , 0 78 , 0
8 80 , 0 56 , 0 17 73 , 0 73 , 0
9 65 , 0 76 , 0 18 78 , 0 68 , 0
Fonte: Elaborada pelo autor.
a) Calcule o coeficiente de correlação linear R entre X e Y.
b) Calcule a reta de regressão para a relação entre as variáveis Y: massa muscular
(dependente) e X: idade (independente).
c) Estime a massa muscular média de mulheres com 50 anos.
Resolução:
a) X =61,556 Y =85
16
18 18 18
∑ X 2i =¿ 70.362 ¿ ∑ Y 2i =¿ 133.300 ¿ ∑ X i∗Y i=¿ 91.964 ¿
i=1 i=1 i=1
S XX =∑ X i −n X =70.362−18∗( 61,556 ) =2.157 , 4 6
2 2 2
SYY =∑ Y i −n Y =¿ 133.300−18∗¿ ¿
2 2
S XY =∑ X i Y i−n XY =91.964−18∗61,556∗85=−2.216 ,68
S XY −2.216 , 68 −2.216 , 68 −2.216 , 68
R= = = = =−0,837
√ S XX SYY √2.157 , 46∗3.250 √7.011.745 2.648 , 05
R=−0,837, o que significa que há uma forte correlação linear negativa entre a variável
massa muscular e idade.
b)
O β e α estimados do modelo são:
S XY −2.216 , 68
^β= = =−1 , 027
S XX 2.157 , 4 6
α^ =Y − ^β X =85−(−1,027 )∗61,556=85+63,218=148,218
Portanto, a reta de regressão estimada da variável massa muscular (Y ) em função da idade
(X ) é:
Y^ i=148,218−1 , 027 X i
c)
Para encontrar a estimativa da massa muscular média para mulheres com 50 anos, basta
substituir os valores de X para o caso em que X =50 na equação que obtivemos acima:
Y^ =148,218−1 , 027∗X
Y^ =148,218−1 , 027∗50=96 , 86 8
2.1.3. Exercício 3
(FCC Analista BACEN 2005) Uma empresa com a finalidade de determinar a relação entre
os gastos anuais com propaganda (X ), em R$ 1000,00, e o lucro bruto anual (Y ), em R$
17
1000,00, optou por utilizar o modelo linear simples Y i= α^ + β^ X i +ε i , em que Y i é o valor do
lucro bruto auferido no ano (i), X i é o valor do gasto com propaganda no ano (i) e ε i o erro
aleatório com as respectivas hipóteses consideradas para a regressão linear simples.
Considerou, para o estudo, as seguintes informações referentes às observações dos últimos
10 anos da empresa:
2 2
∑ Y i=100 ; ∑ X i=60 ; ∑ Y i X i=650 ; ∑ X i =400 ; e ∑ Y i =1080.
Montando o quadro de análise de variância (ANOVA), encontre:
a variação total (SQT);
a variação explicada, fonte de variação devido à regressão (SQE);
a variação residual (SQR).
Resolução:
10
⦁SQT =∑ Y 2i −¿ ¿¿ ¿
i=1
n n
⦁SQE =∑ ( Y^ i−Y ) = β^ 2∗∑ ( X− X ) = ^β 2∗S XX =1,5625∗40=62, 5
2 2
i=1 i =1
⦁ SQR =SQT −SQE =80−62, 5=17 ,5
Sendo assim, a variação total é 80, a explicada é 62,5 e a residual apresenta um
valor igual a 17,5.
2.1.4. Exercício 4
(SUSEP 2010 modificada) A partir de uma amostra aleatória
[ X (1),Y (1)],[ X (2),Y (2)]… [ X (20),Y (20)] , foram obtidas as estatísticas:
Média de X =12 ,5 ;
Média de Y =19 ;
Variância de X =30;
Variância de Y =54 ; e
18
Covariância entre X e Y =36.
a. Calcule a reta de regressão estimada de Y contra X .
b. Determine o valor da estatística F para testar a hipótese nula de que o coeficiente
angular
da reta do modelo de regressão linear simples de Y contra X é igual a zero. Considere que,
com um intervalo de confiança de 95%, o F tabelado é 4,414.
Resolução:
a.
^β= Cov ( X , Y ) = 36 =1 ,2
Var ( X ) 30
α^ =Y − ^β X =19−1 , 2∗12 , 5=19−15=4
Sendo assim, a reta é igual a:
Y^ i=4+1 , 2∗X i
b.
A partir das variâncias de X e Y e da estimativa do parâmetro β , podemos encontrar as
somas dos quadrados:
SQT =SYY =Var (Y )∗( n−1 )=54∗( 20−1 )=54∗19=1.026
SQE= ^β ∗S XX = ^β ∗Var ( X )∗( n−1 ) =¿
2 2
SQR=SQT −SQE=1026−820 , 8=205 , 2
Considerando que k =2 (um intercepto + uma inclinação) e n=20, podemos calcular o F da
seguinte maneira:
SQE /(k −1) 820 , 8/(2−1) 820 , 8
F= = = =72
SQR /(N −k ) 205 ,2 /(20−2) 11, 4
O valor da estatística F é igual a 72. Como 72> 4,414, rejeitamos a hipótese nula de que
todos os β estimados são iguais a zero com 95 % de confiança. Nesta regressão há somente
19
um β , e, portanto, o teste mostra que a inclinação desta regressão linear simples é
estatisticamente significante para um nível de significância de 5 %.
3. Limitações da análise de regressão
Sabemos que a regressão é um modelo estatístico que permite examinar a relação entre uma
variável dependente e uma ou mais variáveis independentes. A regressão linear analisa
apenas relações lineares entre as variáveis dependentes e independentes, o que pressupõe
que exista uma relação direta entre eles e isso nem sempre está correto.
A regressão linear analisa uma relação entre a média da variável dependente e as variáveis
independentes, e como a média não se constitui como uma descrição completa de uma
única variável, a regressão linear também não é uma descrição completa da relação entre as
variáveis. Vale ressaltar que no caso da regressão linear os dados devem ser independentes.
A análise de regressão necessita de fortes suposições como a normalidade, independência e
homocedasticidade dos erros, sendo essas suas principais limitações.
20
4. Conclusão
No presente trabalho concluímos que a regressão é um modelo estatístico que permite
examinar a relação entre uma variável dependente e uma ou mais variáveis independentes.
A regressão linear analisa apenas relações lineares entre as variáveis dependentes e
independentes, o que pressupõe que exista uma relação direta entre eles e isso nem sempre
está correto. A regressão linear analisa uma relação entre a média da variável dependente e
as variáveis independentes, e como a média não se constitui como uma descrição completa
de uma única variável, a regressão linear também não é uma descrição completa da relação
entre as variáveis.
21
5. Referencias bibliográficas
Galvão de Mello, F. (2000). Probabilidades e estatística: conceitos e métodos fundamentais.
Vol. I. Escolar Editora. Galvão de Mello, F. (1997). Probabilidades e estatística: conceitos e
métodos fundamentais. Vol. II. Escolar Editora.
Griffiths, W. E., Hill, R. C. e Judge, G. G. (1993). Learning and practicing econometrics.
John Wiley & Sons, Inc. Guimarães, R. C. e Cabral, J. A. S. (2010). Estatística. 2ª Edição.
Verlag Dashöfer
Murteira, B. e Black, G. (1983). Estatística descritiva. McGraw-Hill.
Murteira, B., Ribeiro, C. S., Silva, J. A. e Pimenta, C. (2007). Introdução à estatística.
McGraw-Hill.
Newbold, P., Carlson, W. e Thorne, B. (2013). Statistics for business and economics. 8ª
Edição. Pearson.
Pestana, D. D. e Velosa, S. (2002). Introdução à probabilidade e à estatística. Volume 1,
Fundação Calouste Gulbenkien.