0% encontró este documento útil (0 votos)
23 vistas77 páginas

3 Tema 3

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
23 vistas77 páginas

3 Tema 3

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Conceptos básicos del

algebra matricial
PONTIFICA UNIVERSIDAD CATÓLICA DEL PERÚ
Debemos recordar
Para empezar el trabajo con el modelo de regresión lineal con k variables, es
necesario tener claro los siguientes aspectos del algebra matricial:

◦ Orden de una matriz


◦ Matriz simétrica
◦ Transpuesta de una matriz
◦ Inversa de una matriz
◦ Matriz identidad
◦ Matriz diagonal
◦ Determinante de una matriz
Ejemplo de operaciones con matrices (1)
Ejemplo de operaciones con matrices (2)
Algunas propiedades de las matrices
(A´)´ = A
A’ = A en caso la matriz sea simétrica
(A’ + B’) = A’ + B’
(AB)’ = B’A’

Algunas características de las matrices cuadradas


tr(A+B)=tr(A)+tr(B)
tr(aA)=atr(A)
tr(A’)=tr(A)
tr(ABCD)=tr(BCDA)=tr(CDAB)=tr(DABC)
Determinante de una matriz
Si A es una matriz de orden 2 x 2 entonces su determinante es igual a:
|A|=a11a22-a12a21

Si A es una matriz de orden nxn, donde n>2, entonces:


𝑛

𝐴 = ෍(−1)1+𝑗 𝑎1𝑗 |𝐴1𝑗 |


𝑗=1

Donde A1j es la matriz resultante de borrar la primera fila y la j-ésima columna de A.


Recordar que cuando el determinante de una matriz es igual a 0 eso significa que la
matriz es singular; es decir, no tiene inversa.
Inversa de una matriz cuadrada
Es denotada como A-1 y se estima dividiendo su matriz adjunta por el determinante. En otras
palabras:

−1
1
𝐴 = 𝑎𝑑𝑗 𝐴
𝐴

Si el determinante de la matriz A es distinto de cero entonces se cuenta con matriz inversa, en


caso contrario se tiene una matriz singular.
The Magnitude and Predictors
of Overeducation and
Overskilling in Latin America:
Evidence from PIAAC(Castro et
al, 2022)
Análisis de Regresión Múltiple:
Modelo de “k” variables
PONTIFICIA UNIVERSIDAD CATÓLICA DEL PERÚ
¿Qué determina las “k” variables en el modelo?
El número de variables explicativas que se incluyen en un modelo (“k”), no
dependen de alguna prueba estadística o algoritmo matemático. El
número de variables que se incluyen en el modelo dependen de la
revisión de literatura teórica y empírica que se realiza sobre el tema que
se esta estudiando.

Asimismo, si una variable resulta no estadísticamente significativa en el


modelo planteado, no se debe de eliminar de la regresión dado que es
también un hallazgo del análisis empirico realizado.
Ecuaciones del modelo de regresión múltiple
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝛽4 𝑋4𝑖 +…+𝛽𝑘 𝑋𝑘𝑖 + 𝜇𝑖 (1)

La ecuación 1 puede ser escrita como un conjunto de n ecuaciones simultaneas:

𝑌1 = 𝛽1 + 𝛽2 𝑋21 + 𝛽3 𝑋31 + 𝛽4 𝑋41 + … + 𝛽𝑘 𝑋𝑘1 + 𝜇1


𝑌2 = 𝛽1 + 𝛽2 𝑋22 + 𝛽3 𝑋32 + 𝛽4 𝑋42 + … + 𝛽𝑘 𝑋𝑘2 + 𝜇2


𝑌𝑛 = 𝛽1 + 𝛽2 𝑋2𝑛 + 𝛽3 𝑋3𝑛 + 𝛽4 𝑋4𝑛 + … + 𝛽𝑘 𝑋𝑘𝑛 + 𝜇𝑛
Ahora hagamos la notación matricial del
modelo a estimar
𝑌1 1 𝑋21 𝑋31 … 𝑋𝑘1 𝛽1 𝜇1
… = … … … … … … + …
𝑌𝑛 1 𝑋2𝑛 𝑋3𝑛 … 𝑋𝑘𝑛 𝛽𝑘 𝜇𝑛

Notación matricial es:

Ynx1 = Xnxk βkx1 + Unx1

k= incluye a la constante
El modelo de k variables es el siguiente
෠ es decir Y
Y = Xβ + U donde E Y X = Xβ, ෡ = Xβ෠ y U~𝑁(0𝑁 , 𝜎 2 𝐼𝑁 )

෡ =Y−Y
Luego, se tiene que los errores (U) es igual a: U ෡, por lo tanto, la
sumatoria de los errores al cuadrado es igual a U ෡ ′U
෡ . De esta manera al pre-
multiplicar al vector de los errores por su transpuesta nos da una matriz 1
x 1 (un escalar) que es la sumatoria de los errores al cuadrado.

෡ ′U
Así, la función a minimizar es SRC=U ෡
Derivando los parámetros del modelo de k
variables
෡ , para lo cual se debe derivar a la SRC con respecto a 𝛽መ e
෡ ′U
Min SRC es decir Min U
igualar a 0

SRC = U ෡ = Y ′ − β෠ ′ X ′ Y − Xβ෠
෡ ′U
෡ = Y ′ Y − Y ′ Xβ෠ − β෠ ′ X ′ Y + β෠ ′ X ′ Xβ෠
෡ ′U
U
෡ = Y ′ Y − 2β෠ ′ X ′ Y + β෠ ′ X ′ Xβ෠
෡ ′U
U
Derivo e igualo a 0
−2X ′ Y + 2X ′ Xβ෠ = 0
X ′ Y = X ′ Xβ෠
X ′ X −1 X ′ Y = X ′ X −1 X ′ Xβ෠
X ′ X −1 X ′ Y = β෠
La Hessiana: Condición de segundo orden
Estimamos la segunda derivada y verificamos que sea positiva definida

𝜕𝑆𝑅𝐶 ′𝑋 → > 0
= 2𝑋
𝜕𝛽𝜕𝛽′

Se cumple la condición dado que la matriz X’X es positiva definida como se vio en el modelo
bivariado.
Otras formas de expresar el β
Forma 1 (X tiene rango completo)
β෠ = X ′ X −1 X ′ Y
β෠ = X −1 X ′ −1 X ′ Y
β෠ = X −1 Y

Forma 2
β෠ = X ′ X −1 X ′ Y
β෠ = X ′ X −1 X ′ (Xβ + U)
β෠ = X ′ X −1 X ′ Xβ + X ′ X −1 X ′ U
β෠ = β + X ′ X −1 X ′ U
Los errores estimados son iguales a 0 (caso
particular)
෡ = Y − Xβ෠
U

෠ entonces reemplazando
Sabemos que X −1 Y = β,

෡ = Y − X X −1 Y
U
෡ =Y−Y
U
෡=0
U

Los errores estimados para cada observación son iguales a 0


Insesgadez de los parámetros estimados
Tomamos la siguiente expresiónβ෠ = β + X ′ X −1 X ′ U y aplicamos el operador de
esperanza y encontramos lo siguiente:

E β෠ = E(β + X ′ X −1 X ′ U) El término
X ′ X −1 X ′ U es
E β෠ = E(β) + E( X ′ X −1 X ′ U) el
sesgo que presentaría
E β෠ = β + X ′ X −1 E(X ′ U) el estimador si
E β෠ = β + X ′ X −1 0 existiera
endogeneidad en el
E β෠ = β modelo planteado.

Recordar que uno de los supuestos que teníamos del MRL es que no existe
correlación entre variables explicativas y el termino de error.
Estimación de la varianza de los parámetros
estimados
′ ′
Var β෠ = E β෠ − E β෠ β෠ − E β෠ = E β෠ − β β෠ − β

Dado que β + X ′ X −1 X ′ U = β෠ o X ′ X −1 X ′ U = β෠ − β, entonces

Var β෠ = E[ X ′ X −1 X ′ UU′ X X ′ X −1 ]
Var β෠ = X ′ X −1 X ′ E UU′ X X ′ X −1
Var β෠ = X ′ X −1 X ′ 𝜎 2 IX X ′ X −1
Var β෠ = 𝜎 2 X ′ X −1 X ′ X X ′ X −1
Var β෠ = 𝜎 2 X ′ X −1
El parámetro aún desconocido es σ2
El parámetro aún desconocido es σ2, pero sabemos del Modelo de Regresión Lineal Simple que:

σ 𝜇Ƹ − 𝜇 2 σ 𝜇Ƹ 2 σ 𝜇Ƹ 2
𝑉𝑎𝑟 𝜇Ƹ = = , 𝑎𝑗𝑢𝑠𝑡𝑎𝑛𝑑𝑜 𝑙𝑜𝑠 𝑔𝑙 𝑉𝑎𝑟 𝜇Ƹ = = 𝜎ො 2
𝑛 𝑛 𝑛−2

En el caso de del Modelo de Regresión Múltiple seria los mismos salvo que el ajuste de grados de
libertad ahora seria por la cantidad de parámetros que se están estimando, es decir, los grados
de libertad seria N-k.

σ 𝜇Ƹ − 𝜇 2 σ 𝜇Ƹ 2 ෡ ′U
U ෡
𝑉𝑎𝑟 𝜇Ƹ = = ෡U
= U ′ ෡ , 𝑎𝑗𝑢𝑠𝑡𝑎𝑛𝑑𝑜 𝑙𝑜𝑠 𝑔𝑙 𝑉𝑎𝑟 𝜇Ƹ = = 𝜎ො 2
𝑛 𝑛 𝑛−𝑘−1

Donde k es el número de variables explicativas y no incluye a la constante.


El estimador de σ2 es insesgado
𝑈෡′𝑈
෡ 1
𝐸 𝜎ො 2 =𝐸 = ෡′𝑈
𝐸 𝑈 ෡
𝑛−𝑘−1 𝑛−𝑘−1

1
= 𝑛 − 𝑘 − 1 𝜎2
𝑛−𝑘−1

𝑛−𝑘−1 2
𝐸 𝜎ො 2 = 𝜎 = 𝜎2
𝑛−𝑘−1

k= incluye a la constante
Coeficiente de determinación, R2(i)
Teníamos anteriormente que:
2 2

SCT ≡ ෍ Yi − Y ≡ Y Y − nY

2 2
෡i − Y
SCE ≡ ෍ Y ෡′Y
≡Y ෡ − nY

𝑆𝐶𝑅 ≡ ෍ 𝜇ො𝑖2 ≡ U
෡ ′U

SCE SCR
Sabíamos que R2 = =1−
SCT SCT
Coeficiente de determinación, R2 (ii)
SCR ෡ ′U
U ෡ (Y ′
− ෠ ′ X ′ )(Y − Xβ)
β ෠
2
R =1− =1− 2 = 1− 2
SCT Y ′ Y − nY Y ′ Y − nY

2
Y ′ Y − Y ′ Xβ෠ − β෠ ′ X ′ Y + β෠ ′ X ′ Xβ෠
R =1− 2
Y ′ Y − nY

2
Y ′ Y − Y ′ Xβ෠ − β෠ ′ X ′ Y + β෠ ′ X ′ X(X ′ X)−1 X ′ Y
R =1− 2
Y ′ Y − nY

2
Y Y − Y Xβ෠ − β෠ ′ X ′ Y + β෠ ′ X ′ Y
′ ′
Y Y − β෠ ′ X ′ Y

β෠ ′ X ′ Y − nY
R2 = 1 − 2 =1− 2 = 2
Y ′ Y − nY Y ′ Y − nY Y ′ Y − nY
R2 ajustado (i)
Es utilizado en los modelos de regresión múltiple para poder tener una medida más
precisa de cuanto las variables explicativas usadas en el modelo de regresión
explican la variabilidad de la dependiente.

Lo que busca este indicador es castigar al R2 por el número de variables explicativas


usadas en el modelo de regresión. La fórmula es la siguiente:

n−1
R2adj =1− 1 − R2 , k=número de variables explicativas (no incluye la
n−k−1
constante), n=número de observaciones
Si vamos incluyendo más variables (k sube) en el modelo, entonces el ratio (n-1/n-k-
1) se incrementa y por ende también (1-R2) con lo que se penaliza la inclusión de
variables en el modelo.
R2 ajustado (ii)
De esta manera, el R2 ajustado puede tomar valores menores o iguales al R2. Una
diferencia principal entre el R2 ajustado y el R2 esta en que este último solo toma
valores entre 0 y 1, mientras el R2 ajustado puede tomar valores negativos debido a:

i. el número de variables explicativas se acerque al número de observaciones; es


decir, no se cuenta con grados de libertad suficientes para la estimación de los
parámetros. Se recomienda un ratio de 10 observaciones por parámetro a
estimar.

ii. el coeficiente de determinación es bajo: lo que indica que se esta incluyendo


simplemente variables irrelevantes en el modelo de regresión
El estadístico F en una regresión Lineal
El estadístico F resulta del ratio entre cuanto explica las variables incluidas en el modelo y
lo que no explica el modelo o los residuos. La idea de esta prueba es ver si las variables en
conjunto incluidas en el modelo de regresión múltiple aportan para explicar la variable
dependiente.

2
R /k
F
(1  R ) /( N  k  1)
2

Donde:
k = número de variables independientes o explicativas en el modelo (no incluye la constante)
N = Número de observaciones
R2 = Varianza explicada de la dependiente
La Ho en la prueba F
La prueba F tiene como hipótesis nula que todos los coeficientes de la regresión
asociados a una variable explicativa son iguales a 0, es decir, en su conjunto las
variables incluidas en el modelo no aportan nada para explicar la variabilidad de
la dependiente.

𝛽መ2 = 𝛽መ3 = 𝛽መ4 = ⋯ = 𝛽መ𝑘 = 0


¿Cómo se lee el estadístico F?
F  F( ,k , N k 1)  Se rechaza la Hipótesis nula. Las variables en conjunto
ayudan a explicar la variable dependiente. El modelo es válido (F calculado es
mayor al de tablas).

F  F( ,k , N k 1)  Se acepta la Hipótesis nula. Las variables en conjunto no


ayudan a explicar la variable dependiente. El modelo no es válido (F calculado es
menor al de tablas).

α : indica el nivel de significancia de la prueba F


Interpretación de los coeficientes estimados
En los modelos de regresión lineal múltiple, a los coeficientes estimados
para cada una de las variables explicativas se les llama “coeficientes de
regresión parcial” dado que miden el cambio en la variable dependiente
ante un cambio en la variable explicativa, manteniendo lo demás
constante.

Otro aspecto que hay que tomar en consideración es que los coeficientes
de regresión parcial depende de las unidades de medida de la variable
explicativa, por lo que no se puede comparar directamente los coeficientes
de regresión parcial de diferentes variables.
Ejemplo de una
regresión lineal (i)

Comando
en STATA
Ejemplo de una regresión lineal (ii)
Indicadores de ajuste: % de la
varianza explicada. No hay regla fija
depende de lo que otros estudios
hayan encontrado.
haz: Talla para edad (puntaje estandarizado)
q478: Edad del niño (meses)
sexo2: mujer
wi: NSE

Estadístico t que resulta del


ratio entre coeficiente de
regresión y su error estándar.
Regla: valores mayores a 2 en
valor absoluto indican que el
coeficiente es diferente de 0

Intervalo de
Efectos Probabilidad confianza.
marginales o de que tome el Regla: El valor
coeficientes de valor de 0. de 0 no debe
regresión Regla: < 0.05 estar en el
parcial intervalo
Ejemplo de una regresión lineal (iii)

Los efectos marginales o coeficientes de regresión parcial nos indican en cuanto se incrementa la variable
dependiente (desnutrición infantil) ante el incremento de UNA unidad de la variable independiente en el
caso de variables continuas; mientras en el caso de variables independientes cualitativas, indica en cuanto
cambia la dependiente ante un cambio discreto en la variable explicativa (pasar de 0 a 1).

Por ejemplo:
Un incremento en 1 mes en la edad del niño o niña, incrementa el indicador nutricional en 0.004 DE
El hecho de ser mujer hace que tenga 0.04 DE más en el indicador nutricional
Coeficientes Estandarizados
Otro aspecto que resulta relevante es el poder comparar el peso de cada coeficiente en
una regresión. Dado que cada variable puede tener una métrica distinta, los
coeficientes no son directamente comparables; por lo cual, es necesario estandarizar
los coeficientes y la formula es la siguiente:

𝜎𝑋𝑘
𝛽መ𝑆𝑇𝐷𝑋 = 𝛽መ𝑘
𝑘 𝜎𝑌

𝛽መ : es el coeficiente de la regresión parcial


σxk , σy : son las desviaciones estándar de la variable independiente (k) y la variable
dependiente respectivamente.
Coeficientes estandarizados en STATA
Los coeficientes estandarizados me permiten
decir que variable explicativa tiene un mayor
peso para predecir a mi variable dependiente.
Así mismo, la manera de interpretar el
coeficiente es “Una variación en 1 DE de la
variable explicativa, en cuantas DE incrementa a
la variable dependiente.”
Ejercicio práctico
Ejercicio Matricial
Observación Consumo* Ingreso* Inflación Verificar que el
consumo varia en
2009 3 1 8 razón directa del
2010 2 2 15 Ingreso, y en razón
inversa de la Inflación.
2011 4 2.5 10 Es decir, comprobar
que el coeficiente
2012 5 3 9
asociado al Ingreso
2013 5 4 7 tiene signo positivo,
en tanto que el
2014 7 5 6
coeficiente asociado a
2015 6 7 8 la Inflación tiene
signo negativo.
2016 8 8 4
2017 9 9 3
2018 12 15 1
* Miles de millones
Resolviendo el ejercicio (i)
El modelo que se quiere estimar es:

𝐶𝑜𝑛𝑠𝑢𝑚𝑜𝑖 = 𝛽0 + 𝛽1 𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖 + 𝛽2 𝐼𝑛𝑓𝑙𝑎𝑐𝑖𝑜𝑛𝑖 + 𝜇𝑖

𝛽መ = 𝑋 ′ 𝑋 −1 ′
𝑋𝑌

3 1 1 8
2 1 2 15
4 1 2.5 10
5 1 3 9
𝛽0
5 1 4 7
𝑌= 𝑋= 𝛽 = 𝛽1
7 1 5 6
𝛽2
6 1 7 8
8 1 8 4
9 1 9 3
12 1 15 1
Resolviendo el ejercicio (ii)
−1
1 1 8 3
1 2 15 2
1 2.5 10 4
1 3 9 5
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 5 5.8008
1 4 7
𝛽෠ = 1 2 2.5 3 4 5 7 8 9 15 1 2 2.5 3 4 5 7 8 9 15 = 0.4421
1 5 6 7
8 15 10 9 7 6 8 4 3 1 8 15 10 9 7 6 8 4 3 1 6 −0.3097
1 7 8
1 8 4 8
1 9 3 9
1 15 1 12

De esta manera, el modelo estimado es:

෣ 𝑖 = 5.80 + 0.44𝐼𝑛𝑔𝑟𝑒𝑠𝑜𝑖 − 0.31𝐼𝑛𝑓𝑙𝑎𝑐𝑖𝑜𝑛𝑖


𝐶𝑜𝑛𝑠𝑢𝑚𝑜
Resolviendo el ejercicio (iii)
3 3.765 −0.765
2 2.039 −0.039
4 3.809 0.191
5 4.340 0.660
෣ 𝑖 5 5.401 −0.401
𝜇ො = 𝐶𝑜𝑛𝑠𝑢𝑚𝑜𝑖 − 𝐶𝑜𝑛𝑠𝑢𝑚𝑜 = − =
7 6.153 0.847
6 6.418 −0.418
8 8.099 −0.099
9 8.851 0.149
12 12.124 −0.124
Resolviendo el ejercicio (iv)
Ahora estimo la varianza de los errores
−0.765
−0.039
0.191
0.660
−0.401
−0.765 −0.039 0.191 0.660 −0.401 0.847 −0.418 −0.099 0.149 −0.124
0.847
−0.418
−0.099
0.149
𝑈෡′𝑈

2
𝜎ො = = −0.124 = 0.309
𝑛−𝑘−1 10 − 2 − 1
Resolviendo el ejercicio (v)
Ahora estimo la matriz de varianzas y covarianzas de los parámetros estimados:

𝑉 𝛽መ = 𝜎ො 2 𝑋 ′ 𝑋 −1

−1
10 56.5 71 0.953 −0.069 −0.075
𝑉 𝛽መ = 0.309 56.5 480.5 278 = −0.069 0.006 0.005
71 278 645 −0.075 0.005 0.007
Usando Matrices en STATA
Definimos la dependiente y las explicativas Definimos la dependiente y las explicativas
mat X=(1,1,8 \ 1,2,15 \ 1,2.5,10 \ 1,3,9 \ 1,4,7 \ 1,5,6 \ 1,7,8 mat X=(1,1,8 \ 1,2,15 \ 1,2.5,10 \ 1,3,9 \ 1,4,7 \ 1,5,6
\ 1,8,4 \ 1,9,3 \ 1,15,1)
mat Y=(3\2\4\5\5\7\6\8\9\12)
\ 1,7,8 \ 1,8,4 \ 1,9,3 \ 1,15,1)
matrix list X Y mat Y=(3\2\4\5\5\7\6\8\9\12)
matrix list X Y
Estimo los parámetros
mat XT=X’ Estimo los parámetros
mat XTX=XT*X mat B=inv(X’X)*X’*Y
mat XTX_I=inv(XTX)
mat B=XTX_I*XT*Y matrix list B
matrix list B
Estimo la matriz de varianzas y covarianzas
Estimo la matriz de varianzas y covarianzas mat U=Y-XB
mat U=Y-XB mat VCM=((U’*U)*(1/7)*inv(X’*X)
mat UT=U´
mat UTU=UT*U matrix list VCM
mat S2=UTU/(10-3)
mat VCM=S2*XTX_I
matrix list VCM
Ver la plantilla para la estimación en
Excel del modelo
Haciendo la
estimación de los
parámetros usando
el paquete
estadístico
Y que hay de la matriz Hessiana?
En el modelo bivariado, se procedió a estimar la matriz de segunda derivadas; en el
modelo de k variables hacemos lo mismo.

𝜕 2 𝑆𝑅𝐶(𝛽) ′𝑋
= 𝑋
𝜕𝛽𝜕𝛽′

Sabemos que la matriz X es una matriz donde cada columna es linealmente


independiente entre si, entonces el producto de dicha matriz (𝑋 ′ 𝑋) es definida
positiva.
Supuestos adicionales
Agregamos tres supuestos adicionales
 No existe correlación entre las variables explicativas y el termino
de error

 No existe colinealidad perfecta

 El modelo está perfectamente identificado


No existe correlación entre las explicativas y el
error
Este supuesto no es nuevo; sin embargo, en el modelo de regresión lineal simple
solo se trabajaba con una explicativa. Para demostrar este supuesto con k
variables, se tiene lo siguiente:

෡ = 0k
X′U
෡ = X ′ Y − Xβ෠ = X ′ Y − X ′ Xβ෠
X′U
෡ = X ′ Y − X ′ X(X ′ X)−1 X ′ Y
X′U
X′U෡ = X′Y − X′Y
෡ = Ok
X′U
No existe colinealidad perfecta entre explicativas
Lo que indica este supuesto es que no existe una relación lineal exacta entre las variables explicativas
usadas en el modelo. En otras palabras:

No existe γ1 y γ2 , al menos uno diferente de


cero, que cumpla la siguiente ecuación.
𝛾1 𝑋2𝑖 + 𝛾2 𝑋3𝑖 = 0

Si existe colinealidad perfecta entre dos explicativas del modelo de regresión múltiple, no es posible
invertir la matriz X ′ X y por ende estimar los parámetros del modelo.

Sin embargo, este supuesto no dice que no pueden estar correlacionadas sino que esta no puede ser
perfecta es decir ρX2X3=1
El modelo esta perfectamente identificado
Se debe incluir en el modelo de regresión todas las variables explicativas relevantes. En caso el
modelo no este perfectamente identificado o que se hayan omitido variables relevantes, entonces, el
estimador de β seria sesgado.

E β෠ ≠ β

Supongamos que X4i sea una variable omitida; es decir:


Se estima: 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝜇𝑖
Se debió haber estimado: 𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝛽4 𝑋4𝑖 + 𝜇𝑖

Entonces, al no poder incluir X4i en la regresión, le estamos atribuyendo a X2i y X3i parte del efecto que
tiene X4i sobre Y.
A manera de balance, los supuestos son:
 El modelo de regresión es lineal en los parámetros.
 Esperado de los errores igual a 0
 Los errores tienen una varianza constante.
 Los errores no tienen autocorrelación serial; es decir, no existe correlación entre los errores de
diferentes periodos de tiempo.
 No existe correlación entre las variables explicativas y los errores.
 No existe colinealidad perfecta entre las variables explicativas incluidas en el modelo
 El modelo esta perfectamente identificado
 El número de observaciones debe ser mayor al número de parámetros a estimar
 El término de error debe estar normalmente distribuido
Teorema de Gauss Markov
¿En qué consiste el teorema de Gauss Markov?
En los modelos de regresión lineal, si los errores se distribuyen de forma normal, el 𝛽መ obtenido a través de MCO
es el más eficiente (mínima varianza) o el Mejor Estimador Lineal Insesgado (MELI) de todos los estimadores
lineales de la forma AY.

Asumamos que existe un estimador alternativo a 𝛽መ y es 𝛽,


෨ el cual es lineal e insesgado y se representa de la
siguiente manera:
𝛽෨ = 𝐴𝑌, 𝑑𝑜𝑛𝑑𝑒 𝐴 = (𝑋 ′ 𝑋)−1 𝑋 ′ + 𝐶 ′

Donde el estimador sigue siendo lineal y C es una matriz n x k:

𝛽෨ = 𝑋 ′𝑋 −1 𝑋 ′ + 𝐶 ′ 𝑌 = 𝑋 ′𝑋 −1 𝑋 ′ 𝑌 + 𝐶 ′𝑌
Veamos la insesgadez y la varianza del estimador
𝛽෨ = 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑌 + 𝐶 ′𝑌
Reemplazo
𝛽෨ = 𝑋 ′ 𝑋 −1 𝑋 ′ [𝑋𝛽 + 𝑈] + 𝐶 ′ [𝑋𝛽 + 𝑈]
𝛽෨ = 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑋𝛽 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈 + 𝐶 ′ 𝑋𝛽 + 𝐶 ′ 𝑈 = 𝛽 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈 + 𝐶 ′ 𝑋𝛽 + 𝐶 ′ 𝑈
𝛽෨ = 𝛽 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈 + 𝐶 ′ 𝑋𝛽 + 𝐶 ′ 𝑈
Ahora tomo el valor esperado y para que el estimador sea insesgado, se toma el supuesto que C’X debe ser igual a 0.
𝐸 𝛽෨ = 𝛽 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝐸 𝑈 + 𝐶 ′ 𝑋𝛽 + 𝐶 ′ 𝐸 𝑈 = 𝛽 + 𝐶 ′ 𝑋𝛽 = 𝛽

Estimamos la varianza:
𝑉𝑎𝑟 𝛽෨ = 𝐸 𝛽෨ − 𝐸(𝛽)
෨ 𝛽෨ − 𝐸(𝛽)෨ ′ = 𝐸 ( 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈 + 𝐶 ′ 𝑈)( 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈
+ 𝐶 ′ 𝑈)′
𝑉𝑎𝑟 𝛽෨ = 𝐸 ( 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈 + 𝐶 ′ 𝑈)(𝑈 ′ 𝑋(𝑋 ′ 𝑋)−1 + 𝑈 ′ 𝐶)
𝑉𝑎𝑟 𝛽෨ = 𝐸 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈𝑈 ′ 𝑋(𝑋 ′ 𝑋)−1 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑈𝑈 ′ 𝐶 + 𝐶 ′ 𝑈𝑈 ′ 𝑋(𝑋 ′ 𝑋)−1 + 𝐶 ′ 𝑈𝑈 ′ 𝐶
𝑉𝑎𝑟 𝛽෨ = 𝑋 ′ 𝑋 −1 𝑋 ′ 𝐸(𝑈𝑈 ′ )𝑋(𝑋 ′ 𝑋)−1 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝐸(𝑈𝑈 ′ )𝐶 + 𝐶 ′ 𝐸(𝑈𝑈 ′ )𝑋(𝑋 ′ 𝑋)−1 + 𝐶 ′ 𝐸(𝑈𝑈 ′ )𝐶
¿En qué consiste el teorema de Gauss Markov? (iii)
𝑉𝑎𝑟 𝛽෨ = 𝑋 ′ 𝑋 −1 𝑋 ′ 𝐸(𝑈𝑈 ′ )𝑋(𝑋 ′ 𝑋)−1 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝐸(𝑈𝑈 ′ )𝐶 + 𝐶 ′ 𝐸(𝑈𝑈 ′ )𝑋(𝑋 ′ 𝑋)−1 + 𝐶 ′ 𝐸(𝑈𝑈 ′ )𝐶
𝑉𝑎𝑟 𝛽෨ = 𝑋 ′ 𝑋 −1 𝑋 ′ 𝜎 2 𝐼𝑋(𝑋 ′ 𝑋)−1 + 𝑋 ′ 𝑋 −1 𝑋 ′ 𝜎 2 𝐼𝐶 + 𝐶 ′ 𝜎 2 𝐼𝑋(𝑋 ′ 𝑋)−1 + 𝐶 ′ 𝜎 2 𝐼𝐶
𝑉𝑎𝑟 𝛽෨ = 𝜎 2 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑋(𝑋 ′ 𝑋)−1 + 𝜎 2 𝑋 ′ 𝑋 −1 𝑋 ′ 𝐶 + 𝜎 2 𝐶 ′ 𝑋(𝑋 ′ 𝑋)−1 + 𝜎 2 𝐶′𝐶
𝑉𝑎𝑟 𝛽෨ = 𝜎 2 𝑋 ′ 𝑋 −1 𝑋 ′ 𝑋(𝑋 ′ 𝑋)−1 + 𝜎 2 𝑋 ′ 𝑋 −1 (𝐶 ′ 𝑋)′ + 𝜎 2 𝐶 ′ 𝑋(𝑋 ′ 𝑋)−1 + 𝜎 2 𝐶′𝐶

Recordar que asumimos que C’X=0


𝑉𝑎𝑟 𝛽෨ = 𝜎 2 [(𝑋 ′ 𝑋)−1 + 𝐶 ′ 𝐶]

𝑉𝑎𝑟 𝛽෨ = 𝜎 2 (𝑋 ′ 𝑋)−1 + 𝜎 2 𝐶 ′ 𝐶


𝑉𝑎𝑟(𝛽)

Se tiene que 𝜎 2 𝐶 ′ 𝐶 debe ser negativo para que tenga menor varianza; sin embargo tanto σ2 y C’C son valores positivos, entonces:
𝑉𝑎𝑟 𝛽෨ > 𝑉𝑎𝑟 𝛽෠

Con esto se demuestra que la varianza del estimador de MCO es el de varianza mínima.
Test de Hipótesis de los
coeficientes estimados
Ahora queremos hacer pruebas de hipótesis de
más de un coeficiente estimado de forma conjunta
A manera de ejemplo si tenemos el siguiente modelo:

ln 𝑝𝑟𝑜𝑑𝑢𝑐𝑡𝑜 = 𝛽0 + 𝛽1 ln(𝑐𝑎𝑝𝑖𝑡𝑎𝑙)𝑖 + 𝛽2 ln(𝑡𝑟𝑎𝑏𝑎𝑗𝑜)𝑖 + 𝜇𝑖

Dada la ecuación anterior, si quisiéramos hacer la prueba de hipótesis que la empresa cuenta con
rendimientos constantes a escala, deberíamos probar estadísticamente que:

𝛽መ1 + 𝛽መ2 = 1

Para lo cual deberíamos de imponer una restricción lineal y testear si se cumple o no la hipótesis.
Contraste conjunto de Hipótesis (i)
Expresión matricial de las restricciones a contrastar del modelo de
regresión múltiple: Rβ=r

Donde “R” es una matriz que indica los coeficientes asociados a los
parámetros estimados y el vector “r” indica los valores que queremos
contrastar de los parámetros o de la combinación lineal de los mismos.

Así, la Ho a contrastar es Rβ=r donde R va ser una matriz qxk donde q es el


número de hipótesis a contrastar y k el total de parámetros estimados.
Contraste conjunto de Hipótesis (ii)
Para contrastar este conjunto de hipótesis lineales respecto a los coeficientes estimados, se tiene
que 𝛽መ se distribuye N(β,σ2(X’X)-1), entonces si queremos testear uno o un grupo de coeficientes
necesitamos de una vector fila R que nos permita seleccionar el coeficiente a evaluar y el vector
columna “r” con las hipótesis que se plantean.

Luego, la matriz R𝛽መ se distribuye como N(Rβ, σ2R(X’X)-1R’). El multiplicar a la matriz de varianzas
y covarianzas de los parámetros estimados por el vector R y R’, nos permite seleccionar para las
pruebas de hipótesis, la varianza asociada al parámetro o parámetros a evaluar. Cabe recordar
que la matriz R tendrá tantas filas como restricciones lineales hagamos.

Si planteamos la Ho: Rβ=r; entonces, el vector R𝛽መ se distribuye de la siguiente manera N(r,
σ2R(X’X)-1R’).
Contraste conjunto de Hipótesis (iii)
መ se distribuye de la
Luego, si la hipótesis que planteamos es verdadera (Rβ=r), entonces R𝛽-r
siguiente manera N(0, σ2R(X’X)-1R’).

Luego, el estadístico a testear es



(R𝛽-r)´(Var(R መ -1(R𝛽-r)
𝛽-r)) መ

Reemplazando la varianza tenemos



(R𝛽-r)´(σ መ
2R(X’X)-1R’)-1(R𝛽-r)

Así, este estimador se distribuye como una chi-cuadrado con q grados de libertad que es el test o
criterio de Wald.
Contraste conjunto de Hipótesis (iv)
Como vimos anteriormente, dado que el σ2 es desconocido, se usa los residuos del modelo
estimado como estimador de la varianza de los errores. Así, al reemplazar se tiene lo
siguiente:



𝑅𝛽 − 𝑟 [𝑅 𝑋 ′ 𝑋 −1 𝑅 ′ ]−1 𝑅𝛽መ − 𝑟 / q
𝐹𝑞,𝑁−𝑘−1 =
෡𝑈
𝑈′ ෡
𝑁−𝑘−1

Así, el estadístico anterior se distribuye como una F de Fisher con grados de libertad q y N-k-
1 (Recordar que q es el número de restricciones lineales).
A manera de ejemplo (i)
Se tiene el siguiente modelo:
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝛽4 𝑋4𝑖 + 𝛽5 𝑋5𝑖 + 𝜇𝑖

Testear la siguiente Ho: β2=0, β4=-1,β5=3.10

En el ejemplo anterior tenemos 3 restricciones y por ende la matriz R será de orden 3 x 5 y el


vector r será 3 x 1.

0 1 0 0 0 0
R= 0 0 0 1 0 r= −1
0 0 0 0 1 3.10
A manera de ejemplo (ii)
Se tiene el siguiente modelo:
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝛽4 𝑋4𝑖 + 𝛽5 𝑋5𝑖 + 𝜇𝑖

Testear la siguiente Ho: -7β3-β5=12, β4+ β1 =0, 3β5-β2=6

En el ejemplo anterior tenemos 3 restricciones y por ende la matriz R será de orden 3 x 5 y el


vector r será 3 x 1.

0 0 −7 0 −1 12
R= 1 0 0 1 0 r= 0
0 −1 0 0 3 6

Se esta asumiendo que todas las restricciones son lineales


Contrastar la Ho que 𝜷𝟑 + 𝟐𝜷𝟐 = 𝟑 (i)
𝑌𝑖 = 𝛽1 + 𝛽2 𝑋2𝑖 + 𝛽3 𝑋3𝑖 + 𝛽4 𝑋4𝑖 + 𝜇𝑖

Se cuenta con la siguiente información:

5 −3 2 0 3
−3 6 − 2 − 4 2
(X ′ X)−1 = y X′Y = , Y’Y=80 y N=90
2 −2 4 3 1
0 −4 3 4 2

𝑌𝑖 = 11 − 7𝑋2𝑖 + 12𝑋3𝑖 + 3𝑋4𝑖


(1.6) (1.7) (1.4) (1.4) Errores estándar
Resolución
Y ෠ ′ X ′ Y 80 − 37
′Y − β
ෝ2 =
σ = = 0.5
N−k−1 86

R= 0 2 1 0 y r = 3;

entonces R(X ′ X)−1 R′ = 20 y Rβ෠ − r = −5

Reemplazando en la formula:

′ −5 1/20 − 5
𝑅𝛽መ − 𝑟 [𝜎ො 2 𝑅 𝑋 ′ 𝑋 −1 𝑅 ′ ]−1 𝑅𝛽መ − 𝑟 = = 2.5
0.5

El valor de tablas del F1,86 al 95% es 3.95, vemos así que el valor calculado es menor al de tablas,
entonces aceptamos la nula y 𝛽3 + 2𝛽2 = 3
Ejemplos para poder hacer el test de Wald en
STATA: 𝑯𝑨𝒁𝒊 = 𝜷𝟏 + 𝜷𝟐𝑬𝑫𝑼𝑪𝒊 + 𝜷𝟑𝑵𝑺𝑬𝒊 + 𝜷𝟒𝑷𝑬𝑺𝑶_𝑵𝒊 + 𝝁𝒊
𝑯𝒐 = 𝜷𝟐 = 𝜷𝟑 = 𝟎 𝑯𝒐 = 𝜷𝟐 = 𝜷𝟑 = 𝜷𝟒 = 𝟎

regress haz educ nse peso_n regress haz educ nse peso_n
test educ nse test educ nse peso_n

Este es el caso especial y el test de


Wald es igual al F test de significancia
conjunta de todas las variables
Ejemplos en STATA
TEST DE WALD
Se puede apreciar que al contrastar
que todos los coeficientes son iguales
a 0, el F estadístico del test es similar al
F estadístico de ajuste global del
modelo.

Si el F estimado es mayor al valor de


tablas, se rechaza la Ho y en caso
contrario se acepta.

En los ejercicios cada restricción evalúa


un solo coeficiente estimado a la vez.

En caso se quiera obtener el valor del F


de tablas, se puede escribir lo
siguiente en STATA

di invFtail(gl num, gl den, n. sig.)

En ambos casos se rechaza la hipótesis


nula.
En los ejercicios cada restricción
evalúa una combinación lineal de
los coeficientes estimados.

En caso se quiera obtener el valor


del F de tablas, se puede escribir
lo siguiente en STATA

En ambos caso se rechaza la


hipótesis nula.
Otra forma de realizar las
pruebas de hipótesis
Contrastes de hipótesis usando la suma de los
residuos (i)
Este es un procedimiento alternativo para contrastar una serie de restricciones lineales donde no
se utiliza los coeficientes estimados, a diferencia del test usado anteriormente.

La idea es usar la suma de residuos al cuadrado del modelo estimado dos veces. En primer lugar,
se estima el modelo sin las restricciones lineales y luego se estima el modelo con las restricciones
lineales.
Contrastes de hipótesis usando la suma de los
residuos (ii)
Los pasos a seguir son:

i) Se estima el modelo sin las restricciones lineales (SR) a los coeficientes y se guardan los residuos al
cuadrado del modelo.

ii) Se estima el modelo con las restricciones lineales (CR) a los coeficiente y se guardan los residuos al
cuadrado del modelo.

iii) Luego, se construye el estadístico F en base a la suma de residuos al cuadrado de ambos modelos:

(𝑆𝑅𝐶𝐶𝑅 − 𝑆𝑅𝐶𝑆𝑅 ) q=número de restricciones lineales


𝑞 n=número de observaciones
𝐹𝑞,𝑛−𝑘−1 = k=número de variables explicativas sin
𝑆𝑅𝐶𝑆𝑅
𝑛−𝑘−1 incluir la constante
Caso especial del contraste de sumas residuales
Cuando se asume que todos los coeficientes estimados de las explicativas son iguales a 0 [q=k], tenemos lo
siguiente:

(𝑆𝑅𝐶𝐶𝑅 − 𝑆𝑅𝐶𝑆𝑅 )
𝑞
𝐹𝑞,𝑛−𝑘 =
𝑆𝑅𝐶𝑆𝑅
𝑛−𝑘−1

(𝑆𝑅𝐶𝑌 − 𝑆𝑅𝐶𝑆𝑅 )
𝐹𝑞,𝑛−𝑘 = 𝑘
𝑆𝑅𝐶𝑆𝑅
𝑛−𝑘−1

𝑆𝐶𝐸 𝑅2
𝑘 𝑘 k=número de variables
𝐹𝑞,𝑛−𝑘 = = explicativas en el modelo sin
𝑆𝑅𝐶𝑆𝑅 (1 − 𝑅2 )
𝑛−𝑘−1 𝑛−𝑘−1 incluir la constante
Ejemplos en STATA
SUMA DE RESIDUOS AL CUADRADO
Se estima el modelo sin restricciones y el
modelo con restricciones. No importa el orden.

De ahí se guardan la SCR que lo da la tabla en la


esquina superior izquierda de la regresión en el
STATA: “Residual”

Datos obtenidos
SCRSR=5465
SCRCR=6373
q=2
n=7111
k=3

Aplicando la formula

F2,7107=[(6373-5465)/2] / [5465/7107]
F2,7107=590.4
F2,7107,5%=3.00
En STATA: di invFtail(gl num, gl den, n. sig.)
Fcalculado>Ftablas Rechaza la hipótesis nula

También podría gustarte