100% encontró este documento útil (2 votos)
996 vistas97 páginas

Econometria Aplicada Utilizando R

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
100% encontró este documento útil (2 votos)
996 vistas97 páginas

Econometria Aplicada Utilizando R

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

ECONOM

ETRÍA
APLICADA
UTILIZANDO R

Luis Quintana
Romero Miguel
Ángel Mendoza
Coordinadores
1

ECONOME
TRÍA
APLICADA
UTILIZANDO R

Luis Quintana Romero y Miguel Ángel


Mendoza Coordinadores

ECONOMET
RÍA APLICADA
UTILIZANDO R

Javier Galán Figueroa

Jorge Feregrino Feregrino


Lucía A. Ruíz
Galindo

Luis Quintana
Romero

Miguel Ángel Mendoza


González

Roldán Andrés
Rosales

Luis Quintana Romero y Miguel Ángel


Mendoza Coordinadores

Econometría aplicada utilizando


R

Coordinado por Luis Quintana Romero


y

Miguel Ángel Mendoza


González

Portada: D. G. Rocío Borrayo

Primera edición, marzo


2016

D.R. © Universidad Nacional Autónoma de México


Ciudad Universitaria, Delegación Coyoacán, C.P.
04510, México, D.F.

D.R. © Facultad de Estudios Superiores


Acatlán
Av. Alcanfores y San Juan Tototoltepec s/n, C.P.
53150, Naucalpan de Juárez, Estado de México.

Prohibida la reproducción total o parcial por cualquier medio sin la autorización


escrita del titular de los derechos patrimoniales.

El libro electrónico Econometría aplicada utilizando R fue financiado con recursos


PAPIME de la Dirección General de Asuntos del Personal Académico (DGAPA) de
la Universidad Nacional Autónoma de México: PE302513 Libro electrónico y
complementos didácticos en medios computacionales, para el fortalecimiento en
la enseñanza de la econometría. Se encuentra disponible de manera libre en el
sitio [Link]

ISBN EBook: En
trámite

Hecho en
México

Contenid
o

INTRODUCCIÓN ...................................................................................................................
.............. 10

CAPITULO 1: LA ECONOMETRÍA: SUS USOS Y APLICACIONES EN


R .................................................. 15

1. ¿QUÉ ES LA
ECONOMETRIA? ..................................................................................................... 15

2. LA METODOLOGÍA
ECONOMÉTRICA ......................................................................................... 17

3. EL MODELO
ECONOMÉTRICO ................................................................................................... 20

4. ECONOMETRÍA APLICADA Y
R ................................................................................................... 22

5. ALGUNOS DESARROLLOS EN R QUE FACILITAN EL USO DE LA ECONOMETRÍA


........................ 34

REFERENCIAS ..................................................................................................................
............... 43

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO ............................................................................ 44

MATERIAL DE APRENDIZAJE EN
LÍNEA .......................................................................................... 44

CAPÍTULO 2: ENFOQUE MATRICIAL DE LA REGRESIÓN


LINEAL......................................................... 45

1. EL MODELO
MATRICIAL ............................................................................................................. 45

2. ANÁLISIS EXPLORATORIO DE LOS


DATOS .................................................................................. 47

3. ESTIMACIÓN POR MINIMOS CUADRADOS


ORDINARIOS .......................................................... 51

REFERENCIAS ..................................................................................................................
............... 55

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO ............................................................................ 55

MATERIAL DE APRENDIZAJE EN
LÍNEA .......................................................................................... 56

CAPITULO 3: EL MODELO DE REGRESIÓN


MÚLTIPLE ........................................................................ 57

1. ESPECIFICACIÓN DEL MODELO DE REGRESIÓN


MÚLTIPLE ................................................... 57

2. ESTIMACIÓN DE LOS COEFICIENTES DE


REGRESIÓN ................................................................. 62

3. LAS PROPIEDADES DE LOS


ERRORES ........................................................................................ 69

4. PRUEBAS DE
DIAGNÓSTICO ...................................................................................................... 75

5. UN EJEMPLO FINAL EN
R ........................................................................................................... 77

REFERENCIAS ..................................................................................................................
............... 82

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO ............................................................................ 82

MATERIAL DE APRENDIZAJE EN
LÍNEA .......................................................................................... 82

CAPITULO 4: ERROR DE
ESPECIFICACIÓN .......................................................................................... 83

1.
INTRODUCCIÓN ...............................................................................................................
.......... 83

5
2. ESPECIFICACIÓN Y SUPUESTOS DEL MODELO GENERAL DE REGRESIÓN
LINEAL ...................... 85

3. SOBREPARAMETRIZACIÓN Y SUBPARAMETRIZACIÓN, CONSECUENCIAS


SOBRE LAS PROPIEDADES DE LOS
ESTIMADORES ........................................................................................... 87

4. PRUEBA
RESET ...........................................................................................................................
89

5. PRUEBA RESET EN
R .................................................................................................................. 90

REFERENCIAS ..................................................................................................................
............... 93

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO ............................................................................ 94

MATERIAL DE APRENDIZAJE EN
LÍNEA .......................................................................................... 94

CAPITULO 5:
NORMALIDAD............................................................................................................... 95

1.
INTRODUCCIÓN ...............................................................................................................
.......... 95

2. MODELO GENERAL DE REGRESIÓN


LINEAL ............................................................................... 96

3. IMPORTANCIA DE LA DISTRIBUCIÓN NORMAL EN LA INFERENCIA


ESTADÍSTICA ..................... 99

4. PRUEBA DE NORMALIDAD DE JARQUE-


BERA ......................................................................... 109

5. PRUEBA JARQUE-BERA EN
R ................................................................................................... 110

6. CAUSAS E IMPLICACIONES DE LA NO NORMALIDAD Y POSIBLES


SOLUCIONES ...................... 114

7.
CONCLUSIONES ..............................................................................................................
......... 114

REFERENCIAS ..................................................................................................................
............. 115

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO .......................................................................... 116

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 116

CAPÍTULO 6:
MULTICOLINEALIDAD ................................................................................................. 117

1. LA MULTICOLINEALIDAD UN PROBLEMA DE
GRADO.............................................................. 117

2. PRUEBAS PARA LA DETECCIÓN DE


MULTICOLINEALIDAD ...................................................... 121

3. UN EJEMPLO PRÁCTICO EN LA DETECCIÓN DE MULTICOLINEALIDAD EN R


CON LA FUNCIÓN CONSUMO PARA
MÉXICO ........................................................................................................... 124

4. SOLUCIONES AL PROBLEMA DE LA
MULTICOLINEALIDAD ...................................................... 133

REFERENCIAS ..................................................................................................................
............. 138

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO .......................................................................... 139

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 139

CAPÍTULO 7:
HETEROCEDASTICIDAD .............................................................................................. 140

1.
INTRODUCCIÓN ...............................................................................................................
........ 140

2. ESTRATEGIAS PARA REALIZAR ESTIMACIONES EN PRESENCIA DE


HETEROCEDASTICIDAD .... 141

3. LAS CAUSAS DE LA
HETEROCEDASTICIDAD ............................................................................. 144

4. CONTROL Y DETECCIÓN DE LA
HETEROCEDASTICIDAD .......................................................... 145

5. EJEMPLO EN
R ......................................................................................................................... 150

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO .......................................................................... 156

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 156

CAPÍTULO 8: AUTOCORRELACIÓN
SERIAL ....................................................................................... 157

1.
INTRODUCCIÓN ...............................................................................................................
........ 157

2. DETECCIÓN DE LA
AUTOCORRELACIÓN .................................................................................. 158

3. PROCEDIMIENTO PARA LA DETECCIÓN DE LA AUTOCORRELACIÓN EN R-


STUDIO ................. 162

REFERENCIAS ..................................................................................................................
............. 173

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO .......................................................................... 173

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 173

CAPITULO 9: ANALISIS DE INTEGRACION: APLICACIONES EN SOFTWARE R


................................... 174

1.
INTRODUCCION ...............................................................................................................
........ 174

2. ANALISIS DE
INTEGRACIÓN ..................................................................................................... 174

3. APLICACIONES EN
R ................................................................................................................. 182

REFERENCIAS ..................................................................................................................
............. 207

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO .......................................................................... 207

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 207

CAPÍTULO 10: COINTEGRACIÓN Y MODELOS DE CORRECCION DE


ERROR ..................................... 208

1
INTRODUCCIÓN ...............................................................................................................
......... 208

2 EL CONCEPTO DE
COINTEGRACIÓN ......................................................................................... 209

3. PRUEBA DE COINTEGRACIÓN DE ENGLE Y


GRANGER ............................................................. 211

4. ANÁLISIS DE COINTEGRACIÓN DE PHILLIPS-


OULIARIS ............................................................ 224

5. MODELO DE CORRECCIÓN DE
ERROR ..................................................................................... 229

6. COINTEGRACIÓN CON METODOLOGÍA DE JOHANSEN Y


JOSELIUS ......................................... 233

REFERENCIAS ..................................................................................................................
............. 243

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO .......................................................................... 243

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 244

CAPÍTULO 11: MODELOS


VAR ......................................................................................................... 245

1.
INTRODUCCIÓN ...............................................................................................................
........ 245

2. CARACTERÍSTICAS DEL MODELO


VAR ..................................................................................... 246

3. UN CASO PARA LA ECONOMÍA


MEXICANA ............................................................................. 248

7
REFERENCIAS ..................................................................................................................
............. 270

ARCHIVO DE DATOS ASOCIADO AL


CAPÍTULO ............................................................................ 271

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 271

CAPÍTULO 12: MODELOS


ARCH ....................................................................................................... 272

1. RIESGO Y
VOLATILIDAD .......................................................................................................... 272

2. PROCESOS
ARCH ...................................................................................................................... 273

3. VARIANTES DE LOS MODELOS


ARCH ....................................................................................... 277

4. UNA APLICACIÓN DEL MODELO ARCH EN


R............................................................................ 278

REFERENCIAS ..................................................................................................................
............. 293

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO .......................................................................... 294

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 294

CAPITULO 13: MODELOS LOGIT Y


PROBIT ...................................................................................... 295

1. LA IMPORTANCIA DE LAS VARIABLES


CATEGÓRICAS .............................................................. 295

2. MODELOS LOGIT Y
PROBIT ...................................................................................................... 297

3. APLICACIONES EN
R ................................................................................................................. 303

REFERENCIAS ..................................................................................................................
............. 308

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO .......................................................................... 308

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 308

CAPITULO 14: MODELOS PANEL Y SUS APLICACIONES EN R


.......................................................... 309

1.
INTRODUCCION ...............................................................................................................
........ 309

2. MODELO PANEL ESTÁTICO


GENERAL ...................................................................................... 310

3. ELECCIÓN DE MODELOS
ALTERNATIVOS ................................................................................ 314

4. RESULTADOS DE LOS MODELOS ECONOMÉTRICOS PANEL CON EL PAQUETE


PLM DE R. ...... 315

REFERENCIAS ..................................................................................................................
............. 328

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO .......................................................................... 329

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 329

CAPÍTULO 15: ECONOMETRÍA ESPACIAL Y SUS APLICACIONES EN


R .............................................. 330

1.
INTRODUCCION ...............................................................................................................
........ 330

2. VECINDAD Y DEPENDENCIA
ESPACIAL .................................................................................... 332

3. ESTADÍSTICOS DE DEPENDENCIA
ESPACIAL ............................................................................ 344

4. MODELOS
ESPACIALES ............................................................................................................ 360

REFERENCIAS ..................................................................................................................
............. 382

8
ARCHIVOS DE DATOS ASOCIADO AL
CAPÍTULO .......................................................................... 383

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 383

CAPÍTULO 16: REPASO BÁSICO DE ESTADÍSTICA Y ÁLGEBRA


MATRICIAL ....................................... 384

1.
INTRODUCCIÓN ...............................................................................................................
........ 384

2. REVISIÓN DE LOS
DATOS ......................................................................................................... 384

3. VARIABLE
ALEATORIA .............................................................................................................. 396

4. BREVE REPASO DE ÁLGEBRA DE


MATRICES ............................................................................ 414

REFERENCIAS ..................................................................................................................
............. 443

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO .......................................................................... 444

MATERIAL DE APRENDIZAJE EN
LÍNEA ........................................................................................ 444

LISTA DE
AUTORES ..........................................................................................................................
445
9

INTRODUCCIÓ
N

En este libro de texto los usuarios encontraran una vía práctica para mejorar su

comprensión de la econometría, al utilizar aplicaciones a su realidad social,

emplear las fuentes de información disponibles en el país y disponer de un


formato

tecnológico en el que pueden aplicar los conocimientos adquiridos, poner en

práctica propuestas propias y realizar trabajo de investigación por su cuenta

haciendo uso de medios tecnológicos de uso


masivo.

Los capítulos de este libro de texto tienen como eje común la aceptación de que

en los últimos veinte años se ha dado una revolución en las técnicas

econométricas y en sus aplicaciones. En buena parte estos cambios provienen del

reconocimiento de que el paradigma clásico, que actualmente aún predomina en

la mayoría de los libros de texto, fue sustentado en supuestos muy discutibles. Los

cuestionamientos a la metodología econométrica clásica se desprenden del

trabajo de Box y Jenkins (1970) en series de tiempo; Davidson, Hendry, Srba y

Yeo (1978) que desarrollaron la idea de modelos de corrección de error (MCE) y

que actualmente su propuesta se reconoce como metodología LSE (London

School of Economics) o DHDY (por las iniciales de sus autores); los numerosos

trabajos de Engle y Granger a partir de los años ochenta en donde se vincula el

concepto de cointegración a los MCE; el trabajo del mismo Engle (1982) que dio

lugar a los modelos ARCH (heterocedasticidad condicional autorregresiva), los


cuales han tenido un gran impacto en el análisis econométrico aplicado al mundo

de las finanzas; Los desarrollos de finales de los años noventa en el campo de la

Econometría Espacial impulsados por Anselin (1988) y; un sin número de artículos

que inspirados en estos trabajos pioneros han cambiado la forma de pensar y

hacer econometría en la
actualidad.

1
0
El reto de este libro es ofrecer a los lectores un enfoque aplicado con el fin de

comprender esos nuevos desarrollos en el campo de la econometría y

proporcionarles las herramientas teóricas y las técnicas necesarias para su

aplicación al estudio de la realidad económica


mexicana.

Los libros de texto de econometría que se están publicando recientemente, tanto

en Europa como en los Estados Unidos, se vinculan a paquetes computacionales

de elevado costo comercial como el EViews, STATA y Microfit, entre otros. Sin

embargo, actualmente se ha desarrollado software de uso libre que ha adquirido

una gran difusión mundial, uno de ellos es el R, el cual se ha venido utilizando

para la modelación econométrica con mucho


éxito.

Por tal razón, el presente libro de texto de econometría tiene la peculiaridad de

que utiliza ampliamente los desarrollos disponibles libremente en R, además de

priorizar la aplicación de los temas que se desarrollan en sus diferentes capítulos.

En cada uno de los capítulos del libro se muestran las bases del método o técnica
econométrica de que se trate y se aplica inmediatamente al estudio de algún tema

relevante de la economía mexicana actual o de otros


países.

Los capítulos que conforman este libro presentan un nivel introductorio de cada

uno de los temas que se abordan y se priorizan las aplicaciones en R, por lo cual

debe considerarse como un libro de econometría básica aplicada. Se ha dejado

fuera del texto el tema de los modelos de series de tiempo, ya que por la amplitud

de ese tema se requiere de un libro adicional, mismo que ya se encuentra en

proceso de preparación con el fin de complementar a la presente


obra.

Debemos señalar que este libro de texto forma parte de la producción y edición de

tres materiales educativos en el campo de la econometría. Los materiales

consisten de un libro electrónico (ebook) de texto, un curso en línea y aplicaciones

electrónicas
didácticas.

Estos materiales están destinados a profesores y alumnos. En el caso de los

profesores es posible emplear el texto electrónico y el curso en línea para los

1
1
cursos de actualización del personal docente en econometría. Los profesores

pueden utilizar los materiales en la impartición de cursos a nivel licenciatura, ya

que los materiales se diseñan de acuerdo a los contenidos de los programas

curriculares de econometría y de métodos de pronóstico en diferentes

licenciaturas, resolviendo con ello el déficit existente de material actualizado, en

español, en soportes electrónicos y con aplicaciones a la realidad del


país.
La propuesta es original en la medida en que atiende tres problemas de la

enseñanza de la econometría; contar con libros de texto actualizados en formatos

tecnológicamente avanzados y en español, incorporar un curso en línea que tenga

la virtud de promover el auto aprendizaje y sea complemento de los cursos

presenciales, además de proporcionar aplicaciones en formatos tecnológicos que

se han difundido ampliamente entre los alumnos.

Los materiales vinculados a este libro de texto se encuentran disponibles de forma

libre en la página [Link]/unam. En ese sitio el interesado en el

estudio de la econometría encontrará este libro en formato electrónico,

presentaciones de power point para cada capítulo, una grabación de video con los

procedimientos para aplicar en R lo aprendido en el capítulo, una guía

metodológica en MOODLE para avanzar en el estudio de los capítulos y,

finalmente, un par de aplicaciones electrónicas para comprender la forma en la

que se estiman
regresiones.

El libro se integra por dieciséis capítulos cuyo contenido se resume en la siguiente

tabla
.

1
2
CAPÍTULOS CONTENIDO
CAPÍTULO ón:
1. La autocorrelación serial y sus consecuencias es analizada con base en el estudio de las tasas
Metodología de interés en México. Utilizando R se muestran las pruebas para detectar este problema y las
econométric
a:
en la metodología econométrica moderna y en el

CAPÍTULO 9.
Integración
En este capítulo se aborda uno de los temas más relevantes de la metodología econométrica
CAPÍTULO 2.
moderna que es el de identificar el orden de integración de las variables utilizadas en los
Enfoque matricial de
modelos econométricos. Con base en el R se realizan pruebas de raíz unitaria utilizando como
la regresión lineal
ejemplo el análisis del Producto Interno Bruto de México.
o de mínimos cuadrados ordinarios en su versión matricial con ejemplos de
ública en México

CAPÍTULO
CAPÍTULO 3. El 10.
modelo de Cointegraci
regresión múltiple: ón
lo de regresión múltiple y la forma en la cual se evalúan sus resultados.
Los resultados del capítulo anterior se extienden al estudio de los procesos de cointegración
es en R al análisis de las ventas al menudeo en México.
entre las variables del modelo econométrico utilizando en R las técnicas de Engle-Granger y
de Johansen, ejemplificándolas con ayuda del estudio de la relación de largo plazo entre el

CAPÍTULO 4.
Error de
especificación. CAPÍTULO 11.
odos utilizados para determinar si el modelo econométrico fue especificado Modelos VAR:
do a un planteamiento no apropiado de la forma funcional. Se realizan
Se destaca el uso de modelos VAR para el análisis de la política económica tomando como
n el análisis de la demanda de gasolina en los Estados
casoUnidos.
el estudio de la inflación y la oferta monetaria. Se presentan las diferentes rutinas
disponibles en R para estimar y realizar pruebas en los modelos VAR.

CAPÍTULO
CAPÍTULO 12.
5.
Modelos ARCH:
Normalida
Los modelos ARCH utilizados para el análisis de la volatilidad y el riesgo son ejemplificados en R
d.
con base en el análisis de los procesos inflacionarios en México.
studia la importancia e implicaciones del supuesto de normalidad en el
ineal y de manera específica en la inferencia estadística de sus parámetros.
es en R de la prueba Jarque-Bera en un modelo de la demanda de gasolina
CAPÍTULO 13.
s.
Modelos Logit y
Probit:
CAPÍTULO 6. Se desarrollan los modelos Probit y Logit aplicados a casos en los que la variable dependiente
Multicolinealid es binaria o cualitativa. Con base en el estudio de la diferenciación salarial en México se
ad muestran las rutinas disponibles en R para estimar y realizar pruebas en ese tipo de modelos
rminantes del consumo en México se exploran las diferentes pruebas
es en R para detectar y corregir el problema de la multicolinealidad en los
os.
CAPÍTULO 14.
Modelos de panel:
CAPÍTULO 7. Cuando el fenómeno económico. que se está analizando tiene un componente de
Heterocedastici desagregación de corte trasversal o sección cruzada y otro de series de tiempo se aplican
dad modelos de panel. En este capítulo se estudian las técnicas de panel utilizando R en el análisis
cuencias del problema de heterocedasticidad en losde modelos
la inflación y el desempleo en México.
endo uso de un ejemplo sobre distribución de cerveza se muestran las
es en R para realizar pruebas de detección de ese problema.

CAPÍTULO 8.
Autocorrelaci
Uno CAPÍTULO 15. Econometría espacial:
de los desarrollos más recientes de la econometría es la econometría espacial. En este capítulo se presenta la forma en la que se
deben especificar y estimar este tipo de modelos en R y se ejemplifica su uso con el estudio del empleo y el capital humano en la
zona centro de México.
CAPÍTULO 16: Repaso básico de estadística, probabilidad y álgebra lineal en R:
Finalmente, se incluye un capítulo opcional en el que se realiza un breve repaso de los elementos básicos de estadística,
probabilidad y algebra lineal indispensables para comprender la base matemática de los diferentes capítulos del libro.
Este libro y los materiales didácticos adicionales que lo acompañan contaron con
el apoyo financiero de la Dirección General de Asuntos del Personal Académico
de la UNAM a través del proyecto PAPIME PE302513 “Libro electrónico y
complementos didácticos en medios computacionales, para el fortalecimiento en la
enseñanza de la econometría”.
Los coordinadores del libro agradecen a los profesores José A. Huitrón, Jaime
Prudencio, Aída Villalobos y Ángel Reynoso por su apoyo en la revisión de los
capítulos y en el diseño de los apoyos didácticos que acompañan al libro. También
agradecemos a los alumnos y becarios del proyecto PAPIME; Arturo Abraham
Salas, Mónica González, Paola Orozco, Ana Isabel Hernández, Coral Gutiérrez,
Eddy Michell López, Jarett Fernando González, Mónica Patricia Hernández,
Samarkanda Norma Bustamante, Nataly Hernández, Sarahí Aldana, Brenda
Mireya González, Alejandro Corzo, Damaris Susana Mendoza, Nancy Nayeli
Morales, Claudia Torres, Edelmar Morales y Carolina Guadalupe Victoria. Todas y
todos ellos hicieron una excelente labor de apoyo para el buen éxito del proyecto.
LUIS QUINTANA ROMERO Y MIGUEL ÁNGEL MENDOZA GONZÁLEZ
14

CAPITULO 1: LA ECONOMETRÍA: SUS USOS Y


APLICACIONES EN R Luis Quintana Romero y Miguel Ángel
Mendoza

1. ¿QUÉ ES LA
ECONOMETRIA?

Hoy en día la econometría se ha difundido ampliamente entre quienes estudian y

buscan realizar aplicaciones de la economía. En general, cualquier licenciatura en

economía cuenta, entre su currículo, con uno o más cursos de econometría; hoy

en día es usual que la econometría se enseñe con la misma relevancia que se le

da a los cursos de microeconomía y macroeconomía. No hay posgrado en

economía que deje de incorporar el estudio de la econometría como una disciplina


fundamental. Incluso, es posible aseverar que en disciplinas distintas a la

economía, como en las matemáticas, algunas ingenierías, la sociología y en la

sicología, sus estudiantes reciben algún curso de


econometría.

No sólo en la formación académica la econometría está presente, en la vida

laboral se realizan todos los días aplicaciones econométricas. En las oficinas

gubernamentales se emplean modelos econométricos para realizar pronósticos de

variables económicas. En empresas privadas se utilizan algunas técnicas

econométricas para proyectar al futuro variables como ventas, precios y demanda,

entre otras variables. En el mercado existen numerosos servicios de consultoría

que han hecho de la econometría un negocio al ofrecer la venta de pronósticos

generados a través de modelos


econométricos.

En el mundo de la investigación científica la econometría es un ingrediente

indispensable. Diariamente se publican en todo el orbe una gran cantidad de

artículos de economía en revistas especializadas, la evidencia empírica que

aportan, generalmente, se sustenta en algún modelo


econométrico.

1
5
La importancia de esta disciplina es tal que basta escribir en un buscador de

internet la palabra "econometrics", para que nos arroje más de nueve millones de

referencias
.

Con la econometría se busca comprender fenómenos como el de las crisis,

identificar sus causas, valorar sus consecuencias futuras y proponer medidas de

política para enfrentarlas. Para ello, la econometría utiliza modelos, con estos se
busca representar de forma simplificada a los principales factores causales de un

problema de interés. La especificación y estimación de esos modelos requiere del

conocimiento de teorías económicas, para poder establecer relaciones entre las

variables, y de datos, para poder realizar mediciones de dichas relaciones.

No existe una definición única y generalmente aceptable de lo qué es la

econometría. Debido a que en ella concurren una gran diversidad de perspectivas

teóricas y metodológicas, existen, en consecuencia, diferentes posturas sobre su

significado
.

A diferencia de lo que ocurre hoy en día, en los años treinta, época en la que se

institucionaliza la econometría, existía cierto consenso metodológico. A ese

consenso se le identifica como la "metodología de libro de texto" y su definición de

econometría era la
siguiente:

La aplicación de métodos estadísticos y matemáticos al análisis de los datos

económicos, con el propósito de dar un contenido empírico a las teorías

económicas y verificarlas o refutarlas (Maddala, 1996,


p.1)

Bajo esta última conceptualización la econometría aparece, por un lado, como un

mero instrumental técnico al ser la aplicación de métodos matemáticos y

estadísticos. Por otro lado, es vista prácticamente como la piedra filosofal, al darle

el papel de criterio último de verdad al ser la vía para verificar o refutar teorías. El

econometrista aparece en esa definición como un técnico, cuyo único fin es

intentar medir lo que la teoría económica ha


postulado.
1
6
Esta visión de la econometría se ha transformado en los últimos años, en ese

sentido vale la pena retomar la definición proporcionada por Aris


Spanos:

"La econometría se interesa por el estudio sistemático de fenómenos económicos

utilizando datos observables" (Spanos, 1996,


p.3).

Este es un enfoque moderno con el cual se coincide en este libro, lo que hace a la

econometría diferente de otros campos de la economía es la utilización de datos

observables. Por lo tanto, la econometría tiene una perspectiva empírica, no se

reduce a la teoría y necesariamente hace uso de datos, los cuales no son

experimentales sino que son resultado del funcionamiento de la actividad

económica. El papel del econometrista no se reduce a medir lo que la teoría

económica establece, es un científico social que, a través de un método científico,

emprende el estudio de fenómenos económicos. Por lo tanto, no es un observador

pasivo de la teoría, al contrario, es capaz de contribuir a la


teoría.

La econometría que utilizamos hoy en día se ha ido transformando y

modernizando, hasta convertirse en una de las herramientas más potentes a

disposición de los economistas y principalmente del análisis empírico de

problemas económicos. Esta evolución de la disciplina la sintetiza perfectamente

Spanos:

"En el amanecer del siglo veintiuno, la econometría se ha desarrollado desde los

modestos orígenes del "ajuste de curvas" por mínimos cuadrados en los inicios del

siglo veinte, hasta un poderoso arreglo de herramientas estadísticas para modelar

todo tipo de datos, desde las tradicionales series de tiempo a las secciones
cruzadas y los datos de panel." (Spanos, 2006, p. 5)

2. LA METODOLOGÍA ECONOMÉTRICA

En el apartado previo se estableció que la econometría estudia de forma

sistemática los fenómenos económicos. Por lo tanto, utiliza una metodología

científica para llevar a cabo esta tarea. Aunque la metodología econométrica no

tiene aún un lugar relevante en la discusión de esta disciplina, es un aspecto que

debe ser considerado esencial, por ello resulta muy atinada la afirmación de

1
7
Spanos (2006) en el sentido de que sin fundamentos metodológicos para guiar la
práctica econométrica, no es posible que se logre acumular conocimiento genuino
a través de la modelación empírica.
En la medida en que existe una diversidad metodológica en la econometría,
resulta difícil establecer un proceso metodológico único. Sin embargo, en términos
generales, en el cuadro siguiente se pueden observar las características básicas
de los principales enfoques metodológicos, los cuales se distinguen por el papel
que le asignan a la teoría y del grado de independencia que le dan a la teoría para
la caracterización de los datos Hoover (2006).
Cuadro 1
Perspectivas metodológicas en la econometría
Metodología Período Autores Características
Comisión Cowles
Se centró en el problema de identificación y el Años 40
papel de la teoría para establecer las restricciones y 50 Koopmans
de identificación
Vectores Auto Regresivos (VAR) Años 80
Enfoque sin teoría en la estructura de los datos y uso e ecuaciones VAR para modelar impactos en las
variables
Calibración A{os 90
Christoper Sims Finn Kydland y Edward Prescott
Modelos teóricos de expectativas racionales a los que se les asignan valores numéricos en los parámetros
claves
Libro de texto
Post Comisión Cowles
Resurge la metodología de la Comisión Cowles aplicada a modelos uniecuacionales con métodos
instrumentales
London School Economics (LSE)
Años 90 y 2000
Denis Sargan, David Hendry
Especificaciones dinámicas, cointegración y búsqueda de especificaciones parsimoniosas; Años 90
Anidamiento y metodología de lo general a lo y 2000
especifico Fuente:
Elaboración propia con base en Hoover (2006)
Dentro de estas perspectivas la LSE ha jugado un papel destacado al
contraponerse a la de libro de texto y conformar lo que puede denominarse una
nueva metodología econométrica. La de libro de texto parte del supuesto de que el
modelo teórico es el verdadero modelo y, en consecuencia, coincide con el
proceso generador de los datos (PGD). En consecuencia, para esa metodología,
18
la econometría se reduce a la estimación de los parámetros que la teoría plantea;

mide lo que la teoría dice, pero no explica nada.

Al contrario, la LSE parte de la idea de que los modelos son aproximaciones

teóricas y empíricas del PGD. La validación de esas aproximaciones se realiza a

través de la evaluación de los modelos utilizando una amplia batería de pruebas

estadísticas que buscan determinar la congruencia de esas aproximaciones con el

PGD. El PGD como fenómeno económico de interés que da lugar a los datos, no

es conocido debido a que los datos son observacionales y no experimentales; los

datos que se utilizan en los modelos econométricos no son generados en un

laboratorio bajo
control.

En el esquema siguiente se ejemplifica la metodología LSE o nueva metodología.

Ahí se observa que la teoría y los datos tienen la misma importancia y aparecen

como punto de partida, además de que las variables teóricas no necesariamente

coinciden estrictamente con los datos. También se observa que existe

retroalimentación entre el modelo econométrico y las pruebas de diagnóstico y

especificación. Los datos, la teoría y el modelo teórico no son tomados como

dados, son retroalimentados por el modelo


empírico.
1
9

Figura
1

Nueva metodología econométrica

TEORÍA GENERADOR
ECONÓMICA DELOS DATOS
PROCESO

DATOS
MODELO ECONOMÉTRICO

ESTIMACIÓN

PRUEBAS DE
DIAGNÓSTICO Y DE
ESPECIFICACIÓN

MODELO
ECONOMETRICO
EMPÍRICO

Fuente: Aris Spanos Statistical Foundation of econometrics

3. EL MODELO
ECONOMÉTRICO

Los modelos econométricos son una simplificación de la realidad que se compone

de relaciones entre variables. Dichas relaciones son no exactas y, por ello, se les

llama relaciones estadísticas y pueden describirse en términos probabilísticos.

Este tipo de relaciones funcionales pueden expresarse como un modelo


estadístico para una variable dependiente yi y un conjunto de k-1 variables explicativas
o regresores Xki:

yi = β1 + β2X2i + ⋯+ βkXki + ui (1)

2
0
En donde el término ui es un error o perturbación aleatoria y β1 ...βk son los
parámetros desconocidos a estimar por el modelo.

La estimación de los parámetros de este modelo implica la utilización de variables

reales que midan la relación funcional definida. La búsqueda de las variables

medibles no es asunto fácil ya que por una parte, la teoría no especifica cuál

variable de la contabilidad nacional debe ser utilizada y, por otra parte, la

estadística económica disponible no es generada bajo un plan y objetivos de

análisis económico, es decir no es controlada por el economista y por ende no

necesariamente se ajusta a sus necesidades de estudio de la


realidad.

Los modelos econométricos pueden ser uniecuacionales o multiecuacionales. Los

modelos uniecuacionales implican la estimación de una sola ecuación los

multiecuacionales están formados por más de dos ecuaciones que pueden estar

relacionadas entre sí. Los grandes modelos multiecuacionales han perdido

importancia debido a la complejidad de su construcción y manejo, además de que

el dominio metodológico de modelos más compactos, derivados de las propuestas

VAR de formas reducidas, ha llevado a la utilización de modelos de pequeña

escala. Sin embargo, aún se siguen actualizando modelos de gran escala para

una amplia variedad de países debido a la necesidad de simulaciones de política

que requieren los gobiernos, grandes empresas o bancos. Para el caso mexicano
la empresa IHS sigue actualizando el primer modelo construido para el país en los

años sesenta por CIEMEX una empresa asociada con la firma de modelos

WARTHON Econometric Associates International. Actualmente ese modelo

genera pronósticos de 800 variables para 25 sectores de la economía (IHS, 2013).

En el apartado anterior se argumentó que la metodología econométrica de libro de

texto incorpora el supuesto de “correcta especificación” del modelo. La

metodología moderna, al contrario, considera que las variables del modelo son

aleatorias y por tanto sus propiedades probabilísticas son compartidas con el

término de
error.

2
1
Para formalizar esta idea consideremos el modelo de regresión como la media

condicional de yi sobre los valores de Xi:

FRP = E[yi|Xji] = f(Xji ) = β1 + β2X2i + ⋯+ βkXki donde j = 2,3, ...,k i = 1,2,..., n (2)

A esta función se le conoce como función de regresión poblacional (FRP). La

estimación de los parámetros de la función requiere de una regla que transforme

las variables aleatorias en un estimador de los parámetros desconocidos.

La sustitución de los valores de una muestra particular de realizaciones de las

variables aleatorias, en el estimador, genera una estimación de los parámetros

desconocidos, la cual depende de la muestra y da lugar a una función de

regresión muestral
(FRM):

FRM = E[yi|Xji] = f(Xji ) = β̂1 + β̂2X2i + ⋯+ β̂kXki (3)


El término de error o innovaciones, a diferencia de la metodología tradicional, no

es “añadido” a la función de regresión, se obtiene como la diferencia entre yi y su


media condicional:

[ui|Xji] = yi − E[yi|Xji] = FIC (4)

Que es conocida como la función de innovación condicional (FIC).

Así la ecuación para yi puede escribirse como:

yi = FRP + FIC (5)

De esta manera la ecuación tendrá una parte sistemática que se corresponde con

FRP y una no sistemática representada por


FIC.

4. ECONOMETRÍA APLICADA Y
R

El enfoque seguido en este texto es fundamentalmente de econometría aplicada,

por ello se centra en las aplicaciones empíricas y se le brinda menor espacio a las

discusiones teóricas y conceptuales. Es por lo tanto necesario contar con el

2
2
manejo de paquetería computacional que permita la utilización de la metodología

econométrica en una amplia variedad de métodos, datos reales y casos


prácticos.

El R es un lenguaje y un ambiente para manejo de datos y gráficos en código


libre.

Dada esas características los desarrollos que se han realizado en R son abiertos y

están disponibles gratuitamente, por lo cual su uso se ha difundido ampliamente.


El R es difundido libremente por una gran diversidad de sitios espejo del

Comprehensive R Archive Network (CRAN). Además de ser gratuitas, los

desarrollos para econometría en R se actualizan más rápido que en cualquier otro

de los costosos softwares comerciales que se encuentran en el mercado. Esto es

así debido a que los usuarios hacen desarrollos, los documentan y los suben al

CRAN de R de manera cotidiana.

El R se puede descargar del siguiente


vínculo:

[Link]

R genera objetos que son números, vectores, matrices, alfa numéricos y cuadros

de datos. Los operadores aritméticos a los que usualmente estamos

acostumbrados en otros paquetes son los mismos en R; suma (+), resta (-),

multiplicación (*), división (/) y potencia (^). Los ejemplos siguientes están basados

en Crawley (2009) y Venables [Link].


(2013).

Por ejemplo, podemos generar un objeto número y que contiene el resultado de

multiplicar 2 por
5:

a <- 2 b
<- 5 y
<- a*b
> y [1]
10

También se podría utilizar R como si fuera una calculadora y escribir directamente

2*5 y se desplegará el resultado de


10.

2
3
Los objetos que hemos creado los podemos listar con las siguientes
opciones:

objects()
ls()

La ayuda se puede utilizar para obtener referencias de cualquier comando, por

ejemplo si queremos saber lo que hace objects basta


escribir:

help(objects
)

En seguida R despliega una ventana con toda la documentación del comando, en

la cual nos brinda su descripción, uso, argumentos, detalles, referencias y

ejemplos de su
uso.

Los objetos pueden eliminarse rápidamente, por ejemplo para eliminar a y b basta

escribir el siguiente comando:

rm(a,b)

Para generar un objeto que sea un vector columna podemos usar la opción
c;

x <- c(5,10,8,7,9)

Lo mismo puede hacerse con la función


assignment:

assign("x", c(5,10,8,7,9))
Es posible calcular la media, mean(), la varianza, var(), el valor máximo, max(), el

valor mínimo, min() o la longitud del vector, length(). Por ejemplo, si calculamos la

media
:

mean(x
)

[1] 7.8

También podríamos generar vectores columna con secuencias de números, por

ejemplo si generamos una secuencia del 1 al


10;

2
4

y<- c(1:10) > y [1] 1 2 3 4 5 6

7 8 9 10

A los elementos de un vector se les pueden asignar nombres, por ejemplo al

vector x le asignamos los nombres de los números que


contiene:

> names(x) <-


c("cinco","diez","ocho","siete","nueve") > x cinco diez
ocho siete nueve
5 10 8 7 9

Las gráficas se obtienen usando plot, por ejemplo para realizar una gráfica de los

valores del vector y


escribimos:
plot(y)

La gráfica resultante
es:

Con el fin de ejemplificar algunas opciones que se utilizarán ampliamente al

estimar modelos de regresión vamos a considerar el caso siguiente. Generamos

dos vectores con la siguiente


información:

2
5

y <- c(1,2,3,-1,0,-1,2,1,2)
x<- c(0,1,2,-2,1,-2,0,-1,1)

Ahora es posible correr la regresión para el modelo: y i = β1 + β2xi + ui. Por el


momento no se preocupe de las características del modelo, ni de la comprensión

del método de estimación ya que eso se aborda en los capítulos siguientes del

libro. Aquí simplemente debe aprender que para correr esa regresión se utiliza la

función lineal model o


lm:
lm(y ~ x)

Call: lm(formula =
y ~ x)

Coefficients:
(Intercept) x
1.0000 0.8125

Los resultados de la regresión se pueden obtener con


summary():

summary(lm(y ~ x))
Residuals:
Min 1Q Median 3Q Max -1.8125 -0.3750 0.1875 0.3750
1.0000 Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 1.0000

0.2938 3.404 0.01138 * x 0.8125 0.2203 3.688 0.00778 ** --- Signif.

codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error:
0.8814 on 7 degrees of freedom Multiple R-squared: 0.6602, Adjusted
R-squared: 0.6116 F-statistic: 13.6 on 1 and 7 DF, p-value: 0.007782

Ahora ya estamos en condiciones de preparar nuestros datos para utilizarlos en el

paquete. La manera más fácil de manejar sus archivos de datos en R es crearlos

en una hoja de cálculo como Excel y guardarlos como archivo de texto delimitado

por tabulaciones.

2
6
Los datos del archivo PWT_2000.txt fueron guardados en formato de texto

delimitado. En el archivo se presentan los datos de la muestra de países de las

Penn Tables (2013) con información para el 2000 del PIB per cápita (PIBPC) y de

los acervos de capital


(K).

Para abrir esa tabla en R primero se tiene que asegurar que el paquete este

direccionado a la carpeta en la que ha guardado su archivo. Para verificar cuál es

el directorio actual de trabajo


escriba:

getwd(
)

Si el directorio que aparece no es el que debe utilizar, puede cambiar de directorio

con:

setwd("trayectoria del directorio")

También puede ir al menú principal de R y en el menú de FILE seleccionar la

opción Change directory y en la ventana que se abre buscar la ubicación de su

nuevo directorio de trabajo, tal y como se muestra en la imagen


siguiente:
2
7

Para que sus datos puedan ser cargados en R debe usar el comando para leer

tablas ([Link]) e indicar que la primer línea de su cuadro de datos contiene los

nombres de las variables (header=TRUE) y que las columnas están separadas por

tabulaciones (sep=). Las instrucciones son las


siguientes:

datos<-
[Link]("PWT_2000.txt",header=TRUE,sep="")

Los datos de la tabla ahora están cargados en un objeto llamado "datos", sin

embargo R no puede reconocer cada una de las variables que están en el cuadro:

para indicar que las variables están en las columnas se debe usar la siguiente
instrucción:

> attach(datos)

Ahora al pedir un listado a R aparecerá cada una de las variables en la lista:

ls(
)

2
8
The following object(s) are masked from 'datos (position 3)':
K, PAIS,
PIBPCL

Una herramienta gráfica que utilizaremos frecuentemente es un diagrama de

dispersión. Por ejemplo, se puede solicitar una diagrama de dispersión para

visualizar la relación entre el esfuerzo de inversión de los países y su ingreso per

cápita
:
En la gráfica se puede observar claramente una relación positiva entre el esfuerzo

de inversión y el PIB per cápita de los países de la muestra de


datos.

Como ya sabemos utilizar el comando de regresión podemos ahora estimar un

modelo para explicar el ingreso per cápita de los países en función de su capital,

pero ahora guardaremos el resultado en un objeto con nombre PWT:

PWT<-lm(PIBPCL ~
K)

2
9
Los resultados del modelo indican que al incrementarse la inversión en un dólar el

ingreso de los países se incrementa en 3.64 dólares, tal y como se aprecia en el

cuadro de resultados siguientes.

> summary(PWT) Call:


lm(formula = PIBPCL ~ K)
Residuals:
Min 1Q Median 3Q Max -5180.3 -1553.1 -591.4 825.3
14757.2 Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept)
2.364e+03 2.800e+02 8.443 5.06e-14 *** K 3.641e+00 9.666e-

02 37.668 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’

0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2564 on 131 degrees of


freedom Multiple R-squared: 0.9155, Adjusted R-squared: 0.9148
F-statistic: 1419 on 1 and 131 DF, p-value: < 2.2e-16

La recta de regresión la podemos añadir al diagrama de dispersión que ya


habíamos generado con la siguiente
opción:

abline(PWT)

La gráfica resultante es la siguiente:

3
0
Otra gráfica que nos va a ser de utilidad es el histograma, en el cual podemos

relacionar intervalos de los datos con sus frecuencias. Con la siguiente instrucción

generaremos el histograma para los datos del PIB per cápita de los
países:

hist(PIBPC)

3
1
Claramente el histograma muestra que la mayoría de los países se encuentran en

los ingresos más bajos de la distribución.

Resulta útil visualizar el histograma en densidades (área bajo la curva igual a la

unidad) y añadirle funciones de densidad kernel, lo cual se puede hacer con la

instrucción siguiente:

hist(PIBPCL,freq=FALSE)
> lines(density(PIBPCL))

La gráfica resultante es la
siguiente:

3
2
Para observar la distribución de los datos es utilizar cajas de box, en las cuales la

caja muestra los umbrales para los cuartiles inferior y superior, además de la

mediana. Las líneas abajo y arriba de la caja permiten identificar las

observaciones extremas. Para obtener este tipo de gráficas se utiliza la instrucción

siguiente:

boxplot(PIBPCL)

La gráfica resultante, muestra un grupo de países con ingresos


extremos.

3
3
5. ALGUNOS DESARROLLOS EN R QUE FACILITAN EL USO DE LA

ECONOMETRÍA

En R contamos con interfaces que nos permiten utilizar de forma más amigable
los

recursos disponibles en ese software. Una de estas interfaces es el RStudio, la

cual se puede instalar desde el siguiente


vínculo:

http://
[Link]

La primer ventaja de RStudio es que permite visualizar los datos y su historial de

trabajo en la ventana de WORKSPACE/HISTORY, al mismo tiempo es posible ver

la ventana CONSOLA en la cual se ejecutan los comandos de R, cuanta también

con una ventana en la cual se puede visualizar la ayuda (HELP), archivos (FILE),

gráficas (PLOT) y paquetería (PACKAGES). La cuarta ventana es la de SOURCE

en la que se muestran los archivos de


origen.

3
4
Usted puede revisar la amplia documentación de este interface en el sitio ya

referenciado, simplemente aquí haremos una demostración de las facilidades que

nos
ofrece.

Por ejemplo, para cargar la base de datos que ya hemos trabajado en el archivo

de origen txt, basta con seleccionar de la ventana WORKSPACE la opción import

data set y localizar el directorio en el cual está guardado nuestro archivo

PWT_2000.txt, tal y como se muestra en la imagen siguiente. El archivo se

despliega en el editor de datos en el formato original delimitado por espacios

(Input File) y en el formato de cuadro de datos de R (DataFrame). En la ventana

ImportDataSet es suficiente con seleccionar el botón import para que el archivo

sea importado al sistema.


Sourc
e

Consol
a
Files/Plots/Packages/
Help
Workspace/
History
Al cargar el archivo al sistema automáticamente se cargará en la ventana

SOURCE y en la ventana del WORKSPACE como objeto de datos. En la consola

se mostrará la secuencia de comandos usada por R para importar el archivo

referido, tal y como se muestra en la siguiente


figura.

3
6
Con los datos es posible ahora realizar rápidamente gráficas para su análisis, en

la ventana de consola se puede escribir la siguiente instrucción para generar el

diagrama de dispersión que ya vimos en la sección


previa:

plot(K,PIBPCL)

Como habrá podido notar, la consola cuenta con auto generación de los códigos

de R, en este caso automáticamente se cierra el paréntesis de la instrucción

capturada
.

En la ventana de PLOTS se visualiza la gráfica que hemos generado y en el menú

principal PLOTS permite guardar la gráfica, importarla como PDF o imagen,

borrarla o hacerle un zoom poniéndola en una nueva ventana:


Comandos ejecutados para importar los
datos
Cuadro de
datos

Objeto
datos
3
7

Todos los ejemplos de R que vimos en la sección previa puede ahora replicarlos

utilizando el RStudio y se dará cuenta que es más accesible y su visualización en

ventanas facilita mucho el


trabajo.

Otro de los interfaces que nos será de gran utilidad es el RCommander, que fue

desarrollado por John Fox de la Mc Master University en los Estados


Unidos.

El RCommander es un paquete estadístico, por lo cual cuenta con todos los

elementos para estimar una amplia gama de modelos econométricos (Fox,


2005).

Para instalar el interface es necesario descargarlo de algún espejo del CRAN, en


el menú principal de R puede seleccionar PACKAGES/SET CRAN MIRROR y

optar por el
USA(CA1).

Ahora en la opción del menú principal PACKAGES/LOAD PACKAGES podrá

visualizar el interface Rcmdr y al seleccionar OK se descargará, tal y como se

muestra a
continuación:
Gráfica
generada
3
8

Una vez descargado se puede activar con la siguiente


instrucción:

library(Rcmdr)

Si realizó todo correctamente podrá visualizar la ventana del interface del

RCommander que aparece a


continuación:
Interface
Rcommande
r:
Descargarla
seleccionando
OK

3
9
En el menú principal de RCommander con la opción DATA es posible importar

nuestra base de datos, usted podrá constatar que las opciones de importación son

más amplias que en R al dar la posibilidad de abrir directamente archivos de

Excel, Stata, SPSS, SAS y Minitab. Por ejemplo, podemos abrir nuestro archivo txt

con las opciones del menú DATA/IMPORT DATA/ FROM TEXT FILE, una vez

cargada la base de datos se puede visualizar en el DATASETseleccionando el

botón VIEW DATA SET en la segunda línea de botones superiores del interface, el

resultado se muestra en la siguiente


figura:

4
0
Una vez cargados los datos el interface permite realizar múltiples funciones

estadísticas y estimar modelos con el menú STATISTICS o evaluar los modelos

estimados con el menú MODELS. Por ejemplo, para correr la regresión entre el

PIB per cápita de los países y el capital activamos el menú STATISTICS/FIT

MODELS/LINEAR REGRESSION. A continuación se abrirá una ventana con las

opciones para seleccionar la variable dependiente y las explicatorias, tal y como

se muestra en la imagen
siguiente:

4
1
Una vez que se selecciona el botón de OK los resultados de la regresión se

despliegan en la ventana de resultados (OUTPUT) del RCommander, como se

muestra a
continuación:
Finalmente con el menú MODELS se cuenta con amplias posibilidades para

realizar pruebas de hipótesis y diagnósticos de los resultados que serán

estudiados en los capítulos siguientes de este libro. Por el momento, en la figura

siguiente, simplemente se muestra como ejemplo la forma en que RCommander


Resultados de la
regresión

4
2
despliega una batería gráfica para evaluar los residuales y estimaciones del

modelo.
REFERENCIA
S

Crawley, J. Michael (2009), The R book, ed. Wiley,


Inglaterra.

Fox, John (2005), The R Commander: A Basic-Statistics Graphical User Interface

to R, Journal of Statistical Software, vol.14, núm. 9, pp. 1-


42.

4
3
Hoover D., Kevin (2006), The methodology of econometrics, en Terence Mills y

Kerry Patterson, Plagrave Handbook of Econometrics, vol.1, Econometric Theory,

Palgrave Mcmillan, pp. 61-87, Reino Unido.

Maddala, G. S. (1996). Introducción a la econometría. Ed. Prentice Hall,


México.

Spanos, Aris (1996). Statistical Foundation of econometric modeling. Ed.

Cambridge University Press.

Spanos, Aris (2006), Econometrics in retrospect and prospect, en Terence Mills y

Kerry Patterson, Plagrave Handbook of Econometrics, vol.1, Econometric Theory,

Palgrave Mcmillan, pp. 3-58, Reino Unido.

Venables, W. N. y D. M. Smith (2013), An introduction to R, ed. R Core Team.

REFERENCIAS
ELECTRÓNICAS

CRAN (2013), [Link]

IHS (2013), [Link]


economic-

[Link]
px
Penn Tables (2013),
[Link]

RStudio (2013),
[Link]

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO

PWT_2000.tx
t

MATERIAL DE APRENDIZAJE EN LÍNEA

Teória_Cap1

Práctica_Cap1

VideoPráctica_Cap1

VideoTeoría_Cap1

4
4

CAPÍTULO 2: ENFOQUE MATRICIAL DE LA


REGRESIÓN LINEAL

JAVIER GALÁN FIGUEROA

1. EL MODELO
MATRICIAL
En este capítulo se considera relevante que el usuario conozca, en primera

instancia, las rutinas básicas que son necesarias para estimar los parámetros de

la regresión lineal a través del enfoque matricial, utilizando la paquetería del

software R, los cuales podrán ser utilizados en sus variantes como es el RStudio.

Para comenzar, se utilizarán datos de la economía mexicana para el periodo

enero de 2009 a diciembre de 2013, con frecuencia mensual y cuya fuente

provienen de la página web del Banco de México ([Link]), con

dicha información permitirá estimar el siguiente modelo:

( ) 2, 3 y f X X = ( 1 )

yXuβ=+(2)

23 yXXuβββ=+++(3)
12 ttttt

La ecuación ( 2 ) es la representación matricial de la regresión lineal, donde y es


un vector columna de orden ( )1 n× , X es una matriz de orden ( ) n k× , β es un

4
5
vector columna de orden( k× )1 , por último u es un vector columna de orden ( n× )1 ,
es decir1:
1 21 31 1 1 1
2 22 32 2 2 2
23 ⌈ │ │ │ │ ⌊ βy y y n ⌉ │ │ │ │ ⌋ 111 ββ X X X X X X X X X = ⌈ │ │ │ │ ⌊ n n u u

u kk kn ⌉⌈ ││ ││ ││ ││ ⌋⌊ k ⌉ │ │ │ │ ⌋ + ⌈ │ │ │ │ ⌊ n ⌉ │ │ │ │ ⌋
(4)
( n× )1 ( n k× ) ( k× )1 ( n× )1 De la ecuación ( 3 ) la variable dependiente, y, es el
nivel de deuda pública del
gobierno mexicano (miles de millones de pesos) que es explicada por el nivel de
reservas internacionales, X2, (miles de millones de dólares) y por el índice bursátil
de la Bolsa Mexicana de Valores, X3 (miles de unidades).
Para encontrar el modelo en el cual explique el comportamiento de la deuda
externa en función de la reserva internacional y del índice bursátil se utilizará los
datos que se encuentran en el archivo CAP2_MCO con extensión CSV (delimitado
por comas). Para ejecutarlo en R se hace uso del siguiente código:
> deuda<-[Link]("C:/data/cap2_mco.csv", header =T) > attach(deuda)
Si el usuario desea visualizar los datos a través de una lista, basta con escribir:
> deuda
1 Para el desarrollo correspondiente a la teoría econométrica del presente capítulo se ha consultado
los siguientes autores Quintana y Mendoza (2008), Green (2003) y Dinardo (1997).
46

2. ANÁLISIS EXPLORATORIO DE LOS


DATOS

Después de haber cargado los datos al programa, se procederá a realizar el

siguiente análisis estadístico de las


variables.

Si se desea obtener de manera individual los siguientes parámetros: media

aritmética, mediana, desviación estándar y varianza de la variable (y) se


escribe:

> mean(y) >


median (y)
> sd(y) >
var(y)

De manera conjunta se puede


utilizar:

> summary (y)

El cual arroja como los siguientes resultados para el periodo de estudio: 1) el valor

mínimo de la deuda pública es de 3.113, con un máximo de 5.221mil millones de

pesos. Con un nivel de endeudamiento medio de 4.054 mil millones de


pesos.

> summary (y)


Min. 1st Qu. Median Mean 3rd Qu. Max. 3.113
3.486 3.942 4.054 4.603 5.221

4
7
Del anterior código, el programa R agrupa los datos y calcula los cuartiles donde el

primero es 3.486, mientras el segundo o mediana es de 3.942 y el tercero de

4.603. Posteriormente se obtiene el histograma y la gráfica de caja en un


sólo

gráfic
o
>
[Link](c(1,2))
> hist(y) > screen(2)
> boxplot(y)

Repitiendo el mismo código para las variables X2 y X3 se tiene los


resultados

siguientes:

> summary
(X2,X3)

> summary
(X2,X3)
Min. 1st Qu. Median Mean 3rd Qu. Max. 81510
101600 126500 126000 154100 168300
4
8

En el análisis de la variable X3 que representa el índice bursátil, se aprecia en su

gráfico de caja un valor atípico u outlier que se localiza por debajo del límite

inferior, esta observación podría implicar problemas de varianza en el modelo, por


el momento sólo se indica su presencia. A continuación se utiliza el siguiente

código para obtener la matriz de correlación entre las variables (y, X2,
X3).

4
9

> cor(deuda)

> cor(deuda)
y x2 x3 y 1.0000000 0.9874354
0.8960622 x2 0.9874354
1.0000000 0.9126517 x3
0.8960622 0.9126517 1.0000000

De acuerdo a la matriz de correlación, la asociación entre las variables (X2,y) es

positiva y del 0.9874 o del 98.74 por ciento. Mientras la asociación entre (X3,y) es

de igual manera positiva y del 89.60 por ciento. Por otro lado, las variables (X2,X3)

se asocian en 91.26 por ciento. Para obtener los diagramas de dispersión para

indicar a nivel gráfico como influye la reserva internacional (X2) y el índice bursátil

(X3) al nivel de endeudamiento del gobierno mexicano (y) se prosigue con el

siguiente
código.

> scatter1<-
plot(y~x2) > fit<-
lm(y~x2) > abline(fit)
5
0

> scatter1<-
plot(y~x3) > fit2<-
lm(y~x3) > abline(fit2)

3. ESTIMACIÓN POR MINIMOS CUADRADOS


ORDINARIOS

Con el análisis previo se procederá a estimar los parámetros de la ecuación ( 3 ) a

través de los Mínimos Cuadrados Ordinarios (MCO). Para ello se considera que el

vector β de la ecuación ( 2 ) es estimable a partir de la siguiente expresión 2:

( ) 1' ' X X X y β -= ( 5 )

Como primer paso se debe especificar en el programa R la matriz X así como el


vector y. Para ello se sigue el siguiente algoritmo: 1) Para transformar un conjunto

2 Si el lector se encuentra interesado en revisar el proceso de derivación del vector de los


estimadores por Mínimos Cuadrados Ordinarios puede consultar los manuales que se
encuentran en citados en la sección de referencias del presente capítulo.

5
1
de variables a matriz se utiliza el código “cbind()”; y 2) Una vez que se ha dado

de alta las matrices en R se procede a realizar las operaciones correspondientes

para encontrar los componentes del vector (X′X)−1X′Y los cuales se describen a

continuación.

Para crear la matriz X, que conforma de acuerdo a la ecuación (4), se utiliza el

siguiente
código:

> X<-cbind(1,X2,X3)

Donde las opciones que aparecen dentro del paréntesis indican que el uno hace

referencia al intercepto, mientras x2 y x3 a las variables reserva internacional y al

índice bursátil. Para el caso para transformar la variable deuda pública (y) a vector

se utiliza el mismo
código.

> y1<-
cbind(y)
Para estimar el vector β de la ecuación ( 5 ), primero se obtiene el producto ( ) 'X
X para ello se sigue los siguientes pasos:1) transpuesta de X; 2) Producto de

la transpuesta de X por X, cabe mencionar, en el programa R el producto de

matrices se lleva a cabo mediante el código “%*


%”.

> trX<-
(t(X))

> X_X<-trX %*%


X

>
X_X

5
2
>
X_X
x2 x3 45.000 5670.887 1562.692 x2
5670.887 750953.005 202649.321
x3 1562.692 202649.321 55348.376

A continuación se obtiene el determinante de la matriz ( ) ' X X , para determinar


si

ésta tiene inversa o no. Para obtener la inversa ( ) 1 ' X X - , se debe primero activar
la librería “library(MASS)”, después utilizar el código
“ginv()”.

>
det(X_X)
>
library(MASS)

> invX_X<-
(ginv(X_X))

>
invX_X

>
invX_X
[,1] [,2] [,3] [1,] 1.68427699 0.0094969200
-0.0823249040 [2,] 0.00949692 0.0001648509
-0.0008717089 [3,] -0.08232490 -
0.0008717089 0.0055340314

Una vez que se tiene la inversa ( ) 1 ' X X - , se procede a obtener el producto '
Xy

> Xy<-trX %*%


y1

>
Xy

>
Xy
y 182.422 x2
23775.420 x3
6458.080

5
3
Por último, se procede a calcular al vector beta a través del siguiente código

> beta<-invX_X %*% Xy

>
beta

>
beta
y [1,]
1.381548779 [2,]
0.022279261 [3,]
-0.003897697

Un método de comprobación para tener la certeza que este vector, el cual fue

obtenido paso a paso mediante algebra lineal, se utiliza el código para estimar de

manera directa la regresión lineal “lm(y~x)”, cabe mencionar que el programa R

utiliza el mismo
método.

> modelo<-lm(y~x2+x3)

>
summary(modelo)

Call: lm(formula = y ~ x2
+ x3)
Residuals:
Min 1Q Median 3Q Max -0.20360 -0.08483
0.01550 0.06820 0.28696

Coefficients
:
Estimate Std. Error t value Pr(>|t|) (Intercept)
1.381549 0.131886 10.475 2.75e-13 *** x2 0.022279
0.001305 17.075 < 2e-16 ***

5
4

x3 -0.003898 0.007560 -0.516 0.609 --- Signif.

codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1016 on 42 degrees of freedom


Multiple R-squared: 0.9752, Adjusted R-squared: 0.974 F-
statistic: 825.3 on 2 and 42 DF, p-value: < 2.2e-16

Se aprecia que el vector beta encontrado coincide con los coeficientes estimados

por el código “lm(y~x)”. Por tanto la ecuación estimada se define como


sigue:

1.381549 0.022279 2 0.003898 3 y X X = + - ( 6 )

REFERENCIA
S

Crawley, Michael (2013), The R Book, 2a. Ed., Wiley, United Kingdom.

Green, William (2003), Econometric Analysis, 5a Ed., Pearson Education.


EUA.
Johnston, J. y J. Dinardo (1997), Econometrics Methods, 4a Ed., McGraw-Hill.

EUA.

Quintana, L. y M. A. Mendoza (2008), Econometría Básica. Modelos y


aplicaciones

a la economía mexicana, Plaza y Valdés Editores, México.

ARCHIVOS DE DATOS ASOCIADO AL


CAPÍTULO

cap2_mco.cs
v

5
5

MATERIAL DE APRENDIZAJE EN LÍNEA

Teória_Cap2

Práctica_Cap2

VideoPráctica_Cap2

VideoTeoría_Cap2
5
6

CAPITULO 3: EL MODELO DE REGRESIÓN


MÚLTIPLE

Jorge Feregrino Feregrino

1. ESPECIFICACIÓN DEL MODELO DE REGRESIÓN MÚLTIPLE

El primer paso en la especificación de un modelo econométrico es identificar el

objeto de investigación en relación al área de estudios de las ciencias

socioeconómicas. En esta etapa, es necesario recopilar información acerca del

comportamiento teórico del objeto de investigación para identificar patrones de

comportamiento, situar alguna problemática específica y plantear las hipótesis

necesarias. La especificación del modelo nos permitirá explorar las hipótesis

principales, identificar las relaciones que explican el objeto de estudios y diseñar

una propuesta teórica alternativa de acuerdo a los objetivos del


usuario.

La identificación del objeto de investigación permitirá realizar una búsqueda

exhaustiva de los datos para llevar a cabo una aproximación del

comportamiento del fenómeno mediante los hechos estilizados. Una vez

identificada la problemática se procede a establecer las relaciones y la selección


de las variables. La búsqueda de la información de las variables, la relación
teórica

y la descripción estadística de estas será útil para determinar la metodología de

análisis. En el caso de la mayoría de los hechos socioeconómicos los fenómenos

están determinados por un conjunto de variables que puede llegar a ser


infinito.

5
7
En economía se pueden identificar diversas relaciones teóricas entre variables;

por ejemplo la producción para la teoría neoclásica está determinada por la

combinación entre capital y trabajo, en la teoría keynesiana el ingreso de una

economía cerrada está determinado por el consumo, la inversión y el gasto de

gobierno, la tasa de inflación se puede determinar por la brecha del producto y las

expectativas de inflación dentro del esquema de metas de inflación; así los

ejemplos anteriores representan algunas de las problemáticas que se resuelven a

través del establecimiento de relaciones entre


variables.

En los modelos econométricos se establecen a priori las relaciones funcionales,

con los elementos que se han descrito, para identificar los vínculos fundamentales

entre las variables seleccionadas. De esta forma, se establecen las variables

independientes y las dependientes. La elección de la variable dependiente y las

independientes conformarán una relación funcional múltiple para describir el

fenómeno económico mediante la metodología econométrica


propuesta.

En el modelo de regresión múltiple las variables exógenas (Χ j), asociadas a

coeficientes lineales constantes (βj ), indican el efecto condicionado de cada

variable independiente sobre la variable dependiente (Y), la especificación general

del modelo con cuatro variables independientes es la siguiente:

Y = β0 + β1Χ1 + β2Χ2 + β3Χ3 + β4Χ4

Por ejemplo: El administrador de una tienda quiere determinar los mejores criterios

para elegir la localización de algunas tiendas, una de las primeras sugerencias

5
8
para la especificación del modelo es elegir la variable dependiente en este caso

serían las ventas

Y = Ventas

Posteriormente, se realiza la recomendación sobre la elección de las variables

independientes, en este caso la teoría plantea que múltiples variables inciden en

el comportamiento de las ventas (Y), se consideran las


siguientes:

Χ1 = Tamaño de la tienda

Χ2 = Tráfico de personas en la calle


Χ3 = Tiendas rivales en la zona

Χ4 = Renta per capita de la población residente en la zona

Χ5 = Número total de personas que residen en la zona

La especificación sería una forma funcional lineal, donde se busca encontrar el

grado de relación entre la variable endógena (Y) con las variables exógenas

Χ1,Χ2,...,Χ5. La forma funcional en la mayoría de los modelos, debe incorporar los

errores que se generan en la estimación de la relación funcional entre las

variables. La relación entre las variables es inexacta, por lo tanto, la evaluación se

realiza en términos probabilísticos.

Ejercicio en R: Retomando el ejemplo de localización de tiendas y a fin de estimar

el modelo de regresión se debe importar la base de datos a la cual se asignará el

nombre “tiendas”, a la columna de datos de la variable dependiente se le asignará

5
9
el nombre “ventas”, mientras que los nombres de las variables independientes

quedarán de la siguiente
forma:

X1: “tamaño”

X2: “tráfico”

X3 :
“rivales”

X4: “renta”

X5: “residentes”

El comando para importar los datos desde Excel es el


siguiente:

tiendas<-[Link]("ruta de
acceso",sep=",",header=T,stringsAsFactors=F)

La forma funcional reducida de la estimación de la regresión múltiple, al

expresarse en términos probabilísticos debe incorporar un término de error (ε i ).

k ŷ i= b0 + ∑b j=1

+ εi

La estimación de una regresión múltiple tiene los siguientes


objetivos:

1) Estimar los valores de una variable independiente (ŷ) mediante una función

lineal de un número (K) variables independientes observadas x j,donde j =

1,....,K

La representación es la siguiente,

6
0
ŷi = b0 + b1x1i + b2x2i + ⋯+ bkxkn

Donde i = 1,... ,n de observaciones.

2) Obtener los efectos estadísticos de cada variable independiente, mediante

la estimación de los coeficientes bj, sobre la variable dependiente (ŷ). El

coeficiente bj de cada variable dependiente indica el impacto que tiene una

variación unitaria de xj, descontando el efecto simultaneo que tienen las

otras variables independientes, es decir, se mantiene la independencia

entre estas
variables.

3) Estimar la exogeneidad débil, para mostrar que la distribución marginal de

la variable independiente, al no contener información relevante para estimar

los parámetros de interés, se puede eliminar.

El modelo de regresión múltiple poblacional sería el siguiente:

yi = β0 + β1x1i + β2x2i + ⋯+ βkxki + εi

El modelo de regresión múltiple de una muestra de datos sería el siguiente:


yi = b0 + b1x1i + b2x2i + ⋯+ bkxki + ei

6
1
El modelo de regresión múltiple permite obtener estimaciones simultáneas de b j a

partir del modelo poblacional βj

2. ESTIMACIÓN DE LOS COEFICIENTES DE


REGRESIÓN

La estimación de la forma funcional múltiple, parte de los siguientes supuestos

sobre los coeficientes a


obtener:

1) Las variables independientes xji son números fijos o bien variables

aleatorias Xj, independientes del término de error ε i .

2) El valor esperado de la variable aleatoria (ŷ) es una función de las

variables independientes Xj

3) Los términos de error εi son variables cuya media esperada es igual a cero

y la varianza es constante σ2 para todas las observaciones:

E[εi] = 0 y E[εi2] = σ2 para (i = 1,....,n)

4) Los términos de error aleatorios εi , no están correlación entre sí

E[εiεj] = 0 para todo i = j


5) No es posible hallar un conjunto de números que no sean iguales a cero tal

que
,

c0 + c1x1i + c2x2i + ⋯+ cxki = 0

Esto probaría la ausencia de relación lineal entre las X j.

Los primero 4 supuestos están implícitos en la regresión simple, el 5to excluye

cualquier posibilidad de relación lineal entre las variables independientes, y nos

6
2
permite hacer una selección específica de las variables y su impacto sobre la

variable independiente en una regresión


múltiple.

El método utilizado para estimar los coeficientes de la regresión múltiple es el de

Mínimos Cuadrados Ordinarios (MCO), los coeficientes se obtienen mediante la

minimización de los errores o la suma de residuos explicados al cuadrado SCE.

En un primer momento los errores en el tiempo están explicados por las

desviaciones de la variable independiente observada (y i) en el tiempo en relación

a la variable explicada (ŷi):

e i = yi − ŷi

Para minimizar la SCE se procede de la siguiente forma, matemática la SCE tiene


la siguiente
representación:

i=1
nSCE = ∑ei2
= SCE = ∑(yi − ŷi)2
i=1
n

De la sumatoria se extraen las diferencias elevadas al cuadrado entre los valores

de (yi) y los valores de la variable estimada ŷi. De igual manera la SCE, se puede

expresar en su forma desarrollada para obtener una idea intuitiva sobre la

estimación de la forma funcional


original:

SCE = ∑( i=1
2
n + b1x1i + ⋯+ bkxki))

Por ejemplo: para obtener los resultados de la regresión para dos variables

independientes mediante el MCO se procede de la siguiente


manera:

6
3
ŷ1 = b0 + b1x1i + b2x2i
La SCE resultado de la estimación de ŷ1 en el caso de dos variables
independientes (b1x1i, b2x2i) se puede expresar de la siguiente manera, tomando
en cuenta el resultado de la relación entre las variables independientes y la
variable independiente observada (yi)
n SCE = ∑[yi − (b0 + b1x1i + ⋯+ b2x2i)]2
i=1
El desarrollo extenso del MCO es resultado de la aplicación de cálculo diferencial
donde se debe tener en cuenta un sistema de 3 ecuaciones lineales y 3
incógnitas, (b0,b1, b2), las expresiones resultantes son las siguientes:
n= nb0 + b1 ∑x1i
i=1
ni=1
n
i=1
b0 ∑x1i
+ b2 ∑x2i
= ∑yi
n
i=1
ni=1
n
i=1 n+ b1 ∑x21i
+ b2 ∑x1i
x2i = ∑x1i
yi i=1
n b0∑x2i i=1
n
i=1
n
i=1
n+ b1 ∑x1i
x2i + b2∑x22i
= ∑x2i
yi i=1
Ejercicio en R: Utilizando los datos del ejemplo antes mencionado, el comando en
R para estimar los coeficientes del modelo de regresión múltiple sería el siguiente:
> lm(ventas ~ tamaño + tráfico + rivales + renta + residentes,data=tiendas)
64
De esa forma, el modelo de regresión lineal múltiple estimado es el
siguiente:

ventas = b0 + b1tamaño + b2tráfico + b3rivales + b4renta + b5residentes

Para almacenar los datos del modelo, a fin de realizar las pruebas pertinentes más

adelante, se asigna nombre a los resultados del


mismo:
>resultado <- lm(ventas ~ tamaño + tráfico + rivales + renta +

residentes,data=tiendas)

La interpretación de los resultados del sistema es la siguiente: en la primera

ecuación la variable observada depende de los coeficientes (b 1, b2) asociados a

las observaciones de las variables independientes (x 1i, x2i) y una constante (b0)

asociada al número de observaciones (n).

En la segunda ecuación, la relación entre la variable independiente y la primer

variable dependiente (x1i, yi) esta explicada por la constante asociada a (x1i), las

observaciones de (x1i) , elevadas al cuadrado asociadas a ( b1 ) y el

comportamiento entre las dos variables independientes (x 1i, x2i) asociadas a b2.

En la tercer ecuación, la relación entre la variable independiente y la segunda

variable dependiente (x2i, yi) esta explicada por la constante asociada a (x2i), las

observaciones de (x2i) , elevadas al cuadrado asociadas a ( b2 ) y el

comportamiento entre las dos variables independientes (x 1i, x2i) asociadas a b1.

En conclusión, de la representación de la regresión múltiple se infiere, que el

coeficiente asociado a la variable explicativa correspondiente, es decir, en el caso

de la primera variable independiente (x1i, b1), esta explicada por la misma variable

6
5
al cuadrado, y en el caso del otro coeficiente (b 2) esta explicado por la asociación
entre las variables independientes. Lo que se espera, en la regresión es que los

dos coeficientes asociados a cada variable independiente expliquen el

comportamiento de la variable dependiente de forma significativa. Lo anterior es

resultado, de minimizar los errores asociados a la estimación de la variable

independiente en relación a la variable


observada.

2.1Estimación del MCO múltiple mediante notación


matricial

La estimación de los coeficientes de las variables independientes mediante el

MCO, en su notación matricial permite visualizar de forma simplificada las

operaciones necesarias; esto permite intuir el proceso de estimación de los

coeficientes:

ŷ1 = b0 + b1x1i + b2x2i

La notación matricial de la expresión anterior es la siguiente, tenemos, los

vectores a estimar la variable independiente (Y) los coeficientes (β) y los errores

ŷ
en la estimación (e): Y = [yy⋮12yn 1]Y ̂ = [ŷ 2β̂n]

[ β ̂ e=
ŷ1 1β⋮2βn] β =
e
β̂ [ e⋮12e
[ 1
n]
β̂⋮ e=
e
[ e⋮12e
n]

Las variables independientes (X), se organizan matricialmente tomando en cuenta

su dimensión expresada mediante k − filas por n − columnas, más la constante

(b0) representada por una constante numérica igual a (1)

1x x x
[ 11 21 1 x12 x22 ⋯ k1

xk2 ⋮ ⋱ ⋮ 1 x1n x2n ⋯

xkn]

La construcción de la expresión en su forma matricial reducida es la


siguiente:

Y = Xβ + U

La estimación objetivo del modelo, busca obtener los coeficientes estimados del

modelo en relación a las variables independientes, para explicar la variable

dependiente (Ŷ) y su notación es la siguiente:

̂ ̂
Y = Xβ

Donde, la matriz de variables independientes (X) está asociada al vector de

̂
coeficientes estimados (β)

La diferencia entre el modelo estimado en su forma matricial y la variable

observada nos permiten obtener los errores derivados de la


estimación:
̂
Y−Y=e

Es
decir,

̂ + β̂ x + β̂ x + ⋯+ β̂ x )
e = yi − ŷi = yi − (β0 1 1i 2 2i k ki

6
7
Al aplicar, el método de MCO, debemos minimizar la suma de los errores al

cuadrado SEC:

n SEC = ∑ei2
i=1

Al minimizar (s) respecto al vector de los coeficientes (β) tenemos la siguiente

notación matricial reducida: ∂β ∂s= −XTY − XTY + 2


(XTXβ)


∂s∂β = −2XTY + 2 (XTXβ) =
0Para obtener los coeficientes estimados despejamos
β

̂
β = (XTX)−1 − XTY

̂
Entonces (β), es igual a la matriz inversa resultante de la multiplicación entre la

matriz transpuesta (XT) y la matriz (X), menos la matriz (XT) multiplicada por el
̂
vector de (Y). El coeficiente estimado (β) representa el efecto de un aumento en

una unidad de la variable independiente sobre la respuesta de (Y), cuando las

otras variables independientes se mantienen


constantes.

6
8
3. LAS PROPIEDADES DE LOS ERRORES
Los estimadores o coeficientes obtenidos tienen propiedades esenciales que
permiten una inferencia estadística apropiada, se deduce que la sumatoria de los
errores en una serie son igual a cero:
n ∑eixij = 0.j = 1...k i=1
La covarianza entre los errores y las variables explicativas a medida que aumenta
el número de observaciones es igual cero:
Cova = (ei, xij) = 0
En el caso del sesgo, se define como la diferencia entre la media del estimador y
el verdadero valor del parámetro a estimar. En econometría se utiliza la varianza
residual de los errores, el cual es insesgado al estar entorno a la misma varianza.
En este caso tenemos:
sr2 = n − (k 1
∑e
+ 1) i=1
n
2
i
Ejercicio en R: El comando para obtener el vector de residuales de la estimación
en el ejemplo:
> residuales<- resultado$residuals
69
La interpretación de los fenómenos económicos mediante un modelo
econométrico depende de la robustez de los resultados obtenidos en la

estimación. La interpretación inicia con la verificación de la eficiencia de los

resultados mediante la inferencia estadística. Cuando se realiza la inferencia en


un

modelo de regresión múltiple se deber verificar la estabilidad de los coeficientes y

su poder explicativo del


modelo.

La distribución de los coeficientes, al igual que en la regresión simple se

distribuyen como una normal, es decir, la media es igual a cero y la desviación

estándar es igual a
uno.

̂
β~ N (0,1)

Esto comportamiento asegura que los coeficientes estimados sigan una


trayectoria

normal y no sigan un comportamiento errático que genere problemas en la

estimación a medida que aumentan las


observaciones.

El análisis de probabilidad sobre los coeficientes, para identificar la influencia de

cada variable parte de la hipótesis planteada desde el diseño del modelo y su

forma funcional. El contraste de hipótesis, se construye mediante una t de Student

con k grados de libertad, la prueba muestra las siguientes posibilidades:


La hipótesis nula es

H0: βi = 0

La hipótesis alternativa
es

7
0
Ha:βi ≠ 0

Al aplicar el contraste de hipótesis, cuando la probabilidad de cometer el error tipo

I es elevada, es decir, rechazar la H0 cuando es verdadera y aceptar la Ha cuando

esta última es falsa, entonces, lo correcto es aceptar H 0; de ahí se puede inferir

que la variable independiente Xi asociada a su coeficiente tiene un efecto nulo, es

decir, no influye sobre la variable dependiente.

El diseño de la prueba es el siguiente, la distribución del valor de los coeficientes

cuando se acepta la H0 se distribuyen de la siguiente forma: para n > 30

observaciones la distribución tn-k-1, bajo una probabilidad del 95% se encuentra en

el intervalo [-2,2] y entonces se acepta la hipótesis nula. Si t>2, se rechaza la

hipótesis nula y se puede inferir estadísticamente que las variables

independientes influyen en la variable dependiente, es decir se acepta la hipótesis

alternativa. El contraste de hipótesis nos señala que la probabilidad de cometer el

error tipo I es nulo, por lo tanto, podemos rechazar la hipótesis nula y aceptamos
la hipótesis
alternativa:

Ha:βi ≠ 0

El criterio del intervalo de confianza está diseñado de la siguiente forma:

P (βî − tα2SE(βî) ≤ βi ≥ βî + tα2SE(βî)) = 1 − α

7
1
El criterio muestra la probabilidad de que el verdadero β i se encuentra en el

intervalo entre el coeficiente estimado (βî) y 2 desviaciones estándar (SE) a la

derecha y a la izquierda. Cuando tenemos un intervalo de confianza de α = .05, se

plantea que hay un 95% de confianza de que el valor verdadero para cada

coeficiente se encuentre dentro del área de


aceptación.

Ejercicio R: Retomando nuestro ejemplo, el comando necesario para obtener los

estadísticos tales como la probabilidad de los coeficientes del modelo, es el

siguiente:

>summary(resultado)
La matriz de varianzas-covarianzas de los coeficientes en su forma matricial

reducida es la
siguiente:

̂
COV(β) = σ2(XTX)−1

De la función anterior es necesaria la estimación de la varianza (σ 2), en la

estimación del modelo, se espera que la varianza de los residuos sea el valor

verdadero de la varianza de los estimadores es decir, que la varianza de las

variables incluidas en el modelo explique los errores de la


estimación:

̂
E(Se2) = σ2

Este resultado, nos permite establecer que la elección de las variables en la

estimación del modelo, es la especificación correcta, ya que, explica las

desviaciones de la variable dependiente respecto a la


estimada.

7
2
Ejercicio R: En nuestro ejemplo, la matriz de varianzas-covarianzas se obtiene de
la siguiente manera:
>vcov(resultado)
Una forma de medir el poder explicativo del modelo es el contraste F, muestra si
las variables explicativas en conjunto explican las variaciones de la variable
independiente. Se ha demostrado que los coeficientes β 1 = β2 = ⋯ = βk = 0 y
además, siguen una distribución F dado la siguiente forma:
∑ ni=1 (ŷk
i− y̅i)2 n ∑ − ni=1 k e− i2 1
~Fk,n−k−1
El resultado muestra la proporción en que la varianza de los coeficientes explica
la variación en los errores; cuando se acepta la hipótesis nula se debe a dos
factores: 1) las variables no influyen en la variable independiente, 2) existe
dependencia no lineal entre la variable explicada y algún regresor. Cuando se
rechaza la hipótesis nula en el contraste del test F, muestra que la variable
dependiente esta explicada por alguna de las variables independientes. Para
conocer de forma específica las variables con poder explicativo relativo a las otras
variables es necesario revisar los contrastes individuales mediante la t de student.
En la aplicación de los contrastes de F se presentan los siguientes casos:
73
1) Cuando el contraste F es significativo y todos los coeficientes individuales

de acuerdo al contraste de la t de student también son significativos, en

este caso todas las variables independientes son significativas para explicar

el comportamiento de la variable
dependiente.

2) Si el contraste F es significativo y sólo algunos de los coeficientes

individuales son significativos de acuerdo al contraste de la t de student, las

variables no significativas deben ser eliminadas del modelo. Otra solución,

es realizar una transformación y estimar nuevamente para verificar si la

relación entre las variables no es


lineal.

3) Cuando el contraste de F es significativo y por el otro lado cuando ninguno

de los coeficientes asociados a las variables es significativo de acuerdo al

contraste t, entonces podría estar presente un problema de

multicolinealidad. Esta última es resultado de una correlación alta entre las


variables independientes; entonces, la especificación del modelo requiere

una elección eficiente de las


variables.

En la tabla ANOVA, podemos evaluar los resultados mediante el Test F:

̂
S
2
e

̂
Sr
2

Ejercicio en R: El comando para obtener la tabla ANOVA del ejemplo que se ha

desarrollado es el
siguiente:

>anova(resultado)

7
4
El Test F muestra la proporción en que la varianza de los errores determina el

poder explicativo del modelo. La notación matricial de la prueba, muestra que la

diagonal de la matriz conocida, arroja los valores de la varianza (σ 2):

d
00

D(XTX)−1 → dii [ dkk]


d11
De esta forma, la distribución de los coeficientes estimados es la
siguiente:

̂ ~ N (β ,σ√d )
βi i ii

En donde, la desviación de los coeficientes tienen una distribución normal,

̂ −β σ√dii
βi i
→ N(0,1)

̂
La desviación entre el coeficiente estimado (β ) y el coeficiente (βi) en proporción

a la interacción en diagonal conocida se comportan como una


normal.

Ejercicio en R: La prueba F en R se realiza con el siguiente


comando:

>[Link](resultado
)

4. PRUEBAS DE
DIAGNÓSTICO

La información relevante en los modelos de regresión múltiple, está contenida en

las variables seleccionadas. Los modelos operan bajo el supuesto de que el

modelo contiene todas las variables relevantes para explicar el modelo. En este

7
5
sentido la realización de pruebas de diagnóstico sobre la selección eficiente de

las variables incluidas en el modelo es necesaria. La omisión de variables

relevantes en el modelo, es un problema relevante en la especificación del modelo

y en este sentido se pueden generar problemas de


multicolinealidad.

Al iniciar el capítulo se planteó que el primer paso es la especificación del modelo,

la selección de las variables para la conformación del modelo, se realiza con los

referentes que ofrece la teoría económica. Como se ha señalado, las variables

referentes en estos modelos no especifican como podrían conformar un modelo

econométrico. El primer paso, es revisar la teoría para contrastar las variables

relevantes que explican el objeto de estudio desde esa perspectiva. El siguiente

paso es realizar una prueba de omisión de variables, supongamos que la teoría

señala que la regresión correcta incluye dos


variables

Y = X1β1 + X2β2 + U

Finalmente tras un proceso de elección el modelo estimado es:

Y = X1β1 + U

El siguiente paso es plantear la hipótesis nula de la omisión de


variables:

H0:β2 = 0
Posteriormente se realiza un prueba de contraste F para estimar el
poder

explicativo del modelo, en un caso se estimará la prueba al modelo estimado


y

una prueba para el modelo que incluye la variable omitida. El rechazo de


la

hipótesis nula en este caso mostrará que fue omitida una variable
relevante.

7
6
De igual manera, cuando se incluyen variables irrelevantes en el modelo
es

necesario realizar pruebas para la especificación del modelo. De hecho,


cuando

se aplica una metodología donde se parte de la especificación más general


se

realizan estas pruebas para llegar un modelo más


específico.

La prueba de inclusión de variables irrelevantes consiste en probar en la


hipótesis

H0:β2 = 0

5. UN EJEMPLO FINAL EN
R

Para ejemplificar un modelo de regresión múltiple retomaremos el modelo de

ventas que se utilizó en el primer apartado de este capítulo, pero haremos algunas

simplificaciones. Supondremos que las ventas reales se comportan como una


función de demanda y que por consiguiente dependerán de los precios de las

mercancías y del ingreso por persona de la


población.

En el archivo [Link] se presentan datos logarítmicos del índice de ventas

reales al menudeo (Lventa), el índice de precios al consumidor (Lpr) y el ingreso

per cápita (Lingr) aproximado por un índice de remuneraciones reales por persona

ocupada.

En RComander utilizamos en el menú principal STATISTICS/Fit models/Linear

regresion. En la ventana que se abre se selecciona Lventa como variable

dependiente y a Lpr y Lingr como variables


explicativas.

Los resultados de la regresión se muestran en el siguiente


recuadro:

lm(formula = LVENTA ~ LINGR + LPR, data =


Dataset)

7
7
Residuals:
Min 1Q Median 3Q Max -0.068921 -0.022129 -
0.000394 0.025324 0.073677

Coefficients
:
Estimate Std. Error t value Pr(>|t|) (Intercept)
2.41595 0.26438 9.138 7.26e-14 *** LINGR
0.67508 0.04718 14.307 < 2e-16 *** LPR -0.18473
0.04719 -3.915 0.000196 *** --- Signif. codes: 0 '***'

0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.03236 on 76 degrees of freedom


Multiple R-squared: 0.7293, Adjusted R-squared: 0.7221 F-
statistic: 102.4 on 2 and 76 DF, p-value: < 2.2e-16

En los resultados se observa que los coeficientes del modelo son estadísticamente

significativos, en todos los casos las pruebas t brindan probabilidades que

permiten rechazar la hipótesis nula de que dichos coeficientes son nulos a

cualquier nivel de significancia estadística; en el recuadro los niveles de

significancia están marcados con


asteriscos.

Los valores de los coeficientes se pueden interpretar directamente como

elasticidades en la medida en que el modelo se especificó logarítmicamente. Los

signos son los esperados y se muestra que el incremento del 10% en el nivel de

ingresos reales da lugar a un aumento del 6.75% en las ventas, mientras que el

incremento de un 10% en los precios da lugar a una reducción del 1.8% en las

ventas
.

En la parte inferior del recuadro se muestran los resultados para el coeficiente de

determinación y su variante ajustada. En ambos casos se muestra que la

variabilidad total en las ventas se explica en más del 70% por la variación de las
7
8
variables del modelo, esto implica que hay un ajuste lineal elevado entre las

variables
.

Finalmente, en el último renglón del recuadro se muestran los resultados para el

estadístico F, que tiene un valor elevado de 102 y un p-valor prácticamente de

cero, lo cual permite rechazar la hipótesis nula de que las variables del modelo

son simultáneamente nulas.

En el menú principal del RCommander al seleccionar MODELS/Hypothesis

tests/ANOVA se obtiene la tabla de análisis de varianza, su resultado se muestra

en el recuadro
siguiente:

> Anova(RegModel.1,
type="II") Anova Table (Type II
tests) Response: LVENTA
Sum Sq Df F value Pr(>F) LINGR 0.214297 1
204.700 < 2.2e-16 *** LPR 0.016045 1 15.327 0.0001957 *** Residuals

0.079563 76 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Para generar los valores estimados de las ventas por la ecuación de regresión, en

le menú principal se selecciona MODELS/Add observation statistics to data y en la

ventana que se abre se activan las opciones Fitted values que permite obtener los

valores estimados y Residuals que incorpora a la tabla de datos los residuales del
modelo.

En el menú de graficas del RComander se pueden visualizar los resultados para

los valores estimados de las ventas y las ventas observadas. En el menú principal

se selecciona GRAPHS/Line graph y en la ventana contextual que se abre se

7
9
seleccionan los valores para el eje de las X y los valores para el eje de las Y. En el

primer caso se seleccionan obsNumber para el eje X, en el eje Y se debe

seleccionar la variable dependeinte LVENTA y sus valores estimados, que por

default el paquete ha guardado en la tabla de datos con el nombre

[Link].1. La gráfica resultante se muestra a continuación, en ella se

aprecia que los valores estimados son relativamente muy próximos a los valores

observados de la
variable.
Finalmente, en el menú principal MODELS/Graps/Base diagnostic plots se obtiene

un juego de cuatro gráficas para evaluar los residuales de la regresión. En la

primera se comparan los residuales del modelo con los valores estimados de la

8
0

También podría gustarte