Beltran Arlette 2010
Beltran Arlette 2010
BUP
Beltrán, Arlette
Modelos de datos de panel y variables dependientes limitadas : teoría y práctica / Arlette
Beltrán, Juan Francisco Castro. -- Lima : Universidad del Pacífico, 2010.
Incluye referencias bibliográficas.
La Universidad del Pacífico no se solidariza necesariamente con el contenido de los trabajos que publica.
Prohibida la reproducción total o parcial de este texto por cualquier medio sin permiso de la Universi
dad del Pacífico.
Índice
1. Introducción ......................................................................................................................... 7
6. Bibliografía ........................................................................................................................... 87
Introducción | 7
1. Introducción
Sobre los temas de este libro
Para lograr lo anterior, debemos empezar por reconocer que el fenómeno bajo análisis es
complejo (como la mayoría de fenómenos sociales) y que depende de muchas otras variables.
Así, partimos de un marco de trabajo dado por un conjunto de supuestos sobre la manera como
han sido generados los datos asociados a nuestras variables, tanto la(s) que es(son) explicada(s)
como las que hemos elegido para explicarla(s), a partir de algún modelo conceptual o teórico.
Dados estos supuestos, procedemos luego a buscar la técnica de estimación que arroje los
resultados más precisos posibles, y nos preocupamos por identificar el estimador alternativo
más apropiado en caso alguno de estos supuestos no se verifique.
En general, podemos decir que nuestra preocupación respecto a la “precisión” tiene que
ver con la posible distancia que habrá entre el valor numérico estimado y el valor “real” (o
paramétrico) del impacto marginal que tiene la variable de interés sobre el fenómeno analizado.
Esta distancia viene determinada tanto por la dispersión de los posibles valores estimados a
partir de la técnica empleada, como por el valor alrededor del cual estas probables respuestas
se concentran o convergen.
8 | M od elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
El lector familiarizado con el análisis econométrico habrá notado que los pasos y
consideraciones resumidos en los párrafos anteriores corresponden al contenido de un curso
o texto de econometría básica. El marco de trabajo viene dado por los supuestos del modelo
lineal general y, bajo este contexto, el estimador de mínimos cuadrados ordinarios (MCO) es el
preferido, atendiendo tanto a sus propiedades para muestras pequeñas como a aquellas para
muestras grandes. De hecho, estas propiedades tienen que ver con la noción de “precisión”
explicada líneas arriba: la dispersión de las posibles respuestas está relacionada con la varianza
del estimador (se busca que sea la mínima posible – propiedad de eficiencia), mientras que la
posibilidad de que el valor alrededor del cual estas respuestas se concentran o convergen sea
igual al valor paramétrico tiene que ver con las propiedades de insesgamiento o consistencia,
respectivamente.
El hecho de enfrentar una gama más amplia de fenómenos sociales por explicar se ha
traducido, también, en la necesidad de introducir supuestos distintos a los del modelo lineal
general en el momento de caracterizar los datos. Esto en muchos casos implica utilizar técnicas
econométricas alternativas al estimador MCO. Varios de estos nuevos supuestos y técnicas son
el tema central de este libro que, en particular, tiene que ver con la modelación de variables
dependientes limitadas y el trabajo con datos de panel.
El primer grupo hace referencia a las técnicas necesarias para trabajar con variables
dependientes cuyo rango de posibles valores está acotado, ya sea por la naturaleza misma
del indicador o por el tipo de muestra utilizado. Al mencionar la naturaleza del indicador nos
referimos al caso de variables dependientes discretas, donde la principal extensión respecto
al modelo lineal general radica en que la media condicional de la variable que se busca
modelar ya no es una función lineal de los parámetros. En la medida en que las variables que
pertenecen a este grupo indican el resultado directo de un proceso de toma de decisiones por
parte de agentes individuales (por ejemplo, participar o no en el mercado laboral; inscribirse
en la instrucción superior; trabajar o quedarse en casa), estos modelos son típicamente
Introducción | 9
empleados para evaluar el rol de los incentivos y posibles restricciones que enfrentan los
agentes en el momento de tomar dichas decisiones (retornos esperados, acceso al crédito,
oferta de servicios públicos, entre otros). La no linealidad del modelo, por su parte, se debe a
que este explica la probabilidad de que un agente determinado elija alguna de las categorías
u opciones analizadas. ¿Cómo hacer para modelar una probabilidad e interpretar el efecto de
distintas variables sobre la misma? Los acápites de variable dependiente discreta de este libro
responderán esta pregunta.
Cuando hablamos del tipo de muestra utilizado, por otro lado, nos referimos a aquellos casos
en los que el rango de posibles valores de la variable dependiente se encuentra truncado o
censurado. El caso más emblemático tiene que ver con el fenómeno de sesgo de selección,
y se refiere a aquellas situaciones en las que los atributos que determinan la pertenencia a
la muestra afectan también al resultado que se busca explicar o modelar. En este caso, la
extensión respecto al enfoque clásico del modelo lineal general tiene más que ver con nuestra
preocupación por “dejar todo lo demás constante” en el momento de cuantificar los efectos
que nos interesan. Imaginemos que se quiere evaluar el resultado de determinado tratamiento
médico no convencional y se utiliza una muestra de pacientes en un hospital caracterizado
por la aplicación de métodos no convencionales. El hecho de pertenecer a la muestra utilizada
(estar en el hospital en cuestión) responde a un atributo (la confianza en los métodos no
convencionales) que puede terminar afectando lo que se desea medir (la mejoría o sensación
de bienestar de los pacientes). ¿Cómo saber entonces qué parte del efecto tiene que ver con
el tratamiento y cuál con el hecho de estar trabajando con un grupo que confía (más que el
promedio) en estos métodos? El acápite de truncamiento, censura y sesgo de selección de este
libro mostrará al lector cómo lidiar con situaciones como esta.
El segundo grupo de técnicas se relaciona con el manejo de información que varía tanto a
través del espacio como a lo largo del tiempo o, para ser más precisos, con información para
un mismo conjunto de unidades a lo largo de más de un período. Esto es lo que en la literatura
se conoce como un “modelo de datos de panel” o de “datos longitudinales”. Desde un punto de
vista práctico, la principal ventaja de una base de datos con estas características se relaciona,
una vez más, con nuestra preocupación por “dejar todo lo demás constante”.
Respecto al modelo lineal general, el hecho de contar con información para una misma
unidad de análisis, a lo largo de un período de tiempo, permite asumir una estructura de error
más compleja, que destaque de manera explícita la presencia de características no observables
atribuibles a cada unidad de análisis. Este punto está estrechamente vinculado con los problemas
de endogeneidad (o de regresores estocásticos) que típicamente acompañan cualquier esfuerzo
de modelación econométrica que no sea puramente experimental. Si recordamos que estos
10 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
no observables son los que típicamente causan los problemas de endogeneidad de nuestros
regresores, la posibilidad de reconocerlos y controlar por su presencia es, sin duda, beneficioso
en términos de la “precisión” (consistencia) de nuestros estimados.
Un investigador algo más escrupuloso dudará siempre sobre si efectivamente hemos podido
dejar “todo” constante, y no vacilará en atribuir al error del modelo los efectos de alguna
variable que no es posible capturar y que sí afecta la incidencia del robo. Si, de acuerdo con
la lógica de un modelo de datos de panel, suponemos que este efecto es particular a cada
tienda por departamento y no registra variaciones significativas a lo largo del tiempo (como la
motivación del personal de seguridad), la posibilidad de observar la evolución de la incidencia
de robos en cada una de ellas (antes y después de la instalación de las cámaras) puede darnos
la solución. Una manera de controlar por esta heterogeneidad no observable es comparando
el diferencial de robos antes y después de instalado el sistema de seguridad entre las tiendas
donde fue instalado y aquellas donde no. Es decir, en lugar de comparar los robos en las tiendas
con cámaras frente a las tiendas sin cámaras (donde subsisten los efectos no observables),
comparamos la evolución de estos robos. Si al lector le interesa conocer qué técnicas se puede
aplicar para garantizar esto en el contexto de un modelo lineal, lo invitamos a revisar nuestro
capítulo de datos de panel.
Este libro trata sobre los temas, técnicas e interrogantes discutidos en los párrafos anteriores,
desde un punto de vista dual. Por un lado, se ha realizado un breve desarrollo teórico para cada
tópico. Su objetivo es formalizar el modelo estadístico asociado a cada tema, las propiedades
más importantes de los estimadores y la manera como se utilizan sus resultados para hallar
los efectos marginales de las variables de interés. Conocer las principales características del
Introducción | 11
modelo estadístico teórico es fundamental para elegir adecuadamente la técnica por emplear,
mientras que estar familiarizado con el cálculo de los efectos marginales es crucial para una
adecuada interpretación de los resultados obtenidos.
El otro lado está escrito desde un enfoque práctico y tiene que ver con el desarrollo de
casos aplicados con información e interrogantes reales. En cada uno de ellos, el lector podrá
encontrar dos elementos: (i) una guía sobre cómo aplicar las técnicas discutidas en el entorno
del paquete estadístico Stata y (ii) un ejemplo de cómo interpretar, presentar y discutir sus
resultados a la luz de un objetivo de investigación y una hipótesis de trabajo.
Por todo lo anterior, pensamos que este libro puede tener diferentes tipos de lector. Uno
de ellos será aquel que, medianamente familiarizado con las técnicas econométricas que se
presentan, quiera analizar qué tipo de preguntas se responden mejor con cada una, o confirmar
si alguna de las técnicas aquí discutidas se ajusta a la pregunta que busca responder, para
pasar directamente a plantear su modelo, traducir las hipótesis de trabajo en hipótesis sobre
los coeficientes de las variables explicativas y, finalmente, interpretar adecuadamente los
resultados obtenidos luego de la estimación. Para este lector, sugerimos revisar directamente
los casos prácticos y solo voltear a las secciones teóricas cuando enfrente alguna duda de
esa naturaleza.
Por último, y sea cual fuere el lado por el que se desee empezar a leer, se asume que el lector
maneja medianamente bien los conceptos básicos de la Econometría, al nivel de los que se
proponen en textos como los de Gujarati (2007) o Novales (1997).
Antes de terminar (o comenzar), queremos agradecer a Pedro Casavilca, por su apoyo con las
versiones preliminares de los casos; a Fernando Mendo, por ayudarnos a concluir con éxito este
proyecto; y a nuestros alumnos, por hacernos las preguntas apropiadas para guiar el énfasis
en los temas que se presentan en este libro.
Modelos de datos de panel: el modelo estático lineal | 13
2.1 ¿Por qué puede ser útil trabajar con un panel de datos?
Ahora bien, si además explotamos el hecho de que estamos observando cómo cambia el
comportamiento de cada individuo a lo largo del tiempo, estaremos en capacidad de construir
y validar hipótesis más complejas. Al respecto, recordemos que en el análisis de regresión
nuestros esfuerzos por aislar el efecto de determinada variable sobre otra dependen, a fin de
cuentas, de cómo estas covarían a lo largo de la muestra considerada. Si disponemos de una
muestra de corte transversal y queremos medir el impacto de determinada característica, lo que
haremos es comparar la respuesta de un individuo que tiene la característica con la respuesta
de otro que no la tiene. Si la muestra es de series de tiempo, lo que haremos es comparar la
respuesta de un mismo individuo antes y después de exhibir la característica.
Puesta de esta manera, nuestra técnica puede ser duramente criticada: muchos otros
elementos que influyen sobre la respuesta pueden ser distintos entre un agente y otro, o
haber cambiado a lo largo del tiempo y nosotros, erróneamente, se los estamos atribuyendo
a la variable de interés. La ausencia de experimentación controlada está conspirando contra
14 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
la posibilidad de aislar los efectos de la variable de interés. Frente a esto, y armados con
nuestras regresiones particionadas, podríamos defendernos respondiendo que para eso están los
controles y que por eso hay un conjunto amplio de determinantes incluidos en nuestra regresión.
Sabemos, no obstante, que difícilmente podremos dar cuenta de todos los determinantes y
que, sobre todo cuando hablamos del comportamiento de agentes individuales, el riesgo de
que el fenómeno bajo análisis dependa de variables no observables es alto.
¿Qué podemos hacer frente a esto si disponemos de una base de datos de panel? En lugar de
preguntar si determinado agente está mejor que su vecino o mejor que ayer, lo que podemos
hacer es preguntar qué tan distinta es la mejoría experimentada por el agente respecto a
la mejoría experimentada por su vecino. Es decir, en lugar de evaluar: yi — yj (corte transversal) o
yt — ys (serie de tiempo), el panel nos permite comparar (yit — yis) - (yjt — yjs) o, más específicamente,
(yit — yi.) — (yjt — yj.). En la expresión anterior, yi e yj se refieren a los promedios de la variable
dependiente tomados sobre las T observaciones de tiempo para el i-ésimo y j-ésimo agente,
respectivamente (mucho más sobre esto en la próxima sección). Esta suerte de “diferencia en
diferencia” solo es posible si tenemos datos que varían tanto a través del espacio como a lo largo
del tiempo y nos permitiría, en principio, limpiar aquellos efectos que influyen sobre el fenómeno
bajo análisis y no tienen que ver con la característica que se busca evaluar.
Como se dijo, esto último quedará más claro en el momento de explorar formalmente
el marco de trabajo propuesto (sección 2.4). Por ahora, basta con estar convencidos de la
importancia de contar con el análisis de datos de panel como una herramienta de estimación
e inferencia más precisa. Al tener observaciones que varían tanto a lo largo del tiempo como
a través del espacio, es posible evaluar diferencias entre las diferencias de comportamiento,
lo que permite “limpiar” las observaciones de efectos difíciles de capturar que, de otro modo,
hubiesen resultado en estimados inexactos incluso en muestras grandes.
Cuando hablamos de datos de panel nos referimos a un conjunto de observaciones que varían
tanto a través del espacio como a lo largo del tiempo. Por lo mismo, en adelante denotaremos
como yit a la observación para la variable dependiente que corresponde al i-ésimo individuo
en el t-ésimo momento del tiempo, y como xit al vector que contiene las observaciones para
las k variables explicativas asociadas a este mismo individuo en el momento t.
Sin perder generalidad, podemos suponer que nuestra base de datos contiene información
sobre un total de N individuos y que, para cada uno, se cuenta con Ti observaciones a lo largo
del tiempo. Si bien en la práctica es fácil trabajar con este tipo de estructuras no balanceadas,
corremos el riesgo de complicar innecesariamente el álgebra matricial requerida para la
discusión teórica. Por lo mismo, en lo que sigue asumiremos que Ti = T ∀i; es decir, que
estamos trabajando con un panel balanceado.
El resto del capítulo está organizado como sigue. Luego de esta breve discusión sobre las
ventajas de trabajar con un panel de datos, en la sección 2.2 se presenta formalmente la
manera como es ordenada la información, así como el álgebra matricial asociada a los distintos
estimadores. En las secciones 2.3, 2.4 y 2.5, en tanto, se presenta el marco de trabajo general
y se discuten los estimadores alternativos y sus principales propiedades a la luz de este marco
general. La sección 2.6, por último, presenta las pruebas disponibles para verificar los supuestos
de nuestro marco de trabajo, con el propósito de que sea posible elegir determinada técnica
de estimación.
16 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Al respecto, y tal como el título de este acápite lo sugiere, la generalización que aquí
discutiremos se refiere al rol del intercepto. Si disponemos de información que varía solo en
una dimensión (y en ausencia de quiebre estructural), solo tiene sentido “desviar” o “controlar”
con respecto a un promedio: aquel tomado usando toda la información disponible, ya sea a
lo largo del tiempo o a través del espacio. Conviene recordar que estos desvíos respecto a la
media son provistos, precisamente, por el intercepto1. Así, es fácil darnos cuenta de qué está
detrás de la recomendación general de incluir siempre un intercepto en el modelo: recomendar
la inclusión de un intercepto equivale a remover la influencia de la media muestral sobre
el fenómeno bajo análisis. Dicho de otra forma, en un modelo con intercepto la pendiente
(o “beta”) asociada al i-ésimo regresor nos indicará cuánto cambia la variable dependiente
respecto a su valor medio por cada unidad que el regresor se desvíe con respecto a su valor
medio.
Donde βit mide el efecto marginal de xit (es decir, el efecto marginal de las variables x en el
momento t para la i-ésima unidad). Este modelo es demasiado general y es necesario imponer
1
El lector recordará la clásica demostración donde se verifica que las pendientes en un modelo con intercepto son
idénticas a las que se obtendrían si antes desviamos (o restamos) cada dato de su media o promedio muestral. De
hecho, este es un caso particular del resultado de una regresión particionada.
Modelos de datos de panel: el modelo estático lineal | 17
cierta estructura en los coeficientes; es decir, es necesario suponer que los agentes en cuestión
responden a un patrón de comportamiento generalizable a lo largo del tiempo y/o a través
del espacio. El supuesto estándar es que βit es constante para todo i y t, lo que deja abierta la
posibilidad de que haya un intercepto distinto para cada agente (ai). De acuerdo con nuestra
discusión introductoria, esto último implica dejar abierta la posibilidad de que cada agente
tenga un “comportamiento promedio” distinto respecto del cual conviene controlar.
En su conjunto, la información está ordenada de tal forma que las primeras T observaciones
corresponden al agente 1; las siguientes T, al agente 2; y así sucesivamente hasta el N-ésimo
agente. Formalmente:
...
...
...
...
...
y1T 1 0 0 x1T ' u1T
y( NTx 1) = y21 ; D ( NTxN ) 0 1 ... 0 ;X ( NTxk ) = x21 ' ; u ( NTx 1) u21 (3.)
...
...
...
...
...
...
...
...
...
...
y = Dα + Xβ + u (4.)
y las variables explicativas. Denotemos estas medias como yi , ui , xi , respectivamente. Así, el modelo
• • •
Nótese que hemos llamado Within a este estimador minimocuadrático de un modelo desviado
respecto a la media de cada agente. El término Within (o “intra”, en castellano) responde,
precisamente, a que estamos explotando la variabilidad intraagente. Estamos interesados
en estimar cuánto cambia el comportamiento del agente respecto de su comportamiento
promedio, cuando alguno de los factores que lo explican (xit’) se desvía (en una unidad) respecto
de lo que en promedio le ocurre al agente en cuestión. Al hacerlo, estamos reconociendo que
cada agente puede registrar un comportamiento promedio distinto al del resto.
1 � 1 y1i
� � 0 y1i
1 1 �
1
P= � , tal que, por ejemplo: P( NTxNT ) y (NTx 1) = y 2 i (6.)
T
0 1 � 1 y2 i
� � �
1 1 yN i
Modelos de datos de panel: el modelo estático lineal | 19
La matriz P puede se expresada de manera mucho más compacta, y basta con restarla de
la matriz identidad para encontrar la transformación que desvía cada dato de su respectiva
media. Denotemos esta matriz como Q .
1
P= [I N ⊗iT iT ' ] (7.)
T
Q = INT - P
Este par de matrices jugará un papel muy importante en el momento de construir los
estimadores alternativos que veremos más adelante. Por lo pronto, basta con identificarlos
como proyectores o, como algunos autores prefieren llamarlos —Greene (2003)—, “hacedor
de estimados” (o “hacedor de medias”) y “hacedor de residuos” (o “hacedor de desviaciones”),
respectivamente. Como ocurre con todos los proyectores minimocuadráticos, el lector puede
verificar rápidamente que estas dos matrices son simétricas e idempotentes.
y = Dα + Xβ + u
= (IN ⊗iT) α + X β + u
Qy = Q(IN ⊗iT) α + QX β + Qu (8.)
= QXβ + Qu
βˆ Within = (X’ Q’ QX)-1 X’ Q’ Qy
= (X’ QX)-1 X’ Qy
Ahora bien, si recordamos el resultado asociado al modelo en desviaciones (véase la nota 1),
notaremos que el resultado anterior debería ser equivalente al que obtendríamos si incluimos
un intercepto distinto para cada agente. Formalmente2:
y = D α + X β +u
ˆ
β = (X’MD X)-1X ’ MD y (9.)
Within
MD = INT - D(D’D)-1D’
Las expresiones dadas en (8.) y (9.) no implican que se tenga dos maneras distintas de expresar
bˆ Within sino, más bien, implican que MD = Q. Esta igualdad (que el lector puede verificar fácilmente
2
Esta expresión muestra de manera explícita cómo este acápite es una aplicación del resultado de regresión
particionada. Si partimos de un modelo general y = Xb + m y particionamos la matriz X en dos subconjuntos de
regresores de la forma X = [X1 X2] , es posible demostrar que las pendientes estimadas del segundo grupo de regresores
vienen dadas por: bˆ2,MICO = (X2’ M1X2)-1 X2’ M1y, donde M1 = I – X1 (X1 X1)-1 X1’ .
20 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
trabajando con las propiedades del producto Kronecker) equivale a nuestra generalización del
resultado del modelo en desviaciones: estimar una regresión por mínimos cuadrados ordinarios
con un intercepto distinto para cada agente (resultado dado en [9.]), equivale a estimar una
regresión con observaciones desviadas respecto del valor medio correspondiente al agente en
cuestión (resultado dado en [8.]).
Hasta ahora, nuestra discusión se ha centrado en la segunda de las tres opciones presentadas
al inicio del acápite cuando nos referíamos a que en un panel de datos hay tres medias distintas
que pueden servir como controles. ¿Es posible realizar un análisis similar trabajando con la
media (tomada a través del espacio) de cada uno de los T momentos del tiempo? ¿Respecto de
qué estaremos controlando en este caso? Empecemos a responder estas preguntas planteando
la posibilidad de que exista un intercepto distinto para cada momento del tiempo. Definamos,
para esto, como y t a la media tomada sobre el espacio de la variable dependiente del t-ésimo
•
N
momento: y⋅t = (1/ N ) ∑ yit .
i =1
yit = γ t + x it ' β + u it
y⋅t = γ t + x⋅ t ' β + u⋅ t
yit − y⋅t = ( x it − x⋅ t ) ' β + u it − u⋅ t (10.)
−1
βˆ Within = ∑ ( xit − x⋅t )( xit − x⋅ t ) ' ∑ (x it − x⋅ t )( y it − y⋅ t)
it it
Nótese que también hemos llamado Within a este estimador. De hecho, le corresponde el
término “intra”, solo que esta vez lo que buscamos es explotar la variabilidad intratemporal.
Nuestro interés recae en conocer cuánto cambia el comportamiento del agente respecto del
comportamiento promedio del grupo, cuando alguno de los factores que lo explican (xit’)
experimenta un desvío (de una unidad) respecto del valor medio del grupo. Al hacerlo, estamos
reconociendo que en cada momento del tiempo el grupo puede registrar un promedio distinto.
En suma, los múltiples interceptos por agente nos permiten capturar qué tan distinta es la
respuesta de un agente respecto de su respuesta promedio, y comparar esto entre agentes
para un mismo momento del tiempo. Los múltiples interceptos de tiempo, por su parte, nos
permiten capturar qué tan distinta es la respuesta de un agente respecto de la respuesta
promedio del grupo, y comparar esto entre momentos del tiempo para un mismo agente. En
ambos casos se trata de una comparación de diferencias; de ahí la “doble diferencia” a la que
se hace referencia en el acápite introductorio.
Modelos de datos de panel: el modelo estático lineal | 21
D� = i N ⊗ I T
1
Q� = I NT − [iN iN '⊗ IT ]
N
y = D� γ + X β +u (11.)
� = QD
Qy � � γ + QX
� β + Qu
�
= QX� β +Qu �
βˆ Within = ( X ' QX
� ) −1 X 'Qy
�
Ahora solo nos queda una de las opciones pendiente: la media de todas las observaciones.
Como se verá a continuación, es necesario introducir esta media “total” si es que se desea
trabajar con interceptos distintos para agente y tiempo, simultáneamente. Partamos de una
especificación general:
Y démonos cuenta de que al remover (o desviar respecto de) las medias por agente y tiempo,
todavía están presentes los valores promedio de estos interceptos. Formalmente:
yi ⋅ = αi + (1/ T ) ∑ γ t +x i ⋅ ' β +u i ⋅
t
1 1
Donde: γ = (1/ T ) ∑ γ t = ∑ γ t , y α = (1/ N ) ∑ α i = ∑ α i . Esto último implica
t NT it i NT it
que es posible eliminar estos términos constantes (para proceder con la estimación de las
pendientes) si sumamos el promedio total a la expresión dada en (13.). Este promedio total
1
viene dado por y = ∑ yit . Específicamente:
NT it
y = α + γ + x' β + u (14.)
Por lo que:
22 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Al regresionar yit − y i ⋅ − y ⋅t + y sobre ( xit − xi ⋅ − x⋅t + x ) obtenemos bˆ Within y, con esto, es posible
hallar los estimadores de los efectos individuales y temporales:
Por último, el lector puede verificar que la transformación asociada pasa por premultiplicar
el modelo por la matriz Q�� , la cual viene dada por:
La distinción anterior es la que ha motivado que, en algunos casos, se plantee una aparente
dicotomía entre un “modelo de efectos fijos” y un “modelo de efectos aleatorios”. En el primero,
se sugiere que los ai son parámetros, mientras que en el segundo se trata a ai como una
variable aleatoria.
Lo anterior, desgraciadamente, puede conducir a una interpretación errónea del rol de ai,
así como de los resultados de algunas de las pruebas que veremos más adelante. Por lo mismo,
aquí no haremos esta distinción y utilizaremos un enfoque más integrador. En particular,
Modelos de datos de panel: el modelo estático lineal | 23
De acuerdo con la discusión del acápite anterior, supongamos que la información contenida
en nuestro panel de datos puede representarse de la siguiente manera:
3
Factores como la “habilidad” o la “motivación” son sin duda determinantes de variables como la decisión de
matricularse en la educación superior o del salario por hora, pero difícilmente observables.
4
Tal como se discutió en el acápite introductorio, esta correlación contemporánea llevaría a que el estimador
minimocuadrático deje de exhibir la propiedad de consistencia. Una alternativa para esto es el uso del estimador de
variables instrumentales, con la subsecuente pérdida de información que su uso implica.
24 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
α i ∼ i.i .d (0, σ α2 )
uit ∼ i.i .d (0, σ u2 )
La forma compuesta que hemos supuesto para el error implica que, si bien este es homocedástico,
exhibe correlación serial cuando se trata de un mismo agente. Formalmente:
Var (v it ) = σ α2 + σ u2
(19.)
Cov (v it ,v is ) = σ α2 ∀t ≠ s
−1
βˆ MICO = ∑ (xit − x )(xit − x ) ' ∑ (x it − x )(y it − y ) (22.)
it it
µˆ MICO = y − x ' βˆ MICO
Este estimador es insesgado (siempre y cuando se cumpla que E (v/X) = 0), pero no es eficiente
dada la presencia de correlación serial entre los errores.
Estimador Within
Este estimador ya fue presentado en el acápite anterior y, como sabemos, implica transformar
el modelo premultiplicándolo por el proyector Q. A diferencia de lo indicado en (8.), aquí
estamos asumiendo que solo existe un intercepto común (m) por estimar y que el término
ai corresponde al error. Nótese que, en términos prácticos, no existe ninguna diferencia en
la expresión asociada a la estimación de las pendientes. Como ya es usual, expresamos el
estimador tanto en términos matriciales:
como en términos de las unidades de observación en cada momento del tiempo y espacio:
En este punto cabe destacar la forma que adopta el error del modelo transformado. Al
remover de cada observación la media correspondiente al agente en cuestión (haciendo uso
del proyector Q), el nuevo término de error (al que llamaremos v∼it) resulta:
T − 1 (26.)
= σu2
T
Cov (v�it ,v�is ) = E [(u it −u i ⋅ )(u is − ui ⋅ ) ] = −(2 / T )σu2 + (1/ T )σu2
= −σu2 (1/ T ) ∀t ≠ s
Estimador Between
Así como existe un estimador Within que aprovecha la variabilidad intraagentes, es posible
construir un estimador Between que tome en cuenta la variabilidad interagentes. Para esto,
basta con tomar los promedios para cada agente y utilizar esta información como si se tratase
de una base de datos de corte transversal. Como sabemos, estos promedios son tomados por
el proyector P, por lo que:
µˆ = y − x 'βˆ
Between Between
Al igual que sus predecesores (y siempre y cuando el error sea independiente en media
de los regresores: E(v / X) = 0), el estimador Between es insesgado. Asimismo, tampoco es
eficiente. De hecho, el término de error del modelo transformado (vit = ai + mi ) también exhibe •
correlación.
1
Var (v it ) = Cov (v it ,v is ) = E (α i + ui ⋅ ) 2 = σ α2 + σ u2 (30.)
T
Modelos de datos de panel: el modelo estático lineal | 27
Definamos como R a la matriz que transforma al modelo de modo que el nuevo error tenga
una estructura de varianzas-covarianzas escalar. Esto implica que R debe ser tal que:
R ‘ R = c Ω-1 (32.)
Donde c es un escalar positivo. Es posible demostrar que la forma de esta matriz viene dada por:
R = I NT − (1 − θ ) P = Q + θ P (33.)
σ 2
θ= u
σ + T σ α2
2
u
Es decir que la transformación que garantiza un estimador eficiente es aquella que remueve
de cada observación una proporción (1 – q) de su media, donde q es función de las varianzas
de los dos componentes del error. De hecho, no es difícil demostrar que la estructura de
varianzas-covarianzas del error transformado Rv es escalar:
= σu2 I
Lo anterior garantiza que el estimador asociado sea eficiente, y, por lo mismo, pertenece a
la clase de estimadores de mínimos cuadrados generalizados (MCG).
5
Es decir, aquellas que usan los proyectores Q y P; y mínimos cuadrados ordinarios, que utiliza la matriz identidad
de manera implícita.
28 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
−1
βˆ MCG = ∑ (xit − (1 − θ )xi ⋅ − θx )(xit − (1 − θ )xi⋅ − θ x ) ' ∑ (x it − (1 − θ )xi ⋅ − θ x )( yit − (1 − θ ) yi ⋅ − θ y ) (36.)
it it
La expresión anterior nos sugiere que el estimador bˆ MCG combina la información contenida en
los estimadores bˆ Within y bˆ Between6. No debe extrañarnos, por tanto, que se trate de un estimador
eficiente, en la medida en que explota la variabilidad tanto intra como interagente.
Tan o más interesante es verificar bajo qué condiciones especiales el estimador MCG
coincide con el estimador Within o el minimocuadrático. Para el primer caso, recordemos bajo
qué circunstancias es el estimador Within eficiente: cuando su2 = 0 o T tienda a infinito. En
cualquier caso, desaparecería la correlación serial entre los errores del modelo transformado
con el proyector q . Es fácil verificar que, bajo cualquiera de estas dos situaciones, se cumple
que bˆ MCG = bˆ Within7.
σ u2
θ=
σ u + T σ α2
2
(38.)
θ σ 2 =0;T →∞ = 0
u
R θ =0 = I NT − P =Q
6
De hecho, es posible demostrar que el estimador MCG es un promedio ponderado de los estimadores Within y
−1
Between: βˆ MCG = ∆βˆB + ( I − ∆) βˆ W , donde: I − ∆ = X ' QX + θ 2 ∑ (xi ⋅ − x )( xi ⋅ − x ) ' XX’QX
' QX.
Si su = 0 , los efectos no observados son solo específicos del individuo, no hay generales, por lo que basta con
2 i
7
corregir por la presencia de ai para eliminar el problema de autocorrelación que presenta el modelo original.
Modelos de datos de panel: el modelo estático lineal | 29
σ u2
θ=
σ u2 + T σ α2 (39.)
θ σ 2 =0 = 1
α
R θ =1
= I NT
¿Por qué no presentar únicamente al estimador eficiente? ¿Qué utilidad puede tener la
discusión de los estimadores bˆ Within y bˆ Between? La respuesta a esta pregunta tiene dos partes.
En primer lugar, es necesario notar que para construir el proyector R es necesario conocer las
varianzas de los dos componentes del error de nuestro modelo. En la práctica, esto difícilmente
será posible, así que tendremos que utilizar un estimado de dichas varianzas. Es para la
estimación de estas varianzas que los estimadores bˆ Within y bˆ Between nos pueden ser útiles.
En particular, es posible demostrar que la varianza estimada del error del modelo transformado
con el proyector Q (v∼it) es un estimador consistente de su2. Formalmente9:
Por otro lado, la varianza estimada del error del modelo transformado con el proyector P
–
(vit ) también nos provee información valiosa. De hecho, es posible demostrar que, conforme
N tienda a infinito, dicha varianza converge en probabilidad a una suma ponderada de su2 y
sa2. Formalmente:
8
Si sa2 = 0, directamente se elimina el problema de autocorrelación del modelo original por lo que MICO es el
estimador eficiente.
9
ˆ v∼2 converge en probabilidad a su2 . Esto significa que conforme el tamaño
La expresión siguiente nos indica que s
de muestra crezca, la probabilidad de que s ˆ v∼2 y su2 difieran por una magnitud no trivial será cero. Para el caso
especial del resultado dado en (40.), esto se cumple ya sea que N y/o T tiendan a infinito.
30 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Al respecto, hay una tercera propiedad a la que no nos hemos referido directamente en el
momento de presentar los cuatro estimadores. Todos ellos son consistentes11 en la medida
en que no haya correlación contemporánea entre el término de error y los regresores del
modelo asociado. En términos del modelo general resumido en (42.), esto equivale a decir
que: Cov (vit xit) = E (vit xit) = 0. Si combinamos esto con las propiedades resumidas en el párrafo
anterior, el estimador de mínimos cuadrados generalizados (factibles) resulta el preferido: es
consistente como el resto y, a la vez, es (asintóticamente) eficiente.
10
Nótese que el resultado de esta resta podría ser negativo. En este caso, conviene reconsiderar el uso del estimador
de efectos aleatorios.
11
De hecho, los resultados mostrados en el acápite anterior dependen de la consistencia de los estimadores Within
y Between.
Modelos de datos de panel: el modelo estático lineal | 31
¿Qué ocurre, sin embargo, si no es posible defender que E (vit xit) = 0? Tal como se discutió en
los acápites introductorios, la presencia de un regresor estocástico es un fenómeno bastante
frecuente (sobre todo si analizamos el comportamiento de unidades desagregadas), por lo
mismo que es común que el fenómeno bajo análisis responda a variaciones no observables
(capturadas por el error) y que estas estén correlacionadas con los regresores del modelo. En
los acápites introductorios también discutimos cómo la disponibilidad de un panel de datos
puede ofrecer una solución alternativa al camino clásico de construir un estimador de variables
instrumentales. Tal como se discute en los párrafos que siguen, este camino alternativo es la
segunda parte de la respuesta a la pregunta “¿Qué utilidad puede tener la discusión de los
estimadores bˆ Within y bˆ Between?”, planteada al finalizar el acápite anterior.
De acuerdo con nuestro marco de análisis, el término de error está compuesto por dos
elementos y, entre ellos, ai es quien responde por la existencia de variaciones no observables
atribuibles a cada agente individual. Por lo mismo, sospechar de la presencia de correlación
entre no observables y regresores equivale, específicamente, a decir que E (ai xit ) ≠ 0.
En la medida en que ai es parte del error del modelo, lo anterior implica que ya no es
posible defender la consistencia de nuestro estimador preferido. De hecho, el error del modelo
transformado con el proyector R contiene a ai, al igual que el error del modelo original y el del
modelo transformado con el proyector P. Recordemos, sin embargo, que el error del modelo
transformado con el proyector Q no contiene al término ai : v∼it = vit – v-i. = uit – u-i. .
Esto implica que así haya correlación entre la heterogeneidad individual no observable y los
regresores (E (ai xit ) ≠ 0), no habrá correlación contemporánea entre estos últimos y el error
del modelo transformado con Q (E (v∼itxit) = 0). Por lo mismo, en presencia de correlación entre
no observables y regresores, el estimador Within será el único que retendrá la propiedad de
consistencia.
Antes de concluir esta sección conviene aclarar que el estimador Within es también conocido
como “de efectos fijos”, mientras que el estimador de mínimos cuadrados generalizados es
conocido también como “de efectos aleatorios”. El lector notará por qué hemos preferido no
utilizar esta nomenclatura: dado el marco de análisis supuesto, no quisiéramos dar a entender
32 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
que el uso de los estimadores de “efectos fijos” y de “efectos aleatorios” responde al hecho de
haber supuesto que ai es un parámetro o una variable aleatoria, respectivamente. De hecho,
hemos partido suponiendo que se trata de una variable aleatoria y terminado argumentando
que es posible privilegiar el uso del estimador Within en caso esta esté correlacionada
contemporáneamente con los regresores.
La discusión anterior revela que hay dos preguntas claves que deben ser resueltas antes
de determinar cuál es el mejor estimador por utilizar. La primera pregunta está asociada a la
idoneidad del marco de análisis propuesto. La segunda, por su parte, se refiere a la posibilidad
de que exista correlación contemporánea entre los regresores y el término de error.
Como se dijo, esta primera pregunta está relacionada con el marco de análisis propuesto
y, en particular, con la estructura del término de error. Al respecto, nótese que la ausencia de
efectos no observados específicos del individuo equivale a suponer que el error se comporta
de la siguiente manera: vit = uit. Dado que se asume que E (ai) = 0, lo anterior equivale a
decir que sa2 = 0. Para comprobar esta hipótesis se dispone del test de Breusch-Pagan, cuyo
estadístico (LM) se construye sobre la base de los residuos minimocuadráticos (eit) y, bajo la
hipótesis nula, se distribuye chi-cuadrado con un grado de libertad. Formalmente:
2 2
N T
2
N 2
∑ ∑ eit ∑ (Te i⋅ )
NT i =1 t =1 = NT i =1 ∼ χ 2 (1)
LM = − 1 − 1 (43.)
2(T − 1) N T 2 2(T − 1) N T
∑∑ eit ∑∑ eit
2
i =1 t =1 i =1 t =1
Si se acepta la hipótesis nula, por otro lado, bastará con estimar las pendientes a través de
mínimos cuadrados ordinarios. De hecho, cabe recordar que en caso sa2 = 0, el proyector r es
igual a la matriz identidad y el estimador eficiente es el minimocuadrático.
Una estimación como esta también se conoce como un pool: se dispone solo de los datos
agrupados y, en el momento de hacer la estimación, no hay nada que identifique a la información
de un agente o momento del tiempo particular. La ganancia, en este caso, se debe al hecho
de contar con un significativo número de grados de libertad. Al respecto, es posible evaluar
la ganancia de ajuste asociada a la introducción de interceptos múltiples (específicos ya
sea a agentes o períodos de tiempo). Para esto, se puede utilizar una típica prueba F12; y, de
encontrarse una ganancia de ajuste significativa (si se rechaza la prueba F), se preferiría el
modelo de interceptos múltiples13.
Como se dijo, si se acepta que el error tiene la estructura vit = ai + uit, la búsqueda de
eficiencia requiere la construcción del estimador de mínimos cuadrados generalizados. No
obstante, esto puede poner en riesgo la propiedad de consistencia si es que existe correlación
contemporánea entre la heterogeneidad individual no observable y el término de error. Para
verificar esto y decidir si trabajamos con el estimador de mínimos cuadrados generalizados o
el estimador Within, es posible construir una prueba de Hausman.
12
Nos referimos al típico contraste basado en pérdida de ajuste, el cual también puede ser expresado sobre la
2 2
( R SR − R Pool ) / ( N −1)
base de los R-cuadrado: F = 2
∼ F (N – 1, NT – N – k) , donde R 2SR se refiere al R-cuadrado del modelo
(1 − R SR ) / ( NT − N − k )
con interceptos múltiples (sin restringir) y R 2
Pool
corresponde al R-cuadrado del modelo pool (restringido a un solo
intercepto común).
13
Cabe recordar que la estimación con interceptos múltiples es, en principio, equivalente a la construcción del
estimador Within. Nótese, sin embargo, que existe una diferencia en los objetivos. Cuando el error se comporta de
acuerdo con nuestro marco de análisis y construimos el estimador Within, nos interesa remover la heterogeneidad no
observable del término de error para garantizar consistencia. Para esto, desviamos cada observación de su media, y la
inclusión de un intercepto distinto para cada agente es una de las maneras de hacerlo. En el caso que aquí discutimos,
donde el error ya no es un error compuesto, nuestra motivación es la ganancia de ajuste: estamos interesados en
estimar un intercepto distinto para cada agente, y el hecho de que esto sea equivalente a desviar cada dato de su
media podría entenderse como un subproducto.
34 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
La intuición detrás la prueba es clara: una diferencia significativa entre los estimadores de
mínimos cuadrados generalizados y Within, constituye evidencia en contra de la consistencia
del primero y esto, a su vez, constituye evidencia en contra de la ausencia de correlación entre
ai y los regresores. Por lo mismo, si se rechaza la hipótesis nula de esta prueba, convendrá
utilizar el estimador Within. Si se acepta la hipótesis nula, en tanto, se privilegiará el uso del
estimador de mínimos cuadrados generalizados.
Antes de concluir, conviene destacar que esta no es una prueba para determinar si los
efectos individuales son “fijos” o “aleatorios”. Lo que sí es cierto es que, dependiendo de sus
resultados, se decidirá si utilizar el estimador de mínimos cuadrados generalizados (“efectos
aleatorios”) o el estimador Within (“efectos fijos”). Esta decisión, no obstante, no responde a
la posibilidad de que los efectos individuales no exhiban una naturaleza aleatoria, sino a la
posibilidad de que, siendo aleatorios, estén correlacionados con los regresores.
14
De hecho, cualquier combinación entre los estimadores Within, Between o mínimos cuadrados generalizados
sería válida en la medida en que este último es un promedio ponderado de los dos primeros.
V ariables dependientes limitadas binomiales | 35
Pese a esta característica de la información, el uso del estimador MCO no se invalida, siempre
y cuando la dependiente sea una variable continua sin ninguna limitación. En principio, bastaría
con ser cuidadoso con la heterocedasticidad del modelo estimado, que se deriva de la altamente
probable heterogeneidad de los agentes que se analiza, la misma que debe ser corregida o,
en todo caso, considerada en el momento de computar los errores estándar para el proceso
de inferencia. No obstante, cuando la dependiente no satisface estas condiciones (continua
e ilimitada), el estimador MCO deja de ser el más apropiado y surgen otros estimadores de
mejores propiedades finitas y asintóticas.
15
Para este tipo de observaciones, utilizaremos el subíndice i, donde i hace referencia al i-ésimo individuo o agente
de la muestra que se analiza.
36 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
De ella nosotros solo somos capaces de observar una parte: yi = τ (yi*); donde τ (.) es una
“función de filtro”16. En este contexto, y tal como veremos en las páginas que siguen, una
modelación lineal no sería apropiada debido a que la forma que adoptará la media de nuestra
variable dependiente ya no será una función lineal de los parámetros. Formalmente:
En suma, nos veremos obligados a utilizar una técnica de estimación distinta a MCO debido
a que no se verifica el supuesto de linealidad del MLG.
Muchas veces los fenómenos sociales y/o económicos que se quiere analizar se centran en
la observación de decisiones del tipo sí/no, que son el reflejo del nivel de utilidad que una
opción brinda frente a la otra.
yi* = xi ‘ b + ui
La variable yi* es la utilidad que reporta trabajar y resulta ser no observable. La variable que
se observa, en cambio, es una dicotómica (yi ), la misma que toma el valor de 1 cuando el
individuo efectivamente trabaja, es decir, cuando yi* > 0, y de 0 de otro modo.
16
En los modelos que veremos a continuación, lo común es suponer que la variable latente tiene que ver con
elementos de valoración subjetiva del agente económico (como su nivel de utilidad o grado de satisfacción) y que lo
que observamos (la parte filtrada) es el resultado de la decisión tomada sobre la base de esta valoración (la elección
de la alternativa que más utilidad le brinda).
V ariables dependientes limitadas binomiales | 37
Veamos, a continuación, cuáles son las posibilidades para estimar un modelo de esta
naturaleza.
yi = xi’ b + ui (3.)
yˆi = xi ‘ bˆ = Pr
ˆ (y = 1)
i
(6.)
Es decir, la probabilidad estimada de que una persona con características xi trabaje viene
dada por xi ‘ bˆ . No obstante, en el modelo no hay nada que restrinja a yˆi a estar efectivamente
entre 0 y 1, como lo requiere una probabilidad.
Por lo mismo, el error se distribuye como una binomial, y su varianza es igual a17:
Queda claro que esta varianza depende del valor que adopten las variables explicativas, por
lo que el error resulta ser heterocedástico.
De esta manera, podemos concluir que existen tres grandes limitaciones para el uso del
estimador MCO en estos modelos:
• El error es heteroscedástico.
• El error no se distribuye como una normal18.
• Nada restringe a yˆi = xi’ bˆ = Pr
ˆ (y = 1) a estar entre 0 y 1.
i
Los dos primeros problemas pueden ser resueltos con relativa facilidad, utilizando mínimos
cuadrados generalizados y ampliando la muestra, respectivamente. No obstante, estimando
un modelo lineal no hay forma de garantizar que yˆi no se salga del rango 0-1. Por esta razón,
en estos casos se opta por modelar, directamente, la probabilidad de que yi adopte el valor
de 1. Como veremos, esto requiere elegir una distribución para el error (ui ), de modo que la
esperanza de yi (condicionada a los valores de xi) vendrá dada por la función de distribución
acumulada (FDA).
Supongamos ahora que lo que queremos estimar es, más bien, el modelo dado en (1.), en
donde la variable dependiente ya no es la dicotómica del modelo discutido en el acápite anterior,
sino la utilidad no observada. Para esto, supongamos que ui se distribuye simétricamente con
media cero y varianza unitaria, y una FDA representada por F (ui).
Pr (ui ≤ z ) = F ( z )
17
Nótese que ello implica que: Var(ui) = xi’ b(1–xi’b) = Pr (yi = 1) [1 — Pr (yi = 1)].
18
Cosa que no afecta las propiedades del estimador MCO pero sí previene que se pueda usar distribuciones
conocidas para el proceso de inferencia.
V ariables dependientes limitadas binomiales | 39
Nótese que ahora xi’b es igual a E (yi* | xi) y no a E (yi*| xi), por lo que deja de ser cierto que
la Pr (yi = 1) sea igual a xi’b . Si recordamos que yi es igual a 1 cuando yi* > 0, y 0 de otro
modo, notaremos que:
E ( y i x i ) = Pr ( y i =1 ) = Pr ( y i* > 0 ) (9.)
= Pr ( ui > − xi ' β ) = 1 − F ( −xi ' β ) = F (x i ' β )
El hecho de estar asumiendo determinada distribución para los errores del modelo y la no
linealidad de la esperanza condicional de yi, hacen que la técnica de estimación preferida en
este caso sea la de máxima verosimilitud. De esta manera, y si asumimos que la muestra es
independiente e idénticamente distribuida, podemos construir la función de verosimilitud
pertinente (para los N individuos de la misma) como la productoria de la probabilidad de cada
observación. Formalmente:
n
L = ∏ [ F ( x i' β )]yi [1 − F ( xi ' β)]1 − yi (10.)
i =1
La forma funcional de F (ui) dependerá del supuesto hecho sobre la distribución de ui.
Típicamente se trabaja con dos distribuciones: la normal estándar, que da origen a lo que se
conoce como el “modelo probit”, y la distribución logística19, que se traduce en el “modelo
logit”.
Para hallar los parámetros a partir de (10.), el primer paso consiste en construir la función
log-verosímil:
n
ln L = ∑ [y i ln F (x 'i β ) + (1 − yi ) ln(1 − F (x i' β ))] (11.)
i =1
Esta se deriva con respecto a los parámetros de interés para hallar las condiciones de primer
orden:
∂ ln L n f ( xi' β ) − f ( xi' β)
= ∑ yi + (1 − yi ) xi = S (β )= 0 (12.)
∂β F ( xi' β )
i =1 (1 − F ( xi' β ))
19
Recuérdese que la FDA logística tiene la siguiente especificación: F(z) = exp(z) / (1 + exp(z)).
40 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Donde f (z) = F ’(z) es la función de densidad marginal, y S(b) se refiere al vector de primeras
derivadas de la función log-verosímil, también conocido como el score. Como vemos, (12.) es
una ecuación no lineal en los parámetros (b), por lo que para resolverla lo usual es recurrir a
algún método numérico20.
La técnica descrita líneas arriba nos permitirá obtener un vector de estimados máximo
verosímiles (bMV). Sobre la base de estos, será posible hacer inferencia (tanto a nivel de
parámetros individuales como de manera conjunta) tomando en cuenta que este estimador
se distribuye, asintóticamente, como una normal.
Un ejemplo de lo anterior lo constituye el análisis de la bondad de ajuste del modelo. Para esto,
en principio se requeriría comparar la predicción de la variable dependiente con la realmente
observada. No obstante, en un modelo como el analizado ello pierde sentido ya que se observa
la elección real (0 ó 1, en el caso binomial), mientras que el modelo predice probabilidades.
Es así que el típico R 2, que estaría basado en estos errores distorsionados, pierde sentido.
Una alternativa es el test de la razón de verosimilitud, cuya hipótesis nula es que todas las
pendientes del modelo (todos los parámetros excepto la constante), o un subconjunto de ellas,
es igual a 0. El estadístico asociado se define como:
λ =
L* βˆMV ,0 ( ) (13.)
L* βˆMV ( )
Donde L* (bˆ MV,o) es el valor máximo de la función de verosimilitud del modelo restringido
(que solo incluye la constante como regresor, o las explicativas que no están sometidas a la
prueba de significancia), mientras que L* (bˆ MV) es el modelo completo. Según Wilks (1962)21,
la distribución de este estadístico viene dada por: –2lnl ∼ x2 (q), donde q es el número de
restricciones.
∂ 2 ln L ( β 0 )
20
Uno de los más utilizados es el de Newton-Raphson. Así, se define b1 = b2 + [I (bo)]-1 S (b0) , donde I (β0 ) = −E
∂β 0 ∂β 0
es la matriz de información, cuya inversa es el menor valor que puede tomar la varianza de un estimador insesgado.
De esta forma, se utiliza un valor cualquiera para b0 , que podría ser el de MCO, y se continúa iterando hasta hallar
el valor de b que haga S (b0) = 0 , es decir, que maximice la función log-verosímil.
21
La prueba de la razón de verosimilitud para verificar hipótesis compuestas fue presentada en Wilks (1962) y
desde entonces se conoce como “teorema de Wilks”.
V ariables dependientes limitadas binomiales | 41
2
ln L*( βˆ MV )
ρ = 1 − (14.)
ln L*( βˆ MV , 0 )
Otra medida de bondad de ajuste que suele ser bastante utilizada es la proporción de
predicciones correctas del modelo. Para cada observación, se estima con el modelo la Pr(yi =
1); si este valor es mayor que 0,5, se asume que la predicción de yi es 1, de otra forma será
0. La proporción de observaciones cuya predicción es 1 y cuyo valor observado también es 1,
es el porcentaje correctamente predicho. No obstante, también es necesario tener en cuenta
la capacidad del modelo para predecir el otro tipo de resultado, la Pr(yi = 0)23, ya que podría
tener un buen ajuste para predecir uno de los dos resultados pero no el otro. Así, la capacidad
predictiva total es un promedio ponderado de la proporción de predicciones correctas para
ambos posibles resultados, donde los ponderadores son las proporciones de ceros y unos
existentes en la muestra.
Téngase en cuenta sin embargo que, tal como se sugiere en Wooldridge (2002), el ajuste del
modelo es generalmente menos importante que la significancia estadística y económica de
las variables explicativas. Si bien esta recomendación se aplica a todo modelo econométrico
construido con el objetivo de realizar inferencia respecto a la relevancia de determinados
regresores, cobra especial relevancia en este contexto debido a que el tipo de modelos aquí
discutidos se caracterizan por exhibir un ajuste bajo.
22
Como regla práctica, se espera que un buen modelo tenga un r2 entre 0,2 y 0,4.
23
Es decir que las observaciones cuya Pr(yi = 0) predicha por el modelo es menor o igual a 0,5, sean aquellas cuyo
valor observado para yi es 0.
42 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Estimado Observado
por el modelo
yi = 1 yi = 0
Pr (yi = 1)>0,5 Predicciones correctas ˆ y=1 | Ny=0
N
ˆ y=1 | Ny=1
N
Pr (yi = 1)>0,5 Nˆ y=0 | Ny=1 Predicciones correctas
ˆ y=0 | Ny=0
N
Total Ny=1 Ny=0
N y =1 Nˆ y =1 N y =1 N y =0 Nˆ y =0 N y =0
+
N N y =1 N N y =0
Capacidad predictiva
Nˆ y =1 N y =1 + Nˆ y =0 N y =0
=
N
Para estimar correctamente un modelo discreto binomial, se sugiere utilizar los pasos que se
detalla a continuación, una vez identificadas la variable dependiente y las posibles explicativas,
de acuerdo con el marco teórico que explica el fenómeno que se desea estudiar.
2. Complementar lo anterior con un análisis descriptivo de la muestra por utilizar, que ponga
en evidencia las principales dimensiones de las variables involucradas en el análisis, sus
valores promedio, los extremos, y su dispersión, así como el comportamiento bivariado
entre ellas y la variable elegida como dependiente.
24
Como regla práctica, si dos variables tienen una correlación mayor a 75%, no deben ser incluidas conjuntamente
como explicativas de un mismo modelo.
V ariables dependientes limitadas binomiales | 43
3. Estimar la regresión con todas las explicativas que mostraron un grado de correlación y
signo razonable en el análisis anterior. La elección del mejor conjunto de regresores puede
basarse en aquellas explicativas que tengan el signo esperado y cuya probabilidad asociada
en la prueba z no sea mayor a 10%. Se sugiere indicar el nivel de significancia del coeficiente
asociado a cada variable explicativa incluida en el modelo final (1%, 5% ó 10%).
Para algunas FDA, sin embargo, es posible trabajar con una linearización que permita
interpretar directamente tanto el signo como la magnitud de los coeficientes estimados. Este
es el caso de los modelos logit donde, tal como se indicó líneas arriba, la FDA viene dada por:
F (z) = exp(z) / [1 + exp(z)] = e(z) / [1 + e(z)].
1
Pr ( yi = 0) = 1 − Pr ( yi = 1) =
1 + e( xi ' β )
Pr ( yi =1 )
RP = =e ( xi ' β ) (16.)
Pr ( yi = 0 )
Esta indica cuántas veces más probable es que se produzca el resultado 1 frente al 0,
por lo que puede dar información relevante por sí mismo, y permitir la comparación de las
probabilidades asociadas a los dos resultados posibles de un modelo binomial.
44 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Pr ( yi =1 )
ln (RP ) = ln (x 'β)
= ln e i = xi ' β
Pr ( yi = 0 ) (17.)
∂ ln (RP )
= βk
∂xik
Para clarificar, supongamos que el RP da un valor de 1,05. Esto implica que es 1,05 veces
más probable que el i-ésimo individuo tenga asociado el resultado 1 que el 0; o, lo que es lo
mismo, que es 5 por ciento más probable25. Si recordamos que ln(1,05) ≈ 0,05 (aproximación
que se verifica para cambios porcentuales pequeños), notaremos que es posible afirmar que
frente a un incremento de una unidad en el k-ésimo regresor, será (bk) 100 por ciento más
probable observar un 1 que un 026.
Tal como se desprende de la discusión anterior, uno de los resultados claves del modelo
estimado es la predicción de la probabilidad de que determinado individuo exhiba el atributo
o característica en cuestión (tenga asociado el resultado 1). Esta probabilidad no es otra cosa
que la media (condicional) de la variable dependiente, la misma que puede ser determinada
para la media muestral o para individuos con características específicas dentro de la muestra.
Si notamos que la probabilidad promedio estimada (o la probabilidad de que un individuo
promedio exhiba el atributo) puede representarse como:
Eˆ (y x ) = P̂r ( y = 1 x ) = F (x ' βˆ )
25
Nótese que 5% más probable no es lo mismo que 5 puntos porcentuales más probable. Por ejemplo, si un evento
tiene una probabilidad asociada de 0,315 (31,5%), este es 5% más probable que otro con una probabilidad asociada
de 0,3 (30%). Es decir, 1,05 = 31,5/30.
26
Si no se desea depender de esta aproximación, será necesario considerar que frente a un incremento de una
unidad en el k-ésimo regresor, el incremento en el RP será de ebk veces (donde un incremento de x veces corresponde
a un incremento de (x –1) 100 por ciento).
V ariables dependientes limitadas binomiales | 45
Como vimos en secciones anteriores, el MPL implica que Pr (yi = 1) = xi’b mientras que los
modelos probabilísticos suponen que Pr (yi = 1) = F (xi’b). De esta manera, en el primer caso, el
efecto marginal o impacto promedio estimado de un cambio en una unidad de alguna variable
explicativa (xk) sería constante, a saber:
Donde f (•) es la función de densidad marginal. Por lo mismo, el efecto impacto depende del
valor de los regresores para cada individuo y de todos los coeficientes estimados del modelo. Si
recordamos que la función de densidad acumulada exhibe una menor pendiente para valores
extremos, la expresión dada en (19.) resulta particularmente idónea para capturar fenómenos
que exhiben rendimientos decrecientes. Por ejemplo, el cambio en la probabilidad de que un
niño asista al colegio frente a un aumento en el ingreso será distinto en el caso de familias de
altos y bajos ingresos: para las primeras, se espera un incremento casi nulo de la probabilidad
y para las segundas, uno bastante mayor27. Nótese, sin embargo, que el efecto impacto relativo
de cualquier par de variables explicativas no depende del valor de los regresores: el ratio de
efectos parciales entre los regresores xj y xk, por ejemplo, sería igual a bˆ j / bˆ k.
Tenga en cuenta que en los modelos logit y probit, f (•) es una función estrictamente creciente
(en todos sus puntos), por lo que f (•) > 0 para todo argumento; es así que la dirección del
efecto impacto del k-ésimo regresor depende exclusivamente del signo del k-ésimo coeficiente,
tal como se indicó anteriormente.
Es necesario diferenciar el efecto impacto de una variable explicativa continua del de una
discreta. La derivada propuesta en (19.) se ajusta al primer caso, pero no así a la de una variable
discreta. Para esta última tendrá que calcularse la diferencia de la probabilidad cuando dicha
variable toma un valor u otro. Por ejemplo, si estamos analizando la decisión de trabajar y
27
Cuando hablamos de bajos ingresos no queremos referirnos a las familias con una condición de pobreza extrema,
entre las que es posible que el mencionado cambio en probabilidad también sea nulo. Esto último no hace sino reafirmar
lo apropiado del uso de la función de densidad, cuyos extremos son menos empinados que el resto de la función.
46 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
EIx2 = F (βˆ 0 + βˆ 1x1 + βˆ 2 (1) + βˆ3 x3 + ... + βˆ kx k ) - F (βˆ 0 + βˆ1x1 + βˆ2 (0) + βˆ3 x3 +... + βˆ k x k ) (20.)
Nótese que en la expresión anterior, todos los regresores han sido evaluados en sus respectivas
medias muestrales, lo que tiene sentido en la medida en que el cambio en cuestión se refiere
al sexo. Así, la expresión anterior nos estaría informando sobre el efecto que tiene, sobre
la probabilidad de trabajar, el hecho de que un individuo con características promedio sea
hombre.
En general, cualquier efecto impacto puede ser evaluado en la media muestral o para un
conjunto específico de valores de las explicativas28. Así, la expresión dada en (19.) también
podría haber sido evaluada en la media de los regresores y se referiría al efecto que tiene un
incremento de una unidad en el k-ésimo regresor sobre la probabilidad de que un individuo
promedio exhiba la característica bajo análisis.
Nótese que cualquiera sea el tipo de variable explicativa, el efecto impacto arroja el cambio
de la probabilidad, en puntos porcentuales, frente a la variación en una unidad de la explicativa.
Por esta razón su utilidad es usualmente mayor cuando analizamos explicativas discretas.
3.6.4 La elasticidad
En el caso de una explicativa discreta que tome, por ejemplo, valores 0 y 1, utilizaríamos la
elasticidad punto estimada alrededor de la media. Formalmente:
28
Si entre las variables explicativas se ha incluido funciones no lineales, como logaritmos, variables cuadráticas o
multiplicativas, se tiene la opción de evaluar dicha función en los promedios o promediar la función no lineal. Para
obtener el efecto de la unidad promedio en la población, tiene sentido usar la primera opción, aunque las diferencias
entre ambas suelen ser muy pequeñas (Wooldridge 2002).
V ariables dependientes limitadas binomiales | 47
¿Cómo determinar cuándo utilizar probit o logit para estimar un mismo proceso de elección
binaria?29, ¿son comparables sus resultados? Observemos un poco más estas dos funciones.
La principal diferencia entre ellas, como se ve en el gráfico 1, es la amplitud de sus “colas”: la
logística tiene “colas más anchas” (presenta una mayor curtosis). Por lo mismo, los resultados
que se obtiene con cada una de ellas no son directamente comparables.
Distribuciones acumuladas
1,0
0,8
0,6
0,4
0,2
0,0
-4 -3 -2 -1 0 1 2 3 4 5
LOGÍSTICA NORMAL
29
Cabe mencionar, como lo sostiene Gourieroux (2000), que el logit fue introducido por facilidad computacional,
como una forma más simple de aproximar un probit.
48 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Distribuciones marginales
5
0
-4 -3 -2 -1 0 1 2 3 4 5
LOGÍSTICA_M NORMAL_M
Una primera alternativa para comparar los resultados que provienen de ambos modelos, se
basa en recordar que la distribución logística tiene una varianza de p 2/3 , mientras que la
que corresponde a la normal estándar es igual a la unidad. Por ello, para hacer ambos modelos
comparables bastará dividir los coeficientes del modelo logit entre la desviación estándar de
la distribución logística (p/√3) y compararlos con los coeficientes estimados a partir de un
modelo probit.
βˆ Logit 3
= 0,55 × βˆ Logit vs. βˆ Probit
π
Otra manera de comparar las estimaciones que se obtienen de ambos modelos probabilísticos
es la que propone Wooldridge (2002), a partir del efecto impacto que se muestra en (19.). En
cualquiera de los dos modelos, y asumiendo que la data se distribuye de manera simétrica
alrededor de cero, es posible aproximar x ‘ bˆ como cero, lo que implica que f (x ‘ b)
ˆ es f (0).
En caso de un probit esto equivale a:
1
f (0) = = 0, 4
2π
Y en el del logit:
exp( 0 )
f (0) = = 0,25
[1 + exp( 0) ]2
V ariables dependientes limitadas binomiales | 49
Así, asumiendo que los efectos impacto que arrojan ambos modelos son similares, para
comparar bˆ Probit y bˆ Logit podemos multiplicar bˆ Probit por 0,4/0,25 = 1,6, o multiplicamos bˆ Logit
por 0,25/0,4 = 0,625.
Luego de los ajustes propuestos previamente, suele ocurrir que la aplicación de ambos
modelos arroja resultados muy similares, por lo que la decisión entre cuál escoger depende,
generalmente, del ajuste que se logra a través de ellos. Puede haber casos, no obstante, en
los que sí se observen diferencias no triviales entre ambos tipos de resultados, como aquel en
el que un número importante de observaciones se encuentran concentradas en la cola de la
distribución, en cuyo caso los modelos logit serán los más apropiados (véase Maddala [1983]
y Futing Liao [1994])30.
Ocurre, además, que en muchas ocasiones esos aspectos no observables afectan no solo a la
variable que se quiere explicar sino también a los regresores del modelo, los cuales, por lo mismo,
difícilmente alcanzan la condición de exogeneidad. Estos regresores resultan ser estocásticos
en el sentido de estar correlacionados contemporáneamente con el error del modelo.
Por ejemplo, supongamos que se quiere analizar los determinantes de que una mujer decida
demandar un parto institucional. Una de las variables que parecen explicar este comportamiento
es el hecho de que haya recibido controles prenatales durante el embarazo, los que deben
haberle permitido tener una mayor cercanía con el médico tratante y los profesionales de salud,
e incrementar su confianza hacia ellos. Puestas así las cosas, tendríamos un modelo con la
variable “Parto” como dependiente, mientras que el “Control prenatal” sería la explicativa.
30
Sin embargo, equivocarse en la elección del modelo correcto tiene, en general, una consecuencia mínima, ya que
existe poca diferencia en los parámetros estimados con cada uno de ellos o en su precisión (Gourieroux 2000).
50 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
De esta explicación se puede concluir directamente que un buen instrumento debe cumplir
dos condiciones básicas:
1. Determinar las variables que requieren ser instrumentalizadas considerando aquellas que
se cree que es más probable que estén correlacionadas con el error de la ecuación.
31
Tal como se discute en Deaton (2009), la exogeneidad requerida para el instrumento no debe ser confundida con el
hecho de que sea un “factor externo”. Un factor externo es aquel causado fuera del sistema que se utiliza para explicar
la variable dependiente bajo estudio. No obstante esta condición no es suficiente para garantizar la exogeneidad del
instrumento. Variables que dependen de eventos de la naturaleza (como un terremoto o la geografía) son buenos
ejemplos de factores externos: no son causados por el fenómeno bajo análisis. No obstante, sí pueden afectarlo,
y no solo a través de la variable que se busca instrumentalizar, lo que haría altamente probable que se encuentre
correlacionado con el error de la ecuación de interés. En suma, la ausencia de simultaneidad entre el instrumento y
el fenómeno no puede ser tomada como garantía de la exogeneidad de este último.
V ariables dependientes limitadas binomiales | 51
2. Regresionar cada una de ellas en función de variables que cumplan las dos condiciones
mencionadas anteriormente (los instrumentos).
3. Reemplazar los valores observados de las variables que se instrumentalizan por aquellos
estimados a partir de la regresión construida en 2.
Donde Uij* es la utilidad que recibe el individuo i al escoger la alternativa j, la que está en
función de un conjunto de variables explicativas xij y parámetros b, que pueden o no depender
de las alternativas de elección.
Son aquellas que se utilizan para especificar un conjunto de posibles alternativas que no
presentan una relación de orden entre ellas. Por ejemplo, profesiones, hobbies, modos de
transporte, marcas de cigarrillos, etc. Tomando el primer ejemplo, supongamos que se desea
analizar los determinantes del tipo de ocupación del jefe de hogar de las familias peruanas,
de forma tal que la variable dependiente se define como:
yi = Ocupación del jefe de hogar
1 Médico
2 Abogado
= 3 Carpintero
�
J Otros
Para facilitar el análisis, y dado que las categorías no pueden ser relacionadas de acuerdo con
algún ordenamiento específico, resulta conveniente elegir una categoría base o referencial33.
32
Muchas veces es difícil determinar si las categorías de elección son efectivamente ordenadas o no, o quizás
tienen la condición de secuencialidad que veremos más adelante. En ese caso, será mejor elegir el modelo menos
restrictivo, es decir, realizar la estimación como si se tratara de categorías no ordenadas.
33
La elección de la categoría base no resulta ser un procedimiento trivial, dado que la interpretación de resultados
se hará tomándola como referencia. Por ello, generalmente se escoge como base una categoría neutral (en el ejemplo,
no tener ocupación) o aquella que es el centro de interés del investigador (si se quiere establecer, por ejemplo, cuáles
V ariables dependientes limitadas multinomiales | 55
Pr (yi = k )
= F (x ik ' βk )
Pr (yi = k) + Pr (yi = m)
J −1 J −1
Pr (yi = j) 1 – Pr (yi = m) 1
∑ Pr (y = m) = = − 1 = ∑ G (x ij ' β j )
j =1 i
Pr (yi = m) Pr (yi = m) j =1
−1
J −1
Pr ( yi = m ) = 1+ ∑ G ( x ij 'β j )
j =1
son los determinantes de elegir ser economista, se podría establecer la misma como categoría base). En caso no haya
claridad sobre cuál podría ser la categoría base por elegir, se puede estimar el modelo numerosas veces tomando varias
categorías base alternativas, e interpretar y comparar los resultados que se obtenga con cada una de ellas.
56 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
G (x ik ' βk )
Pr (yi = k )= G (x ik 'βk ) Pr(y i = m ) = J −1
1 + ∑ G (x ij ' β j )
j =1
En principio, F (•) puede ser normal o logística, aunque dada la necesidad de evaluar múltiples
integrales en el caso de usar una normal, se prefiere la distribución logística. Esto configura
lo que se conoce como “modelo logit multinomial”.
A partir de la expresión anterior, se puede construir el ratio de probabilidad (RP) para dos
categorías cualesquiera:
34
Para un mismo agente, las características reciben pesos distintos para construir el nivel de utilidad asociado a
cada categoría.
V ariables dependientes limitadas multinomiales | 57
Pr(yi = k )
RP (k , k +1) = = exp (xi ' (βk − βk −1 )) (5.)
Pr(yi = k +1)
Basados en este resultado, es evidente que la presencia de una categoría base nos permite
una interpretación directa del signo y magnitud de determinado coeficiente como el efecto que
tiene el regresor en cuestión sobre la probabilidad de elegir la k-ésima alternativa respecto a
la categoría base. Para esto, basta recordar que los coeficientes de la categoría base han sido
normalizados en cero, con lo que (5.) resulta en:
Pr(yi = k )
RP (k ,m) = = exp (xi ' βk )
Pr( yi = m)
ln (RP (k ,m ) ) = x i ' βk
La estimación de este modelo implica obtener un total de J-1 ecuaciones, una para cada
categoría, excepto la base. A cada ecuación corresponde un vector de coeficientes (bk) y, de
acuerdo con la expresión anterior, cada coeficiente recoge el efecto de un cambio marginal
en el regresor correspondiente sobre el logaritmo del ratio de probabilidades de la k-ésima
categoría respecto a la categoría base. Por lo mismo, si el i-ésimo regresor se incrementa en
una unidad, el RP de la k-ésima categoría respecto a la categoría base se incrementa en (exp
(bik)–1) 100 por ciento.
Una de las principales desventajas de esta clase de modelos es que se ve afectado por lo
que se conoce como la propiedad de independencia de alternativas irrelevantes (IIA, por sus
siglas en inglés). Si divido una categoría ya existente en dos muy parecidas, debería esperarse
que ambas se repartieran la probabilidad de ser escogida que antes tenía la que ya estaba
presente, mientras que el resto de alternativas mantuvieran la misma probabilidad de ser
elegidas. No obstante, y de acuerdo con la propiedad de IIA, el modelo logit multinomial
reasigna las probabilidades de ocurrencia entre el total de categorías existentes, incluyendo
la nueva. Por lo mismo, no es apropiado cuando se sabe que se tienen categorías que son
sustitutas cercanas.
Una especificación alternativa al modelo visto previamente es aquel en el que las explicativas
dependen del individuo y de la categoría mientras que los coeficientes son invariables a
ambos factores. Este es conocido como el modelo condicional de McFadden (1973), en el que
los coeficientes representan los “precios implícitos” de las diferentes características de las
alternativas por escoger (o pesos específicos) mientras que xik es la percepción que el individuo
i tiene respecto de cada una de estas características.
Por ejemplo, si se quiere estimar un modelo de elección de la marca de una camioneta, este
podría incluir dentro del conjunto de explicativas a variables que reflejen la percepción del
individuo respecto de determinados atributos de cada marca, como el prestigio, la seguridad y
el valor de reventa. Esto configura al vector xik. Si, en promedio, los individuos que conforman
la muestra de trabajo valoran más el atributo “seguridad”, el coeficiente asociado tendrá un
valor relativamente mayor que el del resto de atributos, dado que los coeficientes, como ya
se dijo, son los “precios implícitos”.
Debido a que en este caso solo se cuenta con un único vector de coeficientes, ya no aplica
la elección de una categoría base y la normalización utilizada en el modelo anterior. Así, si
partimos de la expresión (3.), utilizamos una especificación logística y tomamos en cuenta
que solo existe un único vector de coeficientes, la probabilidad de elegir la k-ésima alternativa
puede expresarse como:
Téngase en cuenta que, como el valor de las explicativas depende de las categorías existentes
(y no solo del agente en cuestión), el efecto impacto atribuible al cambio en una variable
explicativa sobre la probabilidad de elegir determinada categoría es distinto al impacto de la
misma variable sobre la probabilidad de elegir otra de ellas.
puede utilizar para predecir la probabilidad de que cualquier individuo (dentro o fuera de la
muestra) escoja una de las J alternativas analizadas, dadas sus características específicas.
Finalmente, sería posible considerar un modelo combinado que incorpore tanto la percepción
sobre los atributos de las alternativas (xik) como las características de los individuos que
conforman la muestra (zi). Ello implicaría una nueva especificación para la probabilidad de
que el individuo i escoja la alternativa k, de la forma:
exp (xik ' β + zi ' γk )
Pr (yi = k ) =
J
∑ exp (x
j =1
ij ' β + zi ' γ j )
Las variables multinomiales ordenadas son aquellas que indican diversas alternativas que
guardan entre sí un ordenamiento específico. Ese sería el caso del comportamiento de la
economía de un país (crecimiento, estancamiento, recesión), de los percentiles de ingresos
en los que se puede categorizar lo que percibe una familia, del logro de competencias de un
conjunto de alumnos de educación básica (completamente logradas, en proceso de lograrse,
no logradas), entre otras posibilidades. Si tomamos como ejemplo el ingreso que percibe una
familia, ordenado en cuartiles, podríamos definir la variable yi como:
35
Nótese, además, que en el primer modelo el número de parámetros por estimar es igual al número de variables
explicativas del individuo (K) por m-1 (ecuaciones). En el segundo modelo, en cambio, se estiman tantos parámetros
como atributos se haya considerado para todo el conjunto de alternativas (K).
60 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Lógicamente, resulta mejor ubicarse en el cuartil más elevado de ingresos, mientras que
las familias más pobres son las que se encuentran en el primer cuartil. Por lo mismo, la
especificación de la variable de esta manera define, per se, un ordenamiento específico.
Ii* = xi ‘b + ei (7.)
Asimismo, se establecen puntos de corte (α) entre los cuales se sitúa el índice de performance.
Si Ii* < a1, el individuo se ubica en la categoría 1; si I* está entre α1 y α2, se sitúa en la categoría
2; si está entre a2 y a3, se encuentra en la 3; y si es mayor que a3, se ubica en la categoría 4.
De esta forma se requerirán tantos puntos de corte como categorías haya, menos uno. Téngase
en cuenta que las distancias entre los valores de corte no pueden asumirse como uniformes,
razón por la cual cualquier tipo de regresión lineal no debería ser aplicada.
Donde, comúnmente, F (•) puede ser normal estándar o logística, lo que da lugar a los modelos
probit o logit ordenado, respectivamente.
V ariables dependientes limitadas multinomiales | 61
Para que todas las probabilidades sean positivas, debe ser cierto que 0 < α1 < α2 < α3. Estos
puntos de corte son estimados por el modelo junto con los β y hacen posible determinar
las probabilidades estimadas de estar en cada categoría36. De hecho, si los α estimados
son significativamente diferentes de 0, ello implica que las categorías son definitivamente
ordenadas.
Como en el caso binomial, los coeficientes no tienen un significado individual sino dentro
del argumento de la función de densidad. No obstante, su signo indicará la dirección de la
relación con la probabilidad de estar en la categoría más alta, y la inversa de la misma en el
caso de la categoría más baja37. Las categorías intermedias tendrán efectos impacto que no
se puede definir a priori.
De hecho, y tal como se observa en las expresiones que siguen para el efecto impacto de
una variable continua, solo se puede adelantar el signo, sin ambigüedad, para los dos casos
extremos.
∂ Pr ( yi =1 )
= − f (α 1 − xi ' β ) βk
∂xk
∂ Pr ( yi = 2 )
= − f (α 2 − x i ' β ) + f (α 1 − xi ' β ) β k (9.)
∂xk
∂ Pr ( yi = 3 )
= − f (α 3 − x i ' β ) + f (α 2 − xi ' β ) β k
∂xk
∂ Pr ( yi = 4 )
= f (α 3 − xi ' β )β k
∂xk
Téngase en cuenta que los efectos impacto de las probabilidades de estar en cada una de las J
categorías, ante cambios de una misma variable explicativa, deben sumar cero, ya que consisten
en un juego de suma cero en lo que se refiere al impacto final sobre dichas probabilidades.
36
Cabe mencionar que las probabilidades de estar en cada una de las cuatro categorías, para un mismo conjunto
de valores de las variables explicativas, deben sumar 1.
37
Es decir, un coeficiente positivo indica que la variable explicativa correspondiente tiene una relación positiva
con la categoría más alta, y negativa con la más baja.
62 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Cabe mencionar, por último, que las particularidades anteriores también aplican a la
interpretación de los RP. Así, por ejemplo, un coeficiente positivo implica que cuanto mayor sea el
regresor asociado, mayor será el RP de la categoría más alta frente a las de menor valoración.
Estas variables son un tipo especial de dependiente ordenada en la que una categoría no
puede ser elegida sin haber pasado por un proceso previo de elección de la inmediatamente
anterior. Este carácter secuencial debe ser incorporado en la especificación de la probabilidad de
elegir una categoría determinada. Veamos un par de ejemplos que pueden ser ilustrativos.
1 si no se enfermó
2 si se enfermó pero no inició tratamiento
yi =
3 si se enfermó y sí inició tratamiento pero no lo terminó.
4 si se enfermó y terminó el tratamiento
Así, por ejemplo, si la persona se encuentra en el nivel 3 definitivamente no puede situarse
en las dos categorías anteriores, aun cuando previamente ha debido pasar por ellas para
alcanzar la 3. La definición de la probabilidad asociada con dicha categoría debe incorporar
esta consideración.
Podemos plantear este proceso de decisión secuencial por medio de un árbol de decisiones
como el siguiente.
Terminó
tratamiento
Inició
tratamiento
Sí No terminó
tratamiento
Se enfermó No inició
tratamiento
No
V ariables dependientes limitadas multinomiales | 63
A partir de estas estimaciones se puede obtener las probabilidades de estar en una categoría
determinada. Así, por ejemplo, la probabilidad de estar en la categoría 3 es igual a la probabilidad
de no terminar el tratamiento, dado que este fue iniciado porque la persona cayó enferma
(tercer modelo binomial), por la probabilidad de enfermarse e iniciar el tratamiento. Esta
última probabilidad, a su vez, corresponde a la probabilidad de iniciar tratamiento, dado que
se enfermó (segundo modelo binomial), por la probabilidad de caer enfermo (primer modelo
binomial). La definición de las probabilidades de todas las categorías analizadas se muestra
a continuación.
Cambiar el actual
Sí
Vender el actual
No
Mantenerse en la
situación actual
A partir del planteamiento anterior podemos definir las siguientes probabilidades, así como
la manera de estimarlas utilizando los coeficientes de tres modelos binomiales distintos.
El vector bˆ 1 se obtiene del modelo binomial que divide la muestra entre quienes adquieren
un auto nuevo y los que no lo hacen. El vector bˆ 2 proviene del modelo que diferencia entre
quienes reemplazan el vehículo que tienen y los que compran uno por primera vez, para lo que
toma como base la muestra de quienes compran un auto nuevo. Finalmente, el vector bˆ 3 se
obtiene del modelo que diferencia entre los que venden autos y los que no realizan ninguna
transacción, a partir de la muestra de quienes no adquieren un auto. Todo se resume en el
esquema siguiente.
Nótese que la propuesta de estimación secuencial planteada en los dos modelos antes
presentados solo es válida en la medida en que los factores aleatorios que afectan las diferentes
etapas de decisión sean independientes entre sí (independencia de los errores de las ecuaciones
que se estima sucesivamente).
Pr (2) + ∆Pr (2) = [Pr (2|~1) + ∆Pr (2|~1)] [Pr (~1) + ∆Pr (~1)]
= Pr (2|~1) Pr (~1) + [∆Pr (~1)Pr (2|~1) + ∆Pr (2|~1) Pr (~1) + ∆Pr (2|~1) ∆Pr(~1)]
∆Pr (2) = ∆Pr (~1)] [Pr (2|~1) + ∆Pr (2|~1) Pr (~1) + ∆Pr (2|~1) ∆Pr(~1)
Por ejemplo, este sería el caso de las notas que se obtienen en una evaluación, las mismas
que, según el sistema de calificación, pueden fluctuar solo entre 0 y 20. También se presenta
cuando solo podemos observar el gasto efectivo de aquellas personas que adquieren un bien
pero no su disponibilidad a pagar, más aún si es inferior al precio mínimo con el que es posible
acceder al bien. Finalmente, también es el caso de los ingresos percibidos por el trabajo
remunerado, dado que no es posible observar el ingreso potencial de una persona que no está
laborando en el momento en que se recoge la información por analizar. En cualquiera de estas
situaciones, las observaciones correspondientes son excluidas de la muestra (lo que se define
como “truncamiento”, ya sea incidental o no), o su incorporación en ella es distorsionada por
un valor específico que no es el real (lo que se define como “censura”).
Las razones conceptuales de estas limitaciones pueden ser diversas, pero es posible
categorizarlas en dos grandes grupos: el truncamiento y la censura. Ellos definen, a su vez, tres
tipos de variables dependientes continuas limitadas: las truncadas, las censuradas y aquellas
con sesgo de selección (o truncamiento incidental).
la información referida a las posibles explicativas del modelo, el vector xi , asociadas con esas
observaciones truncadas.
Por ejemplo, supongamos que queremos analizar la disponibilidad a pagar por un automóvil
nuevo, si es que es cierto que en el mercado el más barato que se puede encontrar tiene un
precio de US$ 7.000. De esta manera, cuando la persona está dispuesta a pagar US$ 7.000
o más, es probable que compre el auto y que se registre su gasto efectivo (yi )38 y toda su
información socioeconómica (xi ). Si, por el contrario, la persona está dispuesta a pagar menos
de US$ 7.000, no realiza ninguna compra y no se cuenta con sus datos asociados; es decir,
esa observación “desaparece” de la muestra.
Definamos el concepto de variable aleatoria truncada. Es aquella que tiene una función de
densidad de la forma:
f (y)
f (y | y < a) =
(1.)
Pr(y > a)
Dada la condicionalidad detrás de (1.), se justifica la necesidad de escalar la función de
densidad original, f (y), de tal manera que su integral sea uno cuando solo se incluyan los
valores no truncados, es decir, en este caso, los valores mayores a a . Este procedimiento se
conoce como “normalización de la densidad”, donde el denominador de (1.) es la constante
normalizadora que corresponde al integral del numerador en el rango entre –∞ y a .
Teorema 1
38
En este caso, suponemos que el gasto efectivo aproxima la disponibilidad a pagar dado que esta no es observable.
Este supuesto es razonable en la medida en que existe una amplia gama de marcas y precios para el bien “auto
nuevo”.
V ariables dependientes limitadas continuas | 69
(a − µ)
donde α = .
σ
La función l(•) es conocida como la “inversa del ratio de Mills”, que, en este caso, puede
ser:
f (α )
λ (α ) = si el truncamiento es hacia abajo (y > a) (2.)
1− F (α )
− f (α )
λ (α ) = si el truncamiento es hacia arriba (y ≤ a) 3.)
F (α )
La función δ (•), por su parte, viene dada por δ(a) = l(a) [l(a) - a], donde 0 < δ(a) < 1,
∀a.
Nótese que si se truncan los valores por debajo de una constante a, la media de la variable
truncada será mayor que la original, mientras que si se truncan hacia arriba, la primera será
menor que la última. De otro lado, la varianza de la variable truncada será siempre menor que
la de la variable original (dado que δ(a) se encuentra entre 0 y 1).
yi = xi ‘ b + ui, (4.)
Recuérdese que solo es posible observar la variable dependiente y sus determinantes cuando
esta supera el precio más bajo del mercado (a). Tomando el valor esperado de la disponibilidad
de pago, condicionada al truncamiento, se tiene:
E (yi|yi > a; xi) = xi ‘ b + E (ui|yi > a; xi) = xi ‘ b + E (ui|ui > a - xi ‘ b; xi) (5.)
70 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Donde:
f (α i ) a − xi ' β
λ (α i ) = , αi = .
1 − F (α i ) σ
De esta forma, el modelo de variable dependiente truncada sería:
yi yi > a = xi ' β + σλ ( αi ) + ui
(7.)
Consistente con nuestro ejemplo, mostremos a continuación cómo se deriva el efecto impacto
correspondiente cuando la variable dependiente está truncada para valores menores que a .
39
Como ya vimos antes, el valor esperado de yi en la muestra difiere del de la población total: es menor cuando
la censura es hacia arriba (yi ≤ a), y mayor cuando es hacia abajo (yi > a). Es relativamente sencillo demostrar que
la diferencia entre dichos valores esperados, el elemento sl(a), se reduce a medida que aumenta a, en el primer
caso, y también cuando disminuye a, en el segundo. Dicho diferencial aumenta en cualquiera de las dos situaciones
cuando se incrementa la varianza.
40
Note que, de acuerdo con lo indicado en (1.), la forma de la función de densidad truncada es la siguiente:
a − xi ' β f ( ui ) f ( ui )
f ui ui > = = .
σ Pr u > a − xi ' β 1 − F (α i )
i σ
V ariables dependientes limitadas continuas | 71
∂E y y > a ; x i ) ∂λ (α i ) ∂αi
( i i = β j +σ (9.)
∂xij ∂α i ∂xij
∂λ (α i ) β j
= β j +σ −
∂α i σ
∂λ (α i )
= β j 1 −
∂α i
∂λ (α i ) ∂F (α i )
Para hallar el diferencial es necesario tomar en cuenta que = f (α i ) y que la
∂α i ∂α i
función de densidad supuesta es la normal, por lo que ∂f (α i ) = −α i f (α i ). Con esto, se tiene
∂α i
el siguiente resultado41:
∂E ( y i y i > a ;x i )
= β j {1 − λ (αi ) [λ( αi) − αi ]} (10.)
∂xij
La expresión entre llaves, que se encuentra entre 0 y 142, es el factor de ajuste del coeficiente
bj (que corresponde el efecto impacto en un modelo lineal para toda la población), que da
cuenta del efecto del truncamiento. Nótese que s afecta la magnitud de los efectos impacto
(a través de ai) aun cuando no su dirección.
41
Se deja al lector la comprobación del mismo.
42
Dicha expresión es la varianza de una variable truncada estandarizada, cuando el truncamiento es hacia abajo,
tal como se desprende del teorema 1.
43
Es posible también que se presenten muestras con características combinadas de censura y truncamiento: la muestra es
diseñada solo para observaciones con un valor límite de a, pero las observaciones son registradas con valores hasta o desde b.
72 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Otro ejemplo nos ayudará en la formalización de este modelo. Supongamos que la variable
latente (yi*) es el puntaje en una prueba de aptitud que incluye puntos en contra, mientras
que yi se define de tal forma que:
y * si yi* > 0
yi = i (11.)
0 si yi * ≤ 0
En cualquiera de los dos casos se conocen los potenciales factores explicativos del puntaje
(xi).
Si trabajamos en el ámbito del modelo de regresión, tenemos que la variable latente puede
ser representada como:
yi* = xi ‘ b + ui (12.)
Para establecer el valor esperado de la variable observada (yi), que considera también las
observaciones censuradas, es necesario diferenciar entre dos situaciones alternativas. Al igual
que en el ejemplo anterior, en lo que sigue suponemos que el valor de corte es igual a cero
(a = 0).
Por ejemplo, volviendo al caso de la disponibilidad a pagar por un automóvil, si los autos en venta tienen precios por encima de
US$ 7.000 se genera el truncamiento, ya que no se observará ninguna venta por debajo de ese precio. Si, además,
para compras inferiores a US$ 10.000 solo se reporta la categoría “menos de 10.000” y no el valor exacto, las compras
estarán censuradas en el valor mínimo de US$ 10.000.
V ariables dependientes limitadas continuas | 73
La pregunta es, ahora, cómo estimar los modelos que contienen variables dependientes
censuradas y, específicamente, aquellos planteados en las ecuaciones (13.) y (16.). A
continuación se presentan dos posibles alternativas.
i) Primera etapa
ˆ para estimar por MCO cualquiera de los dos modelos de las ecuaciones (13.)
Se utiliza l(a)
o (16.)44:
i y i = ( x i ' β + σλ ( αi ) ) F ( − α i ) + u i (17.)
= F ( − αi) x β + σ f ( αi ) + ui
El uso de uno u otro modelo dependerá del objetivo de la investigación. El primero permitirá
predecir el valor promedio del total de observaciones. En el ejemplo de la disponibilidad a pagar
por un automóvil, sería el pago promedio realizado por una persona cualquiera de la muestra
total, haya comprado el auto o no (el valor promedio de compra45). El segundo modelo, en
cambio, servirá para calcular el valor promedio pagado por aquellas observaciones no censuradas
y, de nuevo en el ejemplo, haría posible predecir el valor promedio de las ventas efectivas.
44
Tómese en cuenta que la distribución normal supuesta para el modelo probit es simétrica, por lo que
1 – F (–z) = F (z).
45
Considerando que aquellos que no realizaron la compra pagaron un monto igual a cero.
V ariables dependientes limitadas continuas | 75
Para estimar un modelo con variable dependiente censurada mediante el método de máxima
verosimilitud (MV), es necesario considerar que se tiene dos tipos de información. Aquella
referida a las observaciones no censuradas, para las que se conoce la esperanza condicional
de yi, y aquella referida a las observaciones censuradas, para las que se conoce la probabilidad
de estar censurada.
L = ∏ f ( y i )∏ Pr ( y i = 0 )
(20.)
yi > 0 yi =0
Note que el tobit implica que los coeficientes estimados promedian dos tipos de efectos de
las variables explicativas: aquel sobre la probabilidad de estar censurado y, dado que no lo
está, el efecto sobre el valor esperado de yi.
Si no es posible garantizar que las mismas variables explicativas den cuenta de la censura, así
como del fenómeno económico que se quiere analizar condicionado a dicha censura, el tobit
puede no ser el modelo más adecuado para realizar la estimación, ya que el procedimiento
que involucra implica restringir ambos modelos a un mismo set de variables explicativas. Por
ejemplo, y tal como se afirma en Johnston y Dinardo (1997), saber conducir un automóvil puede
ser una explicativa importante para adquirir o no uno, pero podría no tener mayor impacto
sobre la cantidad que se paga por él una vez que se ha decidido comprarlo. En ese caso es
mejor usar el método de estimación en dos etapas visto previamente, en el que se da libertad
para incorporar variables explicativas distintas en cada una de ellas.
46
Aunque los problemas de censura ya habían sido analizados previamente, Tobin fue el primero en vincularlo con
el análisis de regresión (Tobin 1956). Además, lo relacionó con el modelo probit en el sentido de que hay dos tipos de
observaciones: sobre las que sí se tiene el valor de la dependiente, y las que tienen un valor de cero asignado. Es por
esta razón que se le conoce como el “modelo probit de Tobin” o “tobit”. No obstante, el problema de heterocedasticidad
es más grave en un tobit que un probit, ya que en el primero los b y s son identificables por separado en su parte
continua, mientras que en el probit se estima b/s de manera conjunta (Johnston y Dinardo 1997).
76 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Por último, cabe destacar que las estimaciones por MCO sobre toda la muestra que
desconocen el problema de censura, son inconsistentes y suelen ser menores en valor absoluto
a los del tobit47.
En cuanto a los efectos impacto, puede ser interesante estimarlos tanto para la muestra
completa (ecuación [17.]) como para las observaciones no censuradas (ecuación [18.]). En este
segundo caso, el efecto impacto será similar al de variables truncadas (ecuación [10.]), aun
cuando se observa un cambio de signo (si tomamos en cuenta que se está trabajando con una
censura hacia abajo, con un corte igual a cero y suponemos una distribución simétrica). Así:
∂E (y i y i > 0;x i )
= β{ 1− λ(αi) [αi + λ(αi)]} (21.)
∂xij j
Este resultado, sin embargo, tiene las mismas consecuencias vistas previamente respecto
del problema de truncamiento.
En el caso del modelo (17.) (para la muestra completa), se tiene el siguiente efecto
impacto:
47
Si se divide el estimador MCO por la proporción de observaciones no censuradas que hay en la muestra, se obtiene
una buena aproximación del estimador de máxima verosimilitud (Greene 2003).
48
Esta igualdad es solo válida cuando la relación entre las variables es lineal (Novales 1997).
V ariables dependientes limitadas continuas | 77
∂E ( y i x i ) βj x 'β βj
= β j F ( − αi ) + x i ' β f (αi ) − σ i f (α i ) (22.)
∂xij σ σ σ
= β j F ( −αi )
De esta manera, en el caso de trabajar con la muestra completa, para que el coeficiente bj
refleje el efecto impacto de la variable explicativa j sobre el valor esperado de yi, es necesario
multiplicarlo por la probabilidad de la no censura, F (–ai). Si comparamos este efecto impacto
con aquel asociado al de toda la población (bj), notaremos que ambos se asemejarán en la
medida en que F (–ai) tienda a 1. Como es de esperarse, los resultados que toman en cuenta una
potencial censura en la muestra y aquellos referidos a la data sin censurar serán equivalentes
en la medida en que la mayoría de observaciones se concentren en la parte no censurada. Bajo
estas circunstancias, las estimaciones que toman en cuenta la especificación para la medida
condicional dada en (13.) serán equivalentes a aquellas que se obtendrían si se regresiona yi
sobre xi mediante MCO49.
Por ejemplo, supongamos que se quiere analizar el rendimiento estudiantil pero solo se
cuenta con información suficiente sobre dicho rendimiento y sus determinantes para el caso
de escuelas privadas. Como veremos, el hecho de trabajar solo con aquellos niños y jóvenes
cuyas familias decidieron matricularlos en un colegio particular puede tener un efecto sobre
el modelo que se busca estimar y, en especial, sobre su media.
49
Formalmente, E (yi|xi) = (xi ‘b + sl (ai)) (1–F (ai)) → xi ‘b, en la medida en que a → -∞. Es decir, la media
condicional de la variable dependiente tenderá a la clásica especificación lineal en la medida en que la censura no sea
relevante. Vale la pena notar que, en general, b no se refiere a los efectos marginales que se obtendrían al regresionar
yi sobre xi mediante MCO, sino a los efectos marginales sobre la variable no observable (yi*). Ocurre, sin embargo,
que estos son equivalentes en el caso especial en que la censura no es relevante.
50
Solo se presenta el problema de sesgo de selección cuando la muestra no es aleatoria o la selección muestral no
es exógena. Es decir, si por ejemplo se separan observaciones de una muestra de manera aleatoria, o se utiliza algún
criterio exógeno como la edad, el sexo o la raza, no se producirá un problema de sesgo de selección.
78 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
En lo que respecta al rendimiento, supongamos que, en general, este puede ser representado
como:
Donde yi* es la nota final obtenida en determinado año de estudios escolares. Es necesario
notar que en la muestra de trabajo no se tienen observaciones de la distribución completa de
yi* sino solo de aquellas observaciones provenientes de estudiantes matriculados en una escuela
privada. Es decir, la variable dependiente observada (yi) viene dada según: yi = yi* si zi* > a.
Esto implica que si bien E [yi*|xi, wi] = xi’b, lo mismo no ocurre para E [yi |xi, wi]. En particular,
la esperanza condicional de interés viene dada por: E [yi|xi, wi] = E [yi*|zi* > a; xi, wi].
En este caso, entonces, será necesario definir la densidad condicional de yi* dado zi* de la
siguiente manera:
f ( yi *, zi * )
f ( yi *, zi * zi * > a ) = Pr (z * > a ) (25.)
i
Si dos variables y y z tienen una distribución normal bivariada, con medias my y mz, varianzas
sy2 y sz2, y correlación ryz (distinta de cero), entonces:
(a − µ z )
Donde α z = , y l(•), la inversa del ratio de Mills, viene dada según:
σz
f (α z )
λ ( αz ) = si el truncamiento es hacia abajo (z > a) (26.)
1 − F (α z )
− f (α z )
λ ( αz) = si el truncamiento es hacia arriba (z ≤ a) (27.)
F (α z )
La función d(•), por su parte, viene dada por d(az) = l (az) [l (az)-az] , donde 0< d(az) < 1∀az.
Si volvemos al ejemplo planteado y tomamos en cuenta los resultados del teorema 2 así como
las especificaciones dadas en (23.) y (24.) para zi* e yi*, respectivamente, tenemos que:
E [yi|zi* > a; xi, wi] = E [yi*|zi* > a; xi, wi] = xi’ b + ruesul (az) (28.)
a − wi ' γ f (α z )
Donde: α z = y λ (α z) = .
σε 1 − F (α z )
Vale la pena destacar varios elementos de la expresión anterior. En primer lugar, es claro
que E [yi|zi* > a; xi, wi] ≠ x’i b , excepto cuando rue = 0 o cuando a → –∞. Es decir, no bastará
con modelar la esperanza de nuestra variable dependiente como una combinación lineal de
sus determinantes si es que solo es posible observarla efectivamente cuando el agente cumple
con una característica especial (no es cierto que a → –∞) y dicha característica influye sobre
el resultado que estoy modelando (rue ≠ 0).
elegir como al rendimiento del niño en el colegio. Estos no observables serán capturados en ei y
mi, y el grado y dirección en el que afecten ambos fenómenos (selección y rendimiento) vendrá
dado, precisamente, por la correlación entre los dos términos de error (rue ) y su signo.
5.3.1 Estimación
La estimación del modelo de una variable dependiente con sesgo de selección puede hacerse
a través dos alternativas: MCO y MV. Cada una tiene una lógica específica que se detalla a
continuación.
51
Nótese que en la medida en que el truncamiento es hacia abajo, la “corrección” planteada tendrá un signo igual
al que exhiba este coeficiente de correlación.
52
Heckman (1979).
53
Es necesario contar con información referida a la parte de la muestra truncada para realizar esta estimación. En
nuestro ejemplo, esto equivale a tener información referida a las características socioeconómicas de los estudiantes
matriculados en una escuela pública, aun cuando no se dispone de información sobre su rendimiento.
V ariables dependientes limitadas continuas | 81
i) Primera etapa
Para ello se estima un probit que permita obtener los parámetros g/se. Con ellos se construyen
ˆaz y l (a
ˆ z), de acuerdo con lo indicado en (28.)
ˆ z)
yi = xi ‘ b + ruesul(a (29.)
ˆ z).
Es decir, regresionar yi sobre xi y l(a
Es necesario considerar que en la ecuación de selección se debe incluir, por lo menos, una
variable explicativa adicional que no esté en la ecuación de interés. Si bien la inversa del ratio
de Mills (que es un regresor de esta última) es una función no lineal de las explicativas de la
ecuación de selección, frecuentemente se puede aproximar a través de una función lineal. Por
lo mismo, no incluir dicho regresor adicional podría llevar a que la inversa del ratio de Mills
esté altamente correlacionada con las otras explicativas de la ecuación de interés.
b. Máxima verosimilitud
Para estimar un modelo con sesgo de selección a través del método de MV es necesario
considerar que se tiene dos tipos de información. Aquella referida a las observaciones no
truncadas, para las que se conoce la esperanza condicional, y aquella referida a las observaciones
truncadas, para las que se cuenta con la probabilidad de estarlo.
L = ∏ Pr (z * > 0) f ( y
zi * > 0
i i z i * > 0 ) ∏ Pr ( zi* ≤ 0 )
zi * = 0
(30.)
f ( yi )
f ( yi zi * > 0 ) =
Pr ( zi * > 0 )
L= ∏ f (y )∏ Pr ( z *≤ 0 )
zi * > 0
i
zi * = 0
i (31.)
Discutamos, finalmente, el efecto impacto de una variable explicativa que se encuentre tanto
en la ecuación de selección como en la de interés, sobre una dependiente con truncamiento
incidental. Retomando (28.) tenemos:
f (α z )
Donde: λ ( α z ) = .
1− F (α z )
− wi ' γ f (α z )
Si suponemos que a = 0 tenemos, además, que α z = y λ (α z) =
σε F ( −α z )
Entonces, el efecto impacto de un cambio en una variable explicativa xj sobre la media de
yi truncada incidentalmente sería:
Vale la pena resaltar que la corrección por truncamiento incidental no es solo relevante
cuando nos interesa conocer los efectos marginales para la muestra truncada. De hecho, en
muchos casos el interés de la investigación se concentra en determinar el valor del vector b,
y, en cualquier caso, su estimación consistente requiere considerar la corrección por la inversa
del ratio de Mills.
Por último, cabe mencionar el caso en que las ecuaciones de interés tengan especificaciones
diferentes para ambos grupos. En nuestro ejemplo, esto equivale a que el rendimiento en
la escuela privada responda a un modelo distinto al de la pública. De ser este el caso, será
necesario estimar dos regresiones separadas para cada uno, evaluando en ambas la corrección
por el sesgo de selección correspondiente54.
54
Téngase en cuenta que en el momento de trabajar con el grupo donde z = 0, la inversa del ratio de Mills asociada
− f (α z )
a la probabilidad de que z* > a es igual a: λ ( α z ) = (véase la expresión dada en [27.] tomando en cuenta
F (α z )
que los roles entre la muestra truncada y no truncada se han invertido).
Cuadro 1 . Variable dependiente continua limitada: resumen con las especificaciones más comunes
Especificación de la variable
Fenómeno Media condicional relevante Efectos impacto relevantes
dependiente
Efecto del j-ésimo regresor sobre toda la población:
Media condicional para toda la muestra: Efecto del j-ésimo regresor sobre toda la muestra:
y * si yi * > 0
yi = i E (y i x i ) = (x i ' β + σλ (αi ))(1 − F (αi ))
0 si yi * ≤ 0 ∂E (y i x i )
= β j F (− α i )
∂xij
yi * = xi ' β + ui
Media condicional para la muestra no censurada: Efecto del j-ésimo regresor sobre la muestra no cen-
Censura ui ∼ (0, σ 2 ) surada:
E (y i y i > 0;x i ) = x i ' β + σλ (αi )
84 | Mo d elo s d e d at o s d e p anel y variab les dependientes limitadas : teoría & práctica
Media condicional para la muestra no truncada: Efecto del j-ésimo regresor sobre la muestra no trun-
cada cuando el regresor solo afecta la ecuación de
E y i z i * > 0;x i ,wi = xi ' β + ρu ε σu λ (αz )
rendimiento:
y * si zi * > 0 f ( wi ' γ σ ε ) ∂E y i z i * > 0;x i ,wi
yi = i − wi ' γ = βj
N .D . si z i * ≤ 0 αz = , λ (α z ) = ∂xij
σε F (w i ' γ σ ε )
Truncamiento y * = x ' β + u
i i i Efecto del j-ésimo regresor sobre la muestra no trun-
incidental
cada cuando el regresor afecta tanto a la ecuación
(sesgo de z i * = w i ' γ + ε i
de rendimiento como a la de selección:
selección) 2
ui 0 σu ρuεσu σε
ε ∼ N 0 ,
i ∂E y i z i * > 0;x i ,wi
ρuε σu σε σ2ε
=
∂xij
ρuε σ u γ j
βj − λ (α z )2 − α z λ (α z )
σε
V ariables dependientes limitadas continuas | 85
Bibliografía | 87
Bibliografía
BELTRÁN, Arlette y Janice SEINFIELD
2009 Identifying Successful Strategies for Fighting Child Malnutrition in Peru. Documento
inédito. PNUD.
CASTRO, Juan F.
2008 “Política fiscal y gasto social en el Perú: ¿cuánto se ha avanzado y qué más se puede
hacer para reducir la vulnerabilidad de los hogares?”. En: Apuntes, 62, primer semestre
del 2008. Centro de Investigación de la Universidad del Pacífico.
DEATON, Angus
2009 Randomization in the Tropics, and the Search for the Elusive Keys to Economic
Development. National Bureau of Economic Research.
2000 The Analysis of Household Surveys: A Microeconometric Approach to Development
Policy. The World Bank, The Hopkins University Press.
GOURIEROUX, Christian
2000 Econometrics of Qualitative Dependent Variables. Cambridge, Reino Unido: Cambridge
University Press.
GREENE, William H.
2003 Econometric Analysis. 5ª ed. New York University. Prentice Hall.
GUJARATI, Damodar N.
2007 Econometría. 4a ed. McGraw-Hill.
HECKMAN, James J.
1979 “Sample Selection Bias as a Specification Error”. En: Econometrica, 47, pp. 153–61.
LUSTIG, Nora
1999 Crises and Poor: Socially Responsible Macroeconomics. Sustainable Development
Technical Paper Series POV-108. Inter-American Development Bank.
MADDALA, G. S.
1983 Limited-Dependent and Qualitative Variables in Economics. Nueva York: Cambridge
University Press.
McFADDEN, Daniel L.
1973 “Conditional Logit Analysis of Qualitative Choice Analysis”. En: ZAREMBKA, P. (Ed.)
Frontiers in Econometrics. Nueva York: Academic Press, pp. 105-42.
NOVALES, Alfonso
1997 Estadística y Econometría. Madrid: McGraw-Hill.
Bibliografía | 89
TOBIN, James
1956 “Estimation of Relationships for Limited Dependent Variables”. En: Econometrica, 26,
pp. 24-36.
WILKS, Samuel S.
1962 Mathematical Statistics. Nueva York: Wiley [2a ed. corregida, 1963]
WOOLDRIDGE, Jeffrey
2002 Econometric Analysis of Cross Section and Panel Data. MIT Press.
BIBLIOTECA UNIVERSITARIA
BUP
Beltrán, Arlette
Modelos de datos de panel y variables dependientes limitadas : teoría y práctica / Arlette
Beltrán, Juan Francisco Castro. -- Lima : Universidad del Pacífico, 2010.
Incluye referencias bibliográficas.
La Universidad del Pacífico no se solidariza necesariamente con el contenido de los trabajos que publica.
Prohibida la reproducción total o parcial de este texto por cualquier medio sin permiso de la Universi
dad del Pacífico.
Índice
1. Introducción................................................................................................................................. 7
Bibliografía .................................................................................................................................. 97
1. Introducción
Sobre los temas de este libro
Para lograr lo anterior, debemos empezar por reconocer que el fenómeno bajo análisis es
complejo (como la mayoría de fenómenos sociales) y que depende de muchas otras variables.
Así, partimos de un marco de trabajo dado por un conjunto de supuestos sobre la manera como
han sido generados los datos asociados a nuestras variables, tanto la(s) que es(son) explicada(s)
como las que hemos elegido para explicarla(s), a partir de algún modelo conceptual o teórico.
Dados estos supuestos, procedemos luego a buscar la técnica de estimación que arroje los
resultados más precisos posibles, y nos preocupamos por identificar el estimador alternativo
más apropiado en caso alguno de estos supuestos no se verifique.
En general, podemos decir que nuestra preocupación respecto a la “precisión” tiene que
ver con la posible distancia que habrá entre el valor numérico estimado y el valor “real” (o
paramétrico) del impacto marginal que tiene la variable de interés sobre el fenómeno analizado.
Esta distancia viene determinada tanto por la dispersión de los posibles valores estimados a
partir de la técnica empleada, como por el valor alrededor del cual estas probables respuestas
se concentran o convergen.
8 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
El lector familiarizado con el análisis econométrico habrá notado que los pasos y
consideraciones resumidos en los párrafos anteriores corresponden al contenido de un curso
o texto de econometría básica. El marco de trabajo viene dado por los supuestos del modelo
lineal general y, bajo este contexto, el estimador de mínimos cuadrados ordinarios (MCO) es el
preferido, atendiendo tanto a sus propiedades para muestras pequeñas como a aquellas para
muestras grandes. De hecho, estas propiedades tienen que ver con la noción de “precisión”
explicada líneas arriba: la dispersión de las posibles respuestas está relacionada con la varianza
del estimador (se busca que sea la mínima posible – propiedad de eficiencia), mientras que la
posibilidad de que el valor alrededor del cual estas respuestas se concentran o convergen sea
igual al valor paramétrico, tiene que ver con las propiedades de insesgamiento o consistencia,
respectivamente.
El hecho de enfrentar una gama más amplia de fenómenos sociales por explicar se ha
traducido, también, en la necesidad de introducir supuestos distintos a los del modelo lineal
general en el momento de caracterizar los datos. Esto, en muchos casos, implica utilizar técnicas
econométricas alternativas al estimador MCO. Varios de estos nuevos supuestos y técnicas
son el tema central de este libro, el cual, en particular, tiene que ver con la modelación de
variables dependientes limitadas y el trabajo con datos de panel.
El primer grupo hace referencia a las técnicas necesarias para trabajar con variables
dependientes cuyo rango de posibles valores está acotado, ya sea por la naturaleza misma
del indicador o por el tipo de muestra utilizado. Al mencionar la naturaleza del indicador nos
referimos al caso de variables dependientes discretas, donde la principal extensión respecto
al modelo lineal general radica en que la media condicional de la variable que se busca
modelar ya no es una función lineal de los parámetros. En la medida en que las variables que
pertenecen a este grupo indican el resultado directo de un proceso de toma de decisiones por
parte de agentes individuales (por ejemplo, participar o no en el mercado laboral; inscribirse
en la instrucción superior; trabajar o quedarse en casa), estos modelos son típicamente
Introducción | 9
empleados para evaluar el rol de los incentivos y posibles restricciones que enfrentan los
agentes en el momento de tomar dichas decisiones (retornos esperados, acceso al crédito,
oferta de servicios públicos, entre otros). La no linealidad del modelo, por su parte, se debe a
que este explica la probabilidad de que un agente determinado elija alguna de las categorías
u opciones analizadas. ¿Cómo hacer para modelar una probabilidad e interpretar el efecto de
distintas variables sobre la misma? Los acápites de variable dependiente discreta de este libro
responderán esta pregunta.
Cuando hablamos del tipo de muestra utilizado, por otro lado, nos referimos a aquellos casos
en los que el rango de posibles valores de la variable dependiente se encuentra truncado o
censurado. El caso más emblemático tiene que ver con el fenómeno de sesgo de selección,
y se refiere a aquellas situaciones en que los atributos que determinan la pertenencia a
la muestra afectan también al resultado que se busca explicar o modelar. En este caso, la
extensión respecto al enfoque clásico del modelo lineal general tiene más que ver con nuestra
preocupación por “dejar todo lo demás constante” en el momento de cuantificar los efectos
que nos interesan. Imaginemos que se quiere evaluar el resultado de determinado tratamiento
médico no convencional y se utiliza una muestra de pacientes en un hospital caracterizado
por la aplicación de métodos no convencionales. El hecho de pertenecer a la muestra utilizada
(estar en el hospital en cuestión) responde a un atributo (la confianza en los métodos no
convencionales) que puede terminar afectando lo que se desea medir (la mejoría o sensación
de bienestar de los pacientes). ¿Cómo saber entonces qué parte del efecto tiene que ver con
el tratamiento y cuál con el hecho de estar trabajando con un grupo que confía (más que el
promedio) en estos métodos? El acápite de truncamiento, censura y sesgo de selección de este
libro mostrará al lector cómo lidiar con situaciones como esta.
El segundo grupo de técnicas se relaciona con el manejo de información que varía tanto a
través del espacio como a lo largo del tiempo, o, para ser más precisos, con información para
un mismo conjunto de unidades a lo largo de más de un período. Esto es lo que en la literatura
se conoce como un “modelo de datos de panel” o “de datos longitudinales”. Desde un punto de
vista práctico, la principal ventaja de una base de datos con estas características se relaciona,
una vez más, con nuestra preocupación por “dejar todo lo demás constante”.
Respecto al modelo lineal general, el hecho de contar con información a lo largo del tiempo
para una misma unidad de análisis, permite asumir una estructura de error más compleja,
que destaque de manera explícita la presencia de características no observables atribuibles
a cada unidad de análisis. Este punto está estrechamente vinculado con los problemas de
endogeneidad (o de regresores estocásticos) que típicamente acompañan cualquier esfuerzo
de modelación econométrica que no sea puramente experimental. Si recordamos que estos
10 | Modelos de datos de panel y vari ables dependientes limitadas: teoría & práctica
no observables son los que típicamente causan los problemas de endogeneidad de nuestros
regresores, la posibilidad de reconocerlos y controlar por su presencia es, sin duda, beneficiosa
en términos de la “precisión” (consistencia) de nuestros estimados.
Un investigador algo más escrupuloso dudará siempre sobre si efectivamente hemos podido
dejar “todo” constante y no vacilará en atribuir al error del modelo los efectos de alguna
variable que no es posible capturar y que sí afecta la incidencia del robo. Si, de acuerdo con
la lógica de un modelo de datos de panel, suponemos que este efecto es particular a cada
tienda por departamento y no registra variaciones significativas a lo largo del tiempo (como la
motivación del personal de seguridad), la posibilidad de observar la evolución de la incidencia
de robos en cada una de ellas (antes y después de la instalación de las cámaras) puede darnos
la solución. Una manera de controlar por esta heterogeneidad no observable es comparando
el diferencial de robos antes y después de instalado el sistema de seguridad entre las tiendas
donde fue instalado y aquellas donde no. Es decir, en lugar de comparar los robos en las tiendas
con cámaras frente a los robos en las tiendas sin cámaras (donde subsisten los efectos no
observables), comparamos la evolución de estos robos. Si al lector le interesa conocer qué
técnicas se puede aplicar para garantizar esto en el contexto de un modelo lineal, lo invitamos
a revisar nuestro capítulo de datos de panel.
Este libro trata sobre los temas, técnicas e interrogantes discutidos en los párrafos anteriores,
desde un punto de vista dual. Por un lado, se ha realizado un breve desarrollo teórico para cada
tópico. Su objetivo es formalizar el modelo estadístico asociado a cada tema, las propiedades
más importantes de los estimadores, y la manera como se utilizan sus resultados para hallar
los efectos marginales de las variables de interés. Conocer las principales características del
Introducción | 11
modelo estadístico teórico es fundamental para elegir adecuadamente la técnica por emplear,
mientras que estar familiarizado con el cálculo de los efectos marginales es crucial para una
adecuada interpretación de los resultados obtenidos.
El otro lado está escrito desde un enfoque práctico y tiene que ver con el desarrollo de
casos aplicados con información e interrogantes reales. En cada uno de ellos, el lector podrá
encontrar dos elementos: (i) una guía sobre cómo aplicar las técnicas discutidas en el entorno
del paquete estadístico Stata; y (ii) un ejemplo de cómo interpretar, presentar y discutir sus
resultados a la luz de un objetivo de investigación y una hipótesis de trabajo.
Por todo lo anterior, pensamos que este libro puede tener diferentes tipos de lector. Uno
de ellos será aquel que, medianamente familiarizado con las técnicas econométricas que se
presentan, quiera analizar qué tipo de preguntas se responden mejor con cada una, o confirmar
si alguna de las técnicas aquí discutidas se ajusta a la pregunta que busca responder, para
pasar directamente a plantear su modelo, traducir las hipótesis de trabajo en hipótesis sobre
los coeficientes de las variables explicativas y, finalmente, interpretar adecuadamente los
resultados obtenidos luego de la estimación. A este lector, le sugerimos revisar directamente
los casos prácticos y solo voltear a las secciones teóricas cuando enfrente alguna duda de
esa naturaleza.
Por último, y sea cual fuere el lado por el que se desee empezar a leer, se asume que el lector
maneja medianamente bien los conceptos básicos de la econometría, al nivel de los que se
proponen en textos como los de Gujarati (2007) o Novales (1997).
Antes de terminar (o comenzar), queremos agradecer a Pedro Casavilca, por su apoyo con las
versiones preliminares de los casos; a Fernando Mendo, por ayudarnos a concluir con éxito este
proyecto; y a nuestros alumnos, por hacernos las preguntas apropiadas para guiar el énfasis
en los temas que se presentan en este libro.
Vulnerab ilid ad d el cons umo frente a s hocks idios incrás icos y agregados | 13
Al respecto, existe suficiente consenso sobre los canales a través de los cuales una crisis
puede afectar el ingreso de los hogares y sobre cuáles son las características que llevan a que
un hogar pobre sea más vulnerable tanto frente a shocks negativos idiosincrásicos como a
agregados. En particular, y tal como lo reconocen Lustig (1999) y Braun y Di Gresia (2003), los
hogares pobres tienen una cartera poco diversificada de activos, acceso limitado al mercado de
crédito formal (debido a la existencia de asimetrías de información y altos costos de transacción)
y están típicamente autoempleados o trabajan en el sector informal (lo que incrementa el
nivel de riesgo asociado a su fuente de ingresos y los excluye del sistema de seguridad social
pública). Unido a esto, las recesiones exhiben efectos más persistentes en los hogares pobres
debido a que típicamente implican pérdidas en su dotación de capital humano (un estado de
salud deficiente y/o una menor calificación educativa).
1
Basado en Castro (2008).
14 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
2. Metodología
En este caso, resulta indispensable contar con una estructura de base de datos de panel,
en la medida en que el análisis se basa en medir el grado de correlación existente entre las
variaciones del consumo y las variaciones del ingreso del hogar. Por lo mismo, es necesario
contar con observaciones para un mismo conjunto amplio de hogares en, por lo menos, dos
períodos consecutivos.
Por otro lado, la presencia de factores no observables que influyen sobre la variación del
consumo así como los potenciales errores de medida de esta variable, hacen probable la
existencia de correlación contemporánea entre los regresores propuestos y el término de error.
Frente a esto, y tal como fue discutido en la referencia teórica, el hecho de contar con un
panel de datos permite controlar por aquellos factores no observables que sean particulares
a cada agente de la muestra.
Como se intuye del primer acápite, las principales variables del estudio corresponden al gasto
e ingreso del hogar. Aunado a esto, será necesario identificar si el hogar en cuestión tiene un
nivel de gasto per cápita por debajo de la línea de pobreza y si accede a algún programa de
asistencia alimentaria.
Vulnerab ilid ad d el cons umo frente a s hocks idios incrás icos y agregados | 15
Variable dependiente
Nombre Especificación Descripción
Cambio del logaritmo del consumo per cápita
del i-ésimo hogar entre el período t-1 y t
Dgaspc ∆lncit
(tasa de crecimiento anual del consumo per
cápita del i-ésimo hogar)
Siguiendo a Ravallion y Chaudhuri (1997), la ecuación empírica más sencilla para evaluar
la vulnerabilidad de los hogares puede ser representada de la siguiente forma:
Donde eit es el término de error específico a cada hogar y momento del tiempo, y αt es
el vector de parámetros asociado a un conjunto de variables dicotómicas que identifican
el período en cuestión. Tal como se discute en la referencia teórica, la inclusión de estas
variables equivale a desviar las tasas de crecimiento del ingreso de los hogares respecto de
los promedios tomados (entre hogares) en cada momento del tiempo: ∆lnyit – ∆lnyt . Este desvío
resulta fundamental en la medida en que el análisis se basa en medir el grado de exposición a
shocks idiosincrásicos y estos, como su nombre lo indica, se refieren a cambios en el ingreso
que son particulares a cada hogar. Este desvío, por tanto, captura el shock idiosincrásico en la
medida en que “limpia” a la variación del ingreso del i-ésimo hogar de la variación promedio
registrada en el año en cuestión.
16 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Es necesario destacar que los estimados de β en (1.) y (2.) resultarán siempre iguales. De
hecho, en ambos casos el efecto del cambio en el ingreso del i-ésimo hogar se encuentra
controlado por el cambio en el ingreso promedio. La diferencia reside, entonces, en que (2.)
permite evaluar directamente el rol de los shocks agregados.
Al respecto, y en un mundo autárquico (donde no existe risk sharing), cabe esperar que la
imposibilidad de compartir los recursos conduzca a que el crecimiento del ingreso promedio
no tenga efecto sobre el crecimiento del consumo de ningún hogar, luego de controlar por el
crecimiento en el ingreso específico del hogar. Así, evidencia en contra de la hipótesis γ1 = 0
puede interpretarse como evidencia a favor de la existencia de cierto grado de risk sharing.
Para comprender mejor lo anterior, resulta ilustrativo considerar (2.) como una
reparametrización de:
Donde γ1 = γ2 — β . Así, mientras γ2 mide el efecto marginal de los shocks agregados sobre el
consumo (una vez controlado por la presencia de shocks idiosincrásicos), γ1 (en [2.]) refleja qué
tanto más afecta al consumo del hogar un shock agregado con respecto a uno idiosincrásico.
Por tanto, evaluar la hipótesis nula γ1 = 0 en (2.) equivale a evaluar si los shocks idiosincrásicos
afectan al consumo tanto como los agregados, lo que implicaría que los agentes no tienen
acceso a ningún tipo de arreglo que les permita proteger su consumo (ni siquiera parcialmente)
frente a los primeros.
La especificación final utilizada para este caso parte de (3.) e incluye las variables de condición
de pobreza y acceso a programas de asistencia alimentaria presentadas anteriormente. En
particular:
Vulnerab ilid ad d el cons umo frente a s hocks idios incrás icos y agregados | 17
∆lncit = α + β(∆ln yit — ∆ln yt )+ (λ1z1it + λ2z2it) (∆ln yit — ∆ln yt ) + γ2 ∆ln yit + eit (4.)
La etapa siguiente involucró la creación de un panel de individuos. Para esto, se utilizaron las
variables conglomerado, vivienda, hogar y el identificador de cada individuo dentro del hogar.
Con esto, se acotó la muestra sobre aquellos individuos para los que se dispone información
en, al menos, dos años consecutivos.
Por último, la información de los individuos fue agregada con respecto al hogar, con el
objetivo de capturar las características tanto del hogar (gasto e ingreso per cápita, situación
de pobreza, etc.) como de individuos específicos dentro de este (grado de calificación del jefe
de hogar, etc.).
La principal hipótesis de este caso es que debido a las dificultades para acceder a mecanismos
de aseguramiento del consumo, el grado de vulnerabilidad de los hogares pobres frente a
2
Se conoce como panel balanceado a aquella estructura en la que, para cada individuo o unidad analizada, existen
todas las observaciones en los períodos de tiempo evaluados. Por su parte, el panel desbalanceado es aquel en el que
la información de al menos un individuo no ha sido recogida completamente a lo largo de todos los períodos.
18 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Aunado a lo anterior, la especificación dada en (4.) permite evaluar el rol que tienen los
programas de asistencia alimentaria como mecanismo para suavizar el consumo entre los
hogares pobres. En la medida en que esto sea cierto, λ2 < 0, dado que el grado de exposición
a shocks idiosincrásicos de un hogar pobre que accede a estos programas viene dado por
β + λ1 + λ2.
Una vez construida la base de datos, es necesario, en primer lugar, informar al Stata qué
variables cumplen la función de identificar a las unidades de espacio y tiempo. En nuestro
caso, la variable de tiempo corresponde al año en cuestión (guardado en la variable year)
mientras que las unidades de espacio se refieren a los hogares (cuyos códigos se encuentran
guardados en la variable hhid).
Tal como fue discutido en la referencia teórica, el primer paso consiste en validar la estructura
supuesta para el término de error. En otras palabras, conviene comenzar validando si es que
es cierto que el término de error de nuestro modelo (εit) contiene un elemento no observable
particular a cada agente además de aquel que varía tanto entre los agentes como a lo largo
del tiempo: εit = uit + αi.
Vulnerab ilid ad d el cons umo frente a s hocks idios incrás icos y agregados | 19
Para esto, se dispone del test de Breusch-Pagan, cuya hipótesis nula es que la varianza del
término αi es igual a cero, lo que implicaría que εit = uit. En stata, el comando para llevar a cabo
esta prueba se ejecuta inmediatamente después de una estimación por “efectos aleatorios”3.
** Estimación
xtreg dgaspc dingpcdesv pobre_d acceso_d dingpcprom, re
xttest0
Estimated results:
| Var sd = sqrt(Var)
---------+-----------------------------
dgaspc | .3703207 .6085398
e | .4114381 .6414344
u | 0 0
Test: Var(u) = 0
chi2(1) = 671.89
Prob > chi2 = 0.0000
El rechazo de la hipótesis nula confirma una estructura para el error de la forma εit = uit + αi,
frente a lo cual el estimador eficiente es el estimador de mínimos cuadrados generalizados
(o “efectos aleatorios”).
3
De acuerdo con la nomenclatura utilizada por el Stata, hemos llamado estimador de “efectos aleatorios” al
estimador de mínimos cuadrados generalizados.
20 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Con los comandos siguientes, se le solicita al Stata que realice una estimación Within,
guarde los resultados bajo el nombre de “fijos”, realice una estimación por mínimos cuadrados
generalizados y, finalmente, compare los estimados a través de la prueba de Hausman.
** Test de Hausman
xtreg dgaspc dingpcdesv pobre_d acceso_d dingpcprom, fe
estimates store fijos
xtreg dgaspc dingpcdesv pobre_d acceso_d dingpcprom, re
hausman fijos
chi2(4) = (b-B)’[(V_b-V_B)^(-1)](b-B)
= 39.08
Prob>chi2 = 0.0000
Vulnerab ilid ad d el cons umo frente a s hocks idios incrás icos y agregados | 21
Tal como ocurre con todas las pruebas de la clase de Hausman, la comparación se realiza
entre un estimador que es consistente tanto bajo la hipótesis nula como alternativa, y un
estimador eficiente y solo consistente bajo la hipótesis nula. En el contexto de un panel
estático y lineal (como el nuestro), los estimadores que corresponden a la descripción anterior
son el Within (“efectos fijos”) y el de mínimos cuadrados generalizados (“efectos aleatorios”),
respectivamente. En el momento de reportar los resultados de la prueba, el Stata identifica
claramente qué estimación ha sido provista para cada caso. Tal como se muestra en la imagen
anterior, Within corresponde al vector identificado como (b = consistent under Ho and Ha)
y mínimos cuadrados generalizados, a aquel identificado como (B = inconsistent under Ha,
efficient under Ho).
Atendiendo a los resultados reportados hasta ahora, el modelo final fue estimado con la
técnica Within. Los resultados se detallan a continuación4 y se resumen en el cuadro 1 junto
con aquellos asociados a un modelo restringido (también estimado con la técnica Within) en
el que no se distingue según la condición de pobreza del hogar.
4
Cabe mencionar que en una regresión por mínimos cuadrados ordinarios (pool data) los coeficientes asociados a
las variables dicotómicas de pobreza y acceso a programas sociales muestran valores significativamente inferiores a
los aquí reportados. Al respecto, cabe recordar el efecto que tiene sobre la consistencia del estimador la presencia de
correlación entre los regresores (la condición de pobreza) y los errores de medida en la variable gasto (recogidos en
el término de error). Si estos errores de medida se acentúan con la condición de pobreza e implican típicamente una
subestimación del gasto del hogar (resultado particularmente válido en el momento de valorizar las transferencias
del Estado), dicha correlación conllevará una subestimación del impacto de la condición de pobreza y del impacto del
acceso a programas sociales. Esto es, precisamente, lo que se observa en la regresión por mínimos cuadrados ordinarios,
la cual, a diferencia de la estimación por “efectos fijos”, no controla por la presencia de esta correlación.
22 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
F(4,7044) = 197.50
corr(u_i, Xb) = -0.1032 Prob > F = 0.0000
------------------------------------------------------------------------------------------------------
dgaspc | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------------+---------------------------------------------------------------------------------------
dingpcdesv | .1770314 .0077264 22.91 0.000 .1618853 .1921774
pobre_d | .3094205 .0402311 7.69 0.000 .2305553 .3882856
acceso_d | -.0902121 .0553388 -1.63 0.103 -.1986929 .0182686
dingpcprom | .2193103 .0780325 2.81 0.005 .066343 .3722775
_cons | -.0021857 .0386839 -0.06 0.955 -.0780178 .0736464
--------------+---------------------------------------------------------------------------------------
sigma_u | .41460899
sigma_e | .64143443
rho | .29468403 (fraction of variance due to u_i)
----------------------------------------------------------------------------------------------------
F test that all u_i=0: F(5155, 7044) = 0.57 Prob > F = 1.0000
Varios resultados llaman la atención. En primer lugar, el modelo restringido sugiere que
existen escasas posibilidades de suavizar el consumo en el Perú. De acuerdo con lo discutido
en la sección anterior, el efecto de los shocks idiosincrásicos resulta estadísticamente igual que
el de los shocks agregados, lo que sugeriría que los agentes no tienen acceso a ningún tipo de
seguro que les permita proteger su consumo (ni siquiera parcialmente) frente al primer tipo
de shock. Este resultado, sin embargo, enmascara marcadas diferencias entre hogares pobres
y no pobres. En el momento de distinguir según la condición de pobreza del hogar, se valida
que los hogares no pobres sí disponen de mecanismos de aseguramiento parcial.
Por otro lado, y relacionado con la hipótesis específica de este caso, se confirma que los
hogares no pobres son más vulnerables a los shocks idiosincrásicos (el coeficiente l1 resulta
significativo y positivo). Por su parte, el coeficiente asociado al acceso a programas de asistencia
alimentaria (l2) resultó negativo pero incapaz de compensar por la condición de pobreza. Esto
se observa claramente en el siguiente gráfico.
0,60
0,50
0,40
0,30
0,20
0,10
0,00
Hogar pobre Hogar pobre con acceso Hogar no pobre
a programas sociales
4. Conclusiones
• La evidencia empírica sobre la relación existente entre la evolución del consumo y las
variaciones en el ingreso de las familias, muestra que los hogares pobres exhiben marcadas
24 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
• Frente a esto, la evidencia sugiere que, en el período considerado, las transferencias del
Estado a través de programas de asistencia alimentaria contribuyeron solo marginalmente
a aliviar las diferencias encontradas entre hogares pobres y no pobres.
Sintaxis xtreg
Comando: xtreg
Realiza una regresión con datos longitudinales. En particular, con la opción “be” calcula los
coeficientes estimados para el modelo Between; con la opción “fe” estima los coeficientes
correspondientes al modelo de efectos fijos; y con la opción “re”, calcula los coeficientes asociados
al modelo de efectos aleatorios.
Sintaxis estimates
Comando: estimates
Hace referencia a los resultados de estimación. De ese modo, permite realizar distintas
operaciones como almacenar, cambiar e, incluso, describir resultados.
estimates store: guarda los resultados de la última estimación.
estimates change: define o modifica el título correspondiente a los resultados
almacenados de una estimación o añade información de algunas variables.
estimates restore: muestra los resultados almacenados de una estimación de modo que
los comandos utilizados se apliquen sobre dicha estimación.
estimates replay: replica los resultados almacenados de una estimación.
estimates table: muestra una tabla con los coeficientes y estadísticas para uno o más
resultados de estimación en columnas paralelas.
Las políticas sociales no pueden solo limitarse a una transferencia de recursos que incremente,
transitoriamente, el consumo de las familias por encima de determinada línea de pobreza.
La política social debe apuntar, más bien, a transferir los activos que permitan a los hogares
acceder y asegurar mayores niveles de consumo en forma permanente. Dentro del conjunto
de estos activos, la educación destaca como vehículo de movilidad social.
En este sentido, nuestro objetivo es evaluar el rol que tiene el grado de instrucción del
individuo como determinante de su situación de pobreza, trabajando con información de
Guatemala. La hipótesis que buscamos verificar es que, si bien todos los ciclos de instrucción
exhiben un impacto marginal significativo en reducir la probabilidad de ser pobre, este es
mayor en el caso de la educación básica. Ello debido a que en Guatemala el acceso a dicho
nivel de instrucción es aún limitado6, lo que implica que la mano de obra con educación básica
completa perciba una prima de salario significativa en el mercado de trabajo.
5
Basado en Yamada y Castro (2008).
6
Uno de cada cuatro niños entre 6 y 15 años no asiste al colegio, y el 27% de la población en edad de trabajar no
tiene ningún grado de instrucción. Encuesta Nacional de Condiciones de Vida de Guatemala (Encovi) del año 2006.
26 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
2. Metodología
Es necesario resaltar que, en nuestro caso, la variable continua que subyace a la definición de
pobreza sí es observable y se refiere al gasto per cápita del hogar al que pertenece el individuo.
Por lo mismo, nuestra elección de la metodología se debe a que buscamos destacar directamente
la pertenencia a determinado grupo (en función de su nivel de pobreza) más que al hecho de
que no sea posible observar la variable (continua) que está detrás de este resultado.
En este sentido, nuestro interés recae en estimar la probabilidad de observar uno de dos
eventos posibles (pobre o no pobre) sobre la base de un conjunto de controles, por lo que el
modelo probabilístico descrito líneas arriba es el más apropiado.
Tomando en cuenta los objetivos e hipótesis del trabajo, las variables por incluir son:
Variable dependiente
Nombre Descripción
Caracteriza la condición de pobreza del individuo en la muestra. Toma
Pobre dos valores: (i) 1, si el gasto per cápita de su hogar se encuentra por
debajo de la línea de pobreza; y (ii) 0, de otro modo.
Toma dos valores: (i) 1, si el mayor grado y nivel educativo alcanzado por
Pri_inc
el individuo es el de primaria incompleta; y (ii) 0, si no lo es.
Toma dos valores: (i) 1, si el mayor grado y nivel educativo alcanzado por
Pri_com
el individuo es el de primaria completa; y (ii) 0, si no lo es.
Toma dos valores: (i) 1, si el mayor grado y nivel educativo alcanzado por
Sec_inc
el individuo es el de secundaria incompleta; y (ii) 0, si no lo es.
Pobreza y logro educativo en Guatemala | 27
Toma dos valores: (i) 1, si el mayor grado y nivel educativo alcanzado por
Sec_com
el individuo es el de secundaria completa; y (ii) 0, si no lo es.
Toma dos valores: (i) 1, si el mayor grado y nivel educativo alcanzado por
Sup_inc
el individuo es el de superior incompleta; y (ii) 0, si no lo es.
Toma dos valores: (i) 1, si el mayor grado y nivel educativo alcanzado por
Sup_com
el individuo es el de superior completa; y (ii) 0, si no lo es.
Hasta aquí las variables explicativas de interés del estudio. Lo que sigue son las variables
explicativas de control sugeridas. Se introdujeron controles referidos a: (i) características
específicas del individuo (edad, sexo, etnicidad, estado civil); (ii) características del hogar al que
pertenece (ingreso promedio por hora asociado a la actividad principal del resto de miembros del
hogar); y (iii) características de la localidad donde habita (urbana o rural, ciudad capital).
Todos estos elementos influyen, potencialmente, sobre la capacidad de gasto del hogar al
que pertenece el individuo y, por lo mismo, sobre la probabilidad de que caiga en pobreza. Por
tanto, es necesario tomar en cuenta sus efectos si lo que deseamos es aislar el impacto de la
educación. Así estaremos en mejor posición para cuantificar el efecto que tiene un mayor grado
de instrucción sobre la condición de pobreza de un individuo “promedio”, es decir, dejando
constantes todas las demás características que afectan al fenómeno.
De acuerdo con la hipótesis de trabajo, se espera que la probabilidad de ser pobre se reduzca
conforme el nivel educativo alcanzado se incremente, y que las reducciones marginales más
importantes se presenten cuando se accede a los primeros niveles de instrucción (primaria y
secundaria).
Para validar la primera parte de la hipótesis, es necesario que los efectos impacto de las
variables asociadas al nivel educativo (calculados respecto a un individuo sin instrucción) sean
todos negativos y crecientes en valor absoluto. A continuación, se detalla el cálculo para el
caso de educación secundaria completa (variable x4).
Los valores asignados a las variables asociadas al grado de instrucción responden a la forma
como se han construido las mismas. Estas toman el valor de 1 solo si el grado especificado
es el último cursado por el individuo. Así, un individuo con educación secundaria completa
presenta el valor de uno en la variable SEC_COM y cero en el resto.
La segunda parte de la hipótesis, por su parte, implica que la diferencia entre los efectos
impacto de tener educación superior completa y secundaria completa, es menor en valor
absoluto que la correspondiente a los efectos impacto de alcanzar secundaria completa y
primaria completa, así como al efecto impacto asociado a alcanzar este último nivel (dado
que esta es la variación de la probabilidad de ser pobre de una persona con primaria completa
respecto a una sin educación).
Pobreza y logro educativo en Guatemala | 29
Como el lector debe haber notado, la forma como se calculan los efectos impacto afectará la
lectura de los resultados. Si se toma como referencia a un individuo con el grado de instrucción
anterior y no a uno sin instrucción (como en el ejemplo líneas arriba), para verificar las dos
partes de la hipótesis de trabajo se necesitaría que estos efectos impacto sean negativos
y que los mayores en valor absoluto sean los asociados a la instrucción básica (primaria y
secundaria). A continuación se muestra el cálculo del efecto impacto que recoge la variación
en la probabilidad de ser pobre producto de culminar estudios secundarios (cambiar el nivel
de instrucción alcanzado de secundaria incompleta a secundaria completa).
αˆ 1(0) + αˆ2(0) + αˆ 3(0) + αˆ 4(1) + ... αˆ 1(0) + α ˆ 2(0) + αˆ 3(1) + αˆ 4(0)+ ...
EI Sec_com = F −F
ˆ
... + αˆ5 (0) + αˆ 6 (0) + x’ β ˆ 6 (0) + x’ βˆ
... + αˆ 5 (0) + α
Cabe señalar que estas formas de cálculo representan caminos alternativos para llegar al
mismo resultado.
doedit
Una vez identificadas las variables de interés, se procede a realizar la estimación asumiendo
una distribución logística7. Si bien ello puede hacerse utilizando todas las variables disponibles,
también es posible instruir al Stata para que realice una selección de variables independientes
relevantes, de manera iterativa, para un nivel de significancia determinado por el usuario. Para
ello se utiliza la opción Stepwise descrita al final del presente caso.
7
Cabe recordar que la elección entre un modelo logit y un probit no se basa en una regla específica clara y directa,
y que suele depender de qué tan concentradas estén las observaciones de la muestra que se utiliza en las colas de la
distribución. Véase la referencia teórica en la sección 3.7.
30 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Así, para estimar los coeficientes del modelo logístico para la probabilidad de ser pobre en
Guatemala, en función de los niveles de educación y otras características del individuo, se
utiliza el siguiente comando:
** Modelo Logit
stepwise, pr(0.1):logit pobre pri_inc pri_com sec_inc sec_com
sup_inc sup_com edad edad2 estadciv sex ind ingphorhog urb reg
[pw=factor]
------------------------------------------------------------------------------------------------------
| Robust
pobre | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------------------------------
pri_inc | -.7185172 .0611681 -11.75 0.000 -.8384045 -.5986299
pri_com | -1.343581 .0869458 -15.45 0.000 -1.513992 -1.173171
sec_inc | -2.339251 .1151118 -20.32 0.000 -2.564866 -2.113636
sec_com | -2.925101 .1533996 -19.07 0.000 -3.225758 -2.624443
sup_inc | -3.918991 .312526 -12.54 0.000 -4.531531 -3.306452
sup_com | -5.265856 1.020086 -5.16 0.000 -7.265188 -3.266525
edad | -.0665482 .0111474 -5.97 0.000 -.0883968 -.0446996
edad2 | .0004021 .0001103 3.64 0.000 .0001858 .0006183
reg | -.7824217 .1077276 -7.26 0.000 -.9935639 -.5712795
sex | -.2102352 .0540264 -3.89 0.000 -.3161251 -.1043454
ind | .8559852 .0491648 17.41 0.000 .759624 .9523463
ingphorhog | -.0128335 .0008283 -15.49 0.000 -.0144569 -.0112101
urb | .6385602 .0499686 12.78 0.000 .5406235 .7364968
_cons | 2.848647 .2853505 9.98 0.000 2.289371 3.407924
------------------------------------------------------------------------------------------------------
Pobreza y logro educativo en Guatemala | 31
El coeficiente asociado al estado civil resultó no ser distinto de cero al 90% de confianza, por
lo que la variable fue removida del modelo; todas las demás mostraron ser significativas para
explicar la condición de pobreza de una persona en Guatemala. De los resultados mostrados,
vale la pena adelantar algunas conclusiones importantes:
• El signo de los coeficientes asociados a todas las variables de educación confirma que
haber cursado cualquier nivel de instrucción reduce la probabilidad de ser pobre respecto
a un individuo sin ninguna instrucción. De acuerdo con lo discutido en el acápite anterior,
no es posible vincular directamente el impacto de cada grado educativo al valor de su
coeficiente asociado. No obstante, si tomamos en cuenta la naturaleza dicotómica de
estos regresores, el hecho de que sus coeficientes sean crecientes en valor absoluto es
evidencia a favor de que cada subsiguiente nivel exhibe un aporte marginal positivo en
la reducción de la probabilidad de ser pobre.
• En lo que respecta a las demás características específicas del individuo, cabe resaltar el
efecto positivo que tiene el hecho de ser indígena. Si tomamos en cuenta que el modelo
está controlado por el nivel educativo del individuo, esto puede resultar evidencia a favor
de la existencia de una discriminación negativa por raza: las poblaciones indígenas de
Guatemala tienden a ser, per se, más pobres que las no indígenas8.
b. Efectos impacto9
Como se mencionó en la referencia teórica, para cuantificar el efecto de las variables discretas
sobre la probabilidad de ser pobre se recurre al cálculo de los efectos impacto. Tal y como se
discutió anteriormente, los efectos impacto de las variables de interés pueden calcularse tomando
como base a un individuo sin educación o a un individuo con el nivel de instrucción anterior. En
caso se elija la primera alternativa, el comando por utilizar es el siguiente:
8
No es nuestra intención profundizar más en el efecto de esta y otras variables incluidas en el modelo. Recuérdese
que el objetivo central de estos casos de estudio es ilustrar la aplicación de las herramientas econométricas revisadas
en las secciones teóricas para la verificación de hipótesis específicas de trabajo.
9
Cabe recordar que, por la naturaleza de su cálculo, conviene analizar los efectos impacto de las variables
independientes discretas.
32 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Nótese que para calcular los efectos impacto de cada una de las variables de interés se ha
fijado el resto de las mismas en cero10. Así, el efecto capturado es el cambio en la probabilidad
de ser pobre cuando se pasa de no tener ninguna educación al nivel educativo que señala
la variable en cuestión. Por ejemplo, la probabilidad de ser pobre en Guatemala si se tiene
como último nivel educativo secundaria completa, es 47,82 puntos porcentuales menor que
la correspondiente a no tener ningún nivel educativo11.
10
Si bien todas las variables dicotómicas referidas a la educación son fijadas en cero, el comando MFX evalúa el
resto de explicativas en su promedio.
11
Es preciso no confundir la probabilidad reportada en la parte superior de la imagen 2 con la probabilidad de ser
pobre en Guatemala. La probabilidad que aparece en la imagen es, en realidad, la probabilidad de ser pobre dado que no
se cuenta con nivel alguno de educación (recuérdese que se fijaron los valores de las variables de interés en cero).
Pobreza y logro educativo en Guatemala | 33
todos exhiben un aporte marginal no despreciable (los coeficientes son crecientes en valor
absoluto y, por lo mismo, la función es estrictamente decreciente).
60%
50%
40%
30%
20%
10%
0%
Para hallar los efectos impacto de las demás variables discretas (exceptuando edad) volvemos
a recurrir al comando MFX, solo que esta vez permitimos que ajuste todas las demás variables
en su promedio. El comando es el siguiente:
12
El lector notará que los valores reportados en la ventana de resultados asociados a cada nivel educativo no
corresponden a los efectos impacto pues, como se explicó, han sido calculados manteniendo constante el promedio
del resto de las variables dummy asociadas a la educación, en vez de ser fijados en cero.
34 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
---------+--------------------------------------------------------------------------------------------
pri_inc* | -.1348368 .01125 -11.99 0.000 -.156877 -.112797 .271912
pri_com* | -.210286 .01126 -18.68 0.000 -.232346 -.188226 .12695
sec_inc* | -.2920558 .01153 -25.34 0.000 -.314648 -.269464 .111363
sec_com* | -.2970847 .0108 -27.51 0.000 -.318252 -.275917 .062358
sup_inc* | -.3142403 .01093 -28.75 0.000 -.335661 -.29282 .04856
sup_com* | -.2968562 .01007 -29.48 0.000 -.316591 -.277121 .014343
edad | -.0135168 .00228 -5.92 0.000 -.017993 -.009041 43.5095
edad2 | .0000817 .00002 3.63 0.000 .000038 .000126 2119.99
reg* | -.145471 .0171 -8.51 0.000 -.178977 -.111965 .267545
sex* | -.0430643 .01126 -3.82 0.000 -.065139 -.02099 .598513
ind* | .1800514 .01112 16.19 0.000 .158258 .201845 .376949
ingpho~g | -.0026067 .00014 -18.66 0.000 -.00288 -.002333 73.5628
urb* | .1303562 .01056 12.34 0.000 .109658 .151054 .46726
------------------------------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1
En lo que respecta a la variable Edad, es necesario destacar que esta se encuentra incluida en
el modelo tanto en niveles como al cuadrado. Su efecto impacto, por tanto, está determinado
por la siguiente expresión:
∂ Pr(Pobre = 1)
= f ( x ' βˆ ).( βˆedad + 2 βˆedad 2 Edad)
∂ Edad
Esto implica que el efecto marginal de un año adicional depende directamente del valor que
tome la variable Edad. Para establecer un valor puntual se usará como referencia el promedio
de la variable Edad. Nótese que los elementos necesarios para el cálculo de este efecto impacto
han sido obtenidos anteriormente. A continuación se realiza una revisión de los mismos13.
13
Para el cálculo de la función de densidad marginal se utilizó la equivalencia, F(x’ β)ˆ = F(x’β)
ˆ [1 — F(x’β)],
ˆ válida
exclusivamente para la distribución logística.
Pobreza y logro educativo en Guatemala | 35
βˆ edad = −0,0665482
βˆ edad 2 = 0,0004021
f ( x ' βˆ ) = F ( x ' βˆ )[1 − F (x ' βˆ)] = 0,2834664*(1-0,2834664) = 0,2031132
Edad = 43,5095
c. Elasticidades
Así como en el caso de los efectos impacto se optó por poner énfasis en las variables
discretas, en el de las elasticidades se hará lo propio con la única explicativa continua del
modelo, el ingreso promedio por hora atribuible al resto de miembros del hogar14. Por lo mismo,
se describirá el cambio porcentual en la probabilidad de ser pobre ante un incremento de 1%
en dicha variable. Para ello, se utiliza el siguiente comando:
14
Nótese, sin embargo, que en el caso de una variable continua como el ingreso sí podría ser de utilidad conocer el
efecto impacto. En nuestro caso, y tal como lo revela la imagen 3, incrementar en 10 unidades monetarias el ingreso
por hora del resto de miembros del hogar genera una reducción de 2,6 puntos porcentuales en la probabilidad de
ser pobre del individuo.
36 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
** Elasticidades
mfx compute, eyex
Debido a que las elasticidades se expresan en porcentaje (libre del efecto de las unidades),
estas pueden ser utilizadas para “rankear” las variables de acuerdo con su importancia para
explicar los cambios en la dependiente. Al respecto, y de acuerdo con nuestra hipótesis de
trabajo, vale la pena notar la importancia que tiene el acceso a la educación secundaria como
determinante de la situación de pobreza.
Hay que considerar que la elasticidad también puede ser utilizada para analizar la respuesta
de la dependiente respecto de cambios en las variables discretas, aún cuando la interpretación
Pobreza y logro educativo en Guatemala | 37
puede ser un tanto distinta. Por ejemplo, la elasticidad asociada a la variable dicotómica Sex
(-0,09) significa que si el porcentaje de mujeres en Guatemala aumentase en 1% (dejando
todo lo demás constante), la probabilidad de ser pobre del guatemalteco promedio se reduciría
en 0,09%.
4. Conclusiones
Los resultados reportados en el cuadro 1 permiten discutir con mayor precisión las
conclusiones preliminares presentadas líneas arriba y validar nuestra hipótesis de trabajo.
• En lo que respecta a la primera parte de la hipótesis, se confirma que todos los efectos
impacto referidos a las variables de educación son negativos y, más importante aún, que
son crecientes en valor absoluto.
• Por último, se confirma que la probabilidad de caer en pobreza también se ve afectada por
características inherentes del individuo como la raza, situación que sugiere la existencia
de discriminación en el mercado de trabajo y/o acceso a una oferta educativa de calidad
heterogénea. En particular, para una persona indígena es 18 puntos porcentuales más
probable caer en situación de pobreza.
38 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Sintaxis logit
Comando: logit
Realiza la estimación de un modelo logit mediante máxima verosimilitud. El valor cero en la variable
dependiente indica un resultado negativo; cualquier valor distinto de cero y vacío se interpreta
como un resultado positivo.
Uso: logit variable dependientes variables independientes [if] [in] [weight] [,opciones]
Sintaxis stepwise
Comando: stepwise
Es un método de estimación iterativo que permite identificar aquellas variables significativas para
un nivel de confianza dado.
pr(#): nivel de significancia para remover una variable del modelo. Términos con un
p-value mayor o igual al descrito dentro del paréntesis son removidos de la estima
ción.
pe(#): nivel de significancia para adicionar una variable al modelo. Términos con un
p-value menor al descrito dentro del paréntesis son adicionados a la estimación.
Pobreza y logro educativo en Guatemala | 39
Sintaxis adjust
Comando: adjust
Realiza predicciones para modelos lineales (x’b) , probabilidades (pr) o predicciones exponenciales
(exp).
Un aspecto por tomar en cuenta es que el comando no admite la introducción de pesos. Por lo
mismo, se sugiere precaución con su uso en el manejo de bases de datos de gran magnitud.
Cuenta con distintas opciones. De ellas, las más importantes son las siguientes:
xb: produce predicciones en una estimación lineal. Dependiendo del tipo de estimación los
valores xb pueden no ser las unidades originales de la variable dependiente. Por defecto,
adjust asume esta opción si las otras no son especificadas.
pr: muestra las probabilidades estimadas. No es una opción disponible para todos los tipos
de estimación.
exp: muestra predicciones exponenciales. De acuerdo con el tipo de estimación, las can
tidades resultantes pueden ser llamadas “ratios de indicencia” o “hazard ratios”.
40 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Sintaxis mfx
Comando: mfx
Calcula numéricamente los efectos marginales y elasticidades (y sus errores estándar) luego de una
estimación.
Cuenta con distintas opciones. De ellas, las más importantes son las siguientes:
varlist (varlist): especifica las variables para las cuales calcular los efectos marginales o
elasticidades. Por defecto, se calcula todas las variables involucradas en la estimación.
dydx: especifica que serán los efectos marginales los que se calcularán. Esta es la opción
por defecto.
eyex: especifica que serán las elasticidades las que se calcularán. Estas son de la forma:
∂ ln y
.
∂ ln x
dyex: especifica que serán las semielasticidades las que se calcularán. Estas son de la
∂y
forma:
∂ ln x
.
eydx: especifica que serán las semielasticidades las que se calcularán. Estas son de la
∂ ln y
forma:
∂x
at (atlist): especifica los valores sobre los que los efectos marginales o elasticidades serán
estimados. Por default, se estima sobre la base de los promedios de todas las variables
independientes.
.
Efect ivid ad d el g ast o p úb lico para combatir la des nutrición infantil en el Perú | 41
A pesar del crecimiento económico de las últimas décadas y de los avances en la disminución
de la pobreza, principalmente en zonas urbanas, pocos han sido los avances en el tema de la
desnutrición infantil. En el Perú, 29,2% de los niños menores de cinco años sufren de desnutrición
crónica16 y, si se observan las cifras para los departamentos más pobres, dicho porcentaje
sobrepasa el 50%17. Desde el punto de vista social, las consecuencias de la desnutrición infantil
son alarmantes, no solo porque los niños son una parte importante de la población nacional
sino porque la desnutrición limita sus capacidades y productividad futura, lo cual restringe la
posibilidad de generar ingresos, además de ocasionar efectos perversos sobre la salud.
15
Basado en Beltrán y Seinfeld (2009).
16
La desnutrición crónica es un proceso por el cual las reservas orgánicas acumuladas en el cuerpo se agotan
debido a una carencia calórico-proteica. Esto lleva al cuerpo a priorizar su función más importante, sobrevivir, en
detrimento de otras como crecer.
17
Encuesta Demográfica y de Salud Familiar (Endes) 2007.
42 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
inversión para disminuir la desnutrición han ido aumentando en la última década, la situación
no muestra una mejora significativa.
Teniendo en cuenta todo lo dicho previamente, el presente ejercicio busca cumplir con dos
objetivos específicos. Primero, establecer si el PIN posee un impacto significativo sobre los
niveles de desnutrición de niños y niñas menores de cinco años en el Perú; la hipótesis es que
este programa disminuye los niveles de desnutrición. El segundo objetivo es identificar si el
hecho de estar afiliado a un seguro de salud posee un impacto significativo sobre el nivel de
desnutrición del niño; también se intenta establecer si este efecto es distinto en el caso de
estar afiliado, específicamente, al Seguro Integral de Salud (SIS). Al respecto, la hipótesis es
que el encontrarse afiliado a un seguro de salud afecta negativamente el nivel de desnutrición
del niño, y que el impacto es superior si el seguro en cuestión es el SIS.
El marco teórico utilizado para construir el modelo sigue a Smith y Haddad (2000), según los
cuales se puede establecer que existen dos determinantes inmediatos del estado nutricional del
niño: su dieta y su salud. Estos a su vez tienen como determinantes subyacentes la seguridad del
hogar (calidad del ambiente en el que se desarrolla el niño), la atención a la salud, la preparación
de la persona responsable del niño y las condiciones de salud de la comunidad.
2. Técnica de estimación
Para cumplir con los objetivos propuestos es necesario identificar qué factores explican que un
niño presente algún nivel de desnutrición. En ese sentido, la variable dependiente corresponde
a un indicador obtenido a partir de la comparación de la relación de “talla para la edad” (que
mide los retrasos en el crecimiento del niño) con el estándar internacional18. La variable cuenta
18
La comparación se hace con un indicador internacional producido por la Organización Mundial de la Salud
(OMS): “The WHO Child Growth Standards: Methods and Development: Length/Height-for-Age, Weight-for-Age,
Weight-for-Length, Weight-for-Height and Body Mass Index-for-Age”. Se ha comprobado que durante los primeros
años de vida, a pesar de factores genéticos, todos los niños deben crecer por lo menos a una determinada altura; el
último estándar fue publicado el 2006.
Efect ivid ad d el g ast o p úb lico para combatir la des nutrición infantil en el Perú | 43
con tres valores claramente definidos: (i) 0, si el niño no sufre de desnutrición crónica; (ii) 1,
si sufre de desnutrición crónica moderada; y (iii) 2, si presenta desnutrición crónica severa.
Con lo anterior, queda claro que la variable dependiente guarda un ordenamiento específico:
mientras mayor sea su valor, peor el estado nutricional del niño19.
Tomando en cuenta los objetivos e hipótesis del trabajo, las variables de interés son:
Variable dependiente
Nombre Descripción
Caracteriza la condición de malnutrición del niño del hogar. Toma tres
valores: (i) 0, si el niño no sufre de desnutrición crónica; (ii) 1, si sufre
Desnutrición
de desnutrición crónica moderada; y (iii) 2, si presenta desnutrición
crónica severa.
Nótese que la afiliación al SIS y la ayuda proporcionada por el PIN han tenido que ser
instrumentalizadas debido a que presentan problemas de endogeneidad. Dado que se trata de
un seguro de salud público, prácticamente gratuito, la afiliación del niño al SIS es más probable
si se trata de un niño vulnerable en términos de su salud, y de su desarrollo y crecimiento,
eventos que ocurren con mayor frecuencia cuando el niño sufre de desnutrición. Por otro
lado, y con respecto al PIN, es probable que el gobierno destine una mayor ayuda social a los
lugares donde el problema de desnutrición es más fuerte.
19
Se ha preferido descartar un modelo secuencial debido a que no es necesario tener un nivel moderado de
desnutrición antes de alcanzar uno severo.
44 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Además de las variables explicativas propuestas, que son las de interés central en el estudio,
se incluye un conjunto de otras tantas que se puede clasificar en cuatro tipos. Primero, las
variables relacionadas con la atención que recibe la salud del niño. Entre ellas, figura una
variable dicotómica que indica si el niño es menor de seis meses, ya que durante el primer
medio año de vida los niños son alimentados exclusivamente con leche materna y reciben la
máxima atención por parte de los padres. Este efecto continúa, aunque en menor medida, los
siguientes seis meses, por lo que se agrega otra variable dicotómica que refleje dicho rango
de edad. También figuran las variables que detallan el sexo, el peso al nacer, la presencia de
enfermedades recientes y la variedad de alimentos de la dieta del niño. Esta última variable
se ha instrumentalizado debido a que presenta una relación bidireccional con la desnutrición:
la alimentación que recibe el niño explica su estado nutricional, pero este último también
determina el contenido de su ingesta alimenticia.
Segundo, las variables relacionadas con la seguridad del hogar, como el índice de riqueza
de la familia, la altitud de la vivienda y el número de hijos desnutridos del hogar, también
influyen en la probabilidad de ser desnutrido. Hogares que cuentan con otro hijo menor de
cinco años que sufre de desnutrición, seguramente tendrán malas prácticas alimenticias que se
traducirán en una mayor probabilidad de desnutrición del menor. Tercero, la preparación de la
madre influye en el grado de desnutrición del niño por lo que se incluye el grado de educación
de la misma, su edad y el acceso a información que ella posee; también se incluye la variable
número total de hijos, ya que una mayor cantidad de hijos se asocia a una mala planificación
familiar. Cuarto, se consideran, finalmente, las variables relacionadas con la comunidad, entre
las cuales figura la tasa de desnutrición infantil del distrito, que aproxima el estado de salud
del entorno del niño: en un distrito donde se observa mayor cantidad de menores desnutridos,
la probabilidad de que el niño también lo sea es mayor.
Variables explicativas
Tipo de variables Nombre de la variable Descripción
La variable toma dos valores: (i) 1, si el niño es menor
Edad_Menor6
de 6 meses; y (ii) 0, si no lo es.
La variable toma dos valores: (i) 1, si el niño tiene entre
Edad6_12
6 y 12 meses de edad; y (ii) 0, de otro modo.
La variable toma dos valores: (i) 0 si es niño; y (ii) 1, si
Sexo
es niña
La variable toma dos valores: (i) 1, si el niño se encuen
Nosis tra afiliado a un seguro distinto al SIS; y (ii) 0, si no lo
Relacionadas está.
con el niño Probabilidad de que el niño se encuentre afiliado al
Sis
SIS. Variable instrumentalizada.
Pesonacer El peso del niño al nacer, en gramos.
La variable toma dos valores: (i) 1, si el niño sufrió de
Enfermo diarrea o fiebre en las últimas dos semanas; y (ii) 0, si
no lo hizo.
La variable toma valores entre 0 y 14. Valor predicho
Variedad para el número de variedades de alimentos de la dieta
del niño. Variable instrumentalizada.
Indi_Riqueza Índice de riqueza del hogar
Metros sobre el nivel del mar donde se encuentra ubi
Altitud
Seguridad del cada la vivienda.
hogar La variable toma dos valores: (i) 1, si el hogar tiene
Hmno_Desnutrido otro hijo menor de 5 años que sufra de desnutrición
crónica; (ii) 0, de otro modo.
Grado de educación de la madre. Toma cuatro valores:
(i) 0, si no tiene educación; (ii) 1, si estudió primaria;
Educamadre
(iii) 2, si estudió secundaria; y (iv) 3, si tiene educación
superior.
Edadmadre Edad de la madre
Relacionadas
con la Tothijos Número total de hijos de la madre
preparación de Frecuencia con que escucha la radio. Toma cuatro
la madre valores: (i) 0, si no escucha la radio; (ii) 1, si lo hace
Freq_Radio menos de una vez por semana; (iii) 2, si lo hace por lo
menos una vez por semana; y (iv) 3, si lo hace casi
todos los días.
Número de raciones de alimentos per cápita del distri
Relacionadas Pin
to donde habita el niño. Variable instrumentalizada.
con la
comunidad Tasa de desnutrición crónica distrital en niños entre 6
Distrito_Tasa
y 9 años.
46 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Como se recuerda de la discusión inicial del presente capítulo, las variables multinomiales
ordenadas son aquellas que indican diversas alternativas que guardan entre sí un ordenamiento
específico. En ese sentido, para el caso en análisis, nuestra variable dependiente se define
como:
Como el lector notará, el ordenamiento supone que valores más elevados de la variable
Desnutricióni corresponden a un mayor nivel de malnutrición. Dicho nivel jugará el rol de índice
de performance (I*), el que estará relacionado con el conjunto de explicativas propuesto, de
la siguiente manera:
Cabe recordar que se establecen puntos de corte (a) entre los cuales se encuentran los
diversos niveles de malnutrición del niño. Formalmente:
0 si I*< α1
Desnutricióni = 1 si α1 ≤ I* ≤ α 2
2 si I*> α
2
Para verificar que el PIN tiene un efecto significativo sobre el estado de desnutrición del niño,
se debe comprobar que el coeficiente estimado de la variable correspondiente es negativo y
significativo, pues, como se señaló en la referencia teórica, el signo del coeficiente señala la
dirección del impacto de la variable en relación con el fenómeno de estudio, en este caso la
desnutrición. En particular, se recordará que un coeficiente negativo implica que la variable en
cuestión reduce la probabilidad de estar en la categoría más alta (desnutrición crónica severa)
e incrementa la probabilidad de estar en la más baja (sin desnutrición crónica).
d. La data
--------------------------------------------------------------------------------------------------
desnutricion | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+-----------------------------------------------------------------------------------
edad_menor6 | -1.75035 .1866795 -9.38 0.000 -2.116235 -1.384465
edad6_12 | -1.185821 .1608869 -7.37 0.000 -1.501154 -.8704889
sexo | -.4224873 .0823374 -5.13 0.000 -.5838657 -.2611089
nosis | -.5272834 .1653205 -3.19 0.001 -.8513056 -.2032613
sis | -.9528815 .7176116 -1.33 0.184 -2.359374 .4536113
pesonacer | -.0008984 .0000767 -11.72 0.000 -.0010487 -.0007481
enfermo | .1686096 .0824269 2.05 0.041 .0070559 .3301634
variedad | -.1109401 .0460244 -2.41 0.016 -.2011462 -.020734
educamadre | -.1722343 .0709054 -2.43 0.015 -.3112062 -.0332623
edadmadre | -.0244884 .0090345 -2.71 0.007 -.0421956 -.0067811
tothijos | .167603 .0295426 5.67 0.000 .1097005 .2255055
freq_radio | -.0602442 .0401178 -1.50 0.133 -.1388736 .0183853
indi_riqueza | -5.98e-06 1.64e-06 -3.64 0.000 -9.20e-06 -2.76e-06
altitud | .0001707 .0000331 5.16 0.000 .0001059 .0002356
hmno_desnu~o | .7139349 .1045387 6.83 0.000 .5090429 .9188269
pin | -.0189165 .0065531 -2.89 0.004 -.0317603 -.0060726
distrito_t~a | 3.924089 1.013854 3.87 0.000 1.936971 5.911207
-------------+-----------------------------------------------------------------------------------
/cut1 | -4.031967 .608504 -5.224613 -2.839321
/cut2 | -1.967385 .60502 -3.153203 -.7815678
--------------------------------------------------------------------------------------------------
Efect ivid ad d el g ast o p úb lico para combatir la des nutrición infantil en el Perú | 49
Se puede apreciar que los coeficientes de todas las variables incluidas en el modelo son
estadísticamente significativos al trabajar con un nivel de confianza de 80%. Tal como se
explicó en la referencia teórica, el signo asociado a cada coeficiente indicará la dirección del
impacto de la variable en cuestión sobre la probabilidad de estar en la categoría más alta. En
este caso, dicha categoría corresponde a la desnutrición crónica severa. El impacto sobre la
probabilidad de estar en la categoría más baja (no desnutrido) posee la dirección contraria,
mientras que el impacto sobre la categoría intermedia (desnutrido crónico moderado) no se
puede establecer a priori sino en el momento de analizar los efectos impacto. Cabe recordar
que en el presente caso de estudio la variable Desnutrición cuenta con tres categorías y, por
lo tanto, existen dos puntos de corte (a) que se reportan en la parte inferior de la imagen 1.
Los resultados demuestran que el impacto del PIN y de la afiliación al seguro de salud (SIS
u otro) sobre el estado de desnutrición del individuo son significativos y negativos. Por otro
lado, para verificar que el efecto de afiliarse al SIS es superior al de afiliarse a otro seguro,
procedemos a analizar los efectos impacto que tienen las variables sobre la probabilidad de
encontrarse en cada una de las categorías.
b. Efectos impacto20
En el presente caso existen distintas variables discretas cuyos efectos impacto resulta
interesante analizar. A diferencia del caso binomial, en este ejemplo la variable dependiente
toma tres distintos valores: 0, 1 y 2. Por lo mismo, el cálculo de los efectos impacto y
elasticidades requerirá la especificación de la categoría sobre la que se intenta calcular dichos
valores. Para esto, utilizaremos el siguiente algoritmo:
** Efectos Impacto
forvalues i=0/2 {
mfx compute, predict(outcome(`i’))
}
20
Como se mencionó en el caso aplicado de la sección 3, es oportuno calcular los efectos impacto para el caso
de las variables independientes discretas. Para el caso de las variables continuas, es preferible calcular y analizar las
elasticidades.
50 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Como se observa en la parte superior de la primera imagen, el niño promedio menor de cinco
años posee una probabilidad de 78,9% de no ser desnutrido crónico en el Perú. Sin embargo,
existe también una probabilidad de 17,8% y 3,3% de que sea desnutrido crónico moderado y
desnutrido crónico severo, respectivamente.
Tal como fue explicado en la referencia teórica, los efectos impacto de cada explicativa,
para las tres categorías consideradas en este ejemplo, deben sumar cero. Con esto en mente,
resulta interesante analizar el efecto impacto de la principal variable de interés: la ayuda
Efect ivid ad d el g ast o p úb lico para combatir la des nutrición infantil en el Perú | 53
proporcionada por el PIN. Al respecto, los resultados muestran que por cada ración per cápita
que se incrementa en el distrito donde habita el niño, la probabilidad de que este sea desnutrido
crónico severo se reduce en 0,06 puntos porcentuales (es decir, 6 puntos porcentuales por cada
100 raciones adicionales), mientras la correspondiente a que sea desnutrido disminuye en 0,20
puntos porcentuales. Esto indica que el PIN es una herramienta más efectiva para combatir
la desnutrición crónica moderada que la desnutrición crónica severa.
2. De las variables referidas a la seguridad del hogar, vale la pena destacar que si en este existe
un niño menor de cinco años que sufre de desnutrición crónica, la probabilidad de que el
segundo niño la padezca en forma severa se incrementa en 2,90 puntos porcentuales.
3. Entre las variables relacionadas con la preparación de la madre se observa que por cada nivel
educativo adicional alcanzado por esta, la probabilidad de que el niño sufra desnutrición
crónica severa se reduce en 0,54 puntos porcentuales, mientras la correspondiente a ser
desnutrido crónico moderado disminuye en 2,32 puntos porcentuales.
4. Finalmente, por cada punto porcentual que se incremente la tasa de desnutrición del
distrito, las probabilidades de que el niño sufra de desnutrición crónica moderada
21
Con una confianza de 80%.
54 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
4. Conclusiones
Se comprueba que un niño menor de cinco años tiene una probabilidad no despreciable de
sufrir desnutrición crónica moderada (17,82%) o severa (3,28%) en el Perú.
• Se encontró evidencia a favor de que la afiliación del niño a un seguro de salud tiene
un impacto negativo sobre la probabilidad de ser desnutrido crónico moderado y severo.
Además, se halló que el impacto de estar afiliado al SIS sobre el estado de desnutrición
del niño es mayor que el que tiene el afiliarse a cualquier otro seguro.
• Por último, se ha encontrado evidencia empírica que verifica que las características del
niño, la preparación de la madre, la seguridad del hogar y el nivel de salubridad de la
comunidad tienen influencia sobre el estado nutricional del niño.
Sintaxis ologit
Comando: ologit
Realiza la estimación logística del tipo ordenado.
Uso: ologit variable dependiente [Variables independientes] [if] [in] [peso] [, opciones]
Indicaciones:
Los valores que toma la variable dependiente son irrelevantes. Sin embargo, se asume que se
trata de una categoría mayor en la medida en que dicho valor sea más alto.
Las principales opciones con las que cuenta son las mismas que para el caso binomial.
¿Qué hacen los jóvenes al concluir la secundaria? | 55
Son dos las características particulares y, a la vez, contradictorias del sistema educativo
peruano. Por un lado, las altas tasas de cobertura en la educación básica (94,3% de las
personas en edad escolar asisten al colegio) y, del otro, los bajos logros en el aprendizaje, que
se evidencian tanto en evaluaciones nacionales como en aquellas que permiten la comparación
con resultados de otros países (PISA23 y Llece24). Como consecuencia, se ha demostrado que
el acceso a educación básica no representa un vehículo de escape de la pobreza como sí lo
constituye la educación superior (Yamada y Castro 2007).
Frente a esto, cabe esperar que la transición hacia los estudios superiores debería sea
la alternativa por seguir para aquellos adolescentes que finalizan estudios secundarios.
Sin embargo, la tasa de matrícula en educación superior de estos últimos se encuentra
en alrededor de 35% en los últimos años. Al respecto, es preciso considerar dos puntos
importantes: la heterogeneidad de la educación superior y la necesidad de generar ingresos
22
Basado en Mendo y Lisboa (2009).
23
Esta prueba se aplica a alumnos de 15 años en el marco del Programa Internacional de Evaluación de Estudiantes
(PISA, por sus siglas en inglés) y evalúa el desempeño académico por medio de tres aristas: comprensión lectora,
matemáticas y alfabetización científica. El Perú participó solo en la prueba realizada el 2001 y ocupó el último lugar
entre los 41 países participantes.
24
El Llece es la red de los Sistemas Nacionales de Medición y Evaluación de la Calidad Educativa de los países
de América Latina. Esta ha realizado dos evaluaciones internacionales para alumnos de primaria, cuyos resultados
ubican al Perú por debajo del promedio en los campos evaluados: matemáticas, comprensión lectora, escritura y
ciencias naturales.
56 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
(trabajar en vez de continuar estudiando) que tienen muchos jóvenes desde sus primeros
años de adolescencia.
El objetivo del presente ejercicio es identificar los determinantes de que un joven (menor a
23 años) que ha finalizado la educación básica no se encuentre realizando estudios superiores
ni haya ingresado al mercado laboral. El interés en este grupo específico se relaciona con la
hipótesis de que una de las principales causas de esta aparente inactividad es la necesidad de
acumular capital humano para cerrar la brecha existente entre la educación básica y la que
exige la educación superior (estos jóvenes estarían estudiando en algún tipo de institución o
grupo de preparación para hacer frente adecuadamente a la educación superior25).
2. Metodología
Es tentador asignar un orden a las categorías mencionadas de acuerdo con criterios propios,
sin embargo, cualquier ordenamiento no sería más que un ranking de preferencias de la persona
que lo elabore. No es posible establecer objetivamente si trabajar como mensajero es mejor
25
Entre los hechos estilizados a la luz de los cuales se construyó la hipótesis figuran que 60,4% de los jóvenes
en la situación mencionada reportan tener problemas económicos o encontrarse en una academia preuniversitaria;
83,9% afirman no estar en búsqueda de trabajo; y que 60,7% de los jóvenes de dicho grupo tienen menos de 20 años,
mientras la proporción correspondiente para el resto asciende a 41,9%.
26
Se asume que se trata de categorías mutuamente excluyentes y exhaustivas.
¿Qué hacen los jóvenes al concluir la secundaria? | 57
Con esto, es claro que la variable dependiente (actividad) puede adoptar un conjunto limitado
de valores discretos que no pueden ser jerarquizados, por lo que se estarán modelando las
probabilidades de realizar una determinada actividad. En consecuencia, la técnica de estimación
adecuada es un modelo multinomial no ordenado. Al respecto, si bien no existe a priori ninguna
razón para descartar la distribución logística o normal para los errores, se trabajará con la
primera para simplificar la exposición e interpretación de los resultados.
¿Por qué no agrupar los datos en dos categorías: la de interés (“otros”) y el resto, si lo que
se busca es hallar los determinantes de encontrarse en la primera? La razón es simple: los
factores que llevan a un joven a moverse de la categoría “otros” hacia una categoría distinta
pueden tener efectos diferenciados según cuál sea esta última. Por lo tanto, de no considerarse
por separado las opciones planteadas se distorsionarían los resultados.
La hipótesis planteada implica que los mismos factores que llevan a un joven con educación
básica completa a seguir estudios superiores universitarios, en lugar de trabajar o cursar
educación superior no universitaria, deben influir positivamente sobre la probabilidad de que
este se encuentre en la categoría “otros” respecto a las últimas dos alternativas mencionadas27.
Entre tales factores destacan la recompensa salarial que el individuo espera obtener si logra un
título universitario y la importancia que la familia le brinda a la educación. El logro educativo
asociado al nivel de instrucción básico, por su parte, debe impactar positivamente sobre la
probabilidad de encontrarse en la categoría de educación universitaria respecto a “otros”, en
la medida en que la brecha de conocimientos y aptitudes es menor. Estas tres variables son
no observables, por lo que tuvieron que ser aproximadas.
En el caso de la prima de salario, se realizaron estimaciones del salario por hora que cada
individuo recibiría con educación secundaria completa y con un título universitario, para luego
calcular la diferencia. Como proxy de la importancia que la familia brinda a la educación
se utilizaron los años de educación del jefe del hogar (padres más educados valoran más la
educación de sus hijos).
27
Esto en la medida en que la hipótesis implica que la categoría “otros” es una etapa de preparación transitoria
para garantizar el paso a la educación superior universitaria.
58 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Lamentablemente, la base de datos no cuenta con una variable adecuada para medir el logro
educativo, por lo que se utilizó la información sobre gestión (pública o privada) del colegio al
que asistió el individuo, tomando en cuenta los resultados de las pruebas de rendimiento, que
confirman que el segundo tipo es de mejor calidad y, como tal, hace posible que los alumnos
alcancen un mayor nivel de dicho logro.
Variable dependiente
Nombre Descripción
Actividad que se encuentra desarrollando el individuo. Toma cuatro valores:
(i) 1, si el individuo cursa educación superior universitaria; (ii) 2, si cursa
Actividad
educación superior no universitaria; (iii) 3, si se encuentra trabajando; y (iv)
0, de otro modo.
Hasta aquí las principales variables del estudio. A continuación se presentan las demás
variables explicativas incluidas en el modelo. Entre ellas tenemos: (i) características específicas
del individuo (edad, sexo, si es jefe de hogar); (ii) características del hogar al que pertenece
(pobreza, porcentaje de personas dependientes en el hogar); y (iii) características de la localidad
donde habita (urbana o rural). Estos elementos influyen sobre la decisión de asignación del
tiempo del joven. Por tanto, es necesario tomar en cuenta sus efectos si lo que deseamos es
aislar el impacto de las variables explicativas de interés.
¿Qué hacen los jóvenes al concluir la secundaria? | 59
xi ' β j
Pr (yi = j|data) = e
3 xi ' β j
1+ ∑ e
j =1
60 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Pr (y i = j ) xi ' β j K
=e = exp βj1 PRIMA_UNIi + βj2 JEFE_EDUCi + βj3TIPO_COLEGIOi + ∑ βjnxni
Pr (y i = 0) n =4
Donde xi representa el vector de valores para las variables explicativas para el individuo i;
y bj, el vector de coeficientes de la alternativa j. La estimación del modelo implica el cálculo
de tres ecuaciones, una para cada categoría distinta a la base.
Los efectos que constituyen evidencia a favor de la hipótesis planteada ya fueron descritos en
el momento de discutir las variables explicativas de interés. Como se recordará, una mayor prima
salarial esperada por obtener un título universitario, y un mayor grado de instrucción del jefe del
hogar, aumentan la probabilidad de encontrarse en la categoría “otros” respecto a trabajar y a
seguir estudios superiores no universitarios; el haber asistido a un colegio de gestión privada, por
su parte, aumenta la probabilidad de encontrarse en la categoría “superior universitaria” respecto
de “otros”. El propósito de la presente sección es traducir estas afirmaciones en resultados de
nuestro modelo (por ejemplo, signos y/o magnitudes de coeficientes o efectos impacto).
Como el lector seguramente ha notado, se está buscando comprobar impactos sobre las
probabilidades relativas (ratios de probabilidad) y no sobre las probabilidades absolutas. Si a
esto se agrega que los ratios de probabilidad necesarios involucran a la categoría base, se tiene
que los resultados esperados se desprenden directamente de los signos de los coeficientes de
las distintas ecuaciones.
Así, para verificar la primera hipótesis se necesita que los coeficientes de la variable Prima_uni
de las ecuaciones asociadas a las categorías “trabajar” y “educación superior no universitaria”
sean negativos. De manera similar, la segunda hipótesis equivale a que los coeficientes de
la variable Jefe_educ en las ecuaciones asociadas a “trabajar” y “seguir estudios superiores
no universitarios” sean negativos. Por último, para constatar la tercera hipótesis se necesita
que el coeficiente de la variable Tipo_colegio en la ecuación asociada a educación superior
universitaria sea positivo.
28
Se utilizaron los módulos correspondientes a características de la vivienda y del hogar, características de los
miembros del hogar, educación, empleo, gastos del hogar y salud.
¿Qué hacen los jóvenes al concluir la secundaria? | 61
Luego de generar todas las variables necesarias y restringir la muestra al grupo de interés,
se realiza la estimación del modelo multinomial logístico mediante el comando30:
29
Esta metodología se discutirá al detalle en el siguiente capítulo del presente libro.
30
Se presentan solo las variables explicativas que resultaron significativas.
62 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
a. Pruebas de hipótesis
Antes de discutir los resultados, se realizarán las pruebas de hipótesis que permitan
corroborar: (i) la significancia de las variables incluidas en el modelo; (ii) la imposibilidad de
fusionar dos categorías en una sola; y (iii) la aceptación del supuesto de independencia de
alternativas irrelevantes (IIA, por sus siglas en ingles).
Los comandos para la estimación de las pruebas de significancia individual de las variables
son los siguientes:
** Test Wald
mlogtest, wald set(edad edad2)
** Test RV
mlogtest, lr set(edad edad2)
Los resultados indican que la hipótesis de no significancia para cada una de las variables
se rechaza al 1% de significancia. Cabe mencionar que la opción SET permite evaluar si los
coeficientes de cada ecuación para más de una variable son cero simultáneamente, por lo
que se utilizó para verificar la significancia de la variable edad que aparece en niveles y en
forma cuadrática en el modelo.
Si ninguna de las variables del modelo planteado influye sobre el ratio de probabilidades
de dos categorías, entonces se dice que las categorías son “no distinguibles” en función de
las variables explicativas del modelo. Esto abre la posibilidad de obtener estimadores más
eficientes fusionando las alternativas en cuestión en una sola.
Al igual que en el caso anterior, la comprobación de esta hipótesis se puede realizar mediante
la prueba de Wald o ratio de verosimilitud. Los comandos para realizar estas pruebas son los
siguientes.
** Test Wald
mlogtest, combine
** Test RV
mlogtest, lrcomb
Como se ve, la hipótesis de no distinción se rechaza para cada par de categorías, por lo que
no es posible fusionar las alternativas presentadas.
dos alternativas no depende de las demás categorías. En este sentido se dice que estas son
“irrelevantes”. Por tanto, remover alguna o aumentar una nueva no debería tener efectos sobre
el ratio de probabilidades mencionado. Con esto claro, la lógica de la prueba por utilizar (el
test de Hausman) resulta bastante intuitiva: verifica si la diferencia entre los estimadores
obtenidos utilizando todas las categorías y omitiendo una es significativa. De serlo, se tiene
evidencia en contra de la IIA. El cálculo de la prueba mencionada se realiza mediante el
siguiente comando.
** Test de Hausman
mlogtest, hausman
Los resultados de la prueba indican que cada una de las categorías es irrelevante para el
cálculo de los ratios de probabilidades que no la involucran. El signo negativo del estadístico
asociado a la categoría Trabaja llama la atención. Al respecto, Long and Freese (2006) señalan
que esto es común en este tipo de pruebas y que constituye evidencia a favor de que el supuesto
de IIA no ha sido violado. Verificada la idoneidad del modelo planteado, se procede a discutir
los resultados del mismo.
68 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
** Efectos Impacto
forvalues i=0/3 {
mfx compute, predict (p outcome(`i’)) dydx
}
Los resultados indican que la probabilidad que tiene un joven peruano promedio, que ha
culminado la educación básica, de no estar en educación superior ni trabajando asciende a
21,97%, porcentaje no despreciable que confirma la relevancia de analizar los determinantes de
encontrarse en esta situación. Por su lado, las probabilidades de que dicho joven se encuentre
en educación superior universitaria, no universitaria y trabajando son iguales a 18,71%, 13,90%
y 45,42%, respectivamente.
• Un año adicional de educación del jefe de hogar no posee un efecto significativo sobre
la probabilidad de encontrarse en la categoría “otros”. Asimismo, por cada año de
educación adicional del jefe del hogar la probabilidad de que el joven promedio asista a
la universidad aumenta en 1,83 puntos porcentuales, mientras que las correspondientes
a seguir educación superior no universitaria y trabajar disminuyen en 0,48 y 1,54 puntos
porcentuales, respectivamente.
¿Qué hacen los jóvenes al concluir la secundaria? | 71
** Elasticidades
forvalues i=0/3 {mfx compute, predict (p outcome(`i’)) eydx
}
31
El cálculo de la elasticidad se realiza utilizando la opción eYdX del comando MFX debido a que la variable
continua de interés incluida en el modelo, la prima salarial obtenida por realizar estudios universitarios, se encuentra
expresada en logaritmos. Si se desea calcular las elasticidades de variables continuas incluidas en niveles o de las
variables discretas para elaborar un ranking, se deberá utilizar la opción eYeX. Para mayor detalle sobre el comando
MFX, véase la sección de comandos utilizados del estudio de caso 2.
72 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Sobre la variable prima de salarios se puede concluir que un incremento de 1% del ratio
entre los salarios que el individuo espera recibir con educación superior universitaria y el
correspondiente al que obtendría solo con educación secundaria, ocasiona que la probabilidad
de estar en la categoría “otros” aumente en 3,40%.
Nótese que a la hora de interpretar los resultados podría pensarse que existe una
inconsistencia entre los efectos impacto y las elasticidades, y los correspondientes coeficientes
de las ecuaciones estimadas, inconsistencias que en realidad no son tales. Por ejemplo, en
el caso de la variable “prima de salarios”, si bien su coeficiente en la ecuación de educación
superior es negativo, tanto el efecto impacto como la elasticidad sobre la probabilidad de
estar en dicho nivel educativo son positivas. Ello es así porque mientras que el coeficiente
presenta el efecto de dicha prima sobre la probabilidad de estar en la educación superior
respecto a la de estar en la categoría base, el efecto impacto y la elasticidad correspondiente
expresan los cambios que esta variable produce solamente sobre la primera probabilidad (estar
en la universidad). Aun cuando un aumento de la prima mejora la probabilidad de estar en
educación superior, también lo hace sobre la probabilidad de estar en la categoría “otros” (y
por eso las elasticidades y efectos impacto de tal variable son positivos para ambas categorías).
En particular, tiene un efecto positivo mayor sobre la segunda (“otros”), por lo que su efecto
relativo sobre la educación superior es negativo (el coeficiente estimado).
74 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Antes de pasar al análisis de los efectos sobre los ratios de probabilidades, se considera útil
discutir los efectos impacto de las variables asociadas a las características del hogar y de la
localidad donde habita el joven.
Observemos también en este caso que el efecto impacto de habitar en una zona rural
sobre la probabilidad de asistir a educación superior es negativo, mientras que el coeficiente
de dicha variable en la ecuación asociada a la categoría mencionada es positivo. Como ya
mencionamos previamente, esto responde a que el efecto impacto recoge la variación en la
probabilidad absoluta y el coeficiente del modelo se encuentra asociado al cambio en el ratio
de probabilidades respecto de la categoría base. Por lo mismo, el hecho de habitar en una zona
rural debe reducir la probabilidad de estar en la categoría “otros” en mayor magnitud que la
reducción que produce en la probabilidad de asistir a la educación superior.
c. Ratios de probabilidad
Con esto menti, revisemos a continuación el efecto que se produce sobre los ratios de
probabilidades ante cambios en las principales variables explicativas .
Como se explicó en la sección teórica 4.4.1, el impacto (en términos porcentuales) de una
variable (k) sobre el ratio de probabilidades de la alternativa j respecto a la n se puede aproximar
como (bj,k – bn,k) para cambios porcentuales pequeños. En particular, es cierto que:
¿Qué hacen los jóvenes al concluir la secundaria? | 75
Al volver sobre la ventana de resultados principal del modelo se puede apreciar que la
significancia y signo de los coeficientes de las variables explicativas se encuentran acorde con
lo indicado previamente para la validación de la hipótesis planteada.
Los coeficientes asociados a los años de educación del jefe del hogar muestran que entre
mayor importancia se proporcione a la educación en el hogar, menores serán las probabilidades
de que el joven se encuentre trabajando o en un instituto superior no universitario respecto
a la de estar la categoría base. Cada año de educación del jefe de hogar hace 4,22% menos
probable trabajar respecto a la categoría base y 4,29% menos probable asistir a educación
superior no universitaria respecto a estar en la categoría “otros”33.
32
Esto responde a que se está trabajando con el logaritmo del ratio de probabilidades y el logaritmo de la prima
de salario. Por lo mismo, la derivada parcial de la primera respecto de la segunda corresponde a una elasticidad, y
esta derivada es capturada directamente por el coeficiente estimado.
33
Esta aproximación responde a que ln(1 + x) ≈ x para valores de x pequeños (cambios porcentuales pequeños).
76 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
El haber asistido a educación básica en un centro privado, por su parte, hace 58,27% más
probable asistir a educación superior respecto a estar en la categoría “otros”. Esto llevaría
a concluir que la buena educación escolar recibida haría más fácil y directo el paso a la
educación superior.
4. Conclusiones
Sintaxis mlogit
Comando: mlogit
Realiza la estimación por maxima verosimilitud de los coeficientes del modelo logit
multinomial.
Uso: mlogit variable dependiente [Variables independientes] [if] [in] [peso] [, opciones]
Opciones principales:
noconstant ; suprime la constante como regresor en la estimación
baseoutcome(#); fija la categoría base
D eterminantes del pes o al nacer | 79
En la medida en que buena parte de los casos de bajo peso al nacer ocurren en países en vías
de desarrollo, cabe esperar que esta variable dependa de factores socioeconómicos y aquellos
vinculados con las prácticas de salud de la madre gestante. En el Perú, el número de casos
de recién nacidos con bajo peso es elevado, especialmente en las zonas más pobres del país.
Es por ello que el conocimiento de los factores que lo determinan será útil para orientar las
políticas de salud que prevengan su ocurrencia y sus principales consecuencias.
Al respecto, la hipótesis que se intenta probar en el presente caso es que, luego de controlar
por las características biológicas de la madre, las prácticas de salud durante el embarazo
cumplen un papel importante como determinantes del peso que tiene el bebé al nacer. En
particular, los controles prenatales deben contribuir a que el recién nacido reporte un peso
34
Basado en Pozo y Zhang (2008).
80 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
2. Metodología
En este caso en particular, el peso al nacer de un recién nacido puede provenir de una
muestra no aleatoria en la medida en que las observaciones no disponibles (los no pesados)
correspondan a niños provenientes de familias que no tienen acceso a un establecimiento de
salud formal. Como el acceso a este tipo de establecimientos está típicamente correlacionado
con los factores socioeconómicos que inciden sobre la salud de la madre y el niño, cabe esperar
que los niños que no fueron pesados, o de los cuales no se registró el peso, sean también
quienes observen una mayor probabilidad de tener un bajo peso al nacer.
Es así que, como parte del desarrollo de este caso, se especificarán y estimarán dos ecuaciones:
(i) una que corresponde a la ecuación de interés que busca analizar los determinantes del
peso al nacer; y (ii) otra que es la ecuación de selección, que busca corregir el problema de
sesgo descrito anteriormente.
Las variables por utilizar tanto para la ecuación de interés como para la de selección se
describen en los cuadros siguientes.
D eterminantes del pes o al nacer | 81
Variables dependientes
Nombre Descripción
Peso Caracteriza el peso registrado del bebé en el momento de su naci
(ecuación de interés) miento. Es una variable continua expresada en gramos36.
Pesado
Toma el valor 1 si se registró el peso del niño; y 0, de otro modo.
(ecuación de selección)
35
En lo que respecta a las variables explicativas, nuestro principal interés recae sobre la variable
controles. De hecho, esperamos que el acceso a un número adecuado de controles prenatales36
exhiba un efecto positivo tanto sobre el peso al nacer (por las razones expuestas en el acápite
anterior) como sobre la probabilidad de que el niño sea pesado en el momento de nacer. Respecto
a esto último, se espera que las consultas prenatales incrementen la confianza y valoración
de la madre respecto a los servicios de salud formales y que esto aumente la probabilidad de
que su niño(a) reciba una atención completa en el momento del parto.
35
Pese a tener valores mínimos posibles (nadie puede pesar menos de cero), esta variable no muestra un problema
de censura alrededor de dicho valor, ya que ningún individuo de la muestra presenta un peso al nacer cercano al
valor límite.
36
Si bien el número óptimo de controles depende de las características del embarazo, bajo circunstanciales normales
se espera que este fluctúe entre 6 y 8.
82 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
a. Ecuación de selección
Tal como se desprende de la referencia teórica, para el presente caso será necesario, en
primer lugar, la especificación de una ecuación que caracterice la probabilidad de que un recién
nacido sea pesado, y que dicho peso sea adecuadamente registrado. Para esto, partiremos de
la existencia de una variable continua latente que puede, sin perder generalidad, representa
el beneficio neto que para la madre y quien recibe al niño durante el parto tiene el hecho de
registrar su peso (tomando en cuenta también las posibles restricciones que influyen sobre
la posibilidad de realizar este registro). Esta variable depende del conjunto de determinantes
planteado para la ecuación de selección, entre los que se encuentra aquel que identifica si la
madre accedió a un número adecuado de controles prenatales (controles). Formalmente:
84 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
Lo que finalmente se observa es si el peso del niño fue registrado o no, lo que ocurre cuando
zi* es positivo. Esto configura la variable dependiente binaria definida previamente para la
ecuación de selección.
0
de otro modo (z * < 0)i
Lo anterior supone que estimaremos la probabilidad de que un recién nacido sea pesado y ese
peso se registre, dadas ciertas características propias de la madre y el hogar al que pertenece.
De manera particular, se tiene:
Una vez especificada la ecuación de selección, es necesario definir la ecuación que permita
caracterizar el peso de los recién nacidos. Para esto, suponemos que dicho peso es una variable
continua que puede ser representada de la siguiente manera:
Donde el vector xi contiene las variables de control propuestas para la ecuación de interés
en la tabla anterior. La variable dependiente, sin embargo, es solo observable si el niño es
pesado y su peso registrado. De esta forma, la variable dependiente disponible en la muestra
viene dada por:
y * si zi* > 0
yi = i
N .D. si zi *≤ 0
−γ 1controles i − w i ' γ
Dado que: α z =
σε
c. La data
Tal como se desprende de la discusión anterior, nuestras hipótesis comprenden dos elementos
claramente definidos y contrastables a partir de los resultados de las estimaciones. En primer
lugar, partimos de la premisa de que existe sesgo de selección en la medida en que la muestra
de niños cuyo peso es registrado no es aleatoria. En particular, creemos que existe un conjunto
de atributos no observables que impactan positivamente tanto sobre el hecho de que el niño
sea pesado como sobre su peso, y esto lleva a que el grupo de los niños pesados registre un
peso promedio superior al de la población general.
El segundo elemento de nuestra hipótesis tiene que ver con el efecto positivo que se espera
que tenga el acceso a un número adecuado de controles prenatales tanto sobre la probabilidad
de que el peso del niño sea registrado en el momento de su nacimiento, como sobre el peso que
este finalmente reporta. En términos de las expresiones desarrolladas en el acápite anterior,
lo anterior implica que tanto g1 como b1 sean positivos.
Al respecto, cabe precisar la diferencia que existe entre b1 y el efecto marginal de la variable
controles sobre el peso al nacer dentro de la muestra de los niños cuyo peso es registrado (la
muestra no truncada). Esta diferencia surge debido a que la variable en cuestión afecta tanto
a la ecuación de selección como a la ecuación de interés.
E [yi|zi* > 0; xi, wi, controlesi = 1] - E [yi|zi* > 0; xi, wi, controlesi = 0] (6.)
f [(γi + wi’ γ)/ σε] f [(wi’ γ)/ σε]
= β1 + ρuεσu
F [γi + wi’ γ)/ σε] F [wi’ γ)/ σε]
Para verificar el signo del término entre corchetes, nos permitimos una aproximación suponiendo
que controles es una variable continua, y evaluamos la derivada parcial del ratio
- γ1 controlesi - wi’γ
de Mills respecto a esta variable. Para esto, recordemos que αz = σε
f [ (γ1controles i + wi’γ) /σε]
y λ (αz) = .
F [ (γ1controles i + wi’γ) /σε]
Así, tenemos:
∂λ (-αz) ∂λ (-αz) ∂λ (-αz)
=
∂controlesi ∂(-αz) ∂controles
γ1
= αzλ (-αz) - λ (-αz)2
σε
γ1
=- λ (αz)2 - αz λ (αz)
σε
D eterminantes del pes o al nacer | 87
El término entre corchetes es siempre positivo al igual que σε, por lo que el signo del efecto
de controles sobre el ratio de Mills depende del signo de γ1. La dirección del término de
“corrección” dado en (6.), por tanto, dependerá de la interacción entre los signos de γ1 y rue.
Es fácil confirmar que si se verifican nuestras hipótesis (rue > 0; γ1 > 0), la “corrección” es a la
baja tal como se adelantó líneas arriba.
** Modelo Probit
probit pesado controles parto agua elect dni
88 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
--------------------------------------------------------------------------------------------------
pesado | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------------------------------------------------------------------------------------------------
controles | .2470028 .0943586 2.62 0.009 .0620634 .4319423
parto | .5752172 .0354392 16.23 0.000 .5057577 .6446767
agua | .2643223 .0973939 2.71 0.007 .0734338 .4552109
elect | .3698232 .0994634 3.72 0.000 .1748787 .5647678
dni | .2872845 .1114526 2.58 0.010 .0688413 .5057276
_cons | -1.092505 .1263391 -8.65 0.000 -1.340125 -.8448847
--------------------------------------------------------------------------------------------------
Este resultado permite identificar cinco variables que cumplen un papel determinante
para explicar la probabilidad de ser pesado. De manera particular, destacan las variables
relacionadas con la situación socioeconómica de la madre y su acceso a servicios básicos (como
agua, electricidad e identidad). El tipo de establecimiento donde ocurre el parto también es
importante en la medida en que en las instituciones formales es más probable que se sigan
todos los procedimientos de control del menor, entre los que se encuentra el registro del peso.
Por último, y atendiendo a la significancia y signo asociados al coeficiente de controles, ya se
cuenta con evidencia a favor de una de nuestras hipótesis.
b. La ecuación de interés
** Modelo Inicial
heckman peso mayor pesom pesom2 sexo gemelo anemia controles
fuma seguro agua elect riqueza edum region urbano altura ,
select(pesado= controles parto agua elect dni) two
--------------------------------------------------------------------------------------------------
pesado |
controles | .2225492 .0978471 2.27 0.023 .0307724 .414326
parto | .5968046 .0364521 16.37 0.000 .5253599 .6682494
agua | .3123141 .1008316 3.10 0.002 .1146878 .5099404
elect | .3480635 .1033332 3.37 0.001 .1455341 .5505928
dni | .2635067 .1150851 2.29 0.022 .037944 .4890694
_cons | -1.201925 .1303653 -9.22 0.000 -1.457436 -.946414
--------------------------------------------------------------------------------------------------
mills |
lambda | 60.06117 59.64176 1.01 0.314 -56.83454 176.9569
--------------------------------------------------------------------------------------------------
rho | 0.12457
sigma | 482.16338
lambda | 60.061166 59.64176
--------------------------------------------------------------------------------------------------
Luego de discriminar las variables poco significativas para la ecuación de interés, nuestro
modelo final es como sigue:
D eterminantes del pes o al nacer | 91
Con toda la evidencia analizada hasta ahora, se verifica la primera parte de nuestra
hipótesis. Para validar el segundo elemento, es necesario verificar la significancia y signo de
los coeficientes de la variable controles en las ecuaciones de selección e interés. Los resultados
para la primera ecuación se reportan en el panel intermedio, donde se verifica que todas las
variables identificadas (entre las que se encuentra controles) favorecen la probabilidad de
que el niño sea pesado al nacer. El primer panel, por último, reporta los resultados para la
ecuación de interés, donde también se confirma la significancia y signo positivo asociados a
la variable controles.
Ahora bien, el hecho de que la variable controles esté presente también en la ecuación
de selección conlleva que este resultado difiera del efecto marginal sobre el peso promedio
dentro de la muestra de los niños cuyo peso es registrado. Tal como fue explicado en el acápite
anterior, se espera que este efecto sea menor. Para conocer este resultado es necesario ejecutar
el comando MFX tal como se muestra a continuación.
** Efectos Impacto
mfx, predict(ycon)
37
Recuérdese que el coeficiente que acompaña a la inversa del ratio de Mills viene dado por el producto de rue y
su. El lector puede verificar esto multiplicando los estimados reportados.
D eterminantes del pes o al nacer | 93
Vale la pena resaltar hasta tres elementos de los resultados reportados en la imagen anterior.
En primer lugar, dentro del conjunto de regresores involucrados en la ecuación de interés, el único
que registra un efecto marginal distinto del coeficiente reportado en la imagen 3 es controles. El
lector podrá inferir fácilmente que esto se debe a que este es el único regresor presente en ambas
ecuaciones y, por lo mismo, es el único para el que el efecto marginal en la población difiere del
efecto marginal para la muestra no truncada. En segundo lugar, y tal como esperábamos, el efecto
marginal de controles en la muestra no truncada es menor que aquel asociado a toda la población:
para un niño cuyo peso ha sido registrado, el hecho de que su madre haya tenido acceso a un
número adecuado de controles prenatales incrementa su peso al nacer en 109 gramos.
Un último elemento que llama la atención es el efecto impacto negativo asociado a las
variables que solo están presentes en la ecuación de selección. En particular, y lejos de significar
que estas variables impactan de manera negativa sobre el peso al nacer, este ajuste negativo es
94 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
necesario para “acomodar” el hecho de que estas variables afecten positivamente la probabilidad
de ser pesado pero no tengan efecto sobre el peso (tal como lo refleja el hecho de que no estén
presentes en la modelación de la media de esta variable para toda la población)38.
Vale la pena, por último, comparar los resultados obtenidos con los de una estimación que
ignora la no aleatoriedad de la muestra empleada. Para esto, se plantea una regresión por
MCO con los mismos regresores utilizados para la ecuación de interés.
38
Para comprender mejor esto, se puede ensayar la siguiente explicación tomando la variable parto como ejemplo:
el hecho de que el parto haya ocurrido en un centro médico no tiene efecto sobre el peso del niño; si bien esto afecta
positivamente la probabilidad de que el niño sea pesado y pertenezca a un grupo con un peso promedio mayor, esto
se ve exactamente compensado por el efecto que tiene la variable en cuestión sobre la media de este grupo.
D eterminantes del pes o al nacer | 95
Una aproximación intuitiva para las diferencias encontradas entre las estimaciones por MCO
y por el método de Heckman puede ensayarse a partir de la correlación positiva que existe
entre los errores de las ecuaciones de selección y de peso al nacer. Si esta correlación no se
incorpora en la estimación y no se reconoce que la muestra con la que se estima el modelo
incluye a aquellos niños que tienen mayor probabilidad de pesar más, el efecto de esta mayor
media se trasladará, erróneamente, a los coeficientes estimados. La corrección por sesgo de
selección “absorbe” esta mayor media a través de la inversa del ratio de Mills, y esto permite
estimar de manera consistente los parámetros de interés39.
4. Conclusiones
n Existe sesgo de selección en la muestra de niños que son pesados al nacer y cuyo peso
es registrado. En particular, se verifica que el peso promedio de los niños cuyo peso es
registrado es superior al promedio de la población general, dada la existencia de correlación
positiva entre el error de la ecuación que modela la media del peso al nacer y el error de
la ecuación que explica el hecho de que niño sea pesado.
39
En una estimación por MCO, la dirección del potencial sesgo de un coeficiente depende, en gran medida, de la
correlación entre el regresor asociado y el término de error. Una regresión que ignora el sesgo de selección es, a fin
de cuentas, una regresión que adolece de un problema de variable omitida: se ha omitido la inversa del ratio de Mills
y su efecto es capturado por el error. Cabe esperar, por tanto, que la dirección del sesgo en el ejemplo en cuestión
dependa de la correlación entre el regresor y la inversa del ratio de Mills. La variable controles, por ejemplo, exhibe
una correlación negativa con la inversa del ratio de Mills y se verifica que MICO arroja una estimación subvaluada
de su coeficiente.
96 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
n Una regresión por MCO que ignora el hecho de estar trabajando con una muestra no
aleatoria arroja estimados no consistentes: el efecto impacto de los controles prenatales
sobre el peso al nacer es subestimado y se concluiría, erróneamente, que este asciende
a solo 100 gramos.
Sintaxis heckman
Comando: heckman
Realiza una regresión lineal.
Indicaciones:
select(Variable dependiente_ecuación de selección = Variables independientes_ecuación
de selección)
Hace explícito el hecho de que se realizará la estimación en dos etapas de Heckman, cuyos
estimados de los parámetros estimados son eficientes.
Bibliografía | 97
Bibliografía
CASTRO, Juan F.
2008 “Política fiscal y gasto social en el Perú: ¿cuánto se ha avanzado y qué más se puede
hacer para reducir la vulnerabilidad de los hogares?”. En: Apuntes, 62, primer semestre
del 2008. Centro de Investigación de la Universidad del Pacífico.
DEATON, Angus
2009 Randomization in the Tropics, and the Search for the Elusive Keys to Economic
Development. National Bureau of Economic Research.
2000 The Analysis of Household Surveys: A Microeconometric Approach to Development
Policy. The World Bank, The Hopkins University Press.
GOURIEROUX, Christian
2000 Econometrics of Qualitative Dependent Variables. Cambridge, Reino Unido: Cambridge
University Press.
98 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
GREENE, William H.
2003 Econometric Analysis. 5ª ed. New York University. Prentice Hall.
GUJARATI, Damodar N.
2007 Econometría. 4a ed. McGraw-Hill.
HECKMAN, James J.
1979 “Sample Selection Bias as a Specification Error”. En: Econometrica, 47, pp. 153–61.
LUSTIG, Nora
1999 Crises and Poor: Socially Responsible Macroeconomics. Sustainable Development
Technical Paper Series POV-108. Inter-American Development Bank.
McFADDEN, Daniel L.
1973 “Conditional Logit Analysis of Qualitative Choice Analysis”. En: ZAREMBKA, P. (Ed.)
Frontiers in Econometrics. Nueva York: Academic Press, pp. 105-42.
NOVALES, Alfonso
1997 Estadística y Econometría. Madrid: McGraw-Hill.
TOBIN, James
1956 “Estimation of Relationships for Limited Dependent Variables”. En: Econometrica, 26,
pp. 24-36.
WILKS, Samuel S.
1962 Mathematical Statistics. Nueva York: Wiley [2a ed. corregida, 1963].
WOOLDRIDGE, Jeffrey
2002 Econometric Analysis of Cross Section and Panel Data. MIT Press.
Anexo: Conociendo el entorno de ST ATA | 101
1. Entorno de Stata
Imagen 1 . La ventana principal del programa Stata
Ventana
de Review Zona de
resultados
Ventana de
variables Zona de
comandos
Windowing preferences
Stata puede presentar las cuatro zonas en un orden distinto al descrito. Si bien se puede
modificar la presentación a gusto del usuario, es posible definir por defecto el orden y
presentación que a usted más le acomode utilizando la opción Save Windowing Preferences
de la opción Prefs de la barra de menú.
2. Datos generales
Tipos de archivo
• *.ADO: archivo que guarda tareas más específicas y ya está integrado al programa. Permite
integrar de forma permanente un comando como parte de la lista de comandos internos
del Stata.
• *.SMCL: en este archivo se guardan todos los resultados que se obtienen con Stata (archivo
log).
Anexo: Conociendo el entorno de ST ATA | 103
Barra de herramientas
Muestra una ventana de Stata Viewer que esté oculta. Esta ventana
permite al usuario realizar búsquedas dentro de la ayuda del programa.
3. Empezando a trabajar
set memory: cuando se abre Stata, por defecto asigna un espacio de 1,00 MB,
pero ello puede no ser suficiente por lo que puede reconfigurarla utilizando este
comando.
Ej. Set memory 50m (lo cual supone una memoria de 51.200kb)
Set memory 50m, permanently (en caso desee configurar la memoria perma
nentemente)
Por defecto, el número máximo de variables por ser usadas en una estimación es de 800 y
se puede controlar con:
La capacidad máxima de variables en una base de datos, por defecto, es 5.000, pero se puede
incrementar hasta 32.766.
El manejo de datos es tal vez la parte más importante del trabajo en Stata. De ahí la
relevancia de saber cómo usar y guardar la información por tratar. Ello, sin embargo, supone
que el investigador cuenta con una base de datos en formato Stata o, lo que es lo mismo,
con extensión .dta. Dado que es común que este no sea el caso, es importante conocer cómo
importar información proveniente de distintos formatos.
Al respecto, hay dos maneras para trabajar con una base de datos de extensión distinta a
la de Stata: (i) introduciendo uno a uno los datos a través del Stata Editor; y (ii) utilizando el
Statransfer, el cual se describe a continuación.
Para cambiar el formato de un archivo, se debe especificar el programa y ruta de origen que
le corresponden en las celdas “Input File Type” y “File Specification”. Así, por ejemplo, para el
caso en que se requiere pasar información en formato SPSS al Stata, se tendría lo siguiente:
• Luego se debe especificar en la celda “Output File Type” el formato en el que se desea que
esté disponible la base de datos. En este caso, la opción por escoger es Stata. Finalmente,
en la última celda (File Specification) se indica la dirección en la que deseamos esté
disponible el archivo. En nuestro ejemplo, se tendría:
Anexo: Conociendo el entorno de ST ATA | 107
• Luego de completar los campos con la información descrita, se hace clic en “Transfer” y
el programa iniciará la importación de datos.
Definiendo el directorio
Dado que Stata es un programa de manejo de bases de datos, es probable que el investi
gador consulte varias de ellas. Si bien ello puede realizarse con la herramienta “abrir”,
puede también hacerse utilizando comandos. Ello, sin embargo, supone definir previamen
te la dirección en donde se encuentran las bases por utilizar. Para ello, se utiliza el siguien
te comando:
cd “dirección”
108 | Modelos de datos de panel y variables dependientes limitadas: teoría & práctica
4. Comandos
• Lista de variables: contiene la lista de una o más variables a las que el comando se
aplicará. Si no aparece, se asume que el comando se ejecuta para todas las variables. Se
permite el uso de comodines, ejemplo: dum* o dum?
• by lista de variables: hace que Stata repita un comando para un subconjunto de los datos
compuesto por las variables de la lista.
• opciones: cada comando de Stata, según el procedimiento que realice, tiene asociado
una serie de opciones que son específicas a su funcionamiento. Si se numeran varias,
puede ser en cualquier orden y separadas por comas.
Ejemplos: