Modelos Econométricos con Variables Dicotómicas
Modelos Econométricos con Variables Dicotómicas
INTRODUCCIÓN
Las variables cualitativas son a veces aplicables en la investigación econométrica. En un estudio de serie cronológica los acontecimientos políticos
ejercen cierta influencia sobre los datos agregados relacionados con una economía. La política económica seguida por un gobierno puede estar en
desacuerdo con el partido político que está en el poder, y las consecuencias de las diferentes políticas también lo serán. La guerra y la paz tienen una
influencia sobre el funcionamiento económico, lo mismo que la han tenido para un país las calamidades o las crisis políticas internas. Si estamos
estudiando datos trimestrales, los ajustes estacionales pueden resultar ser un problema. Nuestro comportamiento económico obedece patrones
estacionales por muchas razones, el tiempo, la religión, los patrones culturales, y así sucesivamente. En cuanto a los datos transversales los fenómenos
sociodemográficos contribuyen en gran medida a la diversidad de funcionamiento de las unidades individuales, sean familias o empresas. En términos
generales, una variable ficticia es una variable artificial construida de tal manera que asume el valor de uno siempre que ocurra el fenómeno cualitativo
que representa y el valor de cero de otro modo.
ACTIVIDADES DE APRENDIZAJE
Elabora un cuadro en el que plasmes los principales modelos que se retoman en esta unidad, junto con sus principales características.
OBJETIVOS PARTICULARES
Comprender como se puede hacer uso de variables dicotomas en la regresión y realizar aplicaciones.
CONTENIDOS
2.1 Características
1. INTRODUCCIÓN
En la especificación del modelo de regresión lineal hemos considerado, hasta ahora, que los regresores seleccionados son de carácter cuantitativo, es
decir, variables que toman de forma continua valores reales.
Factores como sexo, estado civil o localización geográfica constituyen variables de carácter cualitativo que desempeñan un papel protagonista en el
estudio de los fenómenos económicos, que hasta ahora no hemos considerado en el modelo de regresión. Cuando queremos construir un modelo
econométrico que, por ejemplo, describa las pautas de consumo en relación a un determinado bien, la consideración de factores como la localización,
rural o urbana, de las unidades familiares o la situación del cabeza de familia en relación al empleo, además de las variables cuantitativas habituales,
constituyen regresores a tener en cuenta para explicar el comportamiento de la variable dependiente.
Los factores de naturaleza cualitativa no sólo se incluyen dentro de la categoría de variables explicativas, sino que también pueden aparecer en el
modelo como variable a explicar o dependiente. El análisis de la influencia de la localización geográfica, rural o urbana, en el comportamiento electoral
de una determinada población constituye un claro ejemplo en relación a esta cuestión. El tratamiento de estás situaciones requiere la construcción de
unas variables artificiales que permitan cuantificar las variaciones cualitativas de los distintos factores considerados. En términos econométricos, estas
variables se denominan variables ficticias y únicamente toman los valores cero y uno. Tomarán el valor uno, cuando en el elemento muestral
correspondiente se constate la presencia del atributo considerado, y el valor cero, cuando aquél no esté presente en la correspondiente unidad
muestral. En otras palabras, tomarán los valores cero y uno, para denotar la ausencia o presencia, respectivamente, del atributo considerado1
Estas variables reciben también la denominación de variables binarias o dicotómicas, en relación a los dos valores que toman, cero y uno. En ocasiones
se utiliza también la denominación inglesa, variables dummy, para su consideración.
Las variables ficticias son susceptibles de utilización, no sólo como indicadores de factores cualitativos, sino también de variables numéricas, si bien, en
este último caso, su elección responde fundamentalmente a un criterio de conveniencia. La consideración de la variable edad expresada en forma de
tramos, tal y como aparece habitualmente en los cuestionarios de la mayoría de las encuestas, constituye un ejemplo al respecto.
A la hora de especificar un modelo econométrico y justificar el papel que desempeñan los factores cualitativos en la descripción del comportamiento de
una determinada variable dependiente, diferenciaremos dos tipos de modelos. Hablaremos de aquellos modelos que sólo consideran factores
cualitativos en su especificación, ampliamente utilizados en campos como la Psicología o la Sociología, y aquellos que combinan ambos tipos de
variables, cualitativas y cuantitativas, más frecuentes en el Análisis Económico.
Se denominan modelos de análisis de varianza (ADV) los que sólo incluyen en su especificación, como variables independientes, factores de carácter
cualitativo.
Consideremos el ejemplo más sencillo, el modelo de regresión lineal simple. Supongamos que necesitamos analizar el comportamiento de los salarios
de un conjunto de profesionales en función de su sexo, puesto que se sospecha, de forma más o menos fundamentada, que puede haber un
1
La asignación de valores para los factores cualitativos considerados es arbitraria, si bien deberá reflejar convenientemente el comportamiento del factor cualitativo.
comportamiento diferenciado en relación a este aspecto. Nuestro objetivo se concretará en la especificación de un modelo que pueda recoger el efecto
del sexo de un profesional sobre el comportamiento del salario.
En términos econométricos, una situación de este tipo se resuelve mediante la introducción de una variable ficticia, Di que recoja este factor cualitativo,
Sea el modelo
Yi 0 1 Di ui 1,2,.., n (2.1.1)
una variable ficticia, que recoge el sexo de los individuos de la muestra seleccionada.
A partir de (2.1.1), suponiendo que el término de perturbación aleatoria del modelo satisface todos los supuestos básicos, podremos obtener el salario
promedio de ambos profesionales.
De acuerdo con (2.1.3), 0 recoge el salario promedio de una mujer, mientras que 1 mide la diferencia entre los salarios promedios de ambos
profesionales, siendo 0 1 el salario promedio de un varón. Para saber si, efectivamente, la realidad recoge una situación discriminatoria y dado
que recoge esa situación potencial, la prueba t-Student, mediante el contraste de la hipótesis nula, H 0 : 1 0 , permitirá resolver dicha incógnita2. Si
como resultado del contraste no rechazásemos dicha hipótesis, la variable explicativa considerada no sería relevante en la especificación del modelo, y,
en consecuencia, el sexo no sería un factor a tener en cuenta en la determinación del salario. Si, por el contrario, rechazásemos la hipótesis nula,
significaría que, efectivamente, el comportamiento de los salarios no es igual para todos los profesionales, según el sexo.
Obsérvese que la prueba t-Student se puede plantear como una prueba bilateral o de una sola cola. En el primer caso, únicamente se hablaría de
comportamientos distintos, mientras que, en el segundo caso, se identificaría también el colectivo beneficiado o perjudicado, puesto que se tendría en
cuenta el signo del parámetro 1
2
Nótese que él término utilizado refleja únicamente la posibilidad de comportamientos diferentes.
En el Análisis Económico normalmente se incluyen, de forma simultánea, como variables explicativas, factores de carácter cuantitativo y cualitativo. Los
modelos que utilizan ambas variables reciben el nombre de modelos de análisis de covarianza (ACOV) y son ampliamente utilizados en el contexto
económico. Para su consideración en términos formales, modificaremos ligeramente la especificación de (2.1.1), incluyendo como variable explicativa
los años de experiencia del profesional considerado
Y1 0 1 Di 2 X i ui i 1,2..., n (2.1.4)
Bajo el supuesto de que las hipótesis básicas del modelo se satisfacen, a partir de (2.1.4) podremos obtener el salario promedio
Del análisis de (2.1.5) se puede concluir que el modelo propuesto permite constatar la existencia de comportamientos diferentes en la modelización del
salario, simplemente por razón del sexo. Obsérvese que en (2.1.5) se refleja una componente común en la estructura del salario con respecto a la
variable años de experiencia, recogida por el parámetro 2 y una componente diferenciadora con respecto a la magnitud del término independiente,
De la misma manera que para (2.1.1), la prueba t-Student permitirá contrastar la hipótesis nula H 0 : 1 0 , para saber si efectivamente estamos ante
Gráficamente, la situación recogida en (2.1.5) se refleja en la figura 2.1.1. Ambas funciones presentan el mismo comportamiento con respecto a los
años de experiencia, tienen por tanto la misma pendiente, pero las ordenadas en el origen son distintas. El salario promedio de los distintos
profesionales difiere en si bien la tasa de cambio con respecto a los años de experiencia es la misma para las dos categorías, 2 Obsérvese que en la
figura se contemplan todas las posibilidades con relación a la influencia potencial del factor cualitativo, sexo, en nuestro caso.
En los dos ejemplos anteriores hemos visto que la variable ficticia considerada se ha incluido en la especificación del modelo en forma aditiva. La
especificación recogida en (2.1.4) nos permite conocer el salario promedio de una mujer y de un hombre con igual experiencia laboral, siendo
E E Yi
YI
Di 1, X i D 0, X 1
i i
Yi 0 1 X 1i ... j Di ... k X ki u i
donde Di .denota una variable ficticia que refleja dos situaciones posibles, tal que
Tendremos que
Y Y
E( i
X 1 , X 2 ,..., Di 1,...,X k
) E i
X X D 0,..., X j (2.2.3)
1, 2,..., i k
el parámetro j de (2.2.1) medirá el efecto diferencial esperado en la variable dependiente del modelo entre las situaciones A y B, cuando
La estimación por MCO de (2.2.1) y, en concreto, la realización del contraste que nos permita saber si la variable cualitativa es relevante, o no, en la
especificación del modelo nos permitirá saber si, efectivamente, la muestra analizada presenta comportamientos diferenciadores.
Obsérvese que en el ejemplo propuesto hemos introducido una sola variable ficticia, puesto que el factor cualitativo considerado, sexo en este caso,
únicamente presenta dos categorías. Como criterio general diremos que cuando la variable cualitativa considerada presente m categorías, por ejemplo,
formación académica (sin estudios, formación media, formación universitaria,...), religión (católica, protestante, judía, budista,...), etc., se deben
introducir m 1 variables dicótomas. Si este criterio no se respetase, nos encontraríamos ante un problema de multicolinealidad perfecta, denominado,
en el contexto que nos ocupa, trampa de las variables ficticias. En efecto, la suma de las m columnas correspondientes a dichas variables ficticias sería
igual a la relativa al término independiente de (2.1.4).
la suma de las m primeras columnas será igual a la correspondiente al término independiente de (2.1.4). En consecuencia, el rango de la matriz
X `D X `D se reduciría, P( X D `X D ) m k 1 y dejaría de ser una matriz regular. Esta situación podría corregirse excluyendo de la especificación
término independiente entre la categoría que recibe el valor uno con respecto a la categoría control.
En los dos ejemplos mencionados hemos supuesto que las variables cualitativas únicamente afectaban al término independiente del modelo. En (2.1.4)
se supone, implícitamente, que el comportamiento de los salarios con respecto a la variable cuantitativa años de experiencia es igual para las dos
categorías consideradas. La posibilidad de contrastar esta afirmación puede realizarse mediante el uso de variables ficticias.
Consideremos de nuevo (2.1.4), esto es, el comportamiento salarial de los la distintos profesionales considerados en función del sexo y años de
experiencia. Esta situación podríamos analizarla, de forma alternativa, mediante la realización de regresiones separadas para los colectivos femenino
Yi 0 1 X i u i i 1,2,..., n1 (2.3.1)
Y masculino
Yi 0 1 X i u i i 1,2,..., n2 (2.3.2)
Siendo
n n1 n2
La estimación mínimo-cuadrática de (2.3.1) y (2.3.2) presenta las posibilidades recogidas en la figura 2.3.1.
La realización de la prueba de Chow permite conocer el comportamiento estructural del modelo. En otras palabras, permite saber si las estimaciones
recogidas en (2.3.1) y (2.3.2) permanecen, o no, estables cuando la muestra considerada, n1on2 , se altera. Ahora bien, de las cuatro situaciones
posibles, recogidas en la figura 2.3.1, este contraste únicamente permitirá Saber si las regresiones coinciden, situación (a), o difieren, sin concretar la
opción posible.
De forma alternativa, las posibilidades descritas pueden ser valoradas cuando se considere la muestra de tamaño n n1 n2 y se especifique el
modelo que difiere de (2.1.4) puesto que incorpora una tercera variable explicativa, La variable ficticia se expresa, en este caso, de forma interactiva o
multiplicativa.
Yi 0 1 Di 2 X i 3 ( Di X i ) u i i 1,2,..., n
Figura 2.3.1. Funciones de salario hipotéticas de un colectivo de profesionales masculino y femenino.
Bajo el supuesto de que el término de perturbación aleatoria satisface las hipótesis básicas establecidas en el modelo de regresión, de (2.3.3) podremos
obtener el salario promedio.
Y
salario promedio de una mujer E ( i ) 0 2 X i
Di 0, X i
Y
salario promedio de un hombre E ( i ) ( 0 1 ) ( 2 3 ) X i (2.3.4)
Di 1, X i
0 0
1 2
0 0 1 (2.3.5)
1 2 3
siendo equivalente la información obtenida al estimar (2.3.1) y (2.3.2) individualmente a la derivada de la estimación (2.3.3). En esta última
estimación, 1 denota el intercepto diferencial, y 3 la pendiente diferencial que muestra en qué medida difiere el salario de una mujer del de un
hombre.
La consideración de la variable ficticia en forma multiplicativa permite diferenciar las pendientes de los dos colectivos, de la misma manera que su
introducción en forma aditiva permite la distinción de los términos independientes de las dos categorías.
Nótese que (2.3.3) presenta claras ventajas con respecto a la estimación separada de cada subgrupo, dado que sólo se requiere la realización de una
estimación se puede contrastar un amplio conjunto de hipótesis (término independiente común, pendiente común, etc.) a través de la prueba t-Student o
de la prueba F-Snedecor. Esta técnica, además, incrementa los grados de libertad y mejora consecuentemente la precisión de las estimaciones.
Obsérvese que la diferencia de los dos salarios promedio esperados recogidos en (2.3.4)
Y Y
E i E i 1 3 X i (2.3.6)
Di 1, X i Di 0, X i
no coincide exactamente con (2.2.3) dado que la diferencia entre los salarios promedios de un hombre y una mujer no sólo se reduce a una diferencia
de nivel, sino que también afecta a las pendientes. La tasa de cambio con respecto a los años de experiencia no es la misma para las dos categorías
consideradas.
Las variables ficticias resultan de gran utilidad cuando se pretende recoger la incidencia de efectos fijos de carácter socio-demográfico, geográfico..., en
algunos elementos muéstrales. De especial relevancia se considera la determinación de las componentes estacionales en muestras en forma de serie
temporal, así como el contraste que permite determinar cambios en el comportamiento de la pendiente de la FRM.
Sea, por ejemplo, el comportamiento del gasto en turismo de las unidades familiares en función de la renta salarial. Este indicador experimenta un
crecimiento importante durante los meses comprendidos entre julio y septiembre como consecuencia de las vacaciones estivales. Asimismo, durante los
meses de primavera, especialmente en las fechas próximas a la Semana Santa, el gasto en turismo también se incrementa.
Si nuestro objetivo se centrase en la modelización de esta variable con objeto de realizar predicciones a partir de una serie trimestral, definiríamos las
variables ficticias D1, D2 yD3 en los siguientes términos,
D1i 1
0 Si la observación i-èsima corresponde al segundo trimestre
En caso contrario
D2i 1
0
si la observación i-èsima corresponde al tercer trimestre
en caso contrario
D3i 1
0
Si la observación i-èsima corresponde al cuarto trimestre
En caso contrario
constituyendo el primer trimestre del ejercicio la categoría base o control. Definidas las variables ficticias D1, D2 yD3 el modelo
GTi 0 1 Dit 2 D2i 3 D3i 4Yi ui (2.4.1.2)
donde GTI . denota el gasto en turismo realizado por las unidades familiares en la observación i-ésima, e Yi , la renta salarial, correspondiente a la
misma observación, permitirá analizar las variaciones estacionales que se pueden producir en el ejemplo considerado. El efecto estacional diferencial
con respecto a la categoría base será recogido en (2.4.1.2) por los parámetros j j 1,2,3.
La incorporación de variables ficticias en la especificación del modelo permitirá la consideración y modelización econométrica de situaciones semejantes
a la referida.
Sea
Yi 0 1 X i 2 ( X i X *) DI ui i 1,2,..., n
donde Y denota la demanda de crédito hipotecario, X el tipo de interés de mercado, X * el tipo de interés considerado como objetivo, y Di una
variable ficticia que tomará el valor uno si X I X * , y cero cuando X i X * el modelo de regresión considerado.
Suponiendo que se satisfacen los supuestos del modelo de regresión, y en concreto que E (ui ) 0
Yi
E( ) 0 1 X i (2.4.2.2)
Di 0, X I , x X *
Y
E i ( 0 2 X *) 1 2X i (2.4.2.3)
Di 1, X i , X *
la demanda promedio para tipos de interés superiores a X * . Obsérvese que 2 recoge la diferencia entre las pendientes de los dos tramos
considerados, además de la ordenada en el origen. En consecuencia, el contraste de hipótesis relativo al posible punto de inflexión en la FRM se
llevaría a cabo mediante la prueba t-Student, que contrastaría la hipótesis nula H 0 : 2 0
En el contexto económico, normalmente la información muestral se obtiene a través de la realización de encuestas. En muchas ocasiones, dicha
información se relaciona con aspectos de carácter cualitativo relativos al comportamiento. Los individuos trabajan o están desempleados, las unidades
familiares disponen de vivienda propia o no, las empresas realizan innovaciones o no, etc.
Desde un punto de vista formal, estas situaciones se abordan mediante la construcción de modelos en los que la variable dependiente tiene naturaleza
cualitativa, conocidos como modelos de elección discreta. Los modelos de este tipo más utilizados son los modelos de probabilidad lineal, logit y probit,
respectivamente.
Yi
1
0
si se elige la primera opción
En caso contrario
donde u denota el término de perturbación aleatoria que satisface los supuestos básicos establecidos.
Dado que la variable dependiente únicamente toma los valores 0 y 1, la interpretación de los coeficientes de regresión de (3.1.2) no se puede realizar en
los términos habituales.
Yi 1
E X X
X i X k 0 1 1 k k
Y 1
Pi E i X X
X 1 X k
(3.1.3)
0 1 1 k k
Coincidirá con el valor esperado de la variable dependiente. Del análisis de (3.1.3) se desprende que dicha probabilidad se puede expresar como una
función lineal de los regresores, modelo de probabilidad lineal (MPL). Los coeficientes de regresión recogerán el cambio en la probabilidad de éxito
cuando la variable explicativa Xj j 1, , k se incrementa unitariamente permaneciendo el resto inalteradas. Dicho modelo permitirá analizar
el efecto de cada uno de los regresores sobre la variable a explicar, variable de naturaleza cualitativa. El efecto marginal de cada regresor permanecerá
constantemente a lo largo del tiempo.
Teniendo en cuenta (3.1.1), (3.1.2) se interpretará en términos probabilísticos. La probabilidad de que se elija la primera opción será igual a Pi ,
mientras que la probabilidad de que dicha opción no acontezca será igual a 1 Pi .
Yi PYi
1 Pi
0 1 Pi
donde Yˆi denotará la probabilidad estimada de éxito, ̂ 0 dicha probabilidad para la predicción X 1 X k 0 y ˆ j j 1, , k el
cambio experimentado por la probabilidad de éxito estimada ante un incremento unitario de la variable explicativa X j j 1, , k permaneciendo
el resto inalteradas.
1. El término aleatorio no satisface la hipótesis de normalidad, dado que sigue una distribución de probabilidad binomial. No obstante, para
tamaños de muestra suficientemente grandes la distribución binomial se aproxima a la normal, puesto que los estimadores mínimo-
cuadráticos seguirán siendo insesgados.
2. La variable aleatoria es heteroscedástica, lo cual significa que los estimadores mínimo-cuadráticos dejarán de ser eficientes, haciéndose
imprescindible una transformación del modelo que permita recuperar su salud en dicho aspecto.
3.
La no adecuación de las predicciones al intervalo 0,1 constituye el problema más serio de (3.1.2). debe tenerse en cuenta que dichas
2
4. El coeficiente de determinación R carece de la representatividad habitual. Para un valor concreto del regresor X j teniendo en cuenta
(3.1.1) no se espera que un MPL se ajuste satisfactoriamente a la dispersión derivada.
A partir de las dificultades señaladas en los MPL, el modelo de naturaleza probabilística a utilizar deberá tener en cuenta, entre otros aspectos, la
existencia de una relación no lineal entre dicha probabilidad, Pi , y cada uno de los regresores X j , además de la adecuación de las predicciones al
intervalo 0,1 .
Para explicar el comportamiento de una variable dependiente dicotómica es preciso utilizar una función de distribución de probabilidad. El modelo de
estimación derivado de una distribución acumulativa normal se denomina modelo probit o normit.
s2
1
Yi Zi
e dS u i
2
(3.2.2)
2
1
2
donde Z i constituye el elemento distintivo y S denota una variable de integración con media cero y varianza unitaria.
Al igual que en los MPL, el término de perturbación aleatoria es heteroscedástico. Las pruebas derivadas del proceso de inferencia estadística se
podrán realizar en los términos usuales, teniendo en cuenta que las conclusiones obtenidas únicamente serán válidas en términos asintóticos. El
2
coeficiente de determinación R requiere en este modelo alguna matización como medida de la bondad del ajuste.
Cuando la función de distribución elegida sea logística hablaremos de modelo logit. Dado que los resultados que proporcionan la distribución normal y
logística son similares, este modelo se propone como una alternativa más sencilla al probit.
El modelo logit relaciona la variable dependiente Y , que puede tomar los valores 0 y 1 , con las variables explicativas X 1 , X 2 , , X k a través de
una función logística,
1
Yi 0 1 X 1i 2 X 2 i k X ki
ui i 1, , n (3.3.1)
1 e
donde u denota el término de perturbación aleatoria que satisface la hipótesis de normalidad.
Y 1
Pi E i 1
0 1 X 1i k X ki
i (3.3.2)
X 1 X k 1 e
que alternativamente se puede expresar como
i (3.3.3)
donde
Z i 0 1 X 1i k X ki i
recoge la distribución logística frecuentemente utilizada en el estudio de fenómenos relacionados con el crecimiento demográfico e indicadores de
ámbito económico.
Si bien en (3.3.3) se han obviado las dificultades señaladas en los MPL dado que Pi 0,1 cuando Z i y ésta no está relacionada
linealmente con los regresores X 1 , X 2 , , X k , la aplicación del método mínimo-cuadrático para estimar los coeficientes de regresión j
1 Pi
1 Pi denotará la correspondiente probabilidad de no éxito (fracaso) y la razón de probabilidades a favor de la opción de éxito
1 e Zi
1 Pi
(poseer una vivienda en propiedad en relación a no poseerla, participar en el mercado de trabajo en relación a no participar, etc.) que alternativamente
en términos logarítmicos:
P
Li In i Z i 0 1 X 1i k X ki (3.3.4)
1 Pi
se corresponde con una función que satisface la hipótesis de linealidad en su doble acepción. La expresión obtenida, Li , recibe la denominación de
logit.
Del análisis de (3.3.4) se desprende que logit no está acotado, si bien Pi 0,1. Se observa además que la probabilidad de éxito, y no éxito, no es
lineal con respecto a los regresores. Los valores de Li , negativos o positivos, se interpretan sintéticamente teniendo en cuenta que (3.3.4) intensifica
su carácter negativo (o positivo) cuando la razón de probabilidades se reduce de 1 a 0 (o aumenta de 1 a infinito).
La probabilidad de éxito (o no éxito) se calculará a partir de (3.3.3) una vez conocidos los parámetros de Z i para lo cual será preciso conocer, además
de los valores correspondientes al total de regresores, los relativos a Li .
P
Li In i Z i 0 1 X 1i k X ki u i i (3.3.5)
1 Pi
donde, u i denota el término de perturbación aleatoria. Teniendo en cuenta que la información muestral puede presentarse a nivel individual o agregado,
la estimación de (3.3.5) se abordará mediante el método de máxima verosimilitud (MV), en el primer caso y MCO en el segundo 1. Para poder aplicar
dicha técnica será preciso calcular la frecuencia relativa y considerarla como una estimación de la auténtica probabilidad de éxito correspondiente a
cada regresor
Pˆ
Lˆ i In i i (3.3.6)
1 Pˆi
donde,
ni
Pˆi (3.3.7)
Ni
denotando N i y n i el número de observaciones correspondientes a cada regresor y las correspondientes ala situación de éxito, respectivamente. En
consecuencia
1
Si el número de observaciones es suficientemente grande y las observaciones de cada clase para cada regresor estás distribuidas de forma estadísticamente independiente como una
variable binomial, el término aleatorio ui será heteroscedástico con la varianza igual a 1 .
N i Pi 1 P
L̂i 0 1 X 1i k X ki u i i (3.3.8)
permitirá, a partir de la técnica mínimo-cuadrática, estimar los coeficientes de regresión ˆ j j 0,1, , k permaneciendo el resto inalterados.
En otras palabras, la razón de probabilidades a favor de la opción de éxito ante un incremento unitario del regresor X j j 1, , k en
condiciones caeteris paribus. La ordenada en el origen recogerá el valor del logaritmo de la razón de probabilidades a favor de la opción de éxito
cuando los regresores tomen simultáneamente el valor cero2.
Como rasgo distintivo con respecto al modelo de regresión, se debe señalar que la predicción de la probabilidad de cada subgrupo de individuos
coincidirá con la observada en dicho subgrupo si la estimación se realiza a través del método de máxima verosimilitud. Asimismo, la bondad del ajuste
2
medida a través del coeficiente de determinación R presentará algunos inconvenientes.
La estimación mínimo-cuadrática
R 2 0,9092
R 2 0,8890 (6.I.1)
F 45,0881
nos permite afirmar que las variaciones experimentadas por la variable salario se explican de forma satisfactoria a través de la FRM obtenida, dado que
el coeficiente de determinación ajustado R 2 0,8890 es alto. Los resultados obtenidos ponen de manifiesto, de forma explícita, la relevancia de la
variable explicativa años de experiencia en la especificación del modelo t
8,9249 . Con respecto al factor cualitativo considerado en este
ejercicio, no podemos hacer una afirmación demasiado concluyente. Tal y como se ha especificado el modelo, el coeficiente de regresión 1 recoge,
según (2.2.3), el efecto diferencial esperado ene l comportamiento de los salarios entre los profesionales de sexo masculino y femenino,
respectivamente. Dicho efecto diferencial, de ser estadísticamente significativo, afectaría únicamente al término independiente del salario promedio de
ambos profesionales. De la estimación realizada se obtiene un estadístico t-Student para el mencionado coeficiente de regresión t 1,6035 bajo la
hipótesis nula H 0 : 1 0 . Para un nivel de significatividad 0,05 , la mecánica de la prueba t-Student nos llevaría a no rechazar la hipótesis
nula propuesta y afirmar, en consecuencia, la no relevancia estadística de este factor cualitativo en la especificación del modelo, así como el
comportamiento no diferenciador en el cálculo de los salarios promedios, tanto de hombres como de mujeres. Sin embargo, si se considera un nivel de
significatividad 0,20 , el resultado obtenido tendría una interpretación distinta de la que se acababa de exponer3.
La interpretación de los resultados sería también ligeramente distinta si planteásemos el contraste de hipótesis unilateral
2
Su interpretación, como se ha visto en otros casos, podría carecer de sentido económico claro.
3
Habitualmente, este valor de se considera alto. Normalmente se trabaja con valores comprendidos entre el uno y el diez por ciento.
H 0 : 1 0
H 1 : 1 0
dado que, en este caso, el valor del estadístico prueba particularizado bajo la hipótesis nula, t 1,6035 , es mayor que el valor crítico
correspondiente a una distribución t-Student para un nivel de significación 0,10 y n k 1 9 grados de libertad, t 0 ,1,9 1,383 . De
acuerdo con la mecánica del contraste, rechazaríamos la hipótesis nula, y ello significaría que el salario promedio de los varones es efectivamente
superior al de las mujeres, de acuerdo con (2.1.3).
La consideración de la variable ficticia, en este ejemplo, en forma interactiva o multiplicativa, nos permite obtener la siguiente estimación mínimo-
cuadrática
R 2 0,9391
R 2 0,9163 (6.I.2)
F 41,1637
Yi 0 1 D1 2 X i 3 Di X i ui i 1,2,,12
El análisis de los resultados nos permite acercarnos algo más al comportamiento salarial del colectivo objeto de análisis. Desde un punto de vista
estrictamente econométrico, diremos que la regresión ha mejorado al incorporar una nueva variable explicativa, el coeficiente de determinación ajustado
ha crecido sustancialmente, R 2 0,9163 . La variable explicativa años de experiencia continúa siendo un factor relevante en la especificación del
modelo. Con respecto al factor cualitativo considerado, debemos realizar algunas matizaciones. Dado el signo negativo del coeficiente de regresión
asociado a la variable sexo, diremos que la variable dependiente evoluciona en sentido inversamente porcional con respecto a este factor; los hombres
tendrían, pues, un menor salario. De acuerdo con la prueba t-Student, esta variable no resulta relevante en la especificación del modelo
H 0 : 1 0
H 1 : 1 0
H 0 : 1 0
H 1 : 1 0
permite corroborar este resultado para un nivel de confianza del 95%, dado que
respectivamente. Ello significa que el salario promedio según (2.3.4) tendrá el mismo término independiente.
La variable ficticia en forma multiplicativa es relevante estadísticamente para un nivel de significatividad 0,1 . De acuerdo con (2.3.4), ello
significa que los salarios promedios de hombres y mujeres diferirán en la pendiente, únicamente 3 en (2.3.6) es estadísticamente significativo. El
contraste unilateral
H 0 : 3 0
H1 : 3 0
de acuerdo con la prueba t-Student nos permite afirmar que el colectivo beneficiado con un mayor salario promedio
A modo de síntesis, diremos que esta segunda regresión nos ha permitido, por una parte, clarificar el papel de la variable sexo introducida en términos
aditivos en ambas regresiones. La especificación del modelo ha mejorado con la incorporación de la variable ficticia en forma multiplicativa, resultando
dicho factor relevante desde una perspectiva estadística. El comportamiento del salario presenta pautas diferenciadoras para las dos categorías que
recoge la variable ficticia sexo. Inicialmente, el salario promedio es el mismo para todo el colectivo, pero a medida que el profesional consolida su
posición en el mercado de trabajo, el reconocimiento salarial pondera positivamente al colectivo masculino de acuerdo con (2.3.6).
1
Se analizaran las variables de escala ordinal en el capítulo 15.
menos que las blancas.2 Este patrón puede resultar de la discriminación sexual o racial, pero cualquiera que sea la razón, las variables cualitativas tales
como sexo y raza sí influyen sobre la variable dependiente y es claro que deben ser incluidas dentro de las explicativas, o regresaras.
Puesto que tales variables usualmente indican la presencia o ausencia de una "cualidad" o atributo, tal como femenino o masculino, negro o blanco,
católico o no católico, demócrata o republicano son variables de escala nominal esencialmente. Se podrían "cuantificar" tales atributos mediante la
elaboración de variables artificiales que tomaran los valores O y l, donde 1 indicara la presencia (o la posesión) de ese atributo y O la ausencia de tal
atributo. Por ejemplo, ello puede indicar que una persona es de sexo masculino y O puede designar una de sexo femenino; o el 1 puede indicar que una
persona se ha graduado en la universidad y Oque no lo ha hecho y así sucesivamente. Las variables que adquieren tales valores O y 1 se llaman
variables dicótomas.3 Tales variables son, por tanto, esencialmente un recurso para clasificar datos en categorías mutuamente excluyentes, como
masculino o femenino.
Las variables dicótomas pueden utilizarse en los modelos de regresión en forma tan fácil como las variables cuantitativas. De hecho, un modelo de
regresión puede contener variables explicativas que son exclusivamente dicótomas, o cualitativas, por naturaleza. Tales modelos se denominan
modelos de análisis de varianza (ANOVA)4.
EJEMPLO 9.1
La tabla 9.1 proporciona los datos sobre salarios (en dólares) de los maestros de escuelas públicas en 50 estados y el Distrito de Columbia para el año
de 1985. Las 51 áreas se clasifican en tres regiones geográficas: 1) Noreste y Norte-centro (21 estados en total); 2) Sur (17 estados en total), y 3) Oeste
(13 estados en total). Por el momento, no hay que preocuparse por el formato de la tabla y de los otros datos suministrados.
Supóngase que se desea averiguar si el salario promedio anual (SPA) de los maestros de escuelas públicas difieren entre las tres áreas geográficas de
Estados Unidos. Si se toma el promedio aritmético simple de los salarios promedio de los maestros de las tres regiones, se descubre que esos
promedios para las tres regiones son los siguientes: $24424.14 (Noreste y Norte-centro), $22894 (Sur) y $26158.62 (Oeste) Esos números difieren entre
sí, pero, ¿son estadísticamente distintos entre sí?
Existen varias técnicas estadísticas para comparar dos o más valores medios, lo cual por lo general se conoce como análisis de varianza.5 Pero se
puede lograr el mismo objetivo dentro del ámbito del análisis de regresión.
TABLA 9.1 SALARIO PROMEDIO DE LOS MAESTROS DE ESCUELAS PÚBLICAS, POR ESTADO,
2
Para una revisión de la evidencia sobre este tema, consúltese Bruce E. Kaufman y Julie L. Hotchkiss, The Economics of Labor Market, 5a. ed., Dryden Press, Nueva York, 2000.
3 No es absolutamente esencial que las variables dicótomas adquieran los valores O y 1. El par (O, 1) puede ser transformado en cualquier otro par mediante una función lineal tal que
Z a bD(b 0) , donde a y b son constantes y donde D = 1 o 0. Cuando D = 1, se tiene Z a b y cuando D = O, se tiene Z a . Así, el par (0, 1) se convierte en
(a, a b) . Por ejemplo, si a 1 y b 2 , las variables dicótomas serán (1,3). Esta expresión muestra que las variables cualitativas o dicótomas no tienen una escala natural de
medición. Esto se debe a que se describen como variable de escala nominal.
4Los modelos ANOVA se utilizan para evaluar la significancia estadística de la relación entre una regresada cuantitativa y regresoras cualitativas o dicotomas. A menudo se emplean para
comparar las diferencias entre los valores medios de dos o más grupos o categorías, y por tanto son mas generales que la prueba t, la cual, se utiliza para comparar las medias de solo dos
grupos o categorías.
5 Para un tratamiento de las aplicaciones, véase Jhon Fox, Applied Regresión Análisis, Linear Models, and Related Methods, Sage Publications, 1997, Cap. 8
1986
20 627 2 821 0 1
Obsérvese que en (9.2.1) es como cualquier modelo de regresión múltiple que se haya estudiado antes, excepto que en vez de regresaras cuantitativas,
se tienen sólo variables cualitativas o dicótomas, las cuales toman el valor de 1 si la observación pertenece a una categoría particular, y O si no
pertenece a esa categoría o grupo. De aquí en adelante, se designarán a todas las variables dicótomas con la letra O. La tabla 9.1 muestra las variables
dicótomas así definidas.
¿Qué expresa el modelo (9.2.1)? Considerando que el término de error satisface las suposiciones usuales del MCO, al calcular la esperanza de (9.2.1)
en ambos lados, se obtiene:
1. En el ejemplo 9.1, para diferenciar las tres regiones, se utilizaron sólo dos variables dicótomas, D2 y D3 . ¿Por qué no se emplearon tres
variables dicótomas para distinguir las tres regiones? Supóngase que se hace precisamente eso y que se expresa el modelo (9.2.1) como:
donde D1i toma el valor de 1 para los estados del Oeste, y 0 para los de otras regiones. Por tanto, ahora se tiene una variable dicótoma para cada una
de las tres regiones geográficas. Utilizando los datos de la tabla 9.1, si se fuese a hacer la regresión de (9.2.6), la computadora “se negaría” a llevarla a
cabo (inténtelo hacer).6 ¿Por qué? La razón estriba en que cuando se definió (9.2.6) —en donde se tiene una variable dicótoma para cada categoría o
grupo, así como una intersección— se presenta un caso de colinealidad perfecta; es decir, existe una relación lineal exacta entre las variables. ¿Por
qué? Refiérase a la tabla 9.1. Imagínese que ahora se añade la columna D1 , que toma el valor de 1 siempre que un estado es del Oeste, y 0 en
cualquier otro caso. Ahora bien, si se suman las tres columnas D horizontalmente, se obtendrá una columna que contiene 51 números 1. Pero ya que el
valor de la intersección es (implícitamente) 1 para cada observación, habrá una columna que también contiene 51 números 1. En otras palabras, la
suma de las tres columnas D simplemente reproducirá la columna intersección, lo cual provoca una linealidad perfecta. En este caso la estimación del
modelo (9.2.6) es imposible.
El mensajes es: si una variable cualitativa tiene m categorías, sólo hay que agregar (m — 1) variables dicótomas. En el ejemplo anterior, puesto
que la variable cualitativa “región” tiene tres categorías, se introducen sólo dos variables dicótomas. Si no se respeta esta regla, se provocará lo que se
conoce como trampa de la variable dicótoma; es decir, se tendrá una situación de perfecta colinealidad o perfecta multicolinealidad, si hay más de
una relación exacta entre las variables. Esta regla también se aplica si se tiene más de una variable cualitativa en el modelo, de lo cual se presenta un
ejemplo más adelante. Así pues, se tiene que volver a enunciar la regla anterior como: para cada regresora cualitativa, el número de variables
dicótomas introducidas debe ser una menos que las categorías de esa variable. Entonces, si en el ejemplo 9.1 se disponía de información
respecto al género de los profesores, se hubiera utilizado una variable dicótoma adicional (pero no dos), que tomara el valor de 1 para mujer, y de 0
para hombre o viceversa.
2. La categoría a la cual no se asigna variable dicótoma se conoce como categoría base, de comparación, de control, de referencia u omitida. Además,
todas las comparaciones se hacen respecto a la categoría de comparación.
3. El valor de la intersección 1 representa el valor medio de la categoría de comparación. En el ejemplo 9.1, dicha categoría es la región Oeste. En
consecuencia, para la regresión (9.2.5), el valor de la intersección de casi 26 159, representa el salario medio de los maestros para los estados del
Oeste.
4. Los coeficientes anexos a las variables dicótomas en (9.2.1) se conocen como coeficientes de la intersección diferencial, debido a que indican en
qué medida el valor de la intersección que se le asigna 1 varía del coeficiente de intersección de la categoría de comparación. Por ejemplo, en (9.2.5) el
valor aproximado de —1 734 señala que el salario promedio de los maestros de la región Noreste y Norte-centro es menor por aproximadamente $1
734 que el salario medio de casi $26 159 perteneciente a la categoría de comparación, en este caso el Oeste.
5. Si una variable cualitativa tiene más de una categoría, como en el ejemplo ilustrativo, la elección de la categoría de comparación se deja al criterio
estricto del investigador. A veces dicha elección está dictada por el problema particular que se está trabajando. Para el ejemplo ilustrativo, se podría
haber escogido el Sur como la categoría de comparación. En ese caso, los resultados de la regresión dados en (9.2.5) cambiarán, ya que ahora las
6
En realidad, se tendría un mensaje diciendo que la matriz es singular
comparaciones se hacen respecto al Sur. Por supuesto, lo anterior no cambia la conclusión general del ejemplo (¿por qué?). En este caso, el valor de la
intersección será de casi $22 894, lo cual es el salario medio de los maestros del Sur.
6. Se hizo una advertencia respecto a la trampa de la variable dicótoma. Existe una forma de eludirla al introducir tantas variables dicótomas como
número de categorías tenga dicha variable, siempre y cuando no se introduzca la intersección en dicho modelo. Así pues, si se elimina el término
intersección de (9.2.6) y se considera el siguiente modelo no se caerá en la trampa de la variable dicótoma, ya que no existe colinealidad perfecta. Pero
se debe asegurar de que cuando se haga esa regresión, se utilice la opción “no intersección” del software.
En otras palabras, con la intersección eliminada y al permitir una variable dicótoma para cada categoría, se obtienen de manera directa los valores
medios de las distintas categorías. Los resultados de (9.2.7) para el ejemplo ilustrativo son los siguientes:
R 2 0.0901
Donde* indica que los valores p de estas razones t son muy pequeños.
Como se puede observar, los coeficientes de las variables dicótomas proporcionan de manera directa los valores medios (de los salarios) para las tres
regiones: Oeste, Noreste y Norte-centro, y Sur.
7. ¿Cuál de los siguientes métodos es el mejor para introducir una variable dicótoma: 1) agregar una variable dicótoma para cada categoría y omitir el
término de intersección, o 2) incluir el término de intersección y añadir sólo (m — 1) variables, donde m es el número de categorías de la variable
dicótoma? Como Kennedy señala:
La mayoría de los investigadores piensan que es más conveniente la ecuación con una intersección porque les permite enfrentar de manera más
sencilla las cuestiones que a menudo les interesan más; a saber, si la categorización es importante o no lo es, y si lo fuera en qué medida sería. Si
la categorización fuese importante, a qué grado los estimados de los coeficientes de las variables dicótomas la miden directamente. Probar si la
categorización es o no es relevante puede llevarse a cabo mediante la prueba t de un coeficiente de variable dicótoma, respecto a cero (o, para
hacerlo de forma más general, una prueba F sobre el conjunto apropiado de los coeficientes estimados de las variables dicótomas).7
7
Peter Kennedy, A Guide to Econometrics, 4a. ed., MIT Press, Cambridge, Mass., 1998, p. 223.
9.3 MODELOS ANOVA CON DOS VARIABLES CUALITATIVAS
En la sección anterior se estudió un modelo ANOVA con una variable cualitativa de tres categorías. En esta sección se analizará otro modelo ANOVA,
pero con dos variables cualitativas, además de que se destacarán otros aspectos adicionales sobre este tipo de variables.
EJEMPLO 9.2
Yˆi 8.8148 1.0997D2i 1.6729D3i .
SALARIOS POR HORA EN RELACIÓN CON EL ESTADO CIVIL Y LA REGIÓN DE ee 0.40150.46420.4854 (9.3.1)
t 21.95282.3688 3.4462
RESIDENCIA
0.0000 * 0.0182 * 0.0006
De una muestra de 528 personas tomada en mayo de 1985, se obtuvieron los siguientes
resultados de regresión8 R 2 0.0322
y * denota os valores p.
En este ejemplo se tienen dos regresoras cualitativas, cada una con dos categorías.
Por tanto, se asignó una variable dicótoma para cada categoría.
El punto que debe notarse en este ejemplo es el siguiente: una vez que se va más allá de
una variable cualitativa, se tiene que poner mucha atención a la categoría que se está
considerando como la categoría base, ya que todas las comparaciones se llevan a cabo
respecto a dicha categoría. Esto resulta especialmente importante cuando se tienen
varias regresoras cualitativas y cada una de ellas presenta diversas categorías. A estas
alturas, el mecanismo de introducción de diversas variables cualitativas debe ser claro
8
Los datos se recopilaron del disco de datos de la obra de Arthur S. Goldberger, Introductory Econometrics, Harvard University Press, Cambridge, Mass., 1998. Ya se tomaron en cuenta
esos datos en el capítulo 2.
para el lector.
9.4 REGRESIÓN CON UNA MEZCLA DE REGRESORAS CUALITATIVAS Y CUANTITATIVAS: LOS MODELOS ANCOVA
Los modelos ANOVA del tipo que se analizó en las dos secciones anteriores, aunque son comunes en áreas como la sociología, la psicología, la
educación y la investigación de mercados, no son tan frecuentes en la economía. Por lo general, en la mayor parte de la investigación económica, un
modelo de regresión contiene diversas variables explicativas que son cuantitativas, y otras que son cualitativas. Los modelos de regresión que muestran
una mezcla de variables cuantitativas y cualitativas se llaman modelos de análisis de covarianza (ANCOVA). Tales modelos representan una
generalización de los modelos ANOVA en el sentido que proporcionan un método para controlar estadísticamente los efectos de las regresoras
cuantitativas —llamadas covariantes o variables de control— en un modelo que incluye regresoras cuantitativas o cualitativas (dicótomas). A
continuación se ilustran los modelos ANCOVA.
Para motivar el análisis, se vuelve a considerar el ejemplo 9.1, afirmando que el salario promedio de los maestros de escuelas públicas no variarán en
las tres regiones si se toman en cuenta cualquier variable que no pueda estandarizarse en las tres regiones. Por ejemplo, piénsese en la variable gasto
en escuelas públicas erogado por las autoridades locales, en vista de que la educación primaria es una cuestión sobre todo de carácter local y estatal.
Para ver si éste es el caso, se desarrolla el siguiente modelo:
donde Yi salario anual promedio de los maestros de escuelas públicas en el estado ($)
D2i 1 si el estado es del Noreste o Norte-centro; O en otro caso D3 = 1 si el estado es del Sur; O en otro caso
Los datos para X se proporcionan en la tabla 9.1. Téngase presente que se está considerando al Oeste como la categoría de comparación. Asimismo,
nótese que además de las dos regresoras cualitativas, se tiene una variable cuantitativa, X, que en el contexto de los modelos ANCOVA se conoce
como covariante, tal y como se dijo antes.
EJEMPLO 9.3
SALARIO DE LOS MAESTROS RESPECTO A LA REGIÓN Y AL GASTO EN ESCUELAS PÚBLICAS POR ALUMNO
De los datos mostrados en la tabla 9.1, los resultados del modelo (9.4.1) son los siguientes:
ee 1395.056801.1703861.11820.3176
t 9.5115 * 2.0889 * 1.3286 * *10.3539 *
R 2 0.7266
donde * indica los valores p menores que el 5%, y ** señala los valores p mayores que 5%.
Como los resultados lo sugieren, ceteris paribus: conforme el gasto público aumenta un dólar, el salario de los maestros de escuela pública se
incrementa aproximadamente $3.29. Si se controla el gasto en educación, ahora se observa que el coeficiente diferencial de la intersección es
significativo para la región Noreste y Norte-centro, pero no para el Sur. Estos resultados difieren de los de (9.2.5). Pero no debe sorprender, ya
que en (9.2.5) no se tuvo en cuenta a la covariante, que son las diferencias del gasto público en educación por alumno. De forma gráfica, se
tiene la situación mostrada en la figura 9.2.
Nótese que si bien se mostraron tres rectas de regresión para las tres regiones, estadísticamente las rectas de regresión son las mismas para el
Oeste que para el Sur. También obsérvese que las tres rectas de regresión resultan paralelas (¿por qué?)
FIGURA 9.2 Salario de los maestros de escuelas públicas (Y) respecto al gasto en educación por alumno (X).
No obstante, no se pudo determinar si dicha diferencia en las dos regresiones se debía a las diferencias en los términos de intersección, en los
coeficientes de la pendiente, o a ambas situaciones. Con mucha frecuencia, este conocimiento por sí mismo resulta muy útil.
Al hacer referencia a las ecuaciones (8.8.1) y (8.8.2), se observa que hay cuatro posibilidades, las cuales se ilustran en la figura 9.3.
1. La intersección y los coeficientes de las pendientes son iguales en ambas regresiones. Esta situación, el caso de regresiones coincidentes, se
muestra en la figura 9.3a.
9
El material de esta sección recurre a los artículos del autor “Use of Dummy Variables in Testing for Equality between Sets of Coefficients in Two Linear Regressions: A Note”, y “Use of
Dummy Variables... A Generalization”, ambos publicados en American Statistician, vol. 24, núms. 1 y 5, 1970, PP. 50-52 y 18-21.
FIGURA 9.3 Regresiones plausibles de ahorros-ingresos.
2. Sólo las intersecciones en ambas regresiones son diferentes, pero las pendientes son las mismas. Este caso, de regresiones paralelas, se
presenta en la figura 9.3b.
3. Las intersecciones en las dos regresiones son las mismas, pero las pendientes son distintas. Esta situación se conoce como regresiones
concurrentes, y se muestra en la figura 9.3c.
4. Ambas intersecciones y pendientes en las dos regresiones son distintas. Este caso es el de regresiones no similares, lo cual se muestra en la
figura 9.3d.
Como se mencionó antes, la prueba de Chow de múltiples pasos analizada en la sección 8.8, indica sólo si dos (o más) regresiones son distintas,
pero no señala cuál es la fuente de la diferencia. Dicha causa, si hay alguna, puede hacerse evidente al agrupar todas las observaciones (26 en total)
y llevar a cabo sólo una regresión múltiple, como se muestra en seguida:10
Yt 1 2 Dt 1 X t 2 Dt X t ut (9.5.1)
1970 61 727.1 0
10
Como en la prueba de Chow, la técnica de agrupamiento supone la homoscedasticidad; es decir, 12 22 2
1973 89.6 965 0
Para ver las implicaciones de (9.5.1), y si se supone que como siempre E (ui ) 0 , se obtiene:
E Yt Dt 1, X t 1 1 X t (9.5.2)
El lector notará que éstas son las mismas funciones que (8.8.1) y (8.8.2), con 1 1 , 2 1 , 1 1 2 . Por tanto, la estimación de (9.5.1)
En (9.5.1), 2 es la intersección diferencial, como antes; y 2 es el coeficiente de la pendiente diferencial (también llamado arrastrador de
pendiente), el cual indica qué tanto difiere el coeficiente de la pendiente de la función de ahorros del segundo periodo (la categoría que recibe el valor
dicótomo de 1), en comparación con el del primer periodo. Obsérvese cómo la introducción de la variable dicótoma D en la forma interactiva, o
multiplicativa (D multiplicada por X) permite diferenciar entre los coeficientes de las pendientes de los dos periodos, del mismo modo que la
introducción de la variable dicótoma en forma aditiva permite distinguir entre las intersecciones de los dos periodos.
EJEMPLO 9.4
Antes de seguir adelante, se presentan primero los resultados de la regresión del modelo (9.5.1), aplicada para los datos de
ahorros-ingreso de Estados Unidos.
Yˆt 1.0161 152.4786Dt 0.0803X t 0.0655Dt X t
ee 20.164833.08240.01440.0159
(9.5.4)
t 0.0504 * *4.6090 * 5.5413 * 4.0963
R 2 0.8819
donde * indica los valores p menores que el 5%, y ** señala los valores p mayores que el 5%.
Tal y como muestran los resultados de esta regresión, la intersección diferencial y el coeficiente de la pendiente son
estadísticamente significativos, lo cual sugiere en gran medida que las regresiones ahorros-ingreso para los dos períodos son
diferentes, como en la figura 9.3d.
De (9.5.4) se pueden derivar las ecuaciones (9.5.2) y (9.5.3), las cuales son:
Éstos son precisamente los resultados obtenidos en (8.8.la) y (8.8.2a), lo cual no debe sorprender. Tales regresiones ya se
mostraron en la figura 8.3.
Las ventajas de la técnica de la variable dicótoma [es decir, la estimación de (9.5.1)1, respecto a la prueba Chow [es decir, la
estimación de las tres regresiones: (8.8.1), (8.8.2) y (8.8.3)] ahora se pueden ver de inmediato:
1. Sólo fue necesaria una regresión, ya que las regresiones individuales pueden derivarse con facilidad a partir de ella, del modo
indicado por las ecuaciones (9.5.2) y (9.5.3).
2. La regresión (9.5.1) se utiliza para probar una diversidad de hipótesis. Por tanto, si el coeficiente de la intersección diferencial
2 es estadísticamente insignificante, se podría aceptar la hipótesis de que dos regresiones tienen la misma intersección; es decir,
ambas regresiones son concurrentes (véase la figura 9.3c). De modo semejante, si el coeficiente de la pendiente diferencial 2 es
estadísticamente insignificante, pero 2 es significante, tal vez no se rechace la hipótesis de que dos regresiones tienen la misma
pendiente; es decir, las dos rectas de regresión son paralelas (véase la figura 9.3b). La prueba de la estabilidad de toda la regresión
(es decir 2 2 0 de manera simultánea) se lleva a cabo mediante la prueba F usual (recuérdese la prueba F de los mínimos
cuadrados restringidos). Si no se rechaza la hipótesis, entonces las rectas de regresión serán coincidentes, como se aprecia en la
figura 9.3a.
3. La prueba Chow no establece de manera explícita cuál coeficiente, intersección o pendiente es distinto, o si son diferentes en los
dos periodos (como en el anterior ejemplo). Es decir, se puede tener una prueba de Chow significativa debido a que sólo la
pendiente es diferente o a que sólo la intersección es distinta o porque ambas lo son. En otras palabras, no se puede saber,
mediante la prueba Chow, cuál de las cuatro posibilidades esquematizadas en la figura 9.2 es la que se tiene en una determinada
instancia. A este respecto, el método de la variable dicótoma tiene una clara ventaja, ya que no sólo indica si las dos variables son
distintas, sino que también destaca la(s) causa(s) de la diferencia; si se debe a la intersección, a la pendiente o a las dos. En la
práctica, saber si dos regresoras difieren en este o en el otro coeficiente resulta tan importante, si no es que más, que tener el
simple conocimiento de que son distintas.
4. Por último, en vista de que el agrupamiento (es decir, incluir todas las observaciones en una sola regresión) aumenta los grados
de libertad, tal vez mejore la precisión relativa de los parámetros estimados. Por supuesto, téngase en cuenta que cada inclusión de
una variable dicótoma consumirá un grado de libertad.
Yi 1 2 D2 I 3 D3i X i ui (9.6.1)
En este modelo el sexo y la raza son regresoras cualitativas y la escolaridad es cuantitativa. 11 Está implícita en este modelo la suposición de que el
efecto diferencial de la variable dicótoma sexo, D2 , es constante en las dos categorías de raza y el efecto diferencial de la variable dicótoma raza, D3 ,
también es constante en los dos sexos. Es decir, si el salario medio es mayor para los hombres que para las mujeres, se debe a que pertenezcan o no
pertenezcan a la categoría de no hispanos ni blancos. De igual forma, si por ejemplo los no blancos ni hispanos tienen salarios medios menores, se
debe a que son hombres o mujeres.
En muchas aplicaciones, dicha suposición puede ser insostenible. Una mujer no blanca ni hispana tal vez gane menor salario que un hombre de esa
misma categoría. En otras palabras, quizá haya una interacción entre las dos variables cualitativas D2 y D3 Por tanto, su efecto sobre la media Y
quizá no sea simplemente aditivo, como en (9.6.1), sino multiplicativo, como en el siguiente modelo:
De (9.6.2), se obtiene
que es la función salario medio por hora para las trabajadoras no blancas ni hispanas. Obsérvese que
11
Si se fuera a definir la escolaridad como los cursos inferiores a la educación media superior, educación media superior, y cursos superiores a la educación media superior, se podrían
utilizar entonces dos variables dicótomas para representar las tres clases.
4 efecto diferencial de ser mujer no blanca ni hispana
lo cual muestra que el salario medio por hora de las mujeres no blancas ni hispanas es diferente (en una cantidad igual a 4 ) del salario medio por
hora de las mujeres blancas o hispanas. Si por ejemplo los tres coeficientes de las variables dicótomas son negativos, implicaría que las trabajadoras no
blancas ni hispanas ganan un salario medio por hora mucho más bajo que las trabajadoras blancas o hispanas, si se compara con la categoría base, la
cual en el ejemplo presente es la de hombres blancos o hispanos.
Ahora el lector puede observar la forma en que la variable dicótoma (es decir, el producto de dos variables cualitativas o dicótomas) modifica el efecto
de los dos atributos considerados de manera individual (es decir, en forma aditiva).
EJEMPLO 9.5
Ahora se presentan primero los resultados de la regresión basados en el modelo (9.6.1). Usando los datos que se emplearon para
estimar la regresión (9.3.1), se obtuvo lo siguiente
donde * indica los valores p menores que 5%, y ** señala los valores p mayores que 5%.
El lector puede verificar que los coeficientes diferenciales de la intersección son estadísticamente significativos, que tienen los
signos que se esperaban (¿por qué?) y que la escolaridad tiene un gran efecto positivo sobre el salario por hora, lo cual no causa
sorpresa alguna.
Como lo muestra (9.6.4), ceteris paribus, los ingresos promedio por hora de las mujeres son inferiores por casi $2.36; además, los
ingresos promedio por hora de los trabajadores no blancos ni hispanos también son menores por $1.73.
Ahora se considerarán los resultados del modelo (9.6.2), que incluyen la variable dicótoma de interacción.
Donde* indica los valores p menores que el 5%, y ** señala los valores p mayores que 5%.
Como se nota, las dos variables dicótomas aditivas siguen siendo estadísticamente significativas, pero la variable dicótoma
interactiva no está al nivel convencional del 5%; el valor p real de la variable de interacción es de un nivel de casi el 8%. Si se
considera que esto es una probabilidad suficientemente baja, entonces los resultados de (9.6.5) se interpretan de la siguiente
manera: si se mantiene constante el nivel de educación y si se añaden los tres coeficientes de las variables dicótomas, entonces se
obtendrá —1.964 (= —2.3605 — 1.7327 + 2.1289), lo cual significa que los salarios medios por hora de las trabajadoras no blancas
ni hispanas es menor por casi $1.96, valor que está entre —2.3605 (diferencia debido sólo al sexo) y —1.7327 (diferencia debida
sólo a la raza).
El ejemplo anterior revela claramente el papel de la interacción de las variables dicótomas cuando dos o más regresoras cualitativas se incluyen en el
modelo. Es importante observar que en el modelo (9.6.5) se está suponiendo que la tasa de crecimiento de los ingresos por hora respecto a la
escolaridad (de casi 80 centavos por año adicional de escolaridad) sigue constante en cuanto al sexo y la raza. Pero esto tal vez no sea el caso. Si se
desea probar lo anterior, se deberán introducir los coeficientes de pendientes (véase el ejercicio 9.25).
TABLA 9.3 DATOS TRIMESTRALES PARA VENTAS DE APARATOS (EN MILES) Y RESPECTO AL GASTO EN BIENES
DURABLES (DEL 1 ER. TRIMESTRE DE 1978 AL CUARTO DE 1985)
LAVLZ TRIT REFR LAVD BIDU LAVLZ TRIT REFR LAVD BIDU
841 798 1 317 1 271 252.6 480 706 943 1 036 247.7
957 837 1 615 1 295 272.4. 530 582 1 175 1 019 249.1
999 821 1 662 1 313 270.9 557 659 1 296 1 047 251.8
960 858 1 295 1 150 273.9 602 837 973 918 262
894 837 1 271 1 289 268.9 658 867 1 102 1 137 263.3
851 838 1 555 1 245 262.9 749 860 1 344 1 167 280
863 832 1 639 1 270 270.9 827 918 1 641 1 230 288.5
878 818 1 238 1 103 263.4 858 1 017 1 225 1 081 300.5
Muchas series de
792 868 1 277 1 273 260.6 808 1 063 1 429 1 326 312.6
tiempo
589 623 1 258 1 031 231.9 840 955 1 699 1 228 322.5
657 662 1 417 1 143 242.7 893 973 1 749 1 297 .324.3
699 822 1 185 1 101 248.6 950 1 096 1 117 1 198 333.1
675 871 1 196 1 181 258.7 838 1 086 1 242 1 292 344.8
652 791 1 410 1 116 248.4 884 990 1 684 1 342 350.3
628 759 1 417 1 190 255.5 905 1 028 1 764 1 323 369.1
529 734 919 1 125 240.4 909 1 003 1 328 1 274 356.4
Nota: LAVLZ = lavalozas; TRIT = trituradores de basura; REFR refrigeradores; LAVD = lavadoras; BIDU = gasto en bienes
durables, miles de millones de dólares de 1992.
Fuente: Business Statistics and Survey of Current Business, Department of Commerce (varios números).
económicas basadas en información mensual o trimestral presentan patrones estacionales (movimiento oscilatorio regular). Como ejemplos están las
ventas de almacenes de departamento en la época de Navidad, la demanda de dinero (saldos de efectivo) por parte de las familias en épocas de
vacaciones, la demanda de helado y de bebidas refrescantes durante el verano y los precios de los cultivos justo después de la época de cosecha.
Frecuentemente es útil eliminar el factor o componente estacional de las series de tiempo con el fin de poderse concentrar en los demás componentes,
tales como la tendencia.12 El proceso de eliminar el componente estacional de una serie de tiempo se Conoce como desestacionalización, o ajuste
estacional y la serie de tiempo así obtenida se denomina serie de tiempo desestacionalizada o ajustada estacionalmente. Las series de tiempos
económicos importantes, tales como el índice de precios al consumidor (IPC), el índice de precios del productor (IPP) y el índice de producción
industrial, frecuentemente son publicados en forma ajustada estacionalmente.
Hay diversos métodos para desestacionalizar una serie de tiempo, pero se considerará solamente uno de ellos, a saber, el método de las variables
dicótomas.13 Para ilustrar la forma como las variables dicótomas pueden utilizarse para desestacionalizar, considérense los datos dados en la tabla 9.3.
Dicha tabla proporciona los datos trimestrales para los años 1978-1995 respecto a las ventas de cuatro aparatos principales: lavalozas, trituradores de
basura, refrigeradores y lavadoras; todos los datos están dados en miles de unidades. La tabla también suministra datos sobre el gasto en bienes
durables en 1982, en miles de millones de dólares.
A fin de ilustrar la técnica de la variable dicótoma, se tendrán en cuenta sólo las ventas de los refrigeradores en el periodo de muestra. Pero primero
obsérvense los datos que se proporcionan en la figura 9.4. Esa figura sugiere que tal vez exista un modelo estacional en los datos asociados con los
diversos trimestres. Para ver si es así, considérese el siguiente modelo:
donde Yt ventas de refrigeradores (en miles) y las D son las variables dicótomas, las cuales toman un valor de 1 en el trimestre relevante, y 0 en otro
caso; Obsérvese que para evitar la trampa de la variable dicótoma, se está asignando una variable dicótoma a cada trimestre del año, pero se omite el
término de intersección. Si hubiera algún efecto estacional en un determinado trimestre, esto estaría señalado mediante un valor t estadísticamente
significativo del coeficiente de la variable dicótoma para dicho trimestre.14
12
Una serie de tiempo puede contener cuatro componentes: uno estacional, uno cíclico, una tendencia y uno que es estrictamente aleatorio.
13
Para los diversos métodos de ajuste estacional, véase por ejemplo, Francis X. Diebold, Elements of Forecasting, 2ª. Ed., South- Western Publishers, 2001, capitulo 5
14
Considérese un aspecto técnico. Este método de asignar una variable dicótoma a cada trimestre supone que el factor estacional, si está presente, es determinístico y no estocástico. Se
volverá a estudiar este tema cuando se analice la econometría de las series de tiempo en la parte V de este libro.
FIGURA 9.4 Ventas de refrigeradores, 1978-1985 (trimestral)
Obsérvese que en (9.7.1) se está haciendo efectivamente la regresión de Y sobre una intersección, salvo que se permite una intersección distinta para
cada temporada (es decir, trimestre). Como resultado, el coeficiente de la variable dicótoma de cada trimestre proporcionará la venta media de los
refrigeradores de cada trimestre o temporada (¿por qué?).
EJEMPLO 9.6
De los datos respecto a la venta de refrigeradores dados en la tabla 9.3, se obtienen los siguientes resultados de la regresión:
Yˆt 1222 .125 D1t 1467 .500 D2t 1569 .750 D3t 1160 .000 D4t
t 20.372024.462226.166619.3364
(9.7.2)
R 2 0.5317
Nota: no se han proporcionado los errores estándar de los coeficientes estimados, ya que cada uno de ellos es igual a 59.9904, pues todas las
variables dicótomas sólo toman el valor de 1 o de 0.
Los coeficientes estimados en (9.7.2) representan el promedio, o media, de las ventas de los refrigeradores (en miles de unidades) en cada
temporada (es decir, trimestre). Por tanto, la venta media de refrigeradores en el primer trimestre, en miles de unidades, es de casi 1 222, en el
segundo trimestre fue de casi 1 468, las del tercer trimestre fueron de 1 570 aproximadamente, y las del último trimestre fueron de casi 1 160.
Fuente: Business Statistics and Survey of Current Business, Departamento de Comercio (varios números).
Por cierto, en vez de asignar una variable dicótoma a cada trimestre y suprimir el término de intersección a fin de evitar la trampa de variable
dicótoma, se podría asignar sólo tres variables dicótomas e incluir el término de intersección. Supóngase que se considera al primer trimestre
como el trimestre de referencia y se asignan variables dicótomas al tercero y cuarto. Lo anterior da los siguientes resultados de regresión (véase
la tabla 9.4 para la organización de los datos):
donde * indica los valores p menores al 5%, y ** señala los valores p mayores que el 5%.
Puesto que se está considerando al primer trimestre como el punto de referencia, los coeficientes relacionados con las distintas variables
dicótomas ahora son intersecciones diferenciales que muestran en qué medida el valor promedio de Yen el trimestre que recibe un valor de 1
para la variable dicótoma difiere del trimestre que es punto de referencia. Expresado de manera distinta, los coeficientes de las variables
estacionales indicarán el incremento o decremento estacional del valor promedio de Y, con relación a la temporada base. Si se añaden los
distintos valores de a intersección diferencial al valor promedio de referencia de 1 222.125, se tendrá el valor promedio para los distintos
trimestres. Al llevar a cabo lo anterior, se reproducirá exactamente la ecuación (9.7.2), salvo errores de redondeo.
Ahora se apreciará el valor de considerar a un trimestre como punto de referencia, ya que (9.7.3) muestra que el valor promedio de Y para el
cuarto trimestre no es estadísticamente distinto del valor promedio para el primer trimestre, pues el coeficiente de la variable dicótoma para el
cuarto trimestre no es estadísticamente significativo. Por supuesto, la respuesta cambiará según sea el trimestre que se considere como punto
de comparación; no obstante, la conclusión general seguirá siendo la misma.
¿Cómo se obtiene la serie de tiempo desestacionalizada de las ventas de los refrigeradores? Esto se puede hacer fácilmente. Se estiman los
valores Y a partir del modelo (9.7.2) [o (9.7.3)] para cada observación y se restan de los valores reales de Y; es decir, se obtiene (Yt Yˆt ) , que
son sólo los residuos de la regresión (9.7.2), los cuales se presentan en la tabla 9.5 15
¿Qué representan estos residuos? Significan los componentes que quedan de la serie de tiempo de los refrigeradores; a saber, la tendencia, el
ciclo y los componentes aleatorios (pero téngase en cuenta la advertencia hecha en la nota de pie de página 15).
En vista de que los modelos (9.7.2) y (9.7.3) no contienen covariantes, ¿cambia la situación si se añade una regresora cuantitativa al modelo?
Puesto que el gasto en bienes durables tiene un importante factor de influencia sobre la demanda de refrigeradores, el modelo (9.7.3) se
extenderá para que se incluya esta variable. Los datos para el gasto, en bienes durables en miles de millones de dólares de 1982 ya se
proporcionaron en la tabla 9.3. Esta es la variable X (cuantitativa) del modelo. Los resultados de la regresión son los siguientes:
15
Por supuesto, esto supone que la técnica de las variables dicótomas es un método apropiado para desestacionalizar una serie de tiempo y que una serie de tiempo (ST) puede
representarse como: TS= s + c + t + u, donde s indica la estación, t la tendencia, c el ciclo y u el componente aleatorio. No obstante, si la serie de tiempo es de la forma ST=(s)(c)(t)(u), donde
las cuatro componentes ingresan de manera multiplicativa, el método anterior de desestacionalizar resulta inapropiado ya que supone que las cuatro componentes de una serie de tiempo son
aditivas. Sin embargo, se habrá de decir más al respecto en los capítulos sobre econometría de las series de tiempo.
Yˆt 456.2440 242.4976D2t 325.2643D3t 86.0804D4t 2.7734 X t
t 2.5593 * 3.6951 * 4.9421 * 1.3073 * *4.4496 * (9.7.4)
R 0.7298
2
donde * indica los valores p menores del 5%, y ** señala los valores p mayores del 5%.
De nuevo, téngase en cuenta que se está considerando al primer trimestre corno la base. Al igual que en (9.7.3), véase que los coeficientes de
intersección diferencial para el segundo y tercer trimestres son estadísticamente diferentes de los del primer trimestre; pero las intersecciones
del cuarto y primer trimestres son estadísticamente iguales. El coeficiente de X (gasto en bienes durables), de casi 2.77, indica que si se
permiten los efectos estacionales, si el gasto en bienes durables se incrementa un dólar, en promedio, entonces las ventas de refrigeradores
aumentan casi 2.77 unidades; es decir, aproximadamente 3 unidades. Considérese que los refrigeradores están dados en miles de unidades y X
está en miles de millones de dólares (de 1982).
Una pregunta interesante es: al igual que las ventas de refrigeradores muestran patrones estacionales, ¿el gasto en bienes durables también
presenta patrones estacionales? ¿Cómo se tomará en cuenta entonces la naturaleza estacional de X? Lo destacable respecto a (9.7.4) es que
las variables dicótomas de ese modelo no sólo eliminan la estacionalidad en Y, sino que también la estacionalidad, si acaso existe, en X. (Esto
se deduce del teorema bien conocido de estadística, llamado teorema de Frisch-Waugh).16 Por así expresarlo, se matan dos pájaros (se
desestacionaliza) con un tiro (la técnica de variable dicótoma).
Si se desea una prueba informal del enunciado anterior, sólo se siguen estos pasos: 1) Se hace la regresión de Y sobre las variables dicótomas, como
en (9.7.2) o (9.7.3), y se guardan los residuos, por ejemplo S1 éstos representan a la Y desestacionalizada. 2) Se efectúa una regresión similar para X y
se obtienen los residuos de esta regresión, por ejemplo S 2 tales residuos representan a la X desestacionalizada. 3) Se lleva a cabo la regresión de S1
sobre S 2 Se descubrirá que el coeficiente de la pendiente de esta regresión es precisamente el coeficiente de X de la regresión (9.7.4).
16
Para una demostración, véase Adrian C. Darnell, A Dictionary of Econometrics, Edward Elgar, Lyme, Gran Bretaña, 1995, pp. 150-152.
Se procede de la siguiente manera:
i 1 2 ( X * ) Di ui (9.8.1)
vende
D 1 si Xi > X*
0 si X i < X *
17
Sin embargo, el valor del umbral puede no ser siempre fácil de identificar. Un enfoque ad hoc consiste en graficar la variable dependiente frente a la(s) variable(s) explicativa(s) y observar
si parece haber un cambio pronunciado en la relación después de un valor dado de X (por ejemplo, X’). Un en- foque analítico para hallar el punto de ruptura puede encontrarse en los
llamados modelos “switching” de regresión. Pero éste es un tema avanzado acerca del cual se puede encontrar un análisis de texto en Thomas Fomby, R. Carter Hill y Stanley Johnson,
Advanced Econometric Methods, Springer-Verlag, Nueva York, 1984, capítulo 14.
FIGURA 9.6 Parámetros de la regresión lineal por
secciones.
E (Yi Di 1, X i , X * ) 1 2 X * ( 1 2 ) X i (9.8.3)
*
que muestra la comisión de ventas promedio más allá del nivel objetivo X .
(9.8.4)
1 003 5 000
2 081 7 000
2 423 8 000
A propósito, la regresión lineal por secciones que se acaba de exponer es un ejemplo de una clase más general de funciones conocidas como
funciones de spline18.
18
Para conocer una exposición sencilla de las funciones de “spline” (es decir, véanse los polinomios por tramos de orden k), consúltense Douglas C. Montgomery y Elizabeth A. Peck,
Introduction to Linear Regression Analysis, John Wiley & Sons, 3a. ed., Nueva York, 2001, pp. 228-230.
9.9 MODELOS DE REGRESIÓN CON DATOS EN PANEL
Recuérdese que en el capítulo 1 se analizaron una serie de datos con los que se cuenta para el análisis empírico, como: los transversales, las
series de tiempo, los agrupados (una combinación de las series de tiempo y los datos transversales) y los datos en panel. La técnica de la
variable dicótoma puede extenderse sin problemas a los datos agrupados y en panel. Puesto que la utilización de los datos en panel se está
haciendo cada vez más popular en el trabajo aplicado, se analizará este tema con cierto detalle en el capítulo 16.
En el capítulo 6 se analizaron los modelos log-lin, donde la regresada es logarítmica y las regresoras son lineales. En tales modelos, los
coeficientes de las pendientes de las regresoras indican la semielasticidad; es decir, el cambio porcentual en la regresada debido a una
unidad de cambio en la regresora: esto sólo se cumple si la regresora es cuantitativa. ¿Qué sucede si una regresora es una variable
dicótoma? Para ser específicos, considérese el siguiente modelo:
InYi 1 2 Di ui (9.10.1)
donde Y tasa de salario por hora ($) y D 1 para mujer y 0 para hombre.
E ( InYi D i 0) 1 (9.10.2)
E ( InYi D i 1) 1 2 (9.10.3)
Por tanto, la intersección 1 proporciona al logaritmo de los ingresos medios por hora y el coeficiente de la “pendiente” da la diferencia entre
el logaritmo de los ingresos medios por hora entre hombre y mujeres. Lo anterior representa una forma más bien extraña de enunciar las
cosas, pero si se toma el antilogaritmo de 1 , lo que ahora se tiene no son los salarios medios por hora de los trabajadores, sin la mediana
de los salarios. Como se sabe, media, mediana y moda son las tres medidas de tendencia central de una variable aleatoria. Y si se toma el
EJEMPLO 9.8 Por tanto, la mediana de los ingresos por hora de las trabajadoras
es menor por casi 21.94%, en comparación con sus contrapartes
LOGARITMO DE SALARIOS POR HORA RESPECTO AL SEXO
masculinos [(8.8136 – 6.8796)/8.8136]Resulta interesante que se
pueda obtener la semielasticidad para una regresora dicótoma de
Para ilustrar (9.10.1), se utilizan los datos que están implícitos en el ejemplo 9.2.
manera directa, mediante el proceso sugerido por Halvorsen y
Los resultados de la regresión basada en 528 observaciones son los siguientes:
Palmquist.19 Tómese el antilogaritmo (de base e) del coeficiente
estimado de la variable dicótoma, réstele 1 y multiplique la
19
Robert Halvorsen y Raymond Palmquist, “The Interpretation of Dummy Variables in Semilogarithmic Equations”, American Economic Review, vol. 70, núm. 3, pp. 474-475.
InˆYˆi 2.1463 0.2437 Di diferencia por 100. (Para conocer la lógica subyacente, véase el
apéndice 9.A.1.) En consecuencia, si se toma el antilogaritmo de -
0.2437, se obtendrá 0.78366. al restar 1 de lo anterior, se tiene -
t (72.2943) (5.5048)* (9.10.4)
0.2163, y después de multiplicar esta cifra 100 se tiene -21.63%, lo
cual sugiere que la mediana del salario de una trabajadora (D=1) es
R 2 0.0544
menor que la de su contraparte masculina por aproximadamente
* 21.63%, que es lo mismo que se obtuvo antes, salvo errores de
donde indica los valores p que son prácticamente cero.
redondeo.
Se volverá a examinar la regresión de ahorros-ingreso para Estados Unidos durante los periodos 1970-1981 y 1982-1995, así como para el
periodo completo 1970-1995. Al probar la estabilidad estructural mediante la técnica de la variable dicótoma, se supuso que la varianza de
error var (u1i ) = var (u 2 i ) = 2 es decir, las varianzas de error en los dos periodos eran las mismas. También se supuso lo anterior para
la prueba de Chow. Si no es válida tal suposición —es decir, si las varianzas de error en los dos subperiodos son distintas— es muy probable
que se hagan deducciones incorrectas. Así pues, primero se debe verificar la igualdad de las varianzas en el subperiodo, mediante técnicas
estadísticas apropiadas. Aunque se analizará con mayor profundidad este tema más adelante en el capítulo sobre heteroscedasticidad, en el
capítulo 8 se mostró que la prueba F puede utilizarse para este propósito.20 (Véase el análisis de la prueba Chow en ese capítulo.) Como se
demostró ahí, parece que la varianza de error para los dos periodos no es la misma. En consecuencia, los resultados de la prueba Chow y la
técnica de la variable dicótoma presentadas en este apartado tal vez no sean del todo confiables. Por supuesto, el propósito aquí es ilustrar
las diversas técnicas que se pueden emplear para resolver el problema (por ejemplo, el problema de la estabilidad estructural). En alguna
aplicación particular, tales técnicas quizá no resulten válidas. Pero lo anterior también sucede con la mayoría de las técnicas estadísticas. Por
supuesto, hay que tomar las medidas correctivas apropiadas a fin de resolver el problema, tal y como más tarde se hará en el capítulo sobre
heteroscedasticidad (no obstante, véase el ejercicio 9.28).
Además de la homoscedasticidad, el modelo de regresión lineal clásico supone que el término de error en los modelos de regresión no está
correlacionado. Pero, ¿qué sucede si esto no es así, sobre todo en los modelos que involucran regresoras dicótomas? En vista de que se
analizará a profundidad el tema de la autocorrelación en el capítulo respectivo, se diferirá la respuesta a esta pregunta hasta ese momento.
Hasta ahora se han considerado modelos en los que la regresada es cuantitativa y las regresoras cualitativas, o ambas son cualitativas. Pero
existen situaciones en las que la regresada también puede ser una variable cualitativa o dicótoma. Considérese por ejemplo la decisión de un
20 El procedimiento de la prueba Chow se puede realizar, incluso en la presencia de heteroscedasticidad, pero entonces se tendrá que utilizar la prueba Wald. Las matemáticas que están
detrás de esta prueba son un tanto complejas. No obstante, en el capítulo sobre heteroscedasticidad se analizará este tema.
trabajador de participar en la fuerza de trabajo. La decisión de participar es del tipo sí o no. Será sí, si la persona decide participar, y no en
cualquier otro caso. Por tanto, la variable participación en la fuerza de trabajo es una variable dicótoma. Desde luego, la decisión de participar
en la fuerza de trabajo depende de diversos factores, como la tasa de salario inicial, la escolaridad y las condiciones del mercado de trabajo
(tal y como las mide la tasa de desempleo).
¿Todavía se pueden utilizar los MCO para estimar los modelos de regresión en los que la regresada es dicótoma? Sí, mecánicamente se
puede hacer eso. Pero se presentan varios problemas estadísticos que uno enfrenta con tales modelos. Y en vista de que existen alternativas a la
estimación MCO que no provocan tales inconvenientes, se analizará este tema en un capítulo posterior (véase el capítulo 15 sobre los modelos logit y
probit). En ese capítulo también se estudiarán los modelos en los que la regresada tiene más de dos categorías; por ejemplo, la decisión de ir al trabajo
en automóvil, autobús o metro; o la decisión de trabajar tiempo parcial, completo o no trabajar en absoluto. Tales modelos se conocen como modelos
con variable dependiente policótomas, en contraste con los modelos con variables dependientes dicótomas, en los que la variable dependiente
tiene sólo dos categorías.
En los modelos de regresión considerados en este texto, se supone que los parámetros, las 6, son desconocidas pero fijas. Los modelos de coeficientes
aleatorios —de los cuales hay diversas versiones— suponen que las ¡3 pueden ser aleatorias también. El trabajo principal de referencia en esta área es
el realizado por Swamy.21
En el modelo de variable dicótoma que utiliza intersecciones diferenciales al igual que pendientes diferenciales, se supone implícitamente que se
Conoce el punto de quiebre. Por tanto, en el ejemplo de ahorros-ingreso para el periodo 1970-1995, se dividió el lapso en 1970-1981 y 1982-1995, que
son los periodos anterior y posterior de la recesión, bajo la creencia de que la recesión de 1982 cambió la relación entre los ahorros y el ingreso. A
veces no resulta sencillo señalar en qué momento se da la ruptura. La técnica de modelos “switching” de regresión maneja esta situación, permitiendo
que el punto de ruptura sea en si mismo variable aleatoria y mediante un proceso iterativo se determina cuándo pudo haber acontecido realmente la
ruptura. El trabajo original en esta área se atribuye a Goldfeld y Quandt.22
Se requieren técnicas especiales de estimación para tratar con lo que se conoce como situaciones de desequilibrio, es decir, situaciones en donde los
mercados no son claros (es decir, la demanda no es igual a la oferta). El ejemplo clásico es el de demanda y de oferta de un bien. La demanda de un
bien es función de su precio y de otras variables y la oferta de ese bien es también función de su precio y de otras variables, algunas de las cuales son
diferentes de aquellas que hacen parte de la función de demanda. Ahora, la cantidad realmente comprada y vendida del bien no necesariamente debe
ser igual a la obtenida cuando se igual a la demanda a la oferta, llevando así a un desequilibrio. Para un análisis completo de modelos de desequilibrio,
el lector puede referirse a Quandt.23
21
P.A.V.B. Swamy, Statistical inference in Random Coefficient Regression Models, Springer-Verlag, Berlin, 1971.
23 Richard E. Quandt, The Econometrics of Disequilibrium, Basil Blackwell, Nueva York, 1988.
2. Las variables dicótomas son un mecanismo de clasificación de información ya que permiten dividir una muestra en diversos subgrupos con base
en cualidades o atributos (sexo, estado civil, raza, religión, etc.) e implícitamente permiten que se efectúen regresiones individuales para cada
subgrupo. Si hay diferencias en la respuesta de la variable regresada a la variación en las variables cuantitativas en los diversos subgrupos, éstas se
reflejarán en las diferencias en las intersecciones o en los coeficientes de las pendientes, o en ambos, de las diversas regresiones de subgrupo.
3. Aunque es una herramienta versátil, la técnica de variable dicótoma debe ser manejada cuidadosamente. Primero, si la regresión contiene un
término constante, el número de variables dicótomas debe ser menor que el número de clasificaciones de cada variable cualitativa. Segundo, el
coeficiente que acompaña las variables dicótomas siempre debe ser interpretado con relación al grupo base o de referencia, es decir, con el grupo
que adquiere el valor de cero. La base elegida dependerá del propósito de la investigación que se esté realizando. Finalmente, si un modelo tiene
diversas variables cualitativas con diversas categorías, la introducción de las variables dicótomas puede consumir un gran número de grados de
libertad. Por consiguiente, siempre se debe ponderar el número de variables dicótomas que van a ser introducidas respecto al número total de
observaciones disponible para el análisis.
4. En este capítulo se consideraron sólo algunas de las diversas aplicaciones de la técnica de variables dicótomas. Estas incluyeron 1) comparación
de dos (o más) regresiones, 2) desestacionalización de datos de series de tiempo, 3) variables dicótomas interactivas, 4) interpretación de las
variables dicótomas en los modelos semilogarítmicos, y 5) modelos de regresión lineal a segmentos.
5. También se hizo mucho énfasis en tener precaución al utilizar las variables dicótomas en situaciones de heteroscedasticidad y autocorrelación.
Pero en vista de que se estudiarán estos temas con mucho detalle en capítulos subsecuentes, éstos se mencionarán a su debido tiempo.
EJERCICIOS
Preguntas
9.1. Si se tiene información mensual para distintos años, ¿cuántas variables dicótomas se introducirán para probar las siguientes hipótesis?:
b) Solamente febrero, abril, junio, agosto, octubre y diciembre presentan patrones estacionales.
9.2. Considérense los siguientes resultados de regresión (las razones t están entre paréntesis):*
t (4.67)(3.70)(3.80)(0.24)(0.08)
(0.40)(6.94)(3.04)(6.14)
R 2 0.383 n 1543
donde Y horas de trabajo al año deseadas por la esposa, calculadas como las horas usuales de trabajo al año, más las semanas
*
Jane Leuthold, “The Effect of Taxation on the Hours Worked by Married Women”, Industrial Labor Relations Review, núm. 4, julio de 1978, pp. 520-526 (la notación se cambió para ajustarse
al formato del libro).
X 2 ingresos promedio reales por hora después de impuestos de la esposa
X 6 variable de actitud; 1 si el entrevistado piensa que es correcto que una mujer trabaje si así lo desea y si su esposo está de
X 7 variable de actitud; 1 si el esposo de la entrevistada favoreció que su esposa trabajara; 0 en cualquier otro caso
a) ¿Los signos de los coeficientes de las diversas regresoras no dicótomas tienen algún sentido económico? Justifique su respuesta.
b) ¿Cómo se interpretarían las variables dicótomas X 6 y X 7 ? ¿Son estadísticamente significativas? Puesto que la muestra es muy grande,
tal vez se utilice la regla práctica “2-t” para responder la última pregunta.
c) ¿Por qué se cree que las variables edad y escolaridad no son factores significativos en la decisión de la mujer respecto a participar en la
fuerza de trabajo, en este estudio?
9.3. Considérense los siguientes resultados de una regresión.* (Los datos reales se proporcionan en la tabla 9.7.)
Año y Tasa de desempleo Tasa de D DV Año y trimestre Tasa de desempleo Tasa de trabajo D DV
semestre TD, % trabajo TD, % vacante, %
vacante, %
*
Damodar Gujarati, “The Behaviour of Unemployment and Unfilled Vacancies: Great Britain, 1958-1971”, The Economic Journal, vol. 82, marzo de 1972, pp. 195-202.
-III 1.750 0.690 0 0 -IV 1.192 1.086 0 0
Fuente: Damodar Gujarati, “The Behaviour of Unemployment and Unfilled Vacancies: Great Britain, 1958-1 971”, The Economic Journal, vol. 82, marzo
de 1972, p. 202.
t (26.896)(3.6288)(12.5552 )(1.9819 )
R 2 0.9128
a) ¿Cuáles son las expectativas a priori respecto a la relación entre las tasas de desempleo y vacantes?
b) Si la tasa de vacancia se mantiene constante, ¿cuál es la tasa promedio de desempleo para el periodo que comienza el cuatro trimestre de
1966? ¿Es estadísticamente distinto del periodo anterior al cuarto trimestre de 1966? ¿Cómo se puede saber?
c) ¿Las pendientes para el periodo anterior y posterior al cuarto trimestre de 1966 son estadísticamente distintas? ¿Cómo se sabe?
d) ¿Se puede concluir con toda seguridad, a partir de este estudio, que los generosos beneficios del desempleo propician tasas más altas de
vacantes? ¿Lo anterior tiene algún sentido económico?
9.4. Con base en información anual para el periodo 1972-1979, William Nordhaus estimó el siguiente modelo para explicar el comportamiento del precio
del petróleo de la OPEP (errores estándar entre paréntesis):*
ee (0.03)(0.50)
donde yt diferencia entre el precio del año en curso y del año anterior (dólares por barril)
x1 diferencia entre el precio del momento del año en curso y el precio de la OPEP en el año anterior
*
“Oil and Economic Performance in Industrial Countries”, Brookings Papers on Economic Activity, 1980, pp. 341-388.
x2 1 para el año 1974 y cero de lo contrario
Nota: durante el periodo 1973-1974 tuvo lugar el embargo de petróleo. Interprétese este resultado y muéstrese el resultado gráficamente.
¿Qué sugieren estos resultados acerca del poder monopólico de la OPEP?
Yi 1 2 Di X i ui
a) D = 1 si es hombre; O si es mujer
b) D = 1 si es mujer; O si es hombre
c) D 1 si es mujer; —1 si es hombre
Interprétese el anterior modelo de regresión para cada asignación de variable dicótoma. ¿Se puede preferir a un método en vez de otro?
Justifique su respuesta.
9.6. Refiérase a la regresión (9.7.3). ¿Cómo se probaría la hipótesis de que los coeficientes de D2 y D3 son los mismos? ¿Y de que los coeficientes
D2 y D4 son iguales? Si el coeficiente de D3 es estadísticamente distinto del de D2 , y el coeficiente de D4 es diferente del de D2 , ¿significa que
a) ¿Cómo se obtendrían los errores estándar de los coeficientes de regresión dados en (9.5.5) y (9.5.6), mismos que se obtuvieron de la
regresión agrupada (9.5.4)?
b) Para obtener respuestas numéricas, ¿qué información adicional se requeriría, en caso de necesitarse?
9.8. En su estudio sobre las horas de trabajo dedicadas por el FDIC (Federal Deposit Insurance Corporation) al análisis de 91 bancos, R. J. Miller estimó
la siguiente función:*
(0.0477 )(0.0628)(0.0287 )
*
“Examination of Man-Hour Cost for Independent, Joint, and Divided Examination Programs”, Journal of Bank Research, vol. 11, 1980, pp. 28-35. Nota: las notaciones se modificaron para
que se ajusten a nuestra flotación.
(0.2905)(0.1044 )(0.1657 )(0.0787 )
R 2 0.766
b) ¿Hay algún problema en la interpretación de las variables dicótomas en este modelo por estar Y en forma logarítmica?
9.9. Para evaluar el efecto de la política del gobierno federal sobre liberación de tasas de interés iniciada en julio de 1979, Sidney Langer, una alumna
mía, estimó el siguiente modelo para el periodo trimestral comprendido entre 1975-III y 1983-II.†
(0.1036 )(0.7549 )
†
Sidney Langer, “Interest Rate Deregulation and Short-Term Interest Rates”, trabajo universitario no publicado.
P tasa de inflación esperada
Dic variable dicótoma, que adquiere el valor de 1 para las observaciones que empiezan en julio 1 de 1979
b) ¿Cuál ha sido el efecto de la liberación de la tasa? ¿Tienen sentido económico los resultados?
c) Los coeficientes de Pt Unt y M t son negativos. ¿Se puede ofrecer un razonamiento económico?
9.10. Refiérase a la regresión por tramos analizada en el texto. Supóngase que no solamente hay un cambio en el coeficiente de la pendiente en X*
sino que también hay un salto en la línea de regresión, como se muestra en la figura 15.10. ¿Cómo se modificaría (15.11.1) para considerar el salto en
la línea de regresión en X*?
9.11. Determinantes del precio por onza de cola. Cathy Schaefer, una alumna mía, estimó la siguiente regresión con base en información de corte
transversal de 77 observaciones:*
*
Cathy Schaefer, “Price Per Ounce of Cola Beverage as a Function of Place of Purchase, Size of Container, and Branded or Unbranded product”, trabajo universitario, sin publicar.
1 000 latas de 12 onzas
ee (0.00001)(0.00011)(0.00000 )
R 2 0.6033
a) Coméntese sobre la forma en que las variables dicótomas han sido introducidas en el modelo.
b) Suponiendo que el procedimiento de variables dicótomas es aceptable, ¿cómo se interpretan los resultados?
9.12. Basado en información para 101 países sobre el ingreso per cápita en dólares (X) y la esperanza de vida en años (Y) a principios de la década de
los años setenta, Sen y Srivastava obtuvieron los siguientes resultados de regresión:*
ee (4.73)(0.859)(2.42) R 2 0.752
*
Ashish Sen y Muni Srivastava, Regression Analysis: Theory, Methods, and Applications, Springer- Verlag, Nueva York, 1990, p. 92. Se ha cambiado la notación.
donde Di 1 si InX i 7 , y Di 0 de lo contrario. Nota: cuando InX i 7 , X US$1 097 (aproximadamente).
a) ¿Cuál(es) podría(n) ser la(s) razón(es) para introducir la variable ingreso en forma logarítmica?
c) ¿Cuál podría ser la razón para introducir el regresor Di ( InX i 7) ? ¿Cómo se explica este regresor? Y ¿cómo se interpreta el
coeficiente —3.36 de este regresor? (Guía: regresión lineal por tramos.)
d) Suponiendo un ingreso per cápita de US$1 097 como la línea divisoria entre los países más pobres y los más ricos, ¿cómo se derivaría la
regresión para países cuyo ingreso per cápita es menor que US$1 097 y la regresión para países cuyo ingreso per cápita es mayor que
US$1 097?
e) ¿Qué conclusiones generales se obtienen del resultado de la regresión presentada en este problema?
Yi 1 2 Di ui
donde Di 0 para las primeras 20 observaciones y Di 1 para las 30 observaciones restantes. También se dice que la var (ui2 ) 300 .
a) ¿Cómo se interpretan, 1 y 2 ?
c) ¿Cómo se calcularía la varianza de ( ˆ1 ˆ2 ) ? Nota: un dato que se da es que la cov ( ˆ1 ˆ2 ) 15.
9.14. Para evaluar el efecto de las leyes estatales de derecho al trabajo referentes a los sindicatos (las cuales no obligan a pertenecer a un sindicato
como condición previa para el empleo), se obtuvieron los siguientes resultados de regresión, a partir de datos para 50 estados de la Unión Americana
durante 1982:*
t (17.0352 )(5.1086 )
r 2 0.3522
donde PSP porcentaje de los empleados en el sector privado afiliados a sindicatos en 1982, y DAT 1 si las leyes de derecho al
trabajo existen, y O en otro caso.
*
Los datos utilizados en los resultados de la regresión se obtuvieron de N. M. Meltz, “Interstate and Interprovincial Differences in Union Density”, Industrial Relations, vol. 28, núm. 2, 1989,
pp. 142- 158.
a) A priori, ¿cuál es la razón esperada entre PSP y DAT ?
d) ¿Cual es el porcentaje promedio de los empleados del sector privado pertenecientes a sindicatos, en los estados en donde no están
vigentes las leyes sobre el derecho al trabajo?
Yi 1 2 Di ui
Y representa el salario por hora en dólares, y D es la variable dicótoma, que toma el valor de 1 si es un titulado universitario y O si es un
titulado de escuela media superior. Utilizando las fórmulas para MCO dadas en el capítulo 3, demuestre que ̂1 Yhg y ̂ 2 Ycg Yhg ,
donde los subíndices tienen los siguientes significados: hg titulado de escuela media superior y cg titulado universitario. En total, existen
n1 graduados de escuela media superior y n2 graduados universitarios, para una muestra total de n n1 n2 .
9.16. Para estudiar la tasa de crecimiento de la población de Belice durante el periodo 1970-1992, Mukherjee et al., estimaron los siguientes modelos: †
t (781.25)(54.71)
t (2477 .92)(34.01)(17.03)(25.54)
donde Pob población en millones; t variable de tendencia; Dt 1 para observaciones que comenzaron en 1978 y 0 antes de 1978; y
In significa logaritmo natural.
a) En el modelo I, ¿cuál es la tasa de crecimiento de la población de Belice durante el periodo de muestra?
b) b) ¿Las tasas de crecimiento son estadísticamente distintas antes y después de 1978? ¿Cómo se sabe? Si son diferentes, ¿cuáles son las
tasas de crecimiento para 1972-1977 y 1978-1992?
9.17. Utilizando la información dada en la tabla 9.7, sección 15A.1, pruébese la hipótesis de que las varianzas de los errores en los dos subperiodos
1958-IV a 1966-III y 1966-IV a 1971-II son los mismos.
9.18. Utilizando la metodología analizada en el capítulo 8, compárese la regresión no restringida (15.10.2) con la restringida (15.10.3), es decir,
pruébese la validez de las restricciones impuestas.
†
Chandan Mukherjee, Howard White y Marc Wuyts, Econometrics and Data Analysis for Developing Countries, Routledge, Londres, 1998, pp. 372-375. Se adaptaron las notaciones al libro.
9.19. En el ejemplo de la regresión (9.5.4) sobre ahorros-ingreso analizado en el capítulo, supóngase que en lugar de utilizar los valores 0 y 1 para la
9.20. Siguiendo con la regresión (9.5.4) sobre ahorros-ingreso, supóngase que se asignó Di 0 para las observaciones hechas en el segundo
periodo, y Di 1 para las observaciones del primer periodo. ¿Cómo cambiarían los resultados mostrados en (9.5.4)?
9.21. Utilice los datos dados en la tabla 9.2 y considérese el siguiente modelo:
c) ¿Cuáles son los valores de la intersección de la función ahorros en los dos subperiodos y cómo se interpretarían?
9.22. Refiérase a las ventas trimestrales de aparatos dadas en la tabla 9.3. Considérese el siguiente modelo:
donde las variables dicótomas D toman los valores de 1 y O para los trimestres I al IV.
a) Estímese de manera individual el modelo anterior para las lavalozas, trituradores de basura y lavadoras.
c) ¿Cómo se utilizarían las estimadas para desestacionalizar los datos sobre ventas de cada categoría de aparato?
9.23. Vuélvase a estimar el modelo del ejercicio 9.22 añadiendo la regresora: gastos en bienes durables.
a) ¿Existe alguna diferencia entre los resultados de la regresión obtenidos en el ejercicio 9.22 y los de este ejercicio?
b) Si existiera estacionalidad en los datos del gasto en bienes durables, ¿cómo se explicaría?
9.24. La tabla 9.8 proporciona datos sobre las elecciones presidenciales de Estados Unidos de 1916 a 1996.*
a) Utilizando los datos de la tabla 9.6, desarrolle un modelo adecuado para predecir la porción correspondiente al Partido Demócrata del voto
bipartidista para la presidencia.
b) ¿Cómo se utilizaría este modelo para predecir el resultado de una elección presidencial?
*
Estos datos se recopilaron originalmente por Ray Fair de Yale University, quien ha estado prediciendo los resultados de las votaciones electorales durante varios años. Los datos se
reproducen de la obra de Samprit Chatterjee, Ah S. Hadi y Petram Price, Regression Analysis by Example, 3a. ed., John Wiley & Sons, Nueva York, 2000, pp. 150-15 1.
TABLA 9.8 DATOS DE LAS ELECCIONES PRESIDENCIALES, 1916-1996
Año V W D G I N P
/ Variable indicadora (1 si un candidato demócrata está compitiendo en las elecciones, —1 si es un candidato republicano que compite en las
elecciones; 0 en otro caso).
D Variable indicadora (1 si un candidato demócrata está compitiendo en las elecciones, —1 si es un candidato republicano; O en cualquier otro
caso).
W Variable indicadora (1 para las elecciones de 1920, 1944 y 1948; 0 en cualquier otro caso).
G Tasa de crecimiento del PIB par cápita real en los primeros tres trimestres del año electoral.
P Valor absoluto de la tasa de crecimiento del PIB deflator en los primeros 15 trimestres de la administración.
N Número de trimestres —en los primeros 15 trimestres de la administración— en los que la tasa de crecimiento del PIB per cápita real es mayor
que el 3.2%.
d) Chatterjee et al., sugirieron que se considerara el siguiente modelo como un prototipo para predecir las elecciones presidenciales:
V 0 1 I 2 D 3W 4 (GI ) 5 P 6 N u
Estime este modelo y comente los resultados respecto a los resultados del modelo que se ha elegido.
9.25. Refiérase a la regresión (9.6.4). Pruébese la hipótesis de que la tasa de crecimiento de los ingresos promedio por hora con respecto a la
escolaridad difieren según el sexo y la raza. (Pista: utilice variables dicótomas multiplicativas.)
9.26. Refiérase a la regresión (9.3.1). ¿Cómo modificaría el modelo para saber si existe alguna interacción entre las variables sexo y región de
residencia? Presente los resultados basados en este modelo y compárelos con los dados en (9.3.1).
9.27. En el modelo Yi 1 2 D1 ui , sea Di 0 para las primeras 40 observaciones y Di 1 para las restantes 60 observaciones. Se señala
que u i tiene media cero y una varianza de 100. ¿Cuáles son los valores medios y las varianzas para los dos conjuntos de observaciones?*
9.28. Refiérase a la regresión de ahorros-ingreso analizada en este capítulo. Como modelo alternativo a (9.5.1) considérese:
InYt 1 2 Dt 3 X t 4 ( Dt X t ) ut
a) Estímese el modelo anterior y compare los resultados con los de (9.5.4). ¿Cu es el mejor modelo?
*
Este ejemplo se adaptó de la obra de Peter Kennedy, A Guide to Econornetrics, 4a. ed., MIT Press, Cambridge, Mass., 1998, p. 347.
b) ¿Cómo se interpretaría el coeficiente de la variable dicótoma en este modelo?
c) Como se verá en el capítulo sobre la heteroscedasticidad, a menudo una transformación logarítmica de la variable dependiente reduce la
heteroscedasticidad en los datos. Véase si éste es el caso para el ejemplo presente, realizando la regresión del logaritmo de
Y sobre X para los dos periodos, y obsérvese si las varianzas de error estimadas para los dos periodos son estadísticamente iguales. Si lo
son, se puede utilizar la prueba Chow para agrupar los datos de la manera indicada en el capítulo.
APÉNDICE 9A
InYt 1 2 Di (1)
el cambio relativo en Y (es decir, la semielasticidad), con respecto a la regresora dicótoma que toma los valores de 1 o 0, se puede obtener
(e 2 1) x100
ˆ
(2)
La prueba es como sigue: puesto que la función log y exp ( e) son inversas, se puede expresar (1) como:
Ahora bien, cuando D 0 , e 2 Di 1 , y cuando D 1 , e 2Di e 2 . Por consiguiente, al pasar del estado 0 al 1, InYt cambia por
(e 2 1) x100 . Pero una variación en el logaritmo de una variable es un cambio relativo, el cual después de la multiplicación por 100 se
convierte en un cambio porcentual. Por tanto, ese cambio porcentual es (e2_ i) x 100, tal y como se afirmaba. (Nota: Ine e 1 , es decir, el log
e , en base e , es 1; al igual que el logaritmo de 10, en base 10, es 1. Recuérdese que el logaritmo de base e se llama logaritmo natural y que
el logaritmo de base 10 se llama logaritmo común.)
En la parte I se consideró extensamente el modelo clásico de regresión lineal normal y se mostró la forma en que puede utilizarse para manejar
dos problemas de inferencia estadística, a saber, la estimación y la prueba de hipótesis; lo mismo que el problema de predicción. Pero recuérdese
que este modelo está basado en diversos supuestos simplificadores que son los siguientes:
Supuesto 2. Los valores de las regresoras, las X, son fijos en muestreo repetido.
Supuesto 8. Debe haber suficiente variabilidad en los valores que toman las regresoras.
Supuesto 10. No hay relación lineal exacta (es decir, no hay multicolinealidad) en las regresoras.
Antes de proseguir, se observa que la mayoría de los libros de texto enumeran menos de 11 supuestos. Por ejemplo, los supuestos 7 y 8 se
dan por cumplidos en lugar de expresarlos explícitamente. Se decidió hacerlos explícitos pues parece
GUÍA DE AUTOEVALUACIÓN
Preguntas abiertas
Responde a los siguientes cuestionamientos
1. Escribe las ecuaciones (intercepto, pendiente e intercepto-pendiente) para tiempos de paz y de guerra para la ecuación C = β 0 + β1Yd + u si
C = consumo, Yd= ingreso disponible y D = 1 en tiempos de guerra y D = 0 en tiempos de paz.
2. Dibuja una gráfica para las ecuaciones anteriores que muestre una función de consumo en tiempos de paz y otra en tiempos de guerra.
3. ¿Cuáles son las ventajas de estimar las ecuaciones anteriores en vez de estimar dos regresiones, una para los años de paz y otra para los años de
guerra?
4. La siguiente tabla muestra la cantidad de leche (en miles de cuartos de litro) ofrecidos por una empresa al mes, Q, a diversos precios, P, durante un
periodo de 14 meses. La empresa tiene que hacer frente a una huelga en alguna de sus fábricas durante los meses 5,6 y 7. Has una regresión de Q
sobre P: Contrastando únicamente un desplazamiento del punto de corte con el eje durante los periodos de huelga y sin huelga.
Mes 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Q 98 100 103 105 80 87 94 113 116 118 121 123 126 128
P 0.79 0.80 0.82 0.82 0.93 0.95 0.96 0.88 0.88 0.90 0.93 0.94 0.96 0.97
Mes 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Q 98 100 103 105 80 87 94 113 116 118 121 123 126 128
P 0.79 0.80 0.82 0.82 0.93 0.95 0.96 0.88 0.88 0.90 0.93 0.94 0.96 0.97
6. Indica cinco variables cualitativas importantes para la cuales se ha utilizado la técnica de las variables mudas en las investigaciones cuantitativas
durante los últimos años.
10. Resume la técnica de utilizar variables mudas para verificar diferencias estructurales.
BIBLIOGRAFÍA COMPLEMENTARIA
BERNDT, R. Ernst (1991), The Practice of Econometrics. Classic and Contemporary, Editorial Addison-Wesley.
BOWERMAN L. Bruce, O´CONNELL T. Robert y KOEHLER B. Anne, Pronósticos, Series de Tiempo y Regresión, 4ª. ed., Edit. Thomson,
2007.
FOX Karl, Manual de econometría, Edit. Amorrotu editores Buenos Aires, 1973.
GREENE, W.H., Análisis Econométrico, 3ª. ed., Edit. Prentice Hall, 1999.
JUDGE, G. et al., Introduction to the Theory and Practices of Econometrics, 2a. ed., Edit. l Wiley & Sons, 1988.
KENNEDY Peter, Introducción a la econometría, 1ª. edición en español. Edit. Fondo de Cultura Económica, 1997.
KLEIN R. Lawrence y Young M. Richard, An Introduction to Econometric Forecasting and Forecasting Models, 4a. ed. Edit. Lexington
Books, 1982.
KMENTA Jan, Elementos de Econometría, 1ª. reedición. Edit. VICENS Universidad, 1985.
WYNN R.F y Holden K., Introducción al Análisis Econométrico Aplicado, Edit. Ariel, 1987.
Documento Ficha
ECONOMETRÍA
3ª edición. Edit. Pirámide, España, 2007
ECONOMETRÍA
4ª Ed, Edit Mc Graw Hill, México 2004