0% encontró este documento útil (0 votos)
270 vistas60 páginas

Modelos Econométricos con Variables Dicotómicas

Este documento presenta los modelos de regresión con variables explicativas dicotómicas. Introduce las variables ficticias o dummy y explica que toman valores de 0 o 1 para indicar la ausencia o presencia de un atributo cualitativo. Explica cómo usar estas variables para modelar factores como el sexo o la localización y analizar su influencia en una variable dependiente. Finalmente, muestra ejemplos de modelos de análisis de varianza y de covarianza que incluyen variables cualitativas y cuantitativas.

Cargado por

villebass
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
270 vistas60 páginas

Modelos Econométricos con Variables Dicotómicas

Este documento presenta los modelos de regresión con variables explicativas dicotómicas. Introduce las variables ficticias o dummy y explica que toman valores de 0 o 1 para indicar la ausencia o presencia de un atributo cualitativo. Explica cómo usar estas variables para modelar factores como el sexo o la localización y analizar su influencia en una variable dependiente. Finalmente, muestra ejemplos de modelos de análisis de varianza y de covarianza que incluyen variables cualitativas y cuantitativas.

Cargado por

villebass
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIDAD II: MODELOS CON VARIABLES EXPLICATORIOS DICOTOMAS.

INTRODUCCIÓN
Las variables cualitativas son a veces aplicables en la investigación econométrica. En un estudio de serie cronológica los acontecimientos políticos
ejercen cierta influencia sobre los datos agregados relacionados con una economía. La política económica seguida por un gobierno puede estar en
desacuerdo con el partido político que está en el poder, y las consecuencias de las diferentes políticas también lo serán. La guerra y la paz tienen una
influencia sobre el funcionamiento económico, lo mismo que la han tenido para un país las calamidades o las crisis políticas internas. Si estamos
estudiando datos trimestrales, los ajustes estacionales pueden resultar ser un problema. Nuestro comportamiento económico obedece patrones
estacionales por muchas razones, el tiempo, la religión, los patrones culturales, y así sucesivamente. En cuanto a los datos transversales los fenómenos
sociodemográficos contribuyen en gran medida a la diversidad de funcionamiento de las unidades individuales, sean familias o empresas. En términos
generales, una variable ficticia es una variable artificial construida de tal manera que asume el valor de uno siempre que ocurra el fenómeno cualitativo
que representa y el valor de cero de otro modo.

ACTIVIDADES DE APRENDIZAJE

 Realiza la lectura de la unidad

 Elabora un cuadro en el que plasmes los principales modelos que se retoman en esta unidad, junto con sus principales características.

OBJETIVOS PARTICULARES
Comprender como se puede hacer uso de variables dicotomas en la regresión y realizar aplicaciones.

CONTENIDOS
2.1 Características

2.2 Aplicación con variables cualitativas.

2.3 Regresión por tramos y la prueba de Chow.

2.4 Desestacionalizar con variables dicotómicas.


VARIABLES FICTICIAS

1. INTRODUCCIÓN
En la especificación del modelo de regresión lineal hemos considerado, hasta ahora, que los regresores seleccionados son de carácter cuantitativo, es
decir, variables que toman de forma continua valores reales.

Factores como sexo, estado civil o localización geográfica constituyen variables de carácter cualitativo que desempeñan un papel protagonista en el
estudio de los fenómenos económicos, que hasta ahora no hemos considerado en el modelo de regresión. Cuando queremos construir un modelo
econométrico que, por ejemplo, describa las pautas de consumo en relación a un determinado bien, la consideración de factores como la localización,
rural o urbana, de las unidades familiares o la situación del cabeza de familia en relación al empleo, además de las variables cuantitativas habituales,
constituyen regresores a tener en cuenta para explicar el comportamiento de la variable dependiente.

Los factores de naturaleza cualitativa no sólo se incluyen dentro de la categoría de variables explicativas, sino que también pueden aparecer en el
modelo como variable a explicar o dependiente. El análisis de la influencia de la localización geográfica, rural o urbana, en el comportamiento electoral
de una determinada población constituye un claro ejemplo en relación a esta cuestión. El tratamiento de estás situaciones requiere la construcción de
unas variables artificiales que permitan cuantificar las variaciones cualitativas de los distintos factores considerados. En términos econométricos, estas
variables se denominan variables ficticias y únicamente toman los valores cero y uno. Tomarán el valor uno, cuando en el elemento muestral
correspondiente se constate la presencia del atributo considerado, y el valor cero, cuando aquél no esté presente en la correspondiente unidad
muestral. En otras palabras, tomarán los valores cero y uno, para denotar la ausencia o presencia, respectivamente, del atributo considerado1

Estas variables reciben también la denominación de variables binarias o dicotómicas, en relación a los dos valores que toman, cero y uno. En ocasiones
se utiliza también la denominación inglesa, variables dummy, para su consideración.

Las variables ficticias son susceptibles de utilización, no sólo como indicadores de factores cualitativos, sino también de variables numéricas, si bien, en
este último caso, su elección responde fundamentalmente a un criterio de conveniencia. La consideración de la variable edad expresada en forma de
tramos, tal y como aparece habitualmente en los cuestionarios de la mayoría de las encuestas, constituye un ejemplo al respecto.

2. INTERPRETACIÓN Y USO DE LAS VARIABLES FICTICIAS


Con objeto de constatar la utilidad de las variables ficticias en la especificación de un modelo econométrico, abordaremos distintos ejemplos que
permitirán interpretar, de forma sencilla, los coeficientes de dichos regresores, así como el contenido, o información potencial, de aquél.

2.1. Variables ficticias como factor explicativo del modelo

A la hora de especificar un modelo econométrico y justificar el papel que desempeñan los factores cualitativos en la descripción del comportamiento de
una determinada variable dependiente, diferenciaremos dos tipos de modelos. Hablaremos de aquellos modelos que sólo consideran factores
cualitativos en su especificación, ampliamente utilizados en campos como la Psicología o la Sociología, y aquellos que combinan ambos tipos de
variables, cualitativas y cuantitativas, más frecuentes en el Análisis Económico.

Se denominan modelos de análisis de varianza (ADV) los que sólo incluyen en su especificación, como variables independientes, factores de carácter
cualitativo.

Consideremos el ejemplo más sencillo, el modelo de regresión lineal simple. Supongamos que necesitamos analizar el comportamiento de los salarios
de un conjunto de profesionales en función de su sexo, puesto que se sospecha, de forma más o menos fundamentada, que puede haber un

1
La asignación de valores para los factores cualitativos considerados es arbitraria, si bien deberá reflejar convenientemente el comportamiento del factor cualitativo.
comportamiento diferenciado en relación a este aspecto. Nuestro objetivo se concretará en la especificación de un modelo que pueda recoger el efecto
del sexo de un profesional sobre el comportamiento del salario.

En términos econométricos, una situación de este tipo se resuelve mediante la introducción de una variable ficticia, Di que recoja este factor cualitativo,

en este caso el sexo.

Sea el modelo

Yi   0  1 Di  ui   1,2,.., n (2.1.1)

donde Y1 denota el salario mensual correspondiente al i-ésimo profesional considerado, y

si la observación i-ésima corresponde a una mujer


Di  0
1

si la observación i—èsima corresponde a un hombre (2.1.2)

una variable ficticia, que recoge el sexo de los individuos de la muestra seleccionada.

A partir de (2.1.1), suponiendo que el término de perturbación aleatoria del modelo satisface todos los supuestos básicos, podremos obtener el salario
promedio de ambos profesionales.

Salario promedio de una mujer E Yi / Di  0   0 (2.1.3)

Salario promedio de un hombre E Yi / Di  1   0  1

De acuerdo con (2.1.3),  0 recoge el salario promedio de una mujer, mientras que 1 mide la diferencia entre los salarios promedios de ambos

profesionales, siendo  0  1 el salario promedio de un varón. Para saber si, efectivamente, la realidad recoge una situación discriminatoria y dado

que recoge esa situación potencial, la prueba t-Student, mediante el contraste de la hipótesis nula, H 0 : 1  0 , permitirá resolver dicha incógnita2. Si

como resultado del contraste no rechazásemos dicha hipótesis, la variable explicativa considerada no sería relevante en la especificación del modelo, y,
en consecuencia, el sexo no sería un factor a tener en cuenta en la determinación del salario. Si, por el contrario, rechazásemos la hipótesis nula,
significaría que, efectivamente, el comportamiento de los salarios no es igual para todos los profesionales, según el sexo.

Obsérvese que la prueba t-Student se puede plantear como una prueba bilateral o de una sola cola. En el primer caso, únicamente se hablaría de
comportamientos distintos, mientras que, en el segundo caso, se identificaría también el colectivo beneficiado o perjudicado, puesto que se tendría en
cuenta el signo del parámetro 1

2
Nótese que él término utilizado refleja únicamente la posibilidad de comportamientos diferentes.
En el Análisis Económico normalmente se incluyen, de forma simultánea, como variables explicativas, factores de carácter cuantitativo y cualitativo. Los
modelos que utilizan ambas variables reciben el nombre de modelos de análisis de covarianza (ACOV) y son ampliamente utilizados en el contexto
económico. Para su consideración en términos formales, modificaremos ligeramente la especificación de (2.1.1), incluyendo como variable explicativa
los años de experiencia del profesional considerado

Y1   0  1 Di   2 X i  ui i  1,2..., n (2.1.4)

donde X denota dicho aspecto cuantitativo.

Bajo el supuesto de que las hipótesis básicas del modelo se satisfacen, a partir de (2.1.4) podremos obtener el salario promedio

salario promedio de una mujer E       X …..(2.1.5))


Yi
 Di  0, xi  0 2 i

salario promedio de un hombre E          X


Yi
 Di  1, X i  0 1 2 i

de los profesionales considerados.

Del análisis de (2.1.5) se puede concluir que el modelo propuesto permite constatar la existencia de comportamientos diferentes en la modelización del
salario, simplemente por razón del sexo. Obsérvese que en (2.1.5) se refleja una componente común en la estructura del salario con respecto a la
variable años de experiencia, recogida por el parámetro  2 y una componente diferenciadora con respecto a la magnitud del término independiente,

recogida por el parámetro 1

De la misma manera que para (2.1.1), la prueba t-Student permitirá contrastar la hipótesis nula H 0 : 1  0 , para saber si efectivamente estamos ante

una situación de comportamientos diferentes en relación al salario.

Gráficamente, la situación recogida en (2.1.5) se refleja en la figura 2.1.1. Ambas funciones presentan el mismo comportamiento con respecto a los
años de experiencia, tienen por tanto la misma pendiente, pero las ordenadas en el origen son distintas. El salario promedio de los distintos
profesionales difiere en si bien la tasa de cambio con respecto a los años de experiencia es la misma para las dos categorías,  2 Obsérvese que en la
figura se contemplan todas las posibilidades con relación a la influencia potencial del factor cualitativo, sexo, en nuestro caso.

Figura 2.1.1.Diagrama hipotético entre el salario anual y años de experiencia de un colectivo de


profesionales.

2.2. Especificación aditiva de las variables ficticias

En los dos ejemplos anteriores hemos visto que la variable ficticia considerada se ha incluido en la especificación del modelo en forma aditiva. La
especificación recogida en (2.1.4) nos permite conocer el salario promedio de una mujer y de un hombre con igual experiencia laboral, siendo

E    E  Yi 
YI
Di  1, X i   D  0, X   1
  i i

la diferencia salarial esperada entre ambos. En términos generales, para el modelo

Yi   0  1 X 1i  ...   j Di  ...   k X ki  u i

j  1,2,..., k i  1,2, ,..., n (2.2.1)

donde Di .denota una variable ficticia que refleja dos situaciones posibles, tal que

Si en la observación i-èsima se produce el estado A (2.2.2)


Di  
0
1
Si en la observación i--èsima se produce el estado B

Tendremos que

Y Y 
E( i
X 1 , X 2 ,..., Di 1,...,X k
)  E i
X X D  0,..., X    j (2.2.3)
 1, 2,..., i k

el parámetro  j de (2.2.1) medirá el efecto diferencial esperado en la variable dependiente del modelo entre las situaciones A y B, cuando

permanezcan constantes el resto de variables explicativas del mismo.

La estimación por MCO de (2.2.1) y, en concreto, la realización del contraste que nos permita saber si la variable cualitativa es relevante, o no, en la
especificación del modelo nos permitirá saber si, efectivamente, la muestra analizada presenta comportamientos diferenciadores.

Obsérvese que en el ejemplo propuesto hemos introducido una sola variable ficticia, puesto que el factor cualitativo considerado, sexo en este caso,
únicamente presenta dos categorías. Como criterio general diremos que cuando la variable cualitativa considerada presente m categorías, por ejemplo,
formación académica (sin estudios, formación media, formación universitaria,...), religión (católica, protestante, judía, budista,...), etc., se deben
introducir m  1 variables dicótomas. Si este criterio no se respetase, nos encontraríamos ante un problema de multicolinealidad perfecta, denominado,
en el contexto que nos ocupa, trampa de las variables ficticias. En efecto, la suma de las m columnas correspondientes a dichas variables ficticias sería
igual a la relativa al término independiente de (2.1.4).

Denominando X D a la matriz de regresores de (2.1.4) que incluye las variables ficticias

X D  D1 D2.. Dm 1X nx( m  k 1) (2.2.4)

la suma de las m primeras columnas será igual a la correspondiente al término independiente de (2.1.4). En consecuencia, el rango de la matriz
X `D X `D se reduciría, P( X D `X D )  m  k  1 y dejaría de ser una matriz regular. Esta situación podría corregirse excluyendo de la especificación

el término independiente, o bien considerando m  1 variables ficticias.


La asignación de los valores cero y uno, como ya hemos dicho más arriba, es arbitraria, si bien deberá ser suficientemente clara a la hora de interpretar
los resultados. La categoría a la que se le asigna el valor cero se denomina categoría base o de control. En términos genéricos el coeficiente que
acompaña a la variable ficticia,  j en (2.2.1), recibe el nombre de coeficiente diferencial de intercepto. Este coeficiente denota la diferencia en el

término independiente entre la categoría que recibe el valor uno con respecto a la categoría control.

2.3. Especificación multiplicativa de las variables ficticias

En los dos ejemplos mencionados hemos supuesto que las variables cualitativas únicamente afectaban al término independiente del modelo. En (2.1.4)
se supone, implícitamente, que el comportamiento de los salarios con respecto a la variable cuantitativa años de experiencia es igual para las dos
categorías consideradas. La posibilidad de contrastar esta afirmación puede realizarse mediante el uso de variables ficticias.

Consideremos de nuevo (2.1.4), esto es, el comportamiento salarial de los la distintos profesionales considerados en función del sexo y años de
experiencia. Esta situación podríamos analizarla, de forma alternativa, mediante la realización de regresiones separadas para los colectivos femenino

Yi   0  1 X i  u i i  1,2,..., n1 (2.3.1)

Y masculino

Yi   0   1 X i  u i i  1,2,..., n2 (2.3.2)

Siendo

n  n1  n2

la muestra integrada por ambos.

La estimación mínimo-cuadrática de (2.3.1) y (2.3.2) presenta las posibilidades recogidas en la figura 2.3.1.

La realización de la prueba de Chow permite conocer el comportamiento estructural del modelo. En otras palabras, permite saber si las estimaciones
recogidas en (2.3.1) y (2.3.2) permanecen, o no, estables cuando la muestra considerada, n1on2 , se altera. Ahora bien, de las cuatro situaciones

posibles, recogidas en la figura 2.3.1, este contraste únicamente permitirá Saber si las regresiones coinciden, situación (a), o difieren, sin concretar la
opción posible.

De forma alternativa, las posibilidades descritas pueden ser valoradas cuando se considere la muestra de tamaño n  n1  n2 y se especifique el

modelo que difiere de (2.1.4) puesto que incorpora una tercera variable explicativa, La variable ficticia se expresa, en este caso, de forma interactiva o
multiplicativa.

Yi   0  1 Di   2 X i   3 ( Di X i )  u i i  1,2,..., n
Figura 2.3.1. Funciones de salario hipotéticas de un colectivo de profesionales masculino y femenino.

Bajo el supuesto de que el término de perturbación aleatoria satisface las hipótesis básicas establecidas en el modelo de regresión, de (2.3.3) podremos
obtener el salario promedio.

Y
salario promedio de una mujer E ( i )  0  2 X i
Di  0, X i

Y
salario promedio de un hombre E ( i )  (  0  1 )  (  2   3 ) X i (2.3.4)
Di 1, X i

de ambos profesionales, donde

0  0

1   2

 0   0  1 (2.3.5)

 1   2  3

siendo equivalente la información obtenida al estimar (2.3.1) y (2.3.2) individualmente a la derivada de la estimación (2.3.3). En esta última
estimación, 1 denota el intercepto diferencial, y  3 la pendiente diferencial que muestra en qué medida difiere el salario de una mujer del de un

hombre.
La consideración de la variable ficticia en forma multiplicativa permite diferenciar las pendientes de los dos colectivos, de la misma manera que su
introducción en forma aditiva permite la distinción de los términos independientes de las dos categorías.

Nótese que (2.3.3) presenta claras ventajas con respecto a la estimación separada de cada subgrupo, dado que sólo se requiere la realización de una
estimación se puede contrastar un amplio conjunto de hipótesis (término independiente común, pendiente común, etc.) a través de la prueba t-Student o
de la prueba F-Snedecor. Esta técnica, además, incrementa los grados de libertad y mejora consecuentemente la precisión de las estimaciones.

Obsérvese que la diferencia de los dos salarios promedio esperados recogidos en (2.3.4)

Y  Y 
E  i   E  i   1   3 X i (2.3.6)
 Di 1, X i   Di 0, X i 

no coincide exactamente con (2.2.3) dado que la diferencia entre los salarios promedios de un hombre y una mujer no sólo se reduce a una diferencia
de nivel, sino que también afecta a las pendientes. La tasa de cambio con respecto a los años de experiencia no es la misma para las dos categorías
consideradas.

2.4. Otros usos de las variables ficticias

Las variables ficticias resultan de gran utilidad cuando se pretende recoger la incidencia de efectos fijos de carácter socio-demográfico, geográfico..., en
algunos elementos muéstrales. De especial relevancia se considera la determinación de las componentes estacionales en muestras en forma de serie
temporal, así como el contraste que permite determinar cambios en el comportamiento de la pendiente de la FRM.

2.4.1. Las variables ficticias en el análisis estacional


Cuando se trabaja con información en forma de serie temporal se hace necesaria la eliminación de su componente estacional, con objeto de centrar la
atención en los factores explicativos del modelo. La consideración de variables ficticias en la especificación del modelo permite diagnosticar dicho
problema.

Sea, por ejemplo, el comportamiento del gasto en turismo de las unidades familiares en función de la renta salarial. Este indicador experimenta un
crecimiento importante durante los meses comprendidos entre julio y septiembre como consecuencia de las vacaciones estivales. Asimismo, durante los
meses de primavera, especialmente en las fechas próximas a la Semana Santa, el gasto en turismo también se incrementa.

Si nuestro objetivo se centrase en la modelización de esta variable con objeto de realizar predicciones a partir de una serie trimestral, definiríamos las
variables ficticias D1, D2 yD3 en los siguientes términos,

D1i  1
0 Si la observación i-èsima corresponde al segundo trimestre

En caso contrario

D2i   1
0
si la observación i-èsima corresponde al tercer trimestre

en caso contrario

D3i   1
0
Si la observación i-èsima corresponde al cuarto trimestre

En caso contrario

constituyendo el primer trimestre del ejercicio la categoría base o control. Definidas las variables ficticias D1, D2 yD3 el modelo
GTi   0  1 Dit   2 D2i   3 D3i   4Yi  ui (2.4.1.2)

donde GTI . denota el gasto en turismo realizado por las unidades familiares en la observación i-ésima, e Yi , la renta salarial, correspondiente a la

misma observación, permitirá analizar las variaciones estacionales que se pueden producir en el ejemplo considerado. El efecto estacional diferencial
con respecto a la categoría base será recogido en (2.4.1.2) por los parámetros  j j  1,2,3.

2.4.2 Regresión lineal por tramos


La figura 2.4.2.1 recoge la demanda de crédito hipotecario en función del tipo de interés de mercado. En la información muestral recogida se observa
que la demanda de este tipo de crédito presenta dos estructuras diferenciadas. Para tipos de interés inferiores a X * la estructura de la demanda se
corresponde con el segmento I de dicha figura, y para valores superiores al tipo de interés señalado, con el segundo tramo. El ejemplo propuesto
refleja una situación en la que se produce un cambio en la pendiente del modelo, regresión lineal por tramos, recogida en los dos segmentos
considerados. La demanda de crédito hipotecario experimenta un punto de inflexión para un tipo de interés igual a x *

La incorporación de variables ficticias en la especificación del modelo permitirá la consideración y modelización econométrica de situaciones semejantes
a la referida.

Sea

Yi   0  1 X i   2 ( X i  X *) DI  ui i  1,2,..., n

donde Y denota la demanda de crédito hipotecario, X el tipo de interés de mercado, X * el tipo de interés considerado como objetivo, y Di una

variable ficticia que tomará el valor uno si X I  X * , y cero cuando X i  X * el modelo de regresión considerado.

Figura 2.42.1. Estructura hipotética de la demanda de crédito hipotecario

Suponiendo que se satisfacen los supuestos del modelo de regresión, y en concreto que E (ui )  0

Yi
E( )   0  1 X i (2.4.2.2)
Di 0, X I , x X *

denotará la demanda esperada de crédito hipotecario para tipos de interés inferiores a X * y

Y 
E i   (  0   2 X *)  1   2X i (2.4.2.3)
 Di  1, X i , X *
la demanda promedio para tipos de interés superiores a X * . Obsérvese que 2 recoge la diferencia entre las pendientes de los dos tramos
considerados, además de la ordenada en el origen. En consecuencia, el contraste de hipótesis relativo al posible punto de inflexión en la FRM se
llevaría a cabo mediante la prueba t-Student, que contrastaría la hipótesis nula H 0 :  2  0

3. VARIABLES ENDÓGENAS CUALITATIVAS


¿Qué ocurre cuando se pretende modelizar un fenómeno económico mediante el análisis de regresión para explicar un suceso de naturaleza
cualitativa?

En el contexto económico, normalmente la información muestral se obtiene a través de la realización de encuestas. En muchas ocasiones, dicha
información se relaciona con aspectos de carácter cualitativo relativos al comportamiento. Los individuos trabajan o están desempleados, las unidades
familiares disponen de vivienda propia o no, las empresas realizan innovaciones o no, etc.

Desde un punto de vista formal, estas situaciones se abordan mediante la construcción de modelos en los que la variable dependiente tiene naturaleza
cualitativa, conocidos como modelos de elección discreta. Los modelos de este tipo más utilizados son los modelos de probabilidad lineal, logit y probit,
respectivamente.

3.1. Modelo de probabilidad lineal

Los modelos de probabilidad lineal (MPL) expresan la variable dicotómica dependiente

Yi  
1
0
si se elige la primera opción

En caso contrario

como una función de las variables explicativas del modelo de regresión

Yii   0  1 X 1i   2 X 2i     k X ki  u i i  1,2, , n (3.1.2)

donde u denota el término de perturbación aleatoria que satisface los supuestos básicos establecidos.

Dado que la variable dependiente únicamente toma los valores 0 y 1, la interpretación de los coeficientes de regresión de (3.1.2) no se puede realizar en
los términos habituales.

A partir de (3.1.2) teniendo en cuenta que E u i   0 i  1, , n y

Yi  1
E      X   X
 X i  X k  0 1 1 k k

la probabilidad de éxito, esto es, Yi  1

Y 1
Pi  E  i      X   X
X 1  X k 
(3.1.3)

0 1 1 k k

Coincidirá con el valor esperado de la variable dependiente. Del análisis de (3.1.3) se desprende que dicha probabilidad se puede expresar como una
función lineal de los regresores, modelo de probabilidad lineal (MPL). Los coeficientes de regresión recogerán el cambio en la probabilidad de éxito

cuando la variable explicativa Xj j  1, , k se incrementa unitariamente permaneciendo el resto inalteradas. Dicho modelo permitirá analizar
el efecto de cada uno de los regresores sobre la variable a explicar, variable de naturaleza cualitativa. El efecto marginal de cada regresor permanecerá
constantemente a lo largo del tiempo.

Teniendo en cuenta (3.1.1), (3.1.2) se interpretará en términos probabilísticos. La probabilidad de que se elija la primera opción será igual a Pi ,
mientras que la probabilidad de que dicha opción no acontezca será igual a 1  Pi .

Yi PYi 

1 Pi
0 1  Pi

La estimación de (3.1.2) se realizará por MCO

Yˆi  ˆ0  ˆ1 X 1i  ˆ2 X 2i    ˆk X ki i  1,2, , n (3.1.4)

donde Yˆi denotará la probabilidad estimada de éxito, ̂ 0 dicha probabilidad para la predicción X 1    X k  0 y ˆ j j  1, , k el

cambio experimentado por la probabilidad de éxito estimada ante un incremento unitario de la variable explicativa X j j  1, , k permaneciendo
el resto inalteradas.

Sin embargo, la estimación por MCO de (3.1.2) presenta algunos inconvenientes:

1. El término aleatorio no satisface la hipótesis de normalidad, dado que sigue una distribución de probabilidad binomial. No obstante, para
tamaños de muestra suficientemente grandes la distribución binomial se aproxima a la normal, puesto que los estimadores mínimo-
cuadráticos seguirán siendo insesgados.

2. La variable aleatoria es heteroscedástica, lo cual significa que los estimadores mínimo-cuadráticos dejarán de ser eficientes, haciéndose
imprescindible una transformación del modelo que permita recuperar su salud en dicho aspecto.

3.  
La no adecuación de las predicciones al intervalo 0,1 constituye el problema más serio de (3.1.2). debe tenerse en cuenta que dichas

predicciones se corresponden con las probabilidades de elección de una alternativa u otra.

2
4. El coeficiente de determinación R carece de la representatividad habitual. Para un valor concreto del regresor X j teniendo en cuenta
(3.1.1) no se espera que un MPL se ajuste satisfactoriamente a la dispersión derivada.

3.2 Modelo probit

A partir de las dificultades señaladas en los MPL, el modelo de naturaleza probabilística a utilizar deberá tener en cuenta, entre otros aspectos, la

existencia de una relación no lineal entre dicha probabilidad, Pi , y cada uno de los regresores X j , además de la adecuación de las predicciones al

 
intervalo 0,1 .

Para explicar el comportamiento de una variable dependiente dicotómica es preciso utilizar una función de distribución de probabilidad. El modelo de
estimación derivado de una distribución acumulativa normal se denomina modelo probit o normit.

El modelo probit relaciona a través de una función no lineal


1 
X 1i  X ki  0 1   k   X   Z
i i

la variable dependiente Y con las variables explicativas, X j j  1,2, , k

s2
1
Yi   Zi
 e dS  u i
2
(3.2.2)
2 
1
2

donde Z i constituye el elemento distintivo y S denota una variable de integración con media cero y varianza unitaria.

Al igual que en los MPL, el término de perturbación aleatoria es heteroscedástico. Las pruebas derivadas del proceso de inferencia estadística se
podrán realizar en los términos usuales, teniendo en cuenta que las conclusiones obtenidas únicamente serán válidas en términos asintóticos. El
2
coeficiente de determinación R requiere en este modelo alguna matización como medida de la bondad del ajuste.

3.3 Modelo logit

Cuando la función de distribución elegida sea logística hablaremos de modelo logit. Dado que los resultados que proporcionan la distribución normal y
logística son similares, este modelo se propone como una alternativa más sencilla al probit.

El modelo logit relaciona la variable dependiente Y , que puede tomar los valores 0 y 1 , con las variables explicativas X 1 , X 2 , , X k a través de
una función logística,

1
Yi    0  1 X 1i   2 X 2 i   k X ki 
 ui  i  1, , n (3.3.1)
1 e
donde u denota el término de perturbación aleatoria que satisface la hipótesis de normalidad.

De forma paralela a lo analizado en el MPL, la probabilidad de éxito para (3.3.1)

Y 1
Pi  E  i  1
    0  1 X 1i   k X ki 
i (3.3.2)
 X 1  X k  1 e
que alternativamente se puede expresar como

i (3.3.3)

donde

Z i   0  1 X 1i     k X ki i

recoge la distribución logística frecuentemente utilizada en el estudio de fenómenos relacionados con el crecimiento demográfico e indicadores de
ámbito económico.

Si bien en (3.3.3) se han obviado las dificultades señaladas en los MPL dado que Pi  0,1 cuando Z i   y ésta no está relacionada
linealmente con los regresores X 1 , X 2 , , X k , la aplicación del método mínimo-cuadrático para estimar los coeficientes de regresión  j

 j  0,1, , k no será posible al vulnerarse la hipótesis de linealidad en variables y parámetros.


Teniendo en cuenta que Pi denota la probabilidad de éxito (poseer vivienda, participar en un proceso electoral, mercado de trabajo, etc.,

1 Pi
1  Pi  denotará la correspondiente probabilidad de no éxito (fracaso) y la razón de probabilidades a favor de la opción de éxito
1 e Zi
1  Pi
(poseer una vivienda en propiedad en relación a no poseerla, participar en el mercado de trabajo en relación a no participar, etc.) que alternativamente
en términos logarítmicos:

 P 
Li  In i   Z i   0  1 X 1i     k X ki (3.3.4)
 1  Pi 

se corresponde con una función que satisface la hipótesis de linealidad en su doble acepción. La expresión obtenida, Li , recibe la denominación de
logit.

Del análisis de (3.3.4) se desprende que logit no está acotado, si bien Pi  0,1. Se observa además que la probabilidad de éxito, y no éxito, no es
lineal con respecto a los regresores. Los valores de Li , negativos o positivos, se interpretan sintéticamente teniendo en cuenta que (3.3.4) intensifica
su carácter negativo (o positivo) cuando la razón de probabilidades se reduce de 1 a 0 (o aumenta de 1 a infinito).

La probabilidad de éxito (o no éxito) se calculará a partir de (3.3.3) una vez conocidos los parámetros de Z i para lo cual será preciso conocer, además
de los valores correspondientes al total de regresores, los relativos a Li .

 P 
Li  In i   Z i   0  1 X 1i     k X ki  u i i (3.3.5)
 1  Pi 

donde, u i denota el término de perturbación aleatoria. Teniendo en cuenta que la información muestral puede presentarse a nivel individual o agregado,
la estimación de (3.3.5) se abordará mediante el método de máxima verosimilitud (MV), en el primer caso y MCO en el segundo 1. Para poder aplicar
dicha técnica será preciso calcular la frecuencia relativa y considerarla como una estimación de la auténtica probabilidad de éxito correspondiente a
cada regresor

 Pˆ 
Lˆ i  In i  i (3.3.6)
 1  Pˆi 

donde,

ni
Pˆi  (3.3.7)
Ni

denotando N i y n i el número de observaciones correspondientes a cada regresor y las correspondientes ala situación de éxito, respectivamente. En
consecuencia

1
Si el número de observaciones es suficientemente grande y las observaciones de cada clase para cada regresor estás distribuidas de forma estadísticamente independiente como una
variable binomial, el término aleatorio ui será heteroscedástico con la varianza igual a 1 .
N i Pi 1  P 
L̂i   0  1 X 1i     k X ki  u i i (3.3.8)

permitirá, a partir de la técnica mínimo-cuadrática, estimar los coeficientes de regresión ˆ j j  0,1, , k permaneciendo el resto inalterados.

En otras palabras, la razón de probabilidades a favor de la opción de éxito ante un incremento unitario del regresor X j  j  1, , k en
condiciones caeteris paribus. La ordenada en el origen recogerá el valor del logaritmo de la razón de probabilidades a favor de la opción de éxito
cuando los regresores tomen simultáneamente el valor cero2.

Como rasgo distintivo con respecto al modelo de regresión, se debe señalar que la predicción de la probabilidad de cada subgrupo de individuos
coincidirá con la observada en dicho subgrupo si la estimación se realiza a través del método de máxima verosimilitud. Asimismo, la bondad del ajuste
2
medida a través del coeficiente de determinación R presentará algunos inconvenientes.

La estimación mínimo-cuadrática

Yˆi  203,9679  15,2867 Di  14,3233 X i

t  : 10,8032  1,6035  8,9249 

R 2  0,9092
R 2  0,8890 (6.I.1)
F   45,0881

nos permite afirmar que las variaciones experimentadas por la variable salario se explican de forma satisfactoria a través de la FRM obtenida, dado que

el coeficiente de determinación ajustado R 2  0,8890 es alto. Los resultados obtenidos ponen de manifiesto, de forma explícita, la relevancia de la
variable explicativa años de experiencia en la especificación del modelo t 

 8,9249 . Con respecto al factor cualitativo considerado en este
ejercicio, no podemos hacer una afirmación demasiado concluyente. Tal y como se ha especificado el modelo, el coeficiente de regresión  1 recoge,
según (2.2.3), el efecto diferencial esperado ene l comportamiento de los salarios entre los profesionales de sexo masculino y femenino,
respectivamente. Dicho efecto diferencial, de ser estadísticamente significativo, afectaría únicamente al término independiente del salario promedio de
ambos profesionales. De la estimación realizada se obtiene un estadístico t-Student para el mencionado coeficiente de regresión t  1,6035 bajo la
hipótesis nula H 0 : 1  0 . Para un nivel de significatividad   0,05 , la mecánica de la prueba t-Student nos llevaría a no rechazar la hipótesis
nula propuesta y afirmar, en consecuencia, la no relevancia estadística de este factor cualitativo en la especificación del modelo, así como el
comportamiento no diferenciador en el cálculo de los salarios promedios, tanto de hombres como de mujeres. Sin embargo, si se considera un nivel de
significatividad   0,20 , el resultado obtenido tendría una interpretación distinta de la que se acababa de exponer3.

La interpretación de los resultados sería también ligeramente distinta si planteásemos el contraste de hipótesis unilateral

2
Su interpretación, como se ha visto en otros casos, podría carecer de sentido económico claro.

3
Habitualmente, este valor de  se considera alto. Normalmente se trabaja con valores comprendidos entre el uno y el diez por ciento.
 H 0 : 1  0

 H 1 : 1  0

dado que, en este caso, el valor del estadístico prueba particularizado bajo la hipótesis nula, t   1,6035 , es mayor que el valor crítico
correspondiente a una distribución t-Student para un nivel de significación   0,10 y n  k  1  9 grados de libertad, t 0 ,1,9  1,383 . De
acuerdo con la mecánica del contraste, rechazaríamos la hipótesis nula, y ello significaría que el salario promedio de los varones es efectivamente
superior al de las mujeres, de acuerdo con (2.1.3).

La consideración de la variable ficticia, en este ejemplo, en forma interactiva o multiplicativa, nos permite obtener la siguiente estimación mínimo-
cuadrática

Yˆi  222,647  58,9903 Di  12,6470 X i  6,2335 Di X i

t  : 11,7741  1,5378  1,9830 

R 2  0,9391
R 2  0,9163 (6.I.2)
F   41,1637

del modelo de regresión

Yi   0  1 D1   2 X i   3 Di X i  ui i  1,2,,12

El análisis de los resultados nos permite acercarnos algo más al comportamiento salarial del colectivo objeto de análisis. Desde un punto de vista
estrictamente econométrico, diremos que la regresión ha mejorado al incorporar una nueva variable explicativa, el coeficiente de determinación ajustado

ha crecido sustancialmente, R 2  0,9163 . La variable explicativa años de experiencia continúa siendo un factor relevante en la especificación del
modelo. Con respecto al factor cualitativo considerado, debemos realizar algunas matizaciones. Dado el signo negativo del coeficiente de regresión
asociado a la variable sexo, diremos que la variable dependiente evoluciona en sentido inversamente porcional con respecto a este factor; los hombres
tendrían, pues, un menor salario. De acuerdo con la prueba t-Student, esta variable no resulta relevante en la especificación del modelo

t   1,5378 . La realización de los contrastes

 H 0 : 1  0

 H 1 : 1  0

 H 0 : 1  0

 H 1 : 1  0

permite corroborar este resultado para un nivel de confianza del 95%, dado que

t   1,5378  t 0 , 05,9  1,833


y

t   1,5378  t 0 , 05,9  1,833

respectivamente. Ello significa que el salario promedio según (2.3.4) tendrá el mismo término independiente.

La variable ficticia en forma multiplicativa es relevante estadísticamente para un nivel de significatividad   0,1 . De acuerdo con (2.3.4), ello
significa que los salarios promedios de hombres y mujeres diferirán en la pendiente, únicamente  3 en (2.3.6) es estadísticamente significativo. El
contraste unilateral

H 0 :  3  0

 H1 : 3  0

de acuerdo con la prueba t-Student nos permite afirmar que el colectivo beneficiado con un mayor salario promedio

t   1,9830  t0 ,05,9  1,833


será en este caso el masculino.

A modo de síntesis, diremos que esta segunda regresión nos ha permitido, por una parte, clarificar el papel de la variable sexo introducida en términos
aditivos en ambas regresiones. La especificación del modelo ha mejorado con la incorporación de la variable ficticia en forma multiplicativa, resultando
dicho factor relevante desde una perspectiva estadística. El comportamiento del salario presenta pautas diferenciadoras para las dos categorías que
recoge la variable ficticia sexo. Inicialmente, el salario promedio es el mismo para todo el colectivo, pero a medida que el profesional consolida su
posición en el mercado de trabajo, el reconocimiento salarial pondera positivamente al colectivo masculino de acuerdo con (2.3.6).

MODELOS DE REGRESIÓNCON VARIABLES DICÓTOMAS


En el capítulo 1 se analizó brevemente los cuatro tipos de variables que por lo general uno se encuentra en el análisis empírico. Estas son: de escala
de razón, de escala de intervalo, de escala ordinal y de escala nominal. Los tipos de variables que se han encontrado en los capítulos anteriores
fueron en esencia de escala de razón. Pero esto no debe dar la impresión de que los modelos de regresión pueden sólo tratar con variables de escala
de razón. Los modelos de regresión también pueden trabajar con los otros tipos de variables que se acaban de mencionar. En este capítulo se
considerarán modelos que tal vez no sólo tengan variables de escala de razón, sino también variables de escala nominal, variables categóricas,
variables cualitativas, o variables dicótomas.1

9.1 NATURALEZA DE LAS VARIABLES DICÓTOMAS


En el análisis de regresión, la variable dependiente o regresada, está influida frecuentemente no sólo por variables de razón de escala (por ejemplo:
ingreso, producción, precios, costos, estatura y temperatura), sino también por variables que son esencialmente cualitativas por naturaleza, o de escala
nominal (por ejemplo, sexo, raza, color, religión, nacionalidad, región geográfica, trastornos políticos y afiliación a un partido). Por ejemplo, manteniendo
los demás factores constantes, se ha encontrado que las trabajadoras ganan menos que sus colegas masculinos y que las personas de color ganan

1
Se analizaran las variables de escala ordinal en el capítulo 15.
menos que las blancas.2 Este patrón puede resultar de la discriminación sexual o racial, pero cualquiera que sea la razón, las variables cualitativas tales
como sexo y raza sí influyen sobre la variable dependiente y es claro que deben ser incluidas dentro de las explicativas, o regresaras.

Puesto que tales variables usualmente indican la presencia o ausencia de una "cualidad" o atributo, tal como femenino o masculino, negro o blanco,
católico o no católico, demócrata o republicano son variables de escala nominal esencialmente. Se podrían "cuantificar" tales atributos mediante la
elaboración de variables artificiales que tomaran los valores O y l, donde 1 indicara la presencia (o la posesión) de ese atributo y O la ausencia de tal
atributo. Por ejemplo, ello puede indicar que una persona es de sexo masculino y O puede designar una de sexo femenino; o el 1 puede indicar que una
persona se ha graduado en la universidad y Oque no lo ha hecho y así sucesivamente. Las variables que adquieren tales valores O y 1 se llaman
variables dicótomas.3 Tales variables son, por tanto, esencialmente un recurso para clasificar datos en categorías mutuamente excluyentes, como
masculino o femenino.

Las variables dicótomas pueden utilizarse en los modelos de regresión en forma tan fácil como las variables cuantitativas. De hecho, un modelo de
regresión puede contener variables explicativas que son exclusivamente dicótomas, o cualitativas, por naturaleza. Tales modelos se denominan
modelos de análisis de varianza (ANOVA)4.

9.2 MODELOS ANOVA


Para ilustrar los modelos ANOVA, considérese el siguiente ejemplo.

EJEMPLO 9.1

SALARIOS DE LOS MAESTROS DE ESCUELAS PÚBLICAS POR REGIÓN GEOGRÁFICA

La tabla 9.1 proporciona los datos sobre salarios (en dólares) de los maestros de escuelas públicas en 50 estados y el Distrito de Columbia para el año
de 1985. Las 51 áreas se clasifican en tres regiones geográficas: 1) Noreste y Norte-centro (21 estados en total); 2) Sur (17 estados en total), y 3) Oeste
(13 estados en total). Por el momento, no hay que preocuparse por el formato de la tabla y de los otros datos suministrados.

Supóngase que se desea averiguar si el salario promedio anual (SPA) de los maestros de escuelas públicas difieren entre las tres áreas geográficas de
Estados Unidos. Si se toma el promedio aritmético simple de los salarios promedio de los maestros de las tres regiones, se descubre que esos
promedios para las tres regiones son los siguientes: $24424.14 (Noreste y Norte-centro), $22894 (Sur) y $26158.62 (Oeste) Esos números difieren entre
sí, pero, ¿son estadísticamente distintos entre sí?

Existen varias técnicas estadísticas para comparar dos o más valores medios, lo cual por lo general se conoce como análisis de varianza.5 Pero se
puede lograr el mismo objetivo dentro del ámbito del análisis de regresión.

TABLA 9.1 SALARIO PROMEDIO DE LOS MAESTROS DE ESCUELAS PÚBLICAS, POR ESTADO,

2
Para una revisión de la evidencia sobre este tema, consúltese Bruce E. Kaufman y Julie L. Hotchkiss, The Economics of Labor Market, 5a. ed., Dryden Press, Nueva York, 2000.

3 No es absolutamente esencial que las variables dicótomas adquieran los valores O y 1. El par (O, 1) puede ser transformado en cualquier otro par mediante una función lineal tal que
Z  a  bD(b  0) , donde a y b son constantes y donde D = 1 o 0. Cuando D = 1, se tiene Z  a  b y cuando D = O, se tiene Z  a . Así, el par (0, 1) se convierte en
(a, a  b) . Por ejemplo, si a  1 y b  2 , las variables dicótomas serán (1,3). Esta expresión muestra que las variables cualitativas o dicótomas no tienen una escala natural de
medición. Esto se debe a que se describen como variable de escala nominal.

4Los modelos ANOVA se utilizan para evaluar la significancia estadística de la relación entre una regresada cuantitativa y regresoras cualitativas o dicotomas. A menudo se emplean para
comparar las diferencias entre los valores medios de dos o más grupos o categorías, y por tanto son mas generales que la prueba t, la cual, se utiliza para comparar las medias de solo dos
grupos o categorías.

5 Para un tratamiento de las aplicaciones, véase Jhon Fox, Applied Regresión Análisis, Linear Models, and Related Methods, Sage Publications, 1997, Cap. 8
1986

Salario Gasto D2 D3 Salario Gasto D2 D3

19 583 3 346 1 0 22 795 3 366 0 1

20 263 3 114 1 0 21 570 2 920 0 1

20 325 3 554 1 0 22 080 2 980 0 1

26 800 4 642 1 0 22 250 3 731 0 1

29 470 4 669 1 0 20 940 2 853 0 1

26 610 4 888 1 0 21 800 2 533 0 1

30 678 5 710 1 0 22 934 2 729 0 1

27 170 5 536 1 0 18 443 2 305 0 1

25 853 4 168 1 0 19 538 2 642 0 1

24 500 3 547 1 0 20 460 3 124 0 1

24 274 3 159 1 0 21 419 2 752 0 1

27 170 3 621 1 0 25 160 3 429 0 1

30 168 3 782 1 0 22 482 3 947 0 0

26 525 4 247 1 0 20 969 2 509 0 0

27 360 3 982 1 0 27 224 5 440 0 0

21 690 3 568 1 0 25 892 4 042 0 0

21 974 3 155 1 0 22 644 3 402 0 0

20 816 3 059 1 0 24 640 2 829 0 0

18 095 2 967 1 0 22 341 2 297 0 0

20 939 3 285 1 0 25 610 2 932 0 0

22 644 3 914 1 0 26 015 3 705 0 0


24 624 4 517 0 1 25 788 4 123 0 0

27 186 4 349 0 1 29 132 3 608 0 0

33 990 5 020 0 1 41 480 8 349 0 0

23 382 3 594 0 1 25 845 3766 0 0

20 627 2 821 0 1

NOTA: D2  1 para estados del Noreste y Norte-centro; 0 de otra región.

D3  1 para estados del Sur; 0 de otra región.

Fuente: Nacional Education Association, como se informó en Alburquerque Tribune 7 de noviembre de


1986.

Para ver lo anterior, considérese el siguiente modelo:

Yi  1   2 D2i   3i D3i  ui (9.2.1)

Donde Yi = salario (promedio) de los maestros de escuelas públicas en el estado i

D2 i = si el estado está en el Noreste o Norte-centro

= O para otra región del país

D3i = 1 si el estado es del Sur

= O para otra región del país

Obsérvese que en (9.2.1) es como cualquier modelo de regresión múltiple que se haya estudiado antes, excepto que en vez de regresaras cuantitativas,
se tienen sólo variables cualitativas o dicótomas, las cuales toman el valor de 1 si la observación pertenece a una categoría particular, y O si no
pertenece a esa categoría o grupo. De aquí en adelante, se designarán a todas las variables dicótomas con la letra O. La tabla 9.1 muestra las variables
dicótomas así definidas.

¿Qué expresa el modelo (9.2.1)? Considerando que el término de error satisface las suposiciones usuales del MCO, al calcular la esperanza de (9.2.1)
en ambos lados, se obtiene:

Salario medio de los maestros de escuelas públicas en la región Noreste y Norte-centro:

E (Yi D2i  1, D3i  0)  1   2 (9.2.2)

Precaución en el uso de las variables dicótomas


Aunque son fáciles de añadir a los modelos de regresión, las variables dicótomas se deben utilizar con cuidado. En particular, considérense los
siguientes aspectos:

1. En el ejemplo 9.1, para diferenciar las tres regiones, se utilizaron sólo dos variables dicótomas, D2 y D3 . ¿Por qué no se emplearon tres

variables dicótomas para distinguir las tres regiones? Supóngase que se hace precisamente eso y que se expresa el modelo (9.2.1) como:

Yi    1 D1i   2 D2i   3 D3i  u i (9.2.6)

donde D1i toma el valor de 1 para los estados del Oeste, y 0 para los de otras regiones. Por tanto, ahora se tiene una variable dicótoma para cada una
de las tres regiones geográficas. Utilizando los datos de la tabla 9.1, si se fuese a hacer la regresión de (9.2.6), la computadora “se negaría” a llevarla a
cabo (inténtelo hacer).6 ¿Por qué? La razón estriba en que cuando se definió (9.2.6) —en donde se tiene una variable dicótoma para cada categoría o
grupo, así como una intersección— se presenta un caso de colinealidad perfecta; es decir, existe una relación lineal exacta entre las variables. ¿Por
qué? Refiérase a la tabla 9.1. Imagínese que ahora se añade la columna D1 , que toma el valor de 1 siempre que un estado es del Oeste, y 0 en

cualquier otro caso. Ahora bien, si se suman las tres columnas D horizontalmente, se obtendrá una columna que contiene 51 números 1. Pero ya que el
valor de la intersección  es (implícitamente) 1 para cada observación, habrá una columna que también contiene 51 números 1. En otras palabras, la
suma de las tres columnas D simplemente reproducirá la columna intersección, lo cual provoca una linealidad perfecta. En este caso la estimación del
modelo (9.2.6) es imposible.

El mensajes es: si una variable cualitativa tiene m categorías, sólo hay que agregar (m — 1) variables dicótomas. En el ejemplo anterior, puesto
que la variable cualitativa “región” tiene tres categorías, se introducen sólo dos variables dicótomas. Si no se respeta esta regla, se provocará lo que se
conoce como trampa de la variable dicótoma; es decir, se tendrá una situación de perfecta colinealidad o perfecta multicolinealidad, si hay más de
una relación exacta entre las variables. Esta regla también se aplica si se tiene más de una variable cualitativa en el modelo, de lo cual se presenta un
ejemplo más adelante. Así pues, se tiene que volver a enunciar la regla anterior como: para cada regresora cualitativa, el número de variables
dicótomas introducidas debe ser una menos que las categorías de esa variable. Entonces, si en el ejemplo 9.1 se disponía de información
respecto al género de los profesores, se hubiera utilizado una variable dicótoma adicional (pero no dos), que tomara el valor de 1 para mujer, y de 0
para hombre o viceversa.

2. La categoría a la cual no se asigna variable dicótoma se conoce como categoría base, de comparación, de control, de referencia u omitida. Además,
todas las comparaciones se hacen respecto a la categoría de comparación.

3. El valor de la intersección 1 representa el valor medio de la categoría de comparación. En el ejemplo 9.1, dicha categoría es la región Oeste. En

consecuencia, para la regresión (9.2.5), el valor de la intersección de casi 26 159, representa el salario medio de los maestros para los estados del
Oeste.

4. Los coeficientes anexos a las variables dicótomas en (9.2.1) se conocen como coeficientes de la intersección diferencial, debido a que indican en
qué medida el valor de la intersección que se le asigna 1 varía del coeficiente de intersección de la categoría de comparación. Por ejemplo, en (9.2.5) el
valor aproximado de —1 734 señala que el salario promedio de los maestros de la región Noreste y Norte-centro es menor por aproximadamente $1
734 que el salario medio de casi $26 159 perteneciente a la categoría de comparación, en este caso el Oeste.

5. Si una variable cualitativa tiene más de una categoría, como en el ejemplo ilustrativo, la elección de la categoría de comparación se deja al criterio
estricto del investigador. A veces dicha elección está dictada por el problema particular que se está trabajando. Para el ejemplo ilustrativo, se podría
haber escogido el Sur como la categoría de comparación. En ese caso, los resultados de la regresión dados en (9.2.5) cambiarán, ya que ahora las

6
En realidad, se tendría un mensaje diciendo que la matriz es singular
comparaciones se hacen respecto al Sur. Por supuesto, lo anterior no cambia la conclusión general del ejemplo (¿por qué?). En este caso, el valor de la
intersección será de casi $22 894, lo cual es el salario medio de los maestros del Sur.

6. Se hizo una advertencia respecto a la trampa de la variable dicótoma. Existe una forma de eludirla al introducir tantas variables dicótomas como
número de categorías tenga dicha variable, siempre y cuando no se introduzca la intersección en dicho modelo. Así pues, si se elimina el término
intersección de (9.2.6) y se considera el siguiente modelo no se caerá en la trampa de la variable dicótoma, ya que no existe colinealidad perfecta. Pero
se debe asegurar de que cuando se haga esa regresión, se utilice la opción “no intersección” del software.

Yi  1 D1i   2 D2i   3 D3i  ui (9.2.7)

¿Cómo se interpreta la regresión (9.2.7)? Si se toma la esperanza de (9.2.7), se tendrá que:

1  salario medio de los maestros en el Oeste

 2  salario medio de los maestros en el Noreste y Norte-centro

 3  salario medio de los maestros en el Sur

En otras palabras, con la intersección eliminada y al permitir una variable dicótoma para cada categoría, se obtienen de manera directa los valores
medios de las distintas categorías. Los resultados de (9.2.7) para el ejemplo ilustrativo son los siguientes:

Yˆi  26158 .62 D1i  24424 .14 D2i  22894 D3i

ee  1128 .523 887 .9170 986 .8645  (9.2.8)

t  23 .1795  * 27 .5072  * 23 .1987  *

R 2  0.0901

Donde* indica que los valores p de estas razones t son muy pequeños.

Como se puede observar, los coeficientes de las variables dicótomas proporcionan de manera directa los valores medios (de los salarios) para las tres
regiones: Oeste, Noreste y Norte-centro, y Sur.

7. ¿Cuál de los siguientes métodos es el mejor para introducir una variable dicótoma: 1) agregar una variable dicótoma para cada categoría y omitir el
término de intersección, o 2) incluir el término de intersección y añadir sólo (m — 1) variables, donde m es el número de categorías de la variable
dicótoma? Como Kennedy señala:

La mayoría de los investigadores piensan que es más conveniente la ecuación con una intersección porque les permite enfrentar de manera más
sencilla las cuestiones que a menudo les interesan más; a saber, si la categorización es importante o no lo es, y si lo fuera en qué medida sería. Si
la categorización fuese importante, a qué grado los estimados de los coeficientes de las variables dicótomas la miden directamente. Probar si la
categorización es o no es relevante puede llevarse a cabo mediante la prueba t de un coeficiente de variable dicótoma, respecto a cero (o, para
hacerlo de forma más general, una prueba F sobre el conjunto apropiado de los coeficientes estimados de las variables dicótomas).7

7
Peter Kennedy, A Guide to Econometrics, 4a. ed., MIT Press, Cambridge, Mass., 1998, p. 223.
9.3 MODELOS ANOVA CON DOS VARIABLES CUALITATIVAS
En la sección anterior se estudió un modelo ANOVA con una variable cualitativa de tres categorías. En esta sección se analizará otro modelo ANOVA,
pero con dos variables cualitativas, además de que se destacarán otros aspectos adicionales sobre este tipo de variables.

EJEMPLO 9.2
Yˆi  8.8148  1.0997D2i  1.6729D3i .
SALARIOS POR HORA EN RELACIÓN CON EL ESTADO CIVIL Y LA REGIÓN DE ee  0.40150.46420.4854 (9.3.1)
t  21.95282.3688 3.4462
RESIDENCIA
0.0000 * 0.0182  * 0.0006 
De una muestra de 528 personas tomada en mayo de 1985, se obtuvieron los siguientes
resultados de regresión8 R 2  0.0322

donde Y  salario por hora ($)

D2  estado civil; 1 si es caso, 0 en otro caso

D3  región de residencia; 1 si es del Sur, 0 en otro caso

y * denota os valores p.

En este ejemplo se tienen dos regresoras cualitativas, cada una con dos categorías.
Por tanto, se asignó una variable dicótoma para cada categoría.

¿Cuál es la categoría de comparación en este caso? Obviamente, es los no casados y


con residencia fuera del Sur. En otras palabras, las personas no casadas y que no viven
en el sur forman la categoría omitida. Por consiguiente, todas las comparaciones se
establecen respecto a este grupo. El salario medio por hora en esta comparación es de
casi $8.81. Respecto a lo anterior, el salario promedio por hora de los que están casados
es mayor por casi $1.10, lo cual da un salario promedio real de $9.91 (= 8.81 + 1.10). En
contraste, para los que viven en el Sur, su salario promedio por hora es menor por casi
$1 .67, lo cual da un salario promedio por hora de $7.14.

¿Los salarios promedio por hora anteriores son estadísticamente distintos, en


comparación con la categoría base? Sí lo son, ya que todas las intersecciones
diferenciales son estadísticamente significativas, pues sus valores p son muy bajos.

El punto que debe notarse en este ejemplo es el siguiente: una vez que se va más allá de
una variable cualitativa, se tiene que poner mucha atención a la categoría que se está
considerando como la categoría base, ya que todas las comparaciones se llevan a cabo
respecto a dicha categoría. Esto resulta especialmente importante cuando se tienen
varias regresoras cualitativas y cada una de ellas presenta diversas categorías. A estas
alturas, el mecanismo de introducción de diversas variables cualitativas debe ser claro

8
Los datos se recopilaron del disco de datos de la obra de Arthur S. Goldberger, Introductory Econometrics, Harvard University Press, Cambridge, Mass., 1998. Ya se tomaron en cuenta
esos datos en el capítulo 2.
para el lector.

9.4 REGRESIÓN CON UNA MEZCLA DE REGRESORAS CUALITATIVAS Y CUANTITATIVAS: LOS MODELOS ANCOVA
Los modelos ANOVA del tipo que se analizó en las dos secciones anteriores, aunque son comunes en áreas como la sociología, la psicología, la
educación y la investigación de mercados, no son tan frecuentes en la economía. Por lo general, en la mayor parte de la investigación económica, un
modelo de regresión contiene diversas variables explicativas que son cuantitativas, y otras que son cualitativas. Los modelos de regresión que muestran
una mezcla de variables cuantitativas y cualitativas se llaman modelos de análisis de covarianza (ANCOVA). Tales modelos representan una
generalización de los modelos ANOVA en el sentido que proporcionan un método para controlar estadísticamente los efectos de las regresoras
cuantitativas —llamadas covariantes o variables de control— en un modelo que incluye regresoras cuantitativas o cualitativas (dicótomas). A
continuación se ilustran los modelos ANCOVA.

Para motivar el análisis, se vuelve a considerar el ejemplo 9.1, afirmando que el salario promedio de los maestros de escuelas públicas no variarán en
las tres regiones si se toman en cuenta cualquier variable que no pueda estandarizarse en las tres regiones. Por ejemplo, piénsese en la variable gasto
en escuelas públicas erogado por las autoridades locales, en vista de que la educación primaria es una cuestión sobre todo de carácter local y estatal.
Para ver si éste es el caso, se desarrolla el siguiente modelo:

Yi   i   2 D2i   3 D3i   4 X i  ui (9.4.1)

donde Yi  salario anual promedio de los maestros de escuelas públicas en el estado ($)

X i  gasto en escuelas públicas por alumno ($)

D2i  1 si el estado es del Noreste o Norte-centro; O en otro caso D3 = 1 si el estado es del Sur; O en otro caso

Los datos para X se proporcionan en la tabla 9.1. Téngase presente que se está considerando al Oeste como la categoría de comparación. Asimismo,
nótese que además de las dos regresoras cualitativas, se tiene una variable cuantitativa, X, que en el contexto de los modelos ANCOVA se conoce
como covariante, tal y como se dijo antes.

EJEMPLO 9.3

SALARIO DE LOS MAESTROS RESPECTO A LA REGIÓN Y AL GASTO EN ESCUELAS PÚBLICAS POR ALUMNO

De los datos mostrados en la tabla 9.1, los resultados del modelo (9.4.1) son los siguientes:

Yi  13269 .11  1673 .514 D2i  1144 .157 D3i  3.2889 X i

ee  1395.056801.1703861.11820.3176
t  9.5115 *  2.0889 *  1.3286 * *10.3539 *
R 2  0.7266

donde * indica los valores p menores que el 5%, y ** señala los valores p mayores que 5%.

Como los resultados lo sugieren, ceteris paribus: conforme el gasto público aumenta un dólar, el salario de los maestros de escuela pública se
incrementa aproximadamente $3.29. Si se controla el gasto en educación, ahora se observa que el coeficiente diferencial de la intersección es
significativo para la región Noreste y Norte-centro, pero no para el Sur. Estos resultados difieren de los de (9.2.5). Pero no debe sorprender, ya
que en (9.2.5) no se tuvo en cuenta a la covariante, que son las diferencias del gasto público en educación por alumno. De forma gráfica, se
tiene la situación mostrada en la figura 9.2.
Nótese que si bien se mostraron tres rectas de regresión para las tres regiones, estadísticamente las rectas de regresión son las mismas para el
Oeste que para el Sur. También obsérvese que las tres rectas de regresión resultan paralelas (¿por qué?)

FIGURA 9.2 Salario de los maestros de escuelas públicas (Y) respecto al gasto en educación por alumno (X).

9.5 LA VARIABLE DICÓTOMA ALTERNATIVA A LA PRUEBA CHOW9


En la sección 8.8 se analizó la prueba Chow para examinar la estabilidad estructural del modelo de regresión. El ejemplo analizado ahí tuvo que ver con
la relación entre ahorros e ingreso en Estados Unidos durante el periodo de 1970- 1995. Se dividió el periodo muestra en dos: 1970-1981 y 1982-1995;
asimismo, se mostró, con base en la prueba Chow, que existía una diferencia en la regresión de los ahorros sobre el ingreso para los dos periodos.

No obstante, no se pudo determinar si dicha diferencia en las dos regresiones se debía a las diferencias en los términos de intersección, en los
coeficientes de la pendiente, o a ambas situaciones. Con mucha frecuencia, este conocimiento por sí mismo resulta muy útil.

Al hacer referencia a las ecuaciones (8.8.1) y (8.8.2), se observa que hay cuatro posibilidades, las cuales se ilustran en la figura 9.3.

1. La intersección y los coeficientes de las pendientes son iguales en ambas regresiones. Esta situación, el caso de regresiones coincidentes, se
muestra en la figura 9.3a.

9
El material de esta sección recurre a los artículos del autor “Use of Dummy Variables in Testing for Equality between Sets of Coefficients in Two Linear Regressions: A Note”, y “Use of
Dummy Variables... A Generalization”, ambos publicados en American Statistician, vol. 24, núms. 1 y 5, 1970, PP. 50-52 y 18-21.
FIGURA 9.3 Regresiones plausibles de ahorros-ingresos.

2. Sólo las intersecciones en ambas regresiones son diferentes, pero las pendientes son las mismas. Este caso, de regresiones paralelas, se
presenta en la figura 9.3b.

3. Las intersecciones en las dos regresiones son las mismas, pero las pendientes son distintas. Esta situación se conoce como regresiones
concurrentes, y se muestra en la figura 9.3c.

4. Ambas intersecciones y pendientes en las dos regresiones son distintas. Este caso es el de regresiones no similares, lo cual se muestra en la
figura 9.3d.

Como se mencionó antes, la prueba de Chow de múltiples pasos analizada en la sección 8.8, indica sólo si dos (o más) regresiones son distintas,
pero no señala cuál es la fuente de la diferencia. Dicha causa, si hay alguna, puede hacerse evidente al agrupar todas las observaciones (26 en total)
y llevar a cabo sólo una regresión múltiple, como se muestra en seguida:10

Yt  1   2 Dt  1 X t   2 Dt X t   ut (9.5.1)

TABLA 9.2 DATOS SOBRE AHORROS E INGRESOS,


ESTADOS UNIDOS, 1970-1 995

Observación Ahorros Ingreso Dum

1970 61 727.1 0

1971 68.6 790.2 0

1972 63.6 855.3 0

10
Como en la prueba de Chow, la técnica de agrupamiento supone la homoscedasticidad; es decir,  12   22   2
1973 89.6 965 0

1974 97.6 1 054.2 0

1975 104.4 1 159.2 0

1976 96.4 1 273 0

7977 92.5 1 401.4 0

1978 112.6 1 580.1 0

1979 130.1 1 769.5 0

1980 161.8 1 973.3 0

1981 199.0 2 200.2 0

1982 205.5 2 347.3 1

1983 167 2 522.4 1

1984 235.7 2 810 1

1985 206.2 3 002 1

1986 196.5 3 187.6 1

1987 168.4 3 363.1 1

1988 189.1 3 640.8 1

1989 187.8 3 894.5 1

1990 208.7 4 166.8 1

1991 246.4 4 343.7 1

1992 272.6 4 613.7 1

1993 214.4 4 790.2 1

1994 189.4 5 021.7 1

1995 249.3 5 530.8 1

Nota: Dum = 1 para observaciones que comienzan en


1982; 0 en otro Las cifras para ahorros e ingreso están
en miles de millones de dólares.

Fuente: Economic Report of the President, 1997, tabla B-


28, p. 332.

D = 1 para las observaciones de 1982-1995

= 0 en otro caso (es decir, para las observaciones de


1970-1981)

La tabla 9.2 muestra la estructura de la matriz de datos.

Para ver las implicaciones de (9.5.1), y si se supone que como siempre E (ui )  0 , se obtiene:

Función de ahorros medios para 1970-1981:

E Yt Dt  1, X t   1  1 X t (9.5.2)

Función de ahorros medios para 1982-1995:

E Yt Dt  1, X t   1   2   1   2 X t (9.5.3)

El lector notará que éstas son las mismas funciones que (8.8.1) y (8.8.2), con 1  1 , 2  1 ,  1  1   2  . Por tanto, la estimación de (9.5.1)

equivale a estimar las dos funciones de ahorro individuales (8.8.1) y (8.8.2).

En (9.5.1),  2 es la intersección diferencial, como antes; y  2 es el coeficiente de la pendiente diferencial (también llamado arrastrador de

pendiente), el cual indica qué tanto difiere el coeficiente de la pendiente de la función de ahorros del segundo periodo (la categoría que recibe el valor
dicótomo de 1), en comparación con el del primer periodo. Obsérvese cómo la introducción de la variable dicótoma D en la forma interactiva, o
multiplicativa (D multiplicada por X) permite diferenciar entre los coeficientes de las pendientes de los dos periodos, del mismo modo que la
introducción de la variable dicótoma en forma aditiva permite distinguir entre las intersecciones de los dos periodos.

EJEMPLO 9.4

DIFERENCIAS ESTRUCTURALES EN LA REGRESIÓN AHORROS-INGRESO

PARA ESTADOS UNIDOS: EL MÉTODO DE LA VARIABLE DICÓTOMA

Antes de seguir adelante, se presentan primero los resultados de la regresión del modelo (9.5.1), aplicada para los datos de
ahorros-ingreso de Estados Unidos.
Yˆt  1.0161  152.4786Dt  0.0803X t  0.0655Dt X t 
ee  20.164833.08240.01440.0159
(9.5.4)
t  0.0504 * *4.6090 * 5.5413 *  4.0963
R 2  0.8819

donde * indica los valores p menores que el 5%, y ** señala los valores p mayores que el 5%.

Tal y como muestran los resultados de esta regresión, la intersección diferencial y el coeficiente de la pendiente son
estadísticamente significativos, lo cual sugiere en gran medida que las regresiones ahorros-ingreso para los dos períodos son
diferentes, como en la figura 9.3d.

De (9.5.4) se pueden derivar las ecuaciones (9.5.2) y (9.5.3), las cuales son:

Regresión ahorros-ingreso para 1970-1981:

Yˆ  1.0161  0.0803 X t (9.5.5)

Regresión ahorros-ingreso para 1982-1995:

Yˆt  1.0161  152 .4786   (0.0803  0.0655 ) X t


(9.5.6)
 153 .4947  0.0148 X t

Éstos son precisamente los resultados obtenidos en (8.8.la) y (8.8.2a), lo cual no debe sorprender. Tales regresiones ya se
mostraron en la figura 8.3.

Las ventajas de la técnica de la variable dicótoma [es decir, la estimación de (9.5.1)1, respecto a la prueba Chow [es decir, la
estimación de las tres regresiones: (8.8.1), (8.8.2) y (8.8.3)] ahora se pueden ver de inmediato:

1. Sólo fue necesaria una regresión, ya que las regresiones individuales pueden derivarse con facilidad a partir de ella, del modo
indicado por las ecuaciones (9.5.2) y (9.5.3).

2. La regresión (9.5.1) se utiliza para probar una diversidad de hipótesis. Por tanto, si el coeficiente de la intersección diferencial
 2 es estadísticamente insignificante, se podría aceptar la hipótesis de que dos regresiones tienen la misma intersección; es decir,

ambas regresiones son concurrentes (véase la figura 9.3c). De modo semejante, si el coeficiente de la pendiente diferencial  2 es

estadísticamente insignificante, pero  2 es significante, tal vez no se rechace la hipótesis de que dos regresiones tienen la misma

pendiente; es decir, las dos rectas de regresión son paralelas (véase la figura 9.3b). La prueba de la estabilidad de toda la regresión
(es decir  2   2  0 de manera simultánea) se lleva a cabo mediante la prueba F usual (recuérdese la prueba F de los mínimos

cuadrados restringidos). Si no se rechaza la hipótesis, entonces las rectas de regresión serán coincidentes, como se aprecia en la
figura 9.3a.

3. La prueba Chow no establece de manera explícita cuál coeficiente, intersección o pendiente es distinto, o si son diferentes en los
dos periodos (como en el anterior ejemplo). Es decir, se puede tener una prueba de Chow significativa debido a que sólo la
pendiente es diferente o a que sólo la intersección es distinta o porque ambas lo son. En otras palabras, no se puede saber,
mediante la prueba Chow, cuál de las cuatro posibilidades esquematizadas en la figura 9.2 es la que se tiene en una determinada
instancia. A este respecto, el método de la variable dicótoma tiene una clara ventaja, ya que no sólo indica si las dos variables son
distintas, sino que también destaca la(s) causa(s) de la diferencia; si se debe a la intersección, a la pendiente o a las dos. En la
práctica, saber si dos regresoras difieren en este o en el otro coeficiente resulta tan importante, si no es que más, que tener el
simple conocimiento de que son distintas.

4. Por último, en vista de que el agrupamiento (es decir, incluir todas las observaciones en una sola regresión) aumenta los grados
de libertad, tal vez mejore la precisión relativa de los parámetros estimados. Por supuesto, téngase en cuenta que cada inclusión de
una variable dicótoma consumirá un grado de libertad.

9.6 EFECTOS DE INTERACCIÓN AL UTILIZAR VARIABLES DICÓTOMAS


Las variables dicótomas son una herramienta flexible que puede utilizarse en una variedad de problemas interesantes. Para observar lo anterior,
considérese el siguiente modelo:

Yi  1   2 D2 I   3 D3i  X i  ui (9.6.1)

donde Y  salario por hora en dólares

X  educación (años de escolaridad)

D2  1 si es mujer; O en otro caso

D3  1 si no es blanco y no hispano; O en otro caso

En este modelo el sexo y la raza son regresoras cualitativas y la escolaridad es cuantitativa. 11 Está implícita en este modelo la suposición de que el
efecto diferencial de la variable dicótoma sexo, D2 , es constante en las dos categorías de raza y el efecto diferencial de la variable dicótoma raza, D3 ,

también es constante en los dos sexos. Es decir, si el salario medio es mayor para los hombres que para las mujeres, se debe a que pertenezcan o no
pertenezcan a la categoría de no hispanos ni blancos. De igual forma, si por ejemplo los no blancos ni hispanos tienen salarios medios menores, se
debe a que son hombres o mujeres.

En muchas aplicaciones, dicha suposición puede ser insostenible. Una mujer no blanca ni hispana tal vez gane menor salario que un hombre de esa
misma categoría. En otras palabras, quizá haya una interacción entre las dos variables cualitativas D2 y D3 Por tanto, su efecto sobre la media Y

quizá no sea simplemente aditivo, como en (9.6.1), sino multiplicativo, como en el siguiente modelo:

Yˆi  1   2 D2i   3 D3i   4 D2i D3i    X i  u i (9.6.2)

donde las variables están definidas como en el modelo (9.6.1).

De (9.6.2), se obtiene

E Yi D2i  1D3i  1, X i   1   2   3   4   X i (9.6.3)

que es la función salario medio por hora para las trabajadoras no blancas ni hispanas. Obsérvese que

 2  efecto diferencial de ser mujer

 3  efecto diferencial de ser no blanco ni hispano

11
Si se fuera a definir la escolaridad como los cursos inferiores a la educación media superior, educación media superior, y cursos superiores a la educación media superior, se podrían
utilizar entonces dos variables dicótomas para representar las tres clases.
 4  efecto diferencial de ser mujer no blanca ni hispana

lo cual muestra que el salario medio por hora de las mujeres no blancas ni hispanas es diferente (en una cantidad igual a  4 ) del salario medio por

hora de las mujeres blancas o hispanas. Si por ejemplo los tres coeficientes de las variables dicótomas son negativos, implicaría que las trabajadoras no
blancas ni hispanas ganan un salario medio por hora mucho más bajo que las trabajadoras blancas o hispanas, si se compara con la categoría base, la
cual en el ejemplo presente es la de hombres blancos o hispanos.

Ahora el lector puede observar la forma en que la variable dicótoma (es decir, el producto de dos variables cualitativas o dicótomas) modifica el efecto
de los dos atributos considerados de manera individual (es decir, en forma aditiva).

EJEMPLO 9.5

INGRESOS PROMEDIO POR HORA EN COMPARACIÓN CON LA ESCOLARIDAD, SEXO Y RAZA

Ahora se presentan primero los resultados de la regresión basados en el modelo (9.6.1). Usando los datos que se emplearon para
estimar la regresión (9.3.1), se obtuvo lo siguiente

YˆI  0.2610  2.3606D2i  1.7327D3i  0.8028 X i


t   0.2357 * * 5.4873 * 9.9094 * (9.6.4)
R 2  0.2032.n  528

donde * indica los valores p menores que 5%, y ** señala los valores p mayores que 5%.

El lector puede verificar que los coeficientes diferenciales de la intersección son estadísticamente significativos, que tienen los
signos que se esperaban (¿por qué?) y que la escolaridad tiene un gran efecto positivo sobre el salario por hora, lo cual no causa
sorpresa alguna.

Como lo muestra (9.6.4), ceteris paribus, los ingresos promedio por hora de las mujeres son inferiores por casi $2.36; además, los
ingresos promedio por hora de los trabajadores no blancos ni hispanos también son menores por $1.73.

Ahora se considerarán los resultados del modelo (9.6.2), que incluyen la variable dicótoma de interacción.

Yˆi  0.26100  2.3606D2i  1.7327D3i  2.1289D2i D3i  0.8028X i


t   0.2357 * * 5.4873 *  2.18031.7420 * * * 9.9095 * * (9.6.5)
R 2  0.2032.n  528

Donde* indica los valores p menores que el 5%, y ** señala los valores p mayores que 5%.

Como se nota, las dos variables dicótomas aditivas siguen siendo estadísticamente significativas, pero la variable dicótoma
interactiva no está al nivel convencional del 5%; el valor p real de la variable de interacción es de un nivel de casi el 8%. Si se
considera que esto es una probabilidad suficientemente baja, entonces los resultados de (9.6.5) se interpretan de la siguiente
manera: si se mantiene constante el nivel de educación y si se añaden los tres coeficientes de las variables dicótomas, entonces se
obtendrá —1.964 (= —2.3605 — 1.7327 + 2.1289), lo cual significa que los salarios medios por hora de las trabajadoras no blancas
ni hispanas es menor por casi $1.96, valor que está entre —2.3605 (diferencia debido sólo al sexo) y —1.7327 (diferencia debida
sólo a la raza).

El ejemplo anterior revela claramente el papel de la interacción de las variables dicótomas cuando dos o más regresoras cualitativas se incluyen en el
modelo. Es importante observar que en el modelo (9.6.5) se está suponiendo que la tasa de crecimiento de los ingresos por hora respecto a la
escolaridad (de casi 80 centavos por año adicional de escolaridad) sigue constante en cuanto al sexo y la raza. Pero esto tal vez no sea el caso. Si se
desea probar lo anterior, se deberán introducir los coeficientes de pendientes (véase el ejercicio 9.25).

9.7 USO DE LAS VARIABLES DICÓTOMAS EN EL ANÁLISIS ESTACIONAL

TABLA 9.3 DATOS TRIMESTRALES PARA VENTAS DE APARATOS (EN MILES) Y RESPECTO AL GASTO EN BIENES
DURABLES (DEL 1 ER. TRIMESTRE DE 1978 AL CUARTO DE 1985)

LAVLZ TRIT REFR LAVD BIDU LAVLZ TRIT REFR LAVD BIDU

841 798 1 317 1 271 252.6 480 706 943 1 036 247.7

957 837 1 615 1 295 272.4. 530 582 1 175 1 019 249.1

999 821 1 662 1 313 270.9 557 659 1 296 1 047 251.8

960 858 1 295 1 150 273.9 602 837 973 918 262

894 837 1 271 1 289 268.9 658 867 1 102 1 137 263.3

851 838 1 555 1 245 262.9 749 860 1 344 1 167 280

863 832 1 639 1 270 270.9 827 918 1 641 1 230 288.5

878 818 1 238 1 103 263.4 858 1 017 1 225 1 081 300.5
Muchas series de
792 868 1 277 1 273 260.6 808 1 063 1 429 1 326 312.6
tiempo

589 623 1 258 1 031 231.9 840 955 1 699 1 228 322.5

657 662 1 417 1 143 242.7 893 973 1 749 1 297 .324.3

699 822 1 185 1 101 248.6 950 1 096 1 117 1 198 333.1

675 871 1 196 1 181 258.7 838 1 086 1 242 1 292 344.8

652 791 1 410 1 116 248.4 884 990 1 684 1 342 350.3

628 759 1 417 1 190 255.5 905 1 028 1 764 1 323 369.1

529 734 919 1 125 240.4 909 1 003 1 328 1 274 356.4

Nota: LAVLZ = lavalozas; TRIT = trituradores de basura; REFR refrigeradores; LAVD = lavadoras; BIDU = gasto en bienes
durables, miles de millones de dólares de 1992.

Fuente: Business Statistics and Survey of Current Business, Department of Commerce (varios números).
económicas basadas en información mensual o trimestral presentan patrones estacionales (movimiento oscilatorio regular). Como ejemplos están las
ventas de almacenes de departamento en la época de Navidad, la demanda de dinero (saldos de efectivo) por parte de las familias en épocas de
vacaciones, la demanda de helado y de bebidas refrescantes durante el verano y los precios de los cultivos justo después de la época de cosecha.
Frecuentemente es útil eliminar el factor o componente estacional de las series de tiempo con el fin de poderse concentrar en los demás componentes,
tales como la tendencia.12 El proceso de eliminar el componente estacional de una serie de tiempo se Conoce como desestacionalización, o ajuste
estacional y la serie de tiempo así obtenida se denomina serie de tiempo desestacionalizada o ajustada estacionalmente. Las series de tiempos
económicos importantes, tales como el índice de precios al consumidor (IPC), el índice de precios del productor (IPP) y el índice de producción
industrial, frecuentemente son publicados en forma ajustada estacionalmente.

Hay diversos métodos para desestacionalizar una serie de tiempo, pero se considerará solamente uno de ellos, a saber, el método de las variables
dicótomas.13 Para ilustrar la forma como las variables dicótomas pueden utilizarse para desestacionalizar, considérense los datos dados en la tabla 9.3.
Dicha tabla proporciona los datos trimestrales para los años 1978-1995 respecto a las ventas de cuatro aparatos principales: lavalozas, trituradores de
basura, refrigeradores y lavadoras; todos los datos están dados en miles de unidades. La tabla también suministra datos sobre el gasto en bienes
durables en 1982, en miles de millones de dólares.

A fin de ilustrar la técnica de la variable dicótoma, se tendrán en cuenta sólo las ventas de los refrigeradores en el periodo de muestra. Pero primero
obsérvense los datos que se proporcionan en la figura 9.4. Esa figura sugiere que tal vez exista un modelo estacional en los datos asociados con los
diversos trimestres. Para ver si es así, considérese el siguiente modelo:

Yˆt  1 D1t   2 D2t   3t   4 D4t  u t (9.7.1)

donde Yt ventas de refrigeradores (en miles) y las D son las variables dicótomas, las cuales toman un valor de 1 en el trimestre relevante, y 0 en otro

caso; Obsérvese que para evitar la trampa de la variable dicótoma, se está asignando una variable dicótoma a cada trimestre del año, pero se omite el
término de intersección. Si hubiera algún efecto estacional en un determinado trimestre, esto estaría señalado mediante un valor t estadísticamente
significativo del coeficiente de la variable dicótoma para dicho trimestre.14

12
Una serie de tiempo puede contener cuatro componentes: uno estacional, uno cíclico, una tendencia y uno que es estrictamente aleatorio.

13
Para los diversos métodos de ajuste estacional, véase por ejemplo, Francis X. Diebold, Elements of Forecasting, 2ª. Ed., South- Western Publishers, 2001, capitulo 5

14
Considérese un aspecto técnico. Este método de asignar una variable dicótoma a cada trimestre supone que el factor estacional, si está presente, es determinístico y no estocástico. Se
volverá a estudiar este tema cuando se analice la econometría de las series de tiempo en la parte V de este libro.
FIGURA 9.4 Ventas de refrigeradores, 1978-1985 (trimestral)

Obsérvese que en (9.7.1) se está haciendo efectivamente la regresión de Y sobre una intersección, salvo que se permite una intersección distinta para
cada temporada (es decir, trimestre). Como resultado, el coeficiente de la variable dicótoma de cada trimestre proporcionará la venta media de los
refrigeradores de cada trimestre o temporada (¿por qué?).

EJEMPLO 9.6

TEMPORADA EN LA VENTA DE REFRIGERADORES

De los datos respecto a la venta de refrigeradores dados en la tabla 9.3, se obtienen los siguientes resultados de la regresión:

Yˆt  1222 .125 D1t  1467 .500 D2t  1569 .750 D3t  1160 .000 D4t

t  20.372024.462226.166619.3364
(9.7.2)
R 2  0.5317

Nota: no se han proporcionado los errores estándar de los coeficientes estimados, ya que cada uno de ellos es igual a 59.9904, pues todas las
variables dicótomas sólo toman el valor de 1 o de 0.

Los coeficientes estimados  en (9.7.2) representan el promedio, o media, de las ventas de los refrigeradores (en miles de unidades) en cada
temporada (es decir, trimestre). Por tanto, la venta media de refrigeradores en el primer trimestre, en miles de unidades, es de casi 1 222, en el
segundo trimestre fue de casi 1 468, las del tercer trimestre fueron de 1 570 aproximadamente, y las del último trimestre fueron de casi 1 160.

TABLA 9.4 VENTAS DE REFRIGERADORES (MILES) DE 1978 A 1995 (TRIMESTRALMENTE)

REFRI BIDU D2 D3 D4 REFRI BIDU D2 D3 D4

1 317 252.6 0 0 0 943 247.7 0 0 0

1 615 272.4 1 0 0 1 175 249.1 1 0 0

1 662 270.9 0 1 0 1 269 251.8 0 1 0

1 295 273.9 0 0 1 973 262.0 0 0 1

1 271 268.9 0 0 0 1 102 263.3 0 0 0

1 555 262.9 1 0 0 1 344 280.0 1 0 0

1 639 270.9 0 1 0 1 641 288.5 0 1 0

1 238 263.4 0 0 1 1 225 300.5 0 0 1

1 277 260.6 0 0 0 1 429 312.6 0 0 0


1 258 231.9 1 0 0 1 699 322.5 1 0 0

1 417 242.7 0 1 0 1 749 324.3 0 1 0

1 185 248.6 0 0 1 1 117 333.1 0 0 1

1 196 258.7 0 0 0 1 242 344.8 0 0 0

1 410 248.4 1 0 0 1 684 350.3 1 0 0

1 417 255.5 0 1 0 1 764 369.1 0 1 0

919 240.4 0 0 1 1 328 356.4 0 0 1

Nota: REFRI =ventas de refrigeradores, miles.

BIDU= gasto en bienes durables, miles de millones de dólares de 1992.

D2  1 en el segundo trimestre; O en otro caso.

D3  1 en el tercer trimestre; O en otro caso.

D4  1 en el cuarto trimestre; O en otro caso.

Fuente: Business Statistics and Survey of Current Business, Departamento de Comercio (varios números).

Por cierto, en vez de asignar una variable dicótoma a cada trimestre y suprimir el término de intersección a fin de evitar la trampa de variable
dicótoma, se podría asignar sólo tres variables dicótomas e incluir el término de intersección. Supóngase que se considera al primer trimestre
como el trimestre de referencia y se asignan variables dicótomas al tercero y cuarto. Lo anterior da los siguientes resultados de regresión (véase
la tabla 9.4 para la organización de los datos):

Yˆt  1222.1250  245.3750D2t  347.6250D3t  62.1250D4t


t  20.3720 * 2.8922 * 4.0974 *  0.7322 * * (9.7.3)
R 2  0.5318

donde * indica los valores p menores al 5%, y ** señala los valores p mayores que el 5%.

Puesto que se está considerando al primer trimestre como el punto de referencia, los coeficientes relacionados con las distintas variables
dicótomas ahora son intersecciones diferenciales que muestran en qué medida el valor promedio de Yen el trimestre que recibe un valor de 1
para la variable dicótoma difiere del trimestre que es punto de referencia. Expresado de manera distinta, los coeficientes de las variables
estacionales indicarán el incremento o decremento estacional del valor promedio de Y, con relación a la temporada base. Si se añaden los
distintos valores de a intersección diferencial al valor promedio de referencia de 1 222.125, se tendrá el valor promedio para los distintos
trimestres. Al llevar a cabo lo anterior, se reproducirá exactamente la ecuación (9.7.2), salvo errores de redondeo.

Ahora se apreciará el valor de considerar a un trimestre como punto de referencia, ya que (9.7.3) muestra que el valor promedio de Y para el
cuarto trimestre no es estadísticamente distinto del valor promedio para el primer trimestre, pues el coeficiente de la variable dicótoma para el
cuarto trimestre no es estadísticamente significativo. Por supuesto, la respuesta cambiará según sea el trimestre que se considere como punto
de comparación; no obstante, la conclusión general seguirá siendo la misma.

¿Cómo se obtiene la serie de tiempo desestacionalizada de las ventas de los refrigeradores? Esto se puede hacer fácilmente. Se estiman los
valores Y a partir del modelo (9.7.2) [o (9.7.3)] para cada observación y se restan de los valores reales de Y; es decir, se obtiene (Yt  Yˆt ) , que

son sólo los residuos de la regresión (9.7.2), los cuales se presentan en la tabla 9.5 15

¿Qué representan estos residuos? Significan los componentes que quedan de la serie de tiempo de los refrigeradores; a saber, la tendencia, el
ciclo y los componentes aleatorios (pero téngase en cuenta la advertencia hecha en la nota de pie de página 15).

En vista de que los modelos (9.7.2) y (9.7.3) no contienen covariantes, ¿cambia la situación si se añade una regresora cuantitativa al modelo?
Puesto que el gasto en bienes durables tiene un importante factor de influencia sobre la demanda de refrigeradores, el modelo (9.7.3) se
extenderá para que se incluya esta variable. Los datos para el gasto, en bienes durables en miles de millones de dólares de 1982 ya se
proporcionaron en la tabla 9.3. Esta es la variable X (cuantitativa) del modelo. Los resultados de la regresión son los siguientes:

15
Por supuesto, esto supone que la técnica de las variables dicótomas es un método apropiado para desestacionalizar una serie de tiempo y que una serie de tiempo (ST) puede
representarse como: TS= s + c + t + u, donde s indica la estación, t la tendencia, c el ciclo y u el componente aleatorio. No obstante, si la serie de tiempo es de la forma ST=(s)(c)(t)(u), donde
las cuatro componentes ingresan de manera multiplicativa, el método anterior de desestacionalizar resulta inapropiado ya que supone que las cuatro componentes de una serie de tiempo son
aditivas. Sin embargo, se habrá de decir más al respecto en los capítulos sobre econometría de las series de tiempo.
Yˆt  456.2440  242.4976D2t  325.2643D3t  86.0804D4t  2.7734 X t
t  2.5593 * 3.6951 * 4.9421 *  1.3073 * *4.4496 * (9.7.4)
R  0.7298
2

donde * indica los valores p menores del 5%, y ** señala los valores p mayores del 5%.

De nuevo, téngase en cuenta que se está considerando al primer trimestre corno la base. Al igual que en (9.7.3), véase que los coeficientes de
intersección diferencial para el segundo y tercer trimestres son estadísticamente diferentes de los del primer trimestre; pero las intersecciones
del cuarto y primer trimestres son estadísticamente iguales. El coeficiente de X (gasto en bienes durables), de casi 2.77, indica que si se
permiten los efectos estacionales, si el gasto en bienes durables se incrementa un dólar, en promedio, entonces las ventas de refrigeradores
aumentan casi 2.77 unidades; es decir, aproximadamente 3 unidades. Considérese que los refrigeradores están dados en miles de unidades y X
está en miles de millones de dólares (de 1982).

Una pregunta interesante es: al igual que las ventas de refrigeradores muestran patrones estacionales, ¿el gasto en bienes durables también
presenta patrones estacionales? ¿Cómo se tomará en cuenta entonces la naturaleza estacional de X? Lo destacable respecto a (9.7.4) es que
las variables dicótomas de ese modelo no sólo eliminan la estacionalidad en Y, sino que también la estacionalidad, si acaso existe, en X. (Esto
se deduce del teorema bien conocido de estadística, llamado teorema de Frisch-Waugh).16 Por así expresarlo, se matan dos pájaros (se
desestacionaliza) con un tiro (la técnica de variable dicótoma).

Si se desea una prueba informal del enunciado anterior, sólo se siguen estos pasos: 1) Se hace la regresión de Y sobre las variables dicótomas, como
en (9.7.2) o (9.7.3), y se guardan los residuos, por ejemplo S1 éstos representan a la Y desestacionalizada. 2) Se efectúa una regresión similar para X y
se obtienen los residuos de esta regresión, por ejemplo S 2 tales residuos representan a la X desestacionalizada. 3) Se lleva a cabo la regresión de S1

sobre S 2 Se descubrirá que el coeficiente de la pendiente de esta regresión es precisamente el coeficiente de X de la regresión (9.7.4).

9.8 REGRESIÓN LINEAL POR SECCIONES


Para ilustrar una vez más el uso de las variables dicótomas, considérese la figura 9.5, que muestra la forma como una compañía hipotética remunera
a sus representantes de ventas. Esta paga comisiones con base en las ventas de tal forma que hasta un cierto nivel, meta o umbral, el nivel X’, existe
una estructura de comisiones (estocástica), mientras que por encima de ese nivel existe otra. (Nota: además de las ventas, hay otros factores que
afectan la comisión de las ventas. Supóngase que estos otros factores están representados por el término de perturbación estocástico.) Más
específicamente, se supone que la comisión de ventas aumenta linealmente con las ventas hasta el nivel del umbral X*, des pués del cual ésta
también aumenta linealmente con las ventas pero a una tasa mayor. Por tanto, se tiene una regresión lineal por secciones que consta de dos
piezas o segmentos lineales, a los cuales se les da el nombre de I y II en la figura 9.5 y la función de las comisiones cambia su pendiente en el valor
del umbral. Dada la información sobre comisiones, ventas y el valor del nivel del umbral X, la técnica de las variables dicótomas puede ser utilizada
para estimar las diferentes pendientes de los dos segmentos de la regresión lineal por secciones que aparece en la figura 9.5.

16
Para una demostración, véase Adrian C. Darnell, A Dictionary of Econometrics, Edward Elgar, Lyme, Gran Bretaña, 1995, pp. 150-152.
Se procede de la siguiente manera:

i  1   2 ( X * ) Di  ui (9.8.1)

donde Yi  comisión de ventas

X i  volumen de ventas generado por la persona que

vende

X *  valor del umbral de las ventas conocido también


como nudo (conocido por anticipado)17

D  1 si Xi > X*

 0 si X i < X *

Suponiendo que E (ui )  0 , se ve inmediatamente que

FIGURA 9.5 Relación hipotética entre las comisiones de


ventas y el volumen de ventas. (Nota: la intersección en el
eje Y denota una comisión mínima garantizada.)

E (Yi Di 0, X i , X * )  1  1 X i (9.8.2)

17
Sin embargo, el valor del umbral puede no ser siempre fácil de identificar. Un enfoque ad hoc consiste en graficar la variable dependiente frente a la(s) variable(s) explicativa(s) y observar
si parece haber un cambio pronunciado en la relación después de un valor dado de X (por ejemplo, X’). Un en- foque analítico para hallar el punto de ruptura puede encontrarse en los
llamados modelos “switching” de regresión. Pero éste es un tema avanzado acerca del cual se puede encontrar un análisis de texto en Thomas Fomby, R. Carter Hill y Stanley Johnson,
Advanced Econometric Methods, Springer-Verlag, Nueva York, 1984, capítulo 14.
FIGURA 9.6 Parámetros de la regresión lineal por
secciones.

el cual muestra la comisión de ventas promedio hasta el nivel objetivo X *y

E (Yi Di  1, X i , X * )  1   2 X *  ( 1   2 ) X i (9.8.3)

*
que muestra la comisión de ventas promedio más allá del nivel objetivo X .

Así,  1 corresponde a la pendiente de la recta de regresión en el segmento I y 1   2 corresponde a la pendiente de la recta de


regresión en el segmento II de la regresión lineal por secciones que aparece en la figura 9.5. Es fácil realizar una prueba sobre la hipótesis de

que no existe, en la regresión, una discontinuidad en el valor del umbral X observando la significancia estadística del coeficiente estimado

de la pendiente diferencial  2 (véase la figura 9.6)


EJEMPLO 9.7 TABLA 9.6

COSTO TOTAL CON RELACIÓN A LA PRODUCCIÓN INFORMACIÓN HIPOTÉTICA SOBRE LA PRODUCCIÓN Y EL


COSTO TOTAL
Como ejemplo de aplicación de la regresión lineal por secciones,
considérese la información hipotética sobre costo total- producción total
dada en la tabla 9.6. Se dice que el costo total puede cambiar su
pendiente al alcanzar un nivel de producción de 5 500 unidades. Costo total, dólares Unidades de producción

Si se permite que Y en (9.8.4) represente el costo total y X la 256 1 000

producción total, se obtienen los siguientes resultados:


414 2 000

Yˆi  145.72  0.2791( X i  X i* ) Di 634 3 000

t  (0.8245)(6.0669 )(1.1447 ) 778 4 000

(9.8.4)
1 003 5 000

R 2  0.9737 X   5500 1 839 6 000

2 081 7 000

2 423 8 000

EJEMPLO 9.7 (continuación)


2 734 9 000

Como lo muestran estos resultados, el costo marginal de producción es


2 914 10 000
de cerca de 28 centavos de dólar por unidad y aun éste es cerca de 37
centavos (28 ÷ 9) para la producción por encima de 5 500 unidades, la
diferencia entre los dos no es estadísticamente significativa puesto que la
variable dicótoma no es significativa, por ejemplo, al nivel del 5%. Para
todos los fines prácticos, entonces, se puede efectuar la regresión del
costo total sobre la producción total, eliminando la variable dicótoma.

A propósito, la regresión lineal por secciones que se acaba de exponer es un ejemplo de una clase más general de funciones conocidas como
funciones de spline18.

18
Para conocer una exposición sencilla de las funciones de “spline” (es decir, véanse los polinomios por tramos de orden k), consúltense Douglas C. Montgomery y Elizabeth A. Peck,
Introduction to Linear Regression Analysis, John Wiley & Sons, 3a. ed., Nueva York, 2001, pp. 228-230.
9.9 MODELOS DE REGRESIÓN CON DATOS EN PANEL
Recuérdese que en el capítulo 1 se analizaron una serie de datos con los que se cuenta para el análisis empírico, como: los transversales, las
series de tiempo, los agrupados (una combinación de las series de tiempo y los datos transversales) y los datos en panel. La técnica de la
variable dicótoma puede extenderse sin problemas a los datos agrupados y en panel. Puesto que la utilización de los datos en panel se está
haciendo cada vez más popular en el trabajo aplicado, se analizará este tema con cierto detalle en el capítulo 16.

9.10 ALGUNOS ASPECTOS TÉCNICOS DE LA TÉCNICA DE LA VARIABLE DICÓTOMA


La interpretación de las variables dicótomas en las regresiones semilogarítmicas

En el capítulo 6 se analizaron los modelos log-lin, donde la regresada es logarítmica y las regresoras son lineales. En tales modelos, los
coeficientes de las pendientes de las regresoras indican la semielasticidad; es decir, el cambio porcentual en la regresada debido a una
unidad de cambio en la regresora: esto sólo se cumple si la regresora es cuantitativa. ¿Qué sucede si una regresora es una variable
dicótoma? Para ser específicos, considérese el siguiente modelo:

InYi  1   2 Di  ui (9.10.1)

donde Y  tasa de salario por hora ($) y D  1 para mujer y 0 para hombre.

¿Cómo se interpreta un modelo así? Si se supone que E (ui )  0 , se obtiene:

Función salario para trabajadores:

E ( InYi D i  0)  1 (9.10.2)

Función salario para trabajadoras:

E ( InYi D i  1)  1   2 (9.10.3)

Por tanto, la intersección  1 proporciona al logaritmo de los ingresos medios por hora y el coeficiente de la “pendiente” da la diferencia entre
el logaritmo de los ingresos medios por hora entre hombre y mujeres. Lo anterior representa una forma más bien extraña de enunciar las

cosas, pero si se toma el antilogaritmo de  1 , lo que ahora se tiene no son los salarios medios por hora de los trabajadores, sin la mediana
de los salarios. Como se sabe, media, mediana y moda son las tres medidas de tendencia central de una variable aleatoria. Y si se toma el

antilogaritmo de ( 1   2 ) , se obtiene la mediana de los salarios por hora de las trabajadoras.

EJEMPLO 9.8 Por tanto, la mediana de los ingresos por hora de las trabajadoras
es menor por casi 21.94%, en comparación con sus contrapartes
LOGARITMO DE SALARIOS POR HORA RESPECTO AL SEXO
masculinos [(8.8136 – 6.8796)/8.8136]Resulta interesante que se
pueda obtener la semielasticidad para una regresora dicótoma de
Para ilustrar (9.10.1), se utilizan los datos que están implícitos en el ejemplo 9.2.
manera directa, mediante el proceso sugerido por Halvorsen y
Los resultados de la regresión basada en 528 observaciones son los siguientes:
Palmquist.19 Tómese el antilogaritmo (de base e) del coeficiente
estimado de la variable dicótoma, réstele 1 y multiplique la

19
Robert Halvorsen y Raymond Palmquist, “The Interpretation of Dummy Variables in Semilogarithmic Equations”, American Economic Review, vol. 70, núm. 3, pp. 474-475.
InˆYˆi  2.1463  0.2437 Di diferencia por 100. (Para conocer la lógica subyacente, véase el
apéndice 9.A.1.) En consecuencia, si se toma el antilogaritmo de -
0.2437, se obtendrá 0.78366. al restar 1 de lo anterior, se tiene -
t  (72.2943) (5.5048)* (9.10.4)
0.2163, y después de multiplicar esta cifra 100 se tiene -21.63%, lo
cual sugiere que la mediana del salario de una trabajadora (D=1) es
R 2  0.0544
menor que la de su contraparte masculina por aproximadamente
* 21.63%, que es lo mismo que se obtuvo antes, salvo errores de
donde indica los valores p que son prácticamente cero.
redondeo.

Tomando el antilogaritmo de 2.1763, se tiene 8.8136 ($), que es la mediana de


los ingresos por hora de los trabajadores, y si se toma el antilogaritmo de
[(2.1763 – 0.2437) = 1.92857], se obtiene 6.8796 ($), que es la mediana de los
ingresos por hora de las trabajadoras

Variables dicótomas y heteroscedasticidad

Se volverá a examinar la regresión de ahorros-ingreso para Estados Unidos durante los periodos 1970-1981 y 1982-1995, así como para el
periodo completo 1970-1995. Al probar la estabilidad estructural mediante la técnica de la variable dicótoma, se supuso que la varianza de

error var (u1i ) = var (u 2 i ) =  2 es decir, las varianzas de error en los dos periodos eran las mismas. También se supuso lo anterior para
la prueba de Chow. Si no es válida tal suposición —es decir, si las varianzas de error en los dos subperiodos son distintas— es muy probable
que se hagan deducciones incorrectas. Así pues, primero se debe verificar la igualdad de las varianzas en el subperiodo, mediante técnicas
estadísticas apropiadas. Aunque se analizará con mayor profundidad este tema más adelante en el capítulo sobre heteroscedasticidad, en el
capítulo 8 se mostró que la prueba F puede utilizarse para este propósito.20 (Véase el análisis de la prueba Chow en ese capítulo.) Como se
demostró ahí, parece que la varianza de error para los dos periodos no es la misma. En consecuencia, los resultados de la prueba Chow y la
técnica de la variable dicótoma presentadas en este apartado tal vez no sean del todo confiables. Por supuesto, el propósito aquí es ilustrar
las diversas técnicas que se pueden emplear para resolver el problema (por ejemplo, el problema de la estabilidad estructural). En alguna
aplicación particular, tales técnicas quizá no resulten válidas. Pero lo anterior también sucede con la mayoría de las técnicas estadísticas. Por
supuesto, hay que tomar las medidas correctivas apropiadas a fin de resolver el problema, tal y como más tarde se hará en el capítulo sobre
heteroscedasticidad (no obstante, véase el ejercicio 9.28).

Variables dicótomas y autocorrelación

Además de la homoscedasticidad, el modelo de regresión lineal clásico supone que el término de error en los modelos de regresión no está
correlacionado. Pero, ¿qué sucede si esto no es así, sobre todo en los modelos que involucran regresoras dicótomas? En vista de que se
analizará a profundidad el tema de la autocorrelación en el capítulo respectivo, se diferirá la respuesta a esta pregunta hasta ese momento.

¿Qué sucede si la variable dependiente es una variable dicótoma?

Hasta ahora se han considerado modelos en los que la regresada es cuantitativa y las regresoras cualitativas, o ambas son cualitativas. Pero
existen situaciones en las que la regresada también puede ser una variable cualitativa o dicótoma. Considérese por ejemplo la decisión de un

20 El procedimiento de la prueba Chow se puede realizar, incluso en la presencia de heteroscedasticidad, pero entonces se tendrá que utilizar la prueba Wald. Las matemáticas que están
detrás de esta prueba son un tanto complejas. No obstante, en el capítulo sobre heteroscedasticidad se analizará este tema.
trabajador de participar en la fuerza de trabajo. La decisión de participar es del tipo sí o no. Será sí, si la persona decide participar, y no en
cualquier otro caso. Por tanto, la variable participación en la fuerza de trabajo es una variable dicótoma. Desde luego, la decisión de participar
en la fuerza de trabajo depende de diversos factores, como la tasa de salario inicial, la escolaridad y las condiciones del mercado de trabajo
(tal y como las mide la tasa de desempleo).

¿Todavía se pueden utilizar los MCO para estimar los modelos de regresión en los que la regresada es dicótoma? Sí, mecánicamente se
puede hacer eso. Pero se presentan varios problemas estadísticos que uno enfrenta con tales modelos. Y en vista de que existen alternativas a la
estimación MCO que no provocan tales inconvenientes, se analizará este tema en un capítulo posterior (véase el capítulo 15 sobre los modelos logit y
probit). En ese capítulo también se estudiarán los modelos en los que la regresada tiene más de dos categorías; por ejemplo, la decisión de ir al trabajo
en automóvil, autobús o metro; o la decisión de trabajar tiempo parcial, completo o no trabajar en absoluto. Tales modelos se conocen como modelos
con variable dependiente policótomas, en contraste con los modelos con variables dependientes dicótomas, en los que la variable dependiente
tiene sólo dos categorías.

9.11 TEMAS PARA ESTUDIO POSTERIOR


En la teoría se analizan diversos temas relacionados con las variables dicótomas que son relativamente avanzados, incluyendo 1) modelos de
parámetros aleatorios o variables, 2) modelos “switching” de regresión y 3) modelos de desequilibrio.

En los modelos de regresión considerados en este texto, se supone que los parámetros, las 6, son desconocidas pero fijas. Los modelos de coeficientes
aleatorios —de los cuales hay diversas versiones— suponen que las ¡3 pueden ser aleatorias también. El trabajo principal de referencia en esta área es
el realizado por Swamy.21

En el modelo de variable dicótoma que utiliza intersecciones diferenciales al igual que pendientes diferenciales, se supone implícitamente que se
Conoce el punto de quiebre. Por tanto, en el ejemplo de ahorros-ingreso para el periodo 1970-1995, se dividió el lapso en 1970-1981 y 1982-1995, que
son los periodos anterior y posterior de la recesión, bajo la creencia de que la recesión de 1982 cambió la relación entre los ahorros y el ingreso. A
veces no resulta sencillo señalar en qué momento se da la ruptura. La técnica de modelos “switching” de regresión maneja esta situación, permitiendo
que el punto de ruptura sea en si mismo variable aleatoria y mediante un proceso iterativo se determina cuándo pudo haber acontecido realmente la
ruptura. El trabajo original en esta área se atribuye a Goldfeld y Quandt.22

Se requieren técnicas especiales de estimación para tratar con lo que se conoce como situaciones de desequilibrio, es decir, situaciones en donde los
mercados no son claros (es decir, la demanda no es igual a la oferta). El ejemplo clásico es el de demanda y de oferta de un bien. La demanda de un
bien es función de su precio y de otras variables y la oferta de ese bien es también función de su precio y de otras variables, algunas de las cuales son
diferentes de aquellas que hacen parte de la función de demanda. Ahora, la cantidad realmente comprada y vendida del bien no necesariamente debe
ser igual a la obtenida cuando se igual a la demanda a la oferta, llevando así a un desequilibrio. Para un análisis completo de modelos de desequilibrio,
el lector puede referirse a Quandt.23

9.12 RESUMEN Y CONCLUSIONES


1. Las variables dicótomas que tienen valores de 1 y 0 (o sus transformaciones lineales) son un medio de introducir regresoras cualitativas en el
análisis de regresión.

21
P.A.V.B. Swamy, Statistical inference in Random Coefficient Regression Models, Springer-Verlag, Berlin, 1971.

22 S. Goldfeld y R. Quandt, Nonlinear Methods in Econometrics, North Holland, Amsterdam, 1972.

23 Richard E. Quandt, The Econometrics of Disequilibrium, Basil Blackwell, Nueva York, 1988.
2. Las variables dicótomas son un mecanismo de clasificación de información ya que permiten dividir una muestra en diversos subgrupos con base
en cualidades o atributos (sexo, estado civil, raza, religión, etc.) e implícitamente permiten que se efectúen regresiones individuales para cada
subgrupo. Si hay diferencias en la respuesta de la variable regresada a la variación en las variables cuantitativas en los diversos subgrupos, éstas se
reflejarán en las diferencias en las intersecciones o en los coeficientes de las pendientes, o en ambos, de las diversas regresiones de subgrupo.

3. Aunque es una herramienta versátil, la técnica de variable dicótoma debe ser manejada cuidadosamente. Primero, si la regresión contiene un
término constante, el número de variables dicótomas debe ser menor que el número de clasificaciones de cada variable cualitativa. Segundo, el
coeficiente que acompaña las variables dicótomas siempre debe ser interpretado con relación al grupo base o de referencia, es decir, con el grupo
que adquiere el valor de cero. La base elegida dependerá del propósito de la investigación que se esté realizando. Finalmente, si un modelo tiene
diversas variables cualitativas con diversas categorías, la introducción de las variables dicótomas puede consumir un gran número de grados de
libertad. Por consiguiente, siempre se debe ponderar el número de variables dicótomas que van a ser introducidas respecto al número total de
observaciones disponible para el análisis.

4. En este capítulo se consideraron sólo algunas de las diversas aplicaciones de la técnica de variables dicótomas. Estas incluyeron 1) comparación
de dos (o más) regresiones, 2) desestacionalización de datos de series de tiempo, 3) variables dicótomas interactivas, 4) interpretación de las
variables dicótomas en los modelos semilogarítmicos, y 5) modelos de regresión lineal a segmentos.

5. También se hizo mucho énfasis en tener precaución al utilizar las variables dicótomas en situaciones de heteroscedasticidad y autocorrelación.
Pero en vista de que se estudiarán estos temas con mucho detalle en capítulos subsecuentes, éstos se mencionarán a su debido tiempo.

EJERCICIOS

Preguntas

9.1. Si se tiene información mensual para distintos años, ¿cuántas variables dicótomas se introducirán para probar las siguientes hipótesis?:

a) Todos los 12 meses del año presentan patrones estacionales.

b) Solamente febrero, abril, junio, agosto, octubre y diciembre presentan patrones estacionales.

9.2. Considérense los siguientes resultados de regresión (las razones t están entre paréntesis):*

Yˆi  1286  104.97 X 2i  0 : 026 X 3i  1.20 X 4i  0.69 X 5i

t  (4.67)(3.70)(3.80)(0.24)(0.08)

 19.47 X 6i  266.06 X 7i  118.64 X 8i  110.61X 9i

(0.40)(6.94)(3.04)(6.14)

R 2  0.383 n  1543

donde Y  horas de trabajo al año deseadas por la esposa, calculadas como las horas usuales de trabajo al año, más las semanas

invertidas en buscar trabajo

*
Jane Leuthold, “The Effect of Taxation on the Hours Worked by Married Women”, Industrial Labor Relations Review, núm. 4, julio de 1978, pp. 520-526 (la notación se cambió para ajustarse
al formato del libro).
X 2  ingresos promedio reales por hora después de impuestos de la esposa

X 3  ingresos anuales reales después de impuestos del esposo en el año anterior

X 4  edad de la esposa en años

X 5  años completos de escolaridad de la esposa

X 6  variable de actitud; 1 si el entrevistado piensa que es correcto que una mujer trabaje si así lo desea y si su esposo está de

acuerdo; 0 en cualquier otro caso

X 7  variable de actitud; 1 si el esposo de la entrevistada favoreció que su esposa trabajara; 0 en cualquier otro caso

X 8  número de hijos menores de 6 años

X 9  número de hijos de 6 a 13 años

a) ¿Los signos de los coeficientes de las diversas regresoras no dicótomas tienen algún sentido económico? Justifique su respuesta.

b) ¿Cómo se interpretarían las variables dicótomas X 6 y X 7 ? ¿Son estadísticamente significativas? Puesto que la muestra es muy grande,
tal vez se utilice la regla práctica “2-t” para responder la última pregunta.

c) ¿Por qué se cree que las variables edad y escolaridad no son factores significativos en la decisión de la mujer respecto a participar en la
fuerza de trabajo, en este estudio?

9.3. Considérense los siguientes resultados de una regresión.* (Los datos reales se proporcionan en la tabla 9.7.)

TABLA 9.7 MATRIZ DE DATOS PARA LA REGRESIÓN DEL EJERCICIO 9.3

Año y Tasa de desempleo Tasa de D DV Año y trimestre Tasa de desempleo Tasa de trabajo D DV
semestre TD, % trabajo TD, % vacante, %
vacante, %

1958-IV 1.915 0.510 0 0 1965-I 1.201 0.997 0 0

1959-I 1.876 0.541 0 0 -II 1.192 1.035 0 0

-II 1.842 0.541 0 0 -III 1.259 1.040 0 0

*
Damodar Gujarati, “The Behaviour of Unemployment and Unfilled Vacancies: Great Britain, 1958-1971”, The Economic Journal, vol. 82, marzo de 1972, pp. 195-202.
-III 1.750 0.690 0 0 -IV 1.192 1.086 0 0

-IV 1.648 0.771 0 0 1966-I 1.089 1.101 0 0

1960-I 1.450 0.836 0 0 -II 1.101 1.058 0 0

-II 1.393 0.908 0 0 -III 1.243 0.987 0 0

-III 1.322 0.968 0 0 -IV 1.623 0.819 1 0.819

-IV 1.260 0.998 0 0 1967-I 1.821 0.740 1 0.740

1961-I 1.171 0.968 0 0 -II 1.990 0.661 1 0.661

-II 1.182 0.964 0 0 -III 2.114 0.660 1 0.660

-III 1.221 0.952 0 0 -IV 2.115 0.698 1 0.698

-IV 1.340 0.849 0 0 1968-I 2.150 0.695 1 0.695

1962-I 1.411 0.748 0 0 -II 2.141 0.732 1 0.732

-II 1.600 0.658 0 0 -III 2.167 0.749 1 0.749

-III 1.780 0.562 0 0 -IV 2.107 0.800 1 0.800

-IV 1.941 0.510 0 0 1969-I 2.104 0.783 1 0.783

1963-I 2.178 0.510 0 0 -II 2.056 0.800 1 0.800

-II 2.067 0.544 0 0 -III 2.170 0.794 1 0.794

-III 1.942 0.568 0 0 -IV 2.161 0.790 1 0.790

-IV 1.764 0.677 0 0 1970-I 2.225 0.757 1 0.757

1964-I 1.532 0.794 0 0 -II 2.241 0.746 1 0.746

-II 1.455 0.838 0 0 -III 2.366 0.739 1 0.739

-III 1.409 0.885 0 0 -IV 2.324 0.707 1 0.707

-IV 1.296 0.978 0 0 1971-I 2.516* 0.583* 1 0.583*

-II 2.909* 0.524* 1 0.524*


*Estimados preliminares.

Fuente: Damodar Gujarati, “The Behaviour of Unemployment and Unfilled Vacancies: Great Britain, 1958-1 971”, The Economic Journal, vol. 82, marzo
de 1972, p. 202.

TˆDˆ t  2.7491  1.1507 Dt  1.5294Vt  0.8511( DtVt )

t  (26.896)(3.6288)(12.5552 )(1.9819 )

R 2  0.9128

donde TD  tasa de desempleo, %

V  tasa de trabajo vacante, %

D  1 , para el periodo que comienza el cuarto trimestre de 1966

 0 , para el periodo anterior al cuarto trimestre de 1966

t  tiempo, medido en trimestres


Nota: en el cuarto trimestre de 1966, el entonces gobierno laborista, liberalizó la Ley de Seguro Nacional, reemplazando el sistema de tasa fija
para beneficios del desempleo de corto tiempo, por un sistema mixto de tasa fija y beneficios relacionados con los ingresos (anteriores), el
cual incrementó el nivel de los beneficios de desempleo.

a) ¿Cuáles son las expectativas a priori respecto a la relación entre las tasas de desempleo y vacantes?

b) Si la tasa de vacancia se mantiene constante, ¿cuál es la tasa promedio de desempleo para el periodo que comienza el cuatro trimestre de
1966? ¿Es estadísticamente distinto del periodo anterior al cuarto trimestre de 1966? ¿Cómo se puede saber?

c) ¿Las pendientes para el periodo anterior y posterior al cuarto trimestre de 1966 son estadísticamente distintas? ¿Cómo se sabe?

d) ¿Se puede concluir con toda seguridad, a partir de este estudio, que los generosos beneficios del desempleo propician tasas más altas de
vacantes? ¿Lo anterior tiene algún sentido económico?

9.4. Con base en información anual para el periodo 1972-1979, William Nordhaus estimó el siguiente modelo para explicar el comportamiento del precio
del petróleo de la OPEP (errores estándar entre paréntesis):*

yt  0.3x1t  5.22 x2t

ee  (0.03)(0.50)

donde yt  diferencia entre el precio del año en curso y del año anterior (dólares por barril)

x1  diferencia entre el precio del momento del año en curso y el precio de la OPEP en el año anterior

*
“Oil and Economic Performance in Industrial Countries”, Brookings Papers on Economic Activity, 1980, pp. 341-388.
x2  1 para el año 1974 y cero de lo contrario

Nota: durante el periodo 1973-1974 tuvo lugar el embargo de petróleo. Interprétese este resultado y muéstrese el resultado gráficamente.
¿Qué sugieren estos resultados acerca del poder monopólico de la OPEP?

9.5. Considérese el siguiente modelo:

Yi  1   2 Di  X i  ui

donde Y  salario anual de un profesor universitario

X  años de experiencia docente

D  variable dicótoma para el sexo


Considérense las tres formas siguientes de definir la variable dicótoma.

a) D = 1 si es hombre; O si es mujer

b) D = 1 si es mujer; O si es hombre

c) D 1 si es mujer; —1 si es hombre

Interprétese el anterior modelo de regresión para cada asignación de variable dicótoma. ¿Se puede preferir a un método en vez de otro?
Justifique su respuesta.

9.6. Refiérase a la regresión (9.7.3). ¿Cómo se probaría la hipótesis de que los coeficientes de D2 y D3 son los mismos? ¿Y de que los coeficientes
D2 y D4 son iguales? Si el coeficiente de D3 es estadísticamente distinto del de D2 , y el coeficiente de D4 es diferente del de D2 , ¿significa que

los coeficientes D3 y D4 son también distintos?

Pista: var (A ± B) = var (A) + var (B) ± 2 cov (A, B)

9.7. Refiérase al ejemplo de ahorros-ingreso en EU analizado en el capítulo.

a) ¿Cómo se obtendrían los errores estándar de los coeficientes de regresión dados en (9.5.5) y (9.5.6), mismos que se obtuvieron de la
regresión agrupada (9.5.4)?

b) Para obtener respuestas numéricas, ¿qué información adicional se requeriría, en caso de necesitarse?

9.8. En su estudio sobre las horas de trabajo dedicadas por el FDIC (Federal Deposit Insurance Corporation) al análisis de 91 bancos, R. J. Miller estimó
la siguiente función:*

InˆYˆ  2.41  0.3674 InX1  0.2217 InX 2  0.0803 InX 3

(0.0477 )(0.0628)(0.0287 )

 0.1755 D1  0.2799 D2  0.5634 D3  0.2572 D4

*
“Examination of Man-Hour Cost for Independent, Joint, and Divided Examination Programs”, Journal of Bank Research, vol. 11, 1980, pp. 28-35. Nota: las notaciones se modificaron para
que se ajusten a nuestra flotación.
(0.2905)(0.1044 )(0.1657 )(0.0787 )

R 2  0.766

donde Y  horas-hombre del examinador del FDIC

X 1  activos totales del banco

X 2  número total de oficinas en el banco

X 3  razón de préstamos clasificados a préstamos totales para el banco

D1  1 si la administración fue calificada de “muy buena”

D2  1 si la administración fue calificada de “buena”

D3  1 si la administración fue Calificada de “satisfactoria”

D4  1 si la evaluación fue realizada conjuntamente con el Estado

Las cifras en paréntesis son los errores estándar estimados.

a) Interprétense estos resultados.

b) ¿Hay algún problema en la interpretación de las variables dicótomas en este modelo por estar Y en forma logarítmica?

c) ¿Cómo se interpretarían los coeficientes de las variables dicótomas?

9.9. Para evaluar el efecto de la política del gobierno federal sobre liberación de tasas de interés iniciada en julio de 1979, Sidney Langer, una alumna
mía, estimó el siguiente modelo para el periodo trimestral comprendido entre 1975-III y 1983-II.†

Yˆt  8.5871  0.1328 Pt  0.7102Unt  0.2389 M t

ee  (1.9563)(0.0992 )(0.1909 )(0.0727 )

 0.6592Yt 1  2.5831Dict R 2  0.9156

(0.1036 )(0.7549 )

donde Y  tasa de bonos del Tesoro a tres meses


Sidney Langer, “Interest Rate Deregulation and Short-Term Interest Rates”, trabajo universitario no publicado.
P  tasa de inflación esperada

Un  tasa de desempleo ajustada estacionalmente

M  cambios en la base monetaria

Dic  variable dicótoma, que adquiere el valor de 1 para las observaciones que empiezan en julio 1 de 1979

a) Interprétense estos resultados.

b) ¿Cuál ha sido el efecto de la liberación de la tasa? ¿Tienen sentido económico los resultados?

c) Los coeficientes de Pt Unt y M t son negativos. ¿Se puede ofrecer un razonamiento económico?

9.10. Refiérase a la regresión por tramos analizada en el texto. Supóngase que no solamente hay un cambio en el coeficiente de la pendiente en X*
sino que también hay un salto en la línea de regresión, como se muestra en la figura 15.10. ¿Cómo se modificaría (15.11.1) para considerar el salto en
la línea de regresión en X*?

9.11. Determinantes del precio por onza de cola. Cathy Schaefer, una alumna mía, estimó la siguiente regresión con base en información de corte
transversal de 77 observaciones:*

Pi   0  1 D1i   2 D2i   3 D3i  i

donde Pi  precio por onza de cola

D1i  001 si es almacén de descuento

 010 si es almacén de cadena

 100 si es almacén de conveniencia

D2i  10 si es un producto de marca

 01 si es un producto sin marca

D3i  0001 botella de 67.6 onzas (2 litros)

 0010 botellas de 28-33.8 onzas (Nota: 33.8 oz 1 litro)

 0100 botellas de 16 onzas

*
Cathy Schaefer, “Price Per Ounce of Cola Beverage as a Function of Place of Purchase, Size of Container, and Branded or Unbranded product”, trabajo universitario, sin publicar.
 1 000 latas de 12 onzas

Los resultados fueron los siguientes:

Pˆi  0.143  0.000004 D1i  0.0090 D2i  0.00001D3i

ee  (0.00001)(0.00011)(0.00000 )

t  (0.3837 )(8.3927 )(5.8125)

R 2  0.6033

Nota: los errores estándar se muestran solamente con cinco decimales.

a) Coméntese sobre la forma en que las variables dicótomas han sido introducidas en el modelo.

FIGURA 9.7 Regresión lineal por tramos


discontinua.

b) Suponiendo que el procedimiento de variables dicótomas es aceptable, ¿cómo se interpretan los resultados?

c) El coeficiente de D3 es positivo y estadísticamente significativo. ¿Cómo se racionaliza este resultado?

9.12. Basado en información para 101 países sobre el ingreso per cápita en dólares (X) y la esperanza de vida en años (Y) a principios de la década de
los años setenta, Sen y Srivastava obtuvieron los siguientes resultados de regresión:*

Yˆi  2.40  9.39 InX i  3.36Di ( InX i  7)

ee  (4.73)(0.859)(2.42) R 2  0.752

*
Ashish Sen y Muni Srivastava, Regression Analysis: Theory, Methods, and Applications, Springer- Verlag, Nueva York, 1990, p. 92. Se ha cambiado la notación.
donde Di  1 si InX i  7 , y Di  0 de lo contrario. Nota: cuando InX i  7 , X  US$1 097 (aproximadamente).

a) ¿Cuál(es) podría(n) ser la(s) razón(es) para introducir la variable ingreso en forma logarítmica?

b) ¿Cómo se interpretaría el coeficiente 9.39 del InX i ?

c) ¿Cuál podría ser la razón para introducir el regresor Di ( InX i  7) ? ¿Cómo se explica este regresor? Y ¿cómo se interpreta el
coeficiente —3.36 de este regresor? (Guía: regresión lineal por tramos.)

d) Suponiendo un ingreso per cápita de US$1 097 como la línea divisoria entre los países más pobres y los más ricos, ¿cómo se derivaría la
regresión para países cuyo ingreso per cápita es menor que US$1 097 y la regresión para países cuyo ingreso per cápita es mayor que
US$1 097?

e) ¿Qué conclusiones generales se obtienen del resultado de la regresión presentada en este problema?

9.13. Considérese el siguiente modelo:

Yi  1   2 Di  ui

donde Di  0 para las primeras 20 observaciones y Di  1 para las 30 observaciones restantes. También se dice que la var (ui2 )  300 .

a) ¿Cómo se interpretan,  1 y 2 ?

b) ¿Cuáles son los valores promedio de los dos grupos?

c) ¿Cómo se calcularía la varianza de ( ˆ1  ˆ2 ) ? Nota: un dato que se da es que la cov ( ˆ1  ˆ2 )  15.

9.14. Para evaluar el efecto de las leyes estatales de derecho al trabajo referentes a los sindicatos (las cuales no obligan a pertenecer a un sindicato
como condición previa para el empleo), se obtuvieron los siguientes resultados de regresión, a partir de datos para 50 estados de la Unión Americana
durante 1982:*

Pˆ SˆPˆi  19.8066  9.3917 DATi

t  (17.0352 )(5.1086 )

r 2  0.3522

donde PSP  porcentaje de los empleados en el sector privado afiliados a sindicatos en 1982, y DAT  1 si las leyes de derecho al
trabajo existen, y O en otro caso.

Nota: en 1982, estaban vigentes en 20 estados dichas leyes.

*
Los datos utilizados en los resultados de la regresión se obtuvieron de N. M. Meltz, “Interstate and Interprovincial Differences in Union Density”, Industrial Relations, vol. 28, núm. 2, 1989,
pp. 142- 158.
a) A priori, ¿cuál es la razón esperada entre PSP y DAT ?

b) b) ¿Los resultados de la regresión apoyan las expectativas anteriores?

c) Interprete los resultados de la regresión.

d) ¿Cual es el porcentaje promedio de los empleados del sector privado pertenecientes a sindicatos, en los estados en donde no están
vigentes las leyes sobre el derecho al trabajo?

9.15. En el siguiente modelo de regresión:

Yi  1   2 Di  ui

Y representa el salario por hora en dólares, y D es la variable dicótoma, que toma el valor de 1 si es un titulado universitario y O si es un
titulado de escuela media superior. Utilizando las fórmulas para MCO dadas en el capítulo 3, demuestre que ̂1  Yhg y ̂ 2  Ycg  Yhg ,
donde los subíndices tienen los siguientes significados: hg  titulado de escuela media superior y cg  titulado universitario. En total, existen
n1 graduados de escuela media superior y n2 graduados universitarios, para una muestra total de n  n1  n2 .

9.16. Para estudiar la tasa de crecimiento de la población de Belice durante el periodo 1970-1992, Mukherjee et al., estimaron los siguientes modelos: †

Modelo I: In( Pob)t  4.73  0.024 t

t  (781.25)(54.71)

Modelo II: In( Pob)t  4.77  0.015 t  0.075 Dt  0.011( D1t )

t  (2477 .92)(34.01)(17.03)(25.54)

donde Pob  población en millones; t  variable de tendencia; Dt  1 para observaciones que comenzaron en 1978 y 0 antes de 1978; y
In significa logaritmo natural.
a) En el modelo I, ¿cuál es la tasa de crecimiento de la población de Belice durante el periodo de muestra?

b) b) ¿Las tasas de crecimiento son estadísticamente distintas antes y después de 1978? ¿Cómo se sabe? Si son diferentes, ¿cuáles son las
tasas de crecimiento para 1972-1977 y 1978-1992?

9.17. Utilizando la información dada en la tabla 9.7, sección 15A.1, pruébese la hipótesis de que las varianzas de los errores en los dos subperiodos
1958-IV a 1966-III y 1966-IV a 1971-II son los mismos.

9.18. Utilizando la metodología analizada en el capítulo 8, compárese la regresión no restringida (15.10.2) con la restringida (15.10.3), es decir,
pruébese la validez de las restricciones impuestas.


Chandan Mukherjee, Howard White y Marc Wuyts, Econometrics and Data Analysis for Developing Countries, Routledge, Londres, 1998, pp. 372-375. Se adaptaron las notaciones al libro.
9.19. En el ejemplo de la regresión (9.5.4) sobre ahorros-ingreso analizado en el capítulo, supóngase que en lugar de utilizar los valores 0 y 1 para la

variable dicótoma se emplea Z i  a  bDi , donde Di  1 y 0 , a  2 y b  3 . Compárense los resultados.

9.20. Siguiendo con la regresión (9.5.4) sobre ahorros-ingreso, supóngase que se asignó Di  0 para las observaciones hechas en el segundo
periodo, y Di  1 para las observaciones del primer periodo. ¿Cómo cambiarían los resultados mostrados en (9.5.4)?

9.21. Utilice los datos dados en la tabla 9.2 y considérese el siguiente modelo:

In Ahorros i  1   2 In Ingresos i   3 InDi  ui

donde In significa logaritmo natural y Di  1 para 1970-1981 y 10 para 1982-1995.

a) ¿Cuál es el razonamiento detrás de la asignación de valores dicótomos, tal y como se sugiere?

b) Estímese el modelo anterior e interprétense los resultados.

c) ¿Cuáles son los valores de la intersección de la función ahorros en los dos subperiodos y cómo se interpretarían?

9.22. Refiérase a las ventas trimestrales de aparatos dadas en la tabla 9.3. Considérese el siguiente modelo:

Ventas i  1   2 D2i   3 D3i   4 D4i  ui

donde las variables dicótomas D toman los valores de 1 y O para los trimestres I al IV.

a) Estímese de manera individual el modelo anterior para las lavalozas, trituradores de basura y lavadoras.

b) ¿Cómo se interpretarían los coeficientes de las pendientes estimados?

c) ¿Cómo se utilizarían las  estimadas para desestacionalizar los datos sobre ventas de cada categoría de aparato?

9.23. Vuélvase a estimar el modelo del ejercicio 9.22 añadiendo la regresora: gastos en bienes durables.

a) ¿Existe alguna diferencia entre los resultados de la regresión obtenidos en el ejercicio 9.22 y los de este ejercicio?

b) Si existiera estacionalidad en los datos del gasto en bienes durables, ¿cómo se explicaría?

9.24. La tabla 9.8 proporciona datos sobre las elecciones presidenciales de Estados Unidos de 1916 a 1996.*

a) Utilizando los datos de la tabla 9.6, desarrolle un modelo adecuado para predecir la porción correspondiente al Partido Demócrata del voto
bipartidista para la presidencia.

b) ¿Cómo se utilizaría este modelo para predecir el resultado de una elección presidencial?

*
Estos datos se recopilaron originalmente por Ray Fair de Yale University, quien ha estado prediciendo los resultados de las votaciones electorales durante varios años. Los datos se
reproducen de la obra de Samprit Chatterjee, Ah S. Hadi y Petram Price, Regression Analysis by Example, 3a. ed., John Wiley & Sons, Nueva York, 2000, pp. 150-15 1.
TABLA 9.8 DATOS DE LAS ELECCIONES PRESIDENCIALES, 1916-1996

Año V W D G I N P

1916 0.5168 0 1 2.229 1 3 4.252

1920 0.3612 1 0 -11.463 1 5 16.535

1924 0.4176 0 -1 -3.872 -1 10 5.161

1928 0.4118 0 0 4.623 -1 7 0.183

1932 0.5916 0 -1 -14.901 -1 4 7.069

1936 0.6246 0 1 11.921 1 9 2.362

1940 0.5500 0 1 3.708 1 8 0.028

1944 0.5377 1 1 4.119 1 14 5.678

1948 0.5237 1 1 1.849 1 5 8.722

1952 0.4460 0 0 0.627 1 6 2.288

1956 0.4224 0 -1 -1.527 -1 5 1.936

1960 0.5009 0 0 0.114 -1 5 1.932

1964 0.6134 0 1 5.054 1 10 1.247

1968 0.4960 0 0 4.836 1 7 3.215

1972 0.3821 0 -1 6.278 -1 4 4.766

1976 0.5105 0 0 3.663 -1 4 7.657

1980 0.4470 0 1 -3.789 1 5 8.093

1984 0.4083 0 -1 5.387 -1 7 5.403

1988 0.4610 0 0 2.068 -1 6 3.272

1992 0.5345 0 -1 2.293 -1 1 3.692

1996 0.5474 0 1 2.918 1 3 2.268


Notas:

Año Año electoral.

V Porción demócrata del voto bipartidista para la presidencia.

/ Variable indicadora (1 si un candidato demócrata está compitiendo en las elecciones, —1 si es un candidato republicano que compite en las
elecciones; 0 en otro caso).

D Variable indicadora (1 si un candidato demócrata está compitiendo en las elecciones, —1 si es un candidato republicano; O en cualquier otro

caso).

W Variable indicadora (1 para las elecciones de 1920, 1944 y 1948; 0 en cualquier otro caso).

G Tasa de crecimiento del PIB par cápita real en los primeros tres trimestres del año electoral.

P Valor absoluto de la tasa de crecimiento del PIB deflator en los primeros 15 trimestres de la administración.

N Número de trimestres —en los primeros 15 trimestres de la administración— en los que la tasa de crecimiento del PIB per cápita real es mayor
que el 3.2%.

d) Chatterjee et al., sugirieron que se considerara el siguiente modelo como un prototipo para predecir las elecciones presidenciales:

V   0  1 I   2 D   3W   4 (GI )   5 P   6 N  u

Estime este modelo y comente los resultados respecto a los resultados del modelo que se ha elegido.

9.25. Refiérase a la regresión (9.6.4). Pruébese la hipótesis de que la tasa de crecimiento de los ingresos promedio por hora con respecto a la
escolaridad difieren según el sexo y la raza. (Pista: utilice variables dicótomas multiplicativas.)

9.26. Refiérase a la regresión (9.3.1). ¿Cómo modificaría el modelo para saber si existe alguna interacción entre las variables sexo y región de
residencia? Presente los resultados basados en este modelo y compárelos con los dados en (9.3.1).

9.27. En el modelo Yi  1   2 D1 ui , sea Di  0 para las primeras 40 observaciones y Di  1 para las restantes 60 observaciones. Se señala
que u i tiene media cero y una varianza de 100. ¿Cuáles son los valores medios y las varianzas para los dos conjuntos de observaciones?*

9.28. Refiérase a la regresión de ahorros-ingreso analizada en este capítulo. Como modelo alternativo a (9.5.1) considérese:

InYt  1   2 Dt   3 X t   4 ( Dt X t )  ut

donde Y representa los ahorros y X es el ingreso.

a) Estímese el modelo anterior y compare los resultados con los de (9.5.4). ¿Cu es el mejor modelo?

*
Este ejemplo se adaptó de la obra de Peter Kennedy, A Guide to Econornetrics, 4a. ed., MIT Press, Cambridge, Mass., 1998, p. 347.
b) ¿Cómo se interpretaría el coeficiente de la variable dicótoma en este modelo?

c) Como se verá en el capítulo sobre la heteroscedasticidad, a menudo una transformación logarítmica de la variable dependiente reduce la
heteroscedasticidad en los datos. Véase si éste es el caso para el ejemplo presente, realizando la regresión del logaritmo de
Y sobre X para los dos periodos, y obsérvese si las varianzas de error estimadas para los dos periodos son estadísticamente iguales. Si lo
son, se puede utilizar la prueba Chow para agrupar los datos de la manera indicada en el capítulo.

APÉNDICE 9A

Regresión semilogarítmica con regresora dicótoma

En la sección 9.10 se observó que en los modelos del tipo

InYt  1   2 Di (1)

el cambio relativo en Y (es decir, la semielasticidad), con respecto a la regresora dicótoma que toma los valores de 1 o 0, se puede obtener

como el (antilogaritmo de la  2 estimada) — 1 por 100; es decir, como

(e 2  1) x100
ˆ
(2)

La prueba es como sigue: puesto que la función log y exp ( e) son inversas, se puede expresar (1) como:

InYi  1  In(e 2Di ) (3)

Ahora bien, cuando D  0 , e 2 Di  1 , y cuando D  1 , e 2Di  e 2 . Por consiguiente, al pasar del estado 0 al 1, InYt cambia por

(e 2  1) x100 . Pero una variación en el logaritmo de una variable es un cambio relativo, el cual después de la multiplicación por 100 se
convierte en un cambio porcentual. Por tanto, ese cambio porcentual es (e2_ i) x 100, tal y como se afirmaba. (Nota: Ine e  1 , es decir, el log
e , en base e , es 1; al igual que el logaritmo de 10, en base 10, es 1. Recuérdese que el logaritmo de base e se llama logaritmo natural y que
el logaritmo de base 10 se llama logaritmo común.)

VIOLACIÓN DE LOS SUPUESTOS DEL MODELO CLÁSICO

En la parte I se consideró extensamente el modelo clásico de regresión lineal normal y se mostró la forma en que puede utilizarse para manejar
dos problemas de inferencia estadística, a saber, la estimación y la prueba de hipótesis; lo mismo que el problema de predicción. Pero recuérdese
que este modelo está basado en diversos supuestos simplificadores que son los siguientes:

Supuesto 1. El modelo de regresión es lineal en los parámetros.

Supuesto 2. Los valores de las regresoras, las X, son fijos en muestreo repetido.

Supuesto 3. Para X dadas, el valor medio de la perturbación u i es cero.

Supuesto 4. Para X dadas, la varianza de u i es constante u homoscedástica.

Supuesto 5. Para X dadas, no hay autocorrelación en las perturbaciones.


Supuesto 6. Si las X son estocásticas, el término de perturbación y las X (estocásticas) son independientes o, al menos, no están
correlacionadas.

Supuesto 7. El número de observaciones debe ser mayor que el número de regresoras.

Supuesto 8. Debe haber suficiente variabilidad en los valores que toman las regresoras.

Supuesto 9. El modelo de regresión está correctamente especificado.

Supuesto 10. No hay relación lineal exacta (es decir, no hay multicolinealidad) en las regresoras.

Supuesto 11. El término estocástico (de perturbación) u i está normalmente distribuido.

Antes de proseguir, se observa que la mayoría de los libros de texto enumeran menos de 11 supuestos. Por ejemplo, los supuestos 7 y 8 se
dan por cumplidos en lugar de expresarlos explícitamente. Se decidió hacerlos explícitos pues parece
GUÍA DE AUTOEVALUACIÓN

Preguntas abiertas
Responde a los siguientes cuestionamientos

1. Escribe las ecuaciones (intercepto, pendiente e intercepto-pendiente) para tiempos de paz y de guerra para la ecuación C = β 0 + β1Yd + u si
C = consumo, Yd= ingreso disponible y D = 1 en tiempos de guerra y D = 0 en tiempos de paz.

2. Dibuja una gráfica para las ecuaciones anteriores que muestre una función de consumo en tiempos de paz y otra en tiempos de guerra.

3. ¿Cuáles son las ventajas de estimar las ecuaciones anteriores en vez de estimar dos regresiones, una para los años de paz y otra para los años de
guerra?

4. La siguiente tabla muestra la cantidad de leche (en miles de cuartos de litro) ofrecidos por una empresa al mes, Q, a diversos precios, P, durante un
periodo de 14 meses. La empresa tiene que hacer frente a una huelga en alguna de sus fábricas durante los meses 5,6 y 7. Has una regresión de Q
sobre P: Contrastando únicamente un desplazamiento del punto de corte con el eje durante los periodos de huelga y sin huelga.

Cantidad de leche ofrecida (en miles de cuartos de litro) a diversos precios.

Mes 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Q 98 100 103 105 80 87 94 113 116 118 121 123 126 128

P 0.79 0.80 0.82 0.82 0.93 0.95 0.96 0.88 0.88 0.90 0.93 0.94 0.96 0.97

5. Contrastando un desplazamiento del punto de corte con el eje y de la pendiente.

Cantidad de leche ofrecida (en miles de cuartos de litro) a diversos precios.

Mes 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Q 98 100 103 105 80 87 94 113 116 118 121 123 126 128

P 0.79 0.80 0.82 0.82 0.93 0.95 0.96 0.88 0.88 0.90 0.93 0.94 0.96 0.97

6. Indica cinco variables cualitativas importantes para la cuales se ha utilizado la técnica de las variables mudas en las investigaciones cuantitativas
durante los últimos años.

7. Explica la trampa de las variables mudas.


8. Explica el supuesto de la aditividad lineal de los coeficientes de las variables mudas.

9. Define la Prueba de Chow

10. Resume la técnica de utilizar variables mudas para verificar diferencias estructurales.
BIBLIOGRAFÍA COMPLEMENTARIA

 BERNDT, R. Ernst (1991), The Practice of Econometrics. Classic and Contemporary, Editorial Addison-Wesley.

 BOWERMAN L. Bruce, O´CONNELL T. Robert y KOEHLER B. Anne, Pronósticos, Series de Tiempo y Regresión, 4ª. ed., Edit. Thomson,
2007.

 FOX Karl, Manual de econometría, Edit. Amorrotu editores Buenos Aires, 1973.

 GREENE, W.H., Análisis Econométrico, 3ª. ed., Edit. Prentice Hall, 1999.

 JUDGE, G. et al., Introduction to the Theory and Practices of Econometrics, 2a. ed., Edit. l Wiley & Sons, 1988.

 KENNEDY Peter, Introducción a la econometría, 1ª. edición en español. Edit. Fondo de Cultura Económica, 1997.

 KLEIN R. Lawrence y Young M. Richard, An Introduction to Econometric Forecasting and Forecasting Models, 4a. ed. Edit. Lexington
Books, 1982.

 KMENTA Jan, Elementos de Econometría, 1ª. reedición. Edit. VICENS Universidad, 1985.

 WOOLDRIDGE, Jeffrey M, Introducción a la Econometría: Un enfoque moderno, Edit. Thomson, 2001.

 WYNN R.F y Holden K., Introducción al Análisis Econométrico Aplicado, Edit. Ariel, 1987.

Fichas bibliográficas de los documentos

Documento Ficha

2.A DIAZ Fernández Montserrat y Llorente Marrón


Ma. Del Mar

ECONOMETRÍA
3ª edición. Edit. Pirámide, España, 2007

2.B GUJARATI N. Damodar

ECONOMETRÍA
4ª Ed, Edit Mc Graw Hill, México 2004

También podría gustarte