INTRODUCCIÓN
El modelo Logit y el modelo Probit son técnicas valiosas y ampliamente empleadas en la
modelización de variables binarias.
Cuando nos referimos a varibles binarias, es que, en muchos estudios e investigaciones,
nos encontramos con variables que solo pueden tomar dos valores posibles, como "sí" o
"no", "éxito" o "fracaso", "aprobado" o "reprobado", entre otros. Estas variables se
denominan variables binarias, dicotómicas o dummy.
Estas herramientas estadísticas proporcionan una base sólida para analizar y predecir la
probabilidad de ocurrencia de un evento en función de variables explicativas, permitiendo
así una comprensión más profunda de los fenómenos subyacentes (secundarios) y
respaldando la toma de decisiones fundamentadas en diversos campos, como la
estadística y la econometría.
MODELO PROBIT
El modelo Probit, desarrollado en 1934 por Chester Ittner Bliss, es una técnica de
regresión empleada para la modelización y predicción de variables binarias o
dicotómicas. Al igual que el modelo Logit, el modelo Probit se utiliza para estimar la
probabilidad de que ocurra un evento o resultado, basándose en un conjunto de variables
explicativas. El modelo Probit emplea una función de enlace conocida como función
probit, la cual relaciona las variables explicativas con la probabilidad de que se produzca
el evento. Dicha función probit se basa en la distribución acumulada de la distribución
normal estándar, transformando las variables explicativas en una escala continua.
FORMULA MATEMATICA
Leer diapositiva
MODELO LOGIT
En 1944, Joseph Berkson propuso el modelo Logit, una técnica de regresión para predecir
variables binarias. Su objetivo es estimar la probabilidad de un evento específico
utilizando un conjunto de variables explicativas. Este modelo utiliza una función de
enlace llamada logit, que relaciona las variables explicativas con la probabilidad de
ocurrencia del evento. El logit transforma la probabilidad en una escala logarítmica,
permitiendo un análisis lineal de las variables explicativas en términos del logaritmo de
la probabilidad.
Aquí tenemos la gráfica del modelo Logit. Como podemos ver, el rango de valores se
encuentra entre 0 y 1. En este ejemplo en particular, se utiliza la base e para la función
logarítmica.
FORMULA MATEMATICA
Leer diapositiva
COMPARACIÓN ENTRE LOS MODELOS LOGIT Y PROBIT
En esta diapositiva, vamos a destacar las diferencias entre el modelo Logit y el modelo
Probit, así como las ventajas y desventajas de cada uno.
Una de las principales diferencias entre el modelo Logit y el modelo Probit radica en la
función de enlace utilizada. En el modelo Logit, se utiliza la función logística como
enlace, mientras que en el modelo Probit se utiliza la función de distribución acumulada
normal estándar. Esto significa que la relación entre las variables independientes y la
variable dependiente se establece de manera diferente en cada modelo.
Otra diferencia importante se encuentra en la distribución del término de error aleatorio.
En el modelo Logit, se asume una distribución logística para este término de error,
mientras que en el modelo Probit se asume una distribución lineal con distribución
normal. Estas diferencias en las distribuciones del error pueden afectar los resultados y
las interpretaciones obtenidas de cada modelo.
En cuanto a la forma de la curva, tanto el modelo Logit como el modelo Probit presentan
una curva en forma de "S". Sin embargo, debido a las diferencias en las funciones de
enlace y en las distribuciones del error, la forma exacta de estas curvas puede variar
ligeramente entre ambos modelos.
La estimación de los coeficientes en ambos modelos se realiza mediante el método de
Máxima Verosimilitud. Este método busca encontrar los valores de los coeficientes que
maximizan la probabilidad de observar los datos que se tienen.
La interpretación de los coeficientes también difiere entre ambos modelos. En el modelo
Logit, los coeficientes se interpretan como el cambio en el logaritmo de las probabilidades
(también conocido como log-odds) de que la variable dependiente tome el valor de
interés, por cada unidad de cambio en la variable independiente correspondiente. En
cambio, en el modelo Probit, los coeficientes se interpretan como el cambio en el valor z,
que representa la distancia de la media de la distribución normal estándar al valor
observado de la variable dependiente.
CRITICAS A LOS MODELOS LOGIT Y PROBIT
Supuestos restrictivos: Los modelos asumen distribuciones de error específicas, lo cual
puede resultar poco realista en algunos casos.
Independencia de observaciones: Ambos modelos asumen la independencia de las
observaciones, pero en la realidad, las observaciones pueden estar correlacionadas.
Dificultad de interpretación de coeficientes: Los coeficientes estimados en los modelos
Logit y Probit no tienen una interpretación directa y pueden ser difíciles de entender.
Limitación en la predicción fuera del rango observado: Las predicciones de
probabilidades fuera del rango observado pueden ser poco confiables y problemáticas
debido a la naturaleza paramétrica de los modelos.
EJEMPLO PRÁCTICO
En esta sección, presentaremos un ejemplo práctico para ilustrar el uso de los modelos
Logit y Probit en la modelización de variables binarias.
En este estudio, se realizó un análisis considerando variables como la edad, el estado civil,
la escolaridad y la participación de las mujeres en el mercado laboral. Para llevar a cabo
este análisis, se contó con un total de 30 observaciones. Utilizando el software Stata
versión 14.
Como primer paso se cargó la base de datos de Excel en Stata, para posteriormente crear
etiquetas para las variables.
Una vez definido el nombre de las variables tenemos en cuenta lo siguiente:
“y” (variable dicotómica) es nuestra variable dependiente.
“casada” (variable dicotómica), edad (variable continua) y escolaridad (variable
continua) son nuestras variables independientes.
EJEMPLO PRÁCTICO – MODELO LOGIT
Se utilizó el método de Estimación de Máxima Verosimilitud para obtener los
coeficientes estimados del modelo Logit.
GRÁFICO
Mediante este gráfico se puede mencionar lo siguiente:
El modelo tiene un “Pseudo R2” de 0.3916.
Un “Wald chi2” que representa la probabilidad del modelo en su conjunto con
un valor de 7.73; además se puede evidencia la significancia global del modelo
dado por “Prob>chi2” que es de 0.0519.
La significancia individual de los parámetros indica que la variable “edad y
𝒃𝟎” no son significativas para el modelo, mientras que la variable
“escolaridad y casada” son significativas para el modelo.
ODDS RATIOS– MODELO LOGIT
Se calcularon los Odds Ratios para cada variable explicativa. Los Odds Ratios
proporcionan una medida del cambio en las probabilidades de ocurrencia del evento para
un cambio unitario en la variable explicativa. Estos resultados se interpretaron para
comprender el impacto relativo de cada variable en la probabilidad de ocurrencia del
evento.
INTERPRETACIÓN
Existe una probabilidad de -93,54% de que una mujer esté en el mercado laboral con
respecto a que no esté en el mercado laboral si se encuentra casada.
INTERPRETACIÓN
Existe una probabilidad de -6,24% de que una mujer esté en el mercado laboral que con
respecto a que no esté si tiene más grado de escolaridad.
INTERPRETACIÓN
Existe una probabilidad del 100,15% de que una mujer esté en el mercado laboral que
con respecto a que no esté si tiene más grado de escolaridad.
EFECTOS MARGINALES DE LAS VARIABLES
Luego de haber interpretado los ODDS RATIOS se procedió a revisar los efectos
marginales de las variables.
GRÁFICO
Para poder revisar los efectos marginales se toma en cuenta el conjunto del modelo, es
decir, todas las variables o características (ver gráfico), la interpretación del efecto
marginal para cada variable es el siguiente:
Se tiene que la probabilidad de que una mujer se encuentre en el mercado laboral
sea de 0.71179464.
De manera individual se tiene que si la mujer se encuentra casada su probabilidad
de que se encuentre en el mercado laboral será de -49.14% en promedio,
manteniendo los demás factores constante.
Si aumenta su escolaridad en una unidad la probabilidad de que se encuentre en
el mercado laboral será de 14.23% en promedio, manteniendo los demás factores
constantes, además sabiendo que estas dos variables son significativas
(escolaridad y casada).
La variable “edad” no es significativa para el modelo, además esta variable con
“casada” tienen una relación negativa con la participación de las mujeres en el
mercado laboral, mientras que “escolaridad” tiene una relación positiva
EJEMPLO PRÁCTICO – MODELO PROBIT
Con el modelo PROBIT aplicamos el mismo desarrollo que con el modelo LOGIT, con
la diferencia que no se obtienen los ODDS RATIOS, obteniendo así por el método de
estimación por máxima verosimilitud los siguientes resultados.
GRÁFICO
Los datos obtenidos fueron los siguientes:
El modelo cuenta con un “Pseudo R2” de 0.3900.
Un “Wald chi2” de 10.54 que representa la probabilidad del modelo en su
conjunto.
La significancia global del modelo dado por “Prob>chi2” es de 0.0145, lo que nos
indica que es adecuada ya que es cercano a cero.
La significancia individual de los parámetros indica que; la variable “edad y 𝒃𝟎”
no son significativas para el modelo. Mientras que la variable “casada y
escolaridad” son significativas para el modelo, teniendo el nivel de significancia
menor al p-valor de referencia (0.05).
La variable “casada, edad y 𝒃𝟎” tienen un efecto negativo hacía la participación
de las mujeres en el mercado laboral, mientras que la escolaridad tiene un efecto
positivo con la participación de las mujeres en el mercado laboral.
EFECTOS MARGINALES DE LAS VARIABLES
Los efectos marginales proporcionan información sobre cómo cambian las probabilidades
de ocurrencia del evento cuando las variables explicativas varían en un pequeño intervalo.
GRÁFICO
Teniendo los siguientes resultados:
La probabilidad de que una mujer se encuentre en el mercado laboral es de
0.68311362, tomando en cuenta el conjunto del modelo, es decir, tomando todas
las variables o características en cuenta.
De manera individual tenemos que si la mujer se encuentra casada su probabilidad
de que se encuentre en el mercado laboral será de -47.78% en promedio,
manteniendo los demás valores constantes.
Si aumenta su escolaridad en una unidad la probabilidad de que se encuentre en
el mercado laboral será del 14.33% en promedio, manteniendo los demás factores
constantes.
La variable “casada y escolaridad” son significativas para el modelo, mientras que
la variable “edad” no es significativa para el modelo.
COMPARACIÓN DE LOS MODELOS
Leer diapositiva
CONCLUSIONES
El modelo Logit y el modelo Probit son enfoques utilizados en econometría para modelar
variables binarias o categóricas. Son útiles para analizar cómo diferentes factores influyen
en la probabilidad de que ocurra un evento o una elección. Sin embargo, ambos modelos
se enfrentan a críticas y limitaciones.
Es importante destacar que el modelo Logit y el modelo Probit no son los únicos enfoques
disponibles para modelar variables binarias o categóricas. Existen otros modelos, como
el modelo lineal de probabilidad y el modelo de regresión de Poisson, que también pueden
ser utilizados en ciertos contextos.
La información obtenida del trabajo aplicativo del Modelo Logit & Probit se puede
mencionar que existen diferentes variables o situaciones que afectan en ciertas medidas
la presencia de mujeres en el mercado laboral, tanto negativa como positivamente;
teniendo que la escolaridad y el estado civil son significativas para este caso, afectando
de forma positiva y negativa al modelo respectivamente, es decir, mientras más años de
estudio mejores posibilidades de trabajar se tendrá, así mismo el estado civil dependerá
su presencia en el mercado laboral, mientras que la edad no es significativa para este caso,
es decir que no influye tanto la edad para que una mujer participe en el mercado laboral.
Los mejores modelos de estimación para este caso debido a la significancia de las
variables es el PROBIT, pero también se podría agregar más observaciones para una
mejor estimación o agregar variables que puedan brindar un mejor modelo y así sea más
significativo.