Modelo Logit
El modelo logit permite obtener estimaciones de la probabilidad de un suceso,
identificar los factores de riesgo que determinan dichas probabilidades, así como la
influencia o peso relativo que éstos tienen sobre las mismas.
Este modelo es empleado cuando se desea comparar un grupo de variables
independientes con una variable dependiente no métrica (dicotómica), por lo que su
posible respuesta es 0 (Fracaso, Ausencia de …) o 1 (Éxito, Presencia de …), por este
motivo no se puede usar un modelo lineal.
Este tipo de modelo arroja como resultado un índice, cuyos determinantes son
conocidos, el cual permite efectuar ordenaciones, las cuales, al realizarse, posibilitan,
con algún método de estratificación, generar clasificaciones en las que se le asocia a
cada elemento una calificación. Existen muchos criterios para llevar a cabo la
asociación índice - calificación, muchos de ellos con base en índices de muestreo,
donde el criterio es puramente estadístico. Otros criterios podrían considerarse como
subjetivos.
Para el caso más sencillo, el de una única variable explicativa, se trata de encontrar la
relación que existe entre la variable explicativa y la endógena. Las posibilidades que se
plantean son:
Que la función que relaciona ambas variables sea una función lineal, caso en el cual se
tiene, lo que se ha denominado, el modelo lineal de probabilidad. Este asume que la
relación entre las variables explicativas y la variable explicada tiene un comportamiento
lineal, suposición que en muchos casos no se da, dando esta situación origen a los
modelos de regresión no lineales, dentro de los cuales se encuentran ubicados los
modelos Probit y Logit.
La modelización Logit es similar a la regresión tradicional salvo que utiliza como función
de estimación la función logística en vez de la lineal. Con la modelización Logit, el
resultado del modelo es la estimación de la probabilidad de que un nuevo individuo
pertenezca a un grupo o a otro, mientras que, por otro lado, al tratarse de un análisis de
regresión, también permite identificar las variables más importantes que explican las
diferencias entre grupos.
La modelización Logit es similar a la regresión tradicional salvo que utiliza como función
de estimación la función logística en vez de la lineal. Con la modelización Logit, el
resultado del modelo es la estimación de la probabilidad de que un nuevo individuo
pertenezca a un grupo o a otro, mientras que por otro lado, al tratarse de un análisis de
regresión, también permite identificar las variables más importantes que explican las
diferencias entre grupos.
Existen distintos tipos de modelos Logit en función de las características que presenten
las alternativas que definen a la variable endógena. Esta variable permite medir el número
de grupos existentes en el análisis, los modelos Logit se pueden clasificar así:
Logit dicotómico: Se utiliza cuando el número de alternativas son dos y excluyentes
entre sí.
Logit de respuesta múltiple: Se utiliza cuando el número de alternativas a
modelizar es superior a dos.
Logit con datos no ordenados: Se utiliza cuando las alternativas que presenta la
variable endógena no indican ningún orden
Logit multinomial: Se utiliza cuando los regresores del modelo hacen referencia a
las observaciones muéstrales, por lo que varían entre observaciones pero no entre
alternativas.
Logit condicional: Se utiliza cuando los regresores del modelo hacen referencia a
las alternativas, por lo que sus valores varían entre alternativas pudiendo hacerlo o
no entre observaciones.
Logit con datos ordenados: Se utiliza cuando las alternativas de la variable
endógena representan un orden entre ellas.
El modelo Logit dicotómico:
Presenta las siguientes características principales:
Variable endógena binaria: Identifica la pertenencia del individuo a una de dos posibles
categorías, identificando con el número 1 si el individuo pertenece a la característica de
interés cuya probabilidad se estimará en el modelo. Se identifica con 0 al elemento que
no posee la característica de interés, cuya probabilidad también se estima con el modelo.
Variables exógenas: Son las variables que permiten discriminar entre los grupos y que
determinan la pertenencia de un elemento a un grupo u otro. Pueden estar medidas en
escala nominal, ordinal, de intervalo o de razón.
Resultado del análisis: El resultado del análisis es un vector de parámetros con valores
numéricos, que son los coeficientes para cada uno de las variables explicativas que hacen
parte definitiva del modelo. La importancia radica en que a cada valor del vector de
parámetros le corresponde una variable explicativa, al tenerse en cuenta todas en
conjunto y dar valores a cada una de las variables independientes contenidas en el modelo
definitivo, se obtiene el valor de la probabilidad de que un individuo posea la
característica de interés estudiada en el modelo.
Modelo logit de respuesta múltiple:
Cuando la variable endógena a modelizar es una variable discreta con varias alternativas
posibles de respuesta, nos encontramos ante los modelos de respuesta múltiple. Estos
modelos se clasifican en dos grandes grupos según las alternativas que presenta la
variable endógena así: cuando se puedan ordenar (modelos con datos ordenados) o no se
puedan ordenar (modelos con datos no ordenados).
Logit multinomial
En este tipo de modelos las alternativas de la variable respuesta indican la pertenencia de
las observaciones a un determinado grupo sin incorporar información ordinal.
Logit ordinal
En este tipo de modelos las alternativas de la variable respuesta permiten establecer un
orden entre las distintas observaciones.
Explicación:
Sea la variable respuesta Y, la cual sólo puede tomar los valores Y=1 (presencia de la
característica de interés) con probabilidad de ocurrencia igual a π y Y=0 (ausencia de la
característica de interés) con probabilidad 1-π. Además, sea la covariable (variable
predictiva o variable independiente) X, la cual puede ser categórica o continua.
Si la variable Y es el resultado de un experimento de Bernoulli, esto es, las observaciones
son independientes, entonces la variable aleatoria tiene distribución de Bernoulli con:
𝑬 (𝒀 / 𝑿 = 𝒙) = π (Esperanza condicional de Y dado X=x), y
𝑽 (𝒀 / 𝑿 = 𝒙) = π (𝟏 −π) (Varianza condicional de Y dado X=x).
Por lo tanto, la probabilidad de que Y = 1 es igual a la 𝑬 (𝒀 / 𝑿 = 𝒙) = π y puede ser
calculada a partir de una distribución de probabilidad que tiene la forma de la curva
sigmoidea, en particular esta curva puede ser la logística,
Donde 𝜼 = 𝜷𝟎 + 𝜷𝟏𝑿 es el predictor lineal y la función de enlace canónico es:
Su representación como un modelo lineal generalizado, será:
La utilidad del modelo se basa en que muchas veces, el perfil de variables predictivas
puede estar formado por características cualitativas y cuantitativas; y se pretende hacer
participar a todas en una sola ecuación conjunta que explique como la probabilidad de
alcanzar una respuesta depende de todas y cada una de las variables predictivas.