FACULTAD DE INGENIERIA
ESCUELA PROFESIONAL DE INGENIERIA AMBIENTAL
Análisis de regresión, Logit y Probit.
AUTOR:
Izquierdo Culqui, Diana Margoth ([Link]/0000-0003-0121-7722)
ASESOR:
Paz Urrelo, Jorge Luis
TARAPOTO- PERÚ
2022-I
INDICE
I. INTRODUCCIÓN............................................................................................. 3
II. DESARROLLO................................................................................................4
III. CONCLUSIONES...........................................................................................4
REFERENCIAS...................................................................................................4
I. INTRODUCCIÓN
En primera instancia, se conoce que los modelos de regresión en
general tratan acerca del conocimiento de la influencia que ciertas
variables independientes cuyo producto es la modificación de las
variables dependientes 1 (Díaz, 2018 et al., p.36)
a pesar de que la regresión logística no requiere los supuestos antes
nombrados para la regresión lineal simple o multivariada, es necesario
cumplir con los supuestos y exigencias que son propios de este tipo de
prueba y, sobre todo, informar el grado de intensidad asociativa entre las
variables (Díaz, 2018 et al., p.36)
La mayor de todas las ventajas de la regresión logística es el hecho de
estimar si cierto acontecimiento pudo o no ocurrir. Esta situación da
origen a un valor binomial (o multinomial, según el caso) (Díaz, 2018 et
al., p.36)
La aplicación del estudio de riesgos mediante la regresión logística
múltiple implica necesariamente realizar tales estimaciones con la
necesaria información al clínico acerca de todas las limitaciones que
dicho trabajo tiene. Es posible que los trabajos que aplican la regresión
logística múltiple no incluyan el uso de las pruebas de Bondad de Ajuste
o del Coeficiente de Determinación o ambas. Los investigadores que
aplican el modelo de la regresión logística deben obligatoriamente
informar de los resultados de los estimadores que le dan consistencia a
dicho modelo (Díaz, 2018 et al., p.35).
El Carnaval de Negros y Blancos que se realiza en la ciudad de Pasto,
Colombia, fue declarado por la UNESCO como Patrimonio Cultural
Inmaterial de la Humanidad en 2009. El objetivo de este artículo es
estimar la probabilidad de que un individuo (residente local, visitante
nacional o extranjero) pueda participar o no como espectador cultural en
el Carnaval; para ello se utilizó modelos Logit y Probit, cuyos resultados
permiten concluir que la participación depende en forma inversa de la
edad; y de manera directa, del nivel educativo y de la renta personal de
los individuos. Del mismo modo, estos modelos predicen una alta
probabilidad de participación de 96,5% y 97,0%, respectivamente.
(Hidalgo, 2018, p.161).
En esta investigación se desea comparar dos modelos Logit y Probit del
Análisis Multinivel, la comparación se realizó a través de las Medidas de
Calidad para el Ajuste Global, el estadístico de Wald y la diferencia de
las razones de verosimilitudes. Para el análisis se empleó una Base de
Datos del Programa Internacional para la Evaluación de Estudiantes
(PISA) del año 2009. Asimismo, se presentó las similitudes y diferencias
en el uso de cada modelo (Ucedo, 2013).
Con el objetivo de identificar variables que influyen en la satisfacción con
la vida en personas Mapuche, se aplicó una encuesta a 400
participantes pertenecientes a esta etnia en la Región Metropolitana de
Santiago. El cuestionario incluyó las escalas SWLS (Satisfaction with
Life Scale), SWFL (Satisfaction with Food-related Life), estilos de vida,
aculturación, alimentación y características sociodemográficas. Se
plantearon modelos logit y probit multinomiales, en que la variable
dependiente fue la satisfacción con la vida. Ambos modelos resultaron
significativos (p < .01), pero el modelo probit fue más idóneo para
explicar el constructo. La probabilidad de una alta satisfacción con la
vida en la persona Mapuche residente en la Región Metropolitana
aumenta si posee mayor número de bienes en el hogar, se incrementa el
número de niños que vive en el hogar, se encuentra satisfecho con su
propia alimentación, acude generalmente a locales de venta de comida
preparada, aumenta la cantidad de personas que residen en el hogar, si
la persona que aporta el principal ingreso al hogar es trabajador
independiente, es empleado o está jubilado, no posee vehículo propio,
no habla mapudungun en su hogar, le gusta hablar de sus asuntos
personales con otros mapuche y lleva una vida ordenada. Estos
resultados relacionan la Satisfacción con la vida con el peso e impacto
que tienen las variables materiales y subjetivas, observándose un claro
predominio de estas últimas. Esto concuerda con estudios que señalan
que la dimensión de apoyo social vinculada a la posibilidad de
relacionarse con otras personas de igual pertenencia étnica, las
características estructurales del apoyo social y el sentido de pertenencia,
tendrían un importante efecto en la satisfacción vital (Schnettler et al.,
2013).
II. DESARROLLO
Los Modelos de Análisis Multinivel constituyen la metodología de
análisis más adecuada para explicar datos jerarquizados, lo que la
convierte en una herramienta imprescindible para la investigación.
Además de mejorar la calidad de los resultados respecto a sus
estimaciones, posibilita realizar análisis novedosos, tales como
estimar la aportación de cada nivel de análisis o las interacciones
entre variables de distintos niveles. Entre los modelos de Análisis
multinivel más conocidos están el Logit y el Probit, utilizados para
describir la relación existente entre una variable respuesta de tipo
dicotómica y una o más variables explicativas. A través de sus
estimaciones puntuales e intervalares de los parámetros se
calcularon medidas de significancia y parsimonia del modelo (Ucedo,
2013).
En todos los modelos de regresión considerados hasta ahora,
supusimos que la regresada, la variable dependiente o la variable de
respuesta Y era cuantitativa, mientras que las variables explicativas
podían ser cuantitativas o cualitativas, o una mezcla de las dos. De
hecho, en el capítulo 9, sobre variables dicótomas, vimos cómo se
introducen las regresoras dicótomas en un modelo de regresión y el
papel que desempeñan en situaciones específicas. En este capítulo
consideraremos modelos de regresión en los cuales la variable
dependiente o de respuesta puede ser en sí misma de naturaleza
cualitativa. Aunque los modelos de regresión de respuesta cualitativa
cada vez son más comunes en diversas áreas de las ciencias
sociales y la investigación médica, plantean interesantes retos
respecto de su cálculo y estimación. En este capítulo sólo
abordaremos algunos temas importantes de esta área, y dejamos los
detalles para libros más especializados.
MODELO LOGIT
El modelo Logit permite obtener estimaciones de la probabilidad de
un suceso e identificar los factores de riesgo que determinan dichas
probabilidades. Este modelo es empleado cuando se desea
comparar un grupo de variables independientes con una variable
dependiente no métrica (dicotómica), por lo que su posible respuesta
es 0 (Fracaso, Ausencia de …) o 1 (Éxito, Presencia de …), por este
motivo no se puede usar un modelo lineal. La modelización Logit es
similar a la regresión tradicional salvo que utiliza como función de
estimación la función logística en vez de la lineal. Con la
modelización Logit, el resultado del modelo es la estimación de la
probabilidad de que un nuevo individuo pertenezca a un grupo o a
otro, mientras que, por otro lado, al tratarse de un análisis de
regresión, también permite identificar las variables más importantes
que explican las diferencias entre grupos (Ucedo, 2013).
La mayor de todas las ventajas de la regresión logística es el hecho
de estimar si cierto acontecimiento pudo o no ocurrir. Esta situación
da origen a un valor binomial (o multinomial, según el caso) que
constituye la variable dependiente y que la regresión logística tiende
a predecir el comportamiento de esta variable, sobre la base de la
probabilidad de que un suceso se produzca o no a partir de la
evaluación de las variables independientes. Estas últimas, pueden
tener distribución binomial o cuantitativa discreta o continua. Si la
predicción resulta mayor a el valor de probabilidad de 0,50 implica
que la variable independiente es capaz de predecir de forma positiva
la ocurrencia de cierto fenómeno y viceversa en la misma medida
que dicha predicción se acerca al valor de 1. Tal procedimiento nos
conduce a estimar el coeficiente logístico, el cual nos permite calcular
la razón de dos probabilidades: la ocurrencia y la no ocurrencia de un
fenómeno. Esta razón de probabilidades (odds ratio) se expresa
(Díaz, 2018 et al., p.36)
Donde X1, X2 ..., Xn son las variables independientes y “e” es la
base del logaritmo neperiano. Los coeficientes estimados (β0, β1, β2
…,βn ) constituyen medidas de los cambios que se producen en la
razón de probabilidades en la variable dependiente. Desde el punto
de vista práctico y concreto, estos coeficientes están precedidos por
signos: un coeficiente positivo indica un aumento de la probabilidad y
un negativo disminuye la probabilidad de que ocurra un fenómeno.
Como consecuencia, el signo del coeficiente es una forma de
conceptualizar el tipo de asociación que existe entre la variable
independiente con respecto a la variable dependiente (Díaz, 2018 et
al., p.36).
Como se puede observar esta función tiene una forma sigmoidea y
está acotada entre cero y uno. Con esta función de enlace, la
probabilidad Prob (Yij = 1|β) se encontrará en el intervalo de 0 a 1.
Según Rasbash et al (2004), en una distribución logística los
residuos del nivel 1 poseen una media igual a cero y una variancia
igual a 𝜋2/3.
VENTAJAS
Al ser la variable dependiente dicotómica no necesita que se
cumple el supuesto de normalidad.
En este modelo los coeficientes por sí solos no tienen una
interpretación sencilla, no obstante, al ser exponenciados y luego
restados en uno, su interpretación se vuelve más comprensible.
En un modelo multinivel con función de enlace Logit se puede
obtener probabilidades, entonces es posible clasificar a un individuo
a la pertenencia de un grupo u otro.
DESVENTAJAS
El tamaño de muestra debe ser grande, ya que tiene como método
de estimación la máxima verosimilitud.
MODELO PROBIT
Fue incorporado como una alternativa log-lineal para manejar
conjuntos de datos con variable respuesta categórica binaria. El
análisis Probit es usado para analizar muchas clases de
experimentos tipo dosis-respuesta (binaria) en una variedad de
campos. Por ejemplo, en marketing alguien puede estar interesado
en modelar preferencias de clientes por determinados productos
(Compra/no compra) a partir de la aplicación de comerciales
televisivos cada cierto número de minutos (dosis). En ensayos
clínicos donde puede interesar el alivio de una dolencia (Si/no) como
resultado de suministrar diferentes dosis de un de medicamento.
Este análisis es comúnmente aplicado en la toxicología, para
determinar la toxicidad relativa de productos químicos a organismos
vivos. Esto se realiza observando la respuesta de un organismo a
varias concentraciones de cada uno de los productos químicos en
cuestión y luego comparando las concentraciones en las cuales se
encuentra una respuesta (Por ejemplo, la muerte). Por lo tanto, la
respuesta es siempre binomial y la relación entre la dosis y la
respuesta es de tipo sigmoidea. La transformación Probit actúa como
una transformación de sigmoideo a lineal para poder ajustar el
modelo de regresión (Ucedo, 2013).
Para motivar el modelo probit, suponga que, en el ejemplo de
propiedad de vivienda, la decisión de la i-ésima familia de tener casa
propia o de no tenerla depende de un índice de conveniencia no
observable Ii (también conocido como variable latente), determinado
por una o diversas variables explicativas, digamos, el ingreso Xi, de
manera que entre mayor sea el valor del índice Ii, mayor será la
probabilidad de que la familia posea vivienda (Gujarati y Porter,
2009).
Donde P(Y 1| X) signifi ca la probabilidad de que un suceso ocurra
dado(s) el (los) valor(es) de X o la(s) variable(s) explicativa(s), y
donde Zi es la variable normal estandarizada; es decir, Z ∼ N(0, σ2 ).
F es la FDA normal estándar, que, escrita de manera explícita en el
presente con
(Gujarati y Porter, 2009).Como P representa la probabilidad de que
ocurra un suceso, en este caso la probabilidad de tener casa propia,
se mide por el área de la curva normal estándar de −∞ a Ii, como se
muestra en la fi gura 15.4a. Ahora, para obtener información sobre Ii,
el índice de utilidad, lo mismo que para β1 y β2, se toma la inversa
de (15.9.2) para obtener:
(Gujarati y Porter, 2009).donde F −1 es la inversa de la FDA normal.
El significado de todo esto se aclara con la fi gura 15.4. En el panel
a) de esta fi gura se obtiene (de la ordenada) la probabilidad
(acumulada) de tener casa propia dado Ii ∗ ≤ Ii, mientras que en el
panel b) se obtiene (de la abscisa) el valor de Ii dado el valor de Pi,
que es simplemente el inverso del primero. Pero, específi camente,
¿cómo obtenemos el índice Ii al igual que las estimaciones de β1 y
β2? Como en el caso del modelo logit, la respuesta depende que se
cuente con datos agrupados o desagrupados. Consideramos los dos
casos de manera individual.
Tanto la distribución normal estándar acumulada usada en Probit
como la curva logística utilizada en la regresión logit tienen forma de
S alargada, aunque la normal acumulada tienen una pendiente
ligeramente mayor (pero en general las diferencias son muy
pequeñas). En una distribución Probit los residuos del nivel 1 poseen
distribución normal con una media igual a cero y una variancia igual a
1.
VENTAJAS
Se pueden obtener estimaciones de probabilidad para la ocurrencia
de un suceso.
Construye una variable latente continua en la cual el investigador
puede estar más interesado que en sus probabilidades.
DESVENTAJAS
El tamaño de muestra debe ser grande, ya que tiene como
método de estimación la máxima verosimilitud.
Los coeficientes no tienen una interpretación directa.
REFERENCIAS
VHUS ([Link])
[Link]
[Link]
[Link]
[Link]
[Link]