3-7-2018
REGRESIÓN
LOGÍSTICA
Integrantes:
Loayza Ramos, Carmen
Sánchez Pizarro, Eliana
Valencia Cáceres, Leslie
Profesor:
Rino Sotomayor Ruiz
Facultad:
Economía y Planificación
2018-I
INTRODUCCIÓN
Son muchos los problemas y cuestiones de interés en Economía en los que la
variable endógena no toma en la muestra todos los valores de un intervalo real,
sino sólo un número finito de ellos; a veces, esta variable ni siquiera es
cuantificable.
El caso más frecuente de variables endógenas discretas surge cuando el
investigador pretende utilizar un modelo econométrico para explicar la decisión
tomada por un agente económico utilizando para ello un vector de características
de dicho individuo.
La Regresión Logística es una técnica estadística multivariante que permite
estimar la relación existente entre una variable dependiente no métrica, en
particular dicotómica y un conjunto de variables independientes métricas o no
métricas.
El Análisis de Regresión Logística tiene la misma estrategia que el Análisis de
Regresión Lineal Múltiple, su diferencias es porque la variable dependiente es
métrica; en la práctica el uso de ambas técnicas tienen mucha semejanza,
aunque sus enfoques matemáticos son diferentes.
REGRESIÓN LOGÍSTICA
Técnica multivariable en la variable dependiente es categórica y las variables
independientes son de cualquier naturaleza (cuantitativas o cualitativas) o
continua.
Determina la probabilidad de que un suceso ocurra.
ODD: cociente entre la probabilidad de que ocurra un suceso frente a la
probabilidad que no ocurra, teniendo en cuenta otro evento.
ODD RATIO: es la medida más utilizada en estudio de casos y controles
Características:
Una cualidad que puede únicamente tomar dos modalidades (modelos
binomiales), son las más frecuentemente utilizadas,
Una cualidad que puede tomar más de dos modalidades diferentes,
exhaustivas y mutuamente excluyentes (modelos multinomiales),
Una característica con varias modalidades que presentan entre ellas un
orden natural (modelos ordenados)
La característica a explicar corresponde a una decisión que puede
suponer decisiones encadenadas (modelos anidados).
OBJETIVOS
El objetivo primordial de esta técnica es el de modelar cómo influyen las variables
regresoras en la probabilidad de ocurrencia de un suceso particular.
Sistemáticamente tiene dos objetivos:
Investigar cómo influye en la probabilidad de ocurrencia de un suceso, la
presencia o no de diversos factores y el valor o nivel de los mismos.
Determinar el modelo más parsimonioso y mejor ajustado que siendo
razonable describa la relación entre la variable respuesta y un conjunto
de variables regresoras.
LIMITACIONES
INDEPENDENCIA DE LOS ERRORES
Multicolinealidad: Expresa el grado de interrelación entre los predictores y lo que
la técnica de regresión asume es que ésta es de baja magnitud. Su
incumplimiento tiene graves consecuencias.
Hay dos alternativas cuando la multicolinealidad es alta:
Regresión sesgada (“ridge regresión”), intenta estabilizar los parámetros
manipulando las varianzas.
Regresión por componentes principales, que se basa en la alta
correlación entre predictores para definir variados que son combinaciones
lineales de los predictores y emplear los variados como nuevos
predictores del criterio.
NÚMERO DE VARIABLES Y NÚMERO DE SUJETOS
No es recomendable con bajo número de participantes ya que se la estimación
no se hace adecuadamente y además se distorsiona la interpretación.
PUNTOS EXTREMOS
La presencia de puntos extremos puede traducirse en una baja capacidad
predictiva del modelo.
REGRESIÓN LOGÍSTICA Y OTROS MÉTODOS RELACIONADOS
El objetivo general de la Regresión Logística es predecir la probabilidad de un
evento de interés en una investigación, así como identificar las variables
predictoras útiles para tal predicción.
Se pueden usar varios métodos multivariantes para predecir una variable
respuesta de naturaleza dicotómica a partir de un grupo de variables regresoras.
El Análisis de Regresión Lineal Múltiple y el Análisis Discriminante son dos
métodos eficaces pero plantean problemas cuando la variable respuesta es
binaria.
En el Análisis de Regresión Lineal Múltiple cuando la variable respuesta toma
solo dos valores, se violan los supuestos de necesarios para efectuar inferencias,
los problemas que se plantean son:
La distribución de los errores aleatorios no es normal.
Los valores predictados no pueden ser interpretados como probabilidades
como en la Regresión Logística, porque no toman valores dentro del
intervalo [0,1].
El Análisis Discriminante permite la predicción de pertenencia de la unidad de
análisis a uno de los dos grupos pre-establecidos, pero se requiere que se
cumplan los supuestos de multinormalidad de las variables regresoras y la
igualdad de matrices de covarianzas de los dos grupos, pueden ser diferentes
también; para que la regla de predicción sea óptima, Johnson (1982).
La Regresión Logística requiere mucho menos supuestos que el AD, por ello
cuando satisfacen los supuestos requeridos para el AD, la Regresión Logística
trabaja bien.
A continuación se describirá un paralelo entre la Regresión Lineal Múltiple y la
Regresión Logística, debido a que ambos tienen el mismo objetivo, predecir la
variable respuesta a partir de las variables regresoras.
ANÁLISIS DE REGRESIÓN LOGÍSTICA BINARIA
Es una técnica estadística que tiene como objetivo comprobar relaciones
causales cuando la variable dependiente (y) es una variable binaria decir tiene
dos categorías.
Ejm:
Y=1 COMPRA Y=1 VOTA
Y=0 NO COMPRA Y=0 NO VOTA
Basándose en la idea que las variables independientes tratan de predecir la
probabilidad que ocurra algo sobre la probabilidad de que no ocurra.
Un ejemplo seria si queremos explicar porque las personas votan o no votan en
las elecciones y nuestras variables independientes o regresoras son el nivel de
ingresos, nivel educativo y escala ideológica LA REGRECION LOGISTICA
BINARIA señala si las variables independientes son buenas predictoras o
explicadoras del evento votar.
DEFINICIÓN DEL MODELO DE REGRESIÓN LOGÍSTICA BINARIA
Componente Aleatorio:
(Yi |πi) ∼ Bin(1, πi)
Donde:
Yi es el número de éxitos observados en la i-ésima muestra
πi es la probabilidad de éxito en la i-ésima muestra.
i = 1, ..., n, siendo n el tamaño de la muestra.
Componente Sistemático:
ηi = β0 + β1x1,i + ...βpxp,i = x¨ i β
Donde:
ηi es el predictor lineal.
X1,..., Xp son las variables regresoras.
Función de Enlace:
Si se sabe que:
Despejando:
Donde:
exp (βˆ 0) permite estudiar la relación entre la probabilidad de éxito y
fracaso cuando todas las regresoras son iguales a cero.
exp (βˆ j) indica el cambio (aumento si βj > 0, disminución si βj < 0) en la
chance de éxito cuando la j-ésima regresora se incrementa en una unidad.
REGRESIÓN LOGÍSTICA MÚLTIPLE
La regresión logística multinomial es utilizada en modelos con variables
dependientes de tipo nominal con más de dos categorías (polinómicas) y es de
extensión multivalente de la regresión logística binaria clásica. Las variables
independientes pueden ser continuas (regresores) o categóricas (factores).
Anteriormente las variables dependientes polinómicas han sido
modeladas mediante análisis discriminante pero, con el creciente desarrollo de
las técnicas de cálculo, ahora es más común usar el modelo de regresión
logística multinomial, ya implementados en paquetes estadísticos como S.P.S.S
(NOMREG), debido a la mejor interpretación de los resultados que proporciona.
Para poder presentar las bases teóricas de esta técnica estadística, para ello
consideraremos un caso con dos regresores y una variable polinómica con tres
categorías.
- MODELO DE REGRESIÓN LOGÍSTICA MÚLTIPLE
Consideramos una variable aleatoria dependiente Y categoría nominal
polinómica con soporte (Y)= {1, 2, 3} y con probabilidad p1=p (Y=1), p2=p (Y=2)
y p3=p (Y=3)=1-p1-p2. Supongamos que queremos analizar el efecto que ejercen
dos variables explicativas continuas X1, X2 sobre las probabilidades p1 y p2 que
caracterizan a la variable Y. Podemos redefinir a la variable Y mediante un vector
(Y1, Y2) construido de la siguiente forma:
(Y1, Y2)=
Las variables Y1 e Y2 tienen una distribución de Bernouilli con E (Y1)=p1 y E
(Y2)=p2, al igual que la variable dependiente en una regresión logística binaria
clásica. Obviamente estas dos variables no son independientes ya que Cov (Y1,
Y2)= -p1p2.
Formulamos el modelo multivariante definido por las siguientes ecuaciones:
Donde Z1= β01+β11*X1+β21*X2 y Z2=β02+β12*X1+β22*X2, siendo β01, β11, β21, β02,
β12, β22, parámetros que deseamos estimar.
Con el propósito de interpretar mejor los parámetros que aparecen en el
modelo, podríamos reescribir este de la siguiente forma:
Al cociente p1/p3 se le denomina “odds” de la
categoría 3 y se le representa por O1(X1, X2)= O1 (ídem. Para O2). De este modo
puede observarse fácilmente que la razón de cambio en O 1 cuando X1 se
incrementa en una unidad manteniéndose constante X2 viene dada por, que
recibe el nombre de “odds-ratio” de la categoría 1 respecto de la variable X1 y se
representa por OR1 (X1) (ídem. Para OR1 (X2), OR2 (X1) y OR2 (X2).
Es interesante observar que estas “odds-ratio” dependen de las unidades
en que vengan medidas las variables regresoras (si multiplicamos X1 por 10, OR1
(X1) pasaría a ser ). Por tanto la importancia de cada variable
regresora en el modelo debería medirse por el valor de la odds-ratio suponiendo
que esta estandarizada dicha variable. Este es el motivo por el que se habla de
las “odds-ratio” estandarizadas en las variables regresoras. Por ejemplo
OR1(X*1)=exp (β11.Sx1) siendo Sx1 la deviación típica muestral de la variable X1
(ídem. Para OR1(X*2), OR2(X*1) y OR2(X*2)). Cuando más grande sea este valor
más relevante es la variable dentro del modelo.
También interesa definir las proporciones de cambio en las “odds” con
respecto a cada variable regresora que, por ejemplo, para O1 con respecto a X1,
viene dada por:
y que representaremos por: OC1 (X1) (ídem. Para OC1 (X2), OC2 (X1) y OC2 (X2)).
Otra formulación alternativa, y quizás más conocida, se obtiene tomando
logaritmos en ambas ecuaciones del modelo:
Donde las expresiones del miembro izquierdo se denominan ‘logits’ (al igual que
en la regresión logística binaria) y los parámetros representan las tasas de
cambio en los ‘logits’ cuando una de las variables explicativas se incrementa en
una unidad manteniéndose constante la otra.
- Estimación de parámetros
Dada una muestra de datos (Y1i, Y2i, X1i, X2i) con i=1,2,…., n podemos
definir, en funciones de los parámetros del modelo, las funciones Z 1i, Z2i, p1i, p2i
y abordar el problema de la estimación de los mismos mediante el método de
máxima verosimilitud, como se muestra a continuación.
Con el modelo planteado, la función de verosimilitud de la muestra viene
dada por la siguiente expresión:
En vez de trabajar con esta expresión se utiliza la función auxiliar:
El problema de maximizar la verosimilitud equivalente al de maximizar A A
y puede resolverse por métodos numéricos de forma iterativa partiendo de la
estimación inicial β11= β21= β12= β22=0, β01=ln (n1)-ln(n-n1-n2) y β02=ln (n2)-ln(n-
n1-n2) siendo n1 y n2 el número de observaciones en las categorías 1 y 2
respectivamente. Estos estimadores iniciales se obtienen suponiendo que no
hay una influencia de las variables regresoras en el modelo planteado y para
ellos el valor inicial de la función auxiliar que debemos de minimizar es:
Una vez alcanzada la convergencia del método iterativo, designaremos
por A♀ al mínimo obtenido y por estimado de β01, β11, β21, β02, β12, β22 a los
valores estimados de los parámetro del modelo.
- Significatividad global del modelo.
Podemos contrastar la hipótesis de no existencia de un efecto significativo
global de las variables regresoras teniendo en cuenta que la diferencia entre el
valor inicial y el valor final de la función auxiliar A tiene una distribución X2 con 4
grados de libertad ( en general, numero de regresores multiplicando por número
de categorías menos una). El p-valor del test para la hipótesis nula de que no
existe efecto de las variables regresoras (β11= β21= β12= β22=0) vendrá dado por
p( X24> A0-A1).
-Significatividad del efecto de cada variable regresora
Si llamamos A-1 al mínimo de la función auxiliar que se obtendrá
eliminando del modelo la variable X1 (β11=β12=0) se verifica que la diferencia
entre los mínimos de la función auxiliar en el modelo reducido y en el modelo
completo tiene una distribución X2 con 2 grados de libertad (en general, numero
de regresores menos uno multiplicado por número de categoría menos una). Por
tanto el p-valor del test para la hipótesis nula de que no existe efecto de la
variable X1 (β11=β12=0) vendrá dado por p(X24> A-1 -A♀). De modo similar
podríamos calcular A-0 (mínimo de la función auxiliar eliminando β 01 y β02 del
modelo) y A-2 (mínimo de la función auxiliar eliminando del modelo la variable X2)
y construir test de hipótesis para β01=β02=0 y β21=β22=0, respectivamente.
-Significatividad de cada parámetro
Teniendo en cuenta que el cuadrado de cada estimador dividido por su
error estándar tiene una distribución X2 con 1 grado de libertad podemos
construir test de hipótesis para la igualdad de cada parámetro a cero y podremos
saber que estimadores de los parámetros del modelo son significativamente
distintos de cero. Por ejemplo, para el test de hipótesis β 11=0 el p-valor seria,
siendo
El valor correspondiente al error estándar del estimador del
parámetro β11.
Intervalos de confianza para los parámetros
Basándonos en la normalidad asintótica de los estimadores máximos
verosímiles podemos construir, utilizando la distribución normal, intervalos de
confianza asintóticos para cada uno de los parámetros del modelo y, mediante
las transformaciones correspondientes, intervalos de confianza (I.C.) para las
OR y las OC. Por ejemplo, para el parámetro β11, y utilizando un grado de
confianza de 1–α, tendríamos:
I. C. para β11:
I. C. para OR1(X1):
I: C: para OR1(X*1):
I. C. para OC1(X1):
Siendo zα/2 el valor que, en una distribución normal (0,1), verifica p(Z>zα/2)=α/2
Calidad del ajuste
Al igual que en la regresión logística binaria, la calidad del ajuste en la regresión
logística multinomial se mide mediante coeficientes de determinación conocidos
como Pseudo-R2. De entre todos ellos comentaremos los más clásicos, que son
los que proporciona el paquete estadístico S.P.S.S.
El primero se basa en la función auxiliar Λ utilizada en el ajuste, se conoce
como pseudo-R2 de Mc-Fadden y viene dado por:
Su rango teórico de valores es 0≤ R2MF ≤1, pero muy raramente su valor se
aproxima a 1. Suele considerarse una buena calidad del ajuste cuando 0.2≤ R2MF
≤0.4 y excelente para valores superiores.
Otros autores prefieren coeficientes basados directamente en la verosimilitud L,
y no en la función auxiliar Λ. El más conocido es el pseudo-R2 de Cox-Snell,
definido como
Siendo L0=exp(–Λ0/2) y Lf =exp(–Λf /2). El rango teórico de valores para este
coeficiente es
lo que le hace poco interpretable al depender de L0. Por este motivo es
preferible el pseudo-R2 de Nagelkerke, que se define como
y su rango de valores es 0≤ R2N ≤1 por lo que puede interpretarse del mismo
modo que el coeficiente de determinación de la regresión lineal clásica, aunque
es más difícil que alcance valores próximos a 1.
Para comparar modelos de regresión logística multinomial con diferente número
de variables regresoras suelen introducirse coeficientes Pseudo-R2 ajustados. El
más conocido es el de Mc-Fadden, definido como,
Siendo k el número de regresores.
Calidad en la predicción
Si, a partir del modelo ajustado, clasificamos cada observación en la categoría
más probable, podemos construir una matriz de clasificación observados-
predichos y utilizar el porcentaje de clasificaciones correctas como una medida
de la calidad de predicción, del mismo modo que se hace en el análisis
discriminante.
CASO PRÁCTICO
Un Cuestionario realizado a estudiantes para determinar la demanda potencial
en un nuevo posgrado en finanzas en la División de Ciencias Económicas y
Administrativas de la Universidad de Sonora que se realizó de manera virtual
atreves de la plataforma survey Monkey , en la cual la universidad se encuentra
interesada en abrir un nuevo programa de posgrado.
De los datos proporcionados por la encuesta realizada podremos sugerir que
una variable importante al momento de decidir comenzar una maestría es la
edad. Con la finalidad de probar esta afirmación, tomamos los datos
proporcionados por la encuesta con una muestra de 132 egresados de diversas
edades, entre 23 y 51 años, donde y = 1 si está interesado, y = 0 en caso
contrario. Los datos se encuentran en el archivo posgrado.xls y se muestra una
parte de éstos:
En el SPSS
Significación de Chi-Cuadrado
Prueba se Hosmer y Lehesshow
H0: El modelo se ajusta a los datos
H1: El modelo no se ajusta a los datos
Para α = 0.05, se tiene que el pvalor supera dicho nivel de significación,
entonces no se rechaza H0, por lo tanto existe evidencia estadística para
indicar que el modelo se ajusta a los datos.
R- Cuadrado de cox y Snell
R- Cuadrado de Nagelkerke
H0: El modelo se ajusta a los datos
H1: El modelo no se ajusta a los datos
Valor calculado: D = 65.885 Valor crítico o de tabla: X 2 = 151.0452
132−2
Se rechaza H0 si el valor crítico es mayor al calculado. En este caso no
rechazamos H0 por lo que el modelo se ajusta a los datos.
- Deviance (D) es el valor calculado si este es mayor al valor critico quiere
decir que el modelo se ajusta a los datos.
- R2 indica que parte de la varianza de la variable dependiente (Y) es
explicada por el modelo, es decir por las variables regresoras.
Hay dos R 2
R 2 de Cox y Snell: Pseudo coeficiente de determinación, su valor máximo
no es igual a 1
R 2 de Nagelkerke en el cual se realiza la correlación del R 2 de Cox y
Snell, de tal modo que este coeficiente si se encuentra entre 0 y 1.
Tabla de Clasificación:
Donde el porcentaje global correctamente clasificado indica el número de
casos que el modelo es capaz de predecir correctamente.
El modelo tiene que ser mayor al 50% para que este se clasifique
correctamente.
TABLA VARIABLES EN LA ECUACION:
HO: β1 = 0
H1: β1 ≠ 0
Para α = 0:05, se tiene que el pvalor es menor al nivel de significación, por
lo que se debe rechazar la hipótesis nula.
Entonces la edad es una variable que contribuye al modelo.
BIBLIOGRAFÍA
https://docplayer.es/23442349-La-regresion-logistica-una-aplicacion-a-la-
demanda-de-estudios-universitarios.html
https://documat.unirioja.es/descarga/articulo/2981898.pdf
1.
http://networkianos.com/regresion-logistica-binaria/