0% encontró este documento útil (0 votos)
313 vistas35 páginas

Regresión Logistica Completo

Este documento describe el modelo de regresión logística. Explica cómo este modelo permite estimar la probabilidad de que una variable cualitativa binaria tome un valor de 1 en función de una o más variables cuantitativas. Incluye ejemplos y explica conceptos clave como la función logística, el logit, la ecuación de regresión logística y las pruebas de significancia del modelo y de las variables.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
313 vistas35 páginas

Regresión Logistica Completo

Este documento describe el modelo de regresión logística. Explica cómo este modelo permite estimar la probabilidad de que una variable cualitativa binaria tome un valor de 1 en función de una o más variables cuantitativas. Incluye ejemplos y explica conceptos clave como la función logística, el logit, la ecuación de regresión logística y las pruebas de significancia del modelo y de las variables.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

REGRESIÓN LOGÍSTICA

LOGRO ESPERADO
Resuelve problemas no lineales utilizando la regresión logística en problemas de contexto
profesional/científico.

INDICADORES DE LOGRO
• Estima la ecuación de regresión logística utilizando la formula correspondiente.
• Explica el significado de los coeficiente a partir de las referencias teóricas en problemas
contextualizados.
• Realiza la prueba de significancia del modelo a partir de las referencias teóricas en
problemas contextualizados.
INTRODUCCIÓN
La regresión logística es una técnica analítica que permite estimar la probabilidad de que una
variable respuesta cualitativa tome un valor en función de una o más variables regresoras
cuantitativas.

En el presente curso se trabaja con variables cualitativas binarias, cuyas categorías son
codificadas con 0 o 1. Se supone que la variable sigue una distribución Bernoulli. A la categoría
de interés se le asigna el número 1. La regresión logística modela la probabilidad de que la
variable cualitativa pertenezca a la categoría de interés 1.

La regresión logística se encuadra en el conjunto de Modelos Lineales Generalizados.


EJEMPLO 1
A continuación se presenta el nivel de evaluación (aceptable:1 y no aceptable:0) de un
producto de acuerdo a su precio en dólares:
Precio Nivel de evaluación
3.17 1
3.58 1
1.49 0
2.91 1
0.76 0
3.7 1
5.08 1
2.11 1
2.2 0
4.76 1
7.05 1
3.36 0
3.22 0
6.55 1
0.7 0
1.06 1
4.66 1
0.7 0
1.21 0
¿QUÉ OCURRE SI SE UTILIZA UN MODELO DE REGRESIÓN LINEAL
SIMPLE?
Si se utiliza un modelo de regresión lineal simple, se obtiene lo siguiente:

Se observa claramente un mal ajuste de


la recta a los datos.

¿Qué modelo se puede utilizar?


El modelo debe ser no lineal y debe permitir estimar probabilidades. Existen varias funciones cuyos resultados
siempre se encuentran entre 0 y 1. Entre las más utilizadas, se tienen la función logística y la función acumulada de
la distribución normal estándar.
FUNCIÓN LOGÍSTICA
La función logística presenta resultados que siempre se encuentran entre 0 y 1. Está función se
define de la siguiente manera:

1
𝜎 𝑥 =
1 + 𝑒 −𝑥
REGRESIÓN LOGÍSTICA
Dada una variable cualitativa binaria 𝑌~𝐵𝑒𝑟(𝜋) y una variable regresora X, considere el
siguiente modelo:
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜖
Si 𝐸 𝜖 = 0, se tiene:
𝐸 𝑌 = 𝛽0 + 𝛽1 𝑋

Como 𝑌~𝐵𝑒𝑟(𝜋), entonces 𝐸 𝑌 = 𝜋, es decir: 𝛽0 + 𝛽1 𝑋 = 𝜋. Por lo que, el valor esperado de Y


es la probabilidad de que Y=1. Es decir, 𝐸 𝑌 = 𝑃 𝑌 = 1 = β0 + β1 X.

Como ya se mencionó, este modelo no se ajusta adecuadamente a los datos. Una función no
lineal que se ajusta mejor a los datos es la función logística. Con un argumento lineal, la función
logística tiene la siguiente forma:
1 𝑒 𝛽0 +𝛽1 𝑋
𝐸 𝑌 = −(𝛽 +𝛽 𝑋)
=
1+𝑒 0 1 1 + 𝑒𝛽0 +𝛽1 𝑋
Como Y sigue una distribución Bernoulli, el valor esperado de Y proporciona la probabilidad de
que Y=1.
GRÁFICO CORRESPONDIENTE A UNA FUNCIÓN LOGÍSTICA

El hecho de que los valores de 𝐸 𝑌


varíen entre 0 y 1, hacen que la curva
con forma de S sea ideal para modelar
la probabilidad de que Y=1.

Se tienen 2 funciones que se utilizan


con mayor frecuencia a las que les
corresponde una gráfica parecida: la
función logística (asociada a los
modelos logit) y la función acumulada
de la distribución normal estándar
(asociada a los modelos probit).
MODELO DE REGRESIÓN LOGÍSTICA
Dada una variable cualitativa binaria 𝑌~𝐵𝑒𝑟(𝜋) y una variable regresora X, el
modelo de regresión logística tiene la siguiente forma:

𝑌 =𝐸 𝑌 +𝜖
donde:
1 𝑒 𝛽0+𝛽1 𝑋
𝐸 𝑌 = = =𝜋
1 + 𝑒 −(𝛽0 +𝛽1𝑋) 𝛽
1+𝑒 0 1+𝛽 𝑋

Observación
El método que se utiliza para estimar los parámetros del modelo es el método de
máxima verosimilitud.
MODELO DE REGRESIÓN LOGÍSTICA PARA K VARIABLES
REGRESORAS
Dada una variable cualitativa binaria 𝑌~𝐵𝑒𝑟(𝜋) y k variables regresoras 𝑋1 , … , 𝑋𝑘 ,
el modelo de regresión logística tiene la siguiente forma:

𝑌 =𝐸 𝑌 +𝜖
donde:

𝑒 𝛽0 +𝛽1𝑋1 +⋯+𝛽𝑘 𝑋𝑘
𝐸 𝑌 = 𝛽 +𝛽 𝑋 +⋯+𝛽 𝑋
⋯ (1)
1+𝑒 0 1 1 𝑘 𝑘

Observación
El método que se utiliza para estimar los parámetros del modelo es el método de
máxima verosimilitud.
ECUACIÓN DE REGRESIÓN LOGÍSTICA ESTIMADA

La ecuación de regresión logística estimada tiene la siguiente forma:

𝑒 𝑏0+𝑏1𝑋1 +⋯+𝑏𝑘𝑋𝑘
𝑦= 𝑏 +𝑏 𝑋 +⋯+𝑏 𝑋
,
1+𝑒 0 1 1 𝑘 𝑘

donde 𝑦 es una estimación de la probabilidad de que Y=1, para un conjunto dado


de valores de 𝑋1 , … . , 𝑋𝑘 .
EJEMPLO 2
Obtenga la ecuación de regresión logística correspondiente al problema 1.
Con el programa Minitab, se obtiene la siguiente ecuación:
P(1) = exp(-2.80 + 1.149 Precio)/(1 + exp(-2.80 + 1.149 Precio))

La probabilidad de que los productos cuyo precio es 3.5 dólares tengan un nivel de
evaluación aceptable es 0.7723. Verifique!
PRUEBA DE SIGNIFICANCIA DEL MODELO

La existencia de una relación significativa entre una variable respuesta binaria y k


variables regresoras se puede estudiar mediante test estadísticos.

Plantear las hipótesis

𝐻0 : 𝐸𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑠𝑒 𝑎𝑗𝑢𝑠𝑡𝑎 𝑎 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠


𝐻1 : 𝐸𝑙 𝑚𝑜𝑑𝑒𝑙𝑜 𝑛𝑜 𝑠𝑒 𝑎𝑗𝑢𝑠𝑡𝑎 𝑎 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠

Dado un nivel de significancia 𝛼, concluir de acuerdo al p-valor. Si p-valor < 𝛼 , se


rechaza 𝐻0 .

Observación
El estadístico de prueba sigue una distribución Chi-Cuadrado.
PRUEBA DE SIGNIFICANCIA PARA LAS VARIABLES
REGRESORAS
La prueba de significancia de cada variable regresora consiste de los siguientes pasos:
Plantear las hipótesis (∀𝑖)
𝐻0 : 𝛽𝑖 = 0
𝐻1 : 𝛽𝑖 ≠ 0

Dado un nivel de significancia 𝛼, concluir de acuerdo al p-valor. Si p-valor < 𝛼 , se


rechaza 𝐻0 .

Observación
Para muestras grandes, el estadístico de prueba sigue una distribución normal.
Odd
Una razón o ratio es el cociente entre 2 cantidades y señala cuantas veces una cantidad es mayor
o menor respecto a la otra.

El término Odd en inglés se refiere a la razón que se establece entre la probabilidad de


ocurrencia de un evento respecto a la probabilidad de su no ocurrencia.
𝜋
𝑜𝑑𝑑 =
1−𝜋
donde 𝜋 es la probabilidad de ocurrencia de un evento.
Si se utiliza la ecuación de regresión logística 1, se tiene el siguiente odd:

𝑜𝑑𝑑 = 𝑒 𝛽0 +𝛽1 𝑋1 +⋯+𝛽𝑘𝑋𝑘


Aplicando logaritmo natural, se obtiene:

𝐿𝑛(𝑜𝑑𝑑) = 𝛽0 + 𝛽1 𝑋1 + ⋯ + 𝛽𝑘 𝑋𝑘
EL MODELO LOGIT

El modelo logit permite realizar estimaciones de las probabilidades


correspondientes a las categorías de la variable respuesta binaria en función de las
variables regresoras. La estimación de la probabilidad de que la variable respuesta
sea igual a la categoría de interés (Y=1) en función de las variables regresoras, se
basa en la función logística.
EL LOGIT

El logit se define como el logaritmo natural del Odd, así:

𝜋
𝐿𝑛(𝑜𝑑𝑑) = 𝐿𝑛( )
1−𝜋

El Logit tiene 2 propiedades que son de mucha utilidad:


• El logit toma cualquier valor real entre -∞ y +∞
• El logit permite una lectura simétrica de la relación entre probabilidades.
TRANSFORMACIÓN LOGIT

Debido a que el logit puede tomar cualquier valor real, se puede suponer un modelo
lineal múltiple sin restricciones con k variables regresoras 𝑋1 , … , 𝑋𝑘 , es decir:

𝐿𝑛(𝑜𝑑𝑑) = 𝛽0 + 𝛽1 𝑋1 + ⋯ + 𝛽𝑘 𝑋𝑘

𝜋
𝐿𝑛 = 𝛽0 + 𝛽1 𝑋1 + ⋯ + 𝛽𝑘 𝑋𝑘
1−𝜋
de donde:
𝑒 𝛽0 +𝛽1 𝑋1 +⋯+𝛽𝑘 𝑋𝑘
𝜋=
1 + 𝑒 𝛽0 +𝛽1 𝑋1 +⋯+𝛽𝑘 𝑋𝑘

De esta manera, se tiene la ecuación de regresión logística. Se observa que 𝜋 y las


variables regresoras 𝑋1 , … , 𝑋𝑘 tienen una relación no lineal.
LOGIT ESTIMADO

Luego de estimar los parámetros, el logit estimado tiene la siguiente forma:

𝑒 𝑏0 +𝑏1𝑋1 +⋯+𝑏𝑘𝑋𝑘
𝜋=𝑝=
1 + 𝑒 𝑏0+𝑏1𝑋1 +⋯+𝑏𝑘𝑋𝑘

Observación
El método que se utiliza para estimar los parámetros del modelo es el método de
máxima verosimilitud.
EJEMPLO

El gerente de la empresa R&G desea obtener un modelo de regresión logística para


saber si gana o no la licitación pública para contratación con el estado en obras de
construcción. Las variables a considerar son el tiempo de permanencia en el
mercado (en años) y el capital (en millones de soles). La variable dependiente
resultado toma el valor de 1 si gana, y el valor de 0 si no es así. El gerente cuenta
con la siguiente información:
DATA
Tiempo Capital Resultado
9 17 1
3 15 0
10 11 1
2 17 1
2 14 0
4 20 1
10 15 1
3 13 0
6 12 0
5 17 1
2 13 0
3 10 1
4 12 0
5 20 1
7 14 1
7 3 0
3 22 1
8 11 1
GRÁFICA DE SUPERFICIE
RESULTADOS OBTENIDOS CON EL PROGRAMA MINITAB

Información de respuesta

Variable Valor Conteo


Resultado 1 11 (Evento)
0 7
Total 18

Ecuación de regresión

P(1) = exp(Y')/(1 + exp(Y'))

Y' = -9.50 + 0.680 Tiempo + 0.488 Capital

Coeficientes
EE del
Término Coef coef. VIF
Constante -9.50 4.56
Tiempo 0.680 0.348 1.24
Capital 0.488 0.266 1.24
RESULTADOS OBTENIDOS CON EL PROGRAMA MINITAB
Tabla de desviaciones

Desv. Media
Fuente GL ajust. ajust. Chi-cuadrada Valor p
Regresión 2 10.984 5.492 10.98 0.004
Tiempo 1 6.463 6.463 6.46 0.011
Capital 1 7.952 7.952 7.95 0.005
Error 15 13.073 0.872
Total 17 24.057

Prueba para la variable tiempo Prueba para la variable capital


𝐻0 : 𝛽1 = 0 𝐻0 : 𝛽2 = 0
𝐻1 : 𝛽1 ≠ 0 𝐻1 : 𝛽2 ≠ 0

Como p-valor=0.011 < α=0.05, se rechaza H0. Al Como p-valor=0.005 < α=0.05, se rechaza H0. Al
5% de significancia, existe evidencia estadística 5% de significancia, existe evidencia estadística
para pensar que la variable tiempo es significativa. para pensar que la variable capital es significativa.
RESULTADOS OBTENIDOS CON EL PROGRAMA MINITAB
Resumen del modelo
R-cuad.
R-cuad. de (ajust) de
desviación desviación AIC
45.66% 37.34% 19.07
Si la empresa A tiene un año más de permanencia en el
Relaciones de probabilidades para mercado que la empresa B, la posibilidad estimada de que la
predictores continuos empresa A gane la licitación es 1.9738 mayor que la posibilidad
estimada de que la empresa B lo haga, manteniendo la otra
Relación de variable constante.
probabilidades IC de 95% Si la empresa A tiene un millón más de capital que la empresa
Tiempo 1.9738 (0.9980; 3.9039) B, la posibilidad estimada de que la empresa A gane la licitación
Capital 1.6296 (0.9666; 2.7471) es 1.6296 mayor que la posibilidad estimada de que la empresa
B lo haga, manteniendo la otra variable constante.

Pruebas de bondad del ajuste H0: El modelo se ajusta a los datos


H1: El modelo no se ajusta a los datos
Prueba GL Chi-cuadrada Valor p Con la prueba de la desviación se concluye que el modelo es el
Desviación 15 13.07 0.597 adecuado (p-valor=0.597>alfa=0.05).
Pearson 15 18.33 0.246 Estás pruebas son importantes para determinar si el modelo es
Hosmer-Lemeshow 8 5.83 0.666 adecuado.
RESULTADOS OBTENIDOS CON EL PROGRAMA MINITAB

Ajustes y diagnósticos para observaciones


poco comunes
Minitab considera un residuo grande a los residuos
estandarizados mayores que 2 en valor absoluto. Se esperaría
Probabilidad Resid
un 5% de observaciones con residuos grandes.
Obs observada Ajuste Resid est.
12 1.000 0.071 2.302 2.47 R
EL MODELO PROBIT: INTRODUCCIÓN

El modelo probit permite realizar estimaciones de las probabilidades


correspondientes a las categorías de la variable respuesta binaria en función de las
variables regresoras. Para estimar la probabilidad de que la variable respuesta sea
igual a la categoría de referencia (Y=1) en función de las variables regresoras, se
utiliza la función acumulada de la distribución normal estándar .
FUNCIÓN ACUMULADA DE LA DISTRIBUCIÓN NORMAL
ESTÁNDAR

La función acumulada de la distribución normal estándar se define de la siguiente


manera:
𝑥
1 𝑡2

Φ(𝑥) = 𝑒 2 𝑑𝑡
2𝜋
−∞
TRANSFORMACIÓN PROBIT

Para calcular la probabilidad de que Y sea igual a la categoría de referencia (Y=1) en


función de las k variables regresoras 𝑋1 , … , 𝑋𝑘 , se utiliza la función acumulada de la
distribución normal estándar con un argumento lineal 𝛽0 + 𝛽1 𝑋1 + ⋯ + 𝛽𝑘 𝑋𝑘 , es
decir:

𝜋 = Φ 𝛽0 + 𝛽1 𝑋1 + ⋯ + 𝛽𝑘 𝑋𝑘
EJEMPLO
Información de respuesta
Variable Valor Conteo
Resultado 1 11 (Evento)
0 7
Total 18

Ecuación de regresión
P(1) = Φ(Y')

Y' = -5.17 + 0.388 Tiempo + 0.265 Capital


Φ = CDF de la distribución normal estándar

Coeficientes
EE del
Término Coef coef. VIF
Constante -5.17 2.10
Tiempo 0.388 0.192 1.12
Capital 0.265 0.124 1.12
Tabla de desviaciones

Desv. Media
Fuente GL ajust. ajust. Chi-cuadrada Valor p
Regresión 2 10.910 5.455 10.91 0.004
Tiempo 1 6.207 6.207 6.21 0.013
Capital 1 7.801 7.801 7.80 0.005
Error 15 13.147 0.877
Total 17 24.057

Prueba para la variable tiempo Prueba para la variable capital


𝐻0 : 𝛽1 = 0 𝐻0 : 𝛽2 = 0
𝐻1 : 𝛽1 ≠ 0 𝐻1 : 𝛽2 ≠ 0

Como p-valor=0.013 < α=0.05, se rechaza H0. Al Como p-valor=0.005 < α=0.05, se rechaza H0. Al
5% de significancia, existe evidencia estadística 5% de significancia, existe evidencia estadística
para pensar que la variable tiempo es significativa. para pensar que la variable capital es significativa.
Resumen del modelo

R-cuad.
R-cuad. de (ajust) de
desviación desviación AIC
45.35% 37.04% 19.15
Pruebas de bondad del ajuste

Prueba GL Chi-cuadrada Valor p


Desviación 15 13.15 0.591
Pearson 15 16.06 0.378
Hosmer-Lemeshow 8 5.31 0.724

Ajustes y diagnósticos para observaciones


poco comunes

Probabilidad Resid
Obs observada Ajuste Resid est.
12 1.000 0.087 2.207 2.78 R
METACOGNICIÓN

• ¿Que aspectos le han parecido interesantes?


• ¿Que contenido considera más importante del tema trabajado?
• ¿Qué competencias del tema podría aplicar en su vida diaria?
PARA REFORZAR LO APRENDIDO

RESUELVA LOS PROBLEMAS PROPUESTOS


REFERENCIAS BIBLIOGRÁFICAS

1. Montgomery, D. (2014). Applied statistics and probability for


engineers (6a ed.). United States of America.: Hoboken, NJ2.
2. Mendenhall, W. & Sincich, T. (2016). Statistics for engineering
and the sciences (6a ed.). Boca Raton: CRC Press, Taylor &
Francis Group.

También podría gustarte