0% encontró este documento útil (0 votos)
18 vistas24 páginas

Modelos de Regresión para Variables Binarias

Cargado por

mathic2705
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
18 vistas24 páginas

Modelos de Regresión para Variables Binarias

Cargado por

mathic2705
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Métodos Cuantitativos I

MEC 310
Clase 15: Modelos para
variable dependiente
binaria
Agenda

▪ Relacionando una variable de respuesta binaria


con un set de variables explicativas

▪ Modelos para variable dependiente binaria:

➢ El modelo de probabilidad lineal


➢ El modelo de regresión logística
➢ El modelo probit

▪ Estimación e inferencia estadística


2: Datos y Análisis de
Relacionando una variable
binaria con un set
de variables explicativas
os Exploratorio
Ejemplo: Riesgo de Crédito
• Tenemos información de un grupo de 150 mil personas
que tomaron un crédito en un banco comercial
• Varias variables (atributos) de los dos años previos a
tomar el crédito fueron medidas y registradas: variables
explicativas o predictoras
• Después de dos años de tomar el crédito, se registró si la
persona tuvo una morosidad de 90 días o más en el
crédito (variable dependiente)
• El objetivo es: construir un modelo para explicar la
probabilidad de tener una morosidad (de 90 días o más)
en un crédito, a partir del conjunto de predictores que
tenemos en la base de datos
Ejemplo: Riesgo de Crédito
Variables Descripción
SeriousDlqin2yrs La persona experimentó 90 días de morosidad vencida o más
Saldo total en tarjetas de crédito y líneas de crédito personales,
RevolvingUtilizationOfUnsecuredLines excepto bienes raíces y sin deuda a plazos, como préstamos para automóviles,
dividido por la suma de los límites de crédito
age Edad del prestatario en años
Número de veces que el prestatario ha estado atrasado entre 30 y 59 días,
NumberOfTime30-59DaysPastDueNotWorse
pero no más en los últimos 2 años.
Pagos mensuales de deuda, pensión alimenticia y costos de vida divididos
DebtRatio
por el ingreso bruto mensual.
MonthlyIncome Ingreso mensual
Número de préstamos abiertos (cuotas como préstamo de automóvil o hipoteca)
NumberOfOpenCreditLinesAndLoans
y líneas de crédito (por ejemplo, tarjetas de crédito)
NumberOfTimes90DaysLate Número de veces que el prestatario ha estado atrasado 90 días o más
Número de préstamos hipotecarios e inmobiliarios, incluidas las líneas de crédito
NumberRealEstateLoansOrLines
con garantía hipotecaria
Número de veces que el prestatario ha estado atrasado entre 60 y 89 días, pero no
NumberOfTime60-89DaysPastDueNotWorse
más en los últimos 2 años
NumberOfDependents Número de dependientes en la familia excluyéndose a sí mismos (cónyuge, hijos, etc.)

https://www.kaggle.com/c/GiveMeSomeCredit/
Clase 2: Datos y Análisis de
El modelo de probabilidad
lineal
El modelo de probabilidad lineal
Datos: (𝑋1,𝑖 , … , 𝑋𝑝,𝑖 , 𝑌𝑖 ) para 𝑖 = 1,2,3, … , 𝑛

▪ 𝑌𝑖 : variable de respuesta, de resultado o dependiente que es


binaria, es decir tomar el valor 1 o 0
▪ 𝑋𝑗,𝑖 : p variables predictoras, exógenas o explicativas (que no son
aleatorias, son determinísticas) 𝑗 con 𝑗 = 1, … , 𝑝

El modelo de probabilidad lineal modela la probabilidad que una


variable dicotómica sea igual a 1 como una función lineal de los
predictores:
Pr 𝑌𝑖 = 1 𝑋𝑖 = 𝑥𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + ⋯ + 𝛽𝑝 𝑥𝑝𝑖

Por ejemplo, con sólo un predictor, Pr 𝑌𝑖 = 1 𝑋𝑖 = 𝑥𝑖 = 𝛽0 + 𝛽1 𝑥1 .


El modelo de probabilidad lineal

▪ Para algunos valores de 𝑥𝑖 , el modelo predice una probabilidad


negativa o mayor a 1!
▪ Necesitamos una función que estime probabilidades acotadas
en el intervalo [0,1]
Clase 2: Datos y Análisis de
Modelos alternativos
de variable
dependiente binaria
El modelo de variable dependiente
binaria
Datos: (𝑋1,𝑖 , … , 𝑋𝑝,𝑖 , 𝑌𝑖 ) para 𝑖 = 1,2,3, … , 𝑛

▪ 𝑌𝑖 : variable de respuesta, de resultado o dependiente que es


binaria, es decir tomar el valor 1 o 0
▪ 𝑋𝑗,𝑖 : variable predictora, exógena o explicativa (que no es
aleatoria, es determinística) 𝑗 con 𝑗 = 1, … , 𝑝

El modelo de variable dependiente binaria se puede escribir como:

𝑌𝑖 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 𝑝𝑖 independientemente

con 𝑝𝑖 ∈ 0,1 . Notar que: Pr 𝑌𝑖 = 1 = 𝑝𝑖 y Pr 𝑌𝑖 = 0 = 1 − 𝑝𝑖

Dependiendo de cómo modelamos 𝑝𝑖 estamos en el modelo logit (o


regresión logística) o en el modelo probit
El modelo de variable dependiente
binaria
Lo que se asume en la práctica es que 𝑝𝑖 es una función de ciertas
características del individuo: 𝑝𝑖 = 𝐹(𝑥𝑖 ) , donde la forma 𝐹(⋅)
funcional depende de un investigador ya sea en dependencia a la
teoría o la conveniencia.

Una forma de motivar lo anterior es definiendo una variable “latente”


𝑦𝑖∗ que no es observable por el investigador, pero que determina un
umbral.
Por ejemplo:
1 𝑠𝑖 𝑦𝑖∗ > 0
𝑌𝑖 = ൝
0 𝑠𝑖 𝑦𝑖∗ ≤ 0,

donde: 𝑦𝑖∗ = 𝛽0 + 𝛽1 𝑥1𝑖 + ⋯ + 𝛽𝑝 𝑥𝑝𝑖 − 𝑒𝑖


El modelo de variable dependiente
binaria
Donde el supuesto clave será que el error, 𝑒𝑖 se distribuye de cierta
forma conocida. En cuyo caso:

Pr(𝑌𝑖 = 1) = Pr 𝑦𝑖∗ > 0


= Pr(𝛽0 + 𝛽1 𝑥1𝑖 + ⋯ + 𝛽𝑝 𝑥𝑝𝑖 − 𝑒𝑖 > 0)
= Pr 𝑒𝑖 < 𝛽0 + 𝛽1 𝑥1𝑖 + ⋯ + 𝛽𝑝 𝑥𝑝𝑖
= F(𝛽0 + 𝛽1 𝑥1𝑖 + ⋯ + 𝛽𝑝 𝑥𝑝𝑖 ).

De forma similar:

Pr(𝑌𝑖 = 0) = 1 − F(𝛽0 + 𝛽1 𝑥1𝑖 + ⋯ + 𝛽𝑝 𝑥𝑝𝑖 ).


Modelo logit (regresión logística)
El modelo es: 𝑌𝑖 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 𝑝𝑖 independientemente. Ahora bien,
si modelamos 𝑝𝑖 de la siguiente forma:

exp(𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖 )


𝑝𝑖 =
1 + exp(𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖 )

estamos estimando un modelo logit. Notar que en este caso:

exp(𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖 )


Pr 𝑌𝑖 = 1 = 𝑝𝑖 =
1 + exp(𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖 )

1
Pr 𝑌𝑖 = 0 = 1 − 𝑝𝑖 =
1 + exp(𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖 )
Modelo probit

El modelo es: 𝑌𝑖 ∼ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖 𝑝𝑖 independientemente. Ahora bien,


si modelamos 𝑝𝑖 de la siguiente forma:

𝑝𝑖 = Φ(𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖 )

estamos estimando un modelo probit, donde Φ (∙) es la función de


probabilidad acumulada de una normal estándar. Notar que en este
caso:

Pr 𝑌𝑖 = 1 = 𝑝𝑖 = Φ 𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖

Pr 𝑌𝑖 = 0 = 1 − 𝑝𝑖 = 1 − Φ(𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖 )


Clase 2: Datos y Análisis de
Estimación e
Inferencia Estadística
os Exploratorio
Máxima Verosimilitud
Uno de los métodos de estimación más famosos en teoría estadística
es el método de Máxima Verosimilitud (MV)

En MV, elegimos los estimadores de los parámetros desconocidos


(𝛽0 , 𝛽1 , … , 𝛽𝑝 ) con el objetivo de maximizar la probabilidad conjunta
de observar los datos de la muestra

La inferencia estadística se basa en aproximaciones normales


(normalidad asintótica de los estimadores de MV)

➢ La contrucción de intervalos de confianza y la implementación


de contrastes de hipótesis sobre los parámetros que
gobiernan el modelo se lleva a cabo usando como referencia
una distribución normal estándar
Modelo logit en nuestro ejemplo
logit=glm(SeriousDlqin2yrs ~ ., data = data_credito, family =binomial(link="logit"))
summary(logit)
Modelo probit en nuestro ejemplo
probit=glm(SeriousDlqin2yrs ~ ., data = data_credito, family =binomial(link="probit"))
summary(probit)
Efectos Marginales
En el caso de la regresión logística, tenemos que:

exp(𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖 )


Pr 𝑌𝑖 = 1 =
1 + exp(𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖 )
Por tanto,

𝜕 Pr 𝑌𝑖 = 1 exp(𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖 )


= 𝛽𝑗 ∙ 2
𝜕𝑋𝑗 1 + exp 𝛽0 + 𝛽1 𝑋1,𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝,𝑖

Notar que el cambio en la probabilidad de que 𝑌 tome el valor 1 ante


un aumento de una unidad de 𝑋𝑗 (es decir, el efecto marginal del
predictor 𝑋𝑗 ) es una función no lineal de los 𝛽𝑠 y de los predictores

¿Cómo sería el efecto marginal para el caso del probit?


Interpretación del modelo estimado

Interpretación de los 𝛽෡𝑗 :

▪ Nos da información del signo en el que cambia la Pr(𝑌 = 1)


estimada cuando el 𝑋𝑗 aumenta en una unidad

Interpretación de los efectos marginales estimados:

▪ El efecto marginal del predictor 𝑗 nos entrega la estimación del


cambio en la Pr(𝑌 = 1) cuando 𝑋𝑗 aumenta en una unidad y
el resto de los predictores permanecen constantes
Efectos Marginales del logit
Efectos Marginales del probit

También podría gustarte