0% encontró este documento útil (0 votos)
85 vistas42 páginas

Modelos de Regresión Logística

Este documento describe los modelos de regresión logística. Explica que la regresión logística se usa cuando la variable dependiente es dicotómica y toma dos valores, como sí/no. Detalla que la regresión logística cuantifica la relación entre la variable dependiente y una o más variables independientes, y predice la probabilidad de que ocurra un evento basado en los valores de las variables independientes. También cubre cómo interpretar los resultados de un modelo de regresión logística.

Cargado por

dr.blanco.0128
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
85 vistas42 páginas

Modelos de Regresión Logística

Este documento describe los modelos de regresión logística. Explica que la regresión logística se usa cuando la variable dependiente es dicotómica y toma dos valores, como sí/no. Detalla que la regresión logística cuantifica la relación entre la variable dependiente y una o más variables independientes, y predice la probabilidad de que ocurra un evento basado en los valores de las variables independientes. También cubre cómo interpretar los resultados de un modelo de regresión logística.

Cargado por

dr.blanco.0128
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

MODELOS DE

REGRESIÓN LOGÍSTICA

Dr. Fernando Niño


R1. Epidemiología
INTRODUCCIÓN
Cuando se quiere evaluar la relación entre una variable que suscita especial
interés (variable dependiente que suele denominarse Y) respecto a un
conjunto de variables (variables independientes, que se denominan X1 , X2 ,
…, Xn) las pruebas de contraste de hipótesis mostradas hasta ahora no nos
aportan suficiente información sobre la relación en conjunto de todas ellas, dado
que los contrastes de hipótesis que conocemos hasta ahora se basan en probar
relaciones bivariantes (2 variables), en las que no se tiene en cuenta la posibilidad
de que haya otras variables de interés. Es entonces cuando resulta adecuado y
conveniente la aplicación de los modelos de regresión. Los modelos de regresión
permiten evaluar la relación entre una variable (dependiente) respecto a otras
variables en conjunto (independientes).
El objetivo principal de construir un modelo de regresión puede ser, por ejemplo,
evaluar cómo afecta el cambio en unas características determinadas (variables
independientes) sobre otra característica en concreto (variable dependiente),
denominado modelo con fines explicativos.

También nuestro objetivo podría ser intentar estimar o aproximar el valor de una
característica (variable dependiente) en función de los valores que pueden tomar
en conjunto otra serie de características (variables independientes), denominado
entonces modelo con fines predictivos.
Teniendo en cuenta el tipo de variable que deseemos estimar (variable
dependiente o respuesta) aplicaremos un modelo de regresión u otro.

● Cuando la variable dependiente es una variable continua, el modelo de


regresión más frecuentemente utilizado es la regresión lineal.
● Cuando la variable de interés es dicotómica (es decir, toma dos valores
como sí/no, hombre/mujer) se utiliza la regresión logística.
Condiciones de Aplicabilidad
La regresión logística y los modelos de regresión lineal no pueden ser aplicados
sobre cualquier tipo de variable. Por ejemplo, la regresión lineal no es aplicable
cuando la variable de interés es categórica, dado que al estimar el modelo de
regresión no se respeta la restricción de que los valores de la variable
dependiente oscilan entre una serie de valores que son los permitidos o reales,
siendo el resto de valores imposibles.

Es por eso que resulta más conveniente utilizar en ese caso el modelo de
regresión logística. Sin embargo, ambos modelos de regresión se construyen
aplicando modelos matemáticos similares.
La Regresión Logística es un conjunto de modelos estadísticos utilizados cuando
se desea conocer la relación entre:

● Una variable dependiente cualitativa, dicotómica (regresión logística


binaria o binomial) o con más de dos categorías (regresión logística
multinomial).
● Una o más variables explicativas independientes, llamadas covariables, ya
sean cualitativas o cuantitativas.
Las covariables cualitativas deben ser dicotómicas, tomando valor 0 para su
ausencia y 1 para su presencia. Si la covariable tuviera más de dos categorías
debemos realizar una transformación de la misma en varias covariables
cualitativas dicotómicas ficticias (Variables Dummy). Al hacer esta
transformación cada categoría de la variable entraría en el modelo de forma
individual.
FINALIDADES DE LOS MODELOS DE REGRESIÓN
LOGÍSTICA

1. Cuantificar la importancia de la relación existente entre cada una de las


covariables y la variable dependiente.
2. Clarificar la existencia de interacción y confusión entre covariables respecto a
la variable dependiente (es decir, los odds ratio para cada covariable).
3. Clasificar individuos dentro de las categorías (presente/ausente).
Por lo tanto el objetivo de la Regresión Logística no es, como en regresión lineal,
predecir el valor de la variable Y a partir de una o varias variables predictoras
(Xs), si no que queremos predecir la probabilidad de que ocurra Y conocidos los
valores de las variables Xs.
La ecuación general es:

P(Y)= probabilidad de que ocurra Y

ℯ = es la función exponencial y el resto de coeficientes son análogos a los de la


regresión lineal.
En su forma más sencilla cuando tenemos solo una variable predictora X1, la
ecuación de la regresión logística viene dada por:

Los valores posibles de estas ecuaciones varían entre 0 y 1.

● Un valor cercano a 0 significa que es muy probable que Y haya ocurrido.


● Un valor cercano a 1 significa que es muy probable que tuviese lugar.

Como en la Regresión Lineal, cada variable predictora de la ecuación logística


tiene su propio coeficiente. Los valores de los parámetros se estiman utilizando el
método de máxima verosimilitud, que selecciona los coeficientes que hacen
más probable que los valores observados ocurran.
INTERPRETACIÓN DEL MODELO DE REGRESIÓN
LOGÍSTICA
El propósito del análisis es:
1. Predecir la probabilidad de que un evento ocurra para una persona dada
(notación P(Yi). Para dicha i-ésima persona, Y será 0 (la respuesta no ocurre)
o 1 (la respuesta ocurre), y el valor predicho, P(Y), tendrá un valor 0 (no hay
probabilidad de que el resultado ocurra) o 1 (el resultado seguro que ocurre).
2. Determinar que variables pesan más para aumentar o disminuir la
probabilidad de que a alguien le suceda el evento en cuestión.
Para realizar el análisis nos basamos en las características que presentan los
sujetos a los que, efectivamente, les ocurre o no estos sucesos.
Tanto en Salud Pública como en el ámbito de la Medicina Clínica, es frecuente la
situación en que se dispone de una variable resultado con sólo dos posibles valores, es
decir, una variable dicotómica.
Ejemplos:
● Tras una campaña publicitaria diseñada para cambiar el hábito de fumar en una
determinada población, la variable resultado en cada individuo se puede medir en
base a que haya o no abandonado tal hábito.
● Para un clínico puede ser de interés estudiar qué factores pueden estar asociados
al hecho de que un individuo presente o no rechazo al transplantarle un riñón.
● ¿Qué factores pueden estar asociados a la presencia o ausencia de un peso
anormalmente bajo en los recién nacidos?
Estos y otros muchos ejemplos ponen de manifiesto las múltiples situaciones
posibles en que un investigador de la salud puede estar interesado en estudiar
relaciones entre variables en donde la variable resultado es binaria, es decir, solo
puede tomar dos valores:

● Rechazo sí o rechazo no.


● Bajo peso sí o bajo peso no etc.
MODELOS DE REGRESIÓN
Bajo este nombre se engloban una serie de modelos estadísticos que tratan de
cuantificar la asociación o dependencia entre una variable resultado y una o
varias variables predictoras; es costumbre representar por la letra Y a la
variable resultado o variable respuesta y por X a la variable predictora o
covariable; en caso de disponer de un número “m” de predictoras las
representaremos por los símbolos X1, X2, X3,... Xm.
NOTA:
Para ningún modelo de regresión existen restricciones acerca de la naturaleza de
las predictoras, la de la variable resultado es la que condiciona el tipo de
modelo de regresión.
En orden cronológico el 1ero que fue propuesto y el
mejor conocido:
1. Modelo de Regresión Lineal; este tiene como objeto estudiar las relaciones
entre una variable resultado continua.

Ejemplo:

La presión sistólica (PS), y un conjunto de predictoras; para el caso univariante, el


de una sola predictora, por ejemplo, el índice de masa corporal (IMC), el modelo
establece que
Es decir la presión de un individuo es u
constante β₀, más el producto de otra β₁ x su IM
+ un término aleatorio que cambia de un
individuos a otros. .
β₀ y β₁ = parámetros o coeficientes del modelo.
ℯ= término no aleatorio distribuido según una normal de media cero y varianza constante.
Una manera alternativa de formular este modelo es mediante la expresión:

donde E(PS) representan la media de la presión.

Lo que se trata realmente es de estudiar la relación entre el valor medio de la


respuesta y la predictora; tal relación se puede representar gráficamente
mediante una recta, la curva más simple.
Como quiera que la presión depende, aparte del IMC, de otras características
individuales, la incorporación de estas al modelo puede ayudarnos a entender, al
menos parcialmente, la variabilidad de las presiones en los distintos individuos.

En el caso en que disponemos de varias predictoras el modelo es:

donde X1, X2,...Xm (IMC, edad, género, consumo de alcohol, colesterol etc) son
las m predictoras que utilizamos para explicarnos los cambios del valor medio de
la variable resultado.
Como se mencionó anteriormente este
modelo es muy bien conocido desde hace
tiempo, GALTON, lo utilizó en el estudio del
componente genético implicado en la altura
de los individuos.
PERO!!! el modelo lineal presenta
dificultades prácticamente insalvables si la
variable respuesta es categórica; por esta
razón se han propuesto otros modelos para
esta nueva situación, como lo es el
MODELO DE REGRESIÓN LOGÍSTICA.

Francis Galton, el padre del estudio de las bases genéticas, primero


en aplicar métodos estadísticos para el estudio de las diferencias
LA DISTRIBUCIÓN BINOMIAL
Consideremos una población en la que los individuos pueden ser clasificados en
función de la presentación o no de una determinada característica.
Ejemplo.
En una población de RNs la característica en cuestión puede ser PBEG, definido
como pesar menos de 2500 gr. Vamos a definir una variable “Y” tal que Y=1 en
los niños con PBEG, mientras que en los niños sin PBEG Y=0; a una variable de
este tipo se le conoce como variable de Bernoulli. Si en la población de interés
el 7% de los RNs son de bajo peso, podemos establecer que la probabilidad “p”
de que al elegir al azar un RN este sea de bajo peso es de 0.07; escrito
formalmente p=P(Y=1)=0.07 y, por tanto, 1-p=P(Y=0)=0.93. Estas dos
probabilidades describen la función de la variable dicotómica Y.
CONTENIDO:
1. Conceptos básicos.
a) Probabilidad
b) Odds
c) Odds ratio
2. Recordando regresión lineal
3. Una nueva variable dependiente
4. Regresión Logística:
a) Fundamento teórico
b) Un modelo de clasificación
c) Características
PROBABILIDAD
DEFINICIÓN: Medida del grado de certidumbre de que un
evento pueda ocurrir.

CÁLCULO: Número de veces que se presenta el evento /


Número total de intentos.

ESCALA: Número entre 0 y 1. Donde 0 es igual a un suceso


imposible y 1 a un suceso seguro.
ODDS
DEFINICIÓN: Medida de probabilidad relativa que tiene un
evento de ocurrir frente a que no ocurra.

CÁLCULO: Ratio entre la probabilidad de que suceda el


evento / Probabilidad de que no suceda.

ESCALA: Va de 0 a infinito.
Probabilidad de que un
suceso ocurra frente a que
no ocurra.
ODDS RATIO
DEFINICIÓN: Es la razón entre dos odds.

Permite comparar los Odds de un evento en dos grupos.

CÁLCULO: La división entre el Odds del evento X en un


grupo 1 y el Odds del evento X en el grupo 2.

ESCALA: Va de 0 a infinito.
RECORDANDO LA REGRESIÓN LINEAL
Utilizabamos la siguiente combinación lineal:

● En la RL utilizabamos una función que


nos asegure predecir una variable Y, con
la combinación lineal de otras variables.
● En este caso la variable predicha (Y)
era:
- Numérica
- Continua: Podían ser decimales.
Ejemplos: ingresos, temperatura, porcentaje de
votación, índices, etc.
- No acotada: No habia limites (-∞ a +∞)
Tomamos este modelo de RL y lo transformamos, de tal manera que podamos predecir ya no una variable
numérica continua, si no una variable categórica binaria o dicotómica.
UNA NUEVA VARIABLE DEPENDIENTE
Medimos la presencia de un evento o su ausencia.

● Queremos predecir una variable que es categórica


(dicotómica).
● Como estamos hablando de la ocurrencia o no de
un evento, tenemos que utilizar la teoría de
probabilidades.
● Esta nueva alternativa tiene que mantener una cosa:
Ejemplos clásicos: que la probabilidad sea una combinación lineal de
las variables independientes. Es decir, una
- Aprueba o no aprueba un préstamo.
- Tiene cáncer o no.
transformación de modelo lineal: un modelo lineal
generalizado.
Ejemplos en ciencias sociales:

- Fue a protestar o no fue a protestar.


- Aprueba o desaprueba gestión
presidencial.
Esta combinación lineal debe aparecer en nuestro nuevo
- Votó o no votó. modelo para poder calcular esta nueva variable categórica
dicotómica.
PROBLEMA: Una nueva variable dependiente.
La RL no suele ser la
Variable categórica binaria en el
mejor alternativa, puesto
eje Y
que no se ajusta muy bien
a los datos, nos puede
brindar datos que exceden
el límite.

Variable numérica en el eje X

La RL ayuda a predecir una variable numérica, continua, pero no una variable dicotómica. En
una RL la variable Y nos puede salir menor que 0 y mayor que 1 y no aplicaría.
Esto nos obliga a buscar una forma alternativa para predecir el evento que NO sea lineal. Esta
forma debe tener una variable Y que se encuentre entre 0 y 1.
Que concepto va entre 0 y 1? El concepto de PROBABILIDAD
REGRESIÓN LOGÍSTICA FUNDAMENTOS
TEÓRICOS Función Sigmoidal

La función alternativa que nos permite calcular Sin embargo en la función Logit el eje X tiene como
valores el rango de 0 y 1. Como necesitamos que dichos
una variable que se encuentre entre los valores valore se encuentren en el eje Y, es necesario obtener la
de 0 y 1 es la denominada función logit: inversa de Logit. (Sigmoid Function).

Para nosotros esa X de la ecuación podría ser igual a:


REGRESIÓN LOGÍSTICA FUNDAMENTOS
TEÓRICOS
Partiendo de Logit y calculando su inversa podríamos tener la siguiente ecuación.

Entonces utilizamos esta ecuación para poder predecir mejor un número que va entre 0 y 1.

Como vemos, esta función se ajusta mucho mejor a los puntos.


Regresión Logística: Un Modelo de
Clasificación
La función de probabilidad de un suceso Y=1, partiendo del
modelo Logit (invertido) es:

Sin embargo, como el modelo (lo que vamos a ingresar en el


R) debe ser una función lineal se debe aplicar una
transformación de tal forma que sea igual a la combinación
lineal de las variables. Entonces la ecuación del modelo de
regresión logística (simple) es:

El método que usamos es el de máxima verosimilitud.


Regresión Logística: Un Modelo de
Clasificación
Medida de probabilidad basada en Logit
Partimos de nuestra función de probabilidad

Finalmente aplicamos el logaritmo natural a cada lado de la ecuación y tendríamos nuestra ecuación final:

Modelo Logístico binario proviene de la medida basada en Logit


Regresión Logística: Características

1.- MODELA la probabilidad de que ocurra un evento, partiendo de un conjunto de


variables.
2.- ESTIMA la probabilidad de que un evento ocurra para una observación al azar vs la
probabilidad de que no ocurra (Odds).
3.- PREDICE el efecto de una serie de variables en una variable categórica binaria.
4.- CLASIFICA observaciones a través de la estimación de la probabilidad de que se
encuentre en una categoría determinada.
Regresión Logística: Proceso

Modelamos nuestros datos para que pueda cumplir


la fórmula del modelo de regresión logística
En Resumen
1. No utilizamos la RL simple o RL múltiple por que no se ajusta a la nueva forma de
nuestra variable dependiente.
2. Hemos pasado de una variable numérica continua no acotada a una variable
dependiente categórica binaria.
3. Hemos tenido que buscar una fórmula alternativa que mantenga la combinación lineal
que ya teníamos en la RL simple y RL múltiple, y hemos encontrado la función Logit, de
esta función hemos derivado las probabilidades de que suceda mediante la función
sigmoidal y tenemos estas 2 ecuaciones:

Lo que tenemos que hacer al igual que en la regresión


lineal es encontrar estos coeficientes con los cuales
nosotros vamos a calcular nuestra ecuación, y vamos a
calcular las probabilidades que tiene un suceso de ocurrir
frente a no ocurrir.Lo cual nos va servir para calcular las
probabilidades de que ocurra un suceso en nuestro
marco de investigación.
Estas 2 funciones estan intimamente relacionadas, por que de esta función de probabilidad emerge nuestro modelo de
regresión logística.
Ejemplo
Se desea evaluar la relación entre los distintos factores expuestos y el hecho de
que un paciente haya sido diagnosticado hipertenso o no.
Para ello, se desarrolla un estudio que incluye a 71 pacientes que acuden a
consultas de atención primaria. A estos pacientes se les hacen diversas
mediciones. Se registra información sobre la principal variable de interés, la
tensión arterial sistólica (TAS) y diversas características sociodemográficas como
la edad y el género, medidas antropométricas como el peso y la altura y otras
variables como tabaquismo y presencia de enfermedades concomitantes como la
diabetes o la hipercolesterolemia.
❖ Se desea considerando como variable dependiente el hecho de que un
paciente padezca o no hipertensión.
Se muestra un resumen del formato de las variables ‘dummy’ creadas para poder estimar el modelo de regresión, lo que nos
dará la información necesaria para poder posteriormente interpretar los resultados obtenidos. Se le ha asignado internamente
el valor 1 al hecho de que un paciente sea hipertenso, factor que también deberemos tener en cuenta al interpretar los
resultados.
En el segundo modelo obtenido, se han introducido la variable edad y el género (sex), ambas variables con coeficientes
estadísticamente significativos (p<0,05). Además de los coeficientes obtenemos información de Exp(B), que corresponde al
Odds-Ratio asociado a cada factor.
Si en la ecuación de regresión tenemos un factor dicotómico, como es el género
en nuestro caso, la categoría que se considera de referencia es la que se le
asigna el valor ‘0’, por lo que él OR se atribuye directamente a la otra opción de
respuesta de la variable. A modo de ejemplo el OR del género se atribuye
directamente al hecho de ser hombre. Es decir, que exp(b) es una medida que
cuantifica el riesgo que representa poseer el factor correspondiente respecto a no
poseerlo.
Cuando el coeficiente b de la variable es positivo obtendremos un odds ratio mayor que 1 y corresponde por tanto a un factor de riesgo.
Por el contrario, si b es negativo el odds ratio será menor que 1 y se trata de un factor de protección.
● La primera variable introducida en el modelo fue la edad, seguida del género (sex),
finalizando en este momento el proceso de selección de las variables.
● La variable edad se introdujo en el modelo como una variable continua, por lo que al
interpretar los resultados podemos decir que conforme aumenta la edad aumenta el riesgo de
padecer hipertensión arterial.
b=0,041, OR= 1.042
70-71 años e (1*0.041)= 1.042
70-72 años e (2*0.041)= 1.085
70-90 años e (20*0.041)= 2.27
● Por otra parte, la variable sexo se introdujo como una variable categórica. Al observar el tipo
de codificación realizada internamente, podemos concluir que el hecho de ser hombre
(codificado como 1), aumenta aproximadamente 4 veces (OR=4,174) el riesgo de padecer
hipertensión arterial.
★ En conclusión el hecho de ser hombre y/o de mayor edad, aumenta el riesgo de padecer
hipertensión arterial.
BIBLIOGRAFÍA
● Sánchez, E. (2000). Regresión Logística en Salud Pública. Granada España: Alhambra}

● Ortega, M. (2002). Regresión Logística no Condicionada y Tamaño de Muestra. Revista Española de Salud Pública,
(2), pp. 85-93.

● Morales, I. (2006). Modelos de Regresión Lineal Simple y Regresión Logística. México

● Fiuza, D. (2000). La Regresión Logística una Herramienta Versátil. Revista Nefrología, (20)

● Segura, J. (2006). Análisis de Regresión Logística para datos Correlacionados utilizando tres procedimientos del sistema
Estadístico SAS. Revista Científica S Cielo, (16), pp. 1-25,

También podría gustarte