0% encontró este documento útil (0 votos)

29 vistas29 páginas

Regresion Logística

La regresión logística es un método estadístico utilizado para predecir la ocurrencia de un evento basado en variables independientes, siendo especialmente útil en casos de respuesta dicotómica. Se enfoca en la estimación de coeficientes y la identificación de factores de confusión, así como en la inclusión de variables dummy para variables categóricas. Además, se discuten conceptos como interacción entre variables y la importancia de la función de verosimilitud en la estimación del modelo.

Cargado por

JOSÉ EDUARDO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

29 vistas29 páginas

Regresion Logística

Cargado por

JOSÉ EDUARDO

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Regresión logística

Santiago de la Fuente Fernández

Regresión logística

Santiago de la Fuente Fernández

Regresión Logística
INTRODUCCIÓN

La regresión logística (RL) forma parte del conjunto de métodos estadísticos que caen bajo tal
denominación y es la variante que corresponde al caso en que se valora la contribución de diferentes
factores en la ocurrencia de un evento simple.

En general, la regresión logística es adecuada cuando la variable de respuesta Y es politómica

(admite varias categorías de respuesta, tales como mejora mucho, empeora, se mantiene, mejora,
mejora mucho), pero es especialmente útil en particular cuando solo hay dos posibles respuestas
(cuando la variable de respuesta es dicotómica), que es el caso más común.

La RL es una de las técnicas estadístico‐inferenciales más empleadas en la producción científica

contemporánea. Surge en la década del 60, su generalización dependía de la solución que se diera al
problema de la estimación de los coeficientes. El algoritmo de Walker‐Duncan para la obtención de
los estimadores de máxima verosimilitud vino a solucionar en parte este problema, pero era de
naturaleza tal que el uso de computadoras era imprescindible.

La RL va a contestar a preguntas tales como: ¿Se puede predecir con antelación si un cliente que
solicita un préstamo a un banco va a ser un cliente moroso?. ¿Se puede predecir si una empresa va a
entrar en bancarrota?. ¿Se puede predecir de antemano que un paciente corra riesgo de un infarto?.

La identificación del mejor modelo de regresión logística se realiza mediante la comparación de

modelos utilizando el cociente de verosimilitud, que indica a partir de los datos de la muestra cuanto
más probable es un modelo frente al otro. La diferencia de los cocientes de verosimilitud entre dos
modelos se distribuye según la ley de la Chi‐cuadrado con los grados de libertad correspondientes a
la diferencia en el número de variables entre ambos modelos.
Si a partir de este coeficiente no se puede demostrar que un modelo resulta mejor que el otro, se
considerará como el más adecuado, el más sencillo.

FACTORES DE CONFUSIÓN: Durante el proceso de selección del modelo de regresión más adecuado,
el que mejor se ajusta a los datos disponibles, hay que considerar un último aspecto adicional,
especialmente si el proceso de selección de variables se hace mediante el método manual de obligar
a que todas las variables entren en el modelo y es el propio investigador el que paso a paso va
construyendo el modelo de regresión más conveniente.

Durante el proceso de incorporación de variables, al eliminar una variable de uno de los modelos de
regresión estimados, hay que observar si en el modelo de regresión resultante al excluir esa variable,
los coeficientes asociados al resto de variables introducidas en el modelo varían significativamente
respecto al modelo de regresión que sí incluía dicha variable. Si así sucede, significa que
dicha variable podría ser un factor de confusión, al no mostrar una relación significativa con la
variable que estamos estudiando directamente, pero sí indirectamente, al relacionarse con otras
variables, que en sí mismas pueden estar significativamente relacionadas con la variable de estudio.

En dicho caso, es conveniente no excluir la variable en cuestión del modelo de regresión, aunque no
cumpla los requisitos para permanecer en él, obligando a que permanezca, de modo que aunque no
se incluya su interpretación al evaluar los resultados del modelo, se ajusta el resultado del resto de
variables seleccionadas por su posible efecto.

En la práctica, para incluir o no en la ecuación de regresión una variable de confusión, se utiliza el

criterio (incorrectamente) de comprobar si su coeficiente correspondiente es significativamente
diferente de cero, por lo que se mira sólo el valor de la probabilidad asociado a ese contraste. Sin
embargo, no debe de ser la única razón, hay que considerar si su introducción en la ecuación
modifica apreciablemente o no la relación entre la variable dependiente y el otro factor o factores
Santiago de la Fuente Fernández 1
Regresión Logística
estudiados. En definitiva, la cuestión debe tratarse con enfoque clínico, puesto que hay que
determinar desde ese punto de vista qué se considera como cambio apreciable en el coeficiente de
la ecuación de regresión.

Ejemplo: Al estudiar una muestra aleatoria de una población de diabéticos y analizando la posible
relación lineal entre la Tensión arterial sistólica (TAS) como variable respuesta y las variables
independientes (edad y género de los pacientes), se obtendrá un modelo de regresión donde el
género de los pacientes es significativo, es decir, existirá una ecuación diferente de predicción para
hombres y otro para mujeres.
Sin embargo, si se controlase también el índice de masa corporal (IMC) introduciéndolo en la
ecuación, posiblemente la variable género no sería significativa, mientras que pasaría a serlo el IMC.
En ese caso el IMC sería un factor de confusión que deberíamos incluir en la ecuación y ello aunque
su coeficiente no fuera significativo.
En esta línea, hay que tener cuidado con los términos relación, correlación o significación y
causalidad. Que dos factores estén relacionados no implica de ninguna manera que uno sea causa
del otro. Es muy frecuente que una alta dependencia indique que las dos variables dependen de una
tercera que no ha sido medida (factor de confusión).

CONCEPTO DE INTERACCIÓN: Un concepto importante al construir un modelo de regresión es que

pueden introducirse términos independientes únicos (una sola variable, por ejemplo efecto del
tabaco) y además las interacciones entre variables de cualquier orden (efecto del tabaco según
género), si se considera que pueden ser de interés o afectar a los resultados.

Al introducir los términos de interacción en un modelo de regresión es importante para la correcta

estimación del modelo respetar un orden jerárquico, es decir siempre que se introduzca un término
de interacción de orden superior (x•y•z), deben introducirse en el modelo los términos de
interacción de orden inferior (x•y, x•z, y•z) y por supuesto los términos independientes de las
variables que participan en la interacción (x, y, z).

Ejemplo: Se desea construir un modelo de regresión para estimar la prevalencia de hipertensos en

una muestra y se decide evaluar si la interacción de las variables tabaco, género y edad es
significativa o no al estimar dicha prevalencia, por lo que se introduce el término de interacción
(tabaco * género * edad).
Automáticamente deberían introducirse igualmente en el modelo los términos de interacción de
orden inferiores, es decir, (tabaco*género), (tabaco*edad) y (género*edad), así como los
términos independientes tabaco, género y edad para poder estimar el modelo correctamente.
Si se introducen en un modelo de regresión términos de interacción y resultan estadísticamente
significativos, no se podrán eliminar del modelo los términos de interacción de orden inferiores ni los
términos independientes de las variables que participan en la interacción para simplificarlo, deben
mantenerse, aunque no resulten estadísticamente significativos.

VARIABLES DUMMY: Las variables explicativas de tipo nominal con más de dos categorías deben ser
incluidas en el modelo definiendo variables dummy.

Ejemplo del sentido de las variables dummy: Si una variable nominal (raza, religión, grupo sanguíneo,
etc.) consta de k categorías deben crearse entonces (k − 1) variables dicotómicas que son las llamadas
variables dummy asociadas a la variable nominal. Las (k − 1) variables dicotómicas se denotan por
(Z1 , Z2 ,L , Zk −1 ). A cada categoría o clase de la variable nominal le corresponde un conjunto de
valores de los Zi con el cual se identifica dicha clase.

Santiago de la Fuente Fernández 2

Regresión Logística
La manera más usual de definir estas (k − 1) variables es la siguiente: si el sujeto pertenece a la
primera categoría, entonces las (k − 1) variables dummy valen 0: (Z1 = Z2 = L = Zk −1 = 0) ; si el sujeto
se halla en la segunda categoría, (Z1 = 1 y Z2 = L = Zk −1 = 0) ; si el sujeto se halla en la tercera
categoría, (Z2 = 1 y Z2 = L = Zk −1 = 0) ; y así sucesivamente hasta llegar a la última categoría, para la
cual Zk −1 = 1 y las restantes valen 0.

En esta línea, si la variable nominal de interés es el grupo sanguíneo (tipo 0, tipo A, tipo B, tipo AB),
entonces se tendrían los siguientes valores de las variables dummy para cada grupo sanguíneo:

Grupo sanguíneo Z1 Z2 Z3
0 0 0 0
A 1 0 0
B 0 1 0
AB 0 0 1

Si se ajusta un modelo que incluya una variable nominal con k clases, ésta debe ser sustituida por las
(k − 1) variables dummy, y a cada una de ellas corresponderá su respectivo coeficiente.

VARIABLES CUALITATIVAS EN EL MODELO LOGÍSTICO: Como la metodología empleada para la

estimación del modelo logístico se basa en la utilización de variables cuantitativas, al igual que en
cualquier otro procedimiento de regresión, es incorrecto que en él intervengan variables cualitativas,
ya sean nominales u ordinales.

La asignación de un número a cada categoría no resuelve el problema. La solución a este problema

es crear tantas variables dicotómicas como número de respuestas. Estas nuevas variables,
artificialmente creadas, reciben en la literatura anglosajona el nombre de dummy, traduciéndose con
diferentes denominaciones como pueden ser variables internas, indicadoras, o variables diseño.

Si una variable recoge datos del tabaco con las respuestas (Nunca fumó, Ex‐fumador, fuma 20 ó más
cigarrillos diarios), hay 4 posibles respuestas por lo que se construyen (4‐1=3) variables dummy
dicotómicas (valores 0, 1), existiendo diferentes posibilidades de codificación, que conducen a
interpretaciones diferentes, siendo la más habitual:

I1 I2 I3
Nunca fumó 0 0 0
Ex- fumador 1 0 0
< de 20 cigarrillos diarios 0 1 0
≥ 20 cigarrillos diarios 0 0 1

En esta codificación el coeficiente de la ecuación de regresión para cada variable dummy (siempre
transformado con la función exponencial), se corresponde al odds‐ratio de esa categoría con
respecto al nivel de referencia (la primera respuesta), en el ejemplo cuantifica cómo cambia el riesgo
respecto a no haber fumado nunca.

I1 I2
Respuesta 1 0 0
Otra posibilidad es una variable cualitativa de tres respuestas:
Respuesta 2 1 0
Respuesta 3 1 1

Santiago de la Fuente Fernández 3

Regresión Logística
Con esta codificación cada coeficiente se interpreta como una media del cambio del riesgo al pasar
de una categoría a la siguiente.

I1 I2
Cuando una categoría no pueda ser considerada de forma natural
Respuesta 1 ‐1 ‐1
como nivel de referencia, como por ejemplo el grupo sanguíneo, un
Respuesta 2 1 0
posible sistema de clasificación es:
Respuesta 3 0 1

cada coeficiente de las variables dummy (indicadoras) tiene una interpretación directa como cambio
en el riesgo con respecto a la media de las tres respuestas.

EL MODELO LOGÍSTICO

Sea Y una variable dependiente binaria (con dos posibles valores: 0 y 1). Sean un conjunto de k
variables independientes, (X1 , X2 , L , Xk ) , observadas con el fin de predecir/explicar el valor de Y.

El objetivo consiste en determinar:

P [Y = 1 / X1 , X2 , L , Xk ] a P [Y = 0 / X1 , X2 , L , Xk ] = 1 − P [Y = 1 / X1 , X2 , L , Xk ]

Para ello, se construye el modelo P [Y = 1 / X1 , X2 , L , Xk ] = p(X1 , X2 , L , Xk ; β) donde:

⎯→ [0,1] que depende de un vector de parámetros

función de enlace
p(X1 , X2 , L , Xk ; β) : Rk ⎯⎯ ⎯ ⎯ ⎯ ⎯

β = (β1 , β2 , L , βk )

FUNCIÓN DE VEROSIMILITUD

Con el fin de estimar β = (β1 , β2 , L , βk ) y analizar el comportamiento del modelo estimado se toma
una muestra aleatoria de tamaño n dada por (xi , yi )i=1, 2, L, n donde el valor de las variables
independientes es xi = (xi1, xi2 , L , xik ) e yi ∈ [0,1] es el valor observado de Y en el i‐ésimo elemento
de la muestra.

Como (Y / X1 , X2 , L , Xk ) ∈B[1, p(X1 , X2 , L , Xk ; β)] la función de verosimilitud viene dada por:

L [β /(x1 , y1 ),(x2 , y2 ), L , (xn , yn )] = ∏ piy i (1 − pi )1− y i donde pi = p (xi ;β) = p [(xi1, xi2 , L , xik );β]i=1,2, L,n
n

i=1

⎧0 si β1 X1 + L + βk Xk < c0
⎪
MODELO LINEAL: ⎨ β1 X1 + L + βk Xk si c0 < β1 X1 + L + βk Xk ≤ c1 c0 , c1 son cons tan tes
⎪1 si β1 X1 + L + βk Xk > c1
⎩

MODELO LOGIT (modelo de regresión logística binaria):

eX
p(X1 , X2 , L , Xk ; β) = G [β1 X1 + L + βk Xk ] donde G(x) = función distribución función log ística
1 + eX

Santiago de la Fuente Fernández 4

Regresión Logística
MODELO PROBIT: p(X1 , X2 , L , Xk ; β) = φ [β1 X1 + L + βk Xk ] donde φ la función de distribución
de N(0,1) .

MODELO DE REGRESIÓN LOGÍSTICA BINARIA

El modelo logístico establece la siguiente relación entre la probabilidad de que ocurra el suceso,
dado que el individuo presenta los valores (X = x1 , X = x2 , L , X = xk ) :

P [Y = 1 / x1 , x2 , L , xk ] = 1
(− β0 − β1x1 − β2x 2 − L − βk xk )
1+e

El objetivo es hallar los coeficientes (β0 , β1 , L , βk ) que mejor se ajusten a la expresión funcional.

Se conoce como odds (ratio del riesgo) al cociente de probabilidades:

P [Y = 1 / X1 , X2 , L , Xk ] p(X1 , X2 , L , Xk ; β)
Odds (ratio de riesgo) = = = eβ1 +β2 X 2 L +βk Xk
1 − P [Y = 1 / X1 , X2 , L , Xk ] 1 − p(X1 , X2 , L , Xk ; β)

se toma como primera variable explicativa a la variable constante que vale 1.

En medicina, por ejemplo, el ratio del riesgo, habitualmente, indica la presencia de una determinada
enfermedad objeto de análisis.

Tomando logaritmos neperianos en la expresión anterior, se obtiene una expresión lineal para el
modelo:
⎡ P [Y = 1 / X1 , X2 , L , Xk ] ⎤
Logit [P(Y = 1)] = Ln ⎢ ⎥ = β1 + β2 X2 + L + βk Xk
⎣ 1 − P [Y = 1 / X1 , X2 , L , Xk ]⎦

Aquí se aprecia que el estimador del parámetro β2 se podrá interpretar como la variación en el
término Logit (logaritmo neperiano del cociente de probabilidades) originada por una variación
unitaria en la variable X2 (suponiendo constantes el resto de variables explicativas).

Cuando se hace referencia al incremento unitario en una de las variables explicativas del modelo,
aparece el concepto de oods‐ratio como el cociente entre los dos odds asociados (el obtenido al
realizar el incremento y el anterior al mismo).

Suponiendo que ha habido un Odds 2 βi

Odds _ ratio = =e OR = eβi
incremento unitario en la variable X Odds 1

De donde se desprende que, un coeficiente βi cercano a cero, es decir, un odds‐ratio próximo a 1,

indicará que cambios en la variable explicativa Xi asociada no tendrán efecto alguno sobre la
variable dependiente Y.

Bondad de ajuste del modelo.‐ Se utilizan dos tipos de contrastes: (a) Contrastes que analizan la
bondad de ajuste desde un punto de vista global. (b) Contrastes que analizan la bondad de ajuste
paso a paso.

(a) Contraste de bondad de ajuste global de Hosmer‐Lemeshow::

Santiago de la Fuente Fernández 5

Regresión Logística
) El índice de bondad de ajuste:
n (y − p̂ )2
z2 = ∑ i i donde p̂i = p(xi1 , xi2 , L , xik ; βˆ ) i=1,2,L,n , z2 ≈ χn2−k si el mod elo ajustado es cierto
i=1 p̂i (1 − p̂i )

) El estadístico desviación viene dado por la expresión:

n ⎡ y ⎤ n−m ⎡ (1 − yi ) ⎤ ⎧ m ≡ número observaciones con yi = 1

D = 2 ∑ yi Ln ⎢ i ⎥ + 2 ∑ (1 −yi ) Ln ⎢ ⎥ ⎨ 2
i=1 ⎣ p̂i ⎦ i=1 ⎣ (1 − p̂i ) ⎦ ⎩ D ≈ χn−k si el mod elo ajustado es cierto

(b) Contraste de bondad de ajuste de Hosmer‐Lemeshow:

Evalúa la bondad de ajuste del modelo construyendo una tabla de contingencia a la que aplica un
contraste tipo chi‐cuadrado.

Calcula los deciles de las probabilidades estimadas (p̂i )i=1,2,L,n , (D1 ,D2 ,L ,D9 ) , dividiendo los datos
observados en diez categorías dadas por: A j = {(p̂i )i=1,2,L,n ∈[D j−1 , D j ) j=1,2,L10 }, donde D0 = 0 y
D10 = 1

El estadístico de contraste:
∑ p̂i
10 (e j − n j pj )2 ⎧ n j ≡ nº casos en A j ( j = 1,L ,10) i∈A j
T=∑ donde ⎨ pj =
j=1 n j pj (1 − pj ) ⎩ e j ≡ nº yi = 1 en A j ( j = 1,L ,10) nj

[
p‐valor del contraste: P χ28 ≥ Tobservado ]
Diagnósticos del modelo.‐ Mediante el análisis de los residuos del modelo y de su influencia en la
estimación del vector de parámetros se evalúa la bondad del ajuste caso por caso.

yi − p̂i
) Residuos estandarizados: zi =
p̂i (1 − p̂i )
yi − p̂(i)
) Residuos studentizados: sti = , donde p̂(i) es la estimación de pi obtenida en la
p̂(i) (1 − p̂(i) )
observación i‐ésima.

⎧ − 2Ln p̂i si yi = 1
⎪
) Residuos desviación: (di )i=1,L,n = ⎨
⎪ − 2Ln(1 − p̂ ) si y = 0
⎩ i i

Medidas de Influencia.‐ Cuantifican la influencia que cada observación ejerce sobre la estimación del
vector de parámetros o sobre las predicciones hechas a partir del mismo de forma que, cuanto más
grande son, mayor es la influencia que ejerce una observación en la estimación del modelo

) Medida de Apalancamiento (Leverage):

denotando por W = diagonal [ p̂i (1 − p̂i )], se calcula a partir de la matriz H = W X(X' W X) −1 X' W

Santiago de la Fuente Fernández 6

Regresión Logística
El apalancamiento para la observación i‐ésima viene dado por el elemento i‐ésimo hii ∈ (0,1) , con un
valor medio de p / n .

) Las medidas (distancia de Cook, Dfbeta) miden el impacto que tiene una observación en la
estimación de los parámetros.

Distancia de Cook.‐ Cuantifica la influencia en la estimación de β :

COOK i = [
1 ˆ ˆ '
p
] [
β − β(i) (X' W X) βˆ − βˆ (i) ] donde β̂(i) son estimaciones EMV de β

βˆ 1 − βˆ 1(i)
Dfbeta.‐ Influencia en la estimación de una componente de β1 : Dfbeta1i =
st (βˆ )
1
β̂1(i) son estimaciones máximo verosímiles (EMV) de β1

Santiago de la Fuente Fernández 7

Regresión Logística
Ejemplo 1.‐ Se quiere establecer una relación entre el hecho de tener anticuerpos a determinado
virus con la zona de residencia (norte, sur, este y oeste) y el factor RH.
Para ello, se da la siguiente estructura: variable nominal Virus (1‐Si, 0‐No), variable nominal Zona (1‐
Norte, 2‐Sur, 3‐Este y 4‐Oeste), variable nominal RH (1‐Positivo, 2‐Negativo) y la variable escalar
Frecuencia.

Señalar que la variable nominal Zona tiene cuatro categorías y debería ser sustituida por 3 variables
dummy:

Zona Madrid Z1 Z2 Z3
Norte 0 0 0
Sur 1 0 0
Este 0 1 0
Oeste 0 0 1

Sin considerar este hecho, introduzcamos los datos en SPSS. Después se ponderan los datos
(Datos/Ponderar casos/frecuencia).

Se selecciona la variable dependiente (Virus) y las covariables (variables independientes: Zona y RH).
Ahora tenemos que indicarle al SPSS las variables categóricas, se pulsa el botón [Categóricas].

Santiago de la Fuente Fernández 8

Regresión Logística
Se elige el Método Introducir (procedimiento en el que todas las variables de un bloque se
introducen en un solo paso). Se podía haber utilizado el Método Adelante RV (método automático
por pasos, hacia delante, que utiliza la prueba de la Razón de Verosimilitud para comprobar las
covariables a incluir o excluir), en este modelo se habría anulado la variable RH de la ecuación.

En [Opciones] están disponibles:

El Visor de resultados de SSPS:

Aparece un cuadro con el número de casos

introducidos (16), los seleccionados para el
análisis y los excluidos (casos perdidos, por tener
algún valor faltante).

La tabla especifica la codificación de la variable dependiente

(que debe ser dicotómica).
Internamente el programa asigna el valor 0 al menor de los dos
códigos, y el valor 1 al mayor.

La tabla muestra la codificación empleada en las

variables independientes y de control
(covariables). Se han seleccionado dos variables
independientes (Zona, RH) y se refleja la
categoría codificada. Además se refleja la
frecuencia absoluta de cada valor.

Si en el cuadro de definir Variables Categóricas se ha seleccionado en Contraste Indicador y en

Categoría de referencia última (opciones que da el programa por defecto), la categoría codificada
con el valor interno más bajo (0) será la de referencia, la 'última' para el SPSS.

La sucesión de estimadores ha convergido, el número de iteraciones necesarias son 3.

Santiago de la Fuente Fernández 9

Regresión Logística
Bloque 0: Bloque inicial

En este bloque inicial se calcula la verosimilitud de un

modelo que sólo tiene el término constante β0 .
Puesto que la verosimilitud L es un número muy
pequeño (comprendido entre 0 y 1), se suele ofrecer el
logaritmo neperiano de la verosimilitud (LL), que es un
número negativo, o menos dos veces el logaritmo
neperiano de la verosimilitud (‐2LL), que es un número
positivo.

El estadístico (‐2LL) mide hasta qué punto un modelo se ajusta bien a los datos. El resultado de esta
medición recibe también el nombre de desviación. Cuanto más pequeño sea el valor, mejor será el
ajuste.

Como en [Opciones] se había solicitado el historial de iteraciones, la salida del ordenador muestra un
resumen del proceso iterativo de estimación del primer parámetro β0 , como se observa el proceso
ha necesitado dos ciclos para estimar correctamente el término constante β0 = 0,084 , porque la
variación de (‐2LL) entre el primer y segundo bucle ha cambiado en menos del criterio fijado por el
programa (0,001).

La tabla permite evaluar el ajuste del modelo

de regresión (hasta este momento, con un
solo parámetro en la ecuación), comparando
los valores predichos con los valores
observados.

Por defecto se ha empleado un punto de corte (0,5) de la probabilidad de Y para clasificar a los
individuos. Esto significa que aquellos sujetos para los que la ecuación – con éste único término –
calcula una probabilidad < 0,5 se clasifican como Virus=0 (No tienen anticuerpos), mientras que si la
probabilidad resultante es ≥ 0,5 se clasifican como Virus=1 (tienen anticuerpos).
En este primer paso el modelo ha clasificado correctamente a un 52,1% de los casos, y ningún caso
de 'No hay virus' ha sido clasificado correctamente.

En este primer bloque, en la ecuación de regresión sólo aparece el parámetro estimado β0 = 0,084 ,
el error estándar E.T = 0,025 y la significación estadística con la prueba de Wald, que es un
estadístico que sigue una ley Chi‐cuadrado con 1 grado de libertad, y la estimación de la
OR = eβ0 = e0 ,084 = 1,088 .

En la tabla de variables que no están asociadas en la ecuación figura la significación estadística

asociada al índice de Wald.

Santiago de la Fuente Fernández 10

Regresión Logística

Bloque 1: Método = Introducir

En la tabla se muestra el proceso de

iteración, que ahora se realiza para
tres coeficientes, la constante (ya
incluida en el anterior paso), la variable
Zona (definida con tres variables
dummy: Z1, Z2 y Z3), y la variable RH.

Se observa como disminuye el (‐2LL) respecto al paso anterior (el modelo sólo con la constante tenía
un valor de este estadístico de 8729,445, mientras que ahora se reduce a 8711,623), y el proceso
termina con tres bucles.
Los coeficientes calculados son para la constante β0 = 0,120 , para la variable Zona, respectivamente,
los coeficientes de Z1, Z2 y Z3 (0,103 ; 0,093 ; 0,413), y para la variable RH el coeficiente 0,046.

Se muestra una tabla chi‐cuadrado que evalúa la

hipótesis nula de que los coeficientes βi de
todos los términos (excepto la constante)
incluidos en el modelo son cero.

El estadístico chi‐cuadrado para este contraste es la diferencia entre el valor de (‐2LL) para el modelo
sólo con la constante (‐2LL = 8729,445) y el valor (‐2LL) para el modelo actual (‐2LL = 8711,623), es
decir, el cociente o razón de verosimilitudes:

RV = χ24 = (–2LL MODELO 0) – (–2LL MODELO 1) = 8711,623 – 8711,623 = 17,822

En general, la razón de verosimilitudes (RV) es útil, para determinar si hay una diferencia significativa
entre incluir en modelo todas las variables y no incluir ninguna, dicho de otro modo, RV sirve para
evaluar sí las variables tomadas en conjunto, contribuyen efectivamente a ‘explicar’ las
modificaciones que se producen en P(Y = 1).

Prueba Omnibus, SSPS ofrece tres entradas (Paso, Bloque y Modelo):

La fila primera (PASO) es la correspondiente al cambio de verosimilitud (de ‐2LL) entre pasos
sucesivos en la construcción del modelo, contrastando la hipótesis nula H0 de que los
coeficientes de las variables añadidas en el último paso son cero.

La segunda fila (BLOQUE) es el cambio en ‐2LL entre bloques de entrada sucesivos durante la
construcción del modelo. Si como es habitual en la práctica se introducen las variables en un
solo bloque, la Chi‐Cuadrado del Bloque es el mismo que la Chi‐Cuadrado del Modelo.

Santiago de la Fuente Fernández 11

Regresión Logística
La tercera fila (MODELO) es la diferencia entre el valor de ‐2LL para el modelo sólo con la
constante y el valor de ‐2LL para el modelo actual.

Seguidamente, tres medidas Resumen de los

modelos, para evaluar de forma global su validez.

Los coeficientes de determinación tienen valores muy pequeños, indicando que sólo el 0,3% o el
0,4% de la variación de la variable dependiente es explicada por las variables incluidas en el modelo,
y debe mejorar cuando se vayan incluyendo variables más explicativas del resultado o términos de
interacción.

– 2 logaritmo de la verosimilitud (–2LL) mide hasta qué punto un modelo se ajusta bien a los
datos. El resultado de esta medición recibe también el nombre de desviación. Cuanto más
pequeño sea el valor, mejor será el ajuste.

La R cuadradro de Cox y Snell es un coeficiente de determinación generalizado que se utiliza

para estimar la proporción de varianza de la variable dependiente explicada por las variables
predictoras (independientes).
La R cuadrado de Cox y Snell se basa en la comparación del logaritmo de la verosimilitud (LL)
para el modelo respecto al logaritmo de la verosimilitud (LL) para un modelo de línea base. Los
valores oscilan entre 0 y 1.

La R cuadrado de Nagelkerke es una versión corregida de la R cuadrado de Cox y Snell.

La R cuadrado de Cox y Snell tiene un valor máximo inferior a 1, incluso para un modelo
"perfecto". La R cuadrado de Nagelkerke corrige la escala del estadístico para cubrir el rango
completo de 0 a 1.

La bondad de ajuste ha resultado

excelente, basta notar la similitud entre
valores esperados y observados en el
procedimiento de Hosmer y Lemeshow.

La prueba de Hosmer‐Lemeshow es otra prueba para evaluar la bondad del ajuste de un modelo de
regresión logística (RL).

Parte de la idea de que si el ajuste es bueno, un valor alto de la probabilidad predicha (p) se asociará
con el resultado 1 de la variable binomial dependiente, mientras que un valor bajo de p (próximo a
cero) corresponderá (en la mayoría de las ocasiones) con el resultado Y=0.

Para cada observación del conjunto de datos, se trata de calcular las probabilidades de la variable
dependiente que predice el modelo, ordenarlas, agruparlas y calcular, a partir de ellas, las
frecuencias esperadas, y compararlas con las observadas mediante una prueba chi‐cuadrado.

Santiago de la Fuente Fernández 12

Regresión Logística
Señalar que esta prueba de bondad de ajuste tiene algunas 'inconvenientes': El estadígrafo de
Hosmer‐Lemeshow no se computa cuando, para algunos grupos, ei (valores esperados) ó
ei*(ni – ei) son nulos o muy pequeños (menores que 5). Por otra parte, lo que se desea en esta
prueba es que no haya significación (lo contrario a lo que suele ser habitual). Por este motivo,
muchos autores proponen simplemente cotejar valores observados y esperados mediante
simple inspección y evaluar el grado de concordancia entre unos y otros a partir del sentido
común.

Sobre este razonamiento, una forma de evaluar la ecuación de regresión y el modelo obtenido
es construir una tabla 2×2 clasificando a todos los individuos de la muestra según la
concordancia de los valores observados con los predichos o estimados por el modelo, de
forma similar a como se evalúan las pruebas diagnósticas.

Una ecuación sin poder de clasificación alguno tendría una especificidad, sensibilidad y total de
clasificación correctas igual al 50% (por el simple azar). Un modelo puede considerarse aceptable si
tanto la especificidad como la sensibilidad tienen un nivel alto, de al menos el 75%.

El modelo tiene una especificidad alta

(100%) y una sensibilidad nula (0%). Con la
constante y una única variable predictora
(Virus), clasifica mal a los individuos que no
tienen anticuerpos cuando el punto de
corte de la probabilidad de Y calculada se
establece (por defecto) en 50% (0,5).

Por último, SPSS ofrece las variables de la ecuación, los coeficientes de regresión con sus
correspondientes errores estándar (ET), el valor del estadístico de Wald para evaluar la hipótesis
nula ( pi = 0 ), la significación estadística asociada, y el valor de la OR= exp( βi ) con sus intervalos de
confianza.

El modelo ajustado resulta: P [anticuerpos] = 1

(− 0 ,120 + 0 ,103 Z1 + 0 ,093 Z 2 − 0 ,413 Z 3 + 0 ,046 RH)
1+e

Para estimar, mediante el modelo, la tasa de anticuerpos entre sujetos del ESTE (1‐Norte, 2‐Sur, 3‐
Este y 4‐Oeste) que tienen RH negativo, se tendría que sustituir en la ecuación los valores
(Z1 = 0, Z2 = 1, Z3 = 0, RH = 2)

P [anticuerpos] = 1
(− 0 ,120 + 0 ,093. 1 + 0 ,046 . 2)
= 0,937
1+e

Santiago de la Fuente Fernández 13

Regresión Logística
Computando la tasa de sujetos con anticuerpos en esta subpoblación (Este, RH negativo) utilizando
la información original, siendo RH(−anticuerpo s , zona) , la razón sería:

RH(−1,3) 90
= = 0,573
RH(−1,3) + RH(−0 ,3) 90 + 67

Si el modelo contempla la interacción

(Zona_RH) se debe incluir como una
variable más el producto de las dos
variables (Zona*RH), sin codificar los
valores de la nueva variable, sino
simplemente el producto de ambas.

Sin embargo, puesto que Zona ha de tratarse a través de las variables dummy (indicadoras), en este
caso crear la variable (Zona*RH) sería incorrecto. Para hacer el ajuste incorporando la interacción de
Zona y RH no se debe indicar a SPSS que maneje Zona a través de variables dummy, sino que deben
construirse las tres variables dummy previamente y luego los tres productos procedentes de éstas
con RH. La tabla de contingencia resultante sería:

Santiago de la Fuente Fernández 14

Regresión Logística
Después de ponderar los datos por la frecuencia, al realizar el contraste en SPSS:

En el Visor de resultados del Bloque 1: Método Introducir

El proceso de iteración se realiza para ocho coeficientes. Los coeficientes calculados son,
respectivamente, para la constante β0 = 0,074 , y para la variables Z1, Z2, Z3, RH, Z1_RH, Z2_RH,
Z3_RH.

Se muestra una tabla chi‐cuadrado que evalúa la

hipótesis nula de que los coeficientes βi de
todos los términos (excepto la constante)
incluidos en el modelo son cero.

El estadístico chi‐cuadrado para este contraste es la diferencia entre el valor de (‐2LL) para el modelo
sólo con la constante (‐2LL = 8729,445) y el valor (‐2LL) para el modelo actual (‐2LL = 8705,834), es
decir, el cociente o razón de verosimilitudes:

RV = χ24 = (–2LL MODELO 0) – (–2LL MODELO 1) = 8729,445 – 8705,8334 = 23,610

Santiago de la Fuente Fernández 15

Regresión Logística

El coeficiente de determinación tiene un valor muy

pequeño, indicando que sólo el 0,4% de la variación
de la variable dependiente es explicada por las
variables incluidas en el modelo.

La bondad de ajuste ha resultado

excelente, basta notar la similitud entre
valores esperados y observados en el
procedimiento de Hosmer y Lemeshow.

El modelo ajustado resulta:

P [anticuerpos] = 1
1 + e(− 0 ,074 + 0 ,034 Z1 − 1,548 Z2 − 0 ,216Z 3 + 0 ,016 Z1 _ RH + 0 ,646 Z2 _ RH + 0 ,075 Z 3 _ RH)

NOTA.‐ Las variables con un error estándar mayor que 1 no entrarían en el modelo sean o no
significativas, o las que tienen un OR muy grande o cercano a cero.
El OR= exp( βi ) es una medida estadística que cuantifica el riesgo que representa poseer el factor
correspondiente o no poseerlo, suponiendo que el resto de variables del modelo permanecen
constantes. Un odds‐ratio próximo a 1 (OR = eβi ) , es decir, un coeficiente βi cercano a cero, indicará
que cambios en la variable explicativa asociada no tendrán efecto alguno sobre la variable
dependiente. Para determinar si el OR es significativamente distinto de 1 se calcula su intervalo de
confianza [ OR < 1 es un factor protector, OR = 1 es un factor que no es protector ni de riesgo,
OR > 1 es un factor de riesgo]. Es significativo cuando su p_valor (Signatura) < 0,05

Santiago de la Fuente Fernández 16

Regresión Logística
Las variables Z1, Z3, RH, Z1_RH, Z3_RH tienen intervalos de confianza que cubre el 1, por lo que no
tienen efecto alguno sobre la variable respuesta (anticuerpos).

Las variables que entran en la ecuación son Z2, Z2_RH, sólo hay que analizar estas dos variables y se
inicia el procedimiento de nuevo con el Método Introducir.

A la misma conclusión se hubiera llegado si se hubiera elegido el Método Adelante RV (método

automático por pasos, hacia delante, que utilizará la prueba de la Razón de Verosimilitud para
comprobar las covariables a incluir o excluir).

SPSS ofrece las variables que dejará en la ecuación, sus coeficientes de regresión con sus
correspondientes errores estándar, el valor del estadístico de Wald para evaluar la hipótesis nula
(Pi=0), la significación estadística asociada, y el valor de la OR (exp(B)) con sus intervalos de
confianza.

Se muestra una evaluación de cuánto perdería

el modelo obtenido si se eliminara la variable
incluida en este paso, ya que en los métodos
automáticos de construcción del modelo por
pasos el proceso evalúa la inclusión y la
exclusión de variables.
La tabla presenta, para cada variable del modelo, los cambios en la verosimilitud si dichas variables
se eliminan; si la significación estadística asociada (Sig. del cambio) fuese mayor que el criterio de
exclusión establecido, la variable se eliminaría del modelo en el paso siguiente.
Como el cambio de verosimilitud es estadísticamente significativo (< 0,05), las variables quedan en el
modelo.
Santiago de la Fuente Fernández 17
Regresión Logística
Sí se hubiera elegido el Método Atrás Wald (método automático de selección por pasos hacia atrás,
el contraste para la eliminación se basa en la probabilidad del estadístico de Wald). Se selecciona
hacia atrás porque se desea que el modelo incluya en un principio todas las variables independientes
y vaya quitando variables en cada paso hasta solo quedar las variables explicativas.

Santiago de la Fuente Fernández 18

Regresión Logística
En el paso 3 habían entrado las variables (Z1, Z2, Z3, Z2_RH, Z3_RH), en el paso 4 queda
eliminada la variable Z1 porque tiene el mayor OR próximo a cero, el intervalo de confianza del
OR cubre el 1 (no tiene efecto alguno sobre la variable dependiente).

En el paso 4 habían entrado las variables (Z2, Z3, Z2_RH, Z3_RH), en el paso 5 queda eliminada
la variable Z3_RH porque tiene el mayor OR próximo a cero, el intervalo de confianza del OR
cubre el 1 (no tiene efecto alguno sobre la variable dependiente).

En el paso 5 habían entrado las variables (Z2, Z3, Z2_RH), en el paso 6 queda eliminada la
variable Z3 porque el intervalo de confianza del OR cubre el 1, en consecuencia, no tiene efecto
alguno sobre la variable dependiente.

Las variables que entran en la ecuación son Z2, Z2_RH, sólo hay que analizar estas dos variables y se
inicia el procedimiento de nuevo con el Método Introducir.

Si se tuviera alguna otra variable que podría

modificar el modelo se podría introducir en
covariables (variables independientes).
En Método Introducir.

El modelo ajustado resulta: P [anticuerpos] = 1

1 + e(− 0 ,064 − 1,523 Z2 + 0 ,646 Z2 _ RH)

Santiago de la Fuente Fernández 19

Regresión Logística
Ejemplo 2.‐ Se estudia la infección hospitalaria posquirúrgica en pacientes operados de rodilla a lo
largo de la primera semana. Para evaluar un nuevo régimen de la atención de enfermería que se
dispensa a los pacientes se hace un estudio a ochenta pacientes de edades diferentes, donde 36 se
ubican en la atención establecida y 44 en la atención en estudio. Obteniendo la tabla siguiente:

Infección
Atención Sí (1) No (0)
Estudio (1) 7 37 7.22
OR = = 0,279
14 . 37
Establecida (0) 14 22

Si se considera la variable edad del paciente (< 40 años, ≥40 años), se introduce una variable de
confusión en la relación que pudiera existir en la relación (atención ‐ desarrollar infección).

La distribución de pacientes según régimen de atención enfermera, condición respecto de

la infección y grupo de edad, viene dada por la tabla adjunta:

Infección
Atención Sí (1) No (0)
Estudio (1) 2 22 2. 9
Edad < 40 (1) OR1 = = 0,41
Establecida (0) 2 9 2 . 22

Estudio (1) 5 15 5.13

Edad ≥ 40 (2) OR2 = = 0,36
Establecida (0) 12 13 12.15

Los datos de la tabla de contingencia de 3 entradas con 8 celdas:

Infección Atención Edad Frecuencia

0 0 1 9
0 0 2 13
0 1 1 22
0 1 2 15
1 0 1 2
1 0 2 12
1 1 1 2
1 1 2 5

La asociación entre la atención y la infección puede ser omitida o falsamente detectada en caso de
que exista un factor de confusión. Un factor de confusión es el que se asocia con la atención de
enfermería y la infección de los pacientes.

Para analizar la asociación entre la atención de enfermería y la infección a lo largo de la semana de

los pacientes: Analizar/Estadísticos descriptivos/Tablas de contingencia

Santiago de la Fuente Fernández 20

Regresión Logística

En [Estadísticos] se selecciona Riesgo.

En [Casillas] se selecciona Porcentaje en
columnas.

Se calcula el OR de la atención
establecida respecto a la atención
nueva.

El OR es 0,297 y su intervalo de
confianza no contiene la unidad,
por lo tanto es un OR significativo.

Surge la pregunta si el 0R=0,297 es realmente la medida del riesgo de la atención primaria de

producir una infección o es que esta inflada, o es que no es el valor correcto debido a otros factores.

Como única medida de la asociación entre la atención y la infección, se calcula el odds‐ratio dentro
de cada categoría o estrato formado por los dos grupos de edad (menores de 40 y mayores de 40).
Una medida única global se obtiene como un promedio ponderado de los odds‐ratio dentro de los
estratos (odds‐ratio de Mantel‐Haenszel).

En [Estadísticos] se selecciona Riesgo.

En [Casillas] se selecciona Porcentaje en
columnas.

Santiago de la Fuente Fernández 21

Regresión Logística

Se calcula el OR de la atención establecida

respecto a la atención nueva dentro de cada
estrato.

En el estrato (< 40 años), el OR es 0,41 y no

es significativo porque su intervalo de
confianza cubre la unidad.

En el estrato (≥ 40 años), el OR es 0,36 y no

es significativo porque su intervalo de
confianza cubre la unidad.

La signatura asintótica (p_value) vale

0,921 > 0,05, por lo tanto, no se rechaza la
hipótesis nula, que establece que los OR se
distribuyen de forma homogénea.

Si la Signatura asintótica hubiera sido menor que 0,05 no se podría haber aplicado Mantel‐Haenszel,
teniendo que aplicar otro método (regresión logística).

Al distribuirse los OR de forma homogénea se puede aplicar el estadístico de Mantel‐Haenszel:

El OR = 0,373 , su intervalo de confianza

cubre la unidad, por lo que no es
significativo. Concluyendo que la edad
es un factor de confusión.

Adviértase que el OR calculado

inicialmente de 0,297 es muy diferente
al ajustado con la edad del paciente.

Se realiza la regresión logística: Se selecciona la variable dependiente (Infección) y las covariables

(variables independientes: Atención y Edad). Ahora tenemos que indicarle al SPSS las variables
categóricas, se pulsa el botón [Categóricas].

Santiago de la Fuente Fernández 22

Regresión Logística
SPSS ofrece las variables de la ecuación, los coeficientes de regresión con sus correspondientes
errores estándar (ET), el valor del estadístico de Wald para evaluar la hipótesis nula ( pi = 0 ), la
significación estadística asociada, y el valor de la OR= exp( βi ) con sus intervalos de confianza.

Es muy importante distinguir entre un contexto explicativo y un contexto predictivo. En el primer

caso, el modelo para cada posible factor de riesgo o protector se ajusta con los factores que pueden
ser confusores para él. Solo en los estudios predictivos se ajusta el mejor modelo. Debe tenerse en
cuenta, en este caso, que una variable puede tener valor predictivo aunque no sea parte del
mecanismo causal que produce el fenómeno en estudio.

Si el contexto es predictivo, la probabilidad del suceso para un perfil de entrada dado ha de

computarse independientemente empleando los coeficientes estimados. Si se quiere saber cuál es la
probabilidad de que un alumno esté insatisfecho, hay que aplicar el modelo ajustado:

P [Infección = 1] = 1
( 1,078 + 1,364 . Edad − 0 ,985. Atención)
1+e

La variable Atención, habiendo introducido la variable de confusión Edad, tiene un intervalo de

confianza que cubre el 1, por lo que no tienen efecto alguno sobre la variable respuesta (Infección).

En este sentido, se procede a volver hacer de nuevo una regresión logística binaria, quitando la
variable de confusión, con la variable dependiente (Infección) y la variable independiente Atención.
Se elige el Método Introducir.

La variable Atención, sin introducido la variable de confusión Edad, tiene un intervalo de confianza
que no cubre el 1, por lo que es significativa sobre la variable respuesta (Infección).

El modelo ajustado resulta: P [Infección = 1] = 1

1 + e(1,665 − 1,213. Atención)

Santiago de la Fuente Fernández 23

Regresión Logística
Ejemplo 2.‐ Se desea evaluar la satisfacción con la enseñanza pública de 1.027 estudiantes mediante
la variable Satisfecho (Si=0, No=1) y tres variables independientes Nacionalidad (España=1,
Rumania=2, Colombia=3), Género (Hombre=1, Mujer=2) y Estudios (ESO=1, Primaria=2).

Al introducir los datos en una tabla de contingencia de 4 entradas, ponderando las respectivas
frecuencias, se tendrán ([Link] = 24 configuraciones).

Satisfecho

Estudios Género Nacionalidad Sí (1) No (0)

España (1) (00) 54 109
Hombre (1) Rumania (2) (10) 45 90
Colombia (3) (01) 211 84
ESO (1)
España (1) (00) 27 54
Mujer (2) Rumania (2) (10) 20 44
Colombia (3) (01) 97 42
España (1) (00) 9 19
Hombre (1) Rumania (2) (10) 2 8
Colombia (3) (01) 33 6
PRIMARIA (2)
España (1) (00) 7 14
Mujer (2) Rumania (2) (10) 5 13
Colombia (3) (01) 21 13

La variable Nacionalidad de tipo nominal tiene más de dos categorías, es razonable plantear que sea
manejada como una variable dummy.

Nacionalidad Z1 Z2 Se ajusta un modelo que incluya una variable nominal con

España 0 0 3 clases, ésta debe ser sustituida por las (3 − 1) variables
Rumania 1 0 dummy, y a cada una de ellas corresponderá su respectivo
Colombia 0 1 coeficiente.

Debe recordarse que el conjunto de variables dummy constituye un todo indisoluble con el cual se
suple a una variable nominal. Cualquier decisión que se adopte o valoración que se haga concierne al
conjunto íntegro.

Santiago de la Fuente Fernández 24

Regresión Logística

Santiago de la Fuente Fernández 25

Regresión Logística
Si el contexto es predictivo, la probabilidad del suceso para un perfil de entrada dado ha de
computarse independientemente empleando los coeficientes estimados. Si se quiere saber cuál es la
probabilidad de que un alumno esté insatisfecho, hay que aplicar el modelo ajustado:

P [ Insatisfacción] = ( 0 ,777 + 0 ,061. Z − 1,619 . Z

1
− 0 ,129 . Género + 0 ,013. Estudios )
1+e 1 2

Para una alumna colombiana de primaria, los valores de las variables son: Género=2,
Nacionalidad (Z1=0, Z2=1), Estudios=2:

P [ Insatisfacción] = 1 = 0,745
1 + e( 0 ,777 − 1,619 . 1 − 0 ,129 . 2 + 0 ,013. 2 )

Para un alumno rumano de primaria, los valores de las variables son: Género=1, Nacionalidad
(Z1=1, Z2=0), Estudios=2:

P [ Insatisfacción] = 1
( 0 ,777 + 0 ,061. 1 − 0 ,129 . 1 + 0 ,013. 2 )
= 0,324
1+e

Para una alumna española de primaria, los valores de las variables son: Género=2, Nacionalidad
(Z1=0, Z2=0), Estudios=2:

P [ Insatisfacción] = 1
( 0 ,777 − 0 ,129 . 2 + 0 ,013. 2 )
= 0,367
1+e

Adviértase que en las variables de la ecuación, por el Método Introducir (entran todas las
variables en el análisis), no se ha analizado el intervalo de confianza (IC) de los coeficientes.

De haberlo hecho, los coeficientes de las variables (Z1, Género y Estudios), respectivamente, tienen
un intervalo de confianza que cubre el 1, es decir, hay un riesgo de 1, por lo que debían salir estas
variables de la ecuación y volver a realizar el análisis.

En el caso de haber utilizado el Método Adelante RV (método automático por pasos, hacia delante,
que utiliza la prueba de la Razón de Verosimilitud para comprobar las covariables a incluir o excluir),
éstas variables hubieran salido de la ecuación:

Santiago de la Fuente Fernández 26

Regresión Logística

Se tendría que sacar las variables del análisis y

volverlo a realizar con el Método Introducir.

El modelo ajustado: P [ Insatisfacción] = 1

( 0 ,731 − 1,646 . Z )
1+e 2

Santiago de la Fuente Fernández 27

También podría gustarte

Regresion Logistica
Aún no hay calificaciones
Regresion Logistica
31 páginas
Definición de Regresión Logística
Aún no hay calificaciones
Definición de Regresión Logística
28 páginas
Regresion Variable Dependiente Dicotomica
Aún no hay calificaciones
Regresion Variable Dependiente Dicotomica
31 páginas
Introducción a la Regresión Logística
Aún no hay calificaciones
Introducción a la Regresión Logística
12 páginas
Guía de Regresión Logística
Aún no hay calificaciones
Guía de Regresión Logística
5 páginas
Regresion Logistica
Aún no hay calificaciones
Regresion Logistica
21 páginas
Reresión Logística
Aún no hay calificaciones
Reresión Logística
30 páginas
FEIR 45 - Regresión Logística
Aún no hay calificaciones
FEIR 45 - Regresión Logística
24 páginas
Regresión Logística
Aún no hay calificaciones
Regresión Logística
19 páginas
Regresión Logística
Aún no hay calificaciones
Regresión Logística
16 páginas
Análisis de Regresión Logística
Aún no hay calificaciones
Análisis de Regresión Logística
13 páginas
Regrresion Logistica
Aún no hay calificaciones
Regrresion Logistica
12 páginas
Regresión Logística PDF
Aún no hay calificaciones
Regresión Logística PDF
53 páginas
Respuesta Binomial (Regresión Logística)
Aún no hay calificaciones
Respuesta Binomial (Regresión Logística)
7 páginas
Regresion Logistica 2020-10341
Aún no hay calificaciones
Regresion Logistica 2020-10341
4 páginas
Guía Completa de Regresión Logística
Aún no hay calificaciones
Guía Completa de Regresión Logística
19 páginas
Cuaderno Regresion Logistica - Luis Carlos Silva PDF
Aún no hay calificaciones
Cuaderno Regresion Logistica - Luis Carlos Silva PDF
139 páginas
Analisis de Datos
Aún no hay calificaciones
Analisis de Datos
33 páginas
Estad-Stica Multivariante-Regresi-n Log-Stica
Aún no hay calificaciones
Estad-Stica Multivariante-Regresi-n Log-Stica
9 páginas
Regresión Logística y Odds Ratio en SPSS
Aún no hay calificaciones
Regresión Logística y Odds Ratio en SPSS
21 páginas
Re Gresi On Logistic A
Aún no hay calificaciones
Re Gresi On Logistic A
40 páginas
Regresion Logistica
Aún no hay calificaciones
Regresion Logistica
7 páginas
Métodos Multivariados: Regresión Logística, Respuesta Dicotómica
Aún no hay calificaciones
Métodos Multivariados: Regresión Logística, Respuesta Dicotómica
27 páginas
Regresión Logistica
Aún no hay calificaciones
Regresión Logistica
2 páginas
Introducción a la Regresión Logística
Aún no hay calificaciones
Introducción a la Regresión Logística
15 páginas
Taller 2 Estadistica
Aún no hay calificaciones
Taller 2 Estadistica
4 páginas
MetodoLogit Simbaña Andres
Aún no hay calificaciones
MetodoLogit Simbaña Andres
2 páginas
Introducción a la Regresión Logística
Aún no hay calificaciones
Introducción a la Regresión Logística
19 páginas
Regresión Logística
Aún no hay calificaciones
Regresión Logística
6 páginas
05 MDD 00 Aprendizaje Supervisado
Aún no hay calificaciones
05 MDD 00 Aprendizaje Supervisado
7 páginas
CLASE 13 Regresión Logística
Aún no hay calificaciones
CLASE 13 Regresión Logística
26 páginas
Regresion Logistica
Aún no hay calificaciones
Regresion Logistica
19 páginas
Regresión Lineal Múltiple y Regresión Logística Terminado - ROBLES SARAVIA IRIANKO JOSUE
Aún no hay calificaciones
Regresión Lineal Múltiple y Regresión Logística Terminado - ROBLES SARAVIA IRIANKO JOSUE
31 páginas
La Regresión Aplicada en La Logística Empresarial TUTO EST
Aún no hay calificaciones
La Regresión Aplicada en La Logística Empresarial TUTO EST
7 páginas
Monografía-Regresión Logística
Aún no hay calificaciones
Monografía-Regresión Logística
33 páginas
Regresión Logistica Completo
Aún no hay calificaciones
Regresión Logistica Completo
35 páginas
EXamen Final Estadistica
Aún no hay calificaciones
EXamen Final Estadistica
6 páginas
Conceptos Generales de Regresión Final PDF
Aún no hay calificaciones
Conceptos Generales de Regresión Final PDF
37 páginas
Análisis de Regresión Logística: Conceptos Básicos Y Directrices Alex Moreno Jun2024
Aún no hay calificaciones
Análisis de Regresión Logística: Conceptos Básicos Y Directrices Alex Moreno Jun2024
26 páginas
Análisis de Regresión Logística
Aún no hay calificaciones
Análisis de Regresión Logística
19 páginas
Pronósticos con Regresión Lineal y Logística
Aún no hay calificaciones
Pronósticos con Regresión Lineal y Logística
6 páginas
Regresión Logística
Aún no hay calificaciones
Regresión Logística
7 páginas
5 - Regresión Logística
Aún no hay calificaciones
5 - Regresión Logística
4 páginas
Modelos Logistico Multinivel 1-24
Aún no hay calificaciones
Modelos Logistico Multinivel 1-24
25 páginas
Qué Es La Regresión Logística Binaria y Cómo Analizarla en 6 Pasos
Aún no hay calificaciones
Qué Es La Regresión Logística Binaria y Cómo Analizarla en 6 Pasos
3 páginas
Monografia de Regresion Logistica
Aún no hay calificaciones
Monografia de Regresion Logistica
21 páginas
Regressaddion Logistica
Aún no hay calificaciones
Regressaddion Logistica
29 páginas
Regresión Logística en Medicina
Aún no hay calificaciones
Regresión Logística en Medicina
18 páginas
REGRESIONES
Aún no hay calificaciones
REGRESIONES
7 páginas
Regresión Logística Aplicada
Aún no hay calificaciones
Regresión Logística Aplicada
508 páginas
Modelos para Predecir Embolia Pulmonar
Aún no hay calificaciones
Modelos para Predecir Embolia Pulmonar
11 páginas
Regresión Logística en Biomatemática
100% (1)
Regresión Logística en Biomatemática
37 páginas
2 Regresión Logística
Aún no hay calificaciones
2 Regresión Logística
12 páginas
Regresión Logística
Aún no hay calificaciones
Regresión Logística
18 páginas
Regresion Logistica
Aún no hay calificaciones
Regresion Logistica
5 páginas
Zotero
Aún no hay calificaciones
Zotero
2 páginas
Regresión Lineal
Aún no hay calificaciones
Regresión Lineal
7 páginas
CLUSTERS
Aún no hay calificaciones
CLUSTERS
42 páginas
Afc Numero 5
Aún no hay calificaciones
Afc Numero 5
19 páginas
Afc Numero 2
Aún no hay calificaciones
Afc Numero 2
6 páginas
Afc Numero 4
Aún no hay calificaciones
Afc Numero 4
4 páginas
Regresión Lineal Multiple
Aún no hay calificaciones
Regresión Lineal Multiple
47 páginas
Uso de Meta-Analisis para Estudios de Salud y Demanda de Gasolina
Aún no hay calificaciones
Uso de Meta-Analisis para Estudios de Salud y Demanda de Gasolina
53 páginas
Afc Numero 1
Aún no hay calificaciones
Afc Numero 1
8 páginas
Estacionalidad Pacientes
Aún no hay calificaciones
Estacionalidad Pacientes
14 páginas
Libro Herramientas Estadisticas Aplicadas A La Investigacion
Aún no hay calificaciones
Libro Herramientas Estadisticas Aplicadas A La Investigacion
185 páginas
Material 2017D1 ECO161 11 72982
Aún no hay calificaciones
Material 2017D1 ECO161 11 72982
32 páginas
Metodos y Técnicas Variables 1
Aún no hay calificaciones
Metodos y Técnicas Variables 1
16 páginas
SPSS Estadistico y Econometrico
Aún no hay calificaciones
SPSS Estadistico y Econometrico
115 páginas
Viviendas en Machala
Aún no hay calificaciones
Viviendas en Machala
11 páginas
Convocatoria CAS para Programa Agua Segura
Aún no hay calificaciones
Convocatoria CAS para Programa Agua Segura
2 páginas
Metodologia Catequetica
Aún no hay calificaciones
Metodologia Catequetica
10 páginas
EDO EDDP Cálculo II
Aún no hay calificaciones
EDO EDDP Cálculo II
2 páginas
Claves de Comunicación Efectiva
Aún no hay calificaciones
Claves de Comunicación Efectiva
6 páginas
Curso FTTH: Introducción y Arquitectura
100% (1)
Curso FTTH: Introducción y Arquitectura
9 páginas
Evaluación MSPI y Efectividad de Controles
Aún no hay calificaciones
Evaluación MSPI y Efectividad de Controles
431 páginas
Skull Rules Es
Aún no hay calificaciones
Skull Rules Es
12 páginas
Modelo Auto Admisorio
Aún no hay calificaciones
Modelo Auto Admisorio
3 páginas
SAP105 Guia1a1
Aún no hay calificaciones
SAP105 Guia1a1
2 páginas
3 Entrega Trabajo Colaborativo Gestion y Distribucion Transporte
Aún no hay calificaciones
3 Entrega Trabajo Colaborativo Gestion y Distribucion Transporte
17 páginas
Ideas Peligrosas
Aún no hay calificaciones
Ideas Peligrosas
10 páginas
Convivencia 5° Grado Sección A - 2023
Aún no hay calificaciones
Convivencia 5° Grado Sección A - 2023
1 página
Evaluación 4 - Matemáticas - 4° Básico
Aún no hay calificaciones
Evaluación 4 - Matemáticas - 4° Básico
9 páginas
Comuna 8
Aún no hay calificaciones
Comuna 8
37 páginas
Reparos Tributarios en Empresas Comerciales
Aún no hay calificaciones
Reparos Tributarios en Empresas Comerciales
4 páginas
Cartilla 2. Ecuaciones
Aún no hay calificaciones
Cartilla 2. Ecuaciones
24 páginas
Diseño de Compuerta Multiplicadora
Aún no hay calificaciones
Diseño de Compuerta Multiplicadora
1 página
SILABO - TESIS - METALURGIA - Daniel - Lovera - 2020
Aún no hay calificaciones
SILABO - TESIS - METALURGIA - Daniel - Lovera - 2020
18 páginas
Siembra y Cultivo de Caraota
Aún no hay calificaciones
Siembra y Cultivo de Caraota
15 páginas
Lanamet Finales
Aún no hay calificaciones
Lanamet Finales
15 páginas
Comparación Cetirizina vs. Loratadina vs. Fexofenadina
Aún no hay calificaciones
Comparación Cetirizina vs. Loratadina vs. Fexofenadina
19 páginas
Microentorno en Marketing: Actores Clave
Aún no hay calificaciones
Microentorno en Marketing: Actores Clave
2 páginas
Ética y Normas en Psicología
Aún no hay calificaciones
Ética y Normas en Psicología
3 páginas
Cuba Antes de 1959
Aún no hay calificaciones
Cuba Antes de 1959
3 páginas
Instrucciones Notariales - Arrendamiento Principe de Gales
Aún no hay calificaciones
Instrucciones Notariales - Arrendamiento Principe de Gales
2 páginas
Proceso Productivo de Nutrinca
Aún no hay calificaciones
Proceso Productivo de Nutrinca
7 páginas
Entrevista Con El Ing. en Logística y Transporte
50% (4)
Entrevista Con El Ing. en Logística y Transporte
2 páginas
Flashcards Cancer Pulmon Corregidas
Aún no hay calificaciones
Flashcards Cancer Pulmon Corregidas
2 páginas
Texto Argumentativo Tungsteno
Aún no hay calificaciones
Texto Argumentativo Tungsteno
1 página

Regresion Logística

Cargado por

Regresion Logística

Cargado por

Regresión logística

Santiago de la Fuente Fernández

Santiago de la Fuente Fernández

En general, la regresión logística es adecuada cuando la variable de respuesta Y es politómica

La RL es una de las técnicas estadístico‐inferenciales más empleadas en la producción científica

La identificación del mejor modelo de regresión logística se realiza mediante la comparación de

En la práctica, para incluir o no en la ecuación de regresión una variable de confusión, se utiliza el

CONCEPTO DE INTERACCIÓN: Un concepto importante al construir un modelo de regresión es que

Al introducir los términos de interacción en un modelo de regresión es importante para la correcta

Ejemplo: Se desea construir un modelo de regresión para estimar la prevalencia de hipertensos en

Santiago de la Fuente Fernández 2

VARIABLES CUALITATIVAS EN EL MODELO LOGÍSTICO: Como la metodología empleada para la

La asignación de un número a cada categoría no resuelve el problema. La solución a este problema

Santiago de la Fuente Fernández 3

El objetivo consiste en determinar:

Para ello, se construye el modelo P [Y = 1 / X1 , X2 , L , Xk ] = p(X1 , X2 , L , Xk ; β) donde:

⎯→ [0,1] que depende de un vector de parámetros

Como (Y / X1 , X2 , L , Xk ) ∈B[1, p(X1 , X2 , L , Xk ; β)] la función de verosimilitud viene dada por:

 MODELO LOGIT (modelo de regresión logística binaria):

Santiago de la Fuente Fernández 4

MODELO DE REGRESIÓN LOGÍSTICA BINARIA

Se conoce como odds (ratio del riesgo) al cociente de probabilidades:

se toma como primera variable explicativa a la variable constante que vale 1.

Suponiendo que ha habido un Odds 2 βi

De donde se desprende que, un coeficiente βi cercano a cero, es decir, un odds‐ratio próximo a 1,

(a) Contraste de bondad de ajuste global de Hosmer‐Lemeshow::

Santiago de la Fuente Fernández 5

) El estadístico desviación viene dado por la expresión:

n ⎡ y ⎤ n−m ⎡ (1 − yi ) ⎤ ⎧ m ≡ número observaciones con yi = 1

(b) Contraste de bondad de ajuste de Hosmer‐Lemeshow:

) Medida de Apalancamiento (Leverage):

Santiago de la Fuente Fernández 6

Distancia de Cook.‐ Cuantifica la influencia en la estimación de β :

Santiago de la Fuente Fernández 7

Santiago de la Fuente Fernández 8

En [Opciones] están disponibles:

El Visor de resultados de SSPS:

Aparece un cuadro con el número de casos

La tabla especifica la codificación de la variable dependiente

La tabla muestra la codificación empleada en las

Si en el cuadro de definir Variables Categóricas se ha seleccionado en Contraste Indicador y en

La sucesión de estimadores ha convergido, el número de iteraciones necesarias son 3.

Santiago de la Fuente Fernández 9

En este bloque inicial se calcula la verosimilitud de un

La tabla permite evaluar el ajuste del modelo

En la tabla de variables que no están asociadas en la ecuación figura la significación estadística

Santiago de la Fuente Fernández 10

Bloque 1: Método = Introducir

En la tabla se muestra el proceso de

Se muestra una tabla chi‐cuadrado que evalúa la

RV = χ24 = (–2LL MODELO 0) – (–2LL MODELO 1) = 8711,623 – 8711,623 = 17,822

Prueba Omnibus, SSPS ofrece tres entradas (Paso, Bloque y Modelo):

Santiago de la Fuente Fernández 11

Seguidamente, tres medidas Resumen de los

 La R cuadradro de Cox y Snell es un coeficiente de determinación generalizado que se utiliza

 La R cuadrado de Nagelkerke es una versión corregida de la R cuadrado de Cox y Snell.

La bondad de ajuste ha resultado

Santiago de la Fuente Fernández 12

El modelo tiene una especificidad alta

El modelo ajustado resulta: P [anticuerpos] = 1

Santiago de la Fuente Fernández 13

Si el modelo contempla la interacción

Santiago de la Fuente Fernández 14

En el Visor de resultados del Bloque 1: Método Introducir

Se muestra una tabla chi‐cuadrado que evalúa la

RV = χ24 = (–2LL MODELO 0) – (–2LL MODELO 1) = 8729,445 – 8705,8334 = 23,610

Santiago de la Fuente Fernández 15

El coeficiente de determinación tiene un valor muy

La bondad de ajuste ha resultado

El modelo ajustado resulta:

Santiago de la Fuente Fernández 16

A la misma conclusión se hubiera llegado si se hubiera elegido el Método Adelante RV (método

Se muestra una evaluación de cuánto perdería

Santiago de la Fuente Fernández 18

Si se tuviera alguna otra variable que podría

El modelo ajustado resulta: P [anticuerpos] = 1

MODELO LOGIT (modelo de regresión logística binaria):

La R cuadradro de Cox y Snell es un coeficiente de determinación generalizado que se utiliza

La R cuadrado de Nagelkerke es una versión corregida de la R cuadrado de Cox y Snell.

En el estrato (< 40 años), el OR es 0,41 y no

En el estrato (≥ 40 años), el OR es 0,36 y no