MODELO DE REGRESIÓN
CON ENLACE PROBIT
Mg. Ysela Agüero P.
Prof. Principal/FCM-UNMSM
MODELO PROBIT
• Es una alternativa log-lineal para manejar conjuntos de datos
con variable dependiente categórica.
• Tipicamente se utiliza el modelo probit para analizar datos
de dosis-respuesta en estudios médicos.
• Igual que en la regresión logistica el investigador está
preocupado por encontrar una transformación de la
probabilidad de que la variable dependiente, Y, sea igual a 1
• A diferencia de la regresión logit que utiliza la función de
enlace igual al logaritmo natural de los odds ratio, la función
probit es la inversa de una distribución normal estandar
acumulada.
MODELO LINEAL GENERALIZADO
PROBIT
• Variable respuesta:
La variable respuesta, Y, es binaria, y tiene una distribución de
probabilidades binomial, por lo tanto, la esperanza de la variable es
la probabilidad de suceso; (Y) = y su varianza es V(Y) = (1-).
• Predictor
El predictor, es una combinación lineal del conjunto de variables
independientes
= xt * ,
Donde, X es un vector de dimensión k (número de variables
independientes)
• Función de enlace
A diferencia de la regresión logit que utiliza la función de enlace igual
al logaritmo natural de los odds ratio, la función de enlace próbit es
la inversa de una distribución normal estándar acumulada, (N(0,1)).
MODELO LINEAL GENERALIZADO
PROBIT
A modo de ilustración consideremos un problema de decisión.
Se trata de explicar la probabilidad de que los individuos de una
muestra elijan una opción que denotaremos con Y=1, por medio de
un valor numérico resultante de la combinación lineal de un
conjunto de factores
= xit .
Donde, xi es un vector de variables que caracterizan a cada uno de
los individuos de la muestra.
El individuo elige la alternativa Y=1 si el valor de su indicador (i )
es superior a cierto valor crítico, ;o lax decisión Y=0 en caso
*
i i
*
contrario.
1 *
Y *
0
MODELO LINEAL GENERALIZADO PROBIT
Como el valor crítico i* para cada individuo, es desconocido,
consideremos que es una variable aleatoria.
De acuerdo con esta interpretación, la probabilidad de que el
individuo i-ésimo elija la opción Yi=1 es dada por :
i P(Yi 1) P (i* i x i ) F (x i )
Donde F es la distribución de probabilidad de la variable
aleatoria i. En particular, F() = ( ): :función de
distribución acumulada normal estándar evaluada en i*.
FUNCIÓN DE ENLACE PROBIT
Luego el modelo puede expresarse como :
i = E(Yi=1 / Xi=xi) = P[i* < i] = (xit)
de modo que
-1(E(Yi=1 / Xi) = -1 (i) = xit
t2
1 T
x *
*
( ) e 2 dt
2
Referencia Bibliográfica ; Econometría de A. Novales pags. 536-544.
MODELO LINEAL GENERALIZADO
PROBIT
• La regresión logística se basa en la suposición de que la
variable dependiente categórica refleja una variable
subyascente cualitativa (éxito, fracaso) y usa la distribución
binomial
• La regresión probit asume que la variable dependiente
categórica binaria refleja una distribución subyascente
cuantitativa que ha sido dicotomizada y usa la distribución
normal acumulada.
MODELO LINEAL GENERALIZADO
PROBIT
• En términos prácticos los modelos probit conducen a las
mismas conclusiones que una regresión logística pero
tienen la desventaja de que los coeficientes estimados son
más difíciles de interpretar ( no existe el equivalente al OR
calculado en la regresión logística).
• Las aplicaciones de la regresión probit, se dan
principalmente en economía y se deben más a una
preferencia personal que a las ventajas que pueda tener.
MODELO LINEAL GENERALIZADO
PROBIT
• Tanto la distribución normal estándar acumulada usada en el
modelo probit como la curva logística utilizada en la regresión
logit tienen forma de S (sigmoidea) aunque la probit tiene una
pendiente ligeramente mayor. Las diferencias son muy pequeñas.
• Debido a que se basa en la curva normal estándar (distribución de
colas livianas), no es recomendable utilizar el análisis probit
cuando hay un gran numero de observaciones en las colas de la
distribución empírica del conjunto de datos (observar el
histograma)
• El modelo probit, tiene uso en el análisis de datos de estudios de
dosis-respuesta pero es posible utilizarlo también para otros
propósitos.
MODELO LINEAL GENERALIZADO
PROBIT
• Para los mismos datos, los análisis probit y logit
generalmente llegan a la misma conclusión, pero los
coeficientes difieren en magnitud. El valor de un
coeficiente logit es alrededor de 1.8 veces el valor del
correspondiente coeficiente probit.
• Los coeficientes probit miden el efecto de la variable
independiente en los escores Z de la variable respuesta.
Esto es, responde a la pregunta :
¿qué tanto cambia la distribución acumulativa de la variable
respuesta al cambiar la variable independiente en una
unidad?.
MODELO LINEAL GENERALIZADO
PROBIT
La probabilidad de la variable dependiente no es una función
lineal de Z sino que es la función acumulada de Z. Esto
significa que el efecto de una unidad de cambio en la variable
independiente sobre la probabilidad de la variable
dependiente depende del nivel (o categoría) de las variables
independientes.
MODELO LINEAL GENERALIZADO
PROBIT
• Para verifica el efecto de los coeficientes probit es
necesario elegir algún nivel de la variable independiente
como punto de referencia (un punto de referencia
particular estándar es cuando todas las variables
independientes están en la media muestral.
• Se sustituye todas las variables independientes por su
media muestral en la ecuación ajustada, se obtiene el valor
Z, luego se busca en una tabla normal estándar la
probabilidad correspondiente. Esa probabilidad es una
línea de base, (es decir es la probabilidad de que la
variable respuesta sea igual a 1 cuando todas las variables
independientes son iguales a su media muestral).
MODELO LINEAL GENERALIZADO
PROBIT
Esta linea base puede ser utilizada para interpretar j como el
efecto de una unidad de cambio en la j-ésima variable
independiente cuando todas las otras variables
independientes se mantienen constantes.
A partir de esta linea de base se puede calcular la
“elasticidad de P(Y)” con respecto a la j–ésima variable
independiente la cual mide el efecto de una unidad de
incremento en la variable independiente sobre la probabilidad
que que Y=1 cuando todas las otras se mantienen constantes.
MODELOS PROBIT Y
LOGIT EN ESTUDIOS DE
DOSIS RESPUESTA
ESTUDIOS DE DOSIS RESPUESTA
• La relación dosis-respuesta es la correspondencia entre la cantidad de
tóxico y la magnitud del efecto, y es uno de los conceptos centrales de la
toxicología.
• La mayoría de los estudios de la relación dosis respuesta se realizan para
determinar los efectos terapéuticos de drogas en experimentos de tipo
farmacológico. Esto se refleja en cierta manera en el vocabulario
científico que se usa para describir esta relación.
• En diferentes áreas se les denomina de diferentes formas. Por ejemplo;
en farmacología las exposiciones se denominan de acuerdo al tiempo:
- Exposición aguda.- se refiere a exposiciones de menos de 24 horas y
usualmente a una sola dosis,
- Exposición subaguda.- corresponde a exposiciones de uno a tres
meses;
- Exposición crónica.- corresponden a exposiciones por más de tres
meses o una determinada fracción del tiempo de vida normal del
organismo en estudio.
CURVA DOSIS RESPUESTA
- La curva pasa por el origen (dosis
cero, respuesta cero) y a valores
muy bajos de la dosis, la curva es
horizontal con un valor del efecto
muy próximos a cero (la curva va
sobre el eje de las dosis).
- La respuesta empieza a tener un
valor mayor que cero cuando la A dosis mayores la pendiente
dosis llega al nivel límite (2). empieza a decrecer hasta que
- De allí en adelante la pendiente de la la curva se vuelve asintótica a
curva crece con la dosis, hasta que un valor máximo de la
se llega a una pendiente máxima (3). respuesta (Emax) (4)
Esta pendiente se mantiene por un amplio rango de dosis en el que
la respuesta es directamente proporcional a la dosis (línea recta).
INFORMACIÓN DE LA CURVA DE
DOSIS RESPUESTA
• Potencia.-
Se refiere al rango de dosis dentro del cual una substancia
produce respuestas crecientes. La curva del tóxico (o droga)
más potente aparece más cercana al origen.
La potencia de un droga está influenciada por factores tales
como la absorción, el metabolismo, etc.
• Eficacia .-
Es una medida de la capacidad intrínseca de la droga para
producir un efecto. Este valor se estima midiendo la altura
máxima de la curva dosis-respuesta (cuando la curva se
vuelve asintótica a las abcisas). Se le denomina Emax.
POTENCIA Y EFICACIA DE UNA
DROGA
Dos drogas que son
cualitativamente iguales en
producir un efecto particular
pueden diferir en su eficacia,
en su potencia, o en ambas.
En la figura,
- El compuesto 1 es más potente
que el compuesto 2,
- El compuesto 2 es más potente
que el compuesto 3;
- Los compuestos 1 y 2 tienen igual eficacia
- El compuesto 3 es menos eficaz que 1 y 2 .
MODELOS DE DOSIS - RESPUESTA
• Dosis (X) .-
Se refiere a una cantidad de una medicina o una droga a ser
administrada a la unidad experimental
• Respuesta (Y)
Cualquier acción o cambio de condición (Evento) posible de ser
medido. La medición puede hacerse a diferentes niveles;
molecular, celular, de órgano, de organismo.
1 Ocurre el evento
Y
0 No ocurre el evento
• Relación Dosis - respuesta
Describe el cambio en el efecto en un organismo causado por
diferentes niveles de la droga
PENDIENTE Y VARIABILIDAD,
POTENCIA Y EFICACIA
PENDIENTE Y VARIABILIDAD
• Pendiente.-
Representa el incremento en la respuesta por unidad de incremento
en la dosis. Se obtiene a partir de ajustar un modelo que represente
• Variabilidad
Variaciones en la respuesta al replicar (reproducir) el experimento
con diferentes grupos de individuos (Ej. Ratas de diferentes
especies).
Las variaciones puede surgir debido a diferencias cuantitativas o
cualitativas del metabolismo de las especies (animales, plantas,
células, etc.).
Las diferencias entre especies pueden ser considerables incluso entre
especies estrechamente relacionadas, por ejemplo, las dosis en la
dieta de la toxina fúngica aflatoxina B1 en una proporción tan alta
como 10 000 ppb, no produjo cáncer hepático en ratones, mientras
que en las ratas una proporción de 15 ppb produjo un resultado
significativo.
MODELOS ESTADÍSTICOS DE DOSIS
RESPUESTA
• Para cierto tipo de sustancias como por ejemplo los cancerígenos, la
curva dosis respuesta se construye graficando en la ordenada la
probabilidad de que se produzca cáncer y en las abcisas la dosis
suministrada.
• Los datos experimentales normalmente se encuentran en rangos de
dosis de una magnitud considerablemente mayor que las que puede
experimentar el hombre por exposición a tóxicos ambientales. Lo
mismo sucede si los datos fueron obtenidos con animales de laboratorio
o con estudios epidemiológicos hechos en poblaciones humanas.
• Es necesario extrapolar los resultados observados hacia la región de
dosis cercanas a cero. La extrapolación se puede hacer usando
diferentes modelos matemáticos para linealizar los resultados.
• Los modelos estadísticos más usados son aquellos para respuesta
binaria como : logit, probit y log(-log).
MODELOS DE DOSIS RESPUESTA
Modelo Probit
( ) = P( ), = 0 + 1 * log(dosis)
Probit ((log(dosis)) = 0 + 1 * log(dosis )
Modelo logit
e
(log(dosis )) = 0 +1*log(dosis)
1 e
Logit(( (log(dosis))= 0 +1*log(dosis)
La pendiente, 1, del predictor lineal de esta curva es el índice
de toxicidad que se usa para evaluar riesgos producidos por la
sustancia y se le denomina Factor de pendiente.
DOSIS LETAL MEDIANA (LC50)
• Se refiere a la concentración de la
dosis que mata 50% de los sujetos
experimentales.
• Se utiliza para comparar diferentes
productos.
• En general, cuanto menor es el valor
LC50 más tóxico es el producto
(dosis). Lo contrario también es
correcta cuanto mayor es LC50
menor toxicidad.
Otra definición es, cantidad de un material determinado completo de una
sola vez, que provoca la muerte del 50% (una mitad) de un grupo de
animales de prueba.
El LD50 es una forma de medir el envenenamiento potencial a corto
plazo (toxicidad aguda) de un material.
EJEMPLO DE ANÁLISIS PROBIT
Finney (1971) presenta una serie de datos mostrando el efecto de
una serie de dosis de rotenone (un insecticida) el cual es rociado
(spray) en un insecto llamado Macrosiphoniella samborni.
La tabla contiene las concentraciones del insecticida (Dosis), el
número de insectos observado (Tamaño) y el número de insectos
muertos (casos).
Tabla 1. Mortalidad de los insectos como efecto de la rotenone
Dosis Tamaño Casos
10.2 50 44
7.7 49 42
5.1 46 24
3.8 48 16
2.6 50 6
(Reporte de SPSS)
Modelo Probit : Probit(p)) = Intercept + log(x):
Modelo Probit ajustado : Probit()) = -2.917 + 4.262 log(x):
ˆ (2,917 4, 262*log( dosis))
= 4.262 : es el índice de toxicidad y se puede interpretar como:
Incremento en la probabilidad de morir de los insectos por cada
unidad de log (dosis)
PRUEBA DE BONDAD DE AJUSTE
H0: Las frecuencias de respuesta observada y estimada
mediante el modelo son iguales.
La estadística de prueba es :
2
(Residuos )
X2 i
n2 p
niˆi (1 ˆi )
ni : es el número de sujetos expuestos
i : proporción estimada de respuesta para la dosis i.
n-p : Número de dosis- número de parámetros estimados
(Reporte de SPSS)
Hipótesis de bondad del ajuste:
H0: El modelo ajusta a los datos
Pruebas de chi-cuadrado
b
Chi-cuadrado gl Sig.
a
PROBIT 1,492 3 ,684
a.
b.
No se rechaza la hipótesis por lo tanto se concluye que el modelo
ajusta significativamente a los datos
PRUEBA DE BONDAD DE AJUSTE
Si se rechaza la hipótesis nula se establecen dudas
acerca de la bondad del ajuste del modelo a los datos
lo cual puede ser debido a:
-Problemas de linealidad
-Problemas de variabilidad de los datos respecto a la
recta de regresión.
HIPÓTESIS CON RESPECTO A LA EFICACIA DE LA
DROGA
H0: 1=0
Z=8,825 p=0,000
El rotenone tiene un efecto significativo sobre la probabilidad
de morir del insecto Macrosiphoniella samborni
RESPUESTAS OBSERVADAS Y ESTIMADAS
MEDIANTE EL MODELO.
Número de Respuestas Respuestas Probabilidad
log(dosis) Dosis sujetos observadas esperadas Residuo estimada
1,000 10,0 50 44 45,536 -1,536 0,911
0,886 7,7 49 42 39,471 2,529 0,806
0,708 5,1 46 24 24,814 -0,814 0,539
0,580 3,8 48 16 15,741 0,259 0,328
0,415 2,6 50 6 6,274 -0,274 0,125
GRÁFICO DE PUNTAJES PROBITS VS CONCENTRACIONES
DEL INSECTICIDA ( LOG(DOSIS)
Respuestas transformadas por Probit
1.5
1.0
.5
0.0
-.5
-1.0
Probit
-1.5
.4 .5 .6 .7 .8 .9 1.0 1.1
Log de DOSIS
PRUEBA DE PARALELISMO
¿Las rectas ajustadas tienen la
misma pendiente?
En el caso de distinguir dos o más
grupos de individuos (factor) en la
población objeto de estudio, la
restricción del modelo probit en
relación a que la pendiente de los
distintos modelos es común juega un
papel determinante en los resultados
que haya respuesta al estímulo y los
niveles de la variable independiente.
Esto es, se está suponiendo que los distintos grupos presentan
paralelismo respecto de la dependencia existente entre la
probabilidad de que haya respuesta al estímulo y los niveles de la
variable independiente.
INTERVALOS DE CONFIANZA PARA LA
DOSIS ESPERADA
¿Cuál debe ser la dosis para obtener una cierta proporción ( p̂ )
de respuesta?
Se obtiene mediante :
T ( pˆ ) 0
x
1
Dosis letal mediana
0
Log 10 (dosis letal mediana) =
1
POTENCIA RELATIVA DE LOS AGENTES
La potencia relativa de dois estímulos es definida como la
razón de dos dósis que son igualmelmente efectivas.
Si hay paralelismo la potencia relativa es constante para cada
nivel de respuesta.
POTENCIA RELATIVA MEDIANA :
Es la razón de dos dosis que logran el 50 % de efectividad
TASA DE RESPUESTA NATURAL
En algunas situaciones se espera que la respuesta de
interés ocurra aun cuando el factor no está presente . Por
ejemplo si el insecto tiene una esperanza de vida pequeño
se espera que ocurran muertes aun cuando no se le aplique
el insecticida. Se calcula siempre que se tenga de un grupo
control.