El análisis de propensión como una
herramienta para la inferencia causal
Ángel Gustavo José Martínez
Director de tesis: Mat. Margarita Elvira Chávez Cano
November 13, 2023
U.N.A.M
Introdución
Introduction
En situaciones donde es de interés conocer que efecto tiene un
determinado medicamento, tratamiento o política pública sobre un
conjunto de individuos, se puede recurrir a dos metodologías, la
experimental o la observacional.
◦ Metodología experimental:
⋄ ventajas:
∗ El investigador controla el factor de estudio (intervención).
∗ Puede elegir a la población de estudio de tal manera que
compartan características similares.
∗ Se utliza un mecanismo aleatorio para formar dos grupos de
comparación, el grupo control y el grupo tratado.
∗ Se evita en gran medida el sesgo de confusión y selección.
⋄ desventajas:
∗ Difícil de llevar a cabo por razones económicas, logísticas o éticas.
Esto suele depender de la duración del tiempo de estudio.
1
Introduction
◦ Metodología observacional:
⋄ ventajas:
∗ Su realización implica un menor costo
∗ Evita los obstáculos éticos para su realización
⋄ desventajas:
∗ El investigador no tiene el control sobre el factor de estudio.
∗ El grupo control y tratado no son conformados en base a un
mecanismo aleatorio.
∗ Los individuos no son elegidos de la misma población, con lo cual
implica que no comparten características.
∗ Menor evidencia de causalidad debido al sesgo de selección o
confusión.
2
Introduction
El presente trabajo se enfoca en los estudios observacionles y cuyo
princial objetivo es tener condiciones parecidas (en la medida de lo
posible) a un estudio experimental. Las técnicas clásicas para llevar
a cabo este objetivo son:
◦ Reestricción: Solo incluye a individuos que son similares en las
variables de confusión.
◦ Apareamiento: Empareja a individuos con características
similares.
◦ Estratificación: Forma estratos en los cuales los individuos
tienen características similares.
◦ Modelos de regresión: Se ajusta un modelo de regresión y se
mantienen constantes los valores de las variables confusoras
para estimar el efecto de la exposición.
3
Introduction
Como se mencionó, la finanlidad de estas técnicas es formar grupos
de comparación homogéneos respecto a sus covariables y así llevar
la situación inicial a condiciones similares que se tendrían en un
estudio experimental.
Estas técnicas se vuelven complejas sustancialmente cuando el
número de características aumenta. El análisis de propensión será
una herramienta útil para sortear esta dificultad.
4
Modelo Causal de Neyman-Rubin
Modelo Causal de Neyman-Rubin
Suponga que para la realización de un estudio experimental u
observacional se cuenta con N individuos indexados por
i = 1, 2, 3, ..., N donde cada uno de estos individuos tiene K atributos
o covariables y que se pueden representar de la siguiente manera:
i Wi Yi x1 ··· xk−1 xk
1 w1 Y1 x13 ··· x1(k−1) x1k
2 w2 Y2 x23 ··· x2(k−1) x2k
3 w3 Y3 x33 ··· x3(k−1) x3k
.. .. .. .. .. .. ..
. . . . . . .
N−1 w(N−1) Y(N−1) x(N−1)3 ··· x(N−1)(k−1) x(N−1)k
N wN YN xN3 ··· xN(k−1) xNk
5
Modelo Causal de Neyman-Rubin
Donde:
(
1 si el individuo i recibe tratamiento
Wi =
0 si el individuo i no recibe tratamiento
• Yi (1): respuesta potencial del individuo i si recibe el tratamiento
• Yi (0): respuesta potencial del individuo i si no recibe el
tratamiento.
La variable respuesta observada para cada individuo i se define
como:
Yi = Yi (Wi ) = Yi (0)(1 − Wi ) + Yi (1)Wi .
6
Midiendo el efecto del tratamiento
Se define el Efecto del Tratamiento (ET) para el individuo i como:
ETi = Yi (1) − Yi (0). (1)
Dado que no es constante, es de mayor interés el Efecto Medio del
Tratamiento (EMT):
EMT = E[Yi (1) − Yi (0)], (2)
o el Efecto Medio del Tratamiento en los Tratados (EMTT):
EMTT = E[Yi (1) − Y1 (0) | Wi = 1]. (3)
7
Midiendo el Efecto del Tratamiento
Un estimador insesgado para estas esperanzas es:
X N
d = 1
EMT [Yi (1) − Yi (0)] (4)
N
i=1
N
[ 1 X
EMTT = Wi (Yi (1) − Yi (0)), (5)
N1
i=1
respectivamente.
El problema de estos estimadores es la imposibilidad de observar
Yi (1) y Yi (0) al mismo tiempo en el mismo individuo, es decir, la falta
de contra-factuales. A este impedimento se le conoce como el
problema fundamental de la inferencia causal.
8
Midiendo el Efecto del Tratamiento
Generalmente la comparación directa de las respuestas observadas
por estado de tratamiento dará resultados sesgados:
E[Yi | Wi = 1] − E[Yi | Wi = 0] =E[Yi (1) | Wi = 1] − E[Yi (0) | Wi = 0]
=E[Yi (1) | Wi = 1] − E[Yi (0) | Wi = 1]+
E[Yi (0) | Wi = 1] − E[Yi (0) | Wi = 0]
=ε + E[Yi (0) | Wi = 1] − E[Yi (0) | Wi = 0].
Lo cual difiere del Efecto Medio del Tratamiento.
9
Midiendo el EMT bajo un estudio experimental
Por contrucción, las respuestas potenciales de cada individuo bajo
estudio serán independientes de la asignación a tratamiento. Esto
es:
(Yi (0), Yi (1)) ⊥ Wi ,
donde ⊥ denota independencia. Gracias a esta independencia se
tiene que:
E[Yi | Wi = 1] = E[Yi (1) | Wi = 1] = E[Yi (1) | Wi = 0] = E[Yi (1)],
E[Yi | Wi = 0] = E[Yi (0) | Wi = 0] = E[Yi (0) | Wi = 1] = E[Yi (0)],
y por lo tanto:
E[Yi | Wi = 1] − E[Yi | Wi = 0] = E[Yi (1) − Yi (0)] = EMT.
10
Midiendo el EMT bajo un estudio observacional
En este caso, para tener condiciones parecidas a un estudio
experimental, tenemos que suponer lo siguiente:
Decimos que un tratamiento es fuertemente ignorable si:
(Yi (0), Yi (1)) ⊥ Wi | Xi ∀i ∈ {1, 2, 3, ..., N} , (6)
0 < P(Wi = 1 | Xi ) < 1 ∀i ∈ {1, 2, 3, ..., N} . (7)
A (6) y (7) se les conoce como el supuesto de no confusión y
de soporte común respectivamente.
(6) Implica lo siguiente:
E[Yi (1) | Wi = 1, Xi = x] = E[Yi (1) | Wi = 0, Xi = x] = E[Yi (1) | Xi = x],
E[Yi (0) | Wi = 0, Xi = x] = E[Yi (0) | Wi = 1, Xi = x] = E[Yi (0) | Xi = x].
11
Midiendo el EMT bajo un estudio observacional
Así entonces:
EMT(x) = E[Yi (1) | Xi = x] − E[Yi (0) | Xi = x]
= E[Yi (1) | Wi = 1, Xi = x] − E[Yi (0) | Wi = 0, Xi = x]
= E[Yi | Wi = 1, Xi = x] − E[Yi | Wi = 0, Xi = x],
donde la segunda igualdad se debe a No confusión y la última
puede ser estimada gracias al supuesto de soporte común.
Una vez calculado EMT(x) ∀x, se puede calcular EMT como:
EMT = E[EMT(Xi )]
EMTT = E∗ [E[Yi (1) | Wi = 1, Xi = 1] − E[Yi (0) | Wi = 0, Xi = 1] | Wi = 1],
donde E∗ [·] se toma sobre la distribución de Xi | Wi = 1, es decir,
sobre la distribución de las covariables del grupo tratado.
12
Análsis de Propensión
Análisis de Propensión
Definición 3.1: El puntaje de propensión, denotado por e(X),
es la probabilidad de recibir el tratamiento dado un vector de
covariables observables:
e(Xi ) = P(Wi = 1 | Xi ) = E[Wi | Xi ] ∀i ∈ {1, 2, 3, ..., N} .
Teorema 3.1: Si la asignación al tratamiento es fuertemente
ignorable, entonces también lo es dado e(X). En notación:
{(Y(0), Y(1)) ⊥ W} | X y 0 < P(W = 1 | X) < 1
Implica que:
{(Y(0), Y(1)) ⊥ W} | e(X) y 0 < P(W = 1 | e(X)) < 1
Para toda x en el soporte de X.
13
Análisis de Propensión
Teorema 3.2: Supóngase que el tratamiento es fuertemente
ignorable y sea e(X) el puntaje de propensión, entonces:
E[Y(1) | e(X), W = 1]−E[Y(0) | e(X), W = 0] = E[Y(1)−Y(0) | e(X)].
14
Estimación de e(X)
Para cada individuo i (i = 1, ..., N) con vector de covariables
Xi = (xi1 , ..., xik ), vamos a denotar a la estimación del puntaje de
propensión por ê(Xi ), la cual se puede calcular mediante:
Modelo Probit:
ˆ = P̂(Wi = 1 | Xi = x)
e(X)
= Φ(Xi β̂)
Z Xi β̂
1 u2
= √ e− 2 du,
∞ 2π
donde β̂ = (β̂0 , .., β̂k )t es el vector estimado de parámetros del
modelo mediante el método de máxima verosimilitud.
15
Estimación de e(X)
Modelo Logit:
ê(Xi ) = P̂(Wi = 1 | Xi = x)
exp(Xti β̂)
=
1 + exp(Xti β̂)
exp{β̂0 + β̂1 xi1 + ... + β̂k xik } (8)
=
1 + exp{β̂0 + β̂1 xi1 + ... + β̂k xik }
1
= ,
1 + exp{−(β̂0 + β̂1 xi1 + ... + β̂k xik )}
donde β̂ = (β̂0 , β̂1 , ..., β̂k )t los estimadores máximo verosímiles del
vector de parámetros.
16
Estimación de e(X)
Generalized boosted regression:
Es un método que usa árboles de regresión como predictores
débiles para crear un modelo más complejo combinándolos
mediante un algoritmo iterativo.
La función a maximizar es la función de log-verosimilitud:
E[ℓ(e)] = E[Wlog(e(X)) + (1 − w)log(1 − e(X)) | X].
1
Si hacemos e(X) = 1+exp(−g(X)) , lo anterior es equivalente a:
E[ℓ(g)] = E[(W − 1)g(X) − log(1 + exp(−g(X)))],
donde g(X) es la función de regresión. Esta transformación asegura
que independientemente del valor de g(X), e(X) va a tomar valores
en [0, 1].
17
Estimación de e(X)
En primer lugar supone que se tiene una estimación ĝ(X) que
maximiza el valor esperado de la log-verosimilitud, la cual es igual a:
N
W 1 X
ĝ(X) = log con W= Wi .
1−W N
i=1
El siguiente paso es mejorar esta estimación inicial agregando un
ajuste, es decir, se requiere encontrar una función h(X) tal que:
E[ℓ(ĝ + λh)] > E[ℓ(ĝ)].
Una vez hallada dicha función, la estimación actual se puede
mejorar actualizándola de la siguiente manera:
ĝ(X) ←− ĝ(X) + λh(X) (9)
donde λ ∈ (0, 1] es conocido como tasa de aprendizaje.
18
Estimación de e(X)
Por otra parte, se plantea la siguiente igualdad para enconrar la
función h(X) que maximize la log-verosimilitud:
∂ 1
h(X) = E[ℓ(g)] = E W − |X
∂g(X) 1 + exp(−g(X))
= E[W − e(X) | X],
lo cual sugiere que se debe ajustar ĝ(X) respecto al residual de la
variable indicadora de tratamiento y e(X). Estos residuales serán
estimados mediante árboles de regresión a partir de X, produciendo
así, un modelo no paramétrico y robusto de predicción.
19
Estimación de e(X)
En cada uno de los nodos terminales (T1 , T2 , ..., Tk ) de los árboles de
regresión, los residuos W − e(X) serán relativamente homogéneos y
h(X) se calculará de la siguiente manera:
X
h(X) =θ (Wi (ĝ(Xi ) + θ) − log(1 + exp(ĝ(Xi ) + θ)))
Xi ∈Tk
P
Xi ∈Tk (Wi − e(Xi ))
≈P ,
Xi ∈Tk e(Xi )(1 − e(Xi ))
donde la última expresión está basada en una aproximación de
Taylor de segundo orden.
20
Estimación de e(X)
W
i) Iniciar con ĝ0 (X) = log( 1−W )
ii) Para m = 1, 2, ..., M hacer:
1
iii) Sea ri = Wi − 1+exp(−ĝm−1 (Xi ))
.
iv) Construir un árbol de regresión con r como variable
dependiente y X como variables predictoras para obtener
los nodos terminales T1 , T2 , ..., TK .
v) Calcular las actualizaciones para cada nodo terminal:
P
Xi ∈Tk (Wi − e(Xi ))
θk = P .
Xi ∈Tk e(Xi )(1 − e(Xi ))
vi) Actualizar el modelo de regresión logística:
ĝm (X) ←− ĝm−1 (X) + λθk(X) ,
donde θk(X) indica a qué nodo pertenece el vector X. 21
Estimación de e(X)
Figure 1: a) Soporte común aceptable. b) Soporte común insuficiente.
Fuente: [Link]
22
Métodos de ajuste con e(X)
Regresión
Una vez que se tiene ê(X) se puede ajustar un modelo de regresión
líneal cuando Y sea continua:
µ̂w (ê(Xi )) = β̂0 + β̂1 wi + β̂2 ê(Xi ),
donde β̂0 , β̂1 , β̂2 son estimados a partir de la muestra (Y, W, ê(X)). Así
el los efectos del tratamiento se calcularán como:
X N
d reg = 1
EMT [µ̂1 (ê(Xi )) − µ̂0 (ê(Xi ))].
N
i=1
N
X
[ reg = 1
EMTT Wi [Yi − µ̂0 (ê(Xi ))].
N1
i=1
23
Regresión
Cuando la variable respuesta Y sea binaria, el análisis se realiza a
través de un modelo de regresión logística:
π̂wi = P̂[Yi = 1 | Wi = wi , ê(Xi )]
1
= .
1 + exp{−(β̂0 + β̂1 wi + β̂2 ê(Xi ))}
con los estimadores máximo verosímiles (β̂0 , β̂1 , β̂2 )T obtenidos a
partir de la muestra (Y, W, ê(X)).
El estimador del cociente de momios marginal es:
N
c reg = π̂ 1 /(1 − π̂ 1 ) , 1 X i
OR donde π̂ w = π̂w w = 0, 1.
π̂ 0 /(1 − π̂ 0 ) N
i=1
24
Regresión
Ejemplo: Suponga que la variable de interés es binaria (0: No muere,
1: Muere) y que π̂ 0 = 0.40, π̂ 1 = 0.2, entonces:
c reg =
OR 0.25
= 0.375.
0.66
• El tratamiento reduce los odds de morir por un factor de 0.375.
1
• Los odds de morir son 0.375 = 2.67 más en el grupo control .
25
Apareamiento
El apareamiento o matching es una técnica estadística no
paramétrica de coincidencia que consiste en encontrar por cada
invididuo tratado, uno o varios individuos con similar e(X).
Distribución del puntaje de Distribución del
propensión del grupo puntaje de propensión
tratamiento del grupo control.
Figure 2: Bosquejo Propensity score matching, presentado con los diagramas
de caja asociados a la distribución de la estimación de los puntajes de
propensión del grupo tratamiento y control.
26
Apareamiento
Puntos a tomar en cuenta:
⋄ La medida de similitud usada es δpp = |ê(Xi ) − ê(Xj )| o
δppl = |log(ê(Xi )) − log(ê(Xj ))|.
⋄ Apareamiento con o sin remplazo:
• Con remplazo: Cada unidad del grupo tratamiento se puede
emparejar con una o más unidades de control, aunque estas
últimas hayan sido emparejadas más de una vez.
• Sin remplazo: Cada unidad del grupo control se empareja solo
una vez con una o más unidades del grupo control.
⋄ Cálculo de los estimadores de efecto del tratamiento.
⋄ Tipo de algoritmo de emparejamiento:
27
Apareamiento|Estimadores
Estimadores con apareamiento:
Las respuestas potenciales (contrafactuales) se definen como:
( P
1
M j∈JM (i) Yj si Wi = 0
Ŷi (1) =
Yi si Wi = 1
(
Yi si Wi = 0
Ŷi (0) = P
1
M j∈JM (i) Yj si Wi = 1
donde JM (i) denota el conjunto de índices para los primeros M
apareamientos respecto a la unidad i:
JM (i) = {j1 (i), ..., jm (i)}.
28
Apareamiento|Estimadores
Así, los estimadores respecto al apareamiento, denotados por
EMTmatching y EMTTmatching se definen como:
X N
d matching = 1
EMT (Ŷi (1) − Ŷi (0))
N
i=1
X
[ matching = 1
EMTT (Yi − Ŷi (0))
N1
i:Wi =1
donde Nm
1 yNm
0 es el número de tratados y controles apareados
respectivamente.
29
Apareamiento|Estimadores
Otro estimador usado es:
X
[ Match = 1 [Yobs
EMTT i (1) − Ê[Yi (0) | Wi = 1, ê(Xi )]]
n1
i∈N1 ∩S
1 X obs X
= [Yi (1) − P(i, j)Yobs
j (0)],
n1
i∈N1 ∩S j∈N0 ∩S
donde:
S es la región de soporte común.
n1 : número de individuos en N1 ∩ S.
P(i, j): es una función de pesos que depende de la distancia entre
las unidades apareadas i y j y que se define para cada algoritmo de
apareamiento.
30
Apareamiento|Algoritmos
Nearest Neighbour:
CNN (ê(Xi )) = {j : |log(ê(Xi ))−log(ê(Xj ))| = min |log(ê(Xi ))−log(ê(Xk ))|}.
k∈N0
Sus pesos asociados son:
(
1 si j ∈ CNN (ê(Xi ))
P(i, j) =
0 en otro caso
Una desventaja es que el vecino más cercano esté demasiado lejos,
lo que reduce la calidad del apareamiento.
Caliper Matching:
CCM (ê(Xi )) = {j : ϵ > |log(ê(Xi ))−log(ê(Xj ))| = min |log(ê(Xi ))−log(ê(Xk ))|},
k∈N0
donde ϵ > 0 es la tolerancia previamente establecida. Los pesos
asociados son los mismos que en NN.
31
Apareamiento|Algoritmos
Radius Matching:
CRM (ê(Xi )) = {j : |log(ê(Xi ) − log(ê(Xj ))| < ϵ},
donde ϵ > 0 es la tolerancia establecida por el investigador. Los
pesos quedan definidos de la siguiente manera:
1c si j ∈ CRM (ê(X ))
i
P(i, j) = Ni ,
0 en otro caso
donde Nci es el número de controles apareados con el tratado i.
Se recomienda usar 1 ϵ = 0.25σê(X) .
1 Paul R. Rosenbaum and Donald B. Rubin. Constructing a control group using
multivariate matched sampling methods that incorporate the propensity score. The
American Statistician, 39(1):33–38, 1985.
32
Apareamiento|Algoritmos
Optimal Matching: A diferencia de los algoritmos anteriores, busca
minimizar la diferencia total de los apareamientos formando S
subconjuntos de los grupos a comparar.
Se busca minimizar la distancia ∆ definida como:
S
X
∆= ω(|As |, |Bs |)δ(As , Bs ),
s=1
donde:
• A: Conjunto de tratamiento.
• B: Conjunto control.
• δ(As , Bs ) : Distancia en términos de la estimación de e(X).
|As |+|Bs |
• ω(|As |, |Bs |) = α+β función de pesos.
• α y β es el número de subconjuntos de A y B respectivamente.
33
Apareamiento|Algoritmos
Comprobación del equilibrio de las covariables:
Para comprobar el equilibrio de las covariables en la muestra
apareada se calculan diferencias estandarizadas antes y después del
apareamiento: Para cada xi , continuas o discretas i = 1, 2, ..., k:
|xti − xci | |xtiM − xciM |
Dpre = q , Dpost = q
1 1
2 (V(xti ) + V(xci )) 2 (V(xtiM ) + V(xciM ))
donde:
xti , xci es el promedio de la covariable i del grupo tratado y control
respectivamente, V(xti ), V(xci ) es la varianza de la covariable i.
34
Apareamiento|Algoritmos
Cuando la covariable es dicotómica las diferencias se definen como:
|P̂tk − P̂ck |
Dpre = q ,
1
2 (P̂tk (1 − P̂tk ) + P̂ck (1 − P̂ck ))
|P̂tkM − P̂ckM |
Dpost = q ,
1
2 (P̂tkM (1 − P̂tkM ) + P̂ckM (1 − P̂ckM ))
donde P̂ es la proporción de cada categoría de la variable k.
• Los estudios empíricos han mostrado que una reducción de 3%
a 5% se podría considerar aceptable.
• Para verificar el equilibrio con variables ordinales se puede usar
la prueba U de Mann-Whitney para la comparación de dos
promedios independientes.
35
Ponderación
Este método consiste en usar las estimaciones de e(X) para construir
pesos y crear una nueva muestra ponderada a partir de la original
en la cual la distribución de las covariables observables es
independiente de la asignación al tratamiento.
Los estimadores a usar son:
N N
! N N
!
X Wi Y i X Wi X (1 − Wi )Yi X (1 − Wi )
d IPW =
EMT ÷ − ÷
ê(Xi ) ê(Xi ) 1 − ê(Xi ) 1 − ê(Xi )
i=1 i=1 i=1 i=1
1 X X ê(Xi ) X ê(Xi )
[ IPW
EMTT = Yi − Yi ÷ ,
N1 1 − ê(Xi ) 1 − ê(Xi )
i:Wi =1 i:Wi =1 i:Wi =1
conocidos como los estimadores de Horvitz-Thompson.
36
Ponderación
Esta técnica busca formar estratos en los cuales la estimación de
e(X) es similar, de esta manera en cada estrato la asignación al
tratamiento en escencia, será aleatoria.
Sean J el número de estratos formados y sean
0 = b0 < b1 < ... < bJ−1 < bJ los puntos límites de cada estrato, para
i = 1, 2, ..., N y j = 1, 2, ..., J. Se define la variable que indica si el
individuo i perteneciente al estrato j como:
(
1 si bj−1 ≤ ê(Xi ) < bj
Bi (j) =
0 en otro caso
37
Estratificación
Para cada estrato j se define:
N N
d j = Yj1 − Yj0 = 1 X 1 X
EMT Bi (j)Yi − Bi (j)Yi .
N1 (j) N0 (j)
i:Wi =1 i:Wi =0
Las estimaciones globales se calcularán como:
J
X
d estrat =
EMT d j N1 (j) + N0 (j) ,
EMT
N
j=1
J
X
[ estrat =
EMTT d j N1 (j) ,
EMT
N1
j=1
donde N1 (j) y N0 (j) denotan el número de tratados y controles en el
estrato j respectivamente.
38
Estratificación
⋄ El número óptimo a construir son cinco y de acuerdo a los
ˆ Así el sesgo debido a variables confusoras se
quintiles de e(X)).
verá reducido en un 90%2 .
⋄ Para comprobar el equilibrio de las covariables se pueden usar
de igual forma, las diferencias estandarizadas.
2 W.G. Cochran. The effectiveness of adjustment by subclassification in removing bias
in observational studies. Biometrics, 24:295–313, 1968.
39
Ejemplo de aplicación
Aplicación
Conjunto de datos utilizado:
⋄ El grupo control fue seleccionado del diseño experimental
hecho por Robert J. Lalonde en el artículo titulado National
Supported Work Program.
⋄ El objetivo del programa fue ayudar a trabajadores
desfavorecidos que carecían de habilidades laborales básicas y
experiencia para ingresar al mercado laboral.
⋄ El grupo control fue seleccionado de una encuesta nacional.
⋄ Se desea saber si el programa ayudó a los trabajadores en sus
ingresos en el año 1978 en comparación con los que no
recibieron el programa.
40
Aplicación
El conjunto de datos cuenta con 429 (70%) observaciones del grupo
control y 185 (30%) del grupo tratado con las siguientes covariables:
treat age educ black hispan married nodegree re74 re75 re78
1 32 11 1 0 1 1 0 0 9930.046
1 17 9 0 1 0 1 445.17 74.343 6210.67
1 30 12 1 0 0 0 0 0 24909.45
0 36 5 0 0 0 1 3814.69 2873.46 2571.527
0 40 12 0 1 1 1 4343.69 4313.46 15436.33
• treat: Es la variable que indica si recibió (1) o no (0) el programa
• re74, re75, re78: Ingresos anuales totales en 1974, 1975 y 1978
(Variable respuesta) respectivamente.
41
Aplicación| Desequilibrio inicial
Desequilibrio inicial en las covariables:
Covariable ABS(DME) P-value
age 0.3094 0.5195
educ 0.055 0.792
black 1.7568 <2.2e-16
hispan 0.3489 0.005323
married 0.8241 1.613e-13
nodegree 0.2443 0.01134
re74 0.7211 <2.2e-16
re75 0.2903 1.411e-8
Table 1: Diferencia de medias estandarizadas. Prueba U de Mann-Whitney
para covariables continuas y Ji-cuadrada para categóricas.
Las diferencias para age y educ no son significativas.
42
Aplicación| Selección del modelo de estimación
Se ajustó el modelo logit, probit y GBM, teniendo mejor desempeño
este último.
El área bajo la curva de estos modelos fueron:
Modelo AUC
GBM 0.885
Probit 0.868
Logit 0.866
Table 2: Estimación de la AUC para los tres modelos.
El modelo ganador para estimar e(X) es GBM.
43
Aplicación| Selección del modelo de estimación
El gráfico de RoC es el siguiente:
44
Aplicación| Selección del modelo de estimación
45
Figure 3: Soporte común de los tres modelos.
Aplicación| Resultados Regresión
El resultado de aplicar el modelo de regresión con toda la
submuestra de la variable treat y b
e(X) son:
Estimate Std. Error t value Pr(>| t |)
(Intercept) 43197.9661 14679.9107 2.94 0.0034
treat 1170.3455 981.5992 1.19 0.2336
ps -121983.8959 49433.5494 -2.47 0.0139
d = 1170.34 con una DesvEst
EMT \ = 981.59. Note que la variable treat
es no significativa.
46
Aplicación| Resultados Apareamiento
Figure 4: Cuadro1: Resumen de apareamientos. Cuadro2: Equilibrio de cov.
47
Aplicación| Resultados Apareamiento
Las densidades después del emparejamiento son:
El algoritmo elegido es Radius con un radio=0.08 y sin reemplazo. 48
Aplicación| Estratificación
Figure 5: Cuadro1: Resumen de apareamientos. Cuadro2: Equilibrio de cov.
Figure 6: Cuadro1: Resumen de apareamientos. Cuadro2: Equilibrio de cov.
49
Descriptive statistics of the data
Give us an idea of your sample, timeframe, main trends and patterns
50
Analysis
Analysis
Present the results you have prepared to answer to your research
question and check if your initial hypothesis was correct
51
Discussion
Discussion
Discuss your results, their validity, limitations and possible
policy/societal implications
52
Backup slides
If any
References i