0% encontró este documento útil (0 votos)
60 vistas62 páginas

Análisis de Propensión en Inferencia Causal

Este documento introduce el análisis de propensión como una herramienta para la inferencia causal en estudios observacionales. Explica que el análisis de propensión estima la probabilidad de recibir tratamiento basado en variables observables para crear grupos balanceados que imiten un diseño experimental. También presenta teoremas que muestran que bajo ciertas condiciones, el análisis de propensión puede usarse para estimar el efecto causal promedio del tratamiento de manera no sesgada.

Cargado por

angelmartinez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
60 vistas62 páginas

Análisis de Propensión en Inferencia Causal

Este documento introduce el análisis de propensión como una herramienta para la inferencia causal en estudios observacionales. Explica que el análisis de propensión estima la probabilidad de recibir tratamiento basado en variables observables para crear grupos balanceados que imiten un diseño experimental. También presenta teoremas que muestran que bajo ciertas condiciones, el análisis de propensión puede usarse para estimar el efecto causal promedio del tratamiento de manera no sesgada.

Cargado por

angelmartinez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

El análisis de propensión como una

herramienta para la inferencia causal


Ángel Gustavo José Martínez

Director de tesis: Mat. Margarita Elvira Chávez Cano


November 13, 2023
U.N.A.M
Introdución
Introduction

En situaciones donde es de interés conocer que efecto tiene un


determinado medicamento, tratamiento o política pública sobre un
conjunto de individuos, se puede recurrir a dos metodologías, la
experimental o la observacional.

◦ Metodología experimental:
⋄ ventajas:
∗ El investigador controla el factor de estudio (intervención).
∗ Puede elegir a la población de estudio de tal manera que
compartan características similares.
∗ Se utliza un mecanismo aleatorio para formar dos grupos de
comparación, el grupo control y el grupo tratado.
∗ Se evita en gran medida el sesgo de confusión y selección.
⋄ desventajas:
∗ Difícil de llevar a cabo por razones económicas, logísticas o éticas.
Esto suele depender de la duración del tiempo de estudio.

1
Introduction

◦ Metodología observacional:
⋄ ventajas:
∗ Su realización implica un menor costo
∗ Evita los obstáculos éticos para su realización
⋄ desventajas:
∗ El investigador no tiene el control sobre el factor de estudio.
∗ El grupo control y tratado no son conformados en base a un
mecanismo aleatorio.
∗ Los individuos no son elegidos de la misma población, con lo cual
implica que no comparten características.
∗ Menor evidencia de causalidad debido al sesgo de selección o
confusión.

2
Introduction

El presente trabajo se enfoca en los estudios observacionles y cuyo


princial objetivo es tener condiciones parecidas (en la medida de lo
posible) a un estudio experimental. Las técnicas clásicas para llevar
a cabo este objetivo son:

◦ Reestricción: Solo incluye a individuos que son similares en las


variables de confusión.
◦ Apareamiento: Empareja a individuos con características
similares.
◦ Estratificación: Forma estratos en los cuales los individuos
tienen características similares.
◦ Modelos de regresión: Se ajusta un modelo de regresión y se
mantienen constantes los valores de las variables confusoras
para estimar el efecto de la exposición.

3
Introduction

Como se mencionó, la finanlidad de estas técnicas es formar grupos


de comparación homogéneos respecto a sus covariables y así llevar
la situación inicial a condiciones similares que se tendrían en un
estudio experimental.

Estas técnicas se vuelven complejas sustancialmente cuando el


número de características aumenta. El análisis de propensión será
una herramienta útil para sortear esta dificultad.

4
Modelo Causal de Neyman-Rubin
Modelo Causal de Neyman-Rubin

Suponga que para la realización de un estudio experimental u


observacional se cuenta con N individuos indexados por
i = 1, 2, 3, ..., N donde cada uno de estos individuos tiene K atributos
o covariables y que se pueden representar de la siguiente manera:

i Wi Yi x1 ··· xk−1 xk
1 w1 Y1 x13 ··· x1(k−1) x1k
2 w2 Y2 x23 ··· x2(k−1) x2k
3 w3 Y3 x33 ··· x3(k−1) x3k
.. .. .. .. .. .. ..
. . . . . . .
N−1 w(N−1) Y(N−1) x(N−1)3 ··· x(N−1)(k−1) x(N−1)k
N wN YN xN3 ··· xN(k−1) xNk

5
Modelo Causal de Neyman-Rubin

Donde:
(
1 si el individuo i recibe tratamiento
Wi =
0 si el individuo i no recibe tratamiento

• Yi (1): respuesta potencial del individuo i si recibe el tratamiento


• Yi (0): respuesta potencial del individuo i si no recibe el
tratamiento.

La variable respuesta observada para cada individuo i se define


como:
Yi = Yi (Wi ) = Yi (0)(1 − Wi ) + Yi (1)Wi .

6
Midiendo el efecto del tratamiento

Se define el Efecto del Tratamiento (ET) para el individuo i como:

ETi = Yi (1) − Yi (0). (1)

Dado que no es constante, es de mayor interés el Efecto Medio del


Tratamiento (EMT):
EMT = E[Yi (1) − Yi (0)], (2)
o el Efecto Medio del Tratamiento en los Tratados (EMTT):

EMTT = E[Yi (1) − Y1 (0) | Wi = 1]. (3)

7
Midiendo el Efecto del Tratamiento

Un estimador insesgado para estas esperanzas es:

X N
d = 1
EMT [Yi (1) − Yi (0)] (4)
N
i=1

N
[ 1 X
EMTT = Wi (Yi (1) − Yi (0)), (5)
N1
i=1

respectivamente.
El problema de estos estimadores es la imposibilidad de observar
Yi (1) y Yi (0) al mismo tiempo en el mismo individuo, es decir, la falta
de contra-factuales. A este impedimento se le conoce como el
problema fundamental de la inferencia causal.

8
Midiendo el Efecto del Tratamiento

Generalmente la comparación directa de las respuestas observadas


por estado de tratamiento dará resultados sesgados:

E[Yi | Wi = 1] − E[Yi | Wi = 0] =E[Yi (1) | Wi = 1] − E[Yi (0) | Wi = 0]


=E[Yi (1) | Wi = 1] − E[Yi (0) | Wi = 1]+
E[Yi (0) | Wi = 1] − E[Yi (0) | Wi = 0]
=ε + E[Yi (0) | Wi = 1] − E[Yi (0) | Wi = 0].

Lo cual difiere del Efecto Medio del Tratamiento.

9
Midiendo el EMT bajo un estudio experimental

Por contrucción, las respuestas potenciales de cada individuo bajo


estudio serán independientes de la asignación a tratamiento. Esto
es:
(Yi (0), Yi (1)) ⊥ Wi ,
donde ⊥ denota independencia. Gracias a esta independencia se
tiene que:

E[Yi | Wi = 1] = E[Yi (1) | Wi = 1] = E[Yi (1) | Wi = 0] = E[Yi (1)],

E[Yi | Wi = 0] = E[Yi (0) | Wi = 0] = E[Yi (0) | Wi = 1] = E[Yi (0)],


y por lo tanto:

E[Yi | Wi = 1] − E[Yi | Wi = 0] = E[Yi (1) − Yi (0)] = EMT.

10
Midiendo el EMT bajo un estudio observacional

En este caso, para tener condiciones parecidas a un estudio


experimental, tenemos que suponer lo siguiente:

Decimos que un tratamiento es fuertemente ignorable si:

(Yi (0), Yi (1)) ⊥ Wi | Xi ∀i ∈ {1, 2, 3, ..., N} , (6)

0 < P(Wi = 1 | Xi ) < 1 ∀i ∈ {1, 2, 3, ..., N} . (7)

A (6) y (7) se les conoce como el supuesto de no confusión y


de soporte común respectivamente.

(6) Implica lo siguiente:


E[Yi (1) | Wi = 1, Xi = x] = E[Yi (1) | Wi = 0, Xi = x] = E[Yi (1) | Xi = x],

E[Yi (0) | Wi = 0, Xi = x] = E[Yi (0) | Wi = 1, Xi = x] = E[Yi (0) | Xi = x].


11
Midiendo el EMT bajo un estudio observacional

Así entonces:

EMT(x) = E[Yi (1) | Xi = x] − E[Yi (0) | Xi = x]


= E[Yi (1) | Wi = 1, Xi = x] − E[Yi (0) | Wi = 0, Xi = x]
= E[Yi | Wi = 1, Xi = x] − E[Yi | Wi = 0, Xi = x],
donde la segunda igualdad se debe a No confusión y la última
puede ser estimada gracias al supuesto de soporte común.
Una vez calculado EMT(x) ∀x, se puede calcular EMT como:

EMT = E[EMT(Xi )]

EMTT = E∗ [E[Yi (1) | Wi = 1, Xi = 1] − E[Yi (0) | Wi = 0, Xi = 1] | Wi = 1],

donde E∗ [·] se toma sobre la distribución de Xi | Wi = 1, es decir,


sobre la distribución de las covariables del grupo tratado.
12
Análsis de Propensión
Análisis de Propensión

Definición 3.1: El puntaje de propensión, denotado por e(X),


es la probabilidad de recibir el tratamiento dado un vector de
covariables observables:

e(Xi ) = P(Wi = 1 | Xi ) = E[Wi | Xi ] ∀i ∈ {1, 2, 3, ..., N} .

Teorema 3.1: Si la asignación al tratamiento es fuertemente


ignorable, entonces también lo es dado e(X). En notación:

{(Y(0), Y(1)) ⊥ W} | X y 0 < P(W = 1 | X) < 1

Implica que:

{(Y(0), Y(1)) ⊥ W} | e(X) y 0 < P(W = 1 | e(X)) < 1

Para toda x en el soporte de X.

13
Análisis de Propensión

Teorema 3.2: Supóngase que el tratamiento es fuertemente


ignorable y sea e(X) el puntaje de propensión, entonces:

E[Y(1) | e(X), W = 1]−E[Y(0) | e(X), W = 0] = E[Y(1)−Y(0) | e(X)].

14
Estimación de e(X)

Para cada individuo i (i = 1, ..., N) con vector de covariables


Xi = (xi1 , ..., xik ), vamos a denotar a la estimación del puntaje de
propensión por ê(Xi ), la cual se puede calcular mediante:
Modelo Probit:
ˆ = P̂(Wi = 1 | Xi = x)
e(X)
= Φ(Xi β̂)
Z Xi β̂
1 u2
= √ e− 2 du,
∞ 2π

donde β̂ = (β̂0 , .., β̂k )t es el vector estimado de parámetros del


modelo mediante el método de máxima verosimilitud.

15
Estimación de e(X)

Modelo Logit:

ê(Xi ) = P̂(Wi = 1 | Xi = x)
exp(Xti β̂)
=
1 + exp(Xti β̂)
exp{β̂0 + β̂1 xi1 + ... + β̂k xik } (8)
=
1 + exp{β̂0 + β̂1 xi1 + ... + β̂k xik }
1
= ,
1 + exp{−(β̂0 + β̂1 xi1 + ... + β̂k xik )}

donde β̂ = (β̂0 , β̂1 , ..., β̂k )t los estimadores máximo verosímiles del
vector de parámetros.

16
Estimación de e(X)

Generalized boosted regression:


Es un método que usa árboles de regresión como predictores
débiles para crear un modelo más complejo combinándolos
mediante un algoritmo iterativo.
La función a maximizar es la función de log-verosimilitud:

E[ℓ(e)] = E[Wlog(e(X)) + (1 − w)log(1 − e(X)) | X].


1
Si hacemos e(X) = 1+exp(−g(X)) , lo anterior es equivalente a:

E[ℓ(g)] = E[(W − 1)g(X) − log(1 + exp(−g(X)))],

donde g(X) es la función de regresión. Esta transformación asegura


que independientemente del valor de g(X), e(X) va a tomar valores
en [0, 1].

17
Estimación de e(X)

En primer lugar supone que se tiene una estimación ĝ(X) que


maximiza el valor esperado de la log-verosimilitud, la cual es igual a:
  N
W 1 X
ĝ(X) = log con W= Wi .
1−W N
i=1

El siguiente paso es mejorar esta estimación inicial agregando un


ajuste, es decir, se requiere encontrar una función h(X) tal que:

E[ℓ(ĝ + λh)] > E[ℓ(ĝ)].

Una vez hallada dicha función, la estimación actual se puede


mejorar actualizándola de la siguiente manera:

ĝ(X) ←− ĝ(X) + λh(X) (9)

donde λ ∈ (0, 1] es conocido como tasa de aprendizaje.


18
Estimación de e(X)

Por otra parte, se plantea la siguiente igualdad para enconrar la


función h(X) que maximize la log-verosimilitud:
 
∂ 1
h(X) = E[ℓ(g)] = E W − |X
∂g(X) 1 + exp(−g(X))
= E[W − e(X) | X],

lo cual sugiere que se debe ajustar ĝ(X) respecto al residual de la


variable indicadora de tratamiento y e(X). Estos residuales serán
estimados mediante árboles de regresión a partir de X, produciendo
así, un modelo no paramétrico y robusto de predicción.

19
Estimación de e(X)

En cada uno de los nodos terminales (T1 , T2 , ..., Tk ) de los árboles de


regresión, los residuos W − e(X) serán relativamente homogéneos y
h(X) se calculará de la siguiente manera:
X
h(X) =θ (Wi (ĝ(Xi ) + θ) − log(1 + exp(ĝ(Xi ) + θ)))
Xi ∈Tk
P
Xi ∈Tk (Wi − e(Xi ))
≈P ,
Xi ∈Tk e(Xi )(1 − e(Xi ))

donde la última expresión está basada en una aproximación de


Taylor de segundo orden.

20
Estimación de e(X)

W
i) Iniciar con ĝ0 (X) = log( 1−W )
ii) Para m = 1, 2, ..., M hacer:
1
iii) Sea ri = Wi − 1+exp(−ĝm−1 (Xi ))
.
iv) Construir un árbol de regresión con r como variable
dependiente y X como variables predictoras para obtener
los nodos terminales T1 , T2 , ..., TK .
v) Calcular las actualizaciones para cada nodo terminal:
P
Xi ∈Tk (Wi − e(Xi ))
θk = P .
Xi ∈Tk e(Xi )(1 − e(Xi ))

vi) Actualizar el modelo de regresión logística:

ĝm (X) ←− ĝm−1 (X) + λθk(X) ,

donde θk(X) indica a qué nodo pertenece el vector X. 21


Estimación de e(X)

Figure 1: a) Soporte común aceptable. b) Soporte común insuficiente.


Fuente: [Link]

22
Métodos de ajuste con e(X)
Regresión

Una vez que se tiene ê(X) se puede ajustar un modelo de regresión


líneal cuando Y sea continua:

µ̂w (ê(Xi )) = β̂0 + β̂1 wi + β̂2 ê(Xi ),

donde β̂0 , β̂1 , β̂2 son estimados a partir de la muestra (Y, W, ê(X)). Así
el los efectos del tratamiento se calcularán como:
X N
d reg = 1
EMT [µ̂1 (ê(Xi )) − µ̂0 (ê(Xi ))].
N
i=1

N
X
[ reg = 1
EMTT Wi [Yi − µ̂0 (ê(Xi ))].
N1
i=1

23
Regresión

Cuando la variable respuesta Y sea binaria, el análisis se realiza a


través de un modelo de regresión logística:

π̂wi = P̂[Yi = 1 | Wi = wi , ê(Xi )]


1
= .
1 + exp{−(β̂0 + β̂1 wi + β̂2 ê(Xi ))}

con los estimadores máximo verosímiles (β̂0 , β̂1 , β̂2 )T obtenidos a


partir de la muestra (Y, W, ê(X)).
El estimador del cociente de momios marginal es:
N
c reg = π̂ 1 /(1 − π̂ 1 ) , 1 X i
OR donde π̂ w = π̂w w = 0, 1.
π̂ 0 /(1 − π̂ 0 ) N
i=1

24
Regresión

Ejemplo: Suponga que la variable de interés es binaria (0: No muere,


1: Muere) y que π̂ 0 = 0.40, π̂ 1 = 0.2, entonces:

c reg =
OR 0.25
= 0.375.
0.66

• El tratamiento reduce los odds de morir por un factor de 0.375.


1
• Los odds de morir son 0.375 = 2.67 más en el grupo control .

25
Apareamiento

El apareamiento o matching es una técnica estadística no


paramétrica de coincidencia que consiste en encontrar por cada
invididuo tratado, uno o varios individuos con similar e(X).

Distribución del puntaje de Distribución del


propensión del grupo puntaje de propensión
tratamiento del grupo control.

Figure 2: Bosquejo Propensity score matching, presentado con los diagramas


de caja asociados a la distribución de la estimación de los puntajes de
propensión del grupo tratamiento y control.

26
Apareamiento

Puntos a tomar en cuenta:

⋄ La medida de similitud usada es δpp = |ê(Xi ) − ê(Xj )| o


δppl = |log(ê(Xi )) − log(ê(Xj ))|.
⋄ Apareamiento con o sin remplazo:
• Con remplazo: Cada unidad del grupo tratamiento se puede
emparejar con una o más unidades de control, aunque estas
últimas hayan sido emparejadas más de una vez.
• Sin remplazo: Cada unidad del grupo control se empareja solo
una vez con una o más unidades del grupo control.
⋄ Cálculo de los estimadores de efecto del tratamiento.
⋄ Tipo de algoritmo de emparejamiento:

27
Apareamiento|Estimadores

Estimadores con apareamiento:


Las respuestas potenciales (contrafactuales) se definen como:
( P
1
M j∈JM (i) Yj si Wi = 0
Ŷi (1) =
Yi si Wi = 1
(
Yi si Wi = 0
Ŷi (0) = P
1
M j∈JM (i) Yj si Wi = 1
donde JM (i) denota el conjunto de índices para los primeros M
apareamientos respecto a la unidad i:

JM (i) = {j1 (i), ..., jm (i)}.

28
Apareamiento|Estimadores

Así, los estimadores respecto al apareamiento, denotados por


EMTmatching y EMTTmatching se definen como:

X N
d matching = 1
EMT (Ŷi (1) − Ŷi (0))
N
i=1

X
[ matching = 1
EMTT (Yi − Ŷi (0))
N1
i:Wi =1

donde Nm
1 yNm
0 es el número de tratados y controles apareados
respectivamente.

29
Apareamiento|Estimadores

Otro estimador usado es:


X
[ Match = 1 [Yobs
EMTT i (1) − Ê[Yi (0) | Wi = 1, ê(Xi )]]
n1
i∈N1 ∩S
1 X obs X
= [Yi (1) − P(i, j)Yobs
j (0)],
n1
i∈N1 ∩S j∈N0 ∩S

donde:
S es la región de soporte común.
n1 : número de individuos en N1 ∩ S.
P(i, j): es una función de pesos que depende de la distancia entre
las unidades apareadas i y j y que se define para cada algoritmo de
apareamiento.

30
Apareamiento|Algoritmos

Nearest Neighbour:

CNN (ê(Xi )) = {j : |log(ê(Xi ))−log(ê(Xj ))| = min |log(ê(Xi ))−log(ê(Xk ))|}.


k∈N0

Sus pesos asociados son:


(
1 si j ∈ CNN (ê(Xi ))
P(i, j) =
0 en otro caso

Una desventaja es que el vecino más cercano esté demasiado lejos,


lo que reduce la calidad del apareamiento.

Caliper Matching:

CCM (ê(Xi )) = {j : ϵ > |log(ê(Xi ))−log(ê(Xj ))| = min |log(ê(Xi ))−log(ê(Xk ))|},
k∈N0

donde ϵ > 0 es la tolerancia previamente establecida. Los pesos


asociados son los mismos que en NN.
31
Apareamiento|Algoritmos

Radius Matching:

CRM (ê(Xi )) = {j : |log(ê(Xi ) − log(ê(Xj ))| < ϵ},

donde ϵ > 0 es la tolerancia establecida por el investigador. Los


pesos quedan definidos de la siguiente manera:

 1c si j ∈ CRM (ê(X ))
i
P(i, j) = Ni ,
0 en otro caso

donde Nci es el número de controles apareados con el tratado i.


Se recomienda usar 1 ϵ = 0.25σê(X) .

1 Paul R. Rosenbaum and Donald B. Rubin. Constructing a control group using

multivariate matched sampling methods that incorporate the propensity score. The
American Statistician, 39(1):33–38, 1985.

32
Apareamiento|Algoritmos

Optimal Matching: A diferencia de los algoritmos anteriores, busca


minimizar la diferencia total de los apareamientos formando S
subconjuntos de los grupos a comparar.
Se busca minimizar la distancia ∆ definida como:
S
X
∆= ω(|As |, |Bs |)δ(As , Bs ),
s=1

donde:
• A: Conjunto de tratamiento.
• B: Conjunto control.
• δ(As , Bs ) : Distancia en términos de la estimación de e(X).
|As |+|Bs |
• ω(|As |, |Bs |) = α+β función de pesos.
• α y β es el número de subconjuntos de A y B respectivamente.

33
Apareamiento|Algoritmos

Comprobación del equilibrio de las covariables:


Para comprobar el equilibrio de las covariables en la muestra
apareada se calculan diferencias estandarizadas antes y después del
apareamiento: Para cada xi , continuas o discretas i = 1, 2, ..., k:

|xti − xci | |xtiM − xciM |


Dpre = q , Dpost = q
1 1
2 (V(xti ) + V(xci )) 2 (V(xtiM ) + V(xciM ))

donde:
xti , xci es el promedio de la covariable i del grupo tratado y control
respectivamente, V(xti ), V(xci ) es la varianza de la covariable i.

34
Apareamiento|Algoritmos

Cuando la covariable es dicotómica las diferencias se definen como:

|P̂tk − P̂ck |
Dpre = q ,
1
2 (P̂tk (1 − P̂tk ) + P̂ck (1 − P̂ck ))

|P̂tkM − P̂ckM |
Dpost = q ,
1
2 (P̂tkM (1 − P̂tkM ) + P̂ckM (1 − P̂ckM ))

donde P̂ es la proporción de cada categoría de la variable k.

• Los estudios empíricos han mostrado que una reducción de 3%


a 5% se podría considerar aceptable.
• Para verificar el equilibrio con variables ordinales se puede usar
la prueba U de Mann-Whitney para la comparación de dos
promedios independientes.

35
Ponderación

Este método consiste en usar las estimaciones de e(X) para construir


pesos y crear una nueva muestra ponderada a partir de la original
en la cual la distribución de las covariables observables es
independiente de la asignación al tratamiento.
Los estimadores a usar son:
N N
! N N
!
X Wi Y i X Wi X (1 − Wi )Yi X (1 − Wi )
d IPW =
EMT ÷ − ÷
ê(Xi ) ê(Xi ) 1 − ê(Xi ) 1 − ê(Xi )
i=1 i=1 i=1 i=1
   
1 X X ê(Xi ) X ê(Xi ) 
[ IPW
EMTT = Yi  −  Yi ÷ ,
N1 1 − ê(Xi ) 1 − ê(Xi )
i:Wi =1 i:Wi =1 i:Wi =1

conocidos como los estimadores de Horvitz-Thompson.

36
Ponderación

Esta técnica busca formar estratos en los cuales la estimación de


e(X) es similar, de esta manera en cada estrato la asignación al
tratamiento en escencia, será aleatoria.

Sean J el número de estratos formados y sean


0 = b0 < b1 < ... < bJ−1 < bJ los puntos límites de cada estrato, para
i = 1, 2, ..., N y j = 1, 2, ..., J. Se define la variable que indica si el
individuo i perteneciente al estrato j como:
(
1 si bj−1 ≤ ê(Xi ) < bj
Bi (j) =
0 en otro caso

37
Estratificación

Para cada estrato j se define:


N N
d j = Yj1 − Yj0 = 1 X 1 X
EMT Bi (j)Yi − Bi (j)Yi .
N1 (j) N0 (j)
i:Wi =1 i:Wi =0

Las estimaciones globales se calcularán como:


J
X
d estrat =
EMT d j N1 (j) + N0 (j) ,
EMT
N
j=1

J
X
[ estrat =
EMTT d j N1 (j) ,
EMT
N1
j=1

donde N1 (j) y N0 (j) denotan el número de tratados y controles en el


estrato j respectivamente.

38
Estratificación

⋄ El número óptimo a construir son cinco y de acuerdo a los


ˆ Así el sesgo debido a variables confusoras se
quintiles de e(X)).
verá reducido en un 90%2 .

⋄ Para comprobar el equilibrio de las covariables se pueden usar


de igual forma, las diferencias estandarizadas.

2 W.G. Cochran. The effectiveness of adjustment by subclassification in removing bias


in observational studies. Biometrics, 24:295–313, 1968.

39
Ejemplo de aplicación
Aplicación

Conjunto de datos utilizado:


⋄ El grupo control fue seleccionado del diseño experimental
hecho por Robert J. Lalonde en el artículo titulado National
Supported Work Program.

⋄ El objetivo del programa fue ayudar a trabajadores


desfavorecidos que carecían de habilidades laborales básicas y
experiencia para ingresar al mercado laboral.

⋄ El grupo control fue seleccionado de una encuesta nacional.

⋄ Se desea saber si el programa ayudó a los trabajadores en sus


ingresos en el año 1978 en comparación con los que no
recibieron el programa.

40
Aplicación

El conjunto de datos cuenta con 429 (70%) observaciones del grupo


control y 185 (30%) del grupo tratado con las siguientes covariables:

treat age educ black hispan married nodegree re74 re75 re78
1 32 11 1 0 1 1 0 0 9930.046
1 17 9 0 1 0 1 445.17 74.343 6210.67
1 30 12 1 0 0 0 0 0 24909.45
0 36 5 0 0 0 1 3814.69 2873.46 2571.527
0 40 12 0 1 1 1 4343.69 4313.46 15436.33

• treat: Es la variable que indica si recibió (1) o no (0) el programa


• re74, re75, re78: Ingresos anuales totales en 1974, 1975 y 1978
(Variable respuesta) respectivamente.

41
Aplicación| Desequilibrio inicial

Desequilibrio inicial en las covariables:

Covariable ABS(DME) P-value


age 0.3094 0.5195
educ 0.055 0.792
black 1.7568 <2.2e-16
hispan 0.3489 0.005323
married 0.8241 1.613e-13
nodegree 0.2443 0.01134
re74 0.7211 <2.2e-16
re75 0.2903 1.411e-8
Table 1: Diferencia de medias estandarizadas. Prueba U de Mann-Whitney
para covariables continuas y Ji-cuadrada para categóricas.

Las diferencias para age y educ no son significativas.


42
Aplicación| Selección del modelo de estimación

Se ajustó el modelo logit, probit y GBM, teniendo mejor desempeño


este último.
El área bajo la curva de estos modelos fueron:

Modelo AUC
GBM 0.885
Probit 0.868
Logit 0.866
Table 2: Estimación de la AUC para los tres modelos.

El modelo ganador para estimar e(X) es GBM.

43
Aplicación| Selección del modelo de estimación

El gráfico de RoC es el siguiente:

44
Aplicación| Selección del modelo de estimación

45
Figure 3: Soporte común de los tres modelos.
Aplicación| Resultados Regresión

El resultado de aplicar el modelo de regresión con toda la


submuestra de la variable treat y b
e(X) son:

Estimate Std. Error t value Pr(>| t |)


(Intercept) 43197.9661 14679.9107 2.94 0.0034
treat 1170.3455 981.5992 1.19 0.2336
ps -121983.8959 49433.5494 -2.47 0.0139

d = 1170.34 con una DesvEst


EMT \ = 981.59. Note que la variable treat
es no significativa.

46
Aplicación| Resultados Apareamiento

Figure 4: Cuadro1: Resumen de apareamientos. Cuadro2: Equilibrio de cov.

47
Aplicación| Resultados Apareamiento

Las densidades después del emparejamiento son:

El algoritmo elegido es Radius con un radio=0.08 y sin reemplazo. 48


Aplicación| Estratificación

Figure 5: Cuadro1: Resumen de apareamientos. Cuadro2: Equilibrio de cov.

Figure 6: Cuadro1: Resumen de apareamientos. Cuadro2: Equilibrio de cov.

49
Descriptive statistics of the data

Give us an idea of your sample, timeframe, main trends and patterns

50
Analysis
Analysis

Present the results you have prepared to answer to your research


question and check if your initial hypothesis was correct

51
Discussion
Discussion

Discuss your results, their validity, limitations and possible


policy/societal implications

52
Backup slides

If any
References i

También podría gustarte