0% encontró este documento útil (0 votos)
85 vistas48 páginas

Bigdatamlunlp 2019

El documento discute conceptos clave de big data, minería de datos y aprendizaje automático, y cómo se pueden aplicar en economía. Explica las diferencias entre enfoques tradicionales y de aprendizaje automático, así como el trade-off entre sesgo y varianza. También cubre sobreajuste y cómo medir el rendimiento predictivo fuera de la muestra.

Cargado por

5oscilantes
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
85 vistas48 páginas

Bigdatamlunlp 2019

El documento discute conceptos clave de big data, minería de datos y aprendizaje automático, y cómo se pueden aplicar en economía. Explica las diferencias entre enfoques tradicionales y de aprendizaje automático, así como el trade-off entre sesgo y varianza. También cubre sobreajuste y cómo medir el rendimiento predictivo fuera de la muestra.

Cargado por

5oscilantes
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Big Data, Mineria y Aprendizaje: Conceptos y

Herramientas para Economistas

Walter Sosa Escudero


Universisad de San Andrés y CONICET
Walter Sosa Escudero Big Data, Mineria y Aprendizaje
Walter Sosa Escudero Big Data, Mineria y Aprendizaje
Walter Sosa Escudero Big Data, Mineria y Aprendizaje
Pobreza en Rwanda (predecir)

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Precios en Argentina (medir)

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Impuesto a las ventas en EEUU (efecto causal)

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Small vs. Big data

Small data (estadistica clasica)


Extraer lo maximo de pocos datos
Solucion: estructura (muestreo, modelo)
Enfoque: muestreo complejo (lento). Teoria, experimentos
cuasi-experimentos

Big data
Muchos datos (Volumen)
Muchos datos no estructurados (Variedad)
Muchos datos no estructurados e immediatos (Velocidad)

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Diferencias: Enfoque clasico

Y = f (X) + u

Interes en f (.). Estimacion. Efecto causal. Estructura.


Modelo: Teoria, experimento.
Probabilidades (error estandar, tests)
Bueno?: insesagdo, varianza minima, inferencia valida.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Diferencias: Machine learning

Y = f (X) + u

Interes en Y : predecir, clasificar, medir.


Modelo: modelo?. Aprendizaje.
Prediccion puntual (no inferencia).
Bueno?: Performance predictiva fuera de la muestra.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Prediccion vs estimacion?

Idea: predecir requiere estimar.

θ̂, con E(θ̂) = µ. Objetivo: estimar m.


Error cuadratico medio:

ECM (θ̂) ≡ E(θ̂ − m)2 .


θ̂ es una VA, m, no.
Recordar: V (θ̂) ≡ E(θ̂ − µ)2 y Sesgo(θ̂) ≡ µ − m
Descomposicion sesgo varianza:

ECM (θ̂) = Sesgo2 (θ̂) + V (θ̂).

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Objetivo: predecir Y con Ŷ (ambas VA), dado X

 2
Error de pronostico: Err(Ŷ ) ≡ E Y − Ŷ
Modelo: Y = f (X) + u, E(u) = 0, V (u) = σ 2 .
Resultado: m que mejor predice Y es m = E(Y ).

Si E(Y ) = f (X), u no observable y f (X) conocida, f (X) es el


mejor predictor.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


En la practica, reemplazar f (X) con fˆ(X) (una VA).
   2
Err Y − fˆ = E Y − fˆ
 
Importante: Err Y − fˆ = ECM (fˆ) + σ 2
Error reducible (ECM ) mas irreducible (σ 2 ). Link prediccion
y estimacion.
Usando la descomposicion
 
Err Y − fˆ = Sesgo2 (fˆ) + V (fˆ) + σ 2

Machine learning: reducir sesgo y varianza. Econometria:


preferencia lexicografica por insesgadez.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Bias/variance decomposition: Add and substract µ in the MSE formula and rearrange to get
E [(Z − µ) + (µ − m)]2 . Expanding the squares and taking expectations

2 2
E(Z − µ) + E(µ − m) + 2E [(Z − µ)(µ − m)]

The first summand is V (Z). There is nothing random in the second summand, so its expected value is just
(µ − m), that is bias2 (θ̂). Now we need to show that the third summand is zero. Since µ − m is not random,
(µ − m)E(θ̂ − µ). then take expectations to get the desired result.

µY ≡ E(Y ) is the best predictor of Y : Add and substract µY in E(Y − m) and then distribute squares to get:
2 2
E(Y − µy ) + E(µy − m) + 2E [(Y − µY )(µY − m)]

We will show that the third summand is zero. Expand the square and get
h i
2
2E Y µY − Y m − µY + µY m

Now take expectations to get 2[µ2 2


Y − µY m − µY + µY m] = 0. Then we are left with
2 2
E(Y − µy ) + E(µY − m)

The first term does not depend on m, so there is nothing we can do to make it small. The second summand is
non-negative, so we can make it equal to zero if we set m = µY . Hence, picking m = µY minimizes
E(Y − m)2

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Overfit y el trade-off sesgo/varianza

Trade off-sesgo varianza en econometria:

Y = X1 β1 + X2 β2 + u

Omision de variables relevantes, inclusion de variables


irrelevantes.
Trade off: modelos mas ‘complejos’ tienden a ser menos
sesgados pero con mayor varianza.
Complejidad: numero de variables?.
Preferencia ‘lexicografica’ por la insesgadez: minimizar ECM
es minimizar varianza.
Desafio: tolerar sesgos para bajar considerablemente la
varianza.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Overfit

Overfit: ‘sobreeliminar’ el sesgo (problema ‘menor’ en econometria,


central en ML).

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Modelo verdadero: Y = f (x0 ) + u, f es un polinomio de
grado finito p, pero desconocido.
Estimamos polinomios con grado creciente p∗ = 1, 2, . . ..
   
Recordar: Err(Y − fˆ) = σ 2 + Sesgo2 f, fˆ + V fˆ

Que pasa cuando aumenta el grado del polinomio estimado?

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


• Sesgo?
P∗ 0
• Varianza?: fˆ(x0 ) = ps=0 xs0 β̂s ≡ x∗0 β̂
  0 0 0
V fˆ(xo ) = V (x∗0 β̂) = x∗0 V (β̂)x∗0 = σ 2 x∗0 (X 0 X)−1 x∗0

Promedio de las varianzas para todos los xi :


n
1 X 2 ∗0 0 −1 ∗ p∗
σ xi (X X) xi = σ 2
n n
i=1

Resultado (overfit): a partir de p, aumentar la complejidad no


reduce el sesgo, mientras que la varianza aumenta
monotonicamente, para σ 2 y n dados.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Suppose A is a square m × m matrix Pmwhose (i, j) element is Ai,j . The trace of A (tr(A)) is the sum of the
elements of its diagonal: tr(A) ≡ s=1 Aii . Some relevant properties of traces are the following. For any
square matrices A, B and C: 1) tr(A + B) = tr(A) + (B), 2) tr(ABC) = tr(BCA) = tr(CAB). The
first one is very easy to check. The second one is the ‘cyclic’ property, that says that the trace is invariant to ‘cyclic
permutations of product. A rather trivial property is that if m = 1, tr(A) = A. The fitted model for the case of
the p degree polynomial is
p
p
X
Ŷi = β̂s Xip = xi β̂
s=o
   
p
with xi ≡ (1, Xi , Xi2 , . . . Xi ). Then V fˆ(Xi ) = V x0i β̂ = σ 2 x0i (X 0 X)−1 xi . Now:

n

0
 1 X 2 0 0 −1
AverageV xi β̂ = σ xi (X X) xi
n i=1

Now we invoke traces. Note that x0i (X 0 X)−1 xi is a scalar and hence equal to its trace, so

n

0
 σ2 X 
0 0 −1

AverageV xi β̂ = tr xi (X X) xi
n i=1

   
Now, using the ‘cyclic’ property, tr x0i (X 0 X)−1 xi = tr (X 0 X)−1 xi x0i , and using the first property of
  P   
0 −1
xi x0i = tr 0 −1
xi x0i = tr (X 0 X)−1 (X 0 X) = p.
Pn n
traces, we get i=1 tr (X X) i=1 (X X)
replacing above we get the final result.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Overfit y prediccion fuera de la muestra

ML: prediccion fuera de la muestra (futura, condicional,


contrafactica, etc.)
Overfit: modelos extremadamente complejos predicen muy
bien dentro de la muestra y muy mal fuera de ella.
Elegir el nivel de complejidad optimo
Como medir el error de pronostico fuera de la muestra?
R2 no funciona: mide prediccion dentro de la muestra, no
decreciente en complejidad.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Cross validation

Prediccion fuera de la muestra


Separar muestra de entrenamiento y de test.
Estimar con la de entrenamiento y computar Err(Ŷ ) en la
muestra de test.
Problema 1: perdida de eficiencia
Problema 2: como partir la muestra?

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


K-fold cross validation

1 Partir los datos al azar en K partes.


2 Ajustar el modelo dejando afuera una de las particiones.
3 Computar el error de prediccion para los datos no utilizados.
4 Repetir para k = 1, . . . , K.

Eleccion de K: 5 o 10 (insensible a la eleccion)

Error de prediccion por CV:


N
1 X 
CV (fˆ) = Yi − Ŷ−k (xi )
N
i=1

Ŷ−k (xi ) prediccion cuando la observacion i no fue usada.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Cada observacion es usada en dos roles: entrenamiento y test.
K = 1: no test data
K = N : ‘leave one out’. Ir dejando de lado una obseracion
por vez. Estima el modelo n veces con n − 1 datos.
K: estima el modelo K veces con n − K datos.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Por qué funciona? Ley de los grandes numeros.

n
1 X  
CV (fˆ) = L Yi − Ŷ−k (xi )
N
i=1
K
1 X
= ˆj
err
K
j=1

ˆ j para cada particion y luego promediamos.


Computamos err
Para cualquier K finito, n → ∞ implica que dentro de cada
sumando hay infinita informacion.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


CV para eleccion de modelos

α parametriza la complejidad de un modelo.


Ejemplo: α = grado de polinomio.
Cross validation para un modelo indizado por α:
1  
CV (fˆ, α) = L Yi − Ŷ−k (xi , α)
N
Idea: CV (fˆ, α) para una grilla de de α y minimizar.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Ejemplo: eleccion de grado de un polinomio

Vinos: Vinos malos. Potencias de [Link]. Metodo de estimacion: logit. K=10-fold Cross validation.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Regularizacion

Como elegir la complejidad (tamaño) de un modelo.


Reduccion de dimensionalidad (minimo modelo).
Mejora en la capacidad predictiva.

Regularizar: introducir informacion ajena al modelo para


‘disciplinar’ sus complejidad.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


LASSO

Para λ ≥ 0 dado:
n
X p
X
Rl (β) = (yi − x0i β)2 + λ |βs |
i=1 s=2

(el primer coeficiente corresponde al intercepto).


¿λ = 0?, ¿λ = ∞?
Pn
i=1 (yi − x0i β)2 penaliza falta de ajuste.
P p
¿ s=2 |βs | ?

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


n
X p
X
Rl (β) = (yi − x0i β)2 +λ |βs |
i=1 s=2

LASSO magic: en un paso:


Reduce dimensionalidad: que variables entran (βs 6= 0) y
cuales no (βs = 0). Solucion de esquina.
Mejora error de prediccion: En general predice mejor que
MCO.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Reduccion de dimensionalidad

Caso super simple:


n
X
Rl (b) = (yi − xi b)2 + λ|b|
i=1

Rl (b) = SRC(b) + λ|b|


Supongamos b̂mco 6= 0. Empecemos en b = 0
Ingreso Mg: − d SRC(b)
db |b=0 . Positivo (b = 0 no es el
minimizador), pero decreciente (SRC concava).
Costo Mg: λ. Positivo y constante.
Si en b = 0, IngMg < λ, dejar b = 0.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Rl (b) = SRC(b) + λ|b|

LASSO: poner variables solo si son suficientemente relevantes.


En general, b̂l = 0 para variables irrelevantes, y b̂l esta ‘corrido
hacia cero’ para las relevantes.
Shrinkage: estimacion sesgada por la regularizacion.
Regularizar: ‘disciplinar’ el modelo hacia la hipotesis nula de
no significatividad.
Por que? Eliminar variables induce sesgo pero puede bajar
dramaticamente la varianza, mejora ECM.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Ridge: mejora en ECM

n
X p
X
Rr (β) = (yi − x0i β)2 + λ (βs )2
i=1 s=2

Idea: intuicion similar pero ridge NO elimina variables. Por que?

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Caso simple, una variable estandarizada:
n
X
Rr (β) = (yi − x0i β)2 + λβ 2
i=1

FOC:
X
− yi xi + 2β + 2λβ = 0
Despejando
P
yi x i β̂mco
β̂r = =
1+λ 1+λ

La solucion es siempre interior (comparar con LASSO)


Nuevamente, la solucion esta ‘corrida hacia cero’ con respecto
a β̂mco (shrinkage).

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Ridge vs. MCO

MCO:
E(β̂) = β (insesgado)
V (β̂) = σ 2 / x2i = σ 2
P

ECM (β̂) = σ 2 .

Ridge:
E(β̂r ) = β/(1 + λ) (sesgado)
V (β̂r ) = σ 2 /(1 + λ)2 (menor varianza)
ECM (β̂r ) = [β − β/(1 + λ)]2 + σ 2 /(1 + λ)2

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


β 2 λ2 + σ 2
ECM (β̂) − ECM (β̂r ) = σ 2 −
(1 + λ)2
λ(2σ 2 − β 2 λ + λσ 2 )
=
(1 + λ2 )

Si λ < 2σ 2 /β 2 , ECM (β̂) − ECM (β̂r ) > 0


Para todo β y σ 2 existe λ de modo que ridge le ‘gana’ a MCO.
Idea importante: sesgar la estimacion para reducir varianza.

En este caso es posible derivar una condicion necesaria y suficiente. Pero no es generalizable al caso de p variables
(Theobald, 1974).

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Regularizar

Trade off sesgo-varianza: modelos mas complejos son menos


sesgados pero mas volatiles.
Shrinkage: LASSO ‘sesga’ los coeficientes a cero.
Regularizar: controlar el comportamiento de
parametros/variables con elementos de afuera del modelo (λ)
λ es un hiperparametro.
Aprendizaje: eleccion de un modelo optimo a traves de la
eleccion de un hiperparametro.
Eleccion de λ optimo?

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Alternativas y extensiones

Elastic Net:
Re (β) = ni=1 (yi − x0i β)2 + λ1 ps=2 |βs | + λ2 ps=2 βs2
P P P

Pp
LASSO logit: Rl (β) = L(β) + λ s=2 |βs |

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Ejemplo: Hitters

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Ejemplo: Hitters

Puntos: OLS, rojo: LASSO, azul: ridge

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Policy evaluation requires causal and predictive analysis

(from Kleinberg, Ludwig,Mullainathan, and Obermeyer,2015))

Welfare (known): Π(x, Y (x)). Y is outcome, x is policy.

dΠ(x, Y (x)) ∂Π   ∂Π ∂Y
= Y +
dx |∂x{z } ∂Y |{z}
∂x
Predictive Causal

Rain (Y ) / pray (x): just causal (get wet pray or not)


Rain (Y ) / umbrella (x): just prediction (depends on rain)
Crime: release policies (x) depend on causal effect of release and
predicted probability of crime (Y ) if released.
Unemployment: training depend on effectiveness of program
(causal) and expected unemployment (prediction)

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Warnings

Dependencies (do we really get big data?)


Choice based sampling (i.e., informal markets)
Non observed counterfactuals (can we really get all data?).
Correlation fallacy.
Transparency / privacy.
Black box (deep learning, forests, etc.)
Social/political consensus.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Opportunities

Big data is not just lots but more data (small or big).
Can identify non-linearities and heterogeneities. Bypass the
‘curse of dimensionality’
Fast (crucial for policy). Goggle Flu Trends. Price scrapping.
Easy and inexpensive experimentation. Crucial for causal uses.
Supplements standard official statistics (not replace).
Coverage (Rwanda). Rural vs. urban.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Ideas

Nexo predecir/estimar (Err demanda minimo ECM )


Trade off sesgo varianza abre la puerta al sesgo.
Complejidad optima. Overfit.
Cross validation.
Regularizacion.
Hiperparametros.
Aprendizaje
Big data: complejidad, maldicion de la dimensionalidad

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Multiplicadores de Lagrange

Clasificacion: Y binario. Predecir probabilidades.


Vecinos cercanos.
CART, forests, bagging, boosting.
Support vector machines
Redes, deep learning
Aprendizaje no supervisado: Clusters, dimensionalidad
Causalidad y aprendizaje.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


References

Book: Murphy, K., 2012, Machine Learning: a Probabilistic


Perspective, , MIT Press, Cambridge.
Simple book: James, G., Witten, D., Hastie, T., and Tibshirani, R.
(2013). An introduction to statistical learning (Vol. 6). New York:
springer.
Survey I: Varian, H. R., 2014, Big data: New tricks for
econometrics, Journal of Economic Perspectives, 28(2), 3-27.
Survey II: Einav, L., and Levin, J., 2014, Economics in the age of
big data. Science, 346(6210).
Predictive: Blumenstock, J., Cadamuro, G., and On, R., 2015,
Predicting poverty and wealth from mobile phone metadata.
Science, 350(6264), 1073-1076.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Measurement: Cavallo, A. and Rigobon, R. 2016, The Billion Prices
Project: Using Online Prices for Measurement and Research,
Journal of Economic Perspectives, Vol. 30, 2, pp.151-78.
Causal: Athey, S., and G. Imbens (2015), Machine Learning
Methods for Estimating Heterogeneous Causal Effects, NBER
working paper.
Policy: Kleinberg, J., Ludwig, J., Mullainathan, S., and Obermeyer,
Z., 2015, Prediction policy problems. The American Economic
Review, 105(5), 491-495.
Econometrics: Belloni, A., V. Chernozhukov, and C. Hansen, 2014,
High-Dimensional Methods and Inference on Structural and
Treatment Effects, Journal of Economic Perspectives, 28(2): 29-50.

Walter Sosa Escudero Big Data, Mineria y Aprendizaje


Walter Sosa Escudero Big Data, Mineria y Aprendizaje
Walter Sosa Escudero Big Data, Mineria y Aprendizaje

También podría gustarte