Big data, Aprendizaje y Minería de Datos:
Perspectivas, ideas y herramientas para economistas
PROFESOR OBJETIVOS
María Noelia Romero El objetivo de este curso es presentar las herramientas estadísticas, matemáticas, y
computacionales mas utilizadas para hacer predicciones y clasificaciones confiables. El curso
presentara casos aplicados de cada herramienta en el ámbito de negocios, investigación y
EMAIL
políticas publicas. Mediante el entendimiento teórico y práctico, los estudiantes desarrollarán
m.n.romero91@[Link] un pensamiento critico, analítico e innovador de cada herramienta computacional y las
limitaciones de distintas bases de datos disponibles. Por ultimo, el curso desafía a los
HORAS DE CONSULTA estudiantes a realizar una presentación oral breve de artículos de investigación, lo que requiere
que el alumno identifique los aspectos centrales de un articulo académico y comunique de
Martes 2:00 pm – 3:30 pm manera clara y sencilla ideas complejas. En resumen, estos objetivos del curso apuntan a que
el alumno desarrolle gran versatilidad para comprender, utilizar y presentar datos e ideas
TUTOR según la demanda en su futuro desarrollo profesional.
Victoria Oubiña
PERFIL
EMAIL El curso tiene fuerte carácter técnico, computacional, y de pensamiento critico. El estudiante
esta fuertemente motivado por el uso de datos, recopilación de datos primarios, el
[Link]@[Link]
cuestionamiento de usos de datos secundarios, y la pasión por sintetizar ideas complejas de
manera sencilla para el publico en general.
CLASES TUTORIALES
Lu y Mie, 6:10 pm, online REQUISITOS
Econometría (Lic. en Economía)
HABILIDADES COMPUTALES
El curso se basa en Python, un lenguaje de programación estadístico potente y de amplio uso. No requiere conocimiento
previo, pero si ganas de aprender y experimentar.
MATERIAL
Todo el material del curso se encuentra disponible en la pagina del curso (en progreso). Este programa y temario está sujeto a
cambios y, si es necesario, será actualizado a lo largo del 2do semestre 2023.
DINAMICA EL CURSO
El curso incentiva la colaboración en grupo de tres personas (a determinar el primer día de clase). En este curso, vamos a
trabajar en Slack, para anuncios y recordatorios semanales (fechas claves), y coordinar las presentaciones. En dicha
plataforma, se espera la activa participación de cada grupo (ver siguiente sección para mas detalle).
La aprobación del curso se basa en las siguientes actividades:
1. Trabajos prácticos (30% de la nota): Los trabajos prácticos usan datos de fuentes secundarias, requieren
programación (entregar código de resolución de las consignas) y un reporte que interprete los resultados y discuta
las limitaciones. Es requisito entregar y aprobar todos los trabajos prácticos.
2. Participación (10% de la nota): Se esperan dos actividades grupales:
a. Una presentación breve (15 minutos) de un trabajo de investigación con aprobación de los profesores. El
articulo posible a presentar tiene con * en la lista de bibliografía abajo. Cada grupo debe entregar las
diapositivas 24 horas antes de la presentación en el canal correspondiente de Slack. No es necesario ser
experto en el articulo, pero si se espera guiar la discusión con el resto de la clase.
b. Cada semana los grupos deben postear un enlace relevante (nota, discusión, video, conferencia, base de
datos, etc.) relacionado con la temática del curso y no mencionado en este programa. Se espera que el
grupo realice un breve comentario en el post sobre la relevancia del enlace propuesto. En la clase tutorial,
se discutirá con mas detalles esta actividad.
3. Propuesta de trabajo (20% de la nota): puede ser una aplicación o un trabajo de investigación. En las clases
tutoriales se discutirá el formato de esta propuesta y al final del curso los grupos harán una muy breve presentación
de sus propuestas.
4. Examen final (40% de la nota): evaluación integral e individual de todo el contenido del curso, incluyendo lecturas y
habilidades computacionales. Importante: es condición necesaria aprobar el examen final.
Se espera un lenguaje profesional y/o académico en cada ítem, donde importa el contenido y visualización de la información.
Asistencia y plagio: como es práctica de UdeSA, se requiere asistir como mínimo al 75% de las clases teóricas y tutoriales, si
bien no tomamos asistencia. Velaremos por las cuestiones éticas en lo que se refiere a plagio y otras inconductas éticas.
TEMARIO TENTATIVO DEL CURSO
SEMANA TOPICO
1 Introducción: Predecir, explicar. Causalidad y predicción. Data mining, big data, learning, business analytics.
Aprendizaje supervisado y no supervisado.
2 Regresión. Modelos lineales, linealizables y no lineales. Vecinos cercanos.
3 Clasificación. Análisis discriminante. Clasificador de Bayes. Regresión logística.
4 Remuestreo. Bootstrap y jacknife. Cross validation. Bootstrap en big data. Bags of little bootstraps.
5 Regularización y elección de modelos. Lasso y ridge.
6 Estrategias no lineales: saturación, funciones base, splines, regresión local, modelos aditivos.
7 Kernels, densidades y regresión no paramétrica. La maldición de la dimensionalidad.
8 Arboles: arboles de regresión y clasificación. Bagging, boosting.
9 Support vector machines. Vector classifiers. Hiperplanos.
10 Reducción de dimensionalidad Componentes principales y factores.
11 Clúster. Métodos jerárquicos y no jerárquicos.
12 Redes neuronales y deep learning.
2
Page
LIBROS
Ahumada, H., Gabrielli, F., Herrera, M. y Sosa Escudero, W., 2018, Una Nueva Econometría: Automatización, Big Data,
Econometría Espacial y Estructural, EdiUNS, Buenos Aires.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 6). New York: springer.
Descarga gratis.
Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1). Springer, Berlin: Springer series in
statistics.
Murphy, K., (2012). Machine learning: a probabilistic perspective, MIT Press, Cambridge.
Sosa Escudero, W., 2019, Big data, 7a edición, Siglo XXI Editores, Buenos Aires
Sosa Escudero, W., 2022, Borges, big data y yo, Siglo XXI Editores, Buenos Aires.
Wickham, H., & Grolemund, G. (2016). R for data science: import, tidy, transform, visualize, and model data. " O'Reilly Media,
Inc.". Descarga gratis.
ARTÍCULOS CIENTÍFICOS DE BIG DATA
Anastasopoulos, J., Badani, D., Lee, C., Ginosar, S. & Williams, J. R. (2018). “Political image analysis with deep neural networks”.
(Submitted).
Anselin, L., & Williams, S. (2015). Digital neighborhoods. Journal of Urbanism: International Research on Placemaking and Urban
Sustainability, 1-24.
Askitas, N., & Zimmermann, K. F. (2009). Google econometrics and unemployment forecasting. Applied Economics Quarterly,
55(2), 107-120.
Athey, S., & Imbens, G. W. (2015). Machine learning methods for estimating heterogeneous causal effects. stat, 1050, 5.
Athey, S. (2015, August). Machine Learning and Causal Inference for Policy Evaluation. In Proceedings of the 21th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining (pp. 5-6). ACM.
Bai, J. & Ng, S. (2008). “Forecasting economic time series using targeted predictors”, Journal of Econometrics, vol. 146(2), pp.
304-317.
Baylé, Federico (2016) “Detección de villas y asentamientos informales en el partido de La Matanza mediante teledetección y
sistemas de información geográfica” Tesis de Maestría.
[Link]
Baylis, P. (2015). Temperature and temperament: Evidence from a billion tweets. Energy Institute at HAAS working paper.
Belloni, V. Chernozhukov, C. Hansen: “High-Dimensional Methods and Inference on Structural and Treatment Effects,”
Journal of Economic Perspectives, 28 (2), Spring 2014, 29-50. [Link]
*Burgess, R., Hansen, M., Olken, B. A., Potapov, P., & Sieber, S. (2012). The political economy of deforestation in the tropics.
The Quarterly Journal of Economics, 127(4), 1707-1754.
*Burke, M., Driscoll, A., Lobell, D. B., & Ermon, S. (2021). Using satellite imagery to understand and promote sustainable
development. Science, 371(6535).
3
Page
Chernozhukov, Victor, et al. "Double machine learning for treatment and causal parameters." arXiv preprint
arXiv:1608.00060 (2016). [Link]
*Chernozhukov, V., Demirer, M., Duflo, E., & Fernandez-Val, I. (2018). Generic machine learning inference on heterogeneous
treatment effects in randomized experiments, with an application to immunization in India (No. w24678). National Bureau of
Economic Research.
*Comola, M., & Prina, S. (2021). Treatment effect accounting for network changes. The Review of Economics and
Statistics, 103(3), 597-604.
Blumenstock, J., Cadamuro, G., & On, R. (2015). Predicting poverty and wealth from mobile phone metadata. Science,
350(6264), 1073-1076.
Breiman, L. (2003). Statistical modeling: The two cultures. Quality control and applied statistics, 48(1), 81-82.
Breiman, L. (2001). Random forests. Machine learning, 45(1), 5-32.
*Bajari, P., Nekipelov, D., Ryan, S. P., & Yang, M. (2015). Machine learning methods for demand estimation. The American
Economic Review, 105(5), 481-485.
Calude, C. S., & Longo, G. (2016). The Deluge of Spurious Correlations in Big Data. Foundations of
Science, 1-18.
Caruso, G., Scartascini, C., & Tommasi, M. (2015). Are we all playing the same game? The economic effects of constitutions
depend on the degree of institutionalization. European Journal of Political Economy, 38, 212-228.
Caruso, G., Sosa‐Escudero, W., & Svarc, M. (2015). Deprivation and the dimensionality of welfare: a variable‐selection cluster‐
analysis approach. Review of Income and Wealth, 61(4), 702-722.
Cavallo, A. (2013). Online and official price indexes: measuring Argentina's inflation. Journal of Monetary Economics, 60(2), 152-
165.
Cavallo, A. (2015). Scraped data and sticky prices (No. w21490). National Bureau of Economic Research.
*Cavallo, A. "Are Online and Offline Prices Similar? Evidence from Multi-Channel Retailers" American Economic Review- January
2017 - Vol 107 (1). 283-303. [Link]
De Mol, C., Giannone, D. & Reichlin, L. (2008). “Forecasting using a large number of predictors: Is Bayesian shrinkage a valid
alternative to principal components?”, Journal of Econometrics, Elsevier, vol. 146(2), pages 318-328.
Donaldson, D. & Storeygard, A. (2016). “The View from Above: Applications of Satellite Data in Economics”, Journal of
Economic Perspectives, vol. 30(4), pp. 171–198.
Einav, L., Knoepfle, D., Levin, J., & Sundaresan, N. (2014). Sales taxes and internet commerce. The American Economic Review,
104(1), 1-26.
*Emerick, K., de Janvry, A., Sadoulet, E., & Dar, M. H. (2016). Technological innovations, downside risk, and the modernization
of agriculture. American Economic Review, 106(6), 1537-61.
Gilchrist, D.S. & Sands, E. G. (2016). “Something to Talk About: Social Spillovers in Movie Consumption”, Journal of Political
Economy. vol. 24(105), pp. 1339-1382.
4
Page
Ginsberg, Jeremy; Mohebbi, Matthew H.; Patel, Rajan S.; Brammer, Lynnette; Smolinski, Mark S.; Brilliant, Larry (19 February
2009). "Detecting influenza epidemics using search engine query data". Nature. 457 (7232): 1012–1014.
Guvenen, F., Kaplan, G., & Song, J. (2014). How risky are recessions for top earners?. The American Economic Review, 104(5),
148-153.
*Henderson, J. V., A. Storeygard, and D. N. Weil. A Bright Idea for Measuring Economic Growth. The American Economic Review
101.3 (2011): 194-199.
*Hendricks, N. P., Smith, A., & Sumner, D. A. (2014). Crop supply dynamics and the illusion of partial adjustment. American
Journal of Agricultural Economics, 96(5), 1469-1491.
Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A. A., Milan, K., Quan, J., Ramalho, T., Grabska-
Barwinska, A., Hassabis, D., Clopath, C., Kumaran, D. & Hadsell, R. (2017). “Overcoming catastrophic forgetting in neural
networks”, PNAS, vol. 114(13), pp. 3521-3526.
Leak, A. & Lansley, G. (2018). “Geotemporal Twitter Demographics”, Consumer Data Research, capítulo 11, UCL Press.
Linden, A. & Yarnold, P. R. (2016). “Combining machine learning and matching techniques to improve causal inference in
program evaluation”, J Eval Clin Pract., vol. 22(6), pp.:864-870.
*Lusk, J. L. (2017). Consumer research with big data: applications from the food demand survey (FooDS). American Journal of
Agricultural Economics, 99(2), 303-320.
Mittal, M., Mohan, L. & Hemanth, J. (2018). “Monitoring the Impact of Economic Crisis on Crime in India Using Machine
Learning”, Computational Economics, pp. 1-19.
*Mullally, C., Rivas, M., & McArthur, T. (2021). Using Machine Learning to Estimate the Heterogeneous Effects of Livestock
Transfers. American Journal of Agricultural Economics
Nickerson, D., & Rogers, T. (2014). “Political Campaigns and Big Data”, Journal of Economic Perspectives, vol. 28(2), pp. 51-74.
Keely, L. C., & Tan, C. M. (2008). Understanding preferences for income redistribution. Journal of Public Economics, 92(5), 944-
961.
Kleinberg, J., Ludwig, J., Mullainathan, S., & Obermeyer, Z. (2015). Prediction policy problems. The American Economic Review,
105(5), 491-495.
Kreiner, C. T., Leth-Petersen, S., & Skov, P. E. (2014). Year-end tax planning of top management: Evidence from high-
frequency payroll data. The American Economic Review, 104(5), 154-158.
Radinsky, K., Davidovich, S. & Markovitch, S. (2012). “Learning causality for news events prediction”.
*Shao, Y., Xiong, T., Li, M., Hayes, D., Zhang, W., & Xie, W. (2021). China's Missing Pigs: Correcting China's Hog Inventory Data
Using a Machine Learning Approach. American Journal of Agricultural Economics, 103(3), 1082-1098.
Wager, S., & Athey, S. (2015). Estimation and inference of heterogeneous treatment effects using random forests. arXiv
preprint arXiv:1510.04342.
5
Page
SURVEYS, CAPITULOS, ARTICULOS DE CONFERENCIAS O DIVULGACIÓN
*Ahmed, W., Bath, P. A., Sbaffi, L., & Demartini, G. (2018). Moral panic through the lens of Twitter: An analysis of infectious
disease outbreaks. In Proceedings of the 9th International Conference on Social Media and Society (pp. 217-221).
Angrist, J. D., & Pischke, J. S. (2010). The credibility revolution in empirical economics: How better research design is taking
the con out of econometrics. The Journal of Economic Perspectives, 24(2), 3-30.
Anderson, C. (2008). The end of theory. Wired magazine, 16(7), 16-07.
Aromí, D. (2016) Sobre árboles, bosques aleatorios y crisis de deuda soberana. Alquimias Económicas Blog.
Athey, S. (2017). Beyond prediction: Using big data for policy problems. Science, 355(6324), 483- 485.
[Link]
Athey, S., and Imbens, G. W. (2017). The state of applied econometrics: Causality and policy evaluation. Journal of Economic
Perspectives, 31(2), 3-32.
Attavanich, W., McCarl, B. A., & Bessler, D. (2011). The effect of H1N1 (Swine Flu) media coverage on agricultural
commodity markets. Applied Economic Perspectives and Policy, 33(2), 241–259.
Biuk-Aghai, R. P., Kou, W. T., & Fong, S. (2016, May). Big data analytics for transportation: Problems and prospects for its
application in China. In 2016 IEEE Region 10 Symposium (TENSYMP) (pp. 173- 178). IEEE.
Booth, Adrian; Mohr, Niko y Peters, Peter (2016) “The Digital utility: New opportunities and challenges”.
*Cavallo, A., & Rigobon, R. (2016). The Billion Prices Project: Using online prices for measurement and research. The Journal of
Economic Perspectives, 30(2), 151-178.
Calude, C. S., and Longo, G. (2016). The Deluge of Spurious Correlations in Big Data. Foundations of Science, 1-18.
*Donaldson, D., & Storeygard, A. (2016). The view from above: Applications of satellite data in economics. Journal of Economic
Perspectives, 30(4), 171-98.
Einav, L., & Levin, J. D. (2013). The data revolution and economic analysis (No. w19035). National Bureau of Economic
Research.
Einav, L., & Levin, J. (2014). Economics in the age of big data. Science, 346(6210), 1243089.
Fan, J. (2013). Features of big data and sparsest solution in high confidence set. Past, present, and future of statistical science,
507-523.
Garbero, M. N. (2020). Big data. Breve manual para conocer la ciencia de datos que ya invadió nuestras vidas: Walter Sosa
Escudero. Cuyonomics. Investigaciones En Economía Regional, 4(6), 83–89 p.
[Link]
Glaeser, E. L., Hillis, A., Kominers, S. D., & Luca, M. (2016). Crowdsourcing city government: Using tournaments to improve
inspection accuracy. American Economic Review, 106(5), 114-118.
Grimmer, J. (2015). We are all social scientists now: How big data, machine learning, and causal inference work together. PS:
Political Science & Politics, 48(1), 80-83.
Hamermesh, D. S. (2013). Six decades of top economics publishing: Who and how?. Journal of Economic Literature, 51(1), 162-
172.
Heffetz, O., & Ligett, K. (2014). Privacy and data-based research. The Journal of Economic Perspectives, 28(2), 75-98.
6
Page
Hersh, J.; Harding, M. (2018): Big Data in economics, IZA World of Labor, ISSN 2054-9571, Institute of Labor Economics (IZA),
Bonn, Iss. 451, [Link]
Jeske, M., Grüner, M., & Weiß, F. (2013). BIG DATA IN LOGISTICS: A DHL perspective on how to move beyond the hype.
DHL Customer Solutions & Innovation, 12.
Lane, J. (2016). BIG DATA FOR PUBLIC POLICY: THE QUADRUPLE HELIX. Journal of Policy Analysis and Management,
35(3), 708-715.
Lazer, D., Kennedy, R., King, G., & Vespignani, A. (2014). The parable of Google flu: traps in big data analysis. Science,
343(6176), 1203-1205.
Lazer, W. & Kennedy, R.. (2015). What We Can Learn From the Epic Failure of Google Flu Trends, Wired, 10.01.15.
Lohr, Steve. (2014) Google Flu Trends: The Limits of Big Data. The New York Times.
Manyika, J., Lund, S., Bughin, J., Woetzel, J., Stamenov, K., Dhingra, D., ... & Al-Jaghoub, S. (2016).
Manyika, J., Lund, S., & Bughin, J. (2016). Digital Globalization: The New Era Global Flows. McKinsey Global Institute.
McAfee, A., Brynjolfsson, E., Davenport, T. H., Patil, D. J., & Barton, D. (2012). Big data. The management revolution. Harvard
Bus Rev, 90(10), 61-67.
Mullainathan, S., & Spiess, J. (2017). Machine learning: an applied econometric approach. Journal of Economic Perspectives, 31(2),
87-106. [Link]
NewVantage Partners (2016) Big Data Executive Survey [Link] Update on the Adoption of Big Data in the Fortune 1000.
Riggins, F. J., & Wamba, S. F. (2015, January). Research directions on the adoption, usage, and impact of the internet of things
through the use of big data analytics. In System Sciences (HICSS), 2015 48th Hawaii International Conference on (pp. 1531-
1540). IEEE.
Sejnowski, T. J., Churchland, P. S., & Movshon, J. A. (2014). Putting big data to good use in neuroscience. Nature neuroscience,
17(11), 1440-1441.
Sharda, R., Delen, D., & Turban, E. (2013). Business Intelligence: A Managerial Perspective on Analytics. Prentice Hall Press.
Sosa Escudero, W. (2014). Big data: otra vez arroz?, Diario Clarin, 6/4/2014.
Sosa Escudero, W. (2016). Al infinito y más allá: Funes, Borges y big data, Diario La Nacion, 12/6/2016.
Sosa Escudero, W. (2017). Big data y aprendizaje automatico: Ideas y desafios para economistas, mimeo.
Sosa Escudero, W., Anauati, V y Brau, W. (2022), Poverty and inequality studies with machine learning, en Matyas, L. y Chen,
F., Econometrics with Machine Learning, Springer, New York
Storm, H., Baylis, K., & Heckelei, T. (2019). Machine learning in agricultural and applied economics. European Review of Agricultural
Economics. URl: [Link] org/10.1093/erae/jbz033.
Taylor, L., Schroeder, R., & Meyer, E. (2014). Emerging practices and perspectives on Big Data analysis in economics: Bigger
and better or more of the same?. Big Data & Society, 1(2), 2053951714536877.
Varian, H. R. (2014). Big data: New tricks for econometrics. The Journal of Economic Perspectives, 28(2), 3-27.
Varian, H. R. (2016). Causal inference in economics and marketing. Proceedings of the National Academy of Sciences, 113(27),
7310-7315.
7
Page
VIDEOS
Susan Athey, Guido Imbens and NBER Organizers. Summer Institute 2015 Methods Lectures, July 18, 2015,
[Link]
Hal R. Varian, Susan Athey and Larry Wasserman and University of Chicago Organizers. “How Big Data is Changing
Economies” April 10, 2015, [Link] changing-economies
World Economic Forum. Imagine you could measure supply and demand from space. Satellite imagery is being used to help
track poverty. [Link]
Tim Harford, The Big Data Trap [Link] Phil Evans, How data will transform
business
[Link]
APLICACIONES
Estimación del valor de una propiedad [Link]
8
Page