Cómo y por qué
Aprender Data
Science e
Inteligencia
Artificial
Miguel Torres y Romina Huamán
Oportunidades
laborales en Data
Science e Inteligencia
Artificial
¿Qué es data science?
¿Qué es
data science?
Data science o ciencia de
datos es el proceso de
descubrir información
valiosa de los datos.
¿Cuál es su finalidad?
● Tomar decisiones y crear
estrategias de negocio.
● Crear productos de software más
inteligentes y funcionales.
¿De qué trata este proceso?
● Obtención de los datos.
● Transformar y limpiar los datos.
● Explorar, analizar y visualizar datos.
● Usar modelos de machine learning*.
● Integrar datos e IA a productos de
software.
*Inteligencia artificial. No siempre es necesario usarla.
Proceso de
Hacer una pregunta
la ciencia interesante
de datos
Obtener los datos
● El proceso entre
proyecto a proyecto
cambia poco. Explorar los datos
● Es el proceso del Analizar los datos
método científico
llevado al uso de datos.
Comunicar y
visualizar resultados
Proceso de la ciencia de datos
Hacer una pregunta
interesante
Obtener los
datos
Explorar los
datos
Analizar los
datos
Comunicar y
visualizar resultados
¿Qué es inteligencia
artificial?
Inteligencia artificial
Inteligencia artificial
Inteligencia artificial
● Inteligencia artificial y data
science no son lo mismo.
¿Pero qué es en realidad?
● Algoritmos para emular
nuestra inteligencia natural.
● Reconocer patrones en
grandes cantidades de
datos.
¿Pero qué es en realidad?
IA en la actualidad
Proceso de
machine Datos de
entrenamiento
learning
Evaluar
Entrenar el
algoritmo de
ML
Modelo
Datos de Algoritmo Predicción
entrada de ML
Proceso de ciencia de datos:
integrar ML a producto
Ingesta de Validación de Preparación de Entrenamiento
datos datos datos de modelo
Evaluación de Validación de Despliegue de
modelo modelo modelo Interfaz de
usuario
¿Cuál es su diferencia
con data science?
Data science + IA
Data science Inteligencia artificial
Proceso para analizar Algoritmos para predecir
datos y generar eventos futuros que
predicciones para toma de emulan cognición.
decisiones y crear
productos con datos.
En el proceso de data science utilizamos inteligencia
artificial como una de sus herramientas.
¿Qué es Big Data?
Big Data
● Grandes volúmenes de datos
muy variados y muy veloces.
● Resulta complicado
procesarlos con métodos
tradicionales.
5V de Big Data
5V de Big Definición
Data
Volumen El almacenamiento de la masiva cantidad de datos que pueden ser
recolectados de múltiples fuentes.
Velocidad Los datos se generan en tiempo real gracias a las interacciones con las
fuentes mencionadas, por lo que deben ser procesados con la misma
velocidad.
Variedad Todo tipo de datos, ya sea estructurados o no estructurados. Podrían
ser tablas, texto, imágenes, videos, audio, bases de datos, etc.
Veracidad Es la calidad y confiabilidad de los datos.
Valor Los datos deben poder proporcionar un valor o beneficio a la empresa
que los está usando.
Procesamiento de Big Data
● Se procesa al dividirla en
partes pequeñas en varias
máquinas.
● Tecnologías como Spark,
Hadoop y servicios de
cómputo en la nube.
¿Cómo se une con
data science e IA?
Data science + IA + Big Data
Data science Inteligencia artificial Big Data
Proceso para analizar Algoritmos para predecir Grandes volúmenes de
datos y generar eventos futuros que datos muy variados, muy
predicciones para toma de emulan cognición. veloces y difíciles de
decisiones y crear procesar.
productos con datos.
● Big Data es materia prima que podemos usar en data science para hacer
análisis más exhaustivos.
● Incluso podemos utilizar machine learning en ese mismo proceso para
perfeccionar y evaluar los algoritmos de inteligencia artificial que creemos.
¿Qué NO es data
science y por qué
aprenderla?
¿Qué NO es data science?
● Magia.
● Inteligencia artificial.
● Tener solamente métricas de
algún dato sin hallazgos de
valor.
¿Qué NO es data science?
● Puras matemáticas.
● Trabajar solo con Big Data.
¿Por qué no aprender
data science?
¿Por qué NO aprender
data science?
● No quieres que el aprendizaje
sea algo constante en tu vida.
● No disfrutas del “trabajo sucio”.
¿Por qué NO aprender
data science?
● No te gusta comunicar y
negociar lo que
logras/encuentras.
● No te sientes motivado por
ayudar a otras personas.
¿Por qué NO aprender
data science?
● No te gusta “hacer que las
cosas pasen”.
¿Por qué sí aprender
data science?
¿Por qué aprender
data science?
● Te emociona encontrar
información de valor en
datos/gráficas.
● Te interesa conocer
cómo se aplican las
matemáticas y
algoritmos.
¿Por qué aprender
data science?
● Quieres trabajar en una
organización data-driven
y verla crecer.
● Quieres crear
software/productos que
cambien al mundo con
datos e IA.
Áreas de aplicación de
data science e IA
Ramas de IA
● Machine learning.
● Deep learning.
● RPA.
● Visión artificial.
● Procesamiento de lenguaje
natural.
● Robótica
Áreas de aplicación
de data science
● Salud
● Procesos productivos
● Procesos comerciales
● Redes sociales
Cómo funcionan los
equipos de datos e IA
Roles en la industria
Roles en la industria
● Data Scientist
● Data Analyst
● Data Engineer
● Machine Learning
Engineer
Data science en las
empresas y sus equipos
La jerarquía de necesidades de data science
IA, Deep
learning Aprendizaje/
Optimización
Pruebas A/B,
experimentación,
algoritmos simples ML
Agregaciones/
Etiquetado
Analytics, métricas,
segmentación, agregaciones,
características, entrenamiento
Exploración/
de datos Transformación
Limpieza, detección de anomalías,
preparación Movimiento/
Datos confiables, flujo, infraestructura, pipelines, Almacenamiento
ETL, datos estructurados y no estructurados
Instrumentación, logging, sensores, datos Recolección
externos, contenido generado por el usuario
Referencia: 2. Data Science Hierarchy of
needs (Monica Rogati — Hackernoon)
Data Research
analyst scientist
Business
ML
Developer
engineer
Data Data
Engineering
engineer scientist
Interfaz
Ingesta Validación Preparación Entrenamiento Evaluación Validación Despliegue de
de datos de datos de datos de modelo de modelo de modelo de modelo
usuario
Pasos y roles en el flujo de trabajo de data science
(Design Patterns in Machine Learning).
¿Qué hace una
Data Scientist?
¿Qué hace una Data Scientist?
Datos Data ML Service
Scientist / Insights
¿Qué hace un Data Scientist?
Toma de decisiones Incorporar datos a los
basadas en datos. productos de software.
Día a día de Data Scientist
● Obtener, limpiar y
procesar datos.
● Diseñar y utilizar modelos
de machine learning.
Día a día de Data Scientist
● Monitorear la precisión
de los datos.
● Automatizar procesos
de recolección y
transformación de
datos.
Día a día de Data Scientist
● Crear reportes de
información en tableros.
● Incorporar datos a los
productos.
Data Scientist vs. Data Analyst
Data Scientist Data Analyst
● Incorporar datos a los ● Se enfoca en responder
productos - ingeniería. preguntas del negocio.
● Programación avanzada ● Programación
con POO. fundamental.
● Machine learning y ● Analizar el presente de la
estadística avanzada. organización.
Herramientas y
tecnologías para
Data Scientists
Herramientas y tecnologías
● Programación con Python o
R (incluyendo POO).
● Jupyter Notebooks.
● Pandas, Numpy, Matplotlib.
Herramientas y tecnologías
● Algoritmos y librerías de
machine learning como
scikit-learn y TensorFlow.
● Bases de datos SQL y
NoSQL.
Matemáticas para
data scientist
● Álgebra
● Estadística descriptiva e
inferencial
● Probabilidad
● Álgebra lineal
● Cálculo
¿Cómo empezar?
● Cómo utilizan los datos las
organizaciones.
● Programación con Python y
sus librerías para data
science.
¿Cómo empezar?
● Usar Jupyter Notebooks.
● Estadística y probabilidad
aplicada a data science.
¿Cómo empezar?
Reto
Busca en sitios de trabajo
vacantes de Data Scientist.
La experiencia
de una Data
Scientist
¿Qué hace una
Data Analyst?
¿Qué hace una Data Analyst?
Datos Data Insights
Analyst
¿Qué hace un Data Analyst?
Extraer datos recolectados. Analizarlos y reportar
resultados.
Día a día de Data Analyst
● Identificar necesidades de
información.
● Extraer datos de fuentes
con SQL o Python.
Día a día de Data Analyst
● Limpiar y organizar los datos
para su análisis.
● Analizar los datos para
identificar patrones y
tendencias.
Día a día de Data Analyst
● Comunicar los
hallazgos en tableros
o dashboards.
Flujo de trabajo de
Data Analyst
Recopilar
Problema o Exploración y
información de
pregunta queries
valor
Crear
Comunicar
visualizaciones de
hallazgos
la información
Roles relacionados
● Business Analyst
● Data visualization
specialist
Herramientas y
tecnologías para
Data Analysts
Herramientas y tecnologías
● Consulta de bases datos
con SQL.
● Software de visualización
de datos como Power BI y
Tableau.
● Excel y Google Sheets.
● Programación con Python
o R.
Herramientas y tecnologías
● Jupyter Notebooks.
● Pandas, Matplotlib,
Numpy.
Matemáticas
para Data
Analyst
● Probabilidad
● Estadística
descriptiva
¿Cómo empezar?
● Cómo utilizan los datos
las organizaciones con
Business Intelligence.
● Consultar bases de datos
con SQL.
● Herramientas para análisis
de datos como Excel,
Power BI y Tableau.
● Estadística aplicada a
análisis de datos.
¿Cómo empezar?
Reto
Busca en sitios de trabajo
vacantes de Data Analyst.
La experiencia de
un Data Analyst
con Demian Arenas
¿Qué hace una
Data Engineer?
¿Qué hace una Data Engineer?
Datos Data Datos
crudos Engineer limpios para
análisis
¿Qué hace un Data Engineer?
Trabaja para que el Crea pipelines ETL.
equipo tenga datos
para análisis.
Día a día de una Data Engineer
● Data pipelines de ETL y
bases de datos.
● Extraer datos de
diferentes fuentes.
Día a día de una Data Engineer
● Transformar los datos para
análisis.
● Bases de datos
especializadas para análisis.
Día a día de una Data Engineer
● Crear automatizaciones
para ETL.
Proceso ETL
Extraer Transformar Cargar
(Load)
Archivos
Bases
de
datos
(OLTP)
Data
API Warehouse
(OLAP)
Roles relacionados
● Data Architect
● Big Data Architect
Herramientas y
tecnologías para
Data Engineers
Herramientas y tecnologías
● Programación con Python
y bases de ingeniería de
software.
● Linux.
● Automatización y scripting.
Herramientas y tecnologías
● Jupyter Notebooks y
editores de código.
● Manejo avanzado de bases
de datos SQL y NoSQL.
● Pandas, Dask y Apache
Spark.
Herramientas y tecnologías
● Airflow.
● Tecnologías cloud.
● Contenedores Docker.
● Orquestadores
Kubernetes.
Matemáticas
para Data
Engineer
● Estadística
descriptiva
¿Cómo empezar?
● Python y bases sólidas de
ingeniería de software.
● Automatización y scripting.
● Pandas y Apache Spark.
● Bases de datos SQL y
NoSQL.
¿Cómo empezar?
Reto
Busca en sitios de trabajo
vacantes de Data Engineers.
La experiencia de
un Data Engineer
¿Qué hace una
Machine Learning
Engineer?
¿Qué hace una ML Engineer?
Modelo
Data Scientist ML Engineer funcionando
con modelo
en
ML
producción
¿Qué hace una ML Engineer?
Crear productos Escalar modelos de IA.
basados en IA.
Día a día de ML Engineer
● Generar una evaluación
extensiva de métricas de
modelos de machine learning.
● Construir, escalar y robustecer
sistemas de machine learning
que funcionen en producción.
Día a día de ML Engineer
● Colaborar con Data Scientists
y otras áreas de ingeniería de
software.
● Monitorear el desempeño y
funcionalidad de los
sistemas de machine
learning.
Proceso de machine learning
Datos de
entrenamiento
Evaluar
Entrenar el
algoritmo
de ML
Modelo
Datos de Algoritmo Predicción
entrada de ML
Data Research
analyst scientist
Business
ML
Developer
engineer
Data Data
Engineering
engineer scientist
Interfaz
Ingesta Validación Preparación Entrenamiento Evaluación Validación Despliegue de
de datos de datos de datos de modelo de modelo de modelo de modelo
usuario
Pasos y roles en el flujo de trabajo de data science
(Design Patterns in Machine Learning).
Herramientas y
tecnologías para
Machine Learning
Engineers
Herramientas y tecnologías
● Programación avanzada
con Python, Java y C++.
● Bases sólidas de
ingeniería de software.
● Jupyter Notebooks.
Herramientas y tecnologías
● Pandas, Numpy,
Matplotlib, Seaborn.
● Uso extensivo de
frameworks y librerías
de machine learning.
Herramientas y tecnologías
● Flask o FastAPI
● Tecnologías cloud
● Contenedores Docker
● Kubernetes
Matemáticas para
machine learning
● Estadística
descriptiva e
inferencial
● Probabilidad
● Álgebra lineal
● Cálculo
¿Cómo empezar?
● Programación con
Python y bases sólidas
de ingeniería de
software.
● Uso de librerías de
Python para
manipulación, análisis y
visualización de datos.
¿Cómo empezar?
● Matemáticas
aplicadas a data
science e inteligencia
artificial.
● Aplicación de modelos
de machine learning
con scikit-learn.
¿Cómo empezar?
Reto
Busca en sitios de trabajo
vacantes de ML Engineers.
La experiencia de un
Machine Learning
Engineer
Soft skills para
profesionales de
los datos e IA
En sus marcas,
listos, fuera