0% encontró este documento útil (0 votos)
29 vistas21 páginas

Machine Learning y Minería de Datos

Cargado por

hacknek
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
29 vistas21 páginas

Machine Learning y Minería de Datos

Cargado por

hacknek
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Machine Learning Aplicado

Docente: David Ruete


Table of Contents

1 Introducción

2 Introducción a la minería de datos

3 Big Data y sus desafíos

4 Aplicaciones
Introducción

• En 1960 fue utilizado el término ”data science” como sustituto a ”computer


science”,
• 15 años después se definió,
• en 1997 Jeff Wu sugirió que la estadística debía ser renombrada como ”data
science”,
• en 2001 fue introducido como disciplina independiente, y
• en 2012 Harvard Business Review publicó un artículo llamándola como
”the sexiest job of the 21st century”
Introducción
Introducción

Con el análisis de datos se podrían responder varias preguntas, tales como:


• ¿Cuál podría ser el precio de un producto particular?
• ¿Cómo encontrar segmentos de mercado y/o grupos de clientes dentro de un
segmento de mercado?
• ¿A qué grupo pertenece un cierto individuo, imagen, ...?
• ¿Dónde perforar para encontrar (oro, cobre, petróleo, ...)?
• ¿Cuál es el producto más vendido en navidad?
• ¿Quién ganará en las próximas elecciones presidenciales?
• ¿Cuáles son las series más vistas en Netflix? Netflix y YouTube utilizan algo-
ritmos de anális de datos para hacer recomendaciones personalizadas.
Estadística y minería de datos

Aunque algunos paquetes estadísticos son capaces de inferir patrones a partir de los
datos (utilizando métodos paramétricos o no paramétricos), el problema es que:
• resultan complejos para los no estadísticos,
• generalmente no funcionan bien para las bases de datos actuales (cientos de
tablas, millones de registros, talla de varios gigabytes y una alta
dimensionalidad), y
• no se integran bien con los sistemas de información.

Minería de Datos
Se define la minería de datos como el proceso de extraer conocimiento túil y com-
prensible, previamente desconocido, desde grandes cantidades de datos almacenados
en distintos formatos [?].
Estad´ıstica y miner´ıa de datos

Estad´ıstica Miner´ıa de Datos


-Confirmativa: Proporcionar -Explorativa: Primero excava los
primero la teoría y luego la prueba datos, descubre patrones novedosos y
usando varias herramientas es- luego hace teorías.
tadísticas.
-Aplica métodos estadísticos sobre -Inplica la limpieza de datos.
datos limpios.
-Trabajo con pequeños conjuntos -Trabajo con grandes volúmenes
de datos. de datos.
-Necesita la interacción del cliente -Necesita menos interacción con el
para aprobar el programa, por lo cliente para aprobar el modelo, por lo
tanto, es difícil de automatizar. tanto, es fácil de automatizar.
-Formalización de la relación en -Es un cálculo que aprende de los
los datos en forma de condición datos sin utilizar ninguna regla de
matemática. programación.
Introducción a la minería de datos

¿Qué tareas involucra la minería


de datos?
A Regresión, Clasificación y
Agrupación.
B Modelado de dependencias.
C Detección de cambios y
desviaciones.
D Todas las anteriores.
Introducción a la minería de datos
Las principales tareas son [Kantardzic, 2020]:
1. Clasificación: función de aprendizaje predictiva que clasifica un elemento de
datos en una de varias clases predefinidas.
2. Regresión: descubrimiento de una función de aprendizaje predictiva, que
asigna un elemento de datos a una variable de predicción de valor real.
3. Agrupación: tarea descriptiva común en la que se busca identificar un con-
junto finito de categorías o agrupaciones para describir los datos.
4. Resumen: tarea descriptiva adicional que involucra métodos para encontrar
una descripción compacta para un conjunto (o subconjunto) de datos.
5. Modelado de dependencias: encontrar un modelo local que describa depen-
dencias significativas entre variables o entre los valores de una característica
en un conjunto de datos o en una parte de un conjunto de datos.
6. Detección de cambios y desviaciones: descubrimiento de los cambios más
significativos en el conjunto de datos.
Introducción a la minería de datos
Flujo de trabajo:
• Definir el problema y objetivos. ¿Qué se quiere predecir o estimar?
• Obtener los datos. ¿Cuáles son los datos relevantes para el estudio?
• Análisis exploratorio de los datos, limpieza de datos. ¿Existen valores atípicos
y/o patrones?
• Modelar los datos. Construir un modelo, ajustar y validar dicho modelo.
• Visualizar los resultados. ¿Tienen sentido los resultados? Interpretación y
explicación.
• Retroalimentación.
Introducción a la minería de datos

Métodos o algoritmos más utilizados:


• Aprendizaje supervisado
• Regresión
• Análisis de componentes principales (Principal Component Analysis)
• Árboles de decisión (Decision tree)
• Bosques aleatorios (Random forests)
• Clasificación Bayesiana (Naive Bayes classifier)
• Redes neuronales (neural network)
• Máquina de soporte vectorial (Support Vector Machine)
• K-vecinos más cercanos (K-Nearest Neighbor)
• Aprendizaje no supervisado:
• K-medias (K-means)
• Clustering jerárquico (hierarchical clustering)
Big Data y sus desafíos

El Big Data representa el con-


junto de técnicas (informáticas)
que nos van a permitir gestionar,
explotar y realizar distintos usos
eficaces de estos datos volumi-
nosos y terriblemente complejos;
mientras data sciences permiten
explotar, manipular estos datos,
comprender, prever y establecer
usos.[?]
Big Data y fútbol: así aprovecha el Real
Madrid la tecnología
Big Data y sus desafíos
Big Data y sus desafíos

¿Cuáles son los deasfíos del Big Data?


Big Data y sus desafíos

4ta Revolución Industrial o Industria 4.0


interconectividad, automatización, aprendizaje automático y datos en tiempo real
• Sistema Ciberfísico: sistemas inteligentes conectados a dispositivos físicos
para la recolección de datos (tecnología 5G).
• Internet de las cosas (IoT): similar al anterior pero se le agregan dispositivos
electrónicos y sensores, para recopilar datos, análisis y acciones automatizadas.
• Big Data: permite organizar y almacenar la información recopilada anterior-
mente, para extraer información relevante.
• Computación en la nube: servidores remotos para almacenar, administrar y
procesar datos (Microsoft Azure o Amazon Web Services).
• Fábrica inteligente: hace que los procesos sean más sencillos y rentables
permitiendo la comunicación entre las tecnologías anteriores, con máquinas
funcionando de forma autónoma, para ayudar en la ejecución de tareas.
Big Data y sus desafíos
Algunos desafíos que enfrenta el Big Data:
• Muchas fuentes y tipos de datos. Datos: internet, móviles, experimentales,
de empresas. Tipos: estructurados, semi-estructurados (software, hojas de
cálculo, informes) y no estructurados (documentos, vídeos, audios, etc.).
• Volumen de datos es enorme por lo que se requiere más tiempo para realizar
un proceso de calidad de datos.
• Mucha volatilidad, se necesita un poder de procesamiento muy alto (orde-
nadores cuánticos).
• No existen estándares de calidad de datos unificados. En 2011, ISO publicó
las normas de calidad de datos ISO 8000, pero deben perfeccionarse en cuanto
a la calidad de datos de big data.
• Ciberseguridad: medidas de seguridad necesarias para evitar el robo, el se-
cuestro o incluso la destrucción de la información.
• Empleo: se requiere un personal más compotente, con nuevas habilidades.
Aplicaciones

¿Conoce algún ejemplo donde se haya aplicado alguno de los


algoritmos antes mencionados (Mundo, Chile, Ambiente de
trabajo)?
Algunas aplicaciones
Astronomía, arte, diseño creativo, bioinformática, servicios de consultoría, ecología,
medioambiente, comercio electrónico, mercado, educación, ingeniería, finanzas y
economía, industria de juegos, gobierno, medicina, deportes, manufactura, market-
ing, seguridad, ciencias, sostenibilidad, comunicaciones, ...
• Identificar tendencias y patrones
• Generar alertas de mantenimiento
• Disminuir tiempos de operación
• Mejorar la calidad
• Análisis comparativos
• Cuantificar el impacto del riesgo
• Predecir una situación y/o fenómeno
• Optimizar procesos y servicios
• Identificar y prevenir fraudes
Aplicaciones

Algunas aplicaciones en Chile:


• Inteligencia artificial en Minería
• Optimizando procesos en la construcción con Machine Learning
• Cambiando el futuro de la alimentación con Machine Learning
• Proyección de la Inflación en Chile con Métodos de Machine Learning
• Comprender las disputas por el agua en Chile con herramientas de minería de
datos y texto
R – Studio: [Link]
h t t p s : / / c r a n . r - pr o je c [Link] g/
Entorno de desarrollo integrado (IDE) para R
[Link]
Machine Learning Aplicado

Docente: David Ruete

También podría gustarte