0% encontró este documento útil (0 votos)
18 vistas36 páginas

1 Intro

El documento presenta una introducción a la minería de datos, abordando conceptos clave como el aprendizaje automático, la ciencia de datos y el descubrimiento de conocimiento en bases de datos. Se discuten las técnicas y tareas de minería de datos, así como la importancia de convertir grandes volúmenes de datos en conocimiento útil para la toma de decisiones. Además, se mencionan ejemplos prácticos de aplicación en diferentes contextos, como bancos y supermercados.

Cargado por

Luciano Vitale
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
18 vistas36 páginas

1 Intro

El documento presenta una introducción a la minería de datos, abordando conceptos clave como el aprendizaje automático, la ciencia de datos y el descubrimiento de conocimiento en bases de datos. Se discuten las técnicas y tareas de minería de datos, así como la importancia de convertir grandes volúmenes de datos en conocimiento útil para la toma de decisiones. Además, se mencionan ejemplos prácticos de aplicación en diferentes contextos, como bancos y supermercados.

Cargado por

Luciano Vitale
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Técnicas Avanzadas de

Análisis de Datos

Introducción a la
Minería de Datos

• Hernandez Orallo J. Introducción a la minería de


datos. Cap.1 y 2.

• Witten I et al. Data Mining: Practical Machine


Learning Tools and Techniques. Cap. 1 y 2.
Contenidos
 Definiciones, ejemplos
 Tipos de conocimiento
 Proceso de
descubrimiento de
conocimiento
 Tipos de modelos
 Tareas y técnicas de
minería de datos
 Software
Montones de datos
• Generan enormes cantidades de datos: • Tecnologías para recoger y
• Bancos, transacciones comerciales... almacenar datos
• WWW: portales, redes sociales, etc. • Códigos de barras, scanner, satélites,
• Comercio electrónico cameras etc.
• Simulaciones científicas: experimentos en • Bases de datos, almacenes de datos,
biología y otras ciencias variedad de repositorios
• Datos médicos
• Videos e imágenes de vigilancia,
• Satélites
• Otros ….
Muchos datos
• La información histórica es útil para explicar el pasado,
entender el presente y predecir la información futura.

• En muchas situaciones, convertir los datos


en conocimiento consiste en análisis e
interpretación en forma manual.
• La abundancia de datos desborda la
capacidad humana de comprenderlos sin
ayuda de herramientas

• Minería de datos: resolver problemas analizando los datos


presentes, frecuentemente, en las bases de datos
¿Conocen estos conceptos?

Machine
Learning
Data
Mining

Deep
Learning Data
Science

Big Data
Data
Analysis
Inteligencia Artificial  robótica, procesamiento de
lenguaje natural, recuperación de información, visión
artificial y aprendizaje automático.

Aprendizaje automático  desarrollar algoritmos


que puedan aprender de los datos históricos y
mejorar con la experiencia.

Aprendizaje profundo  aprender representaciones de datos


con múltiples niveles de abstracción. Extrae automáticamente
características de alto nivel de datos complejos.

Ciencia de datos  estudia todo lo relacionado con los


datos: adquisición, almacenamiento, análisis, limpieza,
visualización, interpretación, toma de decisiones Minería de datos  comprender y descubrir
basada en datos, determinación de cómo crear valor a nuevos conocimientos nunca antes vistos en los
partir de los datos y cómo comunicar conocimientos. datos aplicando algoritmos para extraer patrones
relevante para el negocio de los datos.

[Link]
Y qué es …?

Analista
de datos

Ingeniero
de datos

Científico
de datos
Analista de datos  recopilar datos, interpretar la
información, generar informes significativos.

Ingeniero de datos  desarrolla y mantiene la arquitectura de datos.


Responsable de mantener sistemas escalables, con alta disponibilidad y
rendimiento.

Científico de datos  realiza análisis estadísticos avanzados y


tiene conocimientos de machine learning. Objetivo identificar
patrones en datos estructurados y no estructurados

[Link]
[Link]
[Link] 330/alemania-utiliza-bigdata-para-ganar-el-mundial-de-rusia
412/16/[Link]
[Link]

[Link]
[Link]
publicidad-ventas-y-fidelizacion/

[Link]
datamining-mineria-datos-7148734
¿Qué es la minería de datos?

Proceso para encontrar patrones, relaciones, tendencias o


reglas que expliquen el comportamiento de los datos
disponibles en base de datos

Los patrones descubiertos deberían ayudar a tomar decisiones


más seguras que reporten beneficio a la organización
Integración de tecnologías/disciplinas

Inteligencia
Aprendizaje Artificial
automático
Gestión de
bases de
datos Estadística

Algoritmos Visualización
Minería
de Datos
Datos, información y conocimiento
Información:
Conocimiento:
Datos procesados y que
Explicación o interpretación
tienen significado
de información (comparación,
búsqueda de relaciones, etc.)

Datos:
Conjunto de valores discretos
Ejemplo

● Dato
o productos comprados

● Información
o clientes compran snacks
o clientes compran golosinas

● Conocimiento
o De los clientes que compran
snacks, el 66% compran golosinas
Proceso de Interpretación/
Evaluación
Conoci
Minería de
descubrimiento datos
miento

de Preprocesamiento
Patrones
conocimiento Selección
en bases de Datos
preprocesados
datos
datos Target
datos

Adaptado de U. Fayyad, et al. (1995), “From Knowledge Discovery to Data Mining: An


Overview,” Advances in Knowledge Discovery and Data Mining, U. Fayyad et al. (Eds.),
AAAI/MIT Press
Descubrimiento del conocimiento

Knowledge Discovery in Databases (KDD)


• nombre técnico con que se denomina al proceso global de
extracción de conocimiento de bases de datos

• Es un proceso interactivo e iterativo


• Implica la preparación, selección y limpieza de datos
• Se utiliza para extraer datos de grandes volúmenes de datos
• Se utiliza para identificar válidos, novedosos, potencialmente
útiles y comprensibles a partir de los datos
Descubrimiento del conocimiento
Las propiedades deseables del conocimiento extraído:
● Válido: los patrones encontrados deben seguir siendo precisos
para datos nuevos

● Novedoso: que aporte algo desconocido tanto para el sistema


como para el usuario

● Potencialmente útil: la información debe reportar algún


beneficio para el usuario

● Comprensible: posibilita la interpretación, revisión, validación y


toma de decisiones
Aprendizaje automático
• El aprendizaje automático (machine learning) es un campo
de la inteligencia artificial
• Automatiza la construcción de modelos analíticos: algoritmos
que aprendan de datos, identifiquen patrones
• Dos formas de aprendizaje (más populares):

Aprendizaje supervisado Aprendizaje no supervisado


Los algoritmos se entrenan con Los datos de no tienen etiqueta. El
ejemplos etiquetados objetivo es explorar los datos
Ej. Clientes que aceptarían préstamos Ej. Grupo de empleados
Etiqueta
Tipos de Modelos
Modelos:
• Predictivos: estiman valores futuros o desconocidos A. Supervisado
de variables de interés (dependientes) usando otras
(independientes o predictivas)
Ejemplo: Estimar la demanda de un nuevo producto en
función del gasto en publicidad

• Descriptivos: exploran las propiedades de los datos A. No Supervisado


para explicar o resumirlos
Ejemplo: Determinar grupos de viajeros con intereses
similares
Tareas de MD
Una (un tipo de) tarea de MD es un (tipo de) problema de MD.
Ej. “clasificar los clientes en morosos y no morosos” es una tarea

Clasificación: asignar una clase a nuevos registros


Predictivas
Regresión: asignar a cada registro un valor real

Agrupamiento: obtener grupos de registros


Descriptivas
Asociación: identificar relaciones entre atributos
Técnicas de MD
Una tarea de MD requiere métodos, técnicas o algoritmos para resolverlas.

Tareas

Técnicas

Hernandez Orallo. Introducción a la minería de datos


Ejemplos
Haga clic para modificar el estilo de título del
Ejemplo 1 : Bancopatrón
• Objetivo del negocio: Ofrecer más préstamos

• Datos: Registros de clientes que han recibido una


oferta de préstamo

• Clientes que la rechazaron


• Clientes que la aceptaron

• Objetivo/Tarea de MD?
Ejemplo 1: Banco
Encontrar reglas que predicen si un cliente va a
responder a una oferta de este préstamo

Ej.
SI (Salario < 40k) y
(numHijos > 0) y
(edadHijo1 > 18 y edadHijo1 < 22)
ENTONCES SÍ

Modelo predictivo

Reglas de decisión/clasificación
Haga clic para modificar el estilo de título del
Ejemplo 2: Supermercado
patrón
• Objetivo de negocio: mejorar el servicio, aumentar ventas

• Datos: Registros de productos adquiridos en cada compra


Id Huevos Aceite Pañales Vino Leche Manteca Lechuga ….

1 si no no si no si si …
2 no si no no si no si …
3 no no si no si si si …
4 no si si no si no no …
… … … … … … … … …

• Objetivo/Tarea de MD?
Ejemplo 2: Supermercado
Encontrar asociaciones entre productos
Ej.
El 100% de las veces que se compran pañales también se
compra leche
El 50% de las veces que se compran huevos también se
compra aceite
El 33% de las veces que se compra vino y manteca también
se compra lechuga

Analizar cuáles de estas asociaciones


son frecuentes (y útiles)
Modelo asociación

Reglas de asociación
Haga clic para modificar el estilo de título del
Ejemplo 3: Empresa
patrón
• Objetivo de negocio: entender la situación de los
empleados y ofrecerles beneficios

• Datos: Información sobre los empleados


Ejemplo 3: Grupos de empleados
Encontrar grupos entre los empleados (podrían ser
interpretados por el departamento de recursos humanos)

Ej.
✔ Grupo1: sin hijos y con vivienda de alquiler. Baja
participación sindical. Muchos días de baja.
✔ Grupo 2: sin hijos y con coche. Alta participación sindical.
Modelo
Pocos días de baja. Normalmente son mujeres y viven en agrupamiento
casa de alquiler.
✔ Grupo 3: con hijos, casados y con coche. Clusters
Mayoritariamente hombres propietarios de su vivienda.
Baja participación sindical.
Tareas predictivas o descriptivas?
Regresión Agrupamiento

Clasificación Asociación

Identificar las transacciones


Identificar elementos que son con tarjetas de crédito como
comprados juntos por un número legítimas o fraudulentas
suficientemente grande de clientes

Proyectar las ventas de un Dividir a los clientes con


nuevo producto basado en intereses similares
gastos de publicidad
¿Son interesantes todos los patrones
“descubiertos?
• La MD puede generar miles de patrones: no todos interesantes

• Un patrón es “interesante” si
• es fácilmente comprensible por las personas
• válido sobre datos nuevos o de prueba con cierto grado de certeza,
• potencialmente útil, novedoso,
• o valida alguna hipótesis que el usuario quiere confirmar

• Medidas de interés objetivas vs. subjetivas


• Objetivas: basada en estadística y en la estructura de los
patrones, ej. soporte, confianza, etc.
• Subjetivas: basadas en lo que el usuario piensa de los datos,
ej. inesperados, novedosos, útiles para tomar decisiones, etc.
Software para
ciencias de datos
¿Por qué usar Rapidminer?
● Variedad de herramientas para la preparación de datos, la creación
de modelos predictivos y la evaluación de su rendimiento
● Análisis estadísticos de los datos
● Interfaz gráfica intuitiva: arrastrar y soltar operadores, sin
necesidad de escribir código.
● Integración de diversas fuentes de datos
● Análisis de grandes volúmenes de datos
● Comunidad de usuarios y desarrolladores

[Link]
Descarga e instalación: [Link]

También podría gustarte