0% encontró este documento útil (0 votos)

18 vistas36 páginas

1 Intro

El documento presenta una introducción a la minería de datos, abordando conceptos clave como el aprendizaje automático, la ciencia de datos y el descubrimiento de conocimiento en bases de datos. Se discuten las técnicas y tareas de minería de datos, así como la importancia de convertir grandes volúmenes de datos en conocimiento útil para la toma de decisiones. Además, se mencionan ejemplos prácticos de aplicación en diferentes contextos, como bancos y supermercados.

Cargado por

Luciano Vitale

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

18 vistas36 páginas

1 Intro

Cargado por

Luciano Vitale

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Técnicas Avanzadas de

Análisis de Datos

Introducción a la
Minería de Datos

• Hernandez Orallo J. Introducción a la minería de

datos. Cap.1 y 2.

• Witten I et al. Data Mining: Practical Machine

Learning Tools and Techniques. Cap. 1 y 2.
Contenidos
 Definiciones, ejemplos
 Tipos de conocimiento
 Proceso de
descubrimiento de
conocimiento
 Tipos de modelos
 Tareas y técnicas de
minería de datos
 Software
Montones de datos
• Generan enormes cantidades de datos: • Tecnologías para recoger y
• Bancos, transacciones comerciales... almacenar datos
• WWW: portales, redes sociales, etc. • Códigos de barras, scanner, satélites,
• Comercio electrónico cameras etc.
• Simulaciones científicas: experimentos en • Bases de datos, almacenes de datos,
biología y otras ciencias variedad de repositorios
• Datos médicos
• Videos e imágenes de vigilancia,
• Satélites
• Otros ….
Muchos datos
• La información histórica es útil para explicar el pasado,
entender el presente y predecir la información futura.

• En muchas situaciones, convertir los datos

en conocimiento consiste en análisis e
interpretación en forma manual.
• La abundancia de datos desborda la
capacidad humana de comprenderlos sin
ayuda de herramientas

• Minería de datos: resolver problemas analizando los datos

presentes, frecuentemente, en las bases de datos
¿Conocen estos conceptos?

Machine
Learning
Data
Mining

Deep
Learning Data
Science

Big Data
Data
Analysis
Inteligencia Artificial  robótica, procesamiento de
lenguaje natural, recuperación de información, visión
artificial y aprendizaje automático.

Aprendizaje automático  desarrollar algoritmos

que puedan aprender de los datos históricos y
mejorar con la experiencia.

Aprendizaje profundo  aprender representaciones de datos

con múltiples niveles de abstracción. Extrae automáticamente
características de alto nivel de datos complejos.

Ciencia de datos  estudia todo lo relacionado con los

datos: adquisición, almacenamiento, análisis, limpieza,
visualización, interpretación, toma de decisiones Minería de datos  comprender y descubrir
basada en datos, determinación de cómo crear valor a nuevos conocimientos nunca antes vistos en los
partir de los datos y cómo comunicar conocimientos. datos aplicando algoritmos para extraer patrones
relevante para el negocio de los datos.

[Link]
Y qué es …?

Analista
de datos

Ingeniero
de datos

Científico
de datos
Analista de datos  recopilar datos, interpretar la
información, generar informes significativos.

Ingeniero de datos  desarrolla y mantiene la arquitectura de datos.

Responsable de mantener sistemas escalables, con alta disponibilidad y
rendimiento.

Científico de datos  realiza análisis estadísticos avanzados y

tiene conocimientos de machine learning. Objetivo identificar
patrones en datos estructurados y no estructurados

[Link]
[Link]
[Link] 330/alemania-utiliza-bigdata-para-ganar-el-mundial-de-rusia
412/16/[Link]
[Link]

[Link]
[Link]
publicidad-ventas-y-fidelizacion/

[Link]
datamining-mineria-datos-7148734
¿Qué es la minería de datos?

Proceso para encontrar patrones, relaciones, tendencias o

reglas que expliquen el comportamiento de los datos
disponibles en base de datos

Los patrones descubiertos deberían ayudar a tomar decisiones

más seguras que reporten beneficio a la organización
Integración de tecnologías/disciplinas

Inteligencia
Aprendizaje Artificial
automático
Gestión de
bases de
datos Estadística

Algoritmos Visualización
Minería
de Datos
Datos, información y conocimiento
Información:
Conocimiento:
Datos procesados y que
Explicación o interpretación
tienen significado
de información (comparación,
búsqueda de relaciones, etc.)

Datos:
Conjunto de valores discretos
Ejemplo

● Dato
o productos comprados

● Información
o clientes compran snacks
o clientes compran golosinas

● Conocimiento
o De los clientes que compran
snacks, el 66% compran golosinas
Proceso de Interpretación/
Evaluación
Conoci
Minería de
descubrimiento datos
miento

de Preprocesamiento
Patrones
conocimiento Selección
en bases de Datos
preprocesados
datos
datos Target
datos

Adaptado de U. Fayyad, et al. (1995), “From Knowledge Discovery to Data Mining: An

Overview,” Advances in Knowledge Discovery and Data Mining, U. Fayyad et al. (Eds.),
AAAI/MIT Press
Descubrimiento del conocimiento

Knowledge Discovery in Databases (KDD)

• nombre técnico con que se denomina al proceso global de
extracción de conocimiento de bases de datos

• Es un proceso interactivo e iterativo

• Implica la preparación, selección y limpieza de datos
• Se utiliza para extraer datos de grandes volúmenes de datos
• Se utiliza para identificar válidos, novedosos, potencialmente
útiles y comprensibles a partir de los datos
Descubrimiento del conocimiento
Las propiedades deseables del conocimiento extraído:
● Válido: los patrones encontrados deben seguir siendo precisos
para datos nuevos

● Novedoso: que aporte algo desconocido tanto para el sistema

como para el usuario

● Potencialmente útil: la información debe reportar algún

beneficio para el usuario

● Comprensible: posibilita la interpretación, revisión, validación y

toma de decisiones
Aprendizaje automático
• El aprendizaje automático (machine learning) es un campo
de la inteligencia artificial
• Automatiza la construcción de modelos analíticos: algoritmos
que aprendan de datos, identifiquen patrones
• Dos formas de aprendizaje (más populares):

Aprendizaje supervisado Aprendizaje no supervisado

Los algoritmos se entrenan con Los datos de no tienen etiqueta. El
ejemplos etiquetados objetivo es explorar los datos
Ej. Clientes que aceptarían préstamos Ej. Grupo de empleados
Etiqueta
Tipos de Modelos
Modelos:
• Predictivos: estiman valores futuros o desconocidos A. Supervisado
de variables de interés (dependientes) usando otras
(independientes o predictivas)
Ejemplo: Estimar la demanda de un nuevo producto en
función del gasto en publicidad

• Descriptivos: exploran las propiedades de los datos A. No Supervisado

para explicar o resumirlos
Ejemplo: Determinar grupos de viajeros con intereses
similares
Tareas de MD
Una (un tipo de) tarea de MD es un (tipo de) problema de MD.
Ej. “clasificar los clientes en morosos y no morosos” es una tarea

Clasificación: asignar una clase a nuevos registros

Predictivas
Regresión: asignar a cada registro un valor real

Agrupamiento: obtener grupos de registros

Descriptivas
Asociación: identificar relaciones entre atributos
Técnicas de MD
Una tarea de MD requiere métodos, técnicas o algoritmos para resolverlas.

Tareas

Técnicas

Hernandez Orallo. Introducción a la minería de datos

Ejemplos
Haga clic para modificar el estilo de título del
Ejemplo 1 : Bancopatrón
• Objetivo del negocio: Ofrecer más préstamos

• Datos: Registros de clientes que han recibido una

oferta de préstamo

• Clientes que la rechazaron

• Clientes que la aceptaron

• Objetivo/Tarea de MD?
Ejemplo 1: Banco
Encontrar reglas que predicen si un cliente va a
responder a una oferta de este préstamo

Ej.
SI (Salario < 40k) y
(numHijos > 0) y
(edadHijo1 > 18 y edadHijo1 < 22)
ENTONCES SÍ
…

Modelo predictivo

Reglas de decisión/clasificación
Haga clic para modificar el estilo de título del
Ejemplo 2: Supermercado
patrón
• Objetivo de negocio: mejorar el servicio, aumentar ventas

• Datos: Registros de productos adquiridos en cada compra

Id Huevos Aceite Pañales Vino Leche Manteca Lechuga ….

1 si no no si no si si …
2 no si no no si no si …
3 no no si no si si si …
4 no si si no si no no …
… … … … … … … … …

• Objetivo/Tarea de MD?
Ejemplo 2: Supermercado
Encontrar asociaciones entre productos
Ej.
El 100% de las veces que se compran pañales también se
compra leche
El 50% de las veces que se compran huevos también se
compra aceite
El 33% de las veces que se compra vino y manteca también
se compra lechuga

Analizar cuáles de estas asociaciones

son frecuentes (y útiles)
Modelo asociación

Reglas de asociación
Haga clic para modificar el estilo de título del
Ejemplo 3: Empresa
patrón
• Objetivo de negocio: entender la situación de los
empleados y ofrecerles beneficios

• Datos: Información sobre los empleados

Ejemplo 3: Grupos de empleados
Encontrar grupos entre los empleados (podrían ser
interpretados por el departamento de recursos humanos)

Ej.
✔ Grupo1: sin hijos y con vivienda de alquiler. Baja
participación sindical. Muchos días de baja.
✔ Grupo 2: sin hijos y con coche. Alta participación sindical.
Modelo
Pocos días de baja. Normalmente son mujeres y viven en agrupamiento
casa de alquiler.
✔ Grupo 3: con hijos, casados y con coche. Clusters
Mayoritariamente hombres propietarios de su vivienda.
Baja participación sindical.
Tareas predictivas o descriptivas?
Regresión Agrupamiento

Clasificación Asociación

Identificar las transacciones

Identificar elementos que son con tarjetas de crédito como
comprados juntos por un número legítimas o fraudulentas
suficientemente grande de clientes

Proyectar las ventas de un Dividir a los clientes con

nuevo producto basado en intereses similares
gastos de publicidad
¿Son interesantes todos los patrones
“descubiertos?
• La MD puede generar miles de patrones: no todos interesantes

• Un patrón es “interesante” si
• es fácilmente comprensible por las personas
• válido sobre datos nuevos o de prueba con cierto grado de certeza,
• potencialmente útil, novedoso,
• o valida alguna hipótesis que el usuario quiere confirmar

• Medidas de interés objetivas vs. subjetivas

• Objetivas: basada en estadística y en la estructura de los
patrones, ej. soporte, confianza, etc.
• Subjetivas: basadas en lo que el usuario piensa de los datos,
ej. inesperados, novedosos, útiles para tomar decisiones, etc.
Software para
ciencias de datos
¿Por qué usar Rapidminer?
● Variedad de herramientas para la preparación de datos, la creación
de modelos predictivos y la evaluación de su rendimiento
● Análisis estadísticos de los datos
● Interfaz gráfica intuitiva: arrastrar y soltar operadores, sin
necesidad de escribir código.
● Integración de diversas fuentes de datos
● Análisis de grandes volúmenes de datos
● Comunidad de usuarios y desarrolladores

[Link]
Descarga e instalación: [Link]

También podría gustarte

Data Mining
Aún no hay calificaciones
Data Mining
19 páginas
MPA-LaCiencia de Datos Yaplicaciones
Aún no hay calificaciones
MPA-LaCiencia de Datos Yaplicaciones
67 páginas
Minería de Datos
Aún no hay calificaciones
Minería de Datos
4 páginas
Guía Completa de Data Mining
Aún no hay calificaciones
Guía Completa de Data Mining
50 páginas
Clase 1 KDD 3
Aún no hay calificaciones
Clase 1 KDD 3
90 páginas
Universidad Nacional San Antonio Abad Del Cusco Data Minig
Aún no hay calificaciones
Universidad Nacional San Antonio Abad Del Cusco Data Minig
32 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
7 páginas
Proyecto de Auditoría de Sistemas
Aún no hay calificaciones
Proyecto de Auditoría de Sistemas
16 páginas
Introducción a la Ciencia de Datos y Minería
Aún no hay calificaciones
Introducción a la Ciencia de Datos y Minería
131 páginas
Introduccion A Data Minning PDF
Aún no hay calificaciones
Introduccion A Data Minning PDF
14 páginas
Curso de Minería de Datos en Marketing
Aún no hay calificaciones
Curso de Minería de Datos en Marketing
27 páginas
iNVESTIGACION 2
Aún no hay calificaciones
iNVESTIGACION 2
5 páginas
Coria Intro A Mindat Data Ware
Aún no hay calificaciones
Coria Intro A Mindat Data Ware
7 páginas
1 Introduccion A La Mineria de Datos y KDD
100% (1)
1 Introduccion A La Mineria de Datos y KDD
49 páginas
Tema02-Minería de Datos-Ciencia de Datos - 2018-19
Aún no hay calificaciones
Tema02-Minería de Datos-Ciencia de Datos - 2018-19
92 páginas
Sesion 12 Minería de Datos
Aún no hay calificaciones
Sesion 12 Minería de Datos
35 páginas
Tendencias en Minerias de Datos
Aún no hay calificaciones
Tendencias en Minerias de Datos
9 páginas
Tema02-Minería de Datos-Ciencia de Datos - 2020-21
Aún no hay calificaciones
Tema02-Minería de Datos-Ciencia de Datos - 2020-21
76 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
9 páginas
Clase Cpel Sem6 2015
Aún no hay calificaciones
Clase Cpel Sem6 2015
11 páginas
Mineria de Datos
Aún no hay calificaciones
Mineria de Datos
19 páginas
Exposición MD
Aún no hay calificaciones
Exposición MD
25 páginas
Introducción al Data Mining
Aún no hay calificaciones
Introducción al Data Mining
35 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
10 páginas
Minería de Datos para Negocios
Aún no hay calificaciones
Minería de Datos para Negocios
30 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
20 páginas
Concepto y Aplicación de Minería de Datos
Aún no hay calificaciones
Concepto y Aplicación de Minería de Datos
12 páginas
Data Miningsistemas Informaticos en La Logistica
Aún no hay calificaciones
Data Miningsistemas Informaticos en La Logistica
4 páginas
Resumen Data Mining
Aún no hay calificaciones
Resumen Data Mining
3 páginas
PDF Unidad1 PDF
Aún no hay calificaciones
PDF Unidad1 PDF
29 páginas
Coria Intro A Mindat Data Ware
Aún no hay calificaciones
Coria Intro A Mindat Data Ware
7 páginas
Tema03 MineriaDeDatos
Aún no hay calificaciones
Tema03 MineriaDeDatos
84 páginas
Conferencia #5. Introducción A La Minería de Datos v2
Aún no hay calificaciones
Conferencia #5. Introducción A La Minería de Datos v2
41 páginas
Mineria de Datos Investigación
Aún no hay calificaciones
Mineria de Datos Investigación
5 páginas
Descubrimiento de Conocimiento en Bases de Datos
Aún no hay calificaciones
Descubrimiento de Conocimiento en Bases de Datos
30 páginas
Introduccion Al Data Mining
Aún no hay calificaciones
Introduccion Al Data Mining
34 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
42 páginas
Data Mining Mineria Datos MONOGRAFIA UNH+
Aún no hay calificaciones
Data Mining Mineria Datos MONOGRAFIA UNH+
31 páginas
Minería de Datos: Técnicas y Aplicaciones
Aún no hay calificaciones
Minería de Datos: Técnicas y Aplicaciones
8 páginas
Minería de Datos y KDD: Conceptos Clave
Aún no hay calificaciones
Minería de Datos y KDD: Conceptos Clave
8 páginas
Tema 1 Unidad 1
Aún no hay calificaciones
Tema 1 Unidad 1
13 páginas
Árboles de Decisión en Data Mining
Aún no hay calificaciones
Árboles de Decisión en Data Mining
8 páginas
KDD
Aún no hay calificaciones
KDD
6 páginas
TP12 Minería de Datos
Aún no hay calificaciones
TP12 Minería de Datos
21 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
43 páginas
Unidad 4 Ingenieria Del Conocimiento - Adquisicion Del Conocimiento
Aún no hay calificaciones
Unidad 4 Ingenieria Del Conocimiento - Adquisicion Del Conocimiento
16 páginas
Data Mining
Aún no hay calificaciones
Data Mining
4 páginas
Minería de Datos: Proceso y Modelos
Aún no hay calificaciones
Minería de Datos: Proceso y Modelos
23 páginas
Clase 1 Introduccion DM
Aún no hay calificaciones
Clase 1 Introduccion DM
29 páginas
Minería de Datos: Conceptos y Aplicaciones
Aún no hay calificaciones
Minería de Datos: Conceptos y Aplicaciones
25 páginas
Minería de Datos: Guía Completa
Aún no hay calificaciones
Minería de Datos: Guía Completa
10 páginas
Expo - Mineria de Datos
Aún no hay calificaciones
Expo - Mineria de Datos
9 páginas
Semana 4 Apuntes Software
Aún no hay calificaciones
Semana 4 Apuntes Software
17 páginas
Minería de Datos: Técnicas y Aplicaciones
Aún no hay calificaciones
Minería de Datos: Técnicas y Aplicaciones
16 páginas
Data Minig
Aún no hay calificaciones
Data Minig
2 páginas
Técnicas de Data Mining y Aplicaciones
Aún no hay calificaciones
Técnicas de Data Mining y Aplicaciones
34 páginas
Juego V/F: Principios de Escuelas Inclusivas
Aún no hay calificaciones
Juego V/F: Principios de Escuelas Inclusivas
13 páginas
Sesión #2 P.S. 26-5-25 Deliberamos
Aún no hay calificaciones
Sesión #2 P.S. 26-5-25 Deliberamos
6 páginas
DISLEXIA
Aún no hay calificaciones
DISLEXIA
6 páginas
2da Jornada 2A - 2025
Aún no hay calificaciones
2da Jornada 2A - 2025
6 páginas
Pruebas Comportamentales
100% (2)
Pruebas Comportamentales
7 páginas
Carpeta Pedagógica de Inglés 2022
Aún no hay calificaciones
Carpeta Pedagógica de Inglés 2022
144 páginas
Guia Al Instructor Como Fortalecer El Matrimonio
Aún no hay calificaciones
Guia Al Instructor Como Fortalecer El Matrimonio
92 páginas
Derechos y Ciudadanía Primer Grado - Ciclo Avanzado - Unidad 1. Portafolio de Evidencias - Interdisciplinario
Aún no hay calificaciones
Derechos y Ciudadanía Primer Grado - Ciclo Avanzado - Unidad 1. Portafolio de Evidencias - Interdisciplinario
174 páginas
Evaluación de Formación Kirkpatrick
Aún no hay calificaciones
Evaluación de Formación Kirkpatrick
6 páginas
Iv Ses Ayc Vier 29 Corona de Adviento
Aún no hay calificaciones
Iv Ses Ayc Vier 29 Corona de Adviento
7 páginas
1 ST DBA Lenguaje Secundaria
Aún no hay calificaciones
1 ST DBA Lenguaje Secundaria
7 páginas
Silabo de Química Orgánica-Ingeniería Forestal y Ambiental-UNJ-2018-I-Dra - Irma Rumela Aguirre Zaquinaula
100% (1)
Silabo de Química Orgánica-Ingeniería Forestal y Ambiental-UNJ-2018-I-Dra - Irma Rumela Aguirre Zaquinaula
14 páginas
Silabo (1) Materiales Ceguera
Aún no hay calificaciones
Silabo (1) Materiales Ceguera
5 páginas
Aulas Con Cerebro
Aún no hay calificaciones
Aulas Con Cerebro
1 página
Psicología Humanista y Cognoscitivismo
Aún no hay calificaciones
Psicología Humanista y Cognoscitivismo
7 páginas
Arte Rasgado para Primer Grado
Aún no hay calificaciones
Arte Rasgado para Primer Grado
4 páginas
Ejemplo de Acciones de Matematica-Plan de Mejoramiento Educativo
100% (1)
Ejemplo de Acciones de Matematica-Plan de Mejoramiento Educativo
5 páginas
Protocolo Del Informe
Aún no hay calificaciones
Protocolo Del Informe
57 páginas
Revista Textos Expositivos
Aún no hay calificaciones
Revista Textos Expositivos
17 páginas
Sesion 12-03 Usamos Expresiones - Mate
Aún no hay calificaciones
Sesion 12-03 Usamos Expresiones - Mate
5 páginas
Ubicación Espacial con Superhéroes
Aún no hay calificaciones
Ubicación Espacial con Superhéroes
6 páginas
Comprensión Lectora: Selena y el Sapo
Aún no hay calificaciones
Comprensión Lectora: Selena y el Sapo
7 páginas
Críticas a Montessori y Kilpatrick
Aún no hay calificaciones
Críticas a Montessori y Kilpatrick
3 páginas
Juegos Matemáticos para Niños de 3 Años
Aún no hay calificaciones
Juegos Matemáticos para Niños de 3 Años
5 páginas
Planificación de Una Salida Al Teatro
Aún no hay calificaciones
Planificación de Una Salida Al Teatro
2 páginas
Manual Funciones Helena de Chauvin
Aún no hay calificaciones
Manual Funciones Helena de Chauvin
9 páginas
1.01 Las Cuatro Destrezas Del Idioma
Aún no hay calificaciones
1.01 Las Cuatro Destrezas Del Idioma
1 página
Progresión 2
Aún no hay calificaciones
Progresión 2
3 páginas
Deshonestidad Académica: Un Análisis
Aún no hay calificaciones
Deshonestidad Académica: Un Análisis
21 páginas