0% encontró este documento útil (0 votos)
17 vistas79 páginas

Fundamentos de Minería de Datos

El documento aborda los fundamentos de la minería de datos, destacando su importancia en la extracción de conocimiento a partir de datos mediante diversas técnicas de análisis. Se presentan ejemplos prácticos de aplicación en sectores como la banca y el comercio, así como la clasificación de datos en estructurados, no estructurados y semiestructurados. Además, se discuten conceptos clave como métricas, KPIs y la pirámide DIKW (Datos, Información, Conocimiento y Sabiduría).

Cargado por

coruuacosta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
17 vistas79 páginas

Fundamentos de Minería de Datos

El documento aborda los fundamentos de la minería de datos, destacando su importancia en la extracción de conocimiento a partir de datos mediante diversas técnicas de análisis. Se presentan ejemplos prácticos de aplicación en sectores como la banca y el comercio, así como la clasificación de datos en estructurados, no estructurados y semiestructurados. Además, se discuten conceptos clave como métricas, KPIs y la pirámide DIKW (Datos, Información, Conocimiento y Sabiduría).

Cargado por

coruuacosta
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Análisis de Datos

Fundamentos (6 horas)
Ing. Juan Pablo Zaldumbide, [Link].
“La minería de datos es un término relativamente moderno que integra numerosas técnicas de
análisis de datos y extracción de modelos.”
HERNANDEZ ORALLO, José, RAMIREZ QUINTANA, María José y FERRI
RAMIREZ, César. Introducción a la Minería de Datos.

“Es la capacidad de extraer patrones, de describir tendencias y regularidades, de predecir


comportamientos y, en general, de sacar partido a la información computarizada que nos rodea
hoy en día.” DAVILA HERNANDEZ, Frank y SANCHEZ CORALES, Yovannys.

“La minería de datos es una etapa, parte del proceso de extracción de conocimiento a partir de
datos. Este proceso consta de varias fases e incorpora diferentes técnicas de los campos del
aprendizaje automático, la estadística, las bases de datos, los sistemas de toma de decisión, la
inteligencia artificial y otras áreas de la informática y de la gestión de información.”
FERRI HERNÁNDEZ, José y RAMÍREZ, César
“La minería de datos es un término relativamente moderno que integra numerosas técnicas de
análisis de datos y extracción de modelos.”
HERNANDEZ ORALLO, José, RAMIREZ QUINTANA, María José y FERRI RAMIREZ,
César. Introducción a la Minería de Datos.

“Es la capacidad de extraer patrones, de describir tendencias y regularidades, de predecir


comportamientos y, en general, de sacar partido a la información computarizada que nos rodea
hoy en día.” DAVILA HERNANDEZ, Frank y SANCHEZ CORALES, Yovannys.

“La minería de datos es una etapa, parte del proceso de extracción de conocimiento a partir
de datos. Este proceso consta de varias fases e incorpora diferentes técnicas de los
campos del aprendizaje automático, la estadística, las bases de datos, los sistemas de
toma de decisión, la inteligencia artificial y otras áreas de la informática y de la gestión de
información.” FERRI HERNÁNDEZ, José y RAMÍREZ, César
Datos, información, conocimiento y sabiduría

¿Por qué?

Critical Success Factors (CSFs)

¿Cómo?
Key Performance Indicators (KPIs)

¿Qué?

Performance Indicators/Metrics (PIs)

DIKW pyramid
Datos

• [Link]
• [Link]
• [Link]
platform/visualizing-akamai/[Link]
Dataset es un conjunto de datos, que tienen ciertos
atributos o propiedades relacionadas.

Por ejemplo:
Ø Tweets en un archivo plano.
Ø Una colección de imágenes en un directorio.
Ø Un extracto de filas de una hoja de cálculo guardado en un
archivo CSV.
Ø Datos históricos del clima guardados en archivos XML
Propiedades de los Datos
Ø ¿Qué cantidad de datos analiza?
Ø ¿Con que frecuencia son
actualizados los datos?
Ø ¿Cuáles son sus principales
fuentes de datos?
Métricas

Una métrica es una unidad expresada en su mayoría por unidades o porcentajes que se obYene de
herramientas de medición ya establecidas y cuyo valor prácYcamente es global que, para interpretarla se
requiere conocer el sistema o instrumento de medición, la escala y su significado, siendo tan básicas como el
medir la temperatura, el peso de una persona, estatura, en el caso del mundo digital, el porcentaje de
correos abiertos, tasa de rebote, número de nuevas visitas al siYo o de ventas como unidades desplazadas,
etcétera.
Información

Por favor ingresar a [Link]


Información
KPIs

Fuente: [Link]
Conocimiento

Es una mezcla de varios elementos; es un flujo al mismo tiempo que tiene una estructura formalizada; es
intuitivo y difícil de captar en palabras o de entender plenamente de forma lógica. El conocimiento existe
dentro de las personas, como parte de la complejidad humana y de nuestra impredecibilidad. Aunque
solemos pensar en activos definibles y concretos, los activos de conocimiento son mucho más difíciles de
manejar. El conocimiento puede ser visto como un proceso (flujo) o como algo acumulado
Datos Información Conocimiento Sabiduría

• Operacionales • Patrones • Tipología de clientes • Captación


• Histórico clientes • Tendencias • Frecuencia de contactos • Fidelización
• Demográficos • Relaciones • Potencial del cliente. • Recuperación
• Geográficos • Asociaciones • Grado de lealtad • Segmentación de
• Corporativos • Predicciones • Participación clientes
• Compras • etc. • Satisfacción • Campañas
• Fuentes externas • etc. • Promociones
• etc. • Precios
• etc.
Pirámide de
conocimiento, Datos
está mejor
aplicada si es
un círculo
continuo.

Sabiduría Información

Conocimiento
CASOS DE ESTUDIO
Ejemplo 1 – Análisis de Créditos Bancarios

El primer ejemplo pertenece al ámbito de la banca. Un banco por Internet desea obtener reglas para
predecir qué personas de las que solicitan un crédito no lo devuelven. La entidad bancaria cuenta con
los datos correspondientes a los créditos concedidos con anterioridad a sus clientes (cuantía del
crédito, duración en años...) y otros datos personales como el salario del cliente, si posee casa propia,
etc.
A partir de éstos, las técnicas de minería de datos podrían sintetizar algunas reglas, como por ejemplo:

El banco podría entonces utilizar estas reglas para determinar las acciones a realizar en el trámite de los
créditos: si se concede o no el crédito solicitado, si es necesario pedir avales especiales, etc.
Ejemplo 2: análisis de la canasta de la compra

Éste es uno de los ejemplos más típicos de minería de datos. Un supermercado quiere obtener información
sobre el comportamiento de compra de sus clientes. Piensa que de esta forma puede mejorar el servicio
que les ofrece: reubicación de los productos que se suelen comprar juntos, localizar el emplazamiento
idóneo para nuevos productos, etc. Para ello dispone de la información de los productos que se adquieren
en cada una de las compras o cestas. Un fragmento de esta base de datos se muestra en la siguiente tabla:
Analizando estos datos el supermercado podría encontrar, por ejemplo, que el 100 por cien de las veces que se
compran pañales también se compra leche, que el 50 por ciento de las veces que se compran huevos también
se compra aceite o que el 33 por ciento de las veces que se compra vino y salmón entonces se compran
lechugas. También se puede analizar cuáles de estas asociaciones son frecuentes, porque una asociación muy
estrecha entre dos productos puede ser poco frecuente y, por tanto, poco útil.
Ejemplo 3: determinar las ventas de un producto
Una gran cadena de tiendas de electrodomésticos desea optimizar el funcionamiento de su almacén
manteniendo un stock de cada producto suficiente para poder servir rápidamente el material adquirido por
sus clientes. Para ello, la empresa dispone de las ventas efectuadas cada mes del ultimo años de cada
producto, tal y como se refleja en la siguiente tabla

Esta información permite a la empresa generar un modelo para predecir cuáles van a ser las ventas de cada
producto en el siguiente mes en función de las ventas realizadas en los meses anteriores, y efectuar así́ los
pedidos necesarios a sus proveedores para disponer del stock necesario para hacer frente a esas ventas.
Ejemplo 4: determinar grupos diferenciados de empleados

El departamento de recursos humanos de una gran empresa desea categorizar a sus empleados en distintos
grupos con el objetivo de entender mejor su comportamiento y tratarlos de manera adecuada. Para ello dispone
en sus bases de datos de información sobre los mismos (sueldo, estado civil, si tiene coche, número de hijos, si
su casa es propia o de alquiler, si está sindicado, número de bajas al año, antigüedad y sexo). La siguiente tabla
muestra algunos de los registros de su base de datos.
Un sistema de minería de datos podría obtener tres grupos con la siguiente descripción:

Estos grupos podrían ser interpretados por el departamento de recursos humanos de la siguiente manera:
•Grupo 1: sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas.
•Grupo 2: sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente son mujeres y viven en casas de
alquiler.
•Grupo 3: con hijos, casados y con coche. Mayoritariamente hombres propietarios de su vivienda. Poco
sindicados.
AcYvidad 30 minutos, realizarla en parejas en un documento de Word.

1.- En parejas describir que son datos, información y conocimiento y sabiduría para los ejemplos 1 – 4
2.- Crear un caso de estudio similar al de los ejemplos 1-4
3.- Brindar un concepto de “Data Mining”.

Por favor enviarlo a [Link]@[Link]


Tipos de Datos
Datos Estructurados
Datos Estructurados

Los datos estructurados tienen definidos varias de sus propiedades como


la longitud, el formato y el tamaño de sus datos.
Datos No Estructurados

Los datos no estructurados se


caracterizan por no tener un
formato específico.
Se almacenan en múltiples
formatos como documentos PDF o
Word, correos
electrónicos, ficheros multimedia
de imagen, audio o video
Datos No Estructurados
Datos Semiestructurados

Son aquellos que no se incluyen tan fácilmente ni en filas, columnas, ni encajan estrictamente en una
estructura definida. Tienen un formato el cual puede ser definido pero al mismo Yempo no es rígido. Un
ejemplo son los logs de algún sistemas, XML, JSON

<-JSON

XML->
JSON

JSON es el acrónimo para JavaScript Object Notation, y aunque su nombre lo diga, no es necesariamente parte de
JavaScript, de hecho es un estándar basado en texto plano para el intercambio de información, por lo que se usa en muchos
sistemas que requieren mostrar o enviar información para ser interpretada por otros sistemas, la ventaja de JSON al ser un
formato que es independiente de cualquier lenguaje de programación, es que los servicios que comparten información por
éste método, no necesitan hablar el mismo idioma, es decir, el emisor puede ser Java y el receptor PHP, cada lenguaje tiene
su propia librería para codificar y decodificar cadenas de JSON.
Datos Semiestructurados

Estructura variable

{ {
"nombre":"Juan Pablo", "nombre":"Juan Andrés",
"edad":38, "edad":40,
"nacionalidad":"Ecuatoriano", "nacionalidad":"Peruano",
"ojos":"cafés" "Instrucción": "Superior",
} "Grupo sanguíneo":"ORH positivo"
}
Validadores

En la herramienta:
hxps://[Link]/structured-data/tesYng-tool/u/0/?hl=es

Cargar el archivo:
hxps://[Link]/hasbridge/php-json-schema/master/example/[Link]

Observar su resultado y estructura


Actividad
Crear un archivo json de 5 libros de su interés y validarlo con la herramienta: [Link]
(Tiempo estimado 30 minutos)

por favor enviarlo a [Link]@[Link]


Metadatos
¿Cómo almacenamos este .po de datos semiestructurados?
¿Cómo almacenamos diferentes tipos de datos?
¿A qué tipo de datos se puede aplicar Data Mining?

hJps://[Link]/jzaldumbide
KDD
(Knowledge Discovery in Databases)

Así, los sistemas de KDD permiten la selección, limpieza, transformación y proyección de los datos; analizar los
datos para extraer patrones y modelos adecuados; evaluar interpretar los patrones para converYrlos en
conocimiento; consolidar el conocimiento resolviendo posibles conflictos con conocimiento previamente
extraído; y hacer el conocimiento disponible para su uso.
Cross Industry Standard Process for Data Mining
CRISP - DM
Data Scientist

Data Analyst
h$ps://[Link]/community/blog/data-scien:st-vs-data-engineer 50
BREAK 5 MINUTOS
ELK
HERRAMIENTAS
Instalar jdk 1.8 (se encuentra en la carpeta de herramientas)
Verificar las variables de entorno Java
1) Vamos a MI PC, damos clic derecho y 2) Seleccionamos Configuración avanzada del
seleccionamos Propiedades sistema. 3) Damos clic en Variables de entorno
1) Damos clic en Nueva en la Sección 2) Seleccionamos la variable Path y 3) Repe?mos el mismo paso anterior en
Variables del sistema, creamos la seleccionamos Editar. Añadimos Variables del equipo. Añadimos
variable JAVA_HOME y en valor %JAVA_HOME%/bin y damos click en OK %JAVA_HOME%/bin y damos click en OK
colocamos el path donde se instaló y
damos clic en OK.
• Para verificar la correcta
configuración de variables de
entorno de Java, abrimos un
terminal y escribimos
java -version
• h;ps://[Link]/downloads/

Descargar la versión 3.6.x


Qué es elasticsearch?

Es una herramienta utilizada para indexar un gran volumen de datos,


de esa forma podemos realizar búsquedas ágiles y con respuestas en
corto tiempo.
Instalación

Windows, Mac y gnu/linux

hxps://[Link]/downloads
1) Descomprimir el archivo .zip

2) Abrir un CMD y entrar a la carpeta elasYcsearch


carpeta bin:
Ejecutar la aplicación >>elasYcsearch

Por favor descomprimir en una ruta sin espacios ni caracteres especiales


En un navegador probar la dirección localhost:9200
[Link]
Ejercicio 1
Ejercicio 2
Trabajo final (45 minutos)

En parejas escoger una problemáYca a ser analizada.


Definir las fuentes de datos que puede obtener para dicha problemáYca.
Establecer las posibles hipótesis a ser comprobadas para su caso de estudio.
Diseñar una arquitectura KDD que incluya las herramientas que hasta el momento conoce

Por favor enviar sus acYvidades a [Link]@[Link]


TAREA 1

1.- Conseguir datasets que puedan aportar al desarrollo de su caso de estudio propuesto, al
menos de tres fuentes.
2.- Tabularlos en un archivo csv por cada fuente.
Muchas Gracias
Ing. Juan Pablo Zaldumbide, [Link].

También podría gustarte