0% encontró este documento útil (0 votos)
103 vistas120 páginas

Introducción A Data Mining: (Minería de Datos)

Este documento introduce el tema de la minería de datos. Brevemente describe cómo la digitalización e integración de cadenas de valor están llevando a las empresas de tecnología a asumir un liderazgo global. Además, presenta gráficos sobre el crecimiento exponencial de dispositivos conectados a Internet y ventas de robots industriales. Finalmente, explica conceptos y términos clave relacionados con la minería de datos como datos, información, algoritmos y tipos de datos.

Cargado por

Tatiana Mateus
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
103 vistas120 páginas

Introducción A Data Mining: (Minería de Datos)

Este documento introduce el tema de la minería de datos. Brevemente describe cómo la digitalización e integración de cadenas de valor están llevando a las empresas de tecnología a asumir un liderazgo global. Además, presenta gráficos sobre el crecimiento exponencial de dispositivos conectados a Internet y ventas de robots industriales. Finalmente, explica conceptos y términos clave relacionados con la minería de datos como datos, información, algoritmos y tipos de datos.

Cargado por

Tatiana Mateus
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Introducción a

DATA MINING
(Minería de Datos)
Nos enfrentamos a una nueva etapa en la organización de la producción
La información y la analítica son las principales
capacidades requeridas
Digitalización e integración de
cadenas de valor verticales y
horizontales
Digitalización de productos y
servicios
Modelos de negocio digitales
y acceso al cliente
Acelerada incorporación de la tecnología a la producción

Internet de las Cosas: número de dispositivos Ventas de robots industriales en el mundo,


conectados en todo el mundo, 2015-2025 2004-2020
80
(En miles de millones) 75,4 550
(En miles de unidades) 521
500
70
450
60
400

50 350

300
40
254
250

30 200

150
20 15,4
100
10
50

0 0
2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2004 2006 2008 2010 2012 2014 2016 2018 2020

Fuente: IHS Fuente: International Federation of Robotics (IFR)


Esta dinámica ha llevado a que las empresas de IT tomen el liderazgo a nivel mundial
Capitalización de mercado, 2006-2017
2006 (En miles de millones de dólares) IT
2020
Telecomunicaciones

Financiero

Salud

Energía

Industrial

Retail

Bienes de consumo

Alimentos y tabaco

Fuente: CEPAL con base en datos de Bloomberg


Fuerte asimetría en la oferta y demanda de servicios
digitales
OFERTA DEMANDA
(en miles de millones)
U.S.A: USD 3.350

Europa: USD 128

Asia: USD 854,7

África: USD 73,9

América Latina: USD 13,5


Fuente: CEPAL
IoT: la nueva brecha digital…
Número de sensores por habitante en 2014 y proyección a 2025

Europa Occidental Europa del Este


America del Norte 2014: 4.4 2014: 2.4
2014: 6.1 2019: 8.2 2019: 4.3
2019: 11.6 Africa y Medio Asia-Pacífico
Oriente 2014: 1.6
America Latina 2014: 1.0 2019: 2.5
2014: 2.0 2019: 1.4
2019: 2.9

Fuente: CISCO
Unidades de
Almacenamiento de
Información
Crecimiento estimado
▪ Se estima un crecimiento del 4300% en la
generación de datos anuales para 2020.

[Link] 10
Historia de la minería de Datos.
Historia de la minería de Datos.
La minería de datos es algo que empieza por los alrededores de los años sesenta, ya
los estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data
Archaeology con la idea de encontrar correlaciones sin una Definición previa de bases
de datos.
En los principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert Blum y
Gregory Piatetsky-Shapiro y otros, empezaron a consolidar los términos de Minería de
Datos y KDD.
Estas tecnologías han sido una buena herramienta para personas que se
desenvuelven en el ámbito de los negocios y académico.

La evolución de sus herramientas en el transcurso del tiempo puede dividirse en


cuatro etapas principales:
• Colección de Datos (1960).
• Acceso de Datos (1980).
• Almacén de Datos y Apoyo a las Decisiones (principios de la década de 1990).
• Minería de Datos Inteligente.( finales de la década de 1990).
Conceptos y términos
clave
Dato e Información

Dato: Codificación cualitativa y/o cuantitativa de un hecho.


Información: Resultado de procesar datos mediante algoritmos lógico-
matemáticos.
Proceso de Datos: Secuencia de operaciones matemáticas (algoritmo) a la
que se someten los datos para transformarlos en información.
Algoritmo: Secuencia definida, ordenada y finita de operaciones que permite
hallar la solución a un problema.
Ej. de Dato

Dato: La presencia o ausencia de un alumno en la clase(i)


Ej. de Información

Información: Porcentaje de asistencia de cada alumno(i)

Algoritmo: Tomar un alumno y contar las clases en que estuvo presente y dividir el resultado
por la cantidad de clases dictadas y multiplicar el resultado por 100
Ej. de Información

Información: Porcentaje de asistencia de en clase(i)

Algoritmo: Tomar alumno por alumno y contar clase por clase si estuvo
presente. Luego dividir el resultado de cada clase por la cantidad de
alumnos del curso y multiplicar ese resultado por 100
Conceptos y términos clave
Datos vs Información vs Conocimiento vs Sabiduría

M e t aconocimiento Cuando se interiorisa y pone en práctica un


conocimiento.
(Sabiduría)

Conocimiento Cuando se añande una perspectiva o hipótesis


a la información.
Inform a ción Datos procesados y con un
significado.
D atos
Hechos o representaciones que describen
características.
Conceptos y términos clave
Tipos de datos
Los registros en una base de datos pueden contener diferentes formatos, en
general pueden ser numéricos o simbólicos.

Binarios Por ej: sexo


Nominales
No-binarios color
Cualitativos
Binarios b u e n o, m a l o
Ordinales
No-binarios nivel/s e m estre

Discretos n ú m e r o d e hijos

Cuantitativos

Continuos precio d e ve n t a
Conceptos y términos clave

Tipos de datos (Cualitativos)


Conceptos y términos clave
Tipos de datos (Cuantitativos)
Conceptos y términos clave

Algoritmo
Secuencia de operaciones que resuelven una conjunto de problemas y que involucran el procesamiento de
datos, el cálculo de operaciones matemáticas, o la predicción de resultados basados en evidencia.

Rendimiento
También llamado performance o desempeño. Es un valor numérico que mide la capacidad de un modelo o
algoritmo de minería de datos para reconocer patrones (clases, predicciones, grupos, etc.) en los datos.

Parámetros
Valores que influyen en el comportamiento y desempeño de un modelo de minería de datos.
Conceptos y términos clave
Dataset
También llamado conjunto de datos o base de datos. Es una colección de datos u observaciones relacionadas a un
problema determinado. Cuando el dataset se almacena en una matriz, las columnas representan los atributos de un
problema y las filas representan las observaciones de distintas instancias o del problema. Para datos textuales, al
dataset también se le denomina corpus.

Características
También llamado feature, variable o atributo. Representan las propiedades de un objeto en un dataset. Pueden ser
observables y no observables. Los primeros, se pueden medir de forma automática (pixeles de un objeto, las
palabras de un tweet) o de forma manual (nombre de una persona o el género de una una canción). Los
segundos, se representan como un vector numérico en cierto espacio matemático llamado embedding.

Instancias
También llamadas observaciones o registros. Es el conjunto de distintas características asociadas al mismo
objeto. El número de dimensiones de estas representa la cantidad de atributos que describen a los objetos del
dataset.
Conceptos y términos clave
Etiqueta
Llamada también label o etiqueta de clase. Es el valor asignado a una observación u objeto en un dataset. A
menudo cada observación posee una etiqueta la cual ha sido otorgada por una persona (o algoritmo) después de
observar sus características (atributos).

Instancias

Características
Etiqueta
Minería de datos
Introducción

“Estamos viviendo en la era de los datos”

Terabytes o petabytes de datos se producen en nuestras redes en el Internet y en


sectores como negocios, educación, ciencia e ingeniería, medicina y casi cualquier
otro aspecto de la vida cotidiana.

Nacimiento de un campo relativamente joven, dinámico y prometedor, llamado


minería de datos.
Introducción a Data Mining
DEFINICION
La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos.
Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. Normalmente,
estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones
son demasiado complejas o porque hay demasiado datos.

Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los
modelos de minería de datos se pueden aplicar en escenarios como los siguientes:

• Pronostico
Escenarios para • Calculo de Riesgo y Probabilidad
Modelos de Minería • Recomendaciones
de Datos • Búsqueda de secuencias
• Agrupación
Introducción a Data Mining

OBJETIVO
El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de
datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis
en bruto, supone aspectos de gestión de datos y de bases de datos, de procesamiento de datos, del
modelo y de las consideraciones de inferencia, de métricas de Intereses, de consideraciones de la Teoría
de la complejidad computacional, de post-procesamiento de las estructuras descubiertas, de la
visualización y de la actualización en línea minería de datos es una forma innovadora de obtener
información comercial
Introducción a Data Mining

¿QUE NO ES MINERIA DE DATOS?


La Minería de Datos no es agrupar cantidades masivas de información.
El uso de herramientas para ordenar metadatos no elimina la necesidad de conocer la organización y la
información de la misma.. Para usar Minería de datos se debe conocer la organización o entidad que quiere la
información y que genera los datos.
Los patrones encontrados por la MD deben de ser verificados en el mundo real.

Aunque es una buena herramienta la MD requiere de un buen análisis


estadístico y requiere conocimientos sobre el tema en el que se busca
información.
Introducción a Data Mining
• Arquitectura de Computadoras

• Bases de Datos

• Computo Científico
CIENCIAS
COMPUTACIONALES • Redes de Computadoras y TICs

• Sistemas Distribuidos, paralelos y concurrentes

• Ingeniería de Software • Robótica Machine


• Learning
• Inteligencia Artificial • Imagenologia
• Redes neuronales
• Aprendizaje cognitivo
• Data Mining / Minería de
Datos
Introducción a Data Mining

Estadísticas
y Análisis

Metadatos
Datos
estructurados
Datos no
estructurados

Lo explicito es la búsqueda lineal que se da por medio de Manejadores de


DB’s. Lo no explicito como relaciones y patrones se da por medio de Minería
de Datos.
Introducción a Data Mining
La minería de datos ayuda a…
•Asistir al ANALISIS DE NEGOCIOS
•Ayuda en la toma de decisiones y a mejorar su nivel y fiabilidad de respuesta
•Encontrar Patrones y Relaciones en los datos que pueden ser útiles a una organización sobre
algún tópico o sobre el universo de datos.
•Encontrar RELACIONES PREDICTIVAS sobre comportamientos.
•Por otro lado la minería de datos …:
•Debe descartar los datos NO RELEVANTES en el ANALISIS DE DATOS.
•Las RELACIONES PREDICTIVAS no necesariamente son causas de una
acción o comportamiento.
•Los ALGORITMOS son sensibles a la selección o exclusión de los datos.
•La Minería de Datos no descubre soluciones automáticamente sin una guía o
conocimiento de la entidad que se analiza
Introducción a Data Mining
EJEMPLOS DE USO DE MINERIA DE DATOS
Los métodos convencionales pueden indicar a un banco cuál es el tipo de cuenta bancaria más
rentable de entre las que proporciona. En cambio, la minería de datos permite al banco crear perfiles de los
clientes que ya disponen de ese tipo de cuenta. El banco puede luego utilizar la minería de datos para
encontrar otros clientes que coinciden con ese perfil, y así poder emprender una campaña comercial
dirigida específicamente a esos clientes.

La minería de datos puede identificar patrones en los datos de la empresa, por ejemplo, en los registros de
compra de un supermercado. Si, por ejemplo, los clientes compran los productos A y B, ¿qué producto C
es más probable que compren también?

¡Responder con precisión a preguntas como éstas


son una ayuda muy valiosa para crear estrategias
comerciales!
Introducción a Data Mining

Se requiere un conocimiento de la entidad y de los datos


que se buscan.

La Minería de Datos no da soluciones, muestra información


que ya esta ahí y ayuda a la toma de decisiones.

Es vital que se entienda lo que se busca en los datos. Si los


datos no son concisos entonces es que faltan mas datos o
el algoritmo esta mal diseñado.
Introducción a Data Mining
PROCESO DE MINERIA DE DATOS
El siguiente diagrama describe las relaciones existentes entre cada paso del proceso y las tecnologías
disponibles como las de Microsoft SQL Server que se pueden usar para completar cada paso.

Pasos para el Proceso de Minería


de Datos
Definir el problema
Preparar datos
Explorar los datos
Generar un modelo
Validar el modelo
implementar y actualizar el modelo
Introducción a Data Mining
DATAWEREHOUSE

Viene del Inglés DATA = datos y WAREHOUSE = almacén, por eso, una DATA
WAREHOUSE es un almacén de datos.

Esta palabra se utiliza para hablar de un almacén de datos diseñado para permitir
las actividades de inteligencia de un negocio. En definitiva sirve para ayudar
analizar los datos recopilados por la empresa con el fin de mejorar su
rendimiento.
Un Data Warehouse o Almacén de
Datos, es una gran base de datos,
normalmente medida en gigabytes
(miles de millones de caracteres) o
terabytes (billones de letras), que
recoge información de múltiples
fuentes, y que su actividad se centra
en la Toma de Decisiones, es decir,
en el análisis de la información, en
vez de su captura.
Introducción a Data Mining
DATAWEREHOUSE

El Datawerehouse es una colección de datos orientada a un tópico integrado, no volátil y organizado en


base al tiempo, o sea con contenido histórico y referenciado.

Las características de la información de un Datawerehouse son:


•INTEGRADA: Integra datos de diferentes fuentes pero con una sola forma de identificarlo.
•ATEMPORAL: Con respaldo y referencia contra el tiempo.
•NO VOLATIL: No cambian con el tiempo, debe de ser concisas y fiables.
Introducción a Data Mining
Introducción a Data Mining
Se debe de hacer La MINERIA DE DATOS
LIMPIEZA DE DATOS debe ser mas LOGICA que
antes de crear el DATA FISICA (VISTAS) de
WAREHOUSE los datos contenidos en las BD’s
eliminando los datos no
necesarios
El procesamiento de
transacciones en línea
(OLTP) captura,
almacena y procesa
La BD deben de La BD deben de
datos de transacciones
tener soporte tener soporte en tiempo real. Por su
para las para consultas parte, el procesamiento
demandas de OLAP y OLTP analítico en línea (OLAP)
minería. utiliza consultas
complejas para analizar
datos históricos
agregados de los
sistemas OLTP

Los datos que se van a MINAR se El que una empresa u organización


obtienen de las BD que se definieron tenga o no un DATA WEREHOUSE no
como necesarias y de ahí se crea el es necesario para hacer MINERIA DE
depositorio DATA WEREHOUSE DATOS en sus BD.
Introducción a Data Mining
DATAWAREHOUSE
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar información
de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de
perspectivas y con grandes velocidades de respuesta.

La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto
de vista técnico, para implantar una solución completa y fiable de BUSINESS INTELLIGENCE.

BUSINESS INTELLIGENCE es la habilidad para transformar los datos en


información, y la información en conocimiento, de forma que se pueda
optimizar el proceso de toma de decisiones en los negocios. La inteligencia
de negocio actúa como un factor estratégico para una empresa u
organización, generando una potencial ventaja competitiva, que no es otra
que proporcionar información privilegiada para responder a los
problemas de negocio
Introducción a Data Mining
DATAWAREHOUSE

Los principales productos de BUSINESS INTELLIGENCE que existen hoy en día son:

* Cuadros de Mando Integrales (CMI)

* Sistemas de Soporte a la Decisión (DSS)

* Sistemas de Información Ejecutiva (EIS)

Por otro lado, los principales componentes de orígenes de datos en


el Business Intelligence que existen en la actualidad son:

* DATAMART

* DATAWAREHOUSE
Definición Datos

Minería de datos

La minería de datos es el conjunto de técnicas que


permiten extraer información y descubrir patrones
interesantes y conocimiento útil y comprensible
desde grandes bases de datos.

Analogía
Conocimiento

La minería de datos es similar al proceso de extracción de


oro que requiere remover grandes cantidades de roca o
arena (que equivaldría a los datos) para obtener el metal
puro (que equivaldría al conocimiento).
Métodos / Tareas / Tecnicas
de minería de datos
Tareas de minería de datos
Las tareas pueden considerarse como un tipo de problema para ser resuelto por un
algoritmo de minería de datos.
Tareas predictivas
Regresión
La clasificación es una forma de predicción, donde el valor a ser predicho es una etiqueta. La
regresión es otra forma de predicción, pero numérica, donde se desea predecir un valor,
habitualmente en forma de probabilidad [0 − 1].

La regresión lineal es otra de las técnicas de minería de datos más utilizadas en un sector
que no para de crecer debido a la transformación digital. En ella, se relacionan dos variables
continuas, concretamente, las variables de predicción y de respuesta.

Hablamos de regresión lineal cuando existe solo una variable de predicción y de regresión
múltiple cuando hay más de una. Sea lineal o múltiple, es una variable independiente
mientras que la de respuesta depende de la anterior.

Supervisor de fábrica: ¿Cuántas fallas para modelo X se esperan cada mes?


Tareas predictivas
Análisis de Varianza y Covarianza
Contrasta si existen diferencias significativas entre las medidas de una o más variables
continuas en grupo de población distintos.

Series Temporales

La minería de datos de series de tiempo (MDST) ha evolucionado considerablemente en la


última década, proporcionando un marco de trabajo con diversos algoritmos. Estos algoritmos
adaptan e innova las técnicas de minería de datos para su aplicación en análisis de series de
tiempo.
Tareas predictivas
Métodos Bayesianos
Representan ciertas incertidumbres que están asociadas a nodos que
reproducen variables aleatorias, las cuales se asocian a su vez a un
condicionante externo. Para esto, existen los llamados “clasificadores
bayesianos”, que organizan cada variable y consiguen plasmar los
condicionantes de tal manera que sean muy sencillos de leer.
Son muy característicos en la medicina para diagnósticos graves. Se utilizan
las redes bayesianas para descartar enfermedades rápidamente.
Tareas predictivas
Algoritmos Geneticos
Son métodos numéricos de optimización, en los que aquella variable o
variables que se pretenden optimizar junto con las variables de estudio
constituyen un segmento de información. Aquellas configuraciones de las
variables de análisis que obtengan mejores valores para la variable de
respuesta, corresponderán a segmentos con mayor capacidad reproductiva. A
través de la reproducción, los mejores segmentos perduran y su proporción
crece de generación en generación. Se puede además introducir elementos
aleatorios para la modificación de las variables (mutaciones). Al cabo de cierto
número de iteraciones, la población estará constituida por buenas soluciones al
problema de optimización.
Tareas predictivas
Clasificación ad hoc
La clasificación es el proceso de encontrar un modelo que predice y distinga clases o conceptos de objetos. Los
modelos se crean basados en el análisis de un conjunto de datos de entrenamiento (objetos para los cuales las
etiquetas de clase son conocidas). Una vez creado el modelo, se utiliza para predecir la etiqueta de clase de objetos
para los cuales dicha información es desconocida.

Importante

El término predicción hace referencia tanto a la predicción numérica como a la predicción de la


etiqueta de clase.

Ag e n te bancario:¿Debo ofrecer un préstamo a un cliente?


Tareas predictivas
Análisis discriminante
El Análisis Discriminante (AD), introducido por Fisher (1936), es una técnica que se utiliza
para predecir la pertenencia a un grupo (variable dependiente) a partir de un conjunto de
predictores (variables independientes). El objetivo del AD es entender las diferencias de los
grupos y predecir la verosimilitud de que una persona o un objeto pertenezca a una clase o
grupo basándose en los valores que toma en los predictores. Ejemplos de análisis
discriminante son distinguir entre innovadores y no innovadores de acuerdo a sus perfiles
demográficos y sociales o el riesgo de impago de un préstamo a través de predictores
económicos y sociodemográficos.

Existen dos enfoques en la clasificación discriminante:

El basado en la obtención de funciones discriminantes de cálculo similar a las ecuaciones de


regresión lineal múltiple.
Empleando técnicas de correlación canónica y de componentes principales, denominado
análisis discriminante canónico.
Tareas predictivas
Árbol de Decisión
Se llama así porque tiene una estructura arborescente en la que encontramos dos tipos de nodos: los puntos de decisión y
los puntos de azar.

Los problemas y la secuencia de los árboles de decisión se plasman en estos árboles, donde un nodo es un punto de unión
conectado por ramas.

El árbol se crea de izquierda a derecha, pero se evalúa de forma inversa, simplemente porque a la izquierda se encuentra
la decisión y a la derecha los resultados.

Consta de 4 elementos:

Puntos de decisión: se representan con un cuadrado. Aquí el decisor elige una alternativa de acción entre un
número finito de ellas que son representadas por las ramas cuyos costes asociados se escriben sobre ellas. Las ramas
escogidas pueden acabar en otro punto de decisión, en uno de azar o en un resultado.
Puntos de azar: se dibujan con un círculo e indican que un suceso aleatorio se espera en este punto del proceso.
Desde aquí también surgen ramas.
Ramas: en el argot del big data se definen como alternativas cuando salen de los puntos de decisión y como estados
de la naturaleza cuando salen de los puntos de azar. En este último caso, se les asigna unas probabilidades
determinadas.
Resultado: al final tenemos que decidir qué decisión tomar en función del resultado obtenido proveniente de cada
rama.
Tareas predictivas
Redes Neuronales
Esta técnica de data mining se basa en el funcionamiento de nuestras neuronas, pues el
cerebro humano tiene millones que se conectan entre sí en un proceso llamado “sinapsis”.
Gracias a ello, cada uno de nosotros es capaz de pensar.

Esta red neuronal artificial se parece tanto a una biológica que cuenta con nodos de entrada
(reciben información del exterior), nodos de salida (transmiten información al exterior) y
nodos ocultos (intercambian información con otros nodos de la red).

Cuando estos nodos están definidos se pasa a la fase de aprendizaje donde se asignan
diferentes valores a estos nodos hasta encontrar respuestas, pues es la propia red la que los
crea, modifica o elimina automáticamente.

La principal ventaja de esta técnica de data mining es su capacidad para trabajar con datos
incompletos.
Tareas descriptiva
Clasificación post hoc
La clasificación es el proceso de encontrar un modelo que describa y distinga clases o conceptos de objetos. Los
modelos se crean basados en el análisis de un conjunto de datos de entrenamiento (objetos para los cuales las
etiquetas de clase son conocidas). Una vez creado el modelo, se utiliza para predecir la etiqueta de clase de objetos
para los cuales dicha información es desconocida.

Importante

El término predicción hace referencia tanto a la predicción numérica como a la predicción de la


etiqueta de clase.
Tareas descriptiva
Clustering
El clustering o agrupamiento en minería de datos tiene como objetivo la segmentación de
elementos que presentan alguna característica definitoria en común. En este caso, el algoritmo
atiende a condiciones de cercanía o similitud para hacer su trabajo.

Esta técnica de data mining está muy extendida en el mundo del marketing para el envío de
correos y promociones personalizadas a los usuarios que integran una base de datos.

Importante

El término predicción hace referencia tanto a la predicción numérica como a la


predicción de la etiqueta de clase.
Tareas descriptiva
Segmentación
Las herramientas de segmentación se basan en técnicas de carácter
estadístico, de empleo de algoritmos matemáticos, de generación de
reglas y de redes neuronales para el tratamiento de registros. Para
otro tipo de elementos a agrupar o segmentar, como texto y
documentos, se usan técnicas de reconocimiento de conceptos. Esta
técnica suele servir de punto de partida para después hacer un
análisis de clasificación sobre los clusters.
Tareas descriptiva
Asociación
Correlación y Asociaciones (análisis exploratorio o link analysis):

Coeficiente de correlación:

donde

Asociaciones (cuando los atributos son discretos).

Ejemplo: tabaquismo y alcoholismo están asociados.

Dependencias funcionales: asociación unidireccional.

Ejemplo: el nivel de riesgo de enfermedades cardiovasculares depende del tabaquismo y


alcoholismo (entre otras cosas).
Tareas descriptiva
Reducción de la dimensión
Las principales técnicas de reducción de la dimensión tienen por objetivo final condensar la
información de un conjunto de variables en un nuevo conjunto de variables (de menor número
que el anterior), con el menor coste de información posible.

Técnicas de reducción de la dimensión

Análisis por componentes principales

Análisis factorial

Análisis multidimensional

Análisis de correspondencias
Tareas descriptiva
Análisis Exploratorio
El análisis exploratorio de datos (Exploratory Data Analysis, EDA) o estadística
descriptiva es un paso previo e imprescindible a la hora de comprender los datos
con los que se va a trabajar y altamente recomendable para una correcta
metodología de investigación.

El objetivo de este análisis es explorar, describir, resumir y visualizar la


naturaleza de los datos recogidos en las variables aleatorias del proyecto o
investigación de interés, mediante la aplicación de técnicas simples de resumen
de datos y métodos gráficos sin asumir asunciones para su interpretación.
Tareas descriptiva
Escalamiento Multidimensional
Las técnicas de análisis multidimensional o escalado multidimensional, son una generalización de las
componentes principales para los casos en que, en lugar de disponer de una matriz de observaciones, se
dispone de una matriz de distancias; por tanto, es un análisis complementario a las componentes
principales.

El análisis multidimensional permite al investigador determinar las dimensiones subyacentes claves en las
evaluaciones de los objetos de estudio. Este tipo de análisis, también conocido como elaboración de mapas
perceptuales, permite al investigador determinar la imagen percibida relativa de un conjunto de objetos, por
medio de la transformación de las opiniones de los individuos en distancias representadas en un espacio
multidimensional, por tanto, este análisis se basa en las comparaciones entre objetos, suponiendo que cada
tipo de objeto posee dimensiones objetivas y subjetivas.

Debe quedar claro, no obstante, que la interpretación de las dimensiones muchas veces se convierte más
en un arte que en una ciencia; por ello, se recomienda prudencia por parte de los investigadores a la hora
de realizar la interpretación de los mismos.
El proceso KDD
Introducción KDD

Definición

KDD (Knowledge Discovery in Databases) o descubrimiento de


conocimiento en bases de datos, es un proceso novedoso y no trivial
de identificación de patrones de los datos para la obtención de
nuevo conocimiento.
El KDD (Knowledge Discovery from Databases) es el proceso no trivial de
identificar patrones válidos, novedosos, potencialmente útiles y en última
instancia, comprensibles a partir de los datos. (Fayyad)
El objetivo fundamental del KDD (Knowledge Discovery from Databases),
es encontrar conocimiento útil, válido, relevante y nuevo sobre una
determinada actividad mediante algoritmos, dadas las crecientes órdenes
de magnitud en los datos

64
Etapas del proceso KDD
Interpretación /
Evaluación
Conocimiento

Patrones

Minería de datos

Datos transformados

Transformación

Datos procesados

Preprocesamiento
Limpieza

Datos objetivo

Selección

Dominio del
problema
Etapas del proceso KDD
La mayor parte del proceso de KDD es iterativo e
interactivo.

• Iterativo. Al terminar una etapa se puede avanzar a una etapa


siguiente o regresar a una fase anterior para realizarla con mayor
precisión.

• Interactivo. Necesidad de que el usuario apoye cada una de las fases


de forma pro-activa.
Etapas del proceso KDD
Dominio del problema

Es un paso preliminar que desarrolla una comprensión del problema que se


enfrenta. Establece las preguntas para entender lo que debería hacerse con los
datos, y delimita claramente los objetivos del proceso a realizar.

También realiza la integración y recopilación de datos reconociendo las fuentes


de información más importantes con las se trabajará en el futuro.

▷La salida de esta etapa es el dominio del problema y los datos en “crudo”.
Etapas del proceso KDD

1 Selección de Datos

Incluye la selección, extracción o muestreo de un


subconjunto de variables desde diversas fuentes y, a partir
de las cuales el descubrimiento de conocimiento debe ser
realizado.

▷La salida de esta etapa es un conjunto de datos objetivo.


Selección de datos. Consiste en buscar el objetivo y las herramientas del
proceso de minería, identificando los datos que han ser extraídos,
buscando los atributos apropiados de entrada y la información de salida
para representar la tarea.
Esto quiere decir, primero se debe tener en cuenta lo que se saber lo que
se quiere obtener y cuáles son los datos que nos facilitarán esa
información para poder llegar a nuestra meta, antes de comenzar el
proceso en tal.

69
Etapas del proceso KDD

Limpieza de datos

Consiste eliminar imperfecciones propias de las fuentes originales de datos y, su objetivo es


mejorar la fiabilidad de los datos.

También involucra tareas de enriquecimiento y el análisis exploratorio de datos (EDA:


Exploratory data analysis) que incluye métodos estadísticos para explorar la distribución
e identificar características de los datos.

▷La salida de esta etapa es un conjunto de datos procesado.


Limpieza de datos. En este paso se limpian los datos sucios,
incluyendo los datos incompletos (donde hay atributos o valores de
atributos perdidos), el ruido (valores incorrectos o inesperados) y
datos inconsistentes (conteniendo valores y atributos con nombres
diferentes).

Los datos sucios en algunos casos deben ser eliminados ya que


pueden contribuir a un análisis inexacto y resultados incorrectos.

71
Etapas del proceso KDD

3 Transformación

Se mejoran los datos procesados, con el fin de encontrar características útiles


para representar los datos, dependiendo de la meta del proceso.

Los métodos que se incluyen son: la reducción de dimensión (como


extracción de características y muestreo de registros) y transformación de
atributos (como la discretización de atributos numéricos).

▷La salida de esta etapa es un conjunto de datos transformado.


Integración de datos. Combina datos de múltiples procedencias
incluyendo múltiples bases de datos, que podrían tener diferentes
contenidos y formatos.

Transformación de datos. Consisten en modificaciones sintácticas


llevadas a cabo sobre datos sin que supongan un cambio para la técnica
de minería aplicada. Las transformaciones discretas de los datos tienen la
ventaja de que mejoran la comprensión de las reglas descubiertas al
transformar los datos de bajo nivel en datos de alto y también reduce el
tiempo de ejecución del algoritmo de búsqueda.

73
Etapas del proceso KDD
4 Minería de datos

El objetivo de la etapa es la búsqueda y descubrimiento de patrones


insospechados y de interés.

a)Elección de la tarea de minería de datos

Tareas como clasificación, agrupamiento (clustering), patrones secuenciales y


asociaciones u otras.

b)Selección e implementación del algoritmo

Método/algoritmo para ser utilizado en la búsqueda de patrones en los datos.


Cada algoritmo tiene parámetros y características que, suelen ser exitosas o no
dependiendo del tipo de datos (categóricos, numéricos) a utilizar.
▷La salida de esta etapa son los patrones reconocidos por los algoritmos.
Etapas del proceso KDD
5 Interpretación/Evaluación

Se interpretan los patrones descubiertos y posiblemente se retorna a


las anteriores etapas para posteriores iteraciones.
Se puede incluir la visualización de los patrones extraídos, que
sean entendibles para el usuario.

▷La salida de esta etapa es el conocimiento descubierto en los


datos.
Minería de Datos. Consiste en la búsqueda de los patrones de interés
que pueden Expresarse como un modelo o simplemente que expresen
dependencia de los datos.

Se tiene que especificar un criterio de preferencia para seleccionar un


modelo de un conjunto de posibles modelos. También se tiene que
especificar la estrategia de búsqueda a utilizar (normalmente está
determinado en el algoritmo de minería).

76
Evaluación de los patrones. Se identifican verdaderamente patrones
interesantes que representan conocimiento usando diferentes técnicas
incluyendo análisis estadísticos y lenguajes de consultas.

Interpretación de resultados. Consiste en entender los resultados del


análisis y sus implicaciones y puede llevar a regresar a algunos de los
pasos anteriores

77
Síntesis de la clase
Interpretación /
Tareas predictivas Evaluación
- Regresión Conocimiento
- Clasificación

Tareas descriptivas Patrones


- Reglas de asociación
- Agrupamiento Minería de datos

Datos transform ados M e t a co n o c i m i e n to


( Sa b i d urí a)

Transformación Conocimiento

Información
Datos procesados

D a tos
Limpieza
Binarios

Datos objetivo Nominales

Cualitativos
Atributos o características No -binarios

Binarios
edad estudiante rating_credito clase
Selección O rdinales
adulto no bueno si
No -binarios
joven no bueno no
adulto si bueno si
Instancias

Tupla
joven si excelente si
anciano no no excelente si Discre tos

Cuantitativos
adulto excelente no
Dominio del
Conjunto d e datos
problema Continuos
Síntesis de la clase
Etapas de KDD
Interpretación/
Evaluación

Minería de Datos

Transformación

Preprocesamiento

Selección Conocimiento
Patrones

Datos Datos
Datos procesados transformados
Datos
objetivos
Representación de
Expertos
Reglas, patrones, …

APLICACIÓN ANÁLISIS
Toma de Visualización
Decisiones CONOCIMIENTO

Datos PREPARACIÓN DE DATOS MINERÍA


Algoritmo de
M ODELO
Minería
OBJETIVOS

Selección
Editado
Filtros Validación

Bases de Regresión
datos temporales Clasificación
Selección de atributos
Clustering

81
Data Warehouse

Suponga que una organización desea


información concisa y confiable de las
operaciones, tendencias y cambios a lo
largo de toda la compañía.

Generalmente la información está


Difícil separada en diferentes sistemas.
debido a:
Las bases de datos guardan sólo el
estado actual de la información

Las operaciones y el día a día están


soportados por las bases de datos
convencionales
Qué es un Data Warehouse?

“Es una base de datos que almacena


y gestiona datos actuales e históricos
de potencial interés para la toma de
decisiones”

En un DW se consolida y estandariza
información de diferentes bases de
datos operacionales, para que pueda
ser utilizada por toda la empresa para
la toma de decisiones
Qué es un Data Warehouse?

• Un DW hace accesible la
información a quien la necesite,
pero estos no pueden alterarla.

• Un DW permite un amplio rango de


consultas ad hoc → a través de
herramientas analíticas, standardized
query tools y facilidades para reportes
gráficos y visuales
Qué es un Data Warehouse? Fecha de nacimiento
Edad
Qué es un Data Marts?

Las empresas pueden construir bodegas


de datos corporativas que sirven a toda la
organización. O pueden adicionalmente
construir “bodegas más pequeñas”
llamadas Data Marts

Un Data Marts es un subconjunto


de un DW enfocado o
especializado en un área de
negocio:
• Ventas → POS, Online
• Producción
• Abastecimiento
“Herramientas” para Inteligencia de Negocios

Análisis
Multidimensional Data Mining
OLAP
Online Analytical Processing (OLAP)

Suponga que su compañía vende diferentes


productos → Tuercas, Pernos, Arandelas y
Tornillos

Los vende en diferentes regiones →


Oriental, Occidental y Central

Cuantos tornillos se vendieron en


el último trimestre? Consulta en base de
datos Operacional

Cuantos tornillos se vendieron


por región y cuál es la relación
con los pronósticos de ventas?
OLAP
Online Analytical Processing (OLAP)

OLAP soporta análisis multidimensional de


datos, permitiendo a los usuarios ver la
misma información desde diferentes
perspectivas

En nuestra compañía, el producto, el


precio, el costo, la región y el periodo
de tiempo, representan dimensiones
diferentes.

Permite consultas Ad-Hoc en tiempos


muy cortos
Data Mining

La minería de datos proporciona


información detallada sobre los datos
corporativos que no pueden ser obtenidos
con OLAP

La minería de datos encuentra patrones y


relaciones ocultos de los datos en grandes
bodegas de datos. Adicionalmente, infiere
reglas que pueden predecir comportamiento
futuro
Data Mining

Los tipos de información que se puede obtener


de la minería de datos son: Asociaciones,
Secuencialidad, Clasificaciones, Clustering y
pronósticos
Asociaciones: Ocurrencias relacionadas a un
mismo evento.

65 % de las veces

85 % de las veces si hay


promoción
Data Mining

Secuencialidad: Eventos relacionados en el


tiempo

Con la compra de una casa,


65% de las veces se compra una
nueva nevera dentro de las
siguientes 2 semanas

Y 45% de las veces se compra


un nuevo horno dentro del
siguiente mes
Data Mining

Clasificación: Reconoce patrones que


describen el grupo al cual pertenece un
individuo → a través del análisis de los
individuos ya clasificados e infiriendo reglas

A través de la clasificación se pueden


encontrar aquellos clientes rentables
que son propensos a salir de la
compañía

Información útil para la toma de


decisiones
Data Mining

Clustering: Trabaja de manera similar a la


clasificación, pero aquí los grupos y sus
características no están definidos.

A través de clustering los bancos


pueden segmentar sus clientes basados
en ingresos tipos de inversión y factores
demográficos
Data Mining

Pronósticos: Parte de la información actual


encontrando patrones y prediciendo
comportamiento.

Planeación de ventas
Pañales y cervezas:
• Finales de los 90 en Walmart.
•Desarrollo de proyecto de minería de datos sobre su
Un último ejemplo bodega de datos.

Resultados iniciales no muy alentadores:


• Quien compra crema dental también compra cepillos
de dientes
• Quien compra Whisky DyC también compra Coca
cola

Resultados interesantes
•Correlación entre quien compra pañales y cervezas
• Varones entre 25 y 35 años compraban estos productos conjuntamente los
viernes por la tarde.

¿Como explicarlo? → las madres mandaban a los papás a comprar los pañales y
de paso como es viernes pues aprovechan y compran las cervezas. Los pañales
son un producto voluminoso.

¿Qué hacer con esa información? → 10% y 15% de aumento ventas


Escenario actual
Contamos con un conjunto de tecnologías avanzadas
que nos permiten integrar y analizar información de
bancos de datos.
Para obtener:
sus tendencias,
para segmentar la información o
para encontrar la correlación en los datos.
Con el objeto de generar acciones con valor agregado
para el negocio.

97
Expectativas
Necesitamos:
la integración de herramientas avanzadas con
los datos,
procesos de generación de conocimiento y
la segmentación de la información
para obtener tendencias e información oculta.

98
¿La solución?

Todo esto se hace para lograr lo que denominamos:

Business Intelligence

99
Inteligencia de los Negocios o
Business Intelligence
Es un conjunto sofisticado de Herramientas y Tecnológicas; que
brindan soporte a todas las fases del proceso de toma de
decisiones de los ejecutivos; con el objeto de mejorar las ventajas
competitivas de la organización, a través de mejores decisiones y
que son utilizadas por los llamados Trabajadores del
Conocimiento.
Howard Dresner (“The Gartner Group”)

Aplicaciones de computación que interpretan datos históricos,


analizan tendencias y miden performance y que están orientadas
a servir de soporte a los procesos de toma de decisiones.
Inteligencia de los Negocios o
Business Intelligence
Requerimientos, capacidades y herramientas especiales
para…
✓ …analizar extensas cantidades de datos.
✓ …acceder a datos desde múltiples sistemas.

Objetivos que incluyan…


✓ …almacenamiento de datos.
✓ …minería de datos.
✓ …análisis predictivo.

101
Inteligencia de los Negocios o
Business Intelligence
Herramientas OLAP

Data Warehouse

BD Corporativa

Sistemas OLTP

102
Almacén de Datos – Data Warehouse

“El Data Warehouse es una colección de datos


orientados al tema, integrados, no volátiles e
historiados, organizados para el apoyo de un proceso de
ayuda a la decisión”.
Using the Data Warehouse of Bill Inmon

103
Mercado de Datos – Data Mart

✓ Subconjunto del Almacén de Datos, resumido o altamente enfocado.


✓ Para una población específica de usuarios.
✓ Se enfoca en un área objetivo o línea del negocio.
✓ Menor costo de implementación que un almacén de datos.

104
OLAP (On-Line Analytical Processing)
Análisis multidimensional.
Agiliza la consulta de grandes cantidades de datos.

Tiempo Año, Meses, Semanas, Días,...

Producto Rubro, Artículo, Calidad,...

Geográfica Zona, Sucursales,...

105
Inteligencia de los Negocios o
Business Intelligence
Quién necesita soluciones de Business
Intelligence?
Si usted puede contestar afirmativamente por lo menos a una de las siguientes
preguntas, entonces usted es candidato a beneficiarse de las soluciones de BI.

1. ¿Pasa más tiempo recolectando y preparando información que


analizándola?
2. ¿En ocasiones le frustra el no poder encontrar información que usted está
seguro que existe dentro de la empresa?
3. ¿Pasa mucho tiempo tratando de hacer que los reportes en Excel luzcan
bien?
4. ¿Quisiera tener una guía sobre las cosas que han sucedido cuando los
administradores anteriores implementaban determinada estrategia?
5. ¿No sabe qué hacer con tanta información que tiene disponible en la
empresa?
Quién necesita soluciones de Business
Intelligence?
6. ¿Quiere saber qué productos fueron los más rentables durante un periodo
determinado?
7. ¿No sabe cuáles son los patrones de compra de sus clientes dependiendo
de las zonas?
8. ¿Ha perdido oportunidades de negocio por recibir información retrasada?
9. ¿Trabaja horas extras el fin de mes para procesar documentos o reportes?
10. ¿No sabe con certeza si su gente está alcanzando los objetivos planeados?
11. ¿No sabe si mantiene una comunicación estrecha entre las diversas áreas
de su empresa hacia una estrategia común?
12. ¿No tiene idea de por qué sus clientes le regresan mercancía?
Inteligencia de los Negocios o
Business Intelligence
La aparición de los conceptos de Data Warehouse / Data Mart, Executive
Information Systems (EIS), herramientas OLAP, modelización multidimensional
y los sistemas de exploración inteligentes o Data Mining, están provocando una
profunda revolución en las Organizaciones modernas.
Todos ellos:
✓ Configuran los procesos necesarios para desarrollarse en un
mundo globalizado complejo y altamente competitivo.
✓ Conforman los elementos claves que se necesitan para conocer y
desarrollar el negocio, proporcionando “conocimiento” sobre él, sus
clientes y proveedores.
✓ Es la aplicación de tecnologías especializadas para obtener la información
apropiada, en el momento apropiado para la persona apropiada para el
soporte de sus procesos de toma de decisiones.
Herramientas de soporte: Data Mining
✓ La relevancia de estas tecnologías está íntimamente asociada con la forma
en que los decisores convierten los datos en información y la información
en conocimiento.
✓ Sobre estas bases se asienta el data mining, cuyos algoritmos y técnicas
principales bosquejaremos e ilustraremos con ejemplos de aplicación.
✓ Cerraremos el trabajo con algunas reflexiones personales sobre la
importancia de estas tecnologías para el crecimiento de la gente, sus
organizaciones y sus países.
Data Mining

El data mining es un conjunto de actividades utilizadas para


encontrar en los datos contextos nuevos, ocultos o inesperados.

Utilizando información contenida en un data warehouse (o


“depósito de datos”), el data mining puede responder a
preguntas que un decisor no hubiera formulado de no contar con
estas herramientas
Data Mining

Cada vez más se utiliza como sinónimo de data mining el término


Knowledge Data Discovery (KDD)

Usando una combinación de técnicas que incluyen el análisis


estadístico, la lógica neuronal, la lógica difusa, el análisis
multidimensional, la visualización de datos y los agentes
inteligentes, el KDD puede descubrir patrones útiles para
desarrollar modelos predictivos de conductas o de consecuencias,
en una amplia variedad de dominios del conocimiento
Datos, información y conocimiento

Datos: son hechos, medidas u observaciones, que pueden presentarse (o no) en un contexto dado. Datos sin
contexto son 60, 62, 66, 72. Los mismos datos, ahora con contexto, podrían representar el peso en kilogramos de
Laura, Ana, Juan y Pedro, respectivamente. La validez y la efectividad de los datos vienen determinadas
principalmente por su exactitud.
Información: Son los datos organizados de cierta manera, de forma tal que sean de utilidad y relevancia para
quien tiene que resolver un problema de decisión. El criterio clave para evaluar la información es su utilidad.
Conocimiento: Es una combinación de instintos, ideas, reglas, procesos e información que un decisor aplica para
guiar sus acciones y decisiones. El conocimiento es una interpretación realizada por la mente, que será válida
cuando pueda explicar las interacciones de un problema con su contexto
Los pasos para seguir un proyecto de
Minería de Datos / Data Mining
Los pasos para seguir un proyecto de Minería de Datos
/ Data Mining
1. Comprensión del negocio y del problema que se quiere resolver.
2. Filtrado de datos
3. Selección de variables
4. Realizar la limpieza de los datos
5. Seleccionar los métodos para la selección de los atributos
6. Extracción de Conocimiento, se obtiene un modelo de conocimiento, que representa
patrones de comportamiento observados en los valores de las variables del problema o
relaciones de asociación entre dichas variables.
7. Interpretación y Evaluación, se procede a su validación; donde se comprueba que las
conclusiones que arroja son válidas y suficientemente satisfactorias.
Minería de Datos / Data Mining
Ejemplo de aplicación
Supongamos que el 70% de las personas que compran el producto X usando una
tarjeta de crédito también compran el producto Y, y que el producto Y nunca se
vende independientemente. Resulta entonces relativamente fácil construir un
modelo que ayude a predecir la compra del producto Y con una ocurrencia del
70%. Por supuesto, será de mucho mayor interés poder predecir las compras del
producto X.

Para ello el data mining necesita de técnicas estadísticas capaces de manejar


datos no lineales, múltiples outliers (datos inusualmente alejados del promedio)
y datos no numéricos, como los que se encuentran en un ambiente de data
warehouse.
Las técnicas de regresión lineal, de gran difusión en múltiples aplicaciones,
muchas veces no se pueden utilizar en la data mining por la complejidad de los
patrones de los datos y su falta de linealidad.
El Futuro de Business Intelligence

Las siguientes son opiniones de ejecutivos de empresas

✓ En aproximadamente cinco años, veremos un incremento dramático del


40% en el número de usuarios finales que utilicen herramientas de BI… --
Frank Gelbart, CEO, Appfluent Technology Inc., Arlington, VA

✓ En pocos años, las ventajas competitivas vendrán del uso de BI para


entender el comportamiento y preferencias del consumidor a un nivel de
segmentación angosto, incluso individual para hacer ofertas a la medida… --
Jeff Zabian, Vice President, Seurat Co., Boulder, CO
El Futuro de Business Intelligence
✓ Dentro de dos o tres años, las compañías abandonarán el método
tradicional de hacer negocios con ajustes trimestrales. En vez de eso,
utilizarán la BI y desarrollarán herramientas administrativas como
estrategia para responder a cambios en tiempo real en el mercado. Rob
Ashe, President & Chief Operating Officer, Cognos Inc., Burlington, MA
✓ Los usuarios demandarán mayor integración entre los números y su
interpretación. Así mismo, todas las aplicaciones de BI incluirán
herramientas de administración de contenido o bien administración de
conocimiento. -Brian Hartlen, Senior Vice President, Comshare Inc.,Ann
Arbor, MI
✓ La información de BI permite a una compañía crecer y explotar futuras
oportunidades y al mismo tiempo, es el blanco para espionaje corporativo,
crimen y terrorismo computacional… - Ryon Packer, Vice President,
Intrusión, Inc., Richardson, TX
…Para tomar decisiones
OLTP Data Mart BI

Transacciones Conocimientos Decisión

120

También podría gustarte