Data mining
para big data
Certificado en Big Data
Introducción Explicación
Las empresas registran diversos datos Cómo se agrega valor en las
respecto a su operación, por ejemplo, organizaciones con la minería de
ventas y clientes, lo cual guardan en un datos
almacenamiento histórico, mismo que
gracias a la minería de datos (data mining) La minería de datos consiste en extraer
se puede analizar para generar patrones e identificar relaciones para
información que mejore la toma hacer predicciones en un conjunto de
decisiones dirigida a favorecer los retornos datos determinado, por lo tanto, este
de inversión y la relación con sus clientes. proceso implica un almacenamiento
Asimismo, se pueden crear diferentes intensivo de datos, haciendo uso de
modelos predictivos mediante la minería tecnologías computacionales tales como
de datos, por ejemplo, modelos para aprendizaje automático, aprendizaje
distintas zonas geográficas y modelos o profundo y cómputo en la nube.
tipos de clientes para identificar clientes o
productos más rentables en un periodo
determinado (por hora, día, semana, mes,
etc.). Por consiguiente, el número de Se puede definir a la minería de datos
modelos para generar beneficios en las como el “proceso de hallar anomalías,
organizaciones está creciendo patrones y correlaciones en grandes
aceleradamente. conjuntos de datos para predecir
resultados. Empleando una amplia
variedad de técnicas, puede utilizarse
Para conocer más sobre su relevancia,
revisa el siguiente video:
esta información para incrementar
sus ingresos, recortar costos, mejorar
Los siguientes enlaces son externos a la Universidad
sus relaciones con clientes, reducir
Tecmilenio, al acceder a estos considera que debes riesgos y más” (SAS, s.f.).
apegarte a sus términos y condiciones.
SciShow . (2018, 12 de junio). Data
Mining: How You're Revealing More
Than You Think [Archivo de video]. Existe un gran campo de aplicación, pero
Recuperado de solo mencionaremos algunos ejemplos de
https://www.youtube.com/watch?v=E su utilización (Analítica negocios, 2019):
H3bp5335IU
Antes de comenzar el tema plantéate las
siguientes preguntas de reflexión, las
cuales podrás responder al final del
tema:
• ¿Cómo crees que se agrega valor a una
empresa con la minería de datos?
• ¿Cómo se hace un proyecto de minería
de datos?
• ¿Qué herramientas tecnológicas se
utilizan para desarrollar proyectos de
minería de datos?
Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO). 1
Certificado en Big Data
El objetivo principal de la minería de datos Cómo se hace un proyecto de minería
es el descubrimiento de información que de datos
mejore la toma de decisiones.
De forma general, un proyecto de minería
Asimismo, podemos mencionar algunas de datos inicia con la conversión de una
ventajas y desventajas de la minería de pregunta de negocio en una hipótesis de
datos (Itelligent, 2016): análisis del proyecto, para lo cual se
consiguen datos que se preparan y
• Permite descubrir información exploran para crear modelos de análisis y
que no se esperaba encontrar, de predicción, ver siguiente figura.
generando un valor añadido
para las organizaciones.
• Analiza bases de datos de gran
tamaño.
• Obtiene resultados que pueden
ser comprendidos de manera
sencilla.
• Ayuda en la toma de decisiones
estratégicas en una
organización.
• Logra ofrecer (la organización) Figura Ciclo de vida de data science.
los productos y servicios que Fuente: Davis, D. (2015). The Data Science Process. Recuperado de
https://datascienceexploration.com/2015/12/21/the-data-science-process/ Solo
necesitan sus clientes. para fines educativos.
• Genera modelos de forma
rápida. De acuerdo con Aggarwal (2018) en un
proyecto de minería de datos se realiza lo
siguiente:
1. Se selecciona un conjunto de datos.
2. Se definen variables objetivo o
• Existen dificultades en la
dependientes (las que se requieren
recopilación de los datos.
predecir) y se identifican las variables
• Ocasionalmente requiere de
independientes, las cuales sirven para
una gran inversión en las
hacer dicha predicción.
tecnologías para llevarlo a cabo.
3. Se analizan las propiedades de los
• Carece de un sistema de
datos.
seguridad adecuado para la
4. Se transforman los datos de entrada
información.
con el objetivo de prepararlos para
aplicar un modelo de análisis. A este
paso también se le conoce como
preprocesamiento de los datos.
5. Se construyen los modelos necesarios
(predictivo, clasificación o
segmentación).
Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO). 2
Certificado en Big Data
6. Se realiza un análisis para determinar el • Etapa 4. Creación de modelos
mejor modelo a utilizar. Si se obtienen Se eligen y utilizan las técnicas de
varios modelos a través de diversas modelado adecuadas al problema,
técnicas se deben examinar para calibrando sus parámetros a valores
localizar el que mejor se ajusta al óptimos.
problema. • Etapa 5. Evaluación de modelos
7. Si con los modelos propuestos no se Antes de la implementación del modelo
obtienen los resultados deseados, es se debe evaluar a detalle y revisar los
necesario regresar a pasos anteriores pasos para llevarlo a cabo, haciendo una
para generar nuevos modelos. comparación con los objetivos de
8. Cuando el resultado tiene márgenes de negocio.
error aceptables, entonces se continúa • Etapa 6. Implementación
a la etapa de explotación. Se define el Se lleva a cabo la puesta en marcha del
proceso y las herramientas de software modelo.
necesarios para poner en operación ese
modelo en la operación de la empresa,
incorporándolos en los sistemas de
análisis de información de las
organizaciones o hasta en los sistemas
transaccionales (ERP).
A esta secuencia de pasos se le conoce
como la metodología CRISP-DM (Cross
Industry Process for Data Mining) y es un
estándar para desarrollar proyectos de
minería de datos, el cual consiste en las
siguientes etapas (Villena, 2016):
• Etapa 1. Entendimiento del negocio
Tiene como énfasis comprender los
objetivos del proyecto, así como
elaborar un plan para alcanzarlos
mediante la definición de un problema
de minería de datos.
• Etapa 2. Entendimiento de los datos
Esta etapa empieza con la recolección Figura Metodología CRISP DM.
Fuente: IBM Knowlegde Center. (s.f.). Conceptos básicos de ayuda de CRISP-
de datos inicial y las actividades para DM . Recuperado de
https://www.ibm.com/support/knowledgecenter/es/SS3RA7_sub/modeler_cris
logra un mejor entendimiento de los pdm_ddita/clementine/crisp_help/crisp_overview.html Solo para fines
mismos. educativos.
• Etapa 3. Preparación de datos
Abarca las actividades que permiten
transformar los datos en bruto de inicio
para edificar el conjunto final de los
mismos. Incluye tareas como
seleccionar registros, limpiar y
transformar datos.
Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO). 3
Certificado en Big Data
Conclusión: • IBM Knowlegde Center. (s.f.). Conceptos
básicos de ayuda de CRISP-DM.
Recuperado de
La minería de datos (data mining) https://www.ibm.com/support/knowled
pertenece a una rama existente dentro de gecenter/es/SS3RA7_sub/modeler_crisp
la ciencia de datos (data science), la cual dm_ddita/clementine/crisp_help/crisp_o
nos permite realizar la exploración y el verview.html
análisis de grandes volúmenes de datos • Itelligent. (2016). 10 ventajas de la
para descubrir patrones sobresalientes en minería de datos. Recuperado de
la información mediante una serie de https://itelligent.es/es/10-ventajas-la-
pasos conocidos como la metodología mineria-web/
CRISP DM. Su relevancia ha crecido debido • SAS. (s.f.). Minería de datos. Recuperado
a que cada año la cantidad de datos crece de
de manera exponencial. https://www.sas.com/es_mx/insights/an
alytics/data-mining.html
Asimismo, su espectro de aplicación es • SciShow . (2018, 12 de junio). Data
amplio, ya que abarca desde sistemas de Mining: How You're Revealing More
recomendación (por ejemplo, Netflix), Than You Think [Archivo de video].
pasando por la detección y prevención de Recuperado de
fraudes bancarios, hasta en atención https://www.youtube.com/watch?v=EH3
sanitaria, permitiendo prevenir la aparición bp5335IU
de enfermedades en función de la • Villena, J. (2016). CRISP-DM: La
información de cada paciente. metodología para poner orden en los
proyectos. Recuperado de
https://www.sngular.com/es/data-
science-crisp-dm-metodologia/
Referencias bibliográficas:
• Aggarwal, M. (2018). Cross-Industry
process for data mining. Recuperado de
https://medium.com/@thecodingcookie
/cross-industry-process-for-data-
mining-286c407132d0
• Analítica negocios. (2019). Ejemplos de
minería de datos aplicada. Recuperado
de
https://www.analiticanegocios.com/guia
s/ejemplos-mineria-datos-aplicada/
• Davis, D. (2015). The Data Science
Process. Recuperado de
https://datascienceexploration.com/2015
/12/21/the-data-science-process/
Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO). 4
Certificado en Big Data
La obra presentada es propiedad de ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD
TECMILENIO), protegida por la Ley Federal de Derecho de Autor; la alteración o deformación de una obra, así
como su reproducción, exhibición o ejecución pública sin el consentimiento de su autor y titular de los derechos
correspondientes es constitutivo de un delito tipificado en la Ley Federal de Derechos de Autor, así como en las
Leyes Internacionales de Derecho de Autor.
El uso de imágenes, fragmentos de videos, fragmentos de eventos culturales, programas y demás material que
sea objeto de protección de los derechos de autor, es exclusivamente para fines educativos e informativos, y
cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por
UNIVERSIDAD TECMILENIO.
Queda prohibido copiar, reproducir, distribuir, publicar, transmitir, difundir, o en cualquier modo explotar
cualquier parte de esta obra sin la autorización previa por escrito de UNIVERSIDAD TECMILENIO. Sin embargo,
usted podrá bajar material a su computadora personal para uso exclusivamente personal o educacional y no
comercial limitado a una copia por página. No se podrá remover o alterar de la copia ninguna leyenda de
Derechos de Autor o la que manifieste la autoría del material.
Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO). 5