0% encontró este documento útil (0 votos)
30 vistas10 páginas

Minería de Datos

Cargado por

240301019
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
30 vistas10 páginas

Minería de Datos

Cargado por

240301019
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Minería de Datos

Velasquez Jimenez Diana Alexandra

¿Qué es la minería de datos?


La minería de datos, también conocida como descubrimiento de conocimiento en datos
(KDD), es el proceso de descubrir patrones y otra información valiosa de grandes conjuntos
de datos. Dada la evolución de la tecnología de almacenamiento de datos y el crecimiento
de big data, la adopción de técnicas de minería de datos se ha acelerado rápidamente en
las últimas dos décadas, ayudando a las empresas a transformar sus datos sin procesar en
conocimiento útil. Sin embargo, a pesar del hecho de que la tecnología evoluciona
continuamente para manejar datos a gran escala, los líderes aún enfrentan desafíos con la
escalabilidad y la automatización.
Las técnicas de minería de datos que sustentan estos análisis se pueden dividir en dos
categorías principales: pueden describir el conjunto de datos de destino o pueden prever
los resultados mediante el uso de algoritmos de machine learning. Estos métodos se
utilizan para organizar y filtrar datos, y revelan la información más interesante, desde la
detección de fraudes hasta los comportamientos de los usuarios, los cuellos de botella e
incluso las brechas de seguridad.

¿Cuáles son los objetivos y aplicaciones generales de la minería de


datos?

Objetivos de la Minería de Datos


● Descubrimiento de Patrones: Identificar patrones ocultos y tendencias en los
datos.
● Predicción: Predecir futuros eventos basados en datos históricos.
● Clasificación: Categorizar datos en diferentes grupos.
● Segmentación: Dividir datos en segmentos para análisis más detallado.

Aplicaciones Generales
1

● Marketing: Análisis de comportamiento del cliente y segmentación de mercado.


● Finanzas: Detección de fraudes y análisis de riesgos.
● Salud: Diagnóstico de enfermedades y análisis de tratamientos.
● Logística y Cadena de Suministro: Optimización de rutas, gestión de inventarios y
predicción de demanda.

Etapas del proceso de Minería de Datos


Al utilizar las fases flexibles de CRISP-DM, los equipos de datos pueden pasar de una fase a
otra según sea necesario. Además, las tecnologías de software pueden realizar algunas de
estas tareas o apoyarlas.

1. Comprensión del negocio


El científico de datos o minero de datos comienza por identificar los objetivos y el alcance
del proyecto. Trabajan conjuntamente con las partes interesadas de la empresa para
identificar cierta información.
● Problemas que se deben abordar
● Restricciones o limitaciones del proyecto
● El impacto empresarial de las posibles soluciones

2. Comprensión de los datos


Una vez que comprenden el problema empresarial, los científicos de datos comienzan a
realizar un análisis preliminar de los datos. Recopilan conjuntos de datos de diversos
orígenes, obtienen los derechos de acceso y elaboran un informe de descripción de datos.
El informe incluye los tipos de datos, la cantidad y los requisitos de hardware y software
para el procesamiento de datos. En cuanto la empresa aprueba el plan, comienzan a
explorar y verificar los datos. Manejan los datos mediante técnicas estadísticas básicas,
evalúan la calidad de los datos y eligen un conjunto de datos final para la siguiente fase.

3. Preparación de los datos


Los mineros de datos dedican la mayor parte del tiempo a esta fase porque el software de
minería de datos requiere datos de alta calidad. Los procesos empresariales recopilan y
almacenan datos por razones distintas a la minería. Por ello, los mineros de datos deben
perfeccionarse antes de utilizarlos para el modelado. La preparación de los datos implica
los siguientes procesos.
● Limpiar los datos
● Integrar los datos
● Dar formato a los datos
2

4. Modelado de datos
Los mineros de datos introducen los datos preparados en el software de minería de datos
y estudian los resultados. Para ello, pueden elegir entre múltiples técnicas y herramientas
de minería de datos. Además, deben escribir pruebas para evaluar la calidad de los
resultados de la minería de datos. Para modelar los datos, los científicos de datos cuentan
con las siguientes opciones:
● Entrenar los modelos de machine learning (ML) a partir de conjuntos de datos más
pequeños con resultados conocidos
● Utilizar el modelo para analizar más a fondo conjuntos de datos desconocidos
● Ajustar y volver a configurar el software de minería de datos hasta que los
resultados sean satisfactorios

5. Evaluación
Una vez creados los modelos, los mineros de datos comienzan a medirlos con respecto a
los objetivos empresariales originales. Comparten los resultados con los analistas de
negocio y obtienen comentarios. Es posible que el modelo responda adecuadamente a la
pregunta original o que muestre patrones nuevos y desconocidos hasta el momento. Los
mineros de datos pueden modificar el modelo, ajustar el objetivo empresarial o volver a
revisar los datos, en función de los comentarios empresariales. La evaluación continua, los
comentarios y las modificaciones forman parte del proceso de descubrimiento de
conocimientos.

6. Implementación
Durante la implementación, otras partes interesadas utilizan el modelo de trabajo para
generar inteligencia empresarial. El científico de datos planifica el proceso de
implementación, que incluye instruir a otros sobre las funciones del modelo, realizar un
seguimiento continuo y mantener la aplicación de minería de datos. Los analistas
empresariales utilizan la aplicación para crear informes para la dirección, compartir los
resultados con los clientes y mejorar los procesos empresariales.

Técnicas comunes utilizadas en cada etapa descrita en el punto previo


1. Comprensión del Negocio
● Reuniones con Stakeholders: Se realizan entrevistas, talleres o sesiones de
brainstorming con las partes interesadas para entender los problemas, objetivos y
expectativas del proyecto. Técnicas como análisis de partes interesadas ayudan a
identificar quiénes son las personas clave y cuáles son sus intereses.
3

● Análisis de Problemas: Utilización de técnicas de análisis de causas raíz para


identificar la causa subyacente de los problemas empresariales. Diagramas de flujo
de procesos y mapas mentales pueden ser útiles para visualizar problemas y
soluciones.
● Evaluación de Impacto: Análisis de costo-beneficio y evaluación de impacto
empresarial para entender cómo las soluciones propuestas afectarán la
organización en términos de costos, beneficios y riesgos.

2. Comprensión de los Datos


● Recopilación de Datos: Extracción de datos de diferentes fuentes, como bases de
datos SQL, NoSQL, archivos CSV, APIs y sistemas externos. Técnicas de web scraping
también se utilizan para recolectar datos de sitios web.
● Análisis Exploratorio de Datos (EDA): Estadísticas descriptivas (media, mediana,
desviación estándar) para obtener una visión general de los datos. Visualización de
datos mediante gráficos de dispersión, histogramas y diagramas de caja para
identificar patrones y anomalías.
● Evaluación de Calidad de Datos: Auditoría de datos para verificar la integridad,
precisión y consistencia. Técnicas de detección de valores atípicos y análisis de
valores faltantes para evaluar la calidad de los datos.
● Documentación de Datos: Creación de un informe de descripción de datos que
documente los tipos de datos, la cantidad, la estructura y los requisitos técnicos
para el procesamiento.

3. Preparación de los Datos


● Limpieza de Datos
Eliminación de Duplicados: Identificación y eliminación de registros duplicados utilizando
técnicas como detección de duplicados basadas en coincidencias exactas o aproximadas.
Manejo de Valores Faltantes: Técnicas como imputación (sustitución de valores faltantes
con la media, mediana o moda) y eliminación de registros con valores faltantes.
Corrección de Errores: Validación de datos para corregir errores e inconsistencias,
utilizando reglas de validación y técnicas de normalización de datos.
● Integración de Datos
Fusión de Datos: Combinación de datos de diferentes fuentes usando técnicas como join
en SQL, merging en Pandas, o ETL (Extract, Transform, Load) en procesos de integración de
datos.
Resolución de Conflictos de Datos: Resolución de inconsistencias en datos provenientes de
distintas fuentes mediante técnicas de armonización.
● Transformación de Datos
4

Normalización y Escalado: Técnicas como min-max scaling y z-score normalization para


ajustar los datos a un rango o distribución estándar.
Transformación de Variables: Técnicas como codificación de variables categóricas (one-hot
encoding) y creación de nuevas variables (feature engineering) para preparar los datos
para el modelado.

4. Modelado de Datos
● Algoritmos de Machine Learning (ML):
Regresión Lineal y Logística: Modelos para predecir valores continuos (regresión lineal) o
clasificar datos (regresión logística).
Árboles de Decisión y Random Forests: Modelos de clasificación y regresión que usan
estructuras de árbol para tomar decisiones basadas en características.
Redes Neuronales: Modelos complejos que utilizan múltiples capas para aprender
representaciones de datos no lineales.
Máquinas de Soporte Vectorial (SVM): Algoritmos de clasificación que buscan el margen
óptimo para separar clases.
● Pruebas de Modelos:
División de Conjuntos de Datos: Uso de técnicas como entrenamiento/test split o validación
cruzada para evaluar el rendimiento del modelo en datos no vistos.
Métricas de Evaluación: Cálculo de métricas como precisión, recall, F1-score (para
clasificación) y error cuadrático medio (MSE) (para regresión).
● Optimización de Modelos:

Ajuste de Hiperparámetros: Uso de técnicas como búsqueda en cuadrícula (grid search) y


optimización bayesiana para encontrar la mejor configuración de hiperparámetros.
Validación Cruzada: Evaluación del modelo en múltiples particiones del conjunto de datos
para evitar el sobreajuste (overfitting) y garantizar la robustez.

5. Evaluación
● Métricas de Evaluación: Evaluación de Rendimiento: Uso de métricas de
clasificación como precisión, recall, F1-score y métricas de regresión como R² y MSE
para evaluar el rendimiento del modelo.
● Validación Cruzada: Aplicación de técnicas de k-fold cross-validation para validar la
capacidad del modelo para generalizar a nuevos datos.
5

● Análisis de Resultados: Interpretación de los resultados del modelo en el contexto


de los objetivos empresariales y ajuste basado en comentarios de las partes
interesadas.

6. Implementación
● Desarrollo de APIs:
Creación de Interfaces: Implementación de APIs RESTful o SOAP para integrar el modelo en
sistemas existentes y permitir su acceso a otras aplicaciones.
Capacitación: Formación de usuarios y partes interesadas sobre cómo usar el modelo y los
resultados generados. Documentación del usuario y sesiones de formación son comunes
en esta fase.
● Monitoreo y Mantenimiento:
Monitoreo del Rendimiento: Uso de herramientas para monitoreo en tiempo real y
evaluación continua del modelo para asegurarse de que sigue siendo efectivo.
Actualización de Modelos: Implementación de procesos para reentrenar y actualizar
modelos con nuevos datos para mantener su precisión y relevancia.

Herramientas y tecnologías más utilizadas en Minería de Datos


Herramientas de preparación y limpieza de Datos
● Excel: Para la manipulación y análisis básico de datos; útil para la limpieza de datos
inicial y análisis exploratorio.
● OpenRefine: Herramienta de código abierto para limpiar y transformar datos,
especialmente útil para la estandarización y la corrección de datos desordenados.
● Pandas (Python): Biblioteca para la manipulación y análisis de datos en Python,
permite la limpieza, transformación y análisis de datos de manera eficiente.
● Data Wrangler (Trifacta): Herramienta que facilita la limpieza, transformación y
preparación de datos a través de una interfaz gráfica intuitiva.

Herramientas de exploración y análisis de datos


● Tableau: Plataforma de visualización de datos que permite crear dashboards
interactivos y explorar datos a través de gráficos y visualizaciones.
● Power BI: Herramienta de Microsoft para la visualización de datos y generación de
informes, con capacidades de análisis y dashboarding.
● QlikView/Qlik Sense: Plataformas de inteligencia de negocios que proporcionan
visualización de datos y capacidades de exploración interactiva.
6

● Matplotlib y Seaborn (Python): Bibliotecas para la visualización de datos en


Python, útiles para crear gráficos y representaciones visuales de datos.

Herramientas de modelado y Machine Learning


● Scikit-learn (Python): Biblioteca de Python para aprendizaje automático que
incluye una variedad de algoritmos de modelado, desde regresión y clasificación
hasta clustering.
● TensorFlow y Keras (Python): Bibliotecas para construir y entrenar modelos de
aprendizaje profundo, utilizadas para redes neuronales y modelos complejos.
● PyTorch (Python): Framework de aprendizaje automático para construir y entrenar
redes neuronales, con un enfoque en flexibilidad y velocidad.
● R (y paquetes como caret y xgboost): Lenguaje y entorno para estadísticas y
aprendizaje automático, con numerosos paquetes para modelado y análisis de
datos.
● RapidMiner: Plataforma de análisis de datos que permite la creación de modelos
de minería de datos y aprendizaje automático mediante una interfaz gráfica y
código.

Herramientas de integración y ETL


● Apache NiFi: Herramienta de integración de datos que facilita la automatización de
flujos de trabajo de datos mediante una interfaz gráfica.
● Talend: Plataforma de integración de datos que ofrece herramientas para ETL,
calidad de datos y gestión de datos en un entorno integrado.
● Apache Kafka: Plataforma de transmisión de datos en tiempo real que permite la
integración y procesamiento de grandes volúmenes de datos en movimiento.
● Informática: Herramienta de integración y calidad de datos que ofrece capacidades
avanzadas para la preparación, integración y gobernanza de datos.

Herramientas de modelado estadístico y Minería de Datos


● SAS: Software de análisis avanzado que proporciona herramientas para minería de
datos, modelado estadístico y análisis predictivo.
● SPSS: Herramienta de análisis estadístico utilizada para modelado de datos, análisis
descriptivo y técnicas de minería de datos.
● Weka: Herramienta de minería de datos y aprendizaje automático con una interfaz
gráfica que permite aplicar una variedad de algoritmos de modelado y análisis.

Plataformas de Big Data y computación distribuida


● Apache Hadoop: Framework de código abierto para el procesamiento y
almacenamiento distribuido de grandes volúmenes de datos, basado en el modelo
MapReduce.
7

● Apache Spark: Framework de procesamiento de datos en memoria que ofrece


capacidades de análisis de datos a gran escala y aprendizaje automático, con
soporte para SQL, streaming y gráficos.
● Google BigQuery: Servicio de almacenamiento y análisis de datos en la nube que
proporciona capacidades de consulta SQL y análisis de grandes conjuntos de datos.
● Amazon Redshift: Servicio de data warehouse en la nube que permite el
almacenamiento y análisis de datos a gran escala utilizando SQL.

Herramientas de visualización y reportes


● [Link]: Biblioteca de JavaScript para crear visualizaciones dinámicas e interactivas
basadas en datos web.
● Plotly: Herramienta de visualización interactiva que soporta gráficos en 2D y 3D y se
integra con Python, R y JavaScript.
● Looker: Plataforma de análisis y visualización de datos que permite la creación de
informes y dashboards interactivos basados en datos.

Tendencias en Minería de Datos en logística y cadena de suministro


Big Data
Permite analizar enormes volúmenes de datos en tiempo real, lo que es crucial para la
optimización de la logística y la cadena de suministro. Los sistemas de seguimiento y los
sensores IoT generan grandes cantidades de datos que se pueden analizar para mejorar la
eficiencia operativa.

Aprendizaje automático (Machine Learning)


Se utiliza para predecir la demanda, optimizar rutas de entrega y gestionar inventarios. Los
algoritmos de aprendizaje supervisado y no supervisado ayudan a las empresas a
identificar patrones y realizar predicciones precisas.

Inteligencia Artificial
La IA se aplica para automatizar procesos, mejorar la toma de decisiones en la cadena de
suministro, y optimizar el uso de recursos. Las soluciones impulsadas por IA, como los
vehículos autónomos y los robots, están revolucionando la logística.

Analítica predictiva
Herramientas avanzadas de minería de datos que utilizan modelos predictivos para
anticipar problemas potenciales en la cadena de suministro, como demoras en los envíos o
falta de stock.
8

Casos de uso reales de aplicaciones de Minería de Datos en el campo de


la Logística y Cadena de Suministro
Amazon
El gran gigante de retail es capaz de analizar una cantidad brutal de datos de clientes. Sus
algoritmos le permiten recolectar, analizar y utilizar una cantidad masiva de datos
procedentes del historial de búsqueda y compra. Por eso, son capaces de ofrecer
recomendaciones con altas probabilidades de generar una compra, optimizar los precios y
la cadena de suministro y detectar los fraudes.
El secreto de su éxito está en sus herramientas avanzadas de análisis de big data, como los
algoritmos publicitarios y el "Amazon Elastic MapReduce platform for machine learning".

PepsiCo
La plataforma de big data y análisis en la nube empleada por PepsiCo, Pep Worx, ayuda a
la empresa a aconsejar a las tiendas sobre qué productos comprar, dónde colocarlos y qué
promociones lanzar.
En preparación para el lanzamiento de Quaker Overnight Oats, PepsiCo fue capaz de
identificar 24 millones de hogares a los que dirigir su producto. Después, identificaron los
lugares de compra que esos hogares tenían más probabilidades de usar y crearon
promociones específicas para estas audiencias. Gracias a este uso de los datos para
centrarse en un mercado muy específico, consiguieron un 80% de crecimiento de ventas
del producto en los primeros 12 meses tras el lanzamiento.
9

Referencias bibliográficas

¿Qué es la minería de datos? (2024, agosto 5). [Link].


[Link]
(S/f-b). [Link]. Recuperado el 19 de agosto de 2024, de
[Link]
[Link]
Mecalux. (s/f). La minería de datos en la logística 4.0. [Link]. Recuperado el 19 de agosto
de 2024, de [Link]
Tomas, D., & Cyberclick. (s/f). 7 empresas que usan Big Data y son las mejores.
[Link]. Recuperado el 19 de agosto de 2024, de
[Link]
su-favor
de CEUPE, B. (s/f). Proceso del Data Mining. Ceupe. Recuperado el 19 de agosto de 2024, de
[Link]
Zanatta, M. (s/f). Las 8 etapas en el proceso de toma de decisiones de la empresa.
[Link]. Recuperado el 19 de agosto de 2024, de
[Link]
mpresa
Martínez, S. (2021, agosto 25). Herramientas y técnicas de data mining. Inesdi.
[Link]

También podría gustarte