0% encontró este documento útil (0 votos)

80 vistas5 páginas

Entendimiento y Preparación de Datos

1) El documento describe las etapas del proceso de minería de datos, incluyendo la recopilación y comprensión de datos, la preparación de datos y el modelado. 2) En la fase de comprensión de datos, se examinan las propiedades y calidad de los datos recopilados. 3) La preparación de datos involucra limpiar, transformar y formatear los datos para que puedan ser utilizados en las herramientas de modelado.

Cargado por

sdasd

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como TXT, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

80 vistas5 páginas

Entendimiento y Preparación de Datos

Cargado por

sdasd

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como TXT, PDF, TXT o lee en línea desde Scribd

DATA UNDERSTANDING

-----------------------------------------------------------------------------------
---------------------------------------------------------
La recopilación inicial de datos y cifras se realiza a partir de todas las fuentes
disponibles. En la fase para entender los datos se
examinan las propiedades del set de datos que se tiene. Luego, la calidad de la
información se verifica mediante respuestas a
ciertas preguntas relevantes sobre la integridad y precisión del material.

Pasos: 1). Recoleccion de partida

2). Describir los datos
3). Exploracion de los datos
4). Verificar la calidad de los datos

1. -Especificar los criterios de selección (por ejemplo, ¿qué atributos son

necesarios para los objetivos específicos de minería de
datos? ¿qué atributos han sido identificados como no pertinentes? ¿cuántos
atributos podemos manejar con las técnicas
escogidas?)
- Elegir las tablas/archivos de interés
- Elegir los datos dentro de una tabla/archivo, teniendo en cuenta cuánto
histórico es necesario
- Tener cuidado con que los datos recolectados de diferentes fuentes pueden dar
lugar a problemas de calidad cuando sean combinados
- Si los datos contienen información no estructurada (entradas de texto libre),
¿cómo hay que codificarlos para ser modelados?
- ¿Es posible automatizar el proceso de extracción los datos?

2. En esta tarea se examinan las propiedades superficiales de los datos. Se

describen los datos incluyendo su formato, la cantidad de datos, los
identificadores de los campos y cualquier otro rasgo superficial (estadísticos
básicos). También se evalúan si los datos obtenidos satisfacen las
exigencias más relevantes del problema de negocio y de minería de datos.

3. incluye el estudio de la distribución de atributos claves relacionados a pares,

los resultados de agregaciones simples, las propiedades
de las subpoblaciones (muestreos) significativas, y análisis estadísticos
simples. Estos análisis directamente pueden dirigir los objetivos de minería de
datos, y también pueden contribuir o refinar la descripción de datos e informes
de calidad. Como conclusión de esta tarea, se deben haber descrito
los resultados, incluyendo primeras conclusiones o hipótesis iniciales sobre
los datos, las variables involucradas, la existencia de relaciones entre ellas y
su impacto sobre el resto del proyecto.

4. En esta fase se debe hacer un examen de la calidad de los datos. ¿Están

completos? ¿Cubren todos los casos requeridos? ¿Son correctos o contienen errores?
Si hay errores, ¿cómo son de frecuentes? ¿Hay valores omitidos? Si es así,
¿cómo se representan, dónde ocurre esto, y cómo son de frecuentes?
El resultado debe ser la verificación de calidad de datos; si existen problemas
de calidad, se debe elaborar un listado de posibles soluciones.

-----------------------------------------------------------------------------------
---------------------------------------------------------
DATA PREPARATION
-----------------------------------------------------------------------------------
---------------------------------------------------------
El objetivo principal de esta fase es la contruccion, a partir de los datos "en
crudo", del dataset final a utilizar
como datos de entrada para la herramientas de modelado. Las tareas englobadas en
esta fase (centradas en la limpieza y
transformacion de los datos) son susceptibles de realizarse repetidas veces.

1. Seleccion de datos: Decision sobre los datos e emplear en el analiss, usando

criterios relativos a la relevancia
para los objetivos, la calidad de los datos o restricciones tecnicas.
La seleccion a realizar
se refiere tanto a los atributos o campos de lo registros
del dataset como a los registros en si.

2. Limpieza de los datos: Se debe elevar el nivel de calidad de los datos al

requerido por las tecnicas de analisis.
Esta tarea incluye la insercion de valores por defecto
adecuados, o el uso de modelados
para estimar los valores ausentes y nulos. Se deben
documentar las decisiones y acciones para
para resolver los problemas de calidad de datos que ya fueron
identificados en la fase anterior.

3. Construccion de los datos: A partir de los datos originalmente capturados, se

generan atributos derivados, nuevos
registros o valores transformados de atributos
existentes, en funcion de los requerimientos
para preparar la entrada a las herramientas de modelado.

4. Integracion de los datos: Esta tarea se enfoca a la combinacion de multiples

tablas o registros para crear nuevos,
uniendo por ejemplo datos sobre un mismo objeto pero que se
encuentran dispersos en
en diferentes fuentes, o realizando agregaciones que resumen
informacion contenida en varios
registros

5. Formato de los datos: Estas transformaciones se refieren a modificaciones

sintácticas que se hacen sobre los datos, sin alterar su
significado pero que pueden ser requeridas por la herramienta de
modelado a utilizar. Por ejemplo, puede
que haya requisitos en el orden de los atributos, o que la
herramienta de modelado requiera que los
registros estén ordenados según el atributo
resultado. En otros casos es necesario presentarlos en un orden
más aleatorio del que vienen inicialmente en el dataset (donde
suelen tener algún orden determinado).

VARIABLES
-----------------------------------------------------------------------------------
------------------

- Categorica: Ejemplifican variables cualitativas

- Continua: Cifras infinitas (decimales)

- Discreta: Cifras finitas

-----------------------------------------------------------------------------------
---------------------------------------------------------
MACHINE LEARNING / MODELADO
-----------------------------------------------------------------------------------
---------------------------------------------------------

"Un Campo de estudio que le da a los computadores la habilidad de aprender sin ser
explícitamente programado" (Arthur Samuel, 1959).
"Se dice que un programa A aprende de la experiencia E con respecto a una tarea T y
una medida de desempeño P, si el desempeño en T, medido por P, mejora con E" - (Tom
Mitchell, 1998)
"Conjunto de algoritmos y técnicas, las cuales basando en los datos, son capaces de
generalizar los patrones que describen el comportamiento de los sujetos y son
capaces de producir "predicciones"

Pasos: 1). Seleccion de la tecnica de modelado

2). Diseño de los test
3). Construccion del modelo
4). Evaluacion del modelo

1. Se centra en ponerle "nombre y apellido" a la técnica, de entre las diferentes

opciones de configuración, versionado, etc. que puede presentar.
Además, hay que tener en cuenta que muchas técnicas de modelado funcionan bajo
la premisa de unas asunciones específicas
sobre los datos (p.ej. distribuciones uniformes, ausencia de missing values,
atributos simbólicos para la clase, etc.), por lo que las
asunciones realizadas para seleccionar una u otra técnica deben quedar
documentadas.

2. diseñar el procedimiento según el cual se va a medir la calidad y validez del

modelo. Esto abarca la métrica concreta de error
que se va a emplear, o la descripción del plan para entrenar y evaluar los
modelos, incluyendo el diseño de la separación entre
datos de entrenamiento, de testeo y de validación.

3. Consiste en la ejecución del algoritmo de modelado seleccionado sobre

el dataset preparado siguiendo el procedimiento diseñado.
Es importante documentar la parametrización utilizada y la justificación de la
elección, así como una descripción del modelo
resultante, lo interpretable que resulta y las dificultades para dicha
interpretación.

4. Partiendo de la calidad del modelo o modelos obtenidos según las métricas

definidas en el procedimiento diseñado, se realiza también
una interpretación y contraste preliminares de los modelos según el
conocimiento del dominio y los objetivos de éxito planteados en
términos de negocio. La conclusión de esta tarea puede implicar una revisión de
la tarea de construcción del modelo para cambiar la
configuración de los parámetros de la técnica, y así afinar en la calidad del
resultado.

Tipos de Machine Learning:

-----------------------------------------------------------------------------------
------------------
1. Aprendizaje No Supervisado. (Unsupervised Learning)
2. Aprendizaje Supervisado. (Supervised Learning)
3. Aprendizaje por refuerzo. (Reinforcement Learning)
4. Aprendizaje profundo. (Deep Learning)

1. El algoritmo es capaz de detectar patrones dentro de los datos sin que se le

indique previamente que es lo que hay en los datos.
El aprendizaje no supervisado también es útil para la compresión de datos:
fundamentalmente, todos los algoritmos de compresión
dependen tanto explícita como implícitamente de una distribución de
probabilidad sobre un conjunto de entrada.
Clustering: Agrupacion de datos

2. Se le indica que es lo que esta viendo, una etiqueta. De esta forma, utilizando
los datos y la etiqueta, es posible generalizar los
patrones y determinar a que etiqueta pertenece un conjunto de datos.

CLUSTERING
-----------------------------------------------------------------------------------
-----------

Es un metodo de aprendizaje automatico donde un modelo se ajusta a las

observaciones
El aprendizaje no supervisado se puede usar en conjunto con la inferencia bayesiana
para producir probabilidades condicionales
(es decir aprendizaje supervisado) para cualquiera de las variables aleatorias
dadas.

Los algoritmos decubren la estructura en colecciones de datos (donde no existia una

estructura formal)
-Descubren que clusters (agrupaciones) ocurren naturalmente en los datos (al
examinar varias propiedades de los datos de entrada)
-Clustering se utiliza a menudo para el analisis exploratorio (divide gran cantidad
de datos en grupos mas pequeños)

Aplicaciones de clustering

-Segmentacion de mercado (agrupa clientes similares para orientarlos de

manera efectiva)
-Encontrar articulos de noticias relacionadas (google news)
-Estudios epidemiologicos (grupo de cancer y encontrar la causa raiz)
-Vision por computadora (grupos de pixeles que se unen en objetos) -
(pixeles relacionados agrupados para reconocer caras o matriculas)

CLASIFICACION
-----------------------------------------------------------------------------------
------------------

La clasificación es una forma de aprendizaje supervisado.#– Esto requiere

entrenamiento con datos que tengan etiquetas conocidas.
– Un clasificador puede entonces etiquetar los nuevos datos en el aprendizaje de la
capacitación.

Ejemplos: Filtrado de Spam. Oncologia, Analisis de riesgos.

FILTRADO COLABORATIVO
-----------------------------------------------------------------------------------
------------------

Es una técnica para hacer recomendaciones.

Ayuda a los usuarios a encontrar elementos de relevancia#– Entre un número

potencialmente vasto de opciones.
– Basado en la comparación de preferencias entre usuarios.
– Las preferencias pueden ser explícitas (establecidas) o implícitas (observadas).

También podría gustarte

Proceso KDD: E.F.P. Ciencia de Datos Aplicada A La Industria
Aún no hay calificaciones
Proceso KDD: E.F.P. Ciencia de Datos Aplicada A La Industria
23 páginas
Metodologia Crips
Aún no hay calificaciones
Metodologia Crips
6 páginas
Guía CRISP-DM para Minería de Datos
Aún no hay calificaciones
Guía CRISP-DM para Minería de Datos
9 páginas
Predicción: Regresión y Clasificación
Aún no hay calificaciones
Predicción: Regresión y Clasificación
17 páginas
CRISP-DM y SEMMA: Guía Completa
Aún no hay calificaciones
CRISP-DM y SEMMA: Guía Completa
28 páginas
Guía AD
Aún no hay calificaciones
Guía AD
3 páginas
MPA-LaCiencia de Datos Yaplicaciones
Aún no hay calificaciones
MPA-LaCiencia de Datos Yaplicaciones
67 páginas
Técnicas de Modelado en Minería de Datos
Aún no hay calificaciones
Técnicas de Modelado en Minería de Datos
10 páginas
KDD
Aún no hay calificaciones
KDD
6 páginas
Metodología CRISP
Aún no hay calificaciones
Metodología CRISP
10 páginas
Clase 1 Introduccion DM
Aún no hay calificaciones
Clase 1 Introduccion DM
29 páginas
Fases Clave en Minería de Datos
Aún no hay calificaciones
Fases Clave en Minería de Datos
10 páginas
Análisis de Datos de Evaluación de Autos
Aún no hay calificaciones
Análisis de Datos de Evaluación de Autos
5 páginas
Técnicas de Modelado en CRISP-DM
Aún no hay calificaciones
Técnicas de Modelado en CRISP-DM
11 páginas
Tareas y Proceso en Minería de Datos
Aún no hay calificaciones
Tareas y Proceso en Minería de Datos
22 páginas
Cuáles Son Los Pasos para Desarrollar Un Proyecto de Ciencia de Datos
Aún no hay calificaciones
Cuáles Son Los Pasos para Desarrollar Un Proyecto de Ciencia de Datos
6 páginas
Descubrimiento de Conocimiento en Bases de Datos
Aún no hay calificaciones
Descubrimiento de Conocimiento en Bases de Datos
30 páginas
Proceso CRISP-DM en Minería de Datos
Aún no hay calificaciones
Proceso CRISP-DM en Minería de Datos
8 páginas
Minería de Datos: Proceso y Modelos
Aún no hay calificaciones
Minería de Datos: Proceso y Modelos
22 páginas
Mineria de Datos
Aún no hay calificaciones
Mineria de Datos
3 páginas
Semana 3
Aún no hay calificaciones
Semana 3
20 páginas
Introducción a la Inteligencia de Negocios
Aún no hay calificaciones
Introducción a la Inteligencia de Negocios
38 páginas
Minería de Datos en Ingeniería Industrial
Aún no hay calificaciones
Minería de Datos en Ingeniería Industrial
17 páginas
Proceso de Minería de Datos
Aún no hay calificaciones
Proceso de Minería de Datos
9 páginas
Minería de Datos: Preparación y Modelado
Aún no hay calificaciones
Minería de Datos: Preparación y Modelado
2 páginas
Proceso KDD en Aprendizaje Automático
Aún no hay calificaciones
Proceso KDD en Aprendizaje Automático
34 páginas
Procesos de Minería de Datos por Alex Villamarín
Aún no hay calificaciones
Procesos de Minería de Datos por Alex Villamarín
7 páginas
Lectura 2
Aún no hay calificaciones
Lectura 2
16 páginas
Curso de Minería de Datos 2024
Aún no hay calificaciones
Curso de Minería de Datos 2024
24 páginas
Etapas del Proceso de Data Mining
Aún no hay calificaciones
Etapas del Proceso de Data Mining
4 páginas
Mejora del Preprocesado en Minería de Datos
Aún no hay calificaciones
Mejora del Preprocesado en Minería de Datos
23 páginas
Minería de Datos: Proceso KDD Desglosado
Aún no hay calificaciones
Minería de Datos: Proceso KDD Desglosado
11 páginas
Metodologías en Ciencia de Datos
Aún no hay calificaciones
Metodologías en Ciencia de Datos
45 páginas
Metodología EBI para Negocios Inteligentes
Aún no hay calificaciones
Metodología EBI para Negocios Inteligentes
5 páginas
Discretización en Minería de Datos
Aún no hay calificaciones
Discretización en Minería de Datos
20 páginas
Introducción al KDD y Minería de Datos
Aún no hay calificaciones
Introducción al KDD y Minería de Datos
47 páginas
Métodos y Herramientas de Data Mining
Aún no hay calificaciones
Métodos y Herramientas de Data Mining
4 páginas
Árboles de Decisión en Data Mining
Aún no hay calificaciones
Árboles de Decisión en Data Mining
8 páginas
Fases del Proceso KDD en Datos
Aún no hay calificaciones
Fases del Proceso KDD en Datos
15 páginas
Artículo 12.mineria de Datos.
Aún no hay calificaciones
Artículo 12.mineria de Datos.
8 páginas
Metodologías para Proyectos de Ciencia de Datos
Aún no hay calificaciones
Metodologías para Proyectos de Ciencia de Datos
23 páginas
2 Metodología Adecuada para El Análisis de Datos
Aún no hay calificaciones
2 Metodología Adecuada para El Análisis de Datos
5 páginas
Coria Intro A Mindat Data Ware
Aún no hay calificaciones
Coria Intro A Mindat Data Ware
7 páginas
Proceso KDD y Minería de Datos
Aún no hay calificaciones
Proceso KDD y Minería de Datos
8 páginas
Metodologías de Machine Learning
Aún no hay calificaciones
Metodologías de Machine Learning
44 páginas
Proceso KDD y ETL en Liberty Seguros
100% (1)
Proceso KDD y ETL en Liberty Seguros
3 páginas
Minería de Datos en Gobiernos
Aún no hay calificaciones
Minería de Datos en Gobiernos
8 páginas
Actividad 2. UNIDAD 1
Aún no hay calificaciones
Actividad 2. UNIDAD 1
5 páginas
Mineria Datos
Aún no hay calificaciones
Mineria Datos
6 páginas
Metodologias para La Gestion de Procesos de Mineria de Datos
Aún no hay calificaciones
Metodologias para La Gestion de Procesos de Mineria de Datos
9 páginas
Descargable M4
Aún no hay calificaciones
Descargable M4
15 páginas
Tema2 1 Preparacion Datos Limpieza
Aún no hay calificaciones
Tema2 1 Preparacion Datos Limpieza
33 páginas
Metodología en Ciencia de Datos
Aún no hay calificaciones
Metodología en Ciencia de Datos
33 páginas
Data Mining Introduccion
Aún no hay calificaciones
Data Mining Introduccion
39 páginas
Minería de Datos con Sistemas Inteligentes
Aún no hay calificaciones
Minería de Datos con Sistemas Inteligentes
214 páginas
Apuntes - Data Mining
Aún no hay calificaciones
Apuntes - Data Mining
35 páginas
Mejora de la Calidad de Datos en ML
Aún no hay calificaciones
Mejora de la Calidad de Datos en ML
13 páginas
Minería de Datos: Guía Completa
Aún no hay calificaciones
Minería de Datos: Guía Completa
10 páginas
Análisis de Datos y Clustering 2020
Aún no hay calificaciones
Análisis de Datos y Clustering 2020
92 páginas
Estrategias de Inteligencia de Negocios
Aún no hay calificaciones
Estrategias de Inteligencia de Negocios
2 páginas
Análisis de Marketing y Segmentación
Aún no hay calificaciones
Análisis de Marketing y Segmentación
7 páginas
Clustering: Fundamentos y Práctica
Aún no hay calificaciones
Clustering: Fundamentos y Práctica
6 páginas
Clustering de Jugadores de Fútbol con K-means
Aún no hay calificaciones
Clustering de Jugadores de Fútbol con K-means
5 páginas
Mineria Datos.
Aún no hay calificaciones
Mineria Datos.
19 páginas
Fundamentos de Aprendizaje de Máquina
Aún no hay calificaciones
Fundamentos de Aprendizaje de Máquina
48 páginas
43 Clustering - Density
Aún no hay calificaciones
43 Clustering - Density
28 páginas
Prueba #1
100% (1)
Prueba #1
7 páginas
Análisis de Fraudes con CRISP-DM
Aún no hay calificaciones
Análisis de Fraudes con CRISP-DM
5 páginas
Análisis Clúster
Aún no hay calificaciones
Análisis Clúster
49 páginas
Análisis de Conglomerados Avanzado
Aún no hay calificaciones
Análisis de Conglomerados Avanzado
59 páginas
Clustering y Heatmaps: Guía Completa
Aún no hay calificaciones
Clustering y Heatmaps: Guía Completa
114 páginas
Aprendizaje Automático en Python
Aún no hay calificaciones
Aprendizaje Automático en Python
42 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
43 páginas