0% encontró este documento útil (0 votos)
80 vistas5 páginas

Entendimiento y Preparación de Datos

1) El documento describe las etapas del proceso de minería de datos, incluyendo la recopilación y comprensión de datos, la preparación de datos y el modelado. 2) En la fase de comprensión de datos, se examinan las propiedades y calidad de los datos recopilados. 3) La preparación de datos involucra limpiar, transformar y formatear los datos para que puedan ser utilizados en las herramientas de modelado.

Cargado por

sdasd
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como TXT, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
80 vistas5 páginas

Entendimiento y Preparación de Datos

1) El documento describe las etapas del proceso de minería de datos, incluyendo la recopilación y comprensión de datos, la preparación de datos y el modelado. 2) En la fase de comprensión de datos, se examinan las propiedades y calidad de los datos recopilados. 3) La preparación de datos involucra limpiar, transformar y formatear los datos para que puedan ser utilizados en las herramientas de modelado.

Cargado por

sdasd
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como TXT, PDF, TXT o lee en línea desde Scribd

DATA UNDERSTANDING

-----------------------------------------------------------------------------------
---------------------------------------------------------
La recopilación inicial de datos y cifras se realiza a partir de todas las fuentes
disponibles. En la fase para entender los datos se
examinan las propiedades del set de datos que se tiene. Luego, la calidad de la
información se verifica mediante respuestas a
ciertas preguntas relevantes sobre la integridad y precisión del material.

Pasos: 1). Recoleccion de partida


2). Describir los datos
3). Exploracion de los datos
4). Verificar la calidad de los datos

1. -Especificar los criterios de selección (por ejemplo, ¿qué atributos son


necesarios para los objetivos específicos de minería de
datos? ¿qué atributos han sido identificados como no pertinentes? ¿cuántos
atributos podemos manejar con las técnicas
escogidas?)
- Elegir las tablas/archivos de interés
- Elegir los datos dentro de una tabla/archivo, teniendo en cuenta cuánto
histórico es necesario
- Tener cuidado con que los datos recolectados de diferentes fuentes pueden dar
lugar a problemas de calidad cuando sean combinados
- Si los datos contienen información no estructurada (entradas de texto libre),
¿cómo hay que codificarlos para ser modelados?
- ¿Es posible automatizar el proceso de extracción los datos?

2. En esta tarea se examinan las propiedades superficiales de los datos. Se


describen los datos incluyendo su formato, la cantidad de datos, los
identificadores de los campos y cualquier otro rasgo superficial (estadísticos
básicos). También se evalúan si los datos obtenidos satisfacen las
exigencias más relevantes del problema de negocio y de minería de datos.

3. incluye el estudio de la distribución de atributos claves relacionados a pares,


los resultados de agregaciones simples, las propiedades
de las subpoblaciones (muestreos) significativas, y análisis estadísticos
simples. Estos análisis directamente pueden dirigir los objetivos de minería de
datos, y también pueden contribuir o refinar la descripción de datos e informes
de calidad. Como conclusión de esta tarea, se deben haber descrito
los resultados, incluyendo primeras conclusiones o hipótesis iniciales sobre
los datos, las variables involucradas, la existencia de relaciones entre ellas y
su impacto sobre el resto del proyecto.

4. En esta fase se debe hacer un examen de la calidad de los datos. ¿Están


completos? ¿Cubren todos los casos requeridos? ¿Son correctos o contienen errores?
Si hay errores, ¿cómo son de frecuentes? ¿Hay valores omitidos? Si es así,
¿cómo se representan, dónde ocurre esto, y cómo son de frecuentes?
El resultado debe ser la verificación de calidad de datos; si existen problemas
de calidad, se debe elaborar un listado de posibles soluciones.

-----------------------------------------------------------------------------------
---------------------------------------------------------
DATA PREPARATION
-----------------------------------------------------------------------------------
---------------------------------------------------------
El objetivo principal de esta fase es la contruccion, a partir de los datos "en
crudo", del dataset final a utilizar
como datos de entrada para la herramientas de modelado. Las tareas englobadas en
esta fase (centradas en la limpieza y
transformacion de los datos) son susceptibles de realizarse repetidas veces.

1. Seleccion de datos: Decision sobre los datos e emplear en el analiss, usando


criterios relativos a la relevancia
para los objetivos, la calidad de los datos o restricciones tecnicas.
La seleccion a realizar
se refiere tanto a los atributos o campos de lo registros
del dataset como a los registros en si.

2. Limpieza de los datos: Se debe elevar el nivel de calidad de los datos al


requerido por las tecnicas de analisis.
Esta tarea incluye la insercion de valores por defecto
adecuados, o el uso de modelados
para estimar los valores ausentes y nulos. Se deben
documentar las decisiones y acciones para
para resolver los problemas de calidad de datos que ya fueron
identificados en la fase anterior.

3. Construccion de los datos: A partir de los datos originalmente capturados, se


generan atributos derivados, nuevos
registros o valores transformados de atributos
existentes, en funcion de los requerimientos
para preparar la entrada a las herramientas de modelado.

4. Integracion de los datos: Esta tarea se enfoca a la combinacion de multiples


tablas o registros para crear nuevos,
uniendo por ejemplo datos sobre un mismo objeto pero que se
encuentran dispersos en
en diferentes fuentes, o realizando agregaciones que resumen
informacion contenida en varios
registros

5. Formato de los datos: Estas transformaciones se refieren a modificaciones


sintácticas que se hacen sobre los datos, sin alterar su
significado pero que pueden ser requeridas por la herramienta de
modelado a utilizar. Por ejemplo, puede
que haya requisitos en el orden de los atributos, o que la
herramienta de modelado requiera que los
registros estén ordenados según el atributo
resultado. En otros casos es necesario presentarlos en un orden
más aleatorio del que vienen inicialmente en el dataset (donde
suelen tener algún orden determinado).

VARIABLES
-----------------------------------------------------------------------------------
------------------

- Categorica: Ejemplifican variables cualitativas

- Continua: Cifras infinitas (decimales)

- Discreta: Cifras finitas


-----------------------------------------------------------------------------------
---------------------------------------------------------
MACHINE LEARNING / MODELADO
-----------------------------------------------------------------------------------
---------------------------------------------------------

"Un Campo de estudio que le da a los computadores la habilidad de aprender sin ser
explícitamente programado" (Arthur Samuel, 1959).
"Se dice que un programa A aprende de la experiencia E con respecto a una tarea T y
una medida de desempeño P, si el desempeño en T, medido por P, mejora con E" - (Tom
Mitchell, 1998)
"Conjunto de algoritmos y técnicas, las cuales basando en los datos, son capaces de
generalizar los patrones que describen el comportamiento de los sujetos y son
capaces de producir "predicciones"

Pasos: 1). Seleccion de la tecnica de modelado


2). Diseño de los test
3). Construccion del modelo
4). Evaluacion del modelo

1. Se centra en ponerle "nombre y apellido" a la técnica, de entre las diferentes


opciones de configuración, versionado, etc. que puede presentar.
Además, hay que tener en cuenta que muchas técnicas de modelado funcionan bajo
la premisa de unas asunciones específicas
sobre los datos (p.ej. distribuciones uniformes, ausencia de missing values,
atributos simbólicos para la clase, etc.), por lo que las
asunciones realizadas para seleccionar una u otra técnica deben quedar
documentadas.

2. diseñar el procedimiento según el cual se va a medir la calidad y validez del


modelo. Esto abarca la métrica concreta de error
que se va a emplear, o la descripción del plan para entrenar y evaluar los
modelos, incluyendo el diseño de la separación entre
datos de entrenamiento, de testeo y de validación.

3. Consiste en la ejecución del algoritmo de modelado seleccionado sobre


el dataset preparado siguiendo el procedimiento diseñado.
Es importante documentar la parametrización utilizada y la justificación de la
elección, así como una descripción del modelo
resultante, lo interpretable que resulta y las dificultades para dicha
interpretación.

4. Partiendo de la calidad del modelo o modelos obtenidos según las métricas


definidas en el procedimiento diseñado, se realiza también
una interpretación y contraste preliminares de los modelos según el
conocimiento del dominio y los objetivos de éxito planteados en
términos de negocio. La conclusión de esta tarea puede implicar una revisión de
la tarea de construcción del modelo para cambiar la
configuración de los parámetros de la técnica, y así afinar en la calidad del
resultado.

Tipos de Machine Learning:


-----------------------------------------------------------------------------------
------------------
1. Aprendizaje No Supervisado. (Unsupervised Learning)
2. Aprendizaje Supervisado. (Supervised Learning)
3. Aprendizaje por refuerzo. (Reinforcement Learning)
4. Aprendizaje profundo. (Deep Learning)

1. El algoritmo es capaz de detectar patrones dentro de los datos sin que se le


indique previamente que es lo que hay en los datos.
El aprendizaje no supervisado también es útil para la compresión de datos:
fundamentalmente, todos los algoritmos de compresión
dependen tanto explícita como implícitamente de una distribución de
probabilidad sobre un conjunto de entrada.
Clustering: Agrupacion de datos

2. Se le indica que es lo que esta viendo, una etiqueta. De esta forma, utilizando
los datos y la etiqueta, es posible generalizar los
patrones y determinar a que etiqueta pertenece un conjunto de datos.

CLUSTERING
-----------------------------------------------------------------------------------
-----------

Es un metodo de aprendizaje automatico donde un modelo se ajusta a las


observaciones
El aprendizaje no supervisado se puede usar en conjunto con la inferencia bayesiana
para producir probabilidades condicionales
(es decir aprendizaje supervisado) para cualquiera de las variables aleatorias
dadas.

Los algoritmos decubren la estructura en colecciones de datos (donde no existia una


estructura formal)
-Descubren que clusters (agrupaciones) ocurren naturalmente en los datos (al
examinar varias propiedades de los datos de entrada)
-Clustering se utiliza a menudo para el analisis exploratorio (divide gran cantidad
de datos en grupos mas pequeños)

Aplicaciones de clustering

-Segmentacion de mercado (agrupa clientes similares para orientarlos de


manera efectiva)
-Encontrar articulos de noticias relacionadas (google news)
-Estudios epidemiologicos (grupo de cancer y encontrar la causa raiz)
-Vision por computadora (grupos de pixeles que se unen en objetos) -
(pixeles relacionados agrupados para reconocer caras o matriculas)

CLASIFICACION
-----------------------------------------------------------------------------------
------------------

La clasificación es una forma de aprendizaje supervisado.#– Esto requiere


entrenamiento con datos que tengan etiquetas conocidas.
– Un clasificador puede entonces etiquetar los nuevos datos en el aprendizaje de la
capacitación.

Ejemplos: Filtrado de Spam. Oncologia, Analisis de riesgos.


FILTRADO COLABORATIVO
-----------------------------------------------------------------------------------
------------------

Es una técnica para hacer recomendaciones.

Ayuda a los usuarios a encontrar elementos de relevancia#– Entre un número


potencialmente vasto de opciones.
– Basado en la comparación de preferencias entre usuarios.
– Las preferencias pueden ser explícitas (establecidas) o implícitas (observadas).

También podría gustarte