0% encontró este documento útil (0 votos)
35 vistas6 páginas

Mineria Datos

El documento describe los tipos de datos, operaciones y procesamiento de datos, así como las características de la información y la minería de datos. Se diferencia entre minería de datos y KDD, y se presentan las fases del proceso CRISP-DM, que es un estándar en minería de datos. También se discuten conceptos como Data Warehouse, Data Mart y OLAP, junto con el modelo estrella para el análisis de datos.

Cargado por

pedro
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
35 vistas6 páginas

Mineria Datos

El documento describe los tipos de datos, operaciones y procesamiento de datos, así como las características de la información y la minería de datos. Se diferencia entre minería de datos y KDD, y se presentan las fases del proceso CRISP-DM, que es un estándar en minería de datos. También se discuten conceptos como Data Warehouse, Data Mart y OLAP, junto con el modelo estrella para el análisis de datos.

Cargado por

pedro
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Tipos de Datos

Cuantitativos:Son aquellos que se pueden contar o medir.


Cualitativos: No se pueden contar, ni medir.

Datos: hechos o medidas que describen características de objetos, eventos o personas, es la materia
prima de la que se obtendrá la información.
Información: Datos analizados y presentados en forma adecuada, de interés para un observador en un
momento determinado.
Conocimiento: Información procesada para emitir juicios que llevan a conclusiones.
Meta Conocimiento: Reglas que permiten obtener conocimiento.
Modelo: Habla de todo el conjunto de datos
Patrón: Habla de una región particular de datos.

Operaciones sobre los datos


Captura:se registran los datos antes de ser procesados.
Validación:se verifican y corrigen los datos durante la captura o después de ésta con la finalidad de
minimizar el número de errores cometidos en su trascripción. Verifica que los datos capturados
cumplan con ciertos parámetros.
Almacenamiento:se guardan los datos previamente capturados para su conservación en cualquier
dispositivo físico.
Recuperación:se logra el acceso posterior a los datos almacenados.
Reproducción:se copian o trasladar los datos de un dispositivo a otro.

Procesamiento de los datos


Entrada:Registro de datos en un medio adecuado para su manejo y procesamiento.
Proceso:
Clasificación: Establecer un orden lógico para los datos según uno de sus atributos.
Agrupación: Consiste en separar sistemáticamente los datos por categorías.
Cálculos: Se refieren a los procesos aritméticos (+, -, * y /) y operaciones lógicas para convertir
los datos en una forma significativa.
Síntesis: Consiste en sustituir grandes volúmenes de datos en información más fácil de
interpretar. Ejemplos: gráficos de barras, líneas, tablas, etc.
Salidas y/o resultados: Información procesada que se obtiene del ciclo de procesamiento de datos en
un medio de salida (papel o dispositivo magnético).
Evaluación de resultados: análisis las salidas de acuerdo a los objetivos y metas. De acuerdo a esto se
puede ejercer nuevas acciones sobre los datos de entrada, en caso de ser necesario.

Características de la Información
Significado (semántica): ¿Qué quiere decir? Del significado extraído de una información, cada
individuo evalúa las consecuencias posibles y adecua sus actitudes y acciones de manera acorde a las
consecuencias previsibles que se deducen del significado de la información.

Importancia (relativa al receptor):


¿Trata sobre alguna cuestión importante? La importancia de la información para un receptor, se referirá
a en qué grado cambia la actitud o la conducta de los individuos.
Vigencia (en la dimensión espacio-tiempo):
¿Es actual o desfasada? En la práctica la vigencia de una información es difícil de evaluar, ya que en
general acceder a una información no permite conocer de inmediato si dicha información tiene o no
vigencia.

Validez (relativa al emisor):


¿El emisor es fiable? ¿Puede entregar información no válida?
Valor (receptor): ¿Cuán útil resulta para el destinatario la información?

Que es minería de datos?


Es un mecanismo de explotación que consiste en la búsqueda de información valiosa en grandes
volúmenes de datos

Minería de datos vs KDD


KDD (Knowledge Discovery in Databases): Es el proceso de encontrar información y/o patrones
útiles en los datos.
Minería de Datos: es el uso de algoritmos para extraer información y/o patrones como parte del
proceso KDD.

KDD:

Fases del proceso iterativo e interactivo


1. Integración y recopilación de datos
2. Selección, limpieza y transformación

3. Minería de datos
- Modelos descriptivos: Encontrar patrones interpretable que describen los datos.
Reglas de asociación
Clustering:
- Modelos predictivos: Utilizar algunas variables para predecir los valores desconocidos o futuros de
otras variables.
Regresión: regresión lineal, regresión logística
Clasificación supervisada: clasificadores Bayesianos, redes neuronales, árboles de
clasificación, inducción de reglas, K-NN, combinación de clasificadores.

4. Evaluación e interpretación

Técnicas de evaluación: validación simple (training + test), validación cruzada con k-fold, bootstrap
Reglas de asociación: cobertura (soporte), confianza
Clustering: variabilidad intra y entre
Regresión: error cuadrático medio
Clasificación supervisada: porcentaje de bien clasificados, matriz de confusión, análisis ROC
Modelos precisos, comprensibles (inteligibles) e interesantes (útiles y novedosos)

5. Difusión y uso
Difusión: necesario distribuir, comunicar a los posibles usuarios, integrarlo en el know-how de la
organización
➢ Medir la evolución del modelo a lo largo del tiempo (patrones tipo pueden cambiar)
➢ Modelo debe cada cierto tiempo de ser:
▪ Reevaluado
▪ Reentrenado
▪ Reconstruido

Minería de Datos vs Estadística


La estadística generalmente analiza muestras de datos para luego hacer inferencia a toda la población,
mientras que la minería de datos pretende buscar información útil usando toda la base datos.

Minería de Datos vs Análisis de Datos


A diferencia de la minería de datos, el análisis de datos usualmente no es automatizado, ni trata con
volúmenes de datos tan grandes.
Ciclo de mineria de datos:

1. Aprender sobre el negocio


2. Recolectar los datos.
3. Limpieza y transformación de datos (mucho esfuerzo).
4. Definir la meta del proyecto y así encontrar el modelo adecuado.
5. Escoger los algoritmos que permitan optimizar el modelo.
6. Generar reportes.
7. Generar predicciones y/o “Scoring”.
8. Aplicación de los resultados en el negocio.
9. Actualización de los modelos (calibración constante de los modelos).

Estándares en Minería de Datos


- XML for Analysis: es otro estándar de la industria y está a cargo del “XML / A Council”.
- SQL MM: (SQL/ Multimedia for Data Mining).
- Java Data Mining API.
- PMML, Crisp-DM, CMW (extensión de UML) y otros.

¿Por qué debería ser un proceso estándar?


Debe ser confiable y repetible para personas con escasos conocimientos de minería de datos.

CRISP-DM (CRoss-Industry Standard Process for Data Mining)


- CRISP-DM proporciona un marco uniforme para directores. Permite documentación de la experiencia
- CRISP-DM es flexible para tener en cuenta las diferencias.
- Diferentes problemas de negocio => Datos diferentes
- No tiene propietario
- Aplicación / Industria neutral
- Se centra en cuestiones de negocios
- Así como en el análisis técnico y de métodos
Fases de CRISP-DM

Data Warehouse - Bodega de Datos


Una
bode
ga de
datos
podrí
a ser
el
resu
men
un
conj
unto
de
bases de datos de una empresa.
Data Mart - Mercado de Datos
Un Mercado de Datos (Data Mart) tiene las mismas características que una bodega de datos, pero a un
nivel más refinado, pues contiene información más detallada perteneciente a un solo departamento de
la empresa.

¿Qué es OLAP (Online Analytical Processing)?


OLAP es una tecnología que procesa información de una bodega de datos en estructuras
multidimensionales que proporcionan una respuesta rápida a consultas complejas.

El objetivo de OLAP es resumir y organizar grandes cantidades de datos para se analizados y


evaluados rápidamente.
Modelo Estrella
Tabla de Hechos (fact table): Corresponde a los hechos del negocio.
Tablas de Dimensiones (dimensions tables): Permiten describir los hechos desde diferentes ángulos
permitiendo análisis muy diversos.

También podría gustarte