Taller
Andres Roberto Solano Ricaurte
Cod: 1201597
Modelos de Minería de Datos
Descriptivas
Buscar patrones humano-interpretables que describen datos.
● OLAP (visualización)
● “Clustering”
● Métodos factoriales como ACP, AFC.
Predictivas
Utilizan algunas variables para predecir valores futuros desconocidos de la misma variable o
bien de otras variables.
● Series de Tiempo
● Análisis de Discriminante
● Regresión
● Árboles de Decisión
“Clustering” : (Clasificación no supervisada, aprendizaje no supervisado): Es similar a la
clasificación, excepto que los grupos no son predefinidos. El objetivo es participar o
segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos o no. Los
grupos se forman basados en la similaridad de los datos o individuos en ciertas variables.
Como los grupos no son dados a priori el experto debe dar una interpretación de los grupos
que forman.
Métodos:
● Clasificación Jerárquica (grupos disjuntos)
● Nubes Dinámicas (grupos disjuntos)
● Clasificación Piramidal (grupos No disjuntos )
Clasificación (discriminación): Mapea o asocia datos a grupos predefinidos (aprendizaje
supervisado)
● encuentra modelos (funciones) que describen y distinguen clases o conceptos para
predicciones.
● Ejemplos: Credit Scoring
● Métodos: Análisis discriminante, decision-tree, classification rule, neural network
Descubrimiento de Factores(Análisis Factorial)
El análisis factorial es un nombre genérico que se da una clase de métodos multivariantes
cuyo propósito principal es encontrar la estructura subyacente en una tabla de
datos(factores ocultos).
Aborda el problema de cómo analizar la estructura de la interrelaciones (correlaciones)
entre un gran número de variables con la definición de una serie de dimensiones
subyacentes comunes, conocidas como factores.
Métodos:
-Análisis de componentes principales(ACP)
-Análisis Factorial de Correspondencias simples y múltiples (AFC)
-Análisis Canónico (AC)
-Análisis Discriminante
Regresión
Se usa una regresión para predecir los valores ausentes de una variable basándose en su
relación con otras variables de conjunto de datos.
Entre ellas podemos destacar: regresión lineal, no lineal, logística, logarítmica, univariada,
multivariada entre otras.
Descubrimiento de secuencias:
“Sequential Analysis” es usado para descubrir secuencia de patrones en los datos, estos
patrones son similares a los encontrados con reglas de asociación pero tales relaciones son
basadas en el tiempo.
Métodos:
● Redes Neuronales
● Series de tiempo
Series de Tiempo: Una serie de tiempo corresponde a un conjunto de observaciones
hechas respecto a una variable en momento equidistantes en el tiempo, pasos:
1. X t : Serie de tiempo
2. Corregir errores sistemáticos
3. Transformaciones matemáticas
4. X t = Tendencia + Estacionalidad + Ciclos + E t
5. Para E t (si no es un ruido blanco)
1. Elegir el modelo (Box- Jenkings)
1. ARMA(p,q)(AutoRegressive Moving Average)
2. ARIMA(p,d,q)(AutoRegressive-Integrated Moving Average)
2. Estimar costos
[Link]ósticos
Sumarización
● los métodos de sumarización asigna los datos a conjuntos (individuos de segundo
orden) que tiene asociadas descripciones.
● Estos métodos permiten extraer o derivar datos representativos de una base de
datos
● permite el análisis de conceptos
Métodos
● Análisis de datos simbólicos
● Lógica difusa
● Interval Analysis
Asociacion de Análisis de Afinidad
Conocido como “Link Analysis” se refiere a encontrar relaciones no evidentes en los datos
Métodos
● Reglas de asociación (Association Rules)
● Análisis de Correlación y de Causalidad
Bibliografía
Minería de Datos - Oldemar Rodriguez
[Link]
onceptos_B%C3%[Link]
Tecnicas de mineria de datos-
[Link]