Analisis de conglomerados o clúster
Esta es la primera técnica de análisis multivariante de interdependencias, no se necesita identificar
variables dependientes o independientes
Hay 4 clúster, grupos o conglomerados, hay 2 variables: eje x (sensibilidad a los precios) y eje y
(conciencia de la calidad), las variables se relacionan, los clústeres están formados por individuos o
casos, también se puede hacer conglomerados de variables
El clúster dentro tiene pasos o variables homogéneas, aunque entre clúster y clúster hay
heterogeneidad
Cada clúster tiene características propias
Se parte de una matriz de datos que tiene que estar depurada, no tiene que tener valores perdidos y si
hay se debe tratar que imputarlos o eliminarlos y analizar valores extremos si fueron mal tipeados
corregirlos
Se puede decidir 2 tipos de análisis de conglomerado: análisis jerárquico y no jerárquico
Si yo se de antemano por estudios anteriores que se van a formar 4 clúster se opta por trabajar con un
análisis no jerárquico
Se debe estandarizar los datos, si se tiene una variable que se mide en años como la edad y otra variable
peso en kg y otra variable estatura que se mide en cm e ingresos que se medi en dólares, hay varias
unidades en las variables y en ese caso se debe estandarizar los datos
Dendograma
Puede estar ubicado en forma horizontal o vertical
Eje x: observaciones (individuos)
Eje y: Distancia, a una distancia (similitud) de 66.67 simulamos una línea horizontal donde parten las
líneas indica cuantos clústeres hacer, tendría que formas 6 clúster o grupos
Si quiero una similitud de 33.33 se debe formar 2 clúster: primer clúster: 1,3,6,9,10, 11,15,4,12,19
Segundo clister: 2,14,17,20,18,5,8,7,13,16
Estas observaciones del 1er grupo tendrán características similares, y las Estas observaciones del 2do
grupo tendrán características similares, entre los dos clústeres hay heterogeneidad
Si quiero similitud nula no se forma ningún clúster
Métodos de clasificación
Jerárquico
No jerárquico: son útiles cuando no se sabe cuántos clústeres formar a priori
Análisis clúster k medias: se necesita conocer las medias y tienen que ser variables métricas
Video
Método jerarquico
Es un algoritmo que determina el numero de conglomerados
Comienza con n conglomerados, donde cada conglomerado es un punto (objeto)
Luego calcula las distancias de cada punto con los demás puntos, en una matriz de distancias
(nxn)
la distancia consigo misma es 0 (diagonal principal de ceros)
fuera de la diagonal principal esta elemento (i.j) distancia entre i y j
El algoritmo parte de la distancia mas pequeña formando un primer grupo (rojo)
Al principio se parte con n grupos (objetos de estudio)
Luego de formar el primer grupo se tiene (n-1) grupos
Entonces la matriz de distancias queda de tamaño (n-1)(n-1) (n-2) (n-2)
Esto se puede apreciar en el historial y el dendograma
Ejemplo clasificar consumidores
1. Determinar el número de grupos
2. Describir los grupos
3. Validación de los grupos
4. Gráfico clúster
Cluster de consumidores en base su actitud de compras
Se identificaron 6 variables de actitud
Se pidió a los consumidores que expresaran su grado de acuerdo con los siguientes enunciados en una
escala de 7 puntos (1=desacuerdo, 7= de acuerdo)
V1: ir de compras es divertido
V2: ir de compras es malo para su presupuesto
V3: cuando voy de compras aprovecho para comer fuera
V4: cunado voy de compras busco mejores ofertas
V5: no me interesa ir de compras
V6: puede ahorrar mucho dinero si compara precios
V7: edad
1. Dendograma
Analizar, clasificar, clúster jerárquico, se selecciona las 6 variables y
Métodos jerárquicos
Es útil cuando no es grande el número de elementos
Se usa cuando no se conoce el numero de clúster a priori
Métodos no jerárquicos o de repartición
El numero de grupos se fija de antemano porque se conoce el fenómeno que se va a investigar
ya se sabe en cuantos grupos dividir
K medias
Esta dentro del análisis no jerárquico también llamado de repartición
Se puede trabajar con más elementos o objetos, grupos grandes de individuos
Se sabe grupos a priori
Solo trabaja con variables cuantitativas