0% encontró este documento útil (0 votos)
75 vistas4 páginas

Análisis de Clúster: Métodos y Aplicaciones

Este resumen describe el análisis de conglomerados o clústeres, una técnica de análisis multivariante que agrupa casos u observaciones en subconjuntos homogéneos sin necesidad de identificar variables dependientes o independientes. El análisis puede realizarse tanto con casos como con variables, y los clústeres resultantes contienen elementos internamente homogéneos pero heterogéneos entre sí. Existen métodos jerárquicos y no jerárquicos para determinar los clústeres.

Cargado por

Jenifer Soria
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
75 vistas4 páginas

Análisis de Clúster: Métodos y Aplicaciones

Este resumen describe el análisis de conglomerados o clústeres, una técnica de análisis multivariante que agrupa casos u observaciones en subconjuntos homogéneos sin necesidad de identificar variables dependientes o independientes. El análisis puede realizarse tanto con casos como con variables, y los clústeres resultantes contienen elementos internamente homogéneos pero heterogéneos entre sí. Existen métodos jerárquicos y no jerárquicos para determinar los clústeres.

Cargado por

Jenifer Soria
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Analisis de conglomerados o clúster

Esta es la primera técnica de análisis multivariante de interdependencias, no se necesita identificar


variables dependientes o independientes

Hay 4 clúster, grupos o conglomerados, hay 2 variables: eje x (sensibilidad a los precios) y eje y
(conciencia de la calidad), las variables se relacionan, los clústeres están formados por individuos o
casos, también se puede hacer conglomerados de variables

El clúster dentro tiene pasos o variables homogéneas, aunque entre clúster y clúster hay
heterogeneidad

Cada clúster tiene características propias

Se parte de una matriz de datos que tiene que estar depurada, no tiene que tener valores perdidos y si
hay se debe tratar que imputarlos o eliminarlos y analizar valores extremos si fueron mal tipeados
corregirlos

Se puede decidir 2 tipos de análisis de conglomerado: análisis jerárquico y no jerárquico

Si yo se de antemano por estudios anteriores que se van a formar 4 clúster se opta por trabajar con un
análisis no jerárquico

Se debe estandarizar los datos, si se tiene una variable que se mide en años como la edad y otra variable
peso en kg y otra variable estatura que se mide en cm e ingresos que se medi en dólares, hay varias
unidades en las variables y en ese caso se debe estandarizar los datos

Dendograma

Puede estar ubicado en forma horizontal o vertical


Eje x: observaciones (individuos)

Eje y: Distancia, a una distancia (similitud) de 66.67 simulamos una línea horizontal donde parten las
líneas indica cuantos clústeres hacer, tendría que formas 6 clúster o grupos

Si quiero una similitud de 33.33 se debe formar 2 clúster: primer clúster: 1,3,6,9,10, 11,15,4,12,19

Segundo clister: 2,14,17,20,18,5,8,7,13,16

Estas observaciones del 1er grupo tendrán características similares, y las Estas observaciones del 2do
grupo tendrán características similares, entre los dos clústeres hay heterogeneidad

Si quiero similitud nula no se forma ningún clúster

Métodos de clasificación

 Jerárquico
 No jerárquico: son útiles cuando no se sabe cuántos clústeres formar a priori

Análisis clúster k medias: se necesita conocer las medias y tienen que ser variables métricas

Video

Método jerarquico

 Es un algoritmo que determina el numero de conglomerados


 Comienza con n conglomerados, donde cada conglomerado es un punto (objeto)
 Luego calcula las distancias de cada punto con los demás puntos, en una matriz de distancias
(nxn)
la distancia consigo misma es 0 (diagonal principal de ceros)

fuera de la diagonal principal esta elemento (i.j) distancia entre i y j

 El algoritmo parte de la distancia mas pequeña formando un primer grupo (rojo)


 Al principio se parte con n grupos (objetos de estudio)
 Luego de formar el primer grupo se tiene (n-1) grupos
 Entonces la matriz de distancias queda de tamaño (n-1)(n-1) (n-2) (n-2)
 Esto se puede apreciar en el historial y el dendograma

Ejemplo clasificar consumidores

1. Determinar el número de grupos


2. Describir los grupos
3. Validación de los grupos
4. Gráfico clúster

Cluster de consumidores en base su actitud de compras

Se identificaron 6 variables de actitud

Se pidió a los consumidores que expresaran su grado de acuerdo con los siguientes enunciados en una
escala de 7 puntos (1=desacuerdo, 7= de acuerdo)

 V1: ir de compras es divertido


 V2: ir de compras es malo para su presupuesto
 V3: cuando voy de compras aprovecho para comer fuera
 V4: cunado voy de compras busco mejores ofertas
 V5: no me interesa ir de compras
 V6: puede ahorrar mucho dinero si compara precios
 V7: edad

1. Dendograma
Analizar, clasificar, clúster jerárquico, se selecciona las 6 variables y

Métodos jerárquicos
Es útil cuando no es grande el número de elementos
Se usa cuando no se conoce el numero de clúster a priori

Métodos no jerárquicos o de repartición


El numero de grupos se fija de antemano porque se conoce el fenómeno que se va a investigar
ya se sabe en cuantos grupos dividir

K medias
Esta dentro del análisis no jerárquico también llamado de repartición
Se puede trabajar con más elementos o objetos, grupos grandes de individuos
Se sabe grupos a priori
Solo trabaja con variables cuantitativas

También podría gustarte