Análisis Clúster
Análisis Clúster
ENEI
OBJETIVOS
INTRODUCCIÓN
El análisis clúster es una técnica multivariante cuya idea básica es clasificar objetos formando
grupos/conglomerados (clúster) que sean lo más homogéneos posible dentro de sí mismos y
ANÁLISIS entre
heterogéneos CLÚSTER
sí. 1
Surge ante la necesidad de diseñar una estrategia que permita definir grupos de objetos
homogéneos. Este agrupamiento se basa en la idea de distancia o similitud entre las
observaciones y la obtención de dichos clústeres depende del criterio o distancia considerados,
por ejemplo, una baraja de carta española se podría dividir de distintas formas: en dos clústeres
(figuras y números), en cuatro clústeres (los cuatro palos), en ocho clústeres (los cuatro palos y
según sean figuras o números). Es decir, el número de clúster depende de lo que consideremos
como similar.
El análisis clúster es una tarea de clasificación. Por ejemplo
o Clasificar grupos de consumidores respecto a sus preferencias en nuevos productos
o Clasificar las entidades bancarias donde sería más rentable invertir
o Clasificar las estrellas del cosmos en función de su luminosidad
o Identificar si hay grupos de municipios en una determinada comunidad con una
tendencia similar en el consumo de agua con el fin de identificar buenas prácticas para
la sostenibilidad y zonas problemáticas por alto consumo.
Como se puede comprender fácilmente el análisis clúster tiene una extraordinaria importancia
en la investigación científica, en cualquier rama del saber. La clasificación es uno de los
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
La i-ésima fila de la matriz X contiene los valores de cada variable para el i-ésimo individuo,
mientras
ANÁLISISque la j-ésima columna muestra los valores pertenecientes a la j-ésima variable a lo
CLÚSTER 2
largo de todos los individuos de la muestra.
Se trata, fundamentalmente, de resolver el siguiente problema: Dado un conjunto
de n individuos caracterizados por la información de p variables X j, ( j=1,2 , … , p) , nos
planteamos clasificarlos de manera que los individuos pertenecientes a un grupo (clúster) (y
siempre con respecto a la información disponible de las variables) sean lo más similares
posibles entre sí y los distintos grupos sean entre ellos tan disimilares como sea posible.
El proceso completo puede estructurarse de acuerdo con el siguiente esquema:
o Partimos de un conjunto de n individuos de los que se dispone de una información
cifrada por un conjunto de p variables (una matriz de datos de n individuos
y p variables).
o Establecemos un criterio de similaridad y construimos una matriz de similaridades que
nos permita relacionar la semejanza de los individuos entre sí. Para medir lo similares
(o disimilares) que son los individuos existe una gran cantidad de índices de similaridad
y de disimilaridad o divergencia. Todos ellos tienen propiedades y utilidades distintas y
habrá que ser consciente de ellas para su correcta aplicación.
o Elegimos un algoritmo de clasificación para determinar la estructura de agrupación de
los individuos.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
o Es una técnica exploratoria puesto que la mayor parte de las veces no utiliza ningún tipo
de modelo estadístico para llevar a cabo el proceso de clasificación.
o Conviene estar siempre alerta ante el peligro de obtener, como resultado del análisis, no
una clasificación de los datos sino una disección de los mismos en distintos grupos. El
conocimiento que el analista tenga acerca del problema decidirá que grupos
obtenidos son significativos y cuáles no.
o Una vez establecidas las variables y los objetos a clasificar el siguiente paso consiste en
establecer una medida de proximidad o de distancia entre ellos que cuantifique el grado
de similaridad entre cada par de objetos.
o Las medidas de proximidad, similitud o semejanza miden el grado de semejanza
entre dos objetos de forma que, cuanto mayor (menor) es su valor, mayor (menor) es el
grado de similaridad existente entre ellos y mayor (menor) la probabilidad de que los
métodos los asignen en el mismo grupo.
o Las medidas de disimilitud, desemejanza o distancia miden la distancia entre dos
objetos de forma que, cuanto mayor (menor) sea su valor, más (menos) diferentes son
los objetos y menor (mayor) la probabilidad de que los métodos de clasificación los
asignen en el mismo grupo.
ANÁLISIS CLÚSTER 4
MÉTODO DE CLASIFICACIÓN
Se distinguen dos grandes categorías de métodos clúster: Métodos jerárquicos y Métodos no-
jerárquicos
o Métodos Jerárquicos: En cada paso del algoritmo sólo un objeto cambia de grupo y
los grupos están anidados en los de pasos anteriores. Si un objeto ha sido asignado a un
grupo ya no cambia más de grupo. La clasificación resultante tiene un número
creciente de clases anidadas.
o Métodos No jerárquico o Repartición: Comienzan con una solución inicial, un
número de grupos g fijado de antemano y agrupa los objetos para obtener los g grupos.
Los métodos jerárquicos se subdividen a su vez en aglomerativos y divisivos:
o Los métodos jerárquicos aglomerativos comienzan con tantos clústeres como objetos
tengamos que clasificar y en cada paso se recalculan las distancias entre los grupos
existentes y se unen los dos grupos más similares o menos disimilares. El algoritmo
acaba con un clúster conteniendo todos los elementos.
o Los métodos jerárquicos divisivos comienzan con un clúster que engloba a todos los
elementos y en cada paso se divide el grupo más heterogéneo. El algoritmo acaba con
tantos clústeres (de un elemento cada uno) como objetos se hayan clasificado.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
Independientemente del proceso de agrupamiento, hay diversos criterios para ir formando los
clústeres; todos estos criterios se basan en una matriz de distancias o similitudes. Por ejemplo,
dentro de los métodos:
Jerárquicos aglomerativos:
o Método del Linkage Simple, Enlace Simple o Vecino más próximo
o Método del Linkage Completo, Enlace Completo o Vecino más alejado
o Método del Promedio entre grupos
o Método del Centroide
o Método de la Mediana
o Método de Ward
Jerárquicos divisivos o disociativos
o Método del Linkage Simple
o Método del Linkage Completo
o Método del Promedio entre grupos
o Método del Centroide
o Método de la Mediana
ANÁLISIS CLÚSTER 5
o Análisis de Asociación
Paso 4: Estandarización de los datos (Decidir si se trabaja con los datos según se miden o
estandarizados).
El orden de las similitudes puede cambiar bastante con sólo un cambio de escala de una de las
variables por lo que sólo se realizará una tipificación cuando resulte necesario.
Los tres métodos de análisis que vamos a estudiar son de tipo aglomerativo, en el sentido de
que, partiendo del análisis de los casos individuales, intentan ir agrupando casos hasta llegar a la
formación de grupos o conglomerados homogéneos.
Todos los métodos de análisis clúster son métodos exploratorios de datos
o Para cada conjunto de datos podemos tener diferentes agrupaciones, dependiendo del
método
o Lo importante es identificar una solución que nos enseñe cosas relevantes de los datos.
En esta práctica estudiamos primero el Análisis clúster Jerárquico, seguido del Análisis
Clúster de K medias y por último el Análisis Clúster en dos etapas.
CLÚSTER JERÁRQUICO
Paso 1 y 2: Para detectar valores atípicos podemos representar los puntos en el plano
Paso 3: La medida de distancia que vamos a tomar entre los objetos va a ser la distancia
euclídea
ANÁLISIScuya CLÚSTER
expresión es: 10
2 2
√
d ( P1 , P2 ) = ( x2−x 1 ) + ( y 2− y 1)
2 2
d ( A , B ) =√ (2−1 ) + ( 1−1 ) =1
Realizamos la distancia euclídea entre todos los puntos y obtenemos la siguiente matriz de
distancias euclídeas entre los objetos
Paso 5: Fusionamos los clústeres más similares construyendo un nuevo clúster que contiene A y
B. Se han formado los clústeres: AB, C, D y E.
Paso 6: Calculamos la distancia entre el clúster AB y los objetos C, D y E. Para medir esta
distancia tomamos como representante del clúster AB el centroide, es decir, el punto que tiene
como coordenadas las medias de los valores de las componentes de las variables, es decir, las
coordenadas de AB son: ((1+ 2)/2 ,(1+1)/2)=(1.5 ,1) . La tabla de datos es la siguiente
Paso 7: Repetimos desde el paso 4 hasta que todos los objetos estén en un único clúster
Paso 4: A partir de estos datos calculamos de nuevo la matriz de distancias
ANÁLISIS CLÚSTER 11
Paso 5: Los clústeres más similares son el D y E con una distancia de 2, que se fusionan
en un nuevo clúster DE. Se han formado tres clústeres AB, C, DE
Paso 6: Calculamos el centroide del nuevo clúster que es el punto (6,7) y formamos de
nuevo la tabla de datos
Paso 5: Los clústeres más similares son el C y DE con una distancia de 2.8, que se
fusionan en un nuevo clúster CDE. Se han formado dos clústeres AB y CDE
Paso 6: Calculamos el centroide del nuevo clúster
((4+ 5+7)/3 ,(5+7+7)/3)=(5.3 ,6.3) y formamos de nuevo la tabla de datos
En este último paso tenemos solamente dos clústeres con distancia 6.4 que se fusionarán en un
único clúster en el paso siguiente terminando el proceso.
El dendograma muestra como solución más acertada la formada por dos clústeres: AB y CDE.
A continuación, mostramos varias soluciones, para ello cortamos el dendograma por medio de
líneas horizontales, así por ejemplo
ANÁLISIS CLÚSTER 13
El número de clústeres depende del sitio donde cortemos el dendograma, por lo tanto, la
decisión sobre el número óptimo de clúster es subjetiva. Es conveniente elegir un número de
clúster que sepamos interpretar. Para interpretar los clústeres podemos utilizar:
o ANOVA
o Análisis factorial
ANÁLISIS CLÚSTER 14
o Análisis discriminante
o …
o Sentido común
Para decidir el número de clúster nos puede ser de gran utilidad representar los distintos pasos
del algoritmo y las distancias a la que se produce la fusión del clúster. En los primeros pasos el
salto de las distancias es pequeño, mientras que esas diferencias van aumentando en los
sucesivos pasos. Podemos elegir, como punto de corte aquel donde comienzan a producirse
saltos más bruscos. En nuestro ejemplo, el salto brusco se produce entre etapas 3 y 4, por lo
tanto, son dos el número de clúster óptimo.
Ejemplo práctico 1
Se desea hacer un estudio de mercado sobre las preferencias de los consumidores al adquirir un
vehículo, para ello disponemos de un conjunto de datos que se encuentran en el fichero
ventas_vehiculos.sav, que contiene información acerca de automóviles y camiones en los que
figura una serie
ANÁLISIS de variables como el fabricante, modelo, ventas, etc.
CLÚSTER 15
El fichero de datos ventas_vehiculos.sav contiene 157 datos y está formado por las siguientes
variables:
Variables tipo cadena: marca (Fabricante); modelo
Variable tipo numérico: ventas (en miles); reventa (Valor de reventa en 4 años); tipo (Tipo de
vehículo: Valores: {0, Automóvil; 1, Camión}); precio (en miles); motor (Tamaño del motor);
CV (Caballo); pisada (Base de neumáticos); ancho (Anchura); largo (Longitud); peso_neto
(Peso neto); depósito (capacidad de combustible); mpg (Consumo).
En primer lugar, restringiremos el archivo de datos sólo a los automóviles de los que se
vendieron al menos 100.000 unidades. Para ello seleccionamos los casos que cumplan esa
condición eligiendo en los menús:
y pulsar Si la op… Como el estudio se va a realizar sólo para los automóviles de los que se
vendieron al menos 100.000 unidades, en la ventana de la caja de diálogo Seleccionar casos. Si
la opción escribir (tipo = 0) & (ventas>100).
ANÁLISIS CLÚSTER 16
Pulsar Continuar. En el editor de datos (están tachados los casos para los que no se va a llevar
a cabo el análisis clúster) aparece una nueva variable filter_$ con dos valores (0 = “Not
Selected” y 1 = “Selected”).
Una vez seleccionada la muestra con la que vamos a trabajar, utilizamos el Análisis de
Conglomerados Jerárquicos para agrupar los automóviles de mayor venta en función de sus
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
precios, fabricante, modelo y propiedades físicas. Para ejecutar este análisis clúster se elige en
los menús: Analizar/ Clasificar/Conglomerados Jerárquicos …
Como se observa en esta figura, se pueden realizar conglomerados para objetos (casos) o para
variables (agrupar variables por el parecido que presentan en las respuestas de los individuos) y
se pueden etiquetar los grupos con una de las variables del fichero.
Introducir en el campo Variables: precio (en miles); motor (Tamaño del motor); CV
ANÁLISIS CLÚSTER 17
(Caballo); pisada (Base de neumáticos); ancho (Anchura); largo (Longitud); peso_neto (Peso
neto); depósito (capacidad de combustible); mpg (Consumo). Y elegimos una variable de
identificación para etiquetar los casos (opción no obligatoria), para ello introducimos en el
Campo Etiquetar los casos mediante: la variable modelo.
Pulsar Método.
El método de Ward y el método de la media (enlace medio) son los menos sensibles a outliers.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
Transformar medidas. Mediante esta opción se pueden transformar los valores generados por
la medida de distancia. Se aplican después de calcular la medida de distancia. Las opciones
disponibles son: Valores absolutos, Cambiar el signo y Cambiar la escala al rango 0–1.
En nuestro ejemplo, dado que las variables en el análisis son variables de escala que se miden
en unidades diferentes, la elección de la medida de la distancia, la medida
de Intervalo (Distancia euclídea al cuadrado) y la normalización parece apropiado.
Elegimos, como método de clúster Vecino más próximo, este método es apropiado para usar
cuando se desea examinar los grados de similitud, pero es pobre en la construcción de distintos
grupos. Por lo tanto, después de examinar los resultados con este método deberíamos realizar de
nuevo el estudio con un método distinto del clúster.
En la ventana de la figura anterior seleccionar como Medida: Intervalo (Distancia euclídea al
cuadrado), como Método de conglomeración: Vecino más próximo y seleccionar
Puntuaciones Z en Trasformar valores, Estandarizar: Pulsar Continuar y en la caja de diálogo
de Análisis de conglomerados jerárquicos pulsar Gráficos…
ANÁLISIS CLÚSTER 20
Dendrograma. Es una representación gráfica en forma de árbol, en el que los clústeres están
representados mediante trazos verticales (horizontales) y las etapas de fusión mediante trazos
horizontales (verticales). La separación entre las etapas de fusión es proporcional a la distancia a
la que están los grupos que se funden en esa etapa. SPSS representa las distancias entre grupos
re escaladas, por tanto, son difíciles de interpretar. Los dendrogramas pueden emplearse para
evaluar la cohesión de los conglomerados que se han formado y proporcionar información sobre
el número adecuado de conglomerados que deben conservarse.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
ANÁLISIS CLÚSTER 21
o Un grupo está formado por los modelos: Accord (8), Camry (11), Malibu (2), Grand
Am (9), Impala (3), Taurus (5), Mustang (4) y
o el otro grupo está formado por los modelos: Focus (6), Civic (7), Cavalier (1) y Corolla
(10).
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
Hay otro hueco aproximadamente 15 y 20 que sugiere 5 clusters (8, 11); (2,9); (3, 5); (4); (6, 7,
1, 10).
Entre 10 y 15 hay otro hueco que sugiere 6 clusters (8, 11); (2,9); (3, 5); (4); (6, 7, 1); (10).
En nuestro ejemplo, en la primera etapa se unen los casos 8 y 11 (Accord (8), Camry (11))
porque son los que tienen la distancia más pequeña (1.260). El grupo creado por 8 y 11 aparece
de nuevo en la etapa 7 donde se une al clúster 2 (formado en la etapa 3). Por lo tanto, en esta
etapa se unen los grupos creados en las etapas 1 y 3 y el grupo resultante formado por 8, 11, 2 y
9 aparece en la siguiente etapa la 8.
Si hay muchos casos la tabla es bastante larga, pero suele ser más fácil de estudiar la columna
de coeficientes para distinguir grandes distancias que analizar el dendrograma. Cuando se
observa un salto inesperado en el coeficiente de distancia, la solución antes de ese hueco indica
una buena elección de conglomerados.
Las mayores diferencias en la columna de los coeficientes se producen entre las etapas 5 y 6, lo
que indica una solución de 6-clúster ((8, 11); (2,9); (3, 5); (4); (6, 7, 1); (10)) y entre las etapas 9
y 10, lo que indica una solución de 2-clúster. Estos son los mismos que los resultados del
dendrograma.
Esta tabla muestra los casos que pertenecen a cada clúster. Por ejemplo, si la solución son dos
clusters, los casos Cavalier, Focus, Civic y Corolla forman el clúster 1 y los demás casos forman
el clúster 2.
Esta tabla muestra la Matriz de distancias que proporciona las similaridades entre los casos
ANÁLISIS CLÚSTER 24
El programa permite guardar conglomerados de pertenencia, estas variables se pueden utilizar
en análisis posteriores para explorar otras diferencias entre los grupos. Para ello en la caja de
diálogo del Análisis de conglomerados jerárquicos pulsar Guardar…
Ejemplo Práctico 2
Realizar el ejemplo práctico utilizando como Método de conglomerado, el Vecino más lejano.
ANÁLISIS CLÚSTER 25
La primera gran diferencia es entre las etapas 5 y 6 (6 clúster), la segunda entre 8 y 9 (3 clúster)
y entre 9 y 10 (2 clúster).
ANÁLISIS CLÚSTER 26
o La división inicial del árbol forma dos grupos, (8, 11, 1, 6, 7, 10) y (2, 9, 3, 5, 4). El
clúster primero contiene los automóviles más pequeños y el clúster segundo contiene
los coches más grandes.
o El grupo de coches más pequeños se puede dividir en dos subgrupos, uno de ellos
formado por los coches más pequeños y más baratos. Así la división siguiente en 3
clusters: (Accord (8), Camry (11), Cavalier (1)), (Focus (6), Civic (7), Corolla (10)),
estos tres coches son más pequeños y más baratos que los tres anteriores) y (Malibu (2),
Gran Am (9), Impala (3), Taurus (5), Mustang (4)).
Resumen
La solución de la vinculación completa (vecino más lejano) es satisfactoria debido a que sus
grupos son diferentes, mientras que la solución del vecino más cercano es menos concluyente.
Usando como Método de conglomeración la vinculación completa (Vecino más lejano), se
puede determinar la competencia que hay entre los vehículos en la fase de diseño mediante la
introducción de sus especificaciones como nuevos casos en el conjunto de datos y volver a
ejecutar el análisis.
la siguiente selección
Pulsar Continuar y Aceptar
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
Ejemplo práctico 3
ANÁLISIS CLÚSTER 28
Una compañía de telecomunicaciones realiza un estudio con el fin de reducir el abandono de sus
clientes. Para ello dispone de un archivo de datos, donde cada caso corresponde a un cliente
distinto del que registra diversa información demográfica y del uso del servicio. El objetivo es
segmentar su base de clientes por patrones de uso del servicio. Si los clientes se pueden
clasificar por el uso, la empresa puede ofrecer paquetes más atractivos para sus clientes. Las
variables que indican el uso y no uso de los servicios están contenidas en el
archivo Telecomunicaciones.sav.
El archivo de datos telecomunicaciones1.sav contiene 1000 datos y está formado por las
siguientes variables: región, permanencia, edad, estado_civil, dirección, ingresos_familiares,
nivel_educativo, empleo, género, n-pers_hogar, llamadas_gratuitas, alquiler_equipo,
tarjeta_llamada, inalámbrico, larga_distancia_mes, llamadas_gratuitas_mes, equipo_mes,
tarjeta_mes, inalámbrico_mes, líneas_múltiples, mensaje_voz, servicio_busca, internet,
identificador_llamada, desvío_llamadas, llamada_a_tres, facturación_electrónica.
Utilizar el procedimiento Análisis de conglomerados jerárquico para estudiar las relaciones
entre los distintos servicios.
Para ejecutar el análisis de conglomerados, elija en los menús: Analizar/
Clasificar/Conglomerados Jerárquicos …
Pulsar Restablecer para restaurar la configuración por defecto.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
ANÁLISIS CLÚSTER
Pulsar Gráficos…. Seleccionar Dendrograma y en Témpanos seleccionar Ninguna 29
Pulsar Continuar y Aceptar
ANÁLISIS CLÚSTER 30
En las medidas binarias, la columna de los coeficientes informa de las medidas de similitud, por
lo tanto, los valores de este coeficiente van disminuyendo en cada etapa del análisis. Es difícil
interpretar los resultados, por lo que recurrimos al Dendrograma.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
El dendograma muestra que los patrones de uso de Líneas múltiples y Servicio de tarjeta de
llamada son distintos de los otros servicios. Estos se agrupan en tres grupos. Un grupo incluye
inalámbrico, servicio_busca y mensaje_voz. Otro incluye alquiler_equipo, internet, y
ANÁLISIS CLÚSTER El último grupo contiene las variables llamadas_gratuitas,
facturación_electrónica. 31
llamadas_espera, identificador_llamada, desvio_llamadas y llamada_a_tres. El
grupo servicio inalámbrico está más cerca del grupo de Internet que el grupo LlamEsp.
Ejemplo práctico 4
Realizar de nuevo el estudio con la medida de distancia de Jaccard y comparar los resultados.
Para ejecutar un análisis de conglomerados con la medida de distancia de Jaccard, en el
cuadro de diálogo de Análisis de Conglomerados Jerárquicos, pulsar Método y en la ventana
correspondiente seleccionar Jaccard como medida binaria.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
ANÁLISIS CLÚSTER 32
Utilizando la medida de Jaccard, los tres grupos básicos son los mismos, pero el grupo servicio
inalámbrico está más cerca del grupo LlamEsp que el grupo Internet.
ANÁLISIS CLÚSTER 33
La diferencia entre la simple adaptación y las medidas de Jaccard es que la medida Jaccard no
considera dos servicios similares si una persona no está suscrita. Es decir, casación simple
considera que los servicios inalámbricos y de Internet son similares cuando un cliente esté en
ambos o en ninguno, mientras que Jaccard considera que son similares sólo cuando un cliente
tiene dos servicios. Esto provoca una diferencia en las soluciones de clúster porque hay muchos
clientes que no tienen servicios inalámbricos o Internet. Por lo tanto, estos grupos son más
similares en la solución de casación simple que la solución de Jaccard. La medida que se utiliza
depende de la definición de “similares” que se aplica a la situación.
Análisis clúster de K-medias es una herramienta diseñada para asignar los casos a un número
fijo de grupos, cuyas características no se conocen, pero se basan en un conjunto de variables
que deben ser cuantitativas. Es muy útil cuando se quiere clasificar un gran número de
casos. Es un método de agrupación de casos que se basa en las distancias existentes entre ellos
en un conjunto de variables cuantitativas. Este método de aglomeración no permite agrupar
variables. El objetivo de optimalidad que se persigue es “maximizar la homogeneidad dentro de
los grupos.”
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
Existen varias formas de implementarlo, pero todas ellas siguen, básicamente, los siguientes
pasos:
ANÁLISIS CLÚSTER 34
El método suele ser muy sensible a la solución inicial dada por lo que es conveniente utilizar
una que sea buena. Una forma de construirla es mediante una clasificación obtenida por un
algoritmo jerárquico.
Como aclaración, vamos a realizar el procedimiento para el caso de dos variables X 1 y X2 y
cuatro elementos A, B, C. D. Los datos son los siguientes:
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
ANÁLISIS CLÚSTER 35
Paso 2. Calculamos la distancia euclídea de cada observación a los centroides de los clústeres y
reasignamos cada una de estas observaciones al clúster que esté más próximo
Paso 3. Se repite el paso 2 calculando las distancias de cada observación a los centroides de los
nuevos clústeres para ver si se producen cambios de nuevas reasignaciones
Como no se producen cambios en las ubicaciones de los clústeres, la solución para k=2 clústeres
es: Clúster 1: (A) y Clúster 2: (BCD).
Existe la posibilidad de utilizar esta técnica de manera exploratoria, clasificando los casos e
iterando para encontrar la ubicación de los centroides, o sólo como técnica de clasificación,
clasificando los casos a partir de centroides conocidos. Cuando se utiliza como técnica
exploratoria, es habitual que se desconozca el número idóneo de conglomerados, (como el
ejemplo numérico que hemos hecho), por lo que es conveniente repetir el análisis con distinto
número de conglomerados y comparar las soluciones obtenidas; en estos casos también se puede
utilizar el método
ANÁLISIS análisis de conglomerados jerárquico con una submuestra de casos.
CLÚSTER 36
Por último, hay que interpretar la clasificación obtenida, ello requiere, en primer lugar, un
conocimiento suficiente del problema analizado. Hay que estar abierto a la posibilidad de que
no todos los grupos obtenidos tienen por qué ser significativos. Algunas ideas que pueden ser
útiles en la interpretación de los resultados son las siguientes:
Conviene hacer notar, finalmente, que es una técnica eminentemente exploratoria cuya finalidad
es sugerir ideas al analista a la hora de elaborar hipótesis y modelos que expliquen el
comportamiento de las variables analizadas identificando grupos homogéneos de objetos. Los
resultados del análisis deberían tomarse como punto de partida en la elaboración de teorías que
expliquen dicho comportamiento
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
Ejemplo práctico 5
La lista de variables del archivo de datos ofrece un listado con todas las variables del archivo
(numéricas y de cadena), pero las variables de cadena sólo pueden utilizarse para etiquetar
casos.
Los archivos de datos utilizados por estas dos opciones contienen variables con nombres
especiales reconocidas automáticamente por el sistema. No es recomendable generar libremente
la estructura de estos archivos; es preferible dejar que sea el propio procedimiento el que los
genere.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
ANÁLISIS CLÚSTER 39
Seleccionar la opción Muestra aleatoria de casos y pulsar Ejemplo…
Aceptando estas selecciones, el archivo de datos queda filtrado, dejando disponibles sólo 36 de
los 157 casos existentes.
Vamos a comenzar representando la distancia existente entre los casos en dos variables de
interés, hemos elegido la variable peso y la variable Tamaño del motor. Para ello, seleccionar
en el menú principal Gráficos/Generador de gráficos…
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
ANÁLISIS CLÚSTER 41
Desplazar la variable peso (peso total del vehículo en kg) al eje abscisas y la Tamaño del
motor al eje de ordenadas
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
ANÁLISIS CLÚSTER 43
Se han identificado, mediante el número de caso, los dos vehículos aparentemente más alejados
entre sí (el caso 79 y el caso 131). La nube de puntos, por tanto, incita a pensar que existen al
menos dos grupos naturales de casos.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las tablas siguientes
ANÁLISIS CLÚSTER 44
Esta tabla contiene los centros iniciales de los clústeres, es decir, los valores que corresponden,
en las dos variables de clasificación utilizadas, a los dos casos que han sido elegidos como
centros respectivos de los dos conglomerados solicitados.
Seleccionando de nuevo, en la ventana del Editor Elementos/Mostrar etiquetas de datos… y
en Propiedades pasar Peso neto y Tamaño de motor a la ventana de Mostrado:
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
Pulsar Aplicar
ANÁLISIS CLÚSTER 45
Se comprueba que los casos son el 131 (Conglomerado 1) y el 79 (Conglomerado 2), los
mismos que han sido identificados en el diagrama de dispersión.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
Una vez seleccionados los centros de los conglomerados, cada caso es asignado al
conglomerado de cuyo centro se encuentra más próximo y comienza un proceso de ubicación
iterativa de los centros. En la primera iteración se reasignan los casos por su distancia al
nuevo centro y, tras la reasignación, se vuelve a actualizar el valor del centro. En la siguiente
iteración se vuelven a reasignar los casos y a actualizar el valor del centro. Etc.
Esta tabla muestra los centros de los conglomerados finales es decir, los centros de los
conglomerados tras el proceso de actualización iterativa. Comparando los centros finales (tras
la iteración) de esta tabla con los centros iniciales (antes de la iteración) se puede apreciar con
claridad un desplazamiento del centro del conglomerado 1 hacia la parte superior del plano
definido por las dos variables de clasificación y un desplazamiento del centro del conglomerado
2 hacia la parte inferior.
Esta tabla es de gran utilidad para interpretar la constitución de los conglomerados pues resume
ANÁLISIS CLÚSTER 46
los valores centrales de cada conglomerado en las variables de interés. La interpretación de los
resultados de nuestro ejemplo es simple: el primer conglomerado está constituido por
vehículos de gran tamaño de motor y mucho peso, mientras que segundo conglomerado
está constituido por los vehículos de tamaño de motor reducido y poco peso.
Por último, esta tabla informa sobre el Número de casos asignado a cada conglomerado. En
nuestro ejemplo, los tamaños de los conglomerados son bastantes diferentes.
Para mostrar el Historial de iteraciones seleccionar en cuadro de diálogo de Análisis de
conglomerados de K-medias la opción Iterar y Clasificar
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
Si no se selecciona esta opción, los nuevos centros de los conglomerados finales se calcularán
después de la clasificación de todos los casos.
Dejamos el número de iteraciones máximas que viene por defecto, 10, seleccionamos Usar
medias actualizadas y pulsamos Continuar y Aceptar
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
ANÁLISIS CLÚSTER 48
Esta tabla resume el historial de iteraciones (18 en nuestro ejemplo) con indicación del cambio
(desplazamiento) experimentado por cada centro en cada iteración. Puede observarse que,
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI
Ejemplo práctico 6
ANÁLISIS CLÚSTER 49