0% encontró este documento útil (0 votos)
413 vistas49 páginas

Análisis Clúster

Este documento describe los objetivos y la introducción de un curso de especialización en análisis de clúster. Los objetivos incluyen identificar grupos homogéneos, determinar criterios de similitud y aplicar métodos de clasificación jerárquicos y no jerárquicos. La introducción explica que el análisis de clúster es una técnica de clasificación multivariante que agrupa objetos en clústeres homogéneos. Se utiliza en diversas disciplinas como astronomía, marketing, biología y más.

Cargado por

Emigdio Rojas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
413 vistas49 páginas

Análisis Clúster

Este documento describe los objetivos y la introducción de un curso de especialización en análisis de clúster. Los objetivos incluyen identificar grupos homogéneos, determinar criterios de similitud y aplicar métodos de clasificación jerárquicos y no jerárquicos. La introducción explica que el análisis de clúster es una técnica de clasificación multivariante que agrupa objetos en clústeres homogéneos. Se utiliza en diversas disciplinas como astronomía, marketing, biología y más.

Cargado por

Emigdio Rojas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA

ENEI

OBJETIVOS

1. Identificar grupos de objetos homogéneos.


2. Determinar el criterio de similitud.
3. Distinguir los Métodos de clasificación Jerárquicos y los Métodos de clasificación No-
Jerárquicos o Repartición.
4. Plantear y aplicar el Análisis Clúster Jerárquico.
5. Distinguir los Métodos Jerárquicos Aglomerativos y los Métodos Jerárquicos Divisivos.
6. Entender y aplicar el proceso algorítmico del Análisis Clúster Jerárquico Aglomerativo.
7. Saber construir una matriz de distancias.
8. Representar e Interpretar un dendograma.
9. Plantear y aplicar el Análisis Clúster de K medias.
10. Entender y aplicar el proceso algorítmico del Análisis Clúster de K medias.
11. Plantear y aplicar el Análisis Clúster en dos etapas o bietápico.

INTRODUCCIÓN

El análisis clúster es una técnica multivariante cuya idea básica es clasificar objetos formando
grupos/conglomerados (clúster) que sean lo más homogéneos posible dentro de sí mismos y
ANÁLISIS entre
heterogéneos CLÚSTER
sí. 1

Surge ante la necesidad de diseñar una estrategia que permita definir grupos de objetos
homogéneos. Este agrupamiento se basa en la idea de distancia o similitud entre las
observaciones y la obtención de dichos clústeres depende del criterio o distancia considerados,
por ejemplo, una baraja de carta española se podría dividir de distintas formas: en dos clústeres
(figuras y números), en cuatro clústeres (los cuatro palos), en ocho clústeres (los cuatro palos y
según sean figuras o números). Es decir, el número de clúster depende de lo que consideremos
como similar.
El análisis clúster es una tarea de clasificación. Por ejemplo
o Clasificar grupos de consumidores respecto a sus preferencias en nuevos productos
o Clasificar las entidades bancarias donde sería más rentable invertir
o Clasificar las estrellas del cosmos en función de su luminosidad
o Identificar si hay grupos de municipios en una determinada comunidad con una
tendencia similar en el consumo de agua con el fin de identificar buenas prácticas para
la sostenibilidad y zonas problemáticas por alto consumo.
Como se puede comprender fácilmente el análisis clúster tiene una extraordinaria importancia
en la investigación científica, en cualquier rama del saber. La clasificación es uno de los
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

objetivos fundamentales de la Ciencia y en la medida en que el análisis clúster nos proporciona


los medios técnicos para realizarla, se nos hará imprescindible en cualquier investigación.

PLANTEAMIENTO DEL PROBLEMA


Consideremos una muestra X formada por n individuos sobre los que se miden p variables,
X 1 , X 2 , … , X p ( p variables numéricas observadas en n objetos). Sea x ijel valor de la variable
X j en el i-ésimo objeto i=1 , … , n; j=1 ,… , p .
Este conjunto  X  de valores numéricos se pueden ordenar en una matriz

La i-ésima fila de la matriz  X  contiene los valores de cada variable para el i-ésimo individuo,
mientras
ANÁLISISque la j-ésima columna muestra los valores pertenecientes a la j-ésima variable a lo
CLÚSTER 2
largo de todos los individuos de la muestra.
Se trata, fundamentalmente, de resolver el siguiente problema: Dado un conjunto
de n individuos caracterizados por la información de p variables  X j, ( j=1,2 , … , p) , nos
planteamos clasificarlos de manera que los individuos pertenecientes a un grupo (clúster) (y
siempre con respecto a la información disponible de las variables) sean lo más similares
posibles entre sí y los distintos grupos sean entre ellos tan disimilares como sea posible.
El proceso completo puede estructurarse de acuerdo con el siguiente esquema:
o Partimos de un conjunto de n  individuos de los que se dispone de una información
cifrada por un conjunto de  p variables (una matriz de datos de n individuos
y p variables).
o Establecemos un criterio de similaridad y construimos una matriz de similaridades que
nos permita relacionar la semejanza de los individuos entre sí. Para medir lo similares
(o disimilares) que son los individuos existe una gran cantidad de índices de similaridad
y de disimilaridad o divergencia. Todos ellos tienen propiedades y utilidades distintas y
habrá que ser consciente de ellas para su correcta aplicación.
o Elegimos un algoritmo de clasificación para determinar la estructura de agrupación de
los individuos.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

o Especificamos esa estructura mediante diagramas arbóreos.

TÉCNICA DE AGRUPACIÓN DE VARIABLES Y DE CASOS

o Como técnica de agrupación de variables, el análisis clúster es similar al análisis


factorial. Pero, mientras que el análisis factorial es poco flexible en algunos de sus
supuestos (linealidad, normalidad, variables cuantitativas, etc.) y estima de la misma
manera la matriz de distancias, el análisis clúster es menos restrictivo en sus supuestos
(no exige linealidad, ni simetría, permite variables categóricas, etc.) y admite varios
métodos de estimación de la matriz de distancias. 
o Como técnica de agrupación de casos, el análisis clúster es similar al análisis
discriminante. Pero mientras que el análisis discriminante se centra en la agrupación de
variables, es decir efectúa la clasificación tomando como referencia un criterio o
variable dependiente (los grupos de clasificación), el análisis clúster se centra en
agrupar objetos, es decir permite detectar el número óptimo de grupos y su composición
únicamente a partir de la similaridad existente entre los casos; además, el análisis de
clúster no asume ninguna distribución específica para las variables.
ANÁLISIS CLÚSTER 3
Inconvenientes del Análisis Clúster
Es un análisis descriptivo, ateórico y no inferencial. Habitualmente se utiliza como una
técnica exploratoria que no ofrece soluciones únicas, las soluciones dependen de las variables
consideradas y del método de análisis clúster utilizado.
Aplicabilidad
Las técnicas de análisis clúster han sido tradicionalmente utilizadas en muchas disciplinas, por
ejemplo, Astronomía (Clúster = galaxia, súper galaxias, etc.), Marketing (segmentación de
mercados, investigación de mercados), Psicología, Biología (Taxonomía. Microarrays),
Ciencias Ambientales (Clasificación de ríos para establecer tipologías según la calidad de las
aguas), Sociología, Economía, Ingeniería, ….
JAIN and DUBES (1988) definen el Análisis de Clúster como una herramienta de exploración
de datos que se complementa con técnicas de visualización de los mismos.
Resumiendo
o El objetivo del Análisis Clúster es obtener grupos de objetos de forma que, por un lado,
los objetos pertenecientes a un mismo grupo sean muy semejantes entre sí y, por el otro,
los objetos pertenecientes a grupos diferentes tengan un comportamiento distinto con
respecto a las variables analizadas.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

o Es una técnica exploratoria puesto que la mayor parte de las veces no utiliza ningún tipo
de modelo estadístico para llevar a cabo el proceso de clasificación.
o Conviene estar siempre alerta ante el peligro de obtener, como resultado del análisis, no
una clasificación de los datos sino una disección de los mismos en distintos grupos. El
conocimiento que el analista tenga acerca del problema decidirá que grupos
obtenidos son significativos y cuáles no.
o Una vez establecidas las variables y los objetos a clasificar el siguiente paso consiste en
establecer una medida de proximidad o de distancia entre ellos que cuantifique el grado
de similaridad entre cada par de objetos.
o Las medidas de proximidad, similitud o semejanza miden el grado de semejanza
entre dos objetos de forma que, cuanto mayor (menor) es su valor, mayor (menor) es el
grado de similaridad existente entre ellos y mayor (menor) la probabilidad de que los
métodos los asignen en el mismo grupo.
o Las medidas de disimilitud, desemejanza o distancia miden la distancia entre dos
objetos de forma que, cuanto mayor (menor) sea su valor, más (menos) diferentes son
los objetos y menor (mayor) la probabilidad de que los métodos de clasificación los
asignen en el mismo grupo.

ANÁLISIS CLÚSTER 4
MÉTODO DE CLASIFICACIÓN

Se distinguen dos grandes categorías de métodos clúster: Métodos jerárquicos y Métodos no-
jerárquicos
o Métodos Jerárquicos: En cada paso del algoritmo sólo un objeto cambia de grupo y
los grupos están anidados en los de pasos anteriores. Si un objeto ha sido asignado a un
grupo ya no cambia más de grupo.  La clasificación resultante tiene un número
creciente de clases anidadas.
o Métodos No jerárquico o Repartición: Comienzan con una solución inicial, un
número de grupos g fijado de antemano y agrupa los objetos para obtener los g grupos.
Los métodos jerárquicos se subdividen a su vez en aglomerativos y divisivos:
o Los métodos jerárquicos aglomerativos comienzan con tantos clústeres como objetos
tengamos que clasificar y en cada paso se recalculan las distancias entre los grupos
existentes y se unen los dos grupos más similares o menos disimilares. El algoritmo
acaba con un clúster conteniendo todos los elementos.
o Los métodos jerárquicos divisivos comienzan con un clúster que engloba a todos los
elementos y en cada paso se divide el grupo más heterogéneo. El algoritmo acaba con
tantos clústeres (de un elemento cada uno) como objetos se hayan clasificado.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Independientemente del proceso de agrupamiento, hay diversos criterios para ir formando los
clústeres; todos estos criterios se basan en una matriz de distancias o similitudes. Por ejemplo,
dentro de los métodos:

Jerárquicos aglomerativos:
o Método del Linkage Simple, Enlace Simple o Vecino más próximo
o Método del Linkage Completo, Enlace Completo o Vecino más alejado
o Método del Promedio entre grupos
o Método del Centroide
o Método de la Mediana
o Método de Ward
Jerárquicos divisivos o disociativos
o Método del Linkage Simple
o Método del Linkage Completo
o Método del Promedio entre grupos
o Método del Centroide
o Método de la Mediana
ANÁLISIS CLÚSTER 5
o Análisis de Asociación

PROCESO QUE SEGUIR EN UN ANÁLISIS CLÚSTER

Paso 1: Selección de variables


La clasificación dependerá de las variables elegidas. Introducir variables irrelevantes aumenta la
posibilidad de errores. Hay que utilizar algún criterio de selección:
o Seleccionar sólo aquellas variables que caracterizan los objetos que se van agrupando, y
referentes a los objetivos del análisis clúster que se va a realizar
o Si el número de variables es muy grande se puede realizar previamente un Análisis de
Componentes Principales y resumir el conjunto de variables.
Paso 2: Detección de valores atípicos.
El análisis clúster es muy sensible a la presencia de objetos muy diferentes del resto (valores
atípicos).
Paso 3. Seleccionar la forma de medir la distancia/disimilitud entre objetos dependiendo
de si los datos con cuantitativos o cualitativos
o Datos métricos: Medidas de correlación y medidas de distancia
o Datos no métricos: Medidas de asociación.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Paso 4: Estandarización de los datos (Decidir si se trabaja con los datos según se miden o
estandarizados).
El orden de las similitudes puede cambiar bastante con sólo un cambio de escala de una de las
variables por lo que sólo se realizará una tipificación cuando resulte necesario.

Paso 5: Obtención de los clúster y valoración de la clasificación realizada


o Elegir el algoritmo para la formación de clúster (Procedimientos jerárquicos o
procedimientos no jerárquicos)
o Número de clúster: Regla de parada. Existen diversos métodos de determinación del
número de clúster, algunos están basados en reconstruir la matriz de distancias original,
otros en los coeficientes de concordancia de Kendall y otros realizan análisis de la
varianza entre los grupos obtenidos. No existe un criterio universalmente aceptado.
Dado que la mayor parte de los paquetes estadísticos proporciona las distancias de
aglomeración, es decir, las distancias a las que se forma cada clúster, una forma de
determinar el número de grupos consiste en localizar en qué iteraciones del método
utilizado dichas distancias dan grandes saltos
o Adecuación del modelo. Comprobar que el modelo no ha definido clúster con un solo
ANÁLISIS
objeto,CLÚSTER
clúster con tamaños desiguales,… 6
ANÁLISIS CLÚSTER EN SPSS

El programa SPSS dispone de tres tipos de análisis clúster:


o Análisis de conglomerados de bietápico
o Análisis de conglomerados de K medias
o Análisis de conglomerados jerárquicos.
Cada uno de estos procedimientos utiliza un algoritmo distinto en la creación de clusters y
contiene opciones que no están disponibles en los otros.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

o Análisis de conglomerados de bietápico. El clúster en dos etapas está pensado para


minería de datos, es decir para estudios con un número de individuos grande que
pueden tener problemas de clasificación con los otros procedimientos. Se puede utilizar
tanto cuando el número de clúster es conocido a priori y cuando es desconocido.
Permite trabajar juntamente con variables de tipo mixto (cualitativas y cuantitativas).
o Análisis de conglomerados de K medias. Es un método de clasificación No
Jerárquico (Repartición). El número de clúster que se van a formar es fijado de
antemano (requiere conocer el número de clúster a priori) y se agrupan los objetos
para obtener esos grupos. Comienzan con una solución inicial y los objetos se
reagrupan de acuerdo con algún criterio de optimalidad. El clúster no jerárquico sólo
puede ser aplicado a variables cuantitativas. Este procedimiento puede
analizar archivos de datos grandes.
o Análisis de conglomerados jerárquicos. En el método de clasificación Jerárquico en
cada paso del algoritmo sólo un objeto cambia de grupo y los grupos están anidados en
los pasos anteriores. Si un objeto ha sido asignado a un grupo ya no cambia más de
grupo. El método jerárquico es idóneo para determinar el número óptimo de
conglomerados existente en los datos y el contenido de los mismos. Se utiliza
cuando no se conoce el número de clúster a priori y cuando el número de objetos
ANÁLISIS
no esCLÚSTER
muy grande. Permite trabajar juntamente con variables de tipo mixto 7
(cualitativas y cuantitativas). Siempre que todas las variables sean del mismo tipo, el
procedimiento Análisis de Conglomerados Jerárquico podrá analizar variables de
intervalo (continuas), de recuento o binarias.

Los tres métodos de análisis que vamos a estudiar son de tipo aglomerativo, en el sentido de
que, partiendo del análisis de los casos individuales, intentan ir agrupando casos hasta llegar a la
formación de grupos o conglomerados homogéneos.
Todos los métodos de análisis clúster son métodos exploratorios de datos
o Para cada conjunto de datos podemos tener diferentes agrupaciones, dependiendo del
método
o Lo importante es identificar una solución que nos enseñe cosas relevantes de los datos.
En esta práctica estudiamos primero el Análisis clúster Jerárquico, seguido del Análisis
Clúster de K medias y por último el Análisis Clúster en dos etapas.

CLÚSTER JERÁRQUICO

Este procedimiento intenta identificar grupos relativamente homogéneos de casos (o de


variables) basándose en las características seleccionadas. Permite trabajar juntamente con
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

variables de tipo mixto (cualitativas y cuantitativas), siendo posible analizar las variables


brutas o elegir de entre una variedad de transformaciones de estandarización. Se utiliza
cuando no se conoce el número de clúster a priori y cuando el número de objetos no es muy
grande.  Como hemos dicho anteriormente, los objetos de análisis de agrupamiento jerárquico
pueden ser casos o variables, dependiendo de si desea clasificar los casos o examinar las
relaciones entre las variables.
Al trabajar con variables que pueden ser cuantitativas, binarias o datos de recuento
(frecuencias), el escalamiento de las variables es un aspecto importante, ya que las diferentes
escalas en que están medidas las variables pueden afectar a las soluciones de conglomeración.
Si las variables muestran grandes diferencias en el escalamiento (por ejemplo, una variable se
mide en dólares y la otra se mide en años), se debe considerar la posibilidad de estandarizarlas.
Esto puede llevarse a cabo automáticamente mediante el propio procedimiento Análisis de
conglomerados jerárquico.
Estudiaremos fundamentalmente los Métodos Jerárquicos Aglomerativos. En estos métodos
se utilizan diversos criterios para determinar, en cada paso del algoritmo, qué grupos se deben
unir.
o Enlace simple o vecino más próximo: Mide la proximidad entre dos grupos calculando
la distancia entre sus objetos más próximos o la similitud entre sus objetos más
semejantes
ANÁLISIS CLÚSTER 8
o Enlace completo o vecino más alejado: Mide la proximidad entre dos grupos
calculando la distancia entre sus objetos más lejanos o la similitud entre sus objetos
menos semejantes
o Enlace medio entre grupos: Mide la proximidad entre dos grupos calculando la media
de las distancias entre objetos de ambos grupos o la media de las similitudes entre
objetos de ambos grupos
o Enlace medio dentro de los grupos: Mide la proximidad entre dos grupos con la
distancia media existente entre los miembros del grupo unión de los dos grupos
o Métodos del centroide y de la mediana: Ambos métodos miden la proximidad entre
dos grupos calculando la distancia entre sus centroides. Los dos métodos difieren en la
forma de calcular los centroides:
 El método del centroide utiliza las medias de todas las variables
 En el método de la mediana, el nuevo centroide es la media de los centroides de
los grupos que se unen
Comparación de los diversos métodos aglomerativos
o El enlace simple conduce a clúster encadenados
o El enlace completo conduce a clúster compactos
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

o El enlace completo es menos sensible a outliers que el enlace simple


o El método de Ward y el método del enlace medio son los menos sensibles a outliers
o El método de Ward tiene tendencia a formar clúster más compactos y de igual tamaño y
forma en comparación con el enlace medio
o Todos los métodos salvo el método del centroide satisfacen la desigualdad ultramétrica

Decisiones que tomar para realizar un análisis clúster

1. Elegir el método clúster que se va a utilizar


2. Decidir si se estandarizan los datos
3. Seleccionar la forma de medir la distancia/disimilitud entre los individuos
4. Elegir un criterio para unir grupos, distancia entre grupos.

Proceso que se debe seguir en un Análisis Clúster Jerárquico Aglomerativo


Paso 1: Selección de las variables. Se recomienda que las variables sean del mismo tipo
(continuas,
ANÁLISIS categóricas,
CLÚSTER etc) 9
Paso 2: Detección de valores atípicos. El análisis clúster es muy sensible a la presencia de
objetos muy diferentes del resto (valores atípicos).
Paso 3: Elección de una medida de similitud entre objetos y obtención de la matriz de
distancias. Mediante estas medidas se determinan los clústeres iniciales.
Paso 4: Buscar los clústeres más similares
Paso 5: Unir estos dos clústeres en un nuevo clúster que tenga al menos dos objetos, de forma
que el número de clúster decrece en una unidad.
Paso 6: Calcular la distancia entre este clúster y el resto. Los distintos métodos para el
cálculo de las distancias entre los clústeres producen distintas agrupaciones, por lo que no existe
una agrupación única.
Paso 7: Repetir desde el paso 4 hasta que todos los objetos estén en un único clúster.
El proceso de agrupación jerárquico se puede resumir gráficamente mediante una representación
gráfica en forma de árbol que recibe el nombre de Dendograma. Los objetos similares se
enlazan y su posición en el diagrama está determinada por el nivel de similitud/disimilitud entre
los objetos.
Vamos a realizar el proceso descrito y para ello utilizamos un ejemplo sencillo. Dicho ejemplo
está formado por 5 objetos (A, B, C, D, E) y 2 variables (X 1, X2). Los datos se presentan en la
siguiente tabla
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Paso 1 y 2: Para detectar valores atípicos podemos representar los puntos en el plano

No detectamos valores atípicos

Paso 3: La medida de distancia que vamos a tomar entre los objetos va a ser la distancia
euclídea
ANÁLISIScuya CLÚSTER
expresión es: 10
2 2

d ( P1 , P2 ) = ( x2−x 1 ) + ( y 2− y 1)

Así, por ejemplo, la distancia entre el clúster A y el clúster B es:

2 2
d ( A , B ) =√ (2−1 ) + ( 1−1 ) =1

Realizamos la distancia euclídea entre todos los puntos y obtenemos la siguiente matriz de
distancias euclídeas entre los objetos

Estamos realizando el método jerárquico aglomerativo, por lo que inicialmente tenemos 5


clúster, uno por cada uno de los objetos a clasificar.
Paso 4: Observamos en la matriz de distancias cuales son los objetos más similares, en nuestro
ejemplo son el A y B que tienen la distancia menor (1).
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Paso 5: Fusionamos los clústeres más similares construyendo un nuevo clúster que contiene A y
B. Se han formado los clústeres: AB, C, D y E.
Paso 6: Calculamos la distancia entre el clúster AB y los objetos C, D y E. Para medir esta
distancia tomamos como representante del clúster AB el centroide, es decir, el punto que tiene
como coordenadas las medias de los valores de las componentes de las variables, es decir, las
coordenadas de AB son: ((1+ 2)/2 ,(1+1)/2)=(1.5 ,1) . La tabla de datos es la siguiente

Paso 7: Repetimos desde el paso 4 hasta que todos los objetos estén en un único clúster
Paso 4: A partir de estos datos calculamos de nuevo la matriz de distancias

ANÁLISIS CLÚSTER 11

Paso 5: Los clústeres más similares son el D y E con una distancia de 2, que se fusionan
en un nuevo clúster DE. Se han formado tres clústeres AB, C, DE
Paso 6: Calculamos el centroide del nuevo clúster que es el punto (6,7) y formamos de
nuevo la tabla de datos

Paso 4: A partir de estos datos calculamos de nuevo la matriz de distancias


ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Paso 5: Los clústeres más similares son el C y DE con una distancia de 2.8, que se
fusionan en un nuevo clúster CDE. Se han formado dos clústeres AB y CDE
Paso 6: Calculamos el centroide del nuevo clúster
((4+ 5+7)/3 ,(5+7+7)/3)=(5.3 ,6.3) y formamos de nuevo la tabla de datos

Paso 4: A partir de estos datos calculamos de nuevo la matriz de distancias


ANÁLISIS CLÚSTER 12

En este último paso tenemos solamente dos clústeres con distancia 6.4 que se fusionarán en un
único clúster en el paso siguiente terminando el proceso.

A continuación, vamos a representar gráficamente el proceso de fusión mediante un


dendograma
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

El dendograma muestra como solución más acertada la formada por dos clústeres: AB y CDE.

A continuación, mostramos varias soluciones, para ello cortamos el dendograma por medio de
líneas horizontales, así por ejemplo

ANÁLISIS CLÚSTER 13

En la figura anterior se muestran 2 clústeres: AB y CDE


ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

En esta figura la línea de corte nos muestra 3 clústeres: AB, C y DE

El número de clústeres depende del sitio donde cortemos el dendograma, por lo tanto, la
decisión sobre el número óptimo de clúster es subjetiva. Es conveniente elegir un número de
clúster que sepamos interpretar. Para interpretar los clústeres podemos utilizar:

o ANOVA
o Análisis factorial
ANÁLISIS CLÚSTER 14
o Análisis discriminante
o …
o Sentido común

Para decidir el número de clúster nos puede ser de gran utilidad representar los distintos pasos
del algoritmo y las distancias a la que se produce la fusión del clúster. En los primeros pasos el
salto de las distancias es pequeño, mientras que esas diferencias van aumentando en los
sucesivos pasos. Podemos elegir, como punto de corte aquel donde comienzan a producirse
saltos más bruscos. En nuestro ejemplo, el salto brusco se produce entre etapas 3 y 4, por lo
tanto, son dos el número de clúster óptimo.

Comentarios acerca del clúster jerárquico

o Realizar el clúster jerárquico en conjunto de datos grande es problemático ya que un


árbol con más de 50 individuos es difícil de representar e interpretar.
o Una desventaja general es la imposibilidad de reasignar los individuos a los clústeres en
los casos en que la clasificación haya sido dudosa en las primeras etapas del análisis.
o Debido a que el análisis clúster implica la elección entre diferentes medidas y
procedimientos, con frecuencia es difícil juzgar la veracidad de los resultados.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

o Se recomienda comparar los resultados con diferentes métodos de conglomerados.


Soluciones similares generalmente indican la existencia de una estructura en los datos.
Soluciones muy diferentes probablemente indican una estructura pobre.
o En último caso, la validez de los clústeres se juzga mediante una interpretación
cualitativa que puede ser subjetiva.
o El número de clúster depende del sitio donde cortemos el dendograma.

Ejemplo práctico 1

Los fabricantes de automóviles deben adaptar sus estrategias de desarrollo de productos y de


marketing en función de cada grupo de consumidores para aumentar las ventas y el nivel de
fidelidad a la marca. La tarea de agrupación de los coches según variables que describen los
hábitos de consumo, sexo, edad, nivel de ingresos, etc. de los clientes puede ser en gran medida
automática utilizando el análisis de clúster.

Se desea hacer un estudio de mercado sobre las preferencias de los consumidores al adquirir un
vehículo, para ello disponemos de un conjunto de datos que se encuentran en el fichero
ventas_vehiculos.sav, que contiene información acerca de automóviles y camiones en los que
figura una serie
ANÁLISIS de variables como el fabricante, modelo, ventas, etc.
CLÚSTER 15
El fichero de datos ventas_vehiculos.sav contiene 157 datos y está formado por las siguientes
variables:
Variables tipo cadena: marca (Fabricante); modelo
Variable tipo numérico: ventas (en miles); reventa (Valor de reventa en 4 años); tipo (Tipo de
vehículo: Valores: {0, Automóvil; 1, Camión}); precio (en miles); motor (Tamaño del motor);
CV (Caballo); pisada (Base de neumáticos); ancho (Anchura); largo (Longitud); peso_neto
(Peso neto); depósito (capacidad de combustible); mpg (Consumo).

El estudio de mercado lo queremos realizar sólo en automóviles de mayor venta y para ello


vamos a utilizar el procedimiento Análisis de conglomerados jerárquico para agrupar los
automóviles de mayor venta en función de sus precios, fabricante, modelo y propiedades
físicas.

En primer lugar, restringiremos el archivo de datos sólo a los automóviles de los que se
vendieron al menos 100.000 unidades. Para ello seleccionamos los casos que cumplan esa
condición eligiendo en los menús:

Datos/Seleccionar Casos. Seleccionar Si satisface la condición


ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

y pulsar Si la op… Como el estudio se va a realizar sólo para los automóviles de los que se
vendieron al menos 100.000 unidades, en la ventana de la caja de diálogo Seleccionar casos. Si
la opción escribir (tipo = 0) & (ventas>100).

ANÁLISIS CLÚSTER 16

Pulsar Continuar. En el editor de datos (están tachados los casos para los que no se va a llevar
a cabo el análisis clúster) aparece una nueva variable filter_$ con dos valores (0 = “Not
Selected” y 1 = “Selected”).
Una vez seleccionada la muestra con la que vamos a trabajar, utilizamos el Análisis de
Conglomerados Jerárquicos para agrupar los automóviles de mayor venta en función de sus
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

precios, fabricante, modelo y propiedades físicas. Para ejecutar este análisis clúster se elige en
los menús: Analizar/ Clasificar/Conglomerados Jerárquicos …

Como se observa en esta figura, se pueden realizar conglomerados para objetos (casos) o para
variables (agrupar variables por el parecido que presentan en las respuestas de los individuos) y
se pueden etiquetar los grupos con una de las variables del fichero.

Introducir en el campo Variables: precio (en miles); motor (Tamaño del motor); CV
ANÁLISIS CLÚSTER 17
(Caballo); pisada (Base de neumáticos); ancho (Anchura); largo (Longitud); peso_neto (Peso
neto); depósito (capacidad de combustible); mpg (Consumo). Y elegimos una variable de
identificación para etiquetar los casos (opción no obligatoria), para ello introducimos en el
Campo Etiquetar los casos mediante: la variable modelo.

Nota: Si se aglomeran casos, seleccionar al menos una variable numérica. Si se aglomeran


variables, seleccionar al menos tres variables numéricas.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Pulsar Método.

Método de conglomeración. Los métodos de enlace (linkage) utilizan la proximidad entre


pares de individuos para unir grupos de individuos. Existen diversas formas de medir la
distancia entre clúster que producen diferentes agrupaciones y diferentes dendogramas. No hay
un criterio para seleccionar cual es el algoritmo mejor. La decisión es normalmente subjetiva y
ANÁLISIS CLÚSTER 18
depende del método que mejor refleje los propósitos de cada estudio en particular. Las opciones
disponibles en SPSS son:
o Vinculación inter-grupos. Media Intergrupos
o Vinculación intra-grupos. Media Intragrupos
o Vecino más próximo. Enlace sencillo (salto mínimo). Utiliza la mínima
distancia/disimilitud entre dos individuos de cada grupo (útil para identificar atípicos).
Conduce a clúster encadenados
o Vecino más lejano. Enlace completo (salto máximo). Utiliza la máxima
distancia/disimilitud entre dos individuos de cada grupo. Conduce a clúster compactos.
o Agrupación de centroides. Utiliza la distancia/disimilitud entre los centros de los
grupos
o Agrupación de medianas. Utiliza la mediana de las distancias/disimilitud entre todos
los individuos de los dos grupos
o Método de Ward. Tiene tendencia a formar clústeres más compactos y de igual tamaño
y forma, en comparación con el enlace medio

El método de Ward y el método de la media (enlace medio) son los menos sensibles a outliers.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Medida. La distancia (disimilaridad o similaridad) entre objetos es una medida que nos


permite establecer el grado de semejanza entre dichos objetos. Mediante esta opción
seleccionamos la medida que vamos a utilizar para ver el parecido entre individuos con distintas
distancias dependiendo si la variable es binaria, frecuencia o de intervalo. La elección inicial del
conjunto de medidas que describan a los elementos a agrupar es fundamental para establecer los
posibles clústeres. Las medidas de distancia o similaridad que utilizamos en la aglomeración se
deben seleccionar dependiendo del tipo de datos. SPSS dispone de las siguientes medidas:
o Intervalo (Opción por defecto). Las opciones disponibles son: Distancia euclídea (No
es una distancia invariante por cambios de escala), Distancia euclídea al cuadrado,
Coseno, Correlación de Pearson, Chebychev, Bloque, Minkowski y Personalizada.
o Recuentos. Las opciones disponibles son: Medida de chi-cuadrado (Medida por
defecto) y Medida de phi-cuadrado.
o Binaria. Las opciones disponibles son: Distancia euclídea, Distancia euclídea al
cuadrado, Diferencia de tamaño, Diferencia de configuración, Varianza, Dispersión,
Forma, Concordancia simple, Correlación phi de 4 puntos, Lambda, D de Anderberg,
Dice, Hamann, Jaccard, Kulczynski 1, Kulczynski 2, Lance y Williams, Ochiai, Rogers
y Tanimoto, Russel y Rao, Sokal y Sneath 1, Sokal y Sneath 2, Sokal y Sneath 3, Sokal
y Sneath 4, Sokal y Sneath 5, Y de Yule y Q de Yule.
Transformar
ANÁLISIS CLÚSTER
valores. La mayoría de los métodos clúster con muy sensibles al hecho de que las 19
variables no estén todas medidas en las mismas unidades y que la variabilidad sea muy
diferente. Si queremos que todas las variables tengan la misma importancia en el análisis,
podemos estandarizar los datos. Mediante esta opción se pueden estandarizar los valores de los
datos, para los casos o las variables, antes de calcular las similaridades (no está disponible para
datos binarios). Los métodos disponibles de estandarización son:
o Puntuaciones Z. Estandarizados a puntuaciones Z, con media 0 y desviación típica 1
o Rango -1 a 1. Cada valor del elemento que se tipifica se divide por el rango de los
valores
o Rango 0 a 1. Sustrae el valor mínimo de cada elemento que se tipifica y lo divide por el
rango
o Magnitud máxima de 1. Divide cada valor del elemento que se tipifica por el máximo
de los valores
o Media de 1. Divide cada valor del elemento que se tipifica por la media de los valores
o Desviación típica 1. Divide cada valor de la variable o caso por la desviación típica.
Se puede escoger el modo de realizar la tipificación. Las opciones son Por variable o Por caso.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Transformar medidas. Mediante esta opción se pueden transformar los valores generados por
la medida de distancia. Se aplican después de calcular la medida de distancia. Las opciones
disponibles son: Valores absolutos, Cambiar el signo y Cambiar la escala al rango 0–1.
En nuestro ejemplo, dado que las variables en el análisis son variables de escala que se miden
en unidades diferentes, la elección de la medida de la distancia, la medida
de Intervalo (Distancia euclídea al cuadrado) y la normalización parece apropiado.
Elegimos, como método de clúster Vecino más próximo, este método es apropiado para usar
cuando se desea examinar los grados de similitud, pero es pobre en la construcción de distintos
grupos. Por lo tanto, después de examinar los resultados con este método deberíamos realizar de
nuevo el estudio con un método distinto del clúster.
En la ventana de la figura anterior seleccionar como Medida: Intervalo (Distancia euclídea al
cuadrado), como Método de conglomeración: Vecino más próximo y seleccionar
Puntuaciones Z en Trasformar valores, Estandarizar: Pulsar Continuar y en la caja de diálogo
de Análisis de conglomerados jerárquicos pulsar Gráficos…

ANÁLISIS CLÚSTER 20

Dendrograma. Es una representación gráfica en forma de árbol, en el que los clústeres están
representados mediante trazos verticales (horizontales) y las etapas de fusión mediante trazos
horizontales (verticales). La separación entre las etapas de fusión es proporcional a la distancia a
la que están los grupos que se funden en esa etapa. SPSS representa las distancias entre grupos
re escaladas, por tanto, son difíciles de interpretar. Los dendrogramas pueden emplearse para
evaluar la cohesión de los conglomerados que se han formado y proporcionar información sobre
el número adecuado de conglomerados que deben conservarse.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Témpanos. Muestra un diagrama de témpanos, que incluye todos los conglomerados o un


rango especificado de conglomerados. Los diagramas de témpanos muestran información sobre
cómo se combinan los casos en los conglomerados, en cada iteración del análisis. La orientación
permite seleccionar un diagrama vertical u horizontal.
Seleccionar Dendrograma y
en Témpanos seleccionar Ninguna. Pulsar Continuar y Aceptar. Se obtienen las siguientes
salidas

ANÁLISIS CLÚSTER 21

El dendrograma es un resumen gráfico de la solución de clúster. Los casos (marcas de coche) se


encuentran a lo largo del eje vertical izquierdo. El eje horizontal muestra la distancia entre los
grupos cuando se unieron (de 0 a 25).

Analizar el árbol de clasificación para determinar el número de grupos es un proceso subjetivo.


En general, se comienza por buscar “huecos” entre uniones a lo largo del eje horizontal. De
derecha a izquierda hay un hueco entre 20 y 25, que divide los coches en dos grupos:

o Un grupo está formado por los modelos: Accord (8), Camry (11), Malibu (2), Grand
Am (9), Impala (3), Taurus (5), Mustang (4) y
o el otro grupo está formado por los modelos: Focus (6), Civic (7), Cavalier (1) y Corolla
(10).
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Hay otro hueco aproximadamente 15 y 20 que sugiere 5 clusters (8, 11); (2,9); (3, 5); (4); (6, 7,
1, 10).

Entre 10 y 15 hay otro hueco que sugiere 6 clusters (8, 11); (2,9); (3, 5); (4); (6, 7, 1); (10).

El Historial de conglomeración es una tabla que muestra un resumen numérico de la solución


del método clúster utilizado. El Historial muestra los casos o conglomerados combinados en
cada etapa, las distancias entre los casos o los conglomerados que se combinan (Coeficientes),
así como el último nivel del proceso de conglomeración en el que cada caso (o variable) se unió
a ANÁLISIS
su conglomerado correspondiente. Cuando se combinan dos clústeres, SPSS asigna al nuevo
CLÚSTER 22
clúster la etiqueta menor entre las que tienen los clúster que se combinan.

En nuestro ejemplo, en la primera etapa se unen los casos 8 y 11 (Accord (8), Camry (11))
porque son los que tienen la distancia más pequeña (1.260). El grupo creado por 8 y 11 aparece
de nuevo en la etapa 7 donde se une al clúster 2 (formado en la etapa 3). Por lo tanto, en esta
etapa se unen los grupos creados en las etapas 1 y 3 y el grupo resultante formado por 8, 11, 2 y
9 aparece en la siguiente etapa la 8.

Si hay muchos casos la tabla es bastante larga, pero suele ser más fácil de estudiar la columna
de coeficientes para distinguir grandes distancias que analizar el dendrograma. Cuando se
observa un salto inesperado en el coeficiente de distancia, la solución antes de ese hueco indica
una buena elección de conglomerados.

Las mayores diferencias en la columna de los coeficientes se producen entre las etapas 5 y 6, lo
que indica una solución de 6-clúster ((8, 11); (2,9); (3, 5); (4); (6, 7, 1); (10)) y entre las etapas 9
y 10, lo que indica una solución de 2-clúster. Estos son los mismos que los resultados del
dendrograma.

En la caja de diálogo del Análisis de conglomerados jerárquicos pulsar Estadísticos…


ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Matriz de distancias. Proporciona las distancias o similaridades entre los elementos.


Conglomerado de pertenencia. Muestra el conglomerado al cual se asigna cada caso en una o
varias etapas de la combinación de los conglomerados. Las opciones disponibles
son: Solución única y Rango de soluciones.
En nuestro estudio elegimos Historial de conglomeración, Matriz de distancias y
en Conglomerado
ANÁLISIS CLÚSTER de pertenencia la opción Rango de soluciones (Número mínimo de 23
conglomerados 2 y número máximo 6).
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Esta tabla muestra los casos que pertenecen a cada clúster. Por ejemplo, si la solución son dos
clusters, los casos Cavalier, Focus, Civic y Corolla forman el clúster 1 y los demás casos forman
el clúster 2.

Esta tabla muestra la Matriz de distancias que proporciona las similaridades entre los casos
ANÁLISIS CLÚSTER 24
El programa permite guardar conglomerados de pertenencia, estas variables se pueden utilizar
en análisis posteriores para explorar otras diferencias entre los grupos. Para ello en la caja de
diálogo del Análisis de conglomerados jerárquicos pulsar Guardar…

Este cuadro de diálogo presenta las siguientes opciones:

o Ninguna (opción por defecto) no guarda los conglomerados de pertenencia


o Solución única: Guarda un número determinado de conglomerados de pertenencia
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

o Rango de soluciones: Guarda un rango de soluciones de conglomerados de


pertenencia.
En este estudio no hemos podido obtener unas conclusiones sólidas sobre la agrupación de los
automóviles de mayor venta en función de sus precios, fabricante, modelo y propiedades físicas.
Puede deberse a que hemos utilizado como método de clúster el Vecino más próximo que,
aunque es aconsejable para examinar los grados de similitud es pobre en la construcción de los
distintos grupos. Por ello, debemos volver a realizar de nuevo el análisis utilizando otro método
de conglomerado.

Ejemplo Práctico 2

Realizar el ejemplo práctico utilizando como Método de conglomerado, el Vecino más lejano.

Para ejecutar un análisis de conglomerados con vinculación completa (Vecino más lejano).  En


la caja de diálogo de conglomerados jerárquicos pulsar Método…

ANÁLISIS CLÚSTER 25

En la ventana seleccionar como Método de conglomeración: Vecino más lejano y


seleccionar Puntuaciones Z. Pulsar Continuar.
En la ventana de diálogo de análisis de conglomerados jerárquico, seleccionar Gráficos. Y
dentro de esta opción: seleccionar Dendograma y en Tempanos: Ninguna. Pulsar Continuar y
Aceptar.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

En las primeras etapas, el Historial de conglomeración para la solución de vinculación completa


(vecino más lejano) es similar a la solución de vinculación única (vecino más próximo). En
cambio, en las etapas finales los historiales de conglomeración son muy diferentes. Mediante el
método de conglomeración del vecino más lejano se realiza una clasificación fuerte de dos o
tres grupos.

La primera gran diferencia es entre las etapas 5 y 6 (6 clúster), la segunda entre 8 y 9 (3 clúster)
y entre 9 y 10 (2 clúster).

ANÁLISIS CLÚSTER 26

La decisión de esta clasificación se refleja en el dendrograma.


ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

o La división inicial del árbol forma dos grupos, (8, 11, 1, 6, 7, 10) y (2, 9, 3, 5, 4). El
clúster primero contiene los automóviles más pequeños y el clúster segundo contiene
los coches más grandes.
o El grupo de coches más pequeños se puede dividir en dos subgrupos, uno de ellos
formado por los coches más pequeños y más baratos. Así la división siguiente en 3
clusters: (Accord (8), Camry (11), Cavalier (1)), (Focus (6), Civic (7), Corolla (10)),
estos tres coches son más pequeños y más baratos que los tres anteriores) y (Malibu (2),
Gran Am (9), Impala (3), Taurus (5), Mustang (4)).

Resumen

La solución de la vinculación completa (vecino más lejano) es satisfactoria debido a que sus
grupos son diferentes, mientras que la solución del vecino más cercano es menos concluyente.
Usando como Método de conglomeración la vinculación completa (Vecino más lejano), se
puede determinar la competencia que hay entre los vehículos en la fase de diseño mediante la
introducción de sus especificaciones como nuevos casos en el conjunto de datos y volver a
ejecutar el análisis.

A continuación, vamos a mostrar la Matriz de distancias y los conglomerados de pertenencia,


ANÁLISIS
para ello en laCLÚSTER
caja de diálogo de Conglomerados jerárquicos pulsar Estadísticos… y realizar 27

la siguiente selección

Pulsar Continuar y Aceptar
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Ejemplo práctico 3
ANÁLISIS CLÚSTER 28
Una compañía de telecomunicaciones realiza un estudio con el fin de reducir el abandono de sus
clientes. Para ello dispone de un archivo de datos, donde cada caso corresponde a un cliente
distinto del que registra diversa información demográfica y del uso del servicio. El objetivo es
segmentar su base de clientes por patrones de uso del servicio. Si los clientes se pueden
clasificar por el uso, la empresa puede ofrecer paquetes más atractivos para sus clientes. Las
variables que indican el uso y no uso de los servicios están contenidas en el
archivo Telecomunicaciones.sav.
El archivo de datos telecomunicaciones1.sav contiene 1000 datos y está formado por las
siguientes variables: región, permanencia, edad, estado_civil, dirección, ingresos_familiares,
nivel_educativo, empleo, género, n-pers_hogar, llamadas_gratuitas, alquiler_equipo,
tarjeta_llamada, inalámbrico, larga_distancia_mes, llamadas_gratuitas_mes, equipo_mes,
tarjeta_mes, inalámbrico_mes, líneas_múltiples, mensaje_voz, servicio_busca, internet,
identificador_llamada, desvío_llamadas, llamada_a_tres, facturación_electrónica.
Utilizar el procedimiento Análisis de conglomerados jerárquico para estudiar las relaciones
entre los distintos servicios.
Para ejecutar el análisis de conglomerados, elija en los menús: Analizar/
Clasificar/Conglomerados Jerárquicos …
Pulsar Restablecer para restaurar la configuración por defecto.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Seleccionar para Variables: Servicio de llamadas gratuitas, Alquiler de equipo, Servicio de


tarjeta de llamada, Servicio inalámbrico, Líneas múltiples, mensajes de voz, servicio de busca,
internet, Identificador de llamadas, llamadas en espera, Desvío de llamadas, llamadas a tres,
Facturación electrónica
Seleccionar Variables en Conglomerar

ANÁLISIS CLÚSTER
Pulsar Gráficos…. Seleccionar Dendrograma y en Témpanos seleccionar Ninguna 29

Pulsar Continuar y en el cuadro de diálogo Análisis de conglomerados jerárquico, en Método


de conglomeración seleccionar Vinculación inter-grupos; en Medida seleccionar Binaria y
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

dentro de Binaria, elegir Concordancia simple. Dado que las variables en el análisis son


indicadores de si un cliente tiene un servicio, se debe elegir entre las medidas binarias.

Pulsar Continuar y Aceptar

ANÁLISIS CLÚSTER 30

En las medidas binarias, la columna de los coeficientes informa de las medidas de similitud, por
lo tanto, los valores de este coeficiente van disminuyendo en cada etapa del análisis. Es difícil
interpretar los resultados, por lo que recurrimos al Dendrograma.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

El dendograma muestra que los patrones de uso de Líneas múltiples y Servicio de tarjeta de
llamada son distintos de los otros servicios. Estos se agrupan en tres grupos. Un grupo incluye
inalámbrico, servicio_busca y mensaje_voz. Otro incluye alquiler_equipo, internet, y
ANÁLISIS CLÚSTER El último grupo contiene las variables llamadas_gratuitas,
facturación_electrónica. 31
llamadas_espera, identificador_llamada, desvio_llamadas y llamada_a_tres. El
grupo servicio inalámbrico está más cerca del grupo de Internet que el grupo LlamEsp.

Ejemplo práctico 4

Realizar de nuevo el estudio con la medida de distancia de Jaccard y comparar los resultados.
Para ejecutar un análisis de conglomerados con la medida de distancia de Jaccard, en el
cuadro de diálogo de Análisis de Conglomerados Jerárquicos, pulsar Método y en la ventana
correspondiente seleccionar Jaccard como medida binaria.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

ANÁLISIS CLÚSTER 32

Pulsar Continuar y Aceptar en el cuadro de diálogo Análisis de conglomerados jerárquico.


ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Utilizando la medida de Jaccard, los tres grupos básicos son los mismos, pero el grupo servicio
inalámbrico está más cerca del grupo LlamEsp que el grupo Internet.
ANÁLISIS CLÚSTER 33
La diferencia entre la simple adaptación y las medidas de Jaccard es que la medida Jaccard no
considera dos servicios similares si una persona no está suscrita. Es decir, casación simple
considera que los servicios inalámbricos y de Internet son similares cuando un cliente esté en
ambos o en ninguno, mientras que Jaccard considera que son similares sólo cuando un cliente
tiene dos servicios. Esto provoca una diferencia en las soluciones de clúster porque hay muchos
clientes que no tienen servicios inalámbricos o Internet. Por lo tanto, estos grupos son más
similares en la solución de casación simple que la solución de Jaccard. La medida que se utiliza
depende de la definición de “similares” que se aplica a la situación.

ANÁLISIS CLÚSTER DE K-MEDIAS

Análisis clúster de K-medias es una herramienta diseñada para asignar los casos a un número
fijo de grupos, cuyas características no se conocen, pero se basan en un conjunto de variables
que deben ser cuantitativas. Es muy útil cuando se quiere clasificar un gran número de
casos. Es un método de agrupación de casos que se basa en las distancias existentes entre ellos
en un conjunto de variables cuantitativas. Este método de aglomeración no permite agrupar
variables. El objetivo de optimalidad que se persigue es “maximizar la homogeneidad dentro de
los grupos.”
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Es el método que se usa más habitualmente, es fácil de programar y da resultados razonables.


Tiene por objetivo separar las observaciones en K clúster, de manera que cada dato pertenezca a
un grupo y sólo a uno. El algoritmo busca con un método iterativo:

 Los centroides (medias, medianas,… ) de los K clúster


 Asigna cada individuo a un clúster.
El algoritmo requiere que se especifique el número de conglomerados, también se puede
especificar los centros iniciales de los clústeres si conoce de antemano dicha información.
En este método, la medida de distancia o de similaridad entre los casos se calcula utilizando
la distancia euclídea. Es muy importante el tipo de escala de las variables, si las variables
tienen diferentes escalas (por ejemplo, una variable se expresa en dólares y otra en años), los
resultados podrían ser equívocos. En estos casos, se debería considerar la estandarización de
las variables antes de realizar el análisis de conglomerados de k-medias.

Este procedimiento supone que se ha seleccionado el número apropiado de conglomerados y


que se han incluido todas las variables relevantes. Si se ha seleccionado un número inapropiado
de conglomerados o se han omitido variables relevantes, los resultados podrían ser equívocos.

Existen varias formas de implementarlo, pero todas ellas siguen, básicamente, los siguientes
pasos:
ANÁLISIS CLÚSTER 34

 Paso 1. Se toman al azar k clústeres iniciales y se calculan los centroides (medias) de


los clústeres
 Paso 2. Se calcula la distancia euclídea de cada observación a los centroides de los
clústeres y se reasigna cada observación al grupo más próximo formando los nuevos clústeres
que se toman en lugar de los primeros como una mejor aproximación de los mismos
 Paso 3. Se calculan los centroides de los nuevos clústeres
 Paso4. Se repiten los pasos 2) y 3) hasta que se satisfaga un criterio de parada como,
por ejemplo, no se produzca ninguna reasignación, es decir, los clústeres obtenidos en dos
iteraciones consecutivas son los mismos.

El método suele ser muy sensible a la solución inicial dada por lo que es conveniente utilizar
una que sea buena. Una forma de construirla es mediante una clasificación obtenida por un
algoritmo jerárquico.

Como aclaración, vamos a realizar el procedimiento para el caso de dos variables X 1 y X2 y
cuatro elementos A, B, C. D. Los datos son los siguientes:
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Se quiere agrupar estas observaciones en dos clústeres (k = 2)


Paso 1. De forma arbitraria se agrupan las observaciones en dos clústeres (AB) y (CD) y se
calculan los centroides de cada clúster

ANÁLISIS CLÚSTER 35
Paso 2. Calculamos la distancia euclídea de cada observación a los centroides de los clústeres y
reasignamos cada una de estas observaciones al clúster que esté más próximo

Como A está más próximo al clúster (AB) que al clúster (CD), no se reasigna

Como B está más próximo al clúster (CD) que al clúster (AB), se reasigna al


clúster (CD) formando el clúster (BCD).

A continuación, se calculan los centroides de los nuevos clústeres


ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Paso 3. Se repite el paso 2 calculando las distancias de cada observación a los centroides de los
nuevos clústeres para ver si se producen cambios de nuevas reasignaciones

Como no se producen cambios en las ubicaciones de los clústeres, la solución para k=2 clústeres
es: Clúster 1: (A) y Clúster 2: (BCD).
Existe la posibilidad de utilizar esta técnica de manera exploratoria, clasificando los casos e
iterando para encontrar la ubicación de los centroides, o sólo como técnica de clasificación,
clasificando los casos a partir de centroides conocidos. Cuando se utiliza como técnica
exploratoria, es habitual que se desconozca el número idóneo de conglomerados, (como el
ejemplo numérico que hemos hecho), por lo que es conveniente repetir el análisis con distinto
número de conglomerados y comparar las soluciones obtenidas; en estos casos también se puede
utilizar el método
ANÁLISIS análisis de conglomerados jerárquico con una submuestra de casos.
CLÚSTER 36

Por último, hay que interpretar la clasificación obtenida, ello requiere, en primer lugar, un
conocimiento suficiente del problema analizado. Hay que estar abierto a la posibilidad de que
no todos los grupos obtenidos tienen por qué ser significativos. Algunas ideas que pueden ser
útiles en la interpretación de los resultados son las siguientes:

 Realizar ANOVAS y MANOVAS para ver qué grupos son significativamente


distintos y en qué variables lo son.
 Realizar Análisis Discriminante.
 Realizar un Análisis Factorial o de Componentes Principales para representar
gráficamente los grupos obtenidos y observar las diferencias existentes entre ellos.
 Calcular perfiles medios por grupos y compararlos.

Conviene hacer notar, finalmente, que es una técnica eminentemente exploratoria cuya finalidad
es sugerir ideas al analista a la hora de elaborar hipótesis y modelos que expliquen el
comportamiento de las variables analizadas identificando grupos homogéneos de objetos. Los
resultados del análisis deberían tomarse como punto de partida en la elaboración de teorías que
expliquen dicho comportamiento
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Un buen análisis de clúster es:

 Eficiente. Utiliza el menor número de grupos posibles.


 Efectivo. Captura todas las agrupaciones estadísticamente y comercialmente
importante. Por ejemplo, un clúster con cinco clientes puede ser estadísticamente diferente, pero
no es muy rentable.

Ejemplo práctico 5

Utilizamos de nuevo el fichero ventas_vehiculos.sav que contiene estimaciones de ventas, listas


de precios y especificaciones físicas de varias marcas y modelos de vehículos. Se desea hacer
un estudio de mercado para poder determinar las posibles competencias para sus vehículos, para
ello agrupamos las marcas de los coches según los datos disponibles, hábitos de consumo, sexo,
edad, nivel de ingresos, etc. de los clientes. Las empresas de coches adaptan sus estrategias de
desarrollo de productos y de marketing en función de cada grupo de consumidores para
aumentar las ventas y el nivel de fidelidad a la marca.
El archivo de datos ventas_vehiculos.sav contiene, 157 datos y está formado por las siguientes
variables:
Variables tipo cadena: marca (Fabricante); modelo
ANÁLISIS CLÚSTER 37
Variables tipo numérico: ventas (en miles); reventa (Valor de reventa en 4 años); tipo (Tipo de
vehículo: Valores: {0, Automóvil; 1, Camión}); precio (en miles); motor (Tamaño del motor); 
CV (Caballos); pisada (Base de neumáticos); ancho (Anchura); largo (Longitud); peso_neto
(Peso neto); depósito (Capacidad de combustible); mpg (Consumo).
Para obtener el análisis de conglomerados de K-medias, elegir en los menús:
Analizar/Clasificar/ conglomerados de K-medias.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

La lista de variables del archivo de datos ofrece un listado con todas las variables del archivo
(numéricas y de cadena), pero las variables de cadena sólo pueden utilizarse para etiquetar
casos.

Para obtener un análisis de conglomerados de K medias:


 Seleccionar las variables numéricas que se desea utilizar para diferenciar a los sujetos y
formar los conglomerados, y trasladarlas a la lista Variables:
 Opcionalmente, seleccionar una variable para identificar los casos en las tablas de
resultados y en los gráficos y trasladarla a la lista Etiquetar casos mediante.
Nº de conglomerados. En este cuadro de texto se encuentra seleccionada por defecto la
solución de dos conglomerados. Para solicitar un número mayor de conglomerados, introducir
el número deseado en el cuadro.
Método. Las opciones de este apartado permiten indicar si los centros de los conglomerados
deben o no ser estimados iterativamente:
 Iterar y clasificar. El procedimiento se encarga de estimar los centros iterativamente y
de clasificar a los sujetos con respecto a los centros estimados.
 Sólo clasificar. Se clasifica a los sujetos según los centros iniciales (sin actualizar sus
ANÁLISIS
valores CLÚSTER
iterativamente). Al marcar esta opción se desactiva el botón Iterar… , impidiendo esto 38
el acceso a las especificaciones del proceso de iteración. Esta opción suele utilizarse junto con
el botón Centros.
Centros de los conglomerados. Muestra dos opciones:
 Leer iniciales de. Permite al usuario decidir qué valor deben tomar los centros de los
conglomerados. El botón Archivo de datos externo sirve para indicar el nombre y ruta del
archivo que contiene los valores de los centros. El nombre del archivo seleccionado se muestra
junto al botón Conjunto de datos abierto. Lo habitual es designar un archivo resultante de una
ejecución previa (guardado con la opción Escribir finales en) y en conjunción con la
opción Sólo clasificar del apartado Método.
 Escribir finales en. Guarda los centros de los conglomerados finales en un archivo de
datos externo. Este archivo puede utilizarse posteriormente para la clasificación de nuevos
casos. El botón Archivo de datos permite asignar nombre y ruta al archivo de destino. El
nombre del archivo seleccionado se muestra junto al botón Nuevo conjunto de datos.

Los archivos de datos utilizados por estas dos opciones contienen variables con nombres
especiales reconocidas automáticamente por el sistema. No es recomendable generar libremente
la estructura de estos archivos; es preferible dejar que sea el propio procedimiento el que los
genere.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

El archivo ventas_vehículos.sav contiene 157 datos Para hacer más comprensible la


representación gráfica de los resultados, vamos a comenzar utilizando únicamente el 20 % de
los casos de la muestra.
Para ello, en el menú principal seleccionar: Datos/Seleccionar casos

ANÁLISIS CLÚSTER 39
Seleccionar la opción Muestra aleatoria de casos y pulsar Ejemplo…

En el apartado Tamaño de la muestra, introducir el valor 20 en recuadro de texto de la


opción Aproximadamente p % de todos los casos. Pulsar el botón Continuar y Aceptar.

Aceptando estas selecciones, el archivo de datos queda filtrado, dejando disponibles sólo 36 de
los 157 casos existentes.

Vamos a comenzar representando la distancia existente entre los casos en dos variables de
interés, hemos elegido la variable peso y la variable Tamaño del motor. Para ello, seleccionar
en el menú principal Gráficos/Generador de gráficos…
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

En la ventana Galería, en Elija entre , seleccionar Dispersión/…


ANÁLISIS CLÚSTER 40
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Arrastrar el gráfico de Dispersión simple a la ventana de presentación preliminar del gráfico

ANÁLISIS CLÚSTER 41

Desplazar la variable peso (peso total del vehículo en kg) al eje abscisas y la Tamaño del
motor al eje de ordenadas
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Pulsar Aceptar y se muestra el siguiente gráfico


ANÁLISIS CLÚSTER 42
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

En el diagrama de dispersión están representados los valores Peso y Tamaño motor de los 36


casos seleccionados. Se puede apreciar que existe un grupo de vehículos relativamente
numeroso con peso y tamaño de motor reducidos y otro grupo más disperso de vehículos de
mayor peso y mayor motor.
Pulsar dos veces en el gráfico y en la ventana Editor de
gráficos seleccionar Elementos/Mostrar etiquetas de datos…

ANÁLISIS CLÚSTER 43

Se han identificado, mediante el número de caso, los dos vehículos aparentemente más alejados
entre sí (el caso 79 y el caso 131). La nube de puntos, por tanto, incita a pensar que existen al
menos dos grupos naturales de casos.

Para clasificar los casos en dos grupos:

Seleccionar en el cuadro de diálogo de Análisis de conglomerados de K-medias la opción Sólo


Clasificar. Trasladar las variables motor y peso a la lista Variables.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Aceptando estas selecciones, el Visor ofrece los resultados que muestran las tablas siguientes

ANÁLISIS CLÚSTER 44

Esta tabla contiene los centros iniciales de los clústeres, es decir, los valores que corresponden,
en las dos variables de clasificación utilizadas, a los dos casos que han sido elegidos como
centros respectivos de los dos conglomerados solicitados.
Seleccionando de nuevo, en la ventana del Editor Elementos/Mostrar etiquetas de datos… y
en Propiedades pasar Peso neto y Tamaño de motor a la ventana de Mostrado:
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Pulsar Aplicar

ANÁLISIS CLÚSTER 45

Se comprueba que los casos son el 131 (Conglomerado 1) y el 79 (Conglomerado 2), los
mismos que han sido identificados en el diagrama de dispersión.
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Una vez seleccionados los centros de los conglomerados, cada caso es asignado al
conglomerado de cuyo centro se encuentra más próximo y comienza un proceso de ubicación
iterativa de los centros. En la primera iteración se reasignan los casos por su distancia al
nuevo centro y, tras la reasignación, se vuelve a actualizar el valor del centro. En la siguiente
iteración se vuelven a reasignar los casos y a actualizar el valor del centro. Etc.

Esta tabla muestra los centros de los conglomerados finales es decir, los centros de los
conglomerados tras el proceso de actualización iterativa. Comparando los centros finales (tras
la iteración) de esta tabla con los centros iniciales (antes de la iteración) se puede apreciar con
claridad un desplazamiento del centro del conglomerado 1 hacia la parte superior del plano
definido por las dos variables de clasificación y un desplazamiento del centro del conglomerado
2 hacia la parte inferior.
Esta tabla es de gran utilidad para interpretar la constitución de los conglomerados pues resume
ANÁLISIS CLÚSTER 46
los valores centrales de cada conglomerado en las variables de interés. La interpretación de los
resultados de nuestro ejemplo es simple: el primer conglomerado está constituido por
vehículos de gran tamaño de motor y mucho peso, mientras que segundo conglomerado
está constituido por los vehículos de tamaño de motor reducido y poco peso.

Por último, esta tabla informa sobre el Número de casos asignado a cada conglomerado. En
nuestro ejemplo, los tamaños de los conglomerados son bastantes diferentes.
Para mostrar el Historial de iteraciones seleccionar en cuadro de diálogo de  Análisis de
conglomerados de K-medias la opción Iterar y Clasificar
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

El subcuadro de diálogo Iterar permite controlar algunos detalles relacionados con el proceso


de iteración utilizado para el cálculo de los centroides finales. Se puede determinar el número
máximo de iteraciones o bien fijar un criterio de convergencia mayor que cero y menor que uno.
Nº máximo de iteraciones. Limita el número de iteraciones que el algoritmo k-medias puede
llevar a cabo. El proceso de iteración se detiene después del número de iteraciones especificado,
incluso aunque no se haya satisfecho el criterio de convergencia. Este número debe estar entre
el 1 y el 999.
Criterio de convergencia. Permite modificar el criterio de convergencia utilizado por SPSS
para detener el proceso de iteración, determina cuándo cesa la iteración. El valor de este criterio
es, por defecto, cero, pero puede cambiarse introduciendo un valor diferente en el cuadro de
texto. El valor introducido representa la proporción de la distancia mínima existente entre los
centros iniciales
ANÁLISIS de los conglomerados. Por tratarse de una proporción, este valor debe ser
CLÚSTER 47
mayor o igual que cero y menor o igual que 1. Por ejemplo, si se introduce un valor igual a 0,02,
el proceso de iteración cesará cuando entre una iteración y la siguiente no se consiga desplazar
ninguno de los centros una distancia superior al dos por ciento de la menor de las distancias
existentes entre cualquiera de los centros iniciales. La tabla del historial de las iteraciones
muestra, en una nota a pie de tabla, el desplazamiento obtenido en la última iteración (se haya
alcanzado o no el criterio de convergencia).
Usar medias actualizadas. Permite solicitar la actualización de los centros de los
conglomerados (recalcula los centroides con cada individuo asignado al grupo). Cuando se
asigna un caso a uno de los conglomerados se calcula de nuevo el valor del centro del
conglomerado. Cuando se selecciona la actualización de los centros de los conglomerados, el
orden de los casos en el archivo de datos puede afectar a la solución obtenida.

Si no se selecciona esta opción, los nuevos centros de los conglomerados finales se calcularán
después de la clasificación de todos los casos.

Dejamos el número de iteraciones máximas que viene por defecto, 10, seleccionamos Usar
medias actualizadas y pulsamos Continuar y Aceptar
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

Comprobamos que no se alcanza la convergencia por lo que aumentamos las Iteraciones


máximas a 20 y se muestra el siguiente Historial de iteraciones

ANÁLISIS CLÚSTER 48

Esta tabla resume el historial de iteraciones (18 en nuestro ejemplo) con indicación del cambio
(desplazamiento) experimentado por cada centro en cada iteración. Puede observarse que,
ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA
ENEI

conforme avanzan las iteraciones, el desplazamiento de los centros se va haciendo más y más


pequeño, hasta llegar a la 18 iteración, en la que ya no existe desplazamiento alguno.
El proceso de iteración se detiene, por defecto, cuando se alcanzan 10 iteraciones o cuando de
una iteración a otra no se produce ningún cambio en la ubicación de los centroides (cambio =
0). En nuestro ejemplo, el proceso ha finalizado antes de alcanzar 18 iteraciones porque en la 19
ya no se produce ningún cambio.

Ejemplo práctico 6

ANÁLISIS CLÚSTER 49

También podría gustarte