Anlisis de Conglomerados (Cluster)
Conglomerado es un conjunto de objetos que poseen caractersticas similares. La palabra
conglomerado es la traduccin ms cercana al trmino cluster, otros sinnimos son
clases o grupos; incluso es muy frecuente el empleo directo de la palabra cluster. En la
terminologa del anlisis de mercados se dice segmento, para denotar un grupo con
determinado perfil; en biologa se habla de familia o grupo para hacer referencia a un
conjunto de plantas o animales que ciertas caractersticas en comn; en ciencias sociales
se consideran estratos a los grupos humanos de condiciones socioeconmicas
homogneas. En este texto se usan los trminos conglomerado, grupo y clase,
indiferentemente, para aludir a un conjunto de objetos que comparten caractersticas
comunes.
El anlisis de conglomerados busca particionar un conjunto de objetos en grupos, de tal
forma que los objetos de un mismo grupo sean similares y los objetos de grupos
diferentes seas dismiles. As, el anlisis de conglomerados tiene como objetivo principal
definir la estructura de los datos colocando las observaciones ms parecidas en grupos
Los propsitos ms frecuentes para la construccin y anlisis de conglomerados son los
siguientes:
(i) La identificacin de una estructura natural en los objetos; es decir, el desarrollo
de una tipologa o clasificacin de los objetos.
(ii) La bsqueda de esquemas conceptuales tiles que expliquen el agrupamiento
de algunos objetos.
(iii) La formulacin de hiptesis mediante la descripcin y exploracin de los
grupos conformados.
(iv) La verificacin de hiptesis, o la confirmacin de si estructuras definidas
mediante otros procedimientos estn realmente en los datos.
Los siguientes casos ejemplifican y motivan la utilidad y la necesidad del anlisis de
conglomerados.
Un psiclogo clnico emplea una muestra de un determinado nmero de pacientes
alcohlicos admitidos a un programa de rehabilitacin, con el fin de construir una
clasificacin. Los datos generados sobre estos pacientes se obtienen a travs de
una prueba. La prueba contiene 566 preguntas de respuestas dicotmicas, las
cuales se estandarizan y resumen en 13 escalas que dan un diagnstico. Mediante
una medida de similitud y la consideracin de homogeneidad dentro y entre
grupos, se conformaron cuatro grupos de alcohlicos: (1) emocionalmente
inestable de personalidad, (2) psiconeurticos con ansiedad depresin, (3) de
personalidad psicpata (4) alcohlico con abuso de drogas y caractersticas
paranoicas.
En taxonoma vegetal, el anlisis de conglomerados se usa para identificar especies
con base en algunas caractersticas morfolgicas, fisiolgicas, qumicas, etolgicas,
ecolgicas, geogrficas y genticas. Con esta informacin se encuentran algunos
conglomerados de plantas, dentro de los cuales se comparten las caractersticas ya
indicadas.
El anlisis de conglomerados puede emplearse con propsitos de muestreo. As
por ejemplo, un analista de mercados est interesado en probar las ventas de un
producto nuevo en un alto nmero de ciudades, pero no dispone de los recursos ni
del tiempo suficiente para observarlos todos. Si las ciudades pueden agruparse en
conglomerados, un miembro de cada grupo podra usarse para la prueba de
ventas; de otra parte, si se generan grupos no esperados esto puede sugerir alguna
relacin que deba investigarse.
Para alcanzar los propsitos anteriormente ilustrados se deben considerar los siguientes
aspectos:
1. Cmo se mide la similitud?
2. Cmo se forman los conglomerados?
3. Cuntos grupos se deben formar?
La tcnica del anlisis de conglomerados es otra tcnica de reduccin de datos. Se puede
considerar la metodologa de las componentes principales como un anlisis de
conglomerados, donde los objetos corresponden a las variables. Dos son los elementos
requeridos en el anlisis de conglomerados, el primero es la medida que seale el grado
de similitud entre los objetos, el segundo es el procedimiento para la formacin de los
grupos o conglomerados.
3.1. Medidas de similitud
Reconocer objetos como similares o disimiles es fundamental para el proceso de la
clasificacin. Aparte de su simplicidad, el concepto de similitud para aspectos
cuantitativos se presenta ligado al concepto de mtrica. Las medidas de similitud se
pueden clasificar en dos tipos; en una parte estn las que renen las propiedades de
mtrica, como la distancia; en otra, se pueden ubicar los coeficientes de asociacin, estos
ltimos empleados para datos en escala nominal.
Una mtrica es una funcin (o regla9 que asigna un nmero a cada par de objetos de
un conjunto , es decir,
La cual satisface, sobre los objetos , y de , las siguientes condiciones:
1. No negatividad. y , si y slo si, .
2. Simetra. Dados dos objetos y , la distancia, , entre ellos satisface
3. Desigualdad triangular. Para tres objetos , y las distancias entre ellos
satisfacen la expresin
Esto, simplemente, quiere decir que la longitud de uno de los lados de un tringulo
es menor o igual que la suma de las longitudes de los otros dos lados.
4. Identificacin de no Identidad. Dados los objetos y
5. Identidad. Para dos elementos idnticos, y
, se tiene que
Es decir, si los objetos son idnticos, la distancia entre ellos es cero.
Observacin
Hay medidas que a cambio de la desigualdad triangular, propiedad (3), satisfacen
{ }
A este tipo de distancia se le denomina ultramtrica. Esta distancia juega un papel
importante en los mtodos de clasificacin automtica.
Las medidas de similitud, de aplicacin ms frecuentes, son las siguientes:
(1) Medidas de distancia.
(2) Coeficientes de correlacin.
(3) Coeficientes de asociacin.
(4) Medidas probabilsticas de similitud.
Antes de utilizar alguna de las medidas anteriores, se debe encontrar el conjunto de
variables que mejor represente el concepto de similitud, bajo el estudio a desarrollar.
Idealmente, las variables deben escogerse dentro del marco conceptual que
explcitamente se usa para la clasificacin. La teora en cada campo, es la base racional
para la seleccin de las variables a usar en el estudio.
La importancia de usar la teora para la seleccin de las variables no debe subestimarse,
pues resulta muy peligroso caer en un empirismo ingenuo, por la facilidad con que los
algoritmos nos forman grupos sin importar el nmero y el tipo de variables; ya que por la
naturaleza heurstica de las tcnicas de agrupamiento se ha contaminado un poco su
aplicacin. Para la aplicacin de esta tcnica tambin se debe considerar la necesidad de
estandarizar las variables, su transformacin, o la asignacin de un peso o ponderacin
para el clculo de la medida de similitud y la conformacin de los conglomerados
(Aldenderfer y Blashfield 1984).
1.1.1 Medidas de distancia
Las medidas de uso ms frecuente son:
La distancia euclidiana, definida por
La distancia
de Mahalanobis, tambin llamada la distancia generalizada
)
Donde es la matriz de varianzas y covarianzas de los datos, y
son los
vectores de las mediciones que identifican los dos objetos y .
Otra medida muy comn es la de Manhattan, se define
Finalmente la medida de Minkowski
(|
1.1.2. Coeficiente de correlacin
Frecuentemente se les llama medidas angulares, por su interpretacin geomtrica. El ms
popular de ellos es el coeficiente producto momento de Pearson, el cual determina el
grado de correlacin o asociacin lineal entre casos. Est definido por:
donde
es el valor de la variable para el caso (objeto), y
es la media de todas las
variables que definen el caso . Esta medida se emplea para variables en escala al menos
de intervalo; para el caso de variables binarias, stas se transformar al conocido
coeficiente . En coeficiente toma valores 1 y -1, un valor de cero significa no similitud
entre los casos. Frecuentemente se le considera como una medida de forma, la cual es
insensible a las diferencias en magnitud de las variables que intervienen en su clculo.
El coeficiente de producto momento es sensible a la forma, esto significa que dos perfiles
pueden tener correlacin de +1.0, y no ser idnticos.
Una limitacin del coeficiente de correlacin es que no siempre satisface la desigualdad
triangular, y esto puede limitar la comparacin entre perfiles. Otra limitacin es su clculo,
pues debe obtenerse la media a travs de diferentes tipos variables, y no a travs de casos
como corresponde a su definicin estadstica; de cualquier modo, el coeficiente
demuestra ser bueno frente a otros coeficientes de similitud en el anlisis de
conglomerados, por cuanto reduce el nmero de clasificaciones incorrectas.
1.1.3. Coeficientes de asociacin
Son apropiados cuando los datos estn en escala nominal. Cada variable toma los valores
de 0 (de ausencia) y 1 (de presencia) de un atributo; una tabla de doble entrada resume
toda la informacin (a manera de una matriz de diseo). Por ejemplo, la siguiente tabla
contiene la informacin de dos OTU (Operational Taxonomic Unit) A y B con relacin a 10
caracteres del tipo presencia/ausencia,
OTU 1 2 3 4 5 6 7 8 9 10
A 0 1 1 0 1 0 1 0 1 0
B 1 1 0 0 1 1 0 0 1 1
Al comparar estos dos objetos se tienen cuatro posibilidades (Crisci y Lpez, 1983 pgs.
42-49):
1. Que ambos tengan presente el carcter comparado (1,1).
2. Que ambos tengan ausente el carcter comparado (0,0).
3. Que el primero tenga el carcter presente y el segundo ausente (1,0).
4. Que el primero de ellos tenga el carcter ausente y el segundo presente (0,1)
La frecuencia con que se presentan estas cuatro caractersticas se resume en la siguiente
tabla:
Objeto B
Objeto A 1 0
1 (a) (b)
0 (c) (d)
El valor (a) es el nmero de atributos en los cuales el mismo estado es posedo por los dos
objetos, (b) es la frecuencia de caracteres en los cuales el primer objeto lo posee y el
segundo no, (c) es el nmero de caracteres en los que un estado est ausente en el primer
objeto pero no en el segundo y (d) es el nmero de caracteres en los cuales el mismo
estado est ausente en ambos objetos.
Para el ejemplo de las OTU, la tabla de comparacin de un mismo carcter es
Objeto B
Objeto A 1 0
1 (3) (2)
0 (3) (2)
Coeficiente de asociacin simple (): Es la medida de similitud ms sencilla, entre
objetos y , se calcula mediante la siguiente frmula
Sus valores estn entre 0 y 1. Este coeficiente toma en cuenta la ausencia de una
variable para los dos objetos en consideracin.
El coeficiente de Jaccard (), definido como
Resuelve el problema de las ausencias conjuntas de una variable en el clculo de la
similaridad. Los bilogos anotan que con el empleo del coeficiente de asociacin
simple, algunos casos aparecern como muy similares por el hecho de no poseer
algn atributo en comn; es algo as como decir, que una guayaba se parece a una
naranja porque con ninguna de las dos se puede hacer jugo de mango.
Rogers y Tanimoto (): le da prelacin a las diferencias, como en el caso de los
dos anteriores coeficientes donde sus valores oscilan entre 0 y 1; es decir, valores
de mnima y mxima similitud, respectivamente. Su clculo se hace mediante la
siguiente expresin:
Srensen o Dice (): este coeficiente le confiere mayor importancia a las
coincidencias en estado de presencia, se expresa como
Los valores de este coeficiente varan entre 0 y 1; y representan valores de mnima
y mxima similitud, respectivamente.
Sokal y Sneath (): ste tiene ms en cuenta las coincidencias, tanto por
presencia como por ausencia de los atributos. Sus valores se obtienen calculando
Y toma valores entre 0 y 1 que equivalen a la mnima y mxima semejanza
respectivamente.
Hamann (H): considera importante las diferencias entre coincidencias y no
coincidencias. Los valores de similitud estn en el rango de -1 a 1, mnima y
mxima similitud, respectivamente. Se expresa as
Aunque en la literatura de taxonoma numrica se encuentran otros coeficientes, con los
anteriores se brinda la idea general de esta estrategia para medir similitud entre objetos.
Los valores de cada uno de estos coeficientes, para el ejemplo de las OTU, son los
siguientes:
Una objecin que se le puede hacer a los coeficientes de asociacin, es su aplicacin solo a
respuestas dicotmicas; aunque, los datos continuos se pueden transformar a valores de
tipo 0 y 1, el problema se reduce a decidir a que valores se les asigna como 0 y a cuales
como 1, esta transformacin hace que se pierda informacin; pues no tienen en cuenta la
intensidad de los atributos.
1.1.4. Coeficientes de probabilidad
Son bastantes diferentes a los anteriores, este tipo de medida trabaja directamente sobre
los datos originales. Al construir conglomerados, se considera la ganancia de informacin
al combinar dos casos; se fusionan los dos casos que suministren la menor ganancia de
informacin. Una limitacin de estas medidas probabilsticas es su utilizacin nicamente
para variables dicotmicas. Puesto que estos coeficientes son muy utilizados en
taxonoma numrica, se sugiere consultar a Clifford-Stephenson (1975).
3.2. Una Revisin de los mtodos de agrupamiento
Aunque no hay una definicin universal de conglomerado, se toma la definicin dada por
Everitt (1980), quien dice que los conglomerados son regiones continuas de un espacio
que contienen una densidad relativamente alta de punto, las cuales estn separadas por
regiones que contienen una densidad relativamente baja de puntos.
Varios son los algoritmos propuestos para la conformacin de conglomerados, se
desarrollan, de una manera muy esquemtica los mtodos jerrquicos, los mtodos de
particin o divisin, nubes dinmicas, clasificacin difusa y algunas herramientas grficas.
Cada uno de estos mtodos representa una perspectiva diferente para la formacin de los
conglomerados, con resultados generalmente distintos cuando las diferentes
metodologas se aplican sobre el mismo conjunto de datos. Para obviar en parte esta
dificultad, se debe emplear un procedimiento concordante con la naturaleza de la
tipologa esperada, con las variables a considerar y la medida de similitud usada.
3.2.1. Mtodos jerrquicos
Estos mtodos empiezan con el clculo de la matriz de distancias entre los objetos. Se
forman grupos de manera aglomerativa o por un proceso de divisin. Una de las
caractersticas de esta tcnica es la localizacin irremovible de cada uno de los objetos en
cada etapa del mismo. Con los procedimientos aglomerativos cada uno de los objetos
empieza formando un conglomerado (grupos unitarios). Grupos cercanos se mezclan
sucesivamente hasta que todos los objetos quedan dentro de un mismo conglomerado.
Los mtodos de divisin inician con todos los objetos dentro de un mismo conglomerado,
ste es dividido luego en dos grupos, stos en otros dos hasta que cada objeto llega a ser
un conglomerado. Ambos procedimientos se resumen en un diagrama de rbol que ilustra
la conformacin de los distintos grupos, de acuerdo con el estado, de fusin o divisin,
jerrquico implicado por la matriz de similaridades; este diagrama se conoce con el
nombre de dendograma. Por su amplia aplicacin, se explican solo los mtodos
aglomerativos.
Mtodos aglomerativos
Son los ms frecuentemente utilizados. Una primera caracterstica de estos mtodos es
que buscan una matriz de similaridades de tamao , ( nmero de objetos), desde
la cual, secuencialmente, se mezclan los casos ms cercanos; aunque cada uno tiene su
propia forma de medir las distancias entre grupos o clases. Un segundo aspecto es que
cada paso o etapa en la conformacin de grupos puede representarse visualmente por un
dendograma. En tercer lugar, se requieren pasos para la conformacin de los
conglomerados de acuerdo con la matriz de similaridades. En el primer paso cada objeto
es tratado como un grupo; es decir, se inicia con conglomerados, y, en el paso final, se
tienen todos los objetos en un solo conglomerado. Finalmente, los mtodos jerrquicos
aglomerativos son conceptualmente simples.
Los pasos que seguiremos para una clasificacin jerrquica son fundamentalmente los
siguientes:
1. Decidir qu datos tomamos para cada uno de los casos. Generalmente tomaremos
varias variables todas del mismo tipo (continuas, categricas, etc.) ya que suele ser
difcil mezclar tipos distintos.
2. Elegimos una medida de la distancia entre los objetos a clasificar, que sern los
clusters o clases iniciales.
3. Buscamos que clusters son ms similares.
4. Juntamos estos dos clusters en un nuevo cluster que tenga al menos 2 objetos, de
forma que el nmero de clusters decrece en una unidad.
5. Calculamos la distancia entre este nuevo cluster y el resto. No es necesario
recalcular todas las distancias, solamente las del nuevo cluster con los anteriores.
6. Repetimos desde el paso 3 hasta que todos los objetos estn en un nico cluster.
Los pasos se resumen en el diagrama siguiente.
En este mtodo aglomerativos existen diferentes criterios, los cuales son:
Los distintos mtodos o algoritmos dependen del mtodo utilizado en el paso 5 para
calcular la distancia entre clusters. Es necesario resaltar, que los distintos mtodos para el
clculo de las distancias entre clusters producen distintas clasificaciones, por lo que no
existe una clasificacin correcta nica.
1) Enlace simple o del vecino ms cercano
Despus de iniciar con tantos grupos como objetos haya disponible, se juntan los dos
casos que estn a la menor distancia o dentro de un lmite de similitud dispuesto. Ellos
conforman el primer conglomerado. En la siguiente etapa puede ocurrir que un tercer
objeto se junte a los dos ya conformados o que se una con otro ms cercano a l, para
formar un segundo conglomerado. La decisin se basa en establecer si la distancia entre el
tercer objeto y el primer conglomerado es menor a la distancia entre ste y otro de los no
agrupados. El proceso se desarrolla hasta que todos los objetos queden de un mismo
conglomerado. La distancia entre el conglomerado y el conglomerado se define
mediante
}
As, la distancia entre dos conglomerados cualesquiera es la menor distancia observada
desde un punto de un conglomerado a un punto del otro conglomerado.
Para ilustrar este procedimiento de agrupacin, supngase que cinco objetos se
encuentran a las siguientes distancias.
0 3 7 11 10
3 0 6 10 9
7 6 0 5 6
11 10 5 0 4
11 9 6 4 0
A una distancia cero, los cinco objetos conforman cada uno un grupo. La distancia ms
pequea, de acuerdo con la matriz anterior, es 3, que corresponde entre
. As, a esta distancia se tienen cuatro grupos {
}, {
}, {
} y {
}. Las
distancias entre estos grupos se obtienen a travs de (1); as, la distancia entre el
conglomerado {
} y los dems es
}{
}
{
} {}
}{
}
{
}{
}
{
}
Las distancias
{
}{
}
,
{
}{
}
y
{
}{
}
, estn contenidas en la matriz de distancias
inicial. As, la matriz de distancias entre los nuevos conglomerados, calculadas de
acuerdo con la expresin (1), es
{
} {
} {
} {
}
{
} 0 6 10 9
{
} 6 0 5 6
{
} 10 5 0 4
{
} 9 6 4 0
De la matriz de distancias anteriores, la siguientes distancia ms pequea es 4 y est entre
los grupos {
} y {
}; por tanto, a una distancia 4 se conforman los conglomerados:
{
}, {
} y {
}. La matriz de distancias entre stos, calculadas mediante la
frmula (1), es
{
} {
} {
}
{
} 0 6 9
{
} 6 0 5
{
} 9 5 0
La siguiente menor distancia es 5; corresponde a los grupos {
} y {
}, la distancia
entre stos es: {
{
}{
}
{
}{
}
} .
Quedan en esta etapa dos grupos {
} y {
}. La matriz de distancias entre
stos, calculadas mediante la frmula (1) es
{
} {
}
{
} 0 6
{
} 6 0
Por ltimo, la siguiente distancia ms pequea es 6, corresponde a
y a
. En
este punto todos los objetos se pueden mezclar en el conglomerado
{
}. La tabla siguiente resume el proceso.
Distancia Conglomerado
0 {
} {
} {
} {
} {
}.
3 {
} {
} {
} {
}
4 {
} {
} {
}
5 {
} {
}
6 {
}
Un dendrograma es una representacin grfica en forma de rbol que resume el proceso
de agrupacin en un anlisis de clusters. Los objetos similares se conectan mediante
enlaces cuya posicin en el diagrama est determinada por el nivel de similitud/disimilitud
entre los objetos.
En el dendograma de la figura 1 muestra la disposicin de los objetos en cada uno de los
conglomerados. El eje vertical contiene los niveles de distancia bajo los cuales se
conforman los grupos; as, para una distancia de 4.5 se tienen tres grupos (bajo la lnea
punteada), estos son: {
} {
} y {
} {
} .
Las principales ventajas de este mtodo son la invarianza respecto a transformaciones
montonas de la matriz de similaridades y su no afectacin por la presencia de empates.
La primera propiedad significa que la tcnica no altera sus resultados cuando la
transformacin de los datos conserva el orden de los mismos.
Figura 1.
Caractersticas:
- No es til para resumir datos.
- til para detectar outliers (estarn entre los ltimos en unirse a la jerarqua).
- Pueden usarse medidas de la similitud o de la disimilitud.
- Tiende a construir clusters demasiado grandes y sin sentido.
- Invariante bajo transformaciones montonas de la matriz de distancias.
2) Enlace completo o del vecino ms lejano
Este mtodo es el opuesto lgico al de unin simple, la regla establece que cualquier
candidato a incluirse en un grupo existencia, debe estar dentro de un determinado nivel
de similitud con todos los miembros de ese grupo; de otra manera, dos grupos son
mezclados solo si los miembros ms distantes de los dos grupos estn suficientemente
cerca de manera conjunta; el suficientemente cerca es dado por el nivel de similitud
impuesto en cada etapa del algoritmo.
Para este procedimiento la distancia entre el conglomerado y el conglomerado est
dado por
}
En el ejemplo actual, en una primera etapa se fusionan los objetos
en el
conglomerado. Las distancias entre los conglomerados resultantes se calculan a travs de
(2), por ejemplo las distancias entre el conglomerado {
} y los dems son:
}{
}
{
} {}
}{
}
{
}{
}
{
}
La siguiente matriz contiene las distancias, tipo (2), entre los conglomerados obtenidos
hasta ahora:
{
} {
} {
} {
}
{
} 0 7 11 10
{
} 7 0 10 6
{
} 11 10 0 4
{
} 10 6 4 0
En la matriz de distancias anterior, se observa que los objetos
pueden fusionarse,
pues son los grupos ms cercanos. La matriz de distancias entre los conglomerados
{
}, {
} y {
}, aplicando nuevamente la expresin (2) es:
{
} {
} {
}
{
} 0 7 11
{
} 7 0 6
{
} 11 6 0
El objeto
se debe fusionar con el grupo constituido por los objetos
, pues la
distancia entre ste y los otros dos conglomerados, de acuerdo con las frmulas (2), es
}{
}
{
{
}{
}
{
}{
}
} {}
}{
}
{
{
}{
}
{
}{
}
} {}
Ntese que aunque
dista de
en 6 unidades, no est dentro de este nivel con
(distan de 7 unidades); es decir, no est conjuntamente cerca a este conglomerado.
Hasta esta etapa se tienen los grupos o clases {
}, {
} y {
}. En una ltima
etapa los objetos conforman una sola clase.
La tabla siguiente muestra el algoritmo
Distancia Conglomerado
0 {
} {
} {
} {
} {
}.
3 {
} {
} {
} {
}
4 {
} {
} {
}
5 {
} {
}
11 {
}
El respectivo dendograma se exhibe en la figura 2. Es evidente que la determinacin de los
grupos en un nivel especfico es ahora ms clara que en el caso anterior. Se ilustran los
conglomerados obtenidos al tomar una distancia de 5 y 7 unidades respectivamente.
Figura 2.
Caractersticas:
- til para detectar outliers.
- Pueden usarse medidas de la similitud o de la disimilitud.
- Tiende a construir clusters pequeos y compactos.
- Invariante bajo transformaciones montonas de la matriz de distancias.
3) Unin mediante el promedio
Fue propuesto por Sokal y Michener (1958); es una salida a los extremos de los dos
mtodos anteriores. La distancia entre dos conglomerados y se define como el
promedio de las distancias entre todos los pares de objetos, uno del conglomerado y
otro del conglomerado ; es decir,
Se une el caso u objeto al conglomerado si se logra un determinado nivel de similitud con
el valor promedio. El promedio ms comn es la media aritmtica de las similaridades
entre los objetos.
Con el ejemplo tratado, la tabla que resume el algoritmo y el dendograma (figura 7.3)
respectivo se presentan enseguida:
Distancia Conglomerado
0 {
} {
} {
} {
} {
}.
3 {
} {
} {
} {
}
4 {
} {
} {
}
5.5 {
} {
}
8.8 {
}
La distancia entre las clases {
}, {
} y {
} se calculan desde la expresin (3)
como sigue:
}{
}{
}{
Para el cuarto paso, por ejemplo, el caso
est a una distribucin en promedio del grupo
{
} de 6.5 y a 5.5 del grupo {
}, por eso se junta con ste ltimo.
Figura 3.
Caractersticas:
- Proporciona clsteres ni demasiado grandes ni demasiado pequeos.
- Pueden utilizarse medidas de la similitud o de la disimilitud.
- No es invariante por transformaciones montonas de las distancias.
- Tiende a fusionar clsteres con varianzas pequeas y tiende a proporcionar clsteres con
la misma varianza.
- Buena representacin grfica de los resultados.
4) Mtodo de Ward (Mtodo de Varianza Mnima)
Con este mtodo se busca la mnima variabilidad dentro de los conglomerados, se trata
entonces de un problema de optimizacin. Ward (1963) basa su mtodo sobre la prdida
de informacin resultante al agrupas casos en grupos, medida por la suma total del
cuadrado de las desviaciones de cada caso al centroide del grupo al cual pertenece. La
suma de cuadrados se calcula mediante
Con
los centroides,
los tamaos de los conglomerados y
respectivamente.
Para un nico atributo, la suma de cuadrados se obtiene de
(
Donde
es el valor del atributo para el -simo individuo en el -simo conlgomerado,
es el nmero del conglomerado en cada etapa y
es el nmero de individuos para el -
simo conglomerado.
Se empieza con n grupos, un caso por grupo, aqu la suma de cuadrados de Ward (SCW) es
cero. En el segundo paso se buscan los dos casos que produzcan el menor incremento en
la suma de cuadrados, dentro de todas las posibles combinaciones de a dos objetos. En la
tercera etapa se toman los grupos conformados, se calcula la SCW y se juntan
aquellos que produzcan el menor incremento en la variabilidad. El proceso contina hasta
obtener un grupo de objetos o casos.
Para facilitar la comprensin del algoritmo se desarrolla el caso con cinco individuos sobre
los cuales se mide un atributo.
Individuo Atributo
A 3
B 7
C 8
D 11
E 14
El procedimiento en cada una de sus etapas es el siguiente;
Primera etapa
La SCW para cada uno de los individuos es cero. Los grupos iniciales son
{} {} {} {} {}
Segunda etapa
Los (
) posibles grupos o conglomerados de a dos individuos cada uno, producen la
siguientes sumas de cuadrados
{}
(
{}
{}
{}
{}
{}
{}
{}
{}
{}
Los individuos B y C son fusionados, pues producen la menor SCW. Los conglomerados
resultantes son
{} { } {} {}
Tercera etapa
Se calcula la SCW para cada uno de los posibles agrupamientos ((
) ), entre los
cuatro grupos encontrados en el paso anterior; resulta
{}{}
{}
{}
{}{}
{}{}
{}
El grupo que registra la mayor homogeneidad es el conformado por D y E, ya que la fusin
de estos dos objetos produce la menor variabilidad. Los grupos que se han formado hasta
aqu son:
{} { } { }
Cuarta etapa
Con los tres grupos anteriores se hacen los posibles reagrupamientos de a dos
conglomerados, y luego se determina la SCW para cada una de las (
) nuevos
arreglos. Los resultados se resumen en seguida
{}{}
{}{}
{}{}
El grupo que muestra la mayor homogeneidad, en trminos de la menor suma de
cuadrados de Ward, lo constituyen A, B y C; de donde resultan los siguientes
conglomerados: { } y { }.
Quinta etapa
El ltimo conglomerado est constituido por A,B,C,D y E; con
{}{}
La figura 5. contiene el dendograma que ilustra el proceso de aglomeracin jerrquica
mediante la suma de cuadrados de Ward, para el ejemplo desarrollado.
Figura 5.
El mtodo de Ward tiende a formar conglomerados con pocas observaciones y tiende a
conformar grupos con el mismo nmero de observaciones. Por basarse en promedios es
muy sensible a la presencia de valores atpicos (outliers).
CARACTERISTICAS
- El mtodo suele ser muy eficiente.
- Tiende a crear clusters de pequeo tamao.
- Se puede usar la matriz de distancias as como una tabla de contingencia.
- Invariante bajo transformaciones montonas de la matriz de distancias.
- Puede ser sensible a los outliers.
Finalmente, Gordon (1987) hace una revisin de los mtodos jerrquicos de clasificacin
para la obtencin de diagramas de rbol o dendogramas y la validacin de la clasificacin
obtenida.
Continuando con el ejemplo de las razas de perros, aplicando el anlisis conglomerado con
el mtodo de Ward (de varianza mnima) obtenemos la siguiente tabla:
Tabla 7: Tabla de razas de perro segn conglomerado
Conglomerado 1 Conglomerado 2 Conglomerado 3 Conglomerado 4
bass(1*) beau(2) bulm(5) dobe(11)
boxe(3) masa(18) stbe(25) poin(23)
cock(8) coll(9) mast(19) galg(15)
foxt(14) dalm(10) tern(27) podf(22)
buld(4) labr(17) sett(24)
teck(26) podb(21) dogo(12)
cani(6) foxh(13)
chih(7) gasc(16)
peki(20)
*Nmero de filas correspondientes
Y su respectivo dendograma generado en Statgraphics es:
Figura 4: Dendograma (Mtodo de Ward)
Y el dendograma generado en R-project es el siguiente (tiene las mismas caractersticas
del obtenido con Statgraphics):
Se observan los 4 grupos formados por las siguientes razas de perros:
Grupo I
bass boxe buld cani chih cock Foxt peki teck
1 3 4 6 7 8 14 20 26
b
a
s
s
b
o
x
e
c
o
c
k
f
o
x
t
c
h
i
h
p
e
k
i
c
a
n
i
b
u
l
d
t
e
c
k
b
e
a
u
m
a
s
a
c
o
l
l
p
o
d
b
d
a
l
m
l
a
b
r
t
e
r
n
m
a
s
t
b
u
l
m
s
t
b
e
d
o
g
o
f
o
x
h
g
a
s
c
g
a
l
g
p
o
d
f
s
e
t
t
d
o
b
e
p
o
i
n
0
5
1
0
1
5
Dendograma: mtodo de Ward
hclust (*, "ward")
dp
H
e
i
g
h
t
Grupo II
beau coll dalm labr masa podb
2 9 10 17 18 21
Grupo III
bulm mast stbe tern
5 19 25 27
Grupo IV
dobe dogo foxh galg gasc masa podf poin sett
11 12 13 15 16 18 22 23 24
Conclusiones:
- Las razas de perros que componen el Grupo I (asociadas tambin a la funcin
compaa) son de peso pequeo. La mayora de esos perros son de tamao
pequeo, de velocidad leve y de afectividad grande. Pero no presentan
caractersticas particulares de inteligencia.
- Las razas de perros que componen el grupo II (asociadas a la funcin compaa)
se caracterizan por tener una velocidad mediana y gran efectividad. Por otra parte,
la mayora de esos perros manifiestan una inteligencia mediana.
- Las razas de perros que componen el grupo III (asociadas a la funcin utilidad)
son de tamao y peso grandes y de afectividad leve. La mayora de esos perros son
de velocidad leve y de agresividad grande. Pero no presentan caractersticas
particulares de inteligencia.
- Las razas de perros que componen el grupo IV (asociadas a la funcin caza) son
de tamao grande y de peso mediano. Por otra parte, la mayora de esas razas de
perros son de velocidad grande. Pero no presentan caractersticas particulares de
inteligencia.