0% encontró este documento útil (0 votos)

161 vistas26 páginas

Análisis de Conglomerados: Conceptos Clave

El documento describe el análisis de conglomerados, que agrupa objetos con características similares en conjuntos llamados conglomerados. El objetivo es clasificar los objetos de forma que los miembros de un conglomerado sean similares entre sí y diferentes a los de otros grupos. Se mencionan algunos propósitos como identificar estructuras naturales en los datos o formular hipótesis. Finalmente, se señalan algunas medidas comunes para determinar la similitud entre objetos, como distancias y coeficientes de correlación.

Cargado por

Gregory Gonzalez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

161 vistas26 páginas

Análisis de Conglomerados: Conceptos Clave

Cargado por

Gregory Gonzalez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Anlisis de Conglomerados (Cluster)

Conglomerado es un conjunto de objetos que poseen caractersticas similares. La palabra

conglomerado es la traduccin ms cercana al trmino cluster, otros sinnimos son
clases o grupos; incluso es muy frecuente el empleo directo de la palabra cluster. En la
terminologa del anlisis de mercados se dice segmento, para denotar un grupo con
determinado perfil; en biologa se habla de familia o grupo para hacer referencia a un
conjunto de plantas o animales que ciertas caractersticas en comn; en ciencias sociales
se consideran estratos a los grupos humanos de condiciones socioeconmicas
homogneas. En este texto se usan los trminos conglomerado, grupo y clase,
indiferentemente, para aludir a un conjunto de objetos que comparten caractersticas
comunes.

El anlisis de conglomerados busca particionar un conjunto de objetos en grupos, de tal
forma que los objetos de un mismo grupo sean similares y los objetos de grupos
diferentes seas dismiles. As, el anlisis de conglomerados tiene como objetivo principal
definir la estructura de los datos colocando las observaciones ms parecidas en grupos

Los propsitos ms frecuentes para la construccin y anlisis de conglomerados son los
siguientes:
(i) La identificacin de una estructura natural en los objetos; es decir, el desarrollo
de una tipologa o clasificacin de los objetos.
(ii) La bsqueda de esquemas conceptuales tiles que expliquen el agrupamiento
de algunos objetos.
(iii) La formulacin de hiptesis mediante la descripcin y exploracin de los
grupos conformados.
(iv) La verificacin de hiptesis, o la confirmacin de si estructuras definidas
mediante otros procedimientos estn realmente en los datos.

Los siguientes casos ejemplifican y motivan la utilidad y la necesidad del anlisis de
conglomerados.
Un psiclogo clnico emplea una muestra de un determinado nmero de pacientes
alcohlicos admitidos a un programa de rehabilitacin, con el fin de construir una
clasificacin. Los datos generados sobre estos pacientes se obtienen a travs de
una prueba. La prueba contiene 566 preguntas de respuestas dicotmicas, las
cuales se estandarizan y resumen en 13 escalas que dan un diagnstico. Mediante
una medida de similitud y la consideracin de homogeneidad dentro y entre
grupos, se conformaron cuatro grupos de alcohlicos: (1) emocionalmente
inestable de personalidad, (2) psiconeurticos con ansiedad depresin, (3) de
personalidad psicpata (4) alcohlico con abuso de drogas y caractersticas
paranoicas.
En taxonoma vegetal, el anlisis de conglomerados se usa para identificar especies
con base en algunas caractersticas morfolgicas, fisiolgicas, qumicas, etolgicas,
ecolgicas, geogrficas y genticas. Con esta informacin se encuentran algunos
conglomerados de plantas, dentro de los cuales se comparten las caractersticas ya
indicadas.
El anlisis de conglomerados puede emplearse con propsitos de muestreo. As
por ejemplo, un analista de mercados est interesado en probar las ventas de un
producto nuevo en un alto nmero de ciudades, pero no dispone de los recursos ni
del tiempo suficiente para observarlos todos. Si las ciudades pueden agruparse en
conglomerados, un miembro de cada grupo podra usarse para la prueba de
ventas; de otra parte, si se generan grupos no esperados esto puede sugerir alguna
relacin que deba investigarse.

Para alcanzar los propsitos anteriormente ilustrados se deben considerar los siguientes
aspectos:
1. Cmo se mide la similitud?
2. Cmo se forman los conglomerados?
3. Cuntos grupos se deben formar?

La tcnica del anlisis de conglomerados es otra tcnica de reduccin de datos. Se puede
considerar la metodologa de las componentes principales como un anlisis de
conglomerados, donde los objetos corresponden a las variables. Dos son los elementos
requeridos en el anlisis de conglomerados, el primero es la medida que seale el grado
de similitud entre los objetos, el segundo es el procedimiento para la formacin de los
grupos o conglomerados.

3.1. Medidas de similitud

Reconocer objetos como similares o disimiles es fundamental para el proceso de la
clasificacin. Aparte de su simplicidad, el concepto de similitud para aspectos
cuantitativos se presenta ligado al concepto de mtrica. Las medidas de similitud se
pueden clasificar en dos tipos; en una parte estn las que renen las propiedades de
mtrica, como la distancia; en otra, se pueden ubicar los coeficientes de asociacin, estos
ltimos empleados para datos en escala nominal.

Una mtrica es una funcin (o regla9 que asigna un nmero a cada par de objetos de
un conjunto , es decir,

La cual satisface, sobre los objetos , y de , las siguientes condiciones:

1. No negatividad. y , si y slo si, .

2. Simetra. Dados dos objetos y , la distancia, , entre ellos satisface

3. Desigualdad triangular. Para tres objetos , y las distancias entre ellos
satisfacen la expresin

Esto, simplemente, quiere decir que la longitud de uno de los lados de un tringulo
es menor o igual que la suma de las longitudes de los otros dos lados.

4. Identificacin de no Identidad. Dados los objetos y

5. Identidad. Para dos elementos idnticos, y

, se tiene que

Es decir, si los objetos son idnticos, la distancia entre ellos es cero.

Observacin
Hay medidas que a cambio de la desigualdad triangular, propiedad (3), satisfacen

{ }
A este tipo de distancia se le denomina ultramtrica. Esta distancia juega un papel
importante en los mtodos de clasificacin automtica.

Las medidas de similitud, de aplicacin ms frecuentes, son las siguientes:

(1) Medidas de distancia.
(2) Coeficientes de correlacin.
(3) Coeficientes de asociacin.
(4) Medidas probabilsticas de similitud.

Antes de utilizar alguna de las medidas anteriores, se debe encontrar el conjunto de
variables que mejor represente el concepto de similitud, bajo el estudio a desarrollar.
Idealmente, las variables deben escogerse dentro del marco conceptual que
explcitamente se usa para la clasificacin. La teora en cada campo, es la base racional
para la seleccin de las variables a usar en el estudio.

La importancia de usar la teora para la seleccin de las variables no debe subestimarse,
pues resulta muy peligroso caer en un empirismo ingenuo, por la facilidad con que los
algoritmos nos forman grupos sin importar el nmero y el tipo de variables; ya que por la
naturaleza heurstica de las tcnicas de agrupamiento se ha contaminado un poco su
aplicacin. Para la aplicacin de esta tcnica tambin se debe considerar la necesidad de
estandarizar las variables, su transformacin, o la asignacin de un peso o ponderacin
para el clculo de la medida de similitud y la conformacin de los conglomerados
(Aldenderfer y Blashfield 1984).

1.1.1 Medidas de distancia

Las medidas de uso ms frecuente son:
La distancia euclidiana, definida por

La distancia

de Mahalanobis, tambin llamada la distancia generalizada

)
Donde es la matriz de varianzas y covarianzas de los datos, y

son los
vectores de las mediciones que identifican los dos objetos y .

Otra medida muy comn es la de Manhattan, se define

Finalmente la medida de Minkowski

1.1.2. Coeficiente de correlacin

Frecuentemente se les llama medidas angulares, por su interpretacin geomtrica. El ms
popular de ellos es el coeficiente producto momento de Pearson, el cual determina el
grado de correlacin o asociacin lineal entre casos. Est definido por:

donde

es el valor de la variable para el caso (objeto), y

es la media de todas las

variables que definen el caso . Esta medida se emplea para variables en escala al menos
de intervalo; para el caso de variables binarias, stas se transformar al conocido
coeficiente . En coeficiente toma valores 1 y -1, un valor de cero significa no similitud
entre los casos. Frecuentemente se le considera como una medida de forma, la cual es
insensible a las diferencias en magnitud de las variables que intervienen en su clculo.

El coeficiente de producto momento es sensible a la forma, esto significa que dos perfiles
pueden tener correlacin de +1.0, y no ser idnticos.

Una limitacin del coeficiente de correlacin es que no siempre satisface la desigualdad
triangular, y esto puede limitar la comparacin entre perfiles. Otra limitacin es su clculo,
pues debe obtenerse la media a travs de diferentes tipos variables, y no a travs de casos
como corresponde a su definicin estadstica; de cualquier modo, el coeficiente
demuestra ser bueno frente a otros coeficientes de similitud en el anlisis de
conglomerados, por cuanto reduce el nmero de clasificaciones incorrectas.

1.1.3. Coeficientes de asociacin

Son apropiados cuando los datos estn en escala nominal. Cada variable toma los valores
de 0 (de ausencia) y 1 (de presencia) de un atributo; una tabla de doble entrada resume
toda la informacin (a manera de una matriz de diseo). Por ejemplo, la siguiente tabla
contiene la informacin de dos OTU (Operational Taxonomic Unit) A y B con relacin a 10
caracteres del tipo presencia/ausencia,

OTU 1 2 3 4 5 6 7 8 9 10
A 0 1 1 0 1 0 1 0 1 0
B 1 1 0 0 1 1 0 0 1 1

Al comparar estos dos objetos se tienen cuatro posibilidades (Crisci y Lpez, 1983 pgs.
42-49):

1. Que ambos tengan presente el carcter comparado (1,1).
2. Que ambos tengan ausente el carcter comparado (0,0).
3. Que el primero tenga el carcter presente y el segundo ausente (1,0).
4. Que el primero de ellos tenga el carcter ausente y el segundo presente (0,1)

La frecuencia con que se presentan estas cuatro caractersticas se resume en la siguiente
tabla:
Objeto B
Objeto A 1 0
1 (a) (b)
0 (c) (d)

El valor (a) es el nmero de atributos en los cuales el mismo estado es posedo por los dos
objetos, (b) es la frecuencia de caracteres en los cuales el primer objeto lo posee y el
segundo no, (c) es el nmero de caracteres en los que un estado est ausente en el primer
objeto pero no en el segundo y (d) es el nmero de caracteres en los cuales el mismo
estado est ausente en ambos objetos.

Para el ejemplo de las OTU, la tabla de comparacin de un mismo carcter es

Objeto B
Objeto A 1 0
1 (3) (2)
0 (3) (2)

Coeficiente de asociacin simple (): Es la medida de similitud ms sencilla, entre
objetos y , se calcula mediante la siguiente frmula

Sus valores estn entre 0 y 1. Este coeficiente toma en cuenta la ausencia de una
variable para los dos objetos en consideracin.

El coeficiente de Jaccard (), definido como

Resuelve el problema de las ausencias conjuntas de una variable en el clculo de la
similaridad. Los bilogos anotan que con el empleo del coeficiente de asociacin
simple, algunos casos aparecern como muy similares por el hecho de no poseer
algn atributo en comn; es algo as como decir, que una guayaba se parece a una
naranja porque con ninguna de las dos se puede hacer jugo de mango.

Rogers y Tanimoto (): le da prelacin a las diferencias, como en el caso de los
dos anteriores coeficientes donde sus valores oscilan entre 0 y 1; es decir, valores
de mnima y mxima similitud, respectivamente. Su clculo se hace mediante la
siguiente expresin:

Srensen o Dice (): este coeficiente le confiere mayor importancia a las
coincidencias en estado de presencia, se expresa como

Los valores de este coeficiente varan entre 0 y 1; y representan valores de mnima
y mxima similitud, respectivamente.

Sokal y Sneath (): ste tiene ms en cuenta las coincidencias, tanto por
presencia como por ausencia de los atributos. Sus valores se obtienen calculando

Y toma valores entre 0 y 1 que equivalen a la mnima y mxima semejanza
respectivamente.

Hamann (H): considera importante las diferencias entre coincidencias y no
coincidencias. Los valores de similitud estn en el rango de -1 a 1, mnima y
mxima similitud, respectivamente. Se expresa as

Aunque en la literatura de taxonoma numrica se encuentran otros coeficientes, con los
anteriores se brinda la idea general de esta estrategia para medir similitud entre objetos.

Los valores de cada uno de estos coeficientes, para el ejemplo de las OTU, son los
siguientes:

Una objecin que se le puede hacer a los coeficientes de asociacin, es su aplicacin solo a
respuestas dicotmicas; aunque, los datos continuos se pueden transformar a valores de
tipo 0 y 1, el problema se reduce a decidir a que valores se les asigna como 0 y a cuales
como 1, esta transformacin hace que se pierda informacin; pues no tienen en cuenta la
intensidad de los atributos.

1.1.4. Coeficientes de probabilidad

Son bastantes diferentes a los anteriores, este tipo de medida trabaja directamente sobre
los datos originales. Al construir conglomerados, se considera la ganancia de informacin
al combinar dos casos; se fusionan los dos casos que suministren la menor ganancia de
informacin. Una limitacin de estas medidas probabilsticas es su utilizacin nicamente
para variables dicotmicas. Puesto que estos coeficientes son muy utilizados en
taxonoma numrica, se sugiere consultar a Clifford-Stephenson (1975).

3.2. Una Revisin de los mtodos de agrupamiento

Aunque no hay una definicin universal de conglomerado, se toma la definicin dada por
Everitt (1980), quien dice que los conglomerados son regiones continuas de un espacio
que contienen una densidad relativamente alta de punto, las cuales estn separadas por
regiones que contienen una densidad relativamente baja de puntos.

Varios son los algoritmos propuestos para la conformacin de conglomerados, se
desarrollan, de una manera muy esquemtica los mtodos jerrquicos, los mtodos de
particin o divisin, nubes dinmicas, clasificacin difusa y algunas herramientas grficas.
Cada uno de estos mtodos representa una perspectiva diferente para la formacin de los
conglomerados, con resultados generalmente distintos cuando las diferentes
metodologas se aplican sobre el mismo conjunto de datos. Para obviar en parte esta
dificultad, se debe emplear un procedimiento concordante con la naturaleza de la
tipologa esperada, con las variables a considerar y la medida de similitud usada.

3.2.1. Mtodos jerrquicos

Estos mtodos empiezan con el clculo de la matriz de distancias entre los objetos. Se
forman grupos de manera aglomerativa o por un proceso de divisin. Una de las
caractersticas de esta tcnica es la localizacin irremovible de cada uno de los objetos en
cada etapa del mismo. Con los procedimientos aglomerativos cada uno de los objetos
empieza formando un conglomerado (grupos unitarios). Grupos cercanos se mezclan
sucesivamente hasta que todos los objetos quedan dentro de un mismo conglomerado.
Los mtodos de divisin inician con todos los objetos dentro de un mismo conglomerado,
ste es dividido luego en dos grupos, stos en otros dos hasta que cada objeto llega a ser
un conglomerado. Ambos procedimientos se resumen en un diagrama de rbol que ilustra
la conformacin de los distintos grupos, de acuerdo con el estado, de fusin o divisin,
jerrquico implicado por la matriz de similaridades; este diagrama se conoce con el
nombre de dendograma. Por su amplia aplicacin, se explican solo los mtodos
aglomerativos.

Mtodos aglomerativos

Son los ms frecuentemente utilizados. Una primera caracterstica de estos mtodos es
que buscan una matriz de similaridades de tamao , ( nmero de objetos), desde
la cual, secuencialmente, se mezclan los casos ms cercanos; aunque cada uno tiene su
propia forma de medir las distancias entre grupos o clases. Un segundo aspecto es que
cada paso o etapa en la conformacin de grupos puede representarse visualmente por un
dendograma. En tercer lugar, se requieren pasos para la conformacin de los
conglomerados de acuerdo con la matriz de similaridades. En el primer paso cada objeto
es tratado como un grupo; es decir, se inicia con conglomerados, y, en el paso final, se
tienen todos los objetos en un solo conglomerado. Finalmente, los mtodos jerrquicos
aglomerativos son conceptualmente simples.

Los pasos que seguiremos para una clasificacin jerrquica son fundamentalmente los
siguientes:

1. Decidir qu datos tomamos para cada uno de los casos. Generalmente tomaremos
varias variables todas del mismo tipo (continuas, categricas, etc.) ya que suele ser
difcil mezclar tipos distintos.

2. Elegimos una medida de la distancia entre los objetos a clasificar, que sern los
clusters o clases iniciales.

3. Buscamos que clusters son ms similares.

4. Juntamos estos dos clusters en un nuevo cluster que tenga al menos 2 objetos, de
forma que el nmero de clusters decrece en una unidad.

5. Calculamos la distancia entre este nuevo cluster y el resto. No es necesario
recalcular todas las distancias, solamente las del nuevo cluster con los anteriores.

6. Repetimos desde el paso 3 hasta que todos los objetos estn en un nico cluster.

Los pasos se resumen en el diagrama siguiente.

En este mtodo aglomerativos existen diferentes criterios, los cuales son:

Los distintos mtodos o algoritmos dependen del mtodo utilizado en el paso 5 para
calcular la distancia entre clusters. Es necesario resaltar, que los distintos mtodos para el
clculo de las distancias entre clusters producen distintas clasificaciones, por lo que no
existe una clasificacin correcta nica.

1) Enlace simple o del vecino ms cercano
Despus de iniciar con tantos grupos como objetos haya disponible, se juntan los dos
casos que estn a la menor distancia o dentro de un lmite de similitud dispuesto. Ellos
conforman el primer conglomerado. En la siguiente etapa puede ocurrir que un tercer
objeto se junte a los dos ya conformados o que se una con otro ms cercano a l, para
formar un segundo conglomerado. La decisin se basa en establecer si la distancia entre el
tercer objeto y el primer conglomerado es menor a la distancia entre ste y otro de los no
agrupados. El proceso se desarrolla hasta que todos los objetos queden de un mismo
conglomerado. La distancia entre el conglomerado y el conglomerado se define
mediante

}

As, la distancia entre dos conglomerados cualesquiera es la menor distancia observada
desde un punto de un conglomerado a un punto del otro conglomerado.
Para ilustrar este procedimiento de agrupacin, supngase que cinco objetos se
encuentran a las siguientes distancias.

0 3 7 11 10

3 0 6 10 9

7 6 0 5 6

11 10 5 0 4

11 9 6 4 0

A una distancia cero, los cinco objetos conforman cada uno un grupo. La distancia ms
pequea, de acuerdo con la matriz anterior, es 3, que corresponde entre

. As, a esta distancia se tienen cuatro grupos {

}, {

} y {

}. Las
distancias entre estos grupos se obtienen a travs de (1); as, la distancia entre el
conglomerado {

} y los dems es

}{

}
{

} {}

}{

}
{

}{

}
{

}

Las distancias
{

}{

}
,
{

}{

}
y
{

}{

}
, estn contenidas en la matriz de distancias
inicial. As, la matriz de distancias entre los nuevos conglomerados, calculadas de
acuerdo con la expresin (1), es

{

} {

}
{

} 0 6 10 9
{

} 6 0 5 6
{

} 10 5 0 4
{

} 9 6 4 0

De la matriz de distancias anteriores, la siguientes distancia ms pequea es 4 y est entre
los grupos {

} y {

}; por tanto, a una distancia 4 se conforman los conglomerados:

{

}, {

} y {

}. La matriz de distancias entre stos, calculadas mediante la

frmula (1), es

{

} {

}
{

} 0 6 9
{

} 6 0 5
{

} 9 5 0

La siguiente menor distancia es 5; corresponde a los grupos {

} y {

}, la distancia
entre stos es: {
{

}{

}

{

}{

}
} .

Quedan en esta etapa dos grupos {

} y {

}. La matriz de distancias entre

stos, calculadas mediante la frmula (1) es

{

} {

}
{

} 0 6
{

} 6 0

Por ltimo, la siguiente distancia ms pequea es 6, corresponde a

y a

. En
este punto todos los objetos se pueden mezclar en el conglomerado
{

}. La tabla siguiente resume el proceso.

Distancia Conglomerado
0 {

} {

}.
3 {

} {

}
4 {

} {

}
5 {

} {

}
6 {

}

Un dendrograma es una representacin grfica en forma de rbol que resume el proceso
de agrupacin en un anlisis de clusters. Los objetos similares se conectan mediante
enlaces cuya posicin en el diagrama est determinada por el nivel de similitud/disimilitud
entre los objetos.

En el dendograma de la figura 1 muestra la disposicin de los objetos en cada uno de los
conglomerados. El eje vertical contiene los niveles de distancia bajo los cuales se
conforman los grupos; as, para una distancia de 4.5 se tienen tres grupos (bajo la lnea
punteada), estos son: {

} {

} y {

} {

} .

Las principales ventajas de este mtodo son la invarianza respecto a transformaciones
montonas de la matriz de similaridades y su no afectacin por la presencia de empates.
La primera propiedad significa que la tcnica no altera sus resultados cuando la
transformacin de los datos conserva el orden de los mismos.

Figura 1.

Caractersticas:
- No es til para resumir datos.
- til para detectar outliers (estarn entre los ltimos en unirse a la jerarqua).
- Pueden usarse medidas de la similitud o de la disimilitud.
- Tiende a construir clusters demasiado grandes y sin sentido.
- Invariante bajo transformaciones montonas de la matriz de distancias.

2) Enlace completo o del vecino ms lejano
Este mtodo es el opuesto lgico al de unin simple, la regla establece que cualquier
candidato a incluirse en un grupo existencia, debe estar dentro de un determinado nivel
de similitud con todos los miembros de ese grupo; de otra manera, dos grupos son
mezclados solo si los miembros ms distantes de los dos grupos estn suficientemente
cerca de manera conjunta; el suficientemente cerca es dado por el nivel de similitud
impuesto en cada etapa del algoritmo.

Para este procedimiento la distancia entre el conglomerado y el conglomerado est
dado por

}

En el ejemplo actual, en una primera etapa se fusionan los objetos

en el
conglomerado. Las distancias entre los conglomerados resultantes se calculan a travs de
(2), por ejemplo las distancias entre el conglomerado {

} y los dems son:

}{

}
{

} {}

}{

}
{

}{

}
{

}
La siguiente matriz contiene las distancias, tipo (2), entre los conglomerados obtenidos
hasta ahora:

{

} {

}
{

} 0 7 11 10
{

} 7 0 10 6
{

} 11 10 0 4
{

} 10 6 4 0

En la matriz de distancias anterior, se observa que los objetos

pueden fusionarse,
pues son los grupos ms cercanos. La matriz de distancias entre los conglomerados
{

}, {

} y {

}, aplicando nuevamente la expresin (2) es:

{

} {

}
{

} 0 7 11
{

} 7 0 6
{

} 11 6 0

El objeto

se debe fusionar con el grupo constituido por los objetos

, pues la
distancia entre ste y los otros dos conglomerados, de acuerdo con las frmulas (2), es

}{

}
{
{

}{

}

{

}{

}
} {}

}{

}
{
{

}{

}

{

}{

}
} {}

Ntese que aunque

dista de

en 6 unidades, no est dentro de este nivel con

(distan de 7 unidades); es decir, no est conjuntamente cerca a este conglomerado.

Hasta esta etapa se tienen los grupos o clases {

}, {

} y {

}. En una ltima
etapa los objetos conforman una sola clase.

La tabla siguiente muestra el algoritmo

Distancia Conglomerado
0 {

} {

}.
3 {

} {

}
4 {

} {

}
5 {

} {

}
11 {

}

El respectivo dendograma se exhibe en la figura 2. Es evidente que la determinacin de los
grupos en un nivel especfico es ahora ms clara que en el caso anterior. Se ilustran los
conglomerados obtenidos al tomar una distancia de 5 y 7 unidades respectivamente.

Figura 2.

Caractersticas:
- til para detectar outliers.
- Pueden usarse medidas de la similitud o de la disimilitud.
- Tiende a construir clusters pequeos y compactos.
- Invariante bajo transformaciones montonas de la matriz de distancias.

3) Unin mediante el promedio
Fue propuesto por Sokal y Michener (1958); es una salida a los extremos de los dos
mtodos anteriores. La distancia entre dos conglomerados y se define como el
promedio de las distancias entre todos los pares de objetos, uno del conglomerado y
otro del conglomerado ; es decir,

Se une el caso u objeto al conglomerado si se logra un determinado nivel de similitud con
el valor promedio. El promedio ms comn es la media aritmtica de las similaridades
entre los objetos.

Con el ejemplo tratado, la tabla que resume el algoritmo y el dendograma (figura 7.3)
respectivo se presentan enseguida:

Distancia Conglomerado
0 {

} {

}.
3 {

} {

}
4 {

} {

}
5.5 {

} {

}
8.8 {

}

La distancia entre las clases {

}, {

} y {

} se calculan desde la expresin (3)

como sigue:

}{

Para el cuarto paso, por ejemplo, el caso

est a una distribucin en promedio del grupo

{

} de 6.5 y a 5.5 del grupo {

}, por eso se junta con ste ltimo.

Figura 3.

Caractersticas:
- Proporciona clsteres ni demasiado grandes ni demasiado pequeos.
- Pueden utilizarse medidas de la similitud o de la disimilitud.
- No es invariante por transformaciones montonas de las distancias.
- Tiende a fusionar clsteres con varianzas pequeas y tiende a proporcionar clsteres con
la misma varianza.
- Buena representacin grfica de los resultados.

4) Mtodo de Ward (Mtodo de Varianza Mnima)
Con este mtodo se busca la mnima variabilidad dentro de los conglomerados, se trata
entonces de un problema de optimizacin. Ward (1963) basa su mtodo sobre la prdida
de informacin resultante al agrupas casos en grupos, medida por la suma total del
cuadrado de las desviaciones de cada caso al centroide del grupo al cual pertenece. La
suma de cuadrados se calcula mediante

Con

los centroides,

los tamaos de los conglomerados y

respectivamente.

Para un nico atributo, la suma de cuadrados se obtiene de
(

Donde

es el valor del atributo para el -simo individuo en el -simo conlgomerado,

es el nmero del conglomerado en cada etapa y

es el nmero de individuos para el -

simo conglomerado.

Se empieza con n grupos, un caso por grupo, aqu la suma de cuadrados de Ward (SCW) es
cero. En el segundo paso se buscan los dos casos que produzcan el menor incremento en
la suma de cuadrados, dentro de todas las posibles combinaciones de a dos objetos. En la
tercera etapa se toman los grupos conformados, se calcula la SCW y se juntan
aquellos que produzcan el menor incremento en la variabilidad. El proceso contina hasta
obtener un grupo de objetos o casos.

Para facilitar la comprensin del algoritmo se desarrolla el caso con cinco individuos sobre
los cuales se mide un atributo.

Individuo Atributo
A 3
B 7
C 8
D 11
E 14

El procedimiento en cada una de sus etapas es el siguiente;
Primera etapa
La SCW para cada uno de los individuos es cero. Los grupos iniciales son
{} {} {} {} {}
Segunda etapa
Los (

) posibles grupos o conglomerados de a dos individuos cada uno, producen la

siguientes sumas de cuadrados

{}
(

{}

{}

{}

{}

{}

Los individuos B y C son fusionados, pues producen la menor SCW. Los conglomerados
resultantes son

{} { } {} {}

Tercera etapa
Se calcula la SCW para cada uno de los posibles agrupamientos ((

) ), entre los
cuatro grupos encontrados en el paso anterior; resulta

{}{}

{}

{}

{}{}

{}{}

{}

El grupo que registra la mayor homogeneidad es el conformado por D y E, ya que la fusin
de estos dos objetos produce la menor variabilidad. Los grupos que se han formado hasta
aqu son:
{} { } { }

Cuarta etapa
Con los tres grupos anteriores se hacen los posibles reagrupamientos de a dos
conglomerados, y luego se determina la SCW para cada una de las (

) nuevos
arreglos. Los resultados se resumen en seguida

{}{}

{}{}

{}{}

El grupo que muestra la mayor homogeneidad, en trminos de la menor suma de
cuadrados de Ward, lo constituyen A, B y C; de donde resultan los siguientes
conglomerados: { } y { }.

Quinta etapa
El ltimo conglomerado est constituido por A,B,C,D y E; con

{}{}

La figura 5. contiene el dendograma que ilustra el proceso de aglomeracin jerrquica
mediante la suma de cuadrados de Ward, para el ejemplo desarrollado.

Figura 5.

El mtodo de Ward tiende a formar conglomerados con pocas observaciones y tiende a
conformar grupos con el mismo nmero de observaciones. Por basarse en promedios es
muy sensible a la presencia de valores atpicos (outliers).

CARACTERISTICAS
- El mtodo suele ser muy eficiente.
- Tiende a crear clusters de pequeo tamao.
- Se puede usar la matriz de distancias as como una tabla de contingencia.
- Invariante bajo transformaciones montonas de la matriz de distancias.
- Puede ser sensible a los outliers.

Finalmente, Gordon (1987) hace una revisin de los mtodos jerrquicos de clasificacin
para la obtencin de diagramas de rbol o dendogramas y la validacin de la clasificacin
obtenida.

Continuando con el ejemplo de las razas de perros, aplicando el anlisis conglomerado con
el mtodo de Ward (de varianza mnima) obtenemos la siguiente tabla:

Tabla 7: Tabla de razas de perro segn conglomerado
Conglomerado 1 Conglomerado 2 Conglomerado 3 Conglomerado 4
bass(1*) beau(2) bulm(5) dobe(11)
boxe(3) masa(18) stbe(25) poin(23)
cock(8) coll(9) mast(19) galg(15)
foxt(14) dalm(10) tern(27) podf(22)
buld(4) labr(17) sett(24)
teck(26) podb(21) dogo(12)
cani(6) foxh(13)
chih(7) gasc(16)
peki(20)
*Nmero de filas correspondientes

Y su respectivo dendograma generado en Statgraphics es:

Figura 4: Dendograma (Mtodo de Ward)

Y el dendograma generado en R-project es el siguiente (tiene las mismas caractersticas
del obtenido con Statgraphics):

Se observan los 4 grupos formados por las siguientes razas de perros:
Grupo I
bass boxe buld cani chih cock Foxt peki teck
1 3 4 6 7 8 14 20 26

b
a
s
s
b
o
x
e
c
o
c
k
f
o
x
t
c
h
i
h
p
e
k
i
c
a
n
i
b
u
l
d
t
e
c
k
b
e
a
u
m
a
s
a
c
o
l
l
p
o
d
b
d
a
l
m
l
a
b
r
t
e
r
n
m
a
s
t
b
u
l
m
s
t
b
e
d
o
g
o
f
o
x
h
g
a
s
c
g
a
l
g
p
o
d
f
s
e
t
t
d
o
b
e
p
o
i
n
0
5
1
0
1
5
Dendograma: mtodo de Ward
hclust (*, "ward")
dp
H
e
i
g
h
t
Grupo II
beau coll dalm labr masa podb
2 9 10 17 18 21

Grupo III
bulm mast stbe tern
5 19 25 27

Grupo IV
dobe dogo foxh galg gasc masa podf poin sett
11 12 13 15 16 18 22 23 24

Conclusiones:

- Las razas de perros que componen el Grupo I (asociadas tambin a la funcin
compaa) son de peso pequeo. La mayora de esos perros son de tamao
pequeo, de velocidad leve y de afectividad grande. Pero no presentan
caractersticas particulares de inteligencia.

- Las razas de perros que componen el grupo II (asociadas a la funcin compaa)
se caracterizan por tener una velocidad mediana y gran efectividad. Por otra parte,
la mayora de esos perros manifiestan una inteligencia mediana.

- Las razas de perros que componen el grupo III (asociadas a la funcin utilidad)
son de tamao y peso grandes y de afectividad leve. La mayora de esos perros son
de velocidad leve y de agresividad grande. Pero no presentan caractersticas
particulares de inteligencia.

- Las razas de perros que componen el grupo IV (asociadas a la funcin caza) son
de tamao grande y de peso mediano. Por otra parte, la mayora de esas razas de
perros son de velocidad grande. Pero no presentan caractersticas particulares de
inteligencia.

También podría gustarte

Clase 8 Análisis de Conglomerados
Aún no hay calificaciones
Clase 8 Análisis de Conglomerados
45 páginas
CEC.12.Planes de Muestreo Por Variables
Aún no hay calificaciones
CEC.12.Planes de Muestreo Por Variables
43 páginas
Causas Aleatorias y Asignables
0% (2)
Causas Aleatorias y Asignables
64 páginas
Caso Practico Tecnicas de Calidad
100% (1)
Caso Practico Tecnicas de Calidad
16 páginas
Enunciados de Problemas de PROBABILIDAD
0% (2)
Enunciados de Problemas de PROBABILIDAD
18 páginas
Función de Perdida en Minitab
Aún no hay calificaciones
Función de Perdida en Minitab
8 páginas
Reporte de Investigación
Aún no hay calificaciones
Reporte de Investigación
8 páginas
Clasificación de La Investigación de Mercados I
67% (3)
Clasificación de La Investigación de Mercados I
4 páginas
Métodos Cuantitativos
Aún no hay calificaciones
Métodos Cuantitativos
44 páginas
2.1 Conjunto y Tecnicas de Conteo
Aún no hay calificaciones
2.1 Conjunto y Tecnicas de Conteo
7 páginas
Evolución de la Gestión de Calidad
Aún no hay calificaciones
Evolución de la Gestión de Calidad
3 páginas
Planes de Muestreo por Atributos
Aún no hay calificaciones
Planes de Muestreo por Atributos
40 páginas
ÍNDICE K y TAGUCHI
Aún no hay calificaciones
ÍNDICE K y TAGUCHI
2 páginas
Gráficos de Control por Atributos
Aún no hay calificaciones
Gráficos de Control por Atributos
12 páginas
Técnicas de Recolección de Datos
75% (8)
Técnicas de Recolección de Datos
21 páginas
Investigación de Componentes de Series de Tiempo - Nadia Fernandez Guerrero
Aún no hay calificaciones
Investigación de Componentes de Series de Tiempo - Nadia Fernandez Guerrero
4 páginas
Gráficas de Control de Variables
Aún no hay calificaciones
Gráficas de Control de Variables
3 páginas
Examen de Investigación de Operaciones
Aún no hay calificaciones
Examen de Investigación de Operaciones
7 páginas
Probabilidad
Aún no hay calificaciones
Probabilidad
14 páginas
Diagrama Como
0% (1)
Diagrama Como
2 páginas
Trabajo Bioestadistica V Semestre
Aún no hay calificaciones
Trabajo Bioestadistica V Semestre
19 páginas
Análisis de Defectos en Mesas de Laca
Aún no hay calificaciones
Análisis de Defectos en Mesas de Laca
3 páginas
Just in Time
Aún no hay calificaciones
Just in Time
14 páginas
Unidad 3 Actividad 3
Aún no hay calificaciones
Unidad 3 Actividad 3
12 páginas
Test de Hipótesis y Estadística Básica
Aún no hay calificaciones
Test de Hipótesis y Estadística Básica
83 páginas
Metodología de Investigación Empresarial
Aún no hay calificaciones
Metodología de Investigación Empresarial
90 páginas
Análisis de Productividad Empresarial
100% (1)
Análisis de Productividad Empresarial
2 páginas
Planes de Muestreo de Aceptación
Aún no hay calificaciones
Planes de Muestreo de Aceptación
51 páginas
Curva OC: Evaluación de Planes de Muestreo
75% (4)
Curva OC: Evaluación de Planes de Muestreo
51 páginas
Resumen Malhotra
Aún no hay calificaciones
Resumen Malhotra
8 páginas
Control Estadístico Multivariado
100% (1)
Control Estadístico Multivariado
5 páginas
Auditores SiGE - Ado
100% (1)
Auditores SiGE - Ado
101 páginas
Control de Calidad y Mejora Continua
Aún no hay calificaciones
Control de Calidad y Mejora Continua
143 páginas
Diagramas de Control para Atributos. Con Notas
Aún no hay calificaciones
Diagramas de Control para Atributos. Con Notas
31 páginas
(Kaoru Ishikawa) Introduccion Al Control de Calida
Aún no hay calificaciones
(Kaoru Ishikawa) Introduccion Al Control de Calida
252 páginas
Tema-9 - Inspeccion Por Muestreo
Aún no hay calificaciones
Tema-9 - Inspeccion Por Muestreo
59 páginas
Diagrama de Pareto: Mejora de Calidad Empresarial
Aún no hay calificaciones
Diagrama de Pareto: Mejora de Calidad Empresarial
3 páginas
Capacidad de Procesos: Índices Cp y Cpk
Aún no hay calificaciones
Capacidad de Procesos: Índices Cp y Cpk
5 páginas
Unidad 1 1.5 Tipos de Cadenas
Aún no hay calificaciones
Unidad 1 1.5 Tipos de Cadenas
16 páginas
Examen Cadenas de Markov
Aún no hay calificaciones
Examen Cadenas de Markov
8 páginas
Diagrama Matricial
Aún no hay calificaciones
Diagrama Matricial
8 páginas
Cartas de Control Por Atributos PDF
Aún no hay calificaciones
Cartas de Control Por Atributos PDF
21 páginas
Resultados, Aplicaciones y Conclusiones.
Aún no hay calificaciones
Resultados, Aplicaciones y Conclusiones.
3 páginas
Sistema de Revisión Continua
0% (1)
Sistema de Revisión Continua
29 páginas
Minitab Estudios de Capacidad EJERCICIOS
Aún no hay calificaciones
Minitab Estudios de Capacidad EJERCICIOS
2 páginas
Muestreo Aceptación Atributos Simple
Aún no hay calificaciones
Muestreo Aceptación Atributos Simple
2 páginas
Las 7 Herramientas de Ishikawa
Aún no hay calificaciones
Las 7 Herramientas de Ishikawa
12 páginas
Hatco Milla 13485564
Aún no hay calificaciones
Hatco Milla 13485564
62 páginas
Análisis de Intervalos de Confianza Coca-Cola
Aún no hay calificaciones
Análisis de Intervalos de Confianza Coca-Cola
17 páginas
Comparativa: Gráficos de Barras vs. Histogramas
Aún no hay calificaciones
Comparativa: Gráficos de Barras vs. Histogramas
6 páginas
4 Medidas de Tendencia Central
Aún no hay calificaciones
4 Medidas de Tendencia Central
3 páginas
1 4casopractico
Aún no hay calificaciones
1 4casopractico
13 páginas
Cartas de Control
100% (1)
Cartas de Control
39 páginas
Definición y Tipos de Productividad
Aún no hay calificaciones
Definición y Tipos de Productividad
6 páginas
ESTRATIFICACION
0% (1)
ESTRATIFICACION
4 páginas
Casos de Éxito ISO 9001 en Empresas
100% (1)
Casos de Éxito ISO 9001 en Empresas
5 páginas
Clase Cluster
Aún no hay calificaciones
Clase Cluster
54 páginas
Análisis de Conglomerados PDF
100% (1)
Análisis de Conglomerados PDF
26 páginas
Análisis de Conglomerados (Cluster 1)
Aún no hay calificaciones
Análisis de Conglomerados (Cluster 1)
22 páginas
Técnicas de Análisis de Clúster
Aún no hay calificaciones
Técnicas de Análisis de Clúster
23 páginas
Actividades de Recuperacion
100% (1)
Actividades de Recuperacion
2 páginas
Ejercicios de Conjuntos y Venn
Aún no hay calificaciones
Ejercicios de Conjuntos y Venn
2 páginas
Examen Ley Del Seno Ley Del Coseno
Aún no hay calificaciones
Examen Ley Del Seno Ley Del Coseno
2 páginas
Ejercicios Estadistica
Aún no hay calificaciones
Ejercicios Estadistica
15 páginas
Importancia del Plano Cartesiano
Aún no hay calificaciones
Importancia del Plano Cartesiano
8 páginas
Fracciones y su Significado
100% (3)
Fracciones y su Significado
1 página
Taller: Variables Estadísticas y Población
Aún no hay calificaciones
Taller: Variables Estadísticas y Población
2 páginas
Syllabus de Estadistica para Negocios
Aún no hay calificaciones
Syllabus de Estadistica para Negocios
4 páginas
Analisis de Regresión y Correlación
Aún no hay calificaciones
Analisis de Regresión y Correlación
19 páginas
Diseños Descriptivos - Correlacionales
Aún no hay calificaciones
Diseños Descriptivos - Correlacionales
12 páginas
Tecnicas Basicas Calidad
Aún no hay calificaciones
Tecnicas Basicas Calidad
24 páginas
Series Estadísticas Bidimensionales
Aún no hay calificaciones
Series Estadísticas Bidimensionales
10 páginas
Conozca 3 Tipos de Investigación Descriptiva, Exploratoria y Explicativa
100% (1)
Conozca 3 Tipos de Investigación Descriptiva, Exploratoria y Explicativa
76 páginas
Riesgo Financiero y Rendimiento Inversión
100% (1)
Riesgo Financiero y Rendimiento Inversión
3 páginas
Completacion y Extension1
Aún no hay calificaciones
Completacion y Extension1
24 páginas
Análisis de Datos y Técnicas de Clustering
Aún no hay calificaciones
Análisis de Datos y Técnicas de Clustering
9 páginas
Uso de La Calculadora - Parte 3 Ajuste de Curvas - Actualizada
Aún no hay calificaciones
Uso de La Calculadora - Parte 3 Ajuste de Curvas - Actualizada
11 páginas
EDU072 Alvarez
Aún no hay calificaciones
EDU072 Alvarez
17 páginas
Final Thesis
Aún no hay calificaciones
Final Thesis
100 páginas
Estudio de Mercado y Estimacion de Proyectos
Aún no hay calificaciones
Estudio de Mercado y Estimacion de Proyectos
21 páginas
Informe CACHIMAYO
Aún no hay calificaciones
Informe CACHIMAYO
189 páginas
Unidad 5
Aún no hay calificaciones
Unidad 5
89 páginas
Investigación Correlacional y Explicativa
Aún no hay calificaciones
Investigación Correlacional y Explicativa
16 páginas
Análisis de Datos con Mínimos Cuadrados
Aún no hay calificaciones
Análisis de Datos con Mínimos Cuadrados
9 páginas
TEMA 9 y 10 Quimiometría
Aún no hay calificaciones
TEMA 9 y 10 Quimiometría
63 páginas
Introducción al Análisis Multivariante
Aún no hay calificaciones
Introducción al Análisis Multivariante
24 páginas
Investigación Correlacional: Definición y Pasos
Aún no hay calificaciones
Investigación Correlacional: Definición y Pasos
1 página
Diapositivas de Regresión
Aún no hay calificaciones
Diapositivas de Regresión
30 páginas
Regresion y Correlacion Lineal
Aún no hay calificaciones
Regresion y Correlacion Lineal
10 páginas
Alcances de la Investigación Cuantitativa
Aún no hay calificaciones
Alcances de la Investigación Cuantitativa
11 páginas
Proyecto Ollachea - Estimacion Reservas Avance
Aún no hay calificaciones
Proyecto Ollachea - Estimacion Reservas Avance
26 páginas
Tarea de Estadistica
Aún no hay calificaciones
Tarea de Estadistica
10 páginas
Estadistica Inferencial II
Aún no hay calificaciones
Estadistica Inferencial II
13 páginas
Trabajo Final de Estadistica
Aún no hay calificaciones
Trabajo Final de Estadistica
38 páginas
Correlación y Contingencia: Variables y Ejemplos
Aún no hay calificaciones
Correlación y Contingencia: Variables y Ejemplos
9 páginas
Minería de Datos para Predecir Demanda de Combustible
Aún no hay calificaciones
Minería de Datos para Predecir Demanda de Combustible
31 páginas
Análisis de Regresión en Estadística Aplicada
Aún no hay calificaciones
Análisis de Regresión en Estadística Aplicada
11 páginas