ANLISIS CLUSTER: UNA APLICACIN A LOS
DEPARTAMENTOS DE LA PROVINCIA DE CRDOBA.
Pamela Mariel Natali
RESUMEN
El anlisis cluster como un mtodo estadstico multivariante de clasificacin trata, a partir de una
tabla de datos (individuos-variables), de situarlos en grupos homogneos, de manera que los
individuos que pueden ser considerados similares sean asignados a un mismo conglomerado. El
trabajo tiene como propsito esencial, aplicar el Anlisis Cluster a los departamentos de la
provincia de Crdoba caracterizados por medio de distintas variables socioeconmicas y
demogrficas. En la primera parte del documento se desarrolla el mtodo a nivel terico, para luego
describir el caso de aplicacin a lo largo de un proceso de construccin del modelo de cinco pasos.
1. INTRODUCCIN
El anlisis cluster es un conjunto de mtodos o tcnicas estadsticas que permiten
describir y reconocer diferentes agrupaciones que subyacen en un conjunto de individuos o
unidades de observacin, es decir, permiten clasificar o dividir en grupos ms o menos
homogneos, un conjunto de individuos que estn definidos por diferentes variables. El
objetivo principal del anlisis de conglomerados consiste, por tanto, en conseguir una o ms
particiones de un conjunto de individuos en base a determinadas caractersticas de los
mismos. Estas caractersticas estarn definidas por las puntuaciones que cada uno de ellos
tiene con relacin a diferentes variables.
El anlisis cluster como un mtodo estadstico multivariante de clasificacin trata, a
partir de una tabla de datos (individuos-variables), de situarlos en grupos homogneos o
conglomerados, de manera que los individuos que pueden ser considerados similares sean
asignados a un mismo cluster. Este anlisis es una tcnica de clasificacin post hoc pues el
nmero de cluster no es conocido de antemano y los grupos se crean en funcin de la
naturaleza de los datos.
El presente trabajo tiene como propsito esencial, aplicar el Anlisis Cluster a los
departamentos de la provincia de Crdoba caracterizados por medio de distintas variables
socioeconmicas y demogrficas. En la primera parte del documento se desarrolla el
mtodo a nivel terico y en la seccin siguiente se describe el caso de aplicacin a lo largo
de un proceso de construccin del modelo de cinco pasos.
2. MARCO TERICO SOBRE ANLISIS CLUSTER
Objetivos Bsicos del Anlisis Cluster
Siguiendo a Pea (2002), el anlisis cluster o de conglomerados es til para diferentes
situaciones:
-
Particin de los individuos. A los datos que disponemos y sospechamos son
heterogneos, se desea dividirlos en un nmero de grupos prefijado, de manera tal
que: 1) cada elemento pertenezca a uno, y solo uno de los grupos; 2) todo elemento
quede clasificado; y 3) cada grupo sea internamente homogneo.
Construccin de jerarquas. Se desea estructurar los elementos de un conjunto de
forma jerrquica por su similaridad, esto implica que los individuos se ordenan en
niveles, de manera que los niveles superiores contienen a los inferiores.
Estrictamente, estos mtodos no definen grupos, sino la estructura de asociacin en
cadena que pueda existir entre los elementos.
- Clasificacin de variables. En problemas con muchas variables es interesante hacer
un estudio exploratorio inicial para dividir las variables en grupos.
El anlisis cluster puede caracterizarse como descriptivo, aterico y no inferencial. No
tiene bases estadsticas sobre las cuales deducir inferencias para una poblacin a partir de
una muestra, y se utiliza fundamentalmente como una tcnica exploratoria. Las soluciones
no son nicas, en la medida que la pertenencia al conglomerado para cualquier nmero de
soluciones depende de muchos elementos del procedimiento y se pueden obtener muchas
soluciones diferentes variando uno o ms de estos elementos.
La seleccin de las variables puede hacerse con relacin a consideraciones tericas,
conceptuales o prcticas. Se deben incluir slo aquellas variables que caracterizan los
objetos que se estn agrupando, y que se refieren especficamente a los objetivos del
anlisis.
Supuestos del Anlisis Cluster
El anlisis cluster no es tcnica de inferencia estadstica en la que se analizan los
parmetros de una muestra en la medida en que puedan ser representativos de una
poblacin. Por el contrario, este anlisis es una metodologa objetiva de cuantificacin de
las caractersticas estructurales de un conjunto de observaciones. Por ello, tiene fuertes
propiedades matemticas pero no fundamentos estadsticos. Los requisitos de normalidad,
linealidad y homocedasticidad tienen poca consistencia en el anlisis cluster. Sin embargo,
se debe centrar la atencin en dos cuestiones esenciales: representatividad de la muestra y
la multicolinealidad.
La multicolinealidad acta como proceso de ponderacin no aparente para el observador
pero que sin embargo afecta al anlisis. Aquellas variables que son multicolineales estn
implcitamente ponderadas con ms fuerza. La solucin a este problema es, o bien reducir
las variables al mismo nmero en cada conjunto o bien utilizar la medida de distancia de
Mahalanobis que compensa esta correlacin.
Diseo de Investigacin mediante Anlisis Cluster
Medidas de similitud
La similitud es una medida de correspondencia o semejanza entre los objetos que van a
ser agrupados. La estrategia ms comn consiste en medir la equivalencia en trminos de la
distancia entre los pares de objetos. Los objetos con distancias reducidas entre ellos son
ms parecidos entre si que aquellos que tienen distancias mayores y se agruparan, por tanto,
dentro del mismo cluster.
Segn la clasificacin de Sneath y Sokal (Prez, 2007) existen cuatro grandes tipos de
medidas de similitud:
1. Distancias: pone el nfasis en sobre el grado de diferencia o existente entre dos
elementos. El ejemplo ms clsico es la distancia eucldea.
2. Coeficientes de asociacin: se utiliza preferentemente para datos cualitativos. Estas
medidas son, bsicamente, una forma de medir la concordancia o conformidad entre
los estados de dos columnas de datos.
3. Coeficientes angulares: se utilizan para medir la proporcionalidad e independencia
entre los vectores que definen los individuos. El ms comn es el coeficiente de
correlacin aplicado a variables continuas.
4. Coeficientes de similitud probabilstica: miden la homogeneidad del sistema por
particiones o subparticiones del conjunto de individuos e incluye informacin
estadstica. Se relacionan los coeficientes a diferentes clasificaciones utilizando para
ellas criterios de bondad o buenos ajustes estadsticos.
Tipificacin de los datos
La mayora de las medidas de distancias son bastantes sensibles a las diferentes escalas o
magnitudes de las variables. En general, las variables con una mayor dispersin (es decir,
grandes desviaciones estndar) tienen mayor impacto en el valor final de similitud.
La forma mas comn de estandarizacin es la conversin de cada variable a unas
puntuaciones estndar (puntuaciones Z) restando la media y dividiendo por la desviacin de
cada variable. Este proceso convierte cada puntuacin de los datos originales en un valor
estandarizado con media de 0 (cero) y desviacin estndar de 1 (uno). Esta transformacin,
a cambio, elimina el sesgo introducido por las diferencias en las mediciones de varios
atributos o variables utilizadas en el anlisis.
Seleccin del procedimiento de agrupacin
Los diferentes mtodos de anlisis de conglomerados surgen de las distintas formas de
llevar a cabo la agrupacin de los individuos, es decir, dependiendo del algoritmo que se
utilice para llevar a cabo la agrupacin de individuos, se obtienen diferentes mtodos de
anlisis de conglomerados.
Prez Lpez (2007) proporciona la siguiente clasificacin de los mtodos de anlisis
cluster basada en los algoritmos de agrupacin de individuos:
1.
Mtodos Aglomerativos-Divisivos: mtodo aglomerativo es aquel que considera
tantos grupos como individuos y sucesivamente va agrupando los dos grupos ms
similares, hasta llegar a una clasificacin determinada; mientras que el mtodo divisivo
parte de un solo grupo formado por todos los individuos, y en cada etapa posterior va
apartando individuos de los grupos establecidos anteriormente, formando nuevos grupos.
2.
Mtodos Jerrquicos-No Jerrquicos: el mtodo jerrquico consiste en una
secuencia de g+1 cluster: G0, , Gg en la que G0 es la participacin disjunta de todos los
individuos y Gg es el conjunto particin. Progresivamente, el nmero de partes de cada
una de las particiones disminuye, lo que hace que estas sean cada vez ms amplias y
menos homogneas. Por el contrario, en el mtodo no jerrquico se forman grupos
homogneos sin establecer relaciones de orden o jerrquicas entre dichos grupos.
3.
Mtodos Solapados-Exclusivos: el mtodo solapado acepta que un individuo pueda
pertenecer a dos grupos simultneamente en alguna de las etapas de clasificacin,
mientras que se dice exclusivo si prohbe a los individuos pertenecer simultneamente a
dos grupos en la misma etapa.
4.
Mtodos Secuenciales-Simultneos: en el mtodo secuencial se aplica el mismo
algoritmo en forma recursiva a cada grupo, mientras que los mtodos simultneos son
aquellos en los que la clasificacin se logra por una simple y no reiterada operacin
sobre los individuos.
5.
Mtodos Monotticos-Politticos: el mtodo monottico est basado en una
caracterstica nica de los objetos a clasificar; mientras que el polittico no exige que
todos lo objetos posean las mismas caractersticas, aunque s las suficientes como para
poder justificar la analoga entre los miembros de una misma clase.
6.
Mtodos Directos-Iterativos: el mtodo directo utiliza algoritmos en los que una vez
establecido un individuo a un grupo ya no se saca del mismo, mientras que los mtodos
iterativos comprueban en cada iteracin si la asignacin de un individuo a un
conglomerado es ptima llevando a cabo un nuevo reagrupamiento de los individuos si
es necesario.
7.
Mtodos Ponderados-No Ponderados: el mtodo no ponderado establece el mismo
peso a todas las caractersticas (o variables) de los individuos a clasificar; mientras que
el ponderado hace recaer mayor peso en determinadas caractersticas.
8.
Mtodos Adaptativos-No Adaptativos: en el mtodo no adaptativo, el algoritmo
utilizado se dirige hacia una solucin en la que el procedimiento de formacin de
conglomerados es fijo y est predeterminado, mientras que el adaptativo es aquel que de
alguna manera aprende durante el proceso de formacin de los grupos y cambia el
criterio de optimizacin o la medida de similitud a utilizar.
Los mtodos de anlisis de conglomerados que ms se usan son los que son a la vez
secuenciales, aglomerativos, jerrquicos y exclusivos, y que reciben el acrnimo, en lengua
inglesa, de S.A.H.N. (Sequential, Agglomerative, Hierarchic y Nonoverlaping). Entre los
diferentes mtodos de anlisis de conglomerados de tipo S.A.H.N. tenemos los siguientes:
Mtodo de Unin Simple, entorno o vecino ms cercano o mtodo del mnimo
Mtodo de la distancia mxima, entorno o vecino ms lejano o mtodo del mximo
Mtodo de la media o de la distancia promedio no ponderado
Mtodo de la media ponderada o de la distancia promedio ponderado
Mtodo de la mediana o de la distancia mediana
Mtodo del centroide o de la distancia prototipo
Mtodo de Ward o de mnima varianza
Los mtodos no jerrquicos se diferencian de los mtodos jerrquicos en que el
investigador debe especificar a priori los grupos que deben ser formados y que trabajan con
la matriz de datos original y no requieren su conversin a una matriz de proximidades.
Pedret en (Prez, 2007) agrupa los mtodos no jerrquicos en las cuatro familias siguientes:
1. Mtodos de reasignacin: admiten que un objeto asignado a un grupo en un paso
del proceso sea reubicado en otro grupo en un paso posterior si esto optimiza el criterio
de seleccin. El proceso concluye cuando no quedan individuos cuya reasignacin
permita optimizar el resultado. El algoritmo ms conocido dentro de estos mtodos es
el mtodo de K-medias.
2. Mtodos de bsqueda de la densidad: presentan dos aproximaciones. La
aproximacin tipolgica, donde los grupos se forman buscando las zonas en las cuales
se da una mayor concentracin de individuos. El anlisis modal de Wishart es uno de
los algoritmos ms conocidos dentro estos mtodos. En la aproximacin probabilstica,
se parte del postulado de que las variables siguen una ley de probabilidad segn la cual
los parmetros varan de un grupo a otro. Se trata de encontrar los individuos que
pertenecen a la misma distribucin. Se destaca en esta aproximacin el mtodo de las
combinaciones de Wolf.
3. Mtodos directos: clasifican simultneamente a los individuos y a las variables.
4. Mtodos de reduccin de dimensiones: buscan factores en el espacio de los
individuos, correspondiendo cada factor a un grupo.
Interpretacin y Elaboracin del Perfil de los Clusteres
La interpretacin y el perfil de los grupos comprenden el anlisis de los centroides de
grupo. Los centroides representan los valores medios de los objetos que contiene el grupo
en cada una de las variables. El objetivo de esta etapa es, esencialmente, examinar la
variacin de los clusteres para asignar etiquetas que describan de un modo veraz su
naturaleza.
Con respecto al perfilado de los conglomerados o grupos, cabe decir que no es ms que
la descripcin de las caractersticas de cada cluster para explicar como podran inferir en
dimensiones relevantes. Para conseguir esto, se recurre normalmente al empleo del Anlisis
Discriminante o a algn otro estadstico apropiado. El analista utiliza los datos no incluidos
previamente en el procedimiento de aglomeracin para perfilar las caractersticas de cada
cluster. Estos datos suelen ser caractersticas demogrficas, perfiles psicogrficos, etc.
En resumen, el anlisis de perfiles se enfoca a describir no a lo que determinan
directamente los clusteres sino (una vez se han determinado los distintos grupos) a sus
caractersticas propias. Por ello, se hace especial nfasis en las caractersticas que definen
los grupos y en la capacidad de los miembros de cada conglomerado para predecir una
actitud particular del cluster en cuestin.
Validacin de Conglomerados Obtenidos
Dados los criterios generales que comprende el anlisis cluster, no debe aceptarse
ninguna solucin de agrupacin sin una evaluacin de su confianza y validez. La validacin
es el intento por parte del analista de asegurar que los clusteres obtenidos sean
representativos de la poblacin original y que sean generalizables a otros objetos y estables
a lo largo del tiempo.
Los siguientes procedimientos ofrecen revisiones adecuadas de la calidad de los
resultados de la agrupacin:
Realizar el anlisis cluster con los mismos datos y utilizar distintas medidas de
distancia. Comparar los resultados con todas las medidas a fin de determinar la
estabilidad de las soluciones.
Utilizar diversos mtodos de conglomerado y comparar los resultados.
Dividir los datos a la mitad de forma aleatoria. Realizar el anlisis cluster por
separado en cada mitad (submuestra). Comparar las soluciones de los dos anlisis y
evaluar la correspondencia de los resultados o bien comparar los centroides de
grupo de las dos submuestras.
Eliminar las variables de forma aleatoria. Realizar la agrupacin basndose en el
conjunto reducido de variables. Comparar los resultados basados en el conjunto
completo con los que se obtuvieron al realizar el conglomerado.
En el conglomerado no jerrquico la solucin puede depender del orden de los casos
en el conjunto de datos. Para estudiar esto, es recomendable llevar a cabo corridas
mltiples y utilizar distintos rdenes de los casos hasta estabilizar la solucin.
3. APLICACIN A UN CASO PRCTICO
Formulacin del problema
La idea de regin hace referencia a espacios geogrficos constituidos en razn de
homogeneidades o similitudes socioeconmicas, de nodos funcionales o de proyectos
unitarios de accin (Boudeville citado en Clment, 2000). En este trabajo se ha aplicado el
anlisis cluster a las distintas comunidades regionales de la provincia de Crdoba buscando
una estructura natural que identifique grandes zonas de anlisis basndose en el parecido
o similaridad existente entre ellas.
Inicialmente, se parte de una matriz de datos n x p con n=26 observaciones
departamentos- y p=13 variables.
Las variables corresponden a indicadores socio-
econmicos respecto de la poblacin de la provincia de Crdoba y estn elaboradas a partir
de los Informes Departamentales1 en el ao 2006 realizados por la Direccin General de
Estadsticas y Censos de la provincia de Crdoba. Entre las caractersticas recolectadas se
encuentran: el Producto Bruto Geogrfico per cpita (PBG), Gasto Pblico Provincial per
cpita, Planes de Empleo por cada mil habitantes, Inseguridad, Inversin Pblica
Provincial, Poblacin Total, Tipo de Vivienda, Condicin Necesidades Bsicas
Insatisfechas (NBI), Obra Social, Ocupacin, Jubilacin, Fecundidad, Educacin. La
descripcin de las variables se encuentra detallada en el anexo de este trabajo.
Seleccin de las variables a utilizar. El anlisis cluster debe atender a dos criterios, que
la muestra sea representativa y a la existencia de multicolinealidad.
La representatividad de la muestra, en este caso de estudio, no constituye un problema
porque las unidades de anlisis implican toda la estructura de la poblacin.
Sin embargo, en una etapa preliminar del anlisis se puede anticipar la existencia de
multicolinealidad entre las variables por la naturaleza del problema que se est trabajando,
las variables en su conjunto representan atributos socio-econmicos de la poblacin en los
distintos departamentos. Para detectar formalmente la existencia de multicolinealidad se
1
Disponible on line: http://web2.cba.gov.ar/actual_web/estadisticas/index.htm.
utiliza como medida estadstica la Tolerancia2.
Este estadstico confirma que las
variables incorporadas al trabajo presentan un alto grado de colinealidad. Por ello, se
procede a eliminar del modelo aquellas variables con ms baja Tolerancia. Las variables
PBG, Inseguridad, Inversin Pblica, Poblacin y NBI resultan con un grado de
multicolinealidad mnimo y, perfectamente puede continuarse el trabajo de anlisis sin
adoptar medidas remediables.
Tabla 1. Estadstica Descriptiva
Variables
PBG
Inseguridad
Inversin Pub.
Poblacin
NBI
N
2
6
2
6
2
6
2
6
2
6
Rango
Mnimo
Mximo
Media
Desvo
Estndar
Varianza
19968,00
4735,0
0
24703,00
10703,15
5465,22
29868632,69
28,41
2,45
30,87
11,82
7,24
52,37
165,00
6,00
171,00
45,00
35,77
1279,28
1280051,0
0
4531,0
0
1284582,0
0
117953,8
8
245704,0
6
60370486634,27
31,97
8,80
40,77
18,77
9,62
92,53
La tabla con la estadstica descriptiva revela la gran variabilidad de los datos en cada
variable y la diferencia de escalas entre ellas, lo que justifica la estandarizacin.
Diseo de la investigacin
El primer paso dentro del diseo de investigacin es decidir sobre la medida de similitud
entre los objetos. Entre las distintas alternativas, se ha optado por la distancia eucldea al
cuadrado dado que el conjunto de variables incorporadas es mtrico. Como las variables se
encuentran medidas en distintas escalas es necesario que se estandaricen previamente, para
ello se elige la tipificacin a travs de las puntuaciones Z para cada variable.
El siguiente paso ha consistido en la eleccin del mtodo de aglomeracin. En el
ejemplo que aqu se expone, de las distintas aproximaciones posibles para obtener grupos
mediante esta tcnica, se ha elegido el mtodo de agrupamiento jerrquico. Adems, el
mtodo de encadenamiento escogido es el mtodo de Ward o de varianza mnima. La idea
bsica de este mtodo es ir agrupando elementos, en este caso departamentos de la
2
La tolerancia calcula la proporcin de varianza libre para cada una de las variables del modelo; tiene un
valor mximo de 1 cuando la variable en cuestin no tiene ningn grado de multicolinealidad con las
restantes, hasta un valor mnimo de 0 cuando esta es una combinacin lineal perfecta de las otras variables. Es
deseable que la tolerancia sea lo mayor posible, idealmente igual a 1, y en general que sea superior a 0,40.
provincia de Crdoba, de forma jerrquica y minimizando la variacin intragrupo de la
estructura formada.
Interpretacin y Elaboracin del Perfil de los Clusteres
A continuacin, se detallan los resultados de aplicar el Anlisis de Conglomerado
Jerrquico Aglomerativo con el Mtodo de Ward utilizando el paquete estadstico SPSS
14.0.
Determinacin del nmero de grupos
Tabla 2. Historial de Aglomeracin
Cluster que se combina
Etapa
Coeficientes
Etapa en la que el Cluster
aparece por primera vez
Cluster 1
Cluster 2
Prxima
Etapa
Cluster 1
Cluster 2
26
,046
23
,139
10
19
,234
13
18
,339
13
21
,456
11
17
20
,580
10
11
,723
15
17
,999
17
15
1,311
19
10
1,624
16
11
13
2,055
23
12
16
25
2,709
18
13
3,462
20
14
24
4,502
21
15
10
22
5,745
18
16
14
7,076
10
17
17
8,582
16
19
18
10
16
11,174
15
12
20
19
13,974
17
21
20
10
22,541
13
18
25
21
31,153
19
14
22
22
12
43,211
21
24
23
63,671
11
24
24
89,985
22
23
25
25
125,000
24
20
El historial de aglomeracin muestra las distancias de aglomeracin y los grupos que se
han ido formando al aplicar el algoritmo. El dendograma que se expone en la pgina
siguiente, proporciona dicha informacin de forma grfica.
10
Grfico 1. Dendograma
Rescaled Distance Cluster Combine
C A S E
Label
Num
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
Marcos Jurez
9
Unin
26
Ro Segundo
17
San Justo
20
Gral San Martn
6
Tercero Arriba
23
Calamuchita
1
Ro Cuarto
14
Gral Roca
5
Ro Primero
15
Jurez Celman
8
Totoral
24
Pte R. S. Pea
12
Coln
3
Santa Mara
21
GRUPO 2
Punilla
13
Capital
2
Ischiln
7
San Javier
19
Cruz del Eje
4
San Alberto
18
Ro Seco
16
GRUPO 3
Tulumba
25
Minas
10
Pocho
11
Sobremonte
22
Un primer examen del dendograma indica que la diferencia entre los grupos es amplia,
ya que la unin de los mismos se va realizando a niveles de la escala altos, siendo la unin
final en el ltimo valor posible, es decir, en el 25.
El dendograma, adems, permite la identificacin visual de la existencia de casos
atpicos, donde un atpico sera una rama que no se uni hasta muy tarde.
El
departamento Capital como grupo unipersonal puede interpretarse como un componente
estructural vlido en la muestra, sin embargo, se opta por incluirlo dentro de un cluster
junto a otros departamentos con los cuales comparte ciertas caractersticas (que ms tarde
se detallan).
En cuanto a la decisin del nmero de conglomerados, en esta investigacin se ha
optado por elegir la cantidad de grupos segn la claridad de las descripciones para cada uno
y su aplicacin prctica. Por tanto, se examina la solucin de tres grupos.
11
Determinacin del perfil de los grupos
Una vez determinada la cantidad de clusters, se debe interpretar el perfil de cada uno de
ellos. Las tablas con informacin referida a las cinco variables utilizadas y que permiten el
anlisis en esta etapa, se presentan a continuacin.
Tabla 3. Valores extremos
Caso
PBG
Mayores
Menores
Inseguridad
Mayores
Menores
Inversin Pub.
Mayores
Menores
ID
Valor
Jurez Celman
24703,00
24
Totoral
23804,00
15
Ro Primero
Marcos Jurez
26
Cas
o
Poblaci
n
Mayore
s
ID
Valor
Capital
1284582
15904,00
14
Ro Cuarto
229728,0
15382,00
20
San Justo
190182,0
Unin
14789,00
Coln
171067,0
19
San Javier
4735,00
13
Punilla
155124,0
22
Sobremonte
5132,00
11
Pocho
5193,00
22
Sobremonte
4531,00
10
Minas
5466,00
10
Minas
4881,00
Cruz del Eje
5481,00
11
Pocho
5132,00
21
Santa Mara
30,87
25
Tulumba
12211,00
Coln
29,57
16
Ro Seco
12635,00
13
Punilla
25,32
11
Pocho
40,77
Jurez Celman
18,40
10
Minas
39,46
15
Ro Primero
16,32
16
Ro Seco
30,95
16
Ro Seco
2,45
25
Tulumba
30,86
10
Minas
2,64
22
Sobremonte
30,37
11
Pocho
5,46
Ischiln
6,05
Marcos Jurez
8,80
22
Sobremonte
6,17
20
San Justo
9,33
12
Pte R. S. Pea
171,00
23
Tercero Arriba
9,51
22
Sobremonte
101,00
9,82
11
Pocho
76,00
Jurez Celman
Gral. San
15
Ro Primero
73,00
Gral. Roca
66,00
Capital
6,00
Coln
7,00
21
Santa Mara
13,00
4
5
13
7
Punilla
Ischiln
14,00
14,00
Menore
s
NBI
Mayore
s
Menore
s
9,96
Tabla 4. Comparacin de Medias
Mtodo Ward
1
2
3
Total
Media
N
Media
N
Media
N
PBG
14567,15
13
6603,00
4
6944,11
9
Inseguridad
11,56
13
24,39
4
6,61
9
Inversin Pub.
52,92
13
10,00
4
49,11
9
Poblacin
89764,00
13
424214,00
4
22557,00
9
NBI
12,31
13
14,25
4
30,10
9
Media
N
10703,15
26
11,82
26
45,00
26
117953,88
26
18,76
26
12
Junto con la tabla de valores extremos, la comparacin de medias entre grupos permite
elaborar el siguiente perfil de los conglomerados:
El Grupo 1 esta compuesto por 13 departamentos que muestran mayor PBG e Inversin
Pblica per capita. Para las variables Inseguridad, Poblacin y NBI este cluster presenta un
nivel menor al promedio poblacional.
El Grupo 2 incluye a 4 de los departamentos de mayor tamao poblacional. Sin
embargo, se caracteriza por mayor nivel de Inseguridad y menor nivel de Inversin Pblica
per capita.
El Grupo 3 queda definido por los 9 departamentos con mayor nivel de NBI y menor
tamao poblacional. No obstante, contiene a los departamentos con menor nivel de
Inseguridad.
En base a estos resultados, puede categorizarse a cada grupo en funcin de su condicin
socioeconmica en Alta, Media y Baja; as, el grupo 1 posee una condicin Alta, el grupo 2
un nivel Medio y el grupo 3 una posicin socioeconmica Baja.
Por medio del ANOVA y utilizando la variable de conglomerado de pertenencia que
resulta del anlisis cluster se puede comprobar la existencia de diferencias significativas
entre los grupos obtenidos.
Tabla 5. ANOVA
PBG
Suma de Cuadrados
df
Media Cuadrtica
388515114,80
194257557,40
Entre Grupos
Intra Grupos
358200702,58
Total
Inseguridad
746715817,38
Entre Grupos
877,49
Intra Grupos
431,70
Total
Inversin Pub.
1309,19
Entre Grupos
Intra Grupos
5868,18
26113,81
Total
31982,0
0
Poblacin
Entre Grupos
Intra Grupos
2
3
2
F
12,47
3
Sig.
,000
15573943,59
5
2
2
3
2
5
2
2
3
2
438,74
23,37
5
,000
18,770
2934,09
2,584
,097
5,159
,014
1135,38
5
467416828180,65
1041845337676,00
2
2
3
233708414090,3
2
45297623377,21
13
Total
NBI
Entre Grupos
Intra Grupos
Total
1509262165856,65
1779,91
533,35
2313,27
2
5
2
889,95
38,37
8
,000
23,18
3
2
5
El ANOVA permite indagar sobre la existencia de igualdad de medias entre los
conglomerados. De la tabla se advierte que existen diferencias significativas en todas las
variables con excepcin de la variable Inversin. Esta variable no sera til para clasificar
pues los grupos definidos poseen el mismo nivel promedio de inversin. En un trabajo
posterior que avance sobre la aplicacin de esta tcnica, se debera eliminar esta variable o
construir un ndice que muestre el desarrollo en Infraestructura para cada departamento.
Tabla 6. Test de Homogeneidad de las Varianzas
PBG
Inseguridad
Inversin Pub.
Poblacin
NBI
Estadstico Levene
1,795
4,036
1,623
22,790
1,805
df1
2
2
2
2
2
df2
23
23
23
23
23
Sig.
,189
,031
,219
,000
,187
La tabla anterior contiene el estadstico de Levene, el cual permite contrastar la hiptesis
de que las varianzas poblacionales son iguales. Puesto que el nivel crtico de las variables
PBG, Inversin y NBI son mayores que 0,05 se acepta la hiptesis de igualdad de
varianzas, mientras que para las variables Inseguridad y Poblacin se concluye que en las
poblaciones definidas por los tres grupos, las varianzas de las variables no son iguales. Este
resultado es til para encarar el anlisis de los grupos por medio del siguiente contraste
denominado Comparaciones Mltiples Post Hoc.
El ANOVA Post Hoc permite averiguar qu grupos difieren entre s en cada una de las
variables.
La primera columna de la tabla indica que los procedimientos post hoc
seleccionados fueron: la diferencia honestamente significativa (HSD) de Tukey asume
varianzas iguales - y el mtodo de Games-Howes no asume varianzas iguales-.
Para las variables PBG, Inversin y NBI se debe prestar atencin a la solucin propuesta
por Tukey, mientras que, para las variables Inseguridad y Poblacin la solucin apropiada
es la de Games-Howes.
14
De la tabla surge que los promedios comparados para la variable PBG no difieren
significativamente entre los grupos 2 y 3. Los grupos 1 y 2 definidos tanto por la variable
Inseguridad como por la variable NBI presentan promedios que no difieren
significativamente entre s. Por medio del ANOVA Post Hoc, se confirma nuevamente la
irrelevancia de la variable Inversin pues los promedios comparados para cada grupo no
difieren significativamente. Por ltimo, la variable Poblacin tambin presenta dificultades
en la mayora de las comparaciones entre las medias de los grupos.
Tabla 7. ANOVA Post Hoc
15
Multiple Comparisons
Dependent Variable
PBG
Tukey HSD
(I) Ward Method
1
2
(J) Ward Method
2
Mean
Difference
(I-J)
Std. Error
7964,15385* 2256,43116
Sig.
,005
Lower Bound
2313,2912
Upper Bound
13615,0165
7623,04274* 1711,26673
,001
3337,4552
11908,6303
-7964,15385* 2256,43116
,005
-13615,0165
-2313,2912
2371,48141
,989
-6280,0983
5597,8761
-7623,04274* 1711,26673
,001
-11908,6303
-3337,4552
3
3
1
2
Games-Howell
1
2
2371,48141
,989
-5597,8761
6280,0983
7964,15385* 1367,88527
,000
4358,1668
11570,1409
7623,04274* 1699,25365
,001
3323,6473
11922,4382
-7964,15385* 1367,88527
,000
-11570,1409
-4358,1668
1098,71873
,949
-3393,5024
2711,2802
-7623,04274* 1699,25365
,001
-11922,4382
-3323,6473
3
3
Segur
Tukey HSD
1
2
3
Games-Howell
3
InverPub
Tukey HSD
1
2
3
Games-Howell
1
2
3
Poblac
Tukey HSD
1
2
3
Games-Howell
1
2
3
NBI
Tukey HSD
1
2
3
Games-Howell
1
2
3
341,11111
-341,11111
341,11111
1098,71873
,949
-2711,2802
3393,5024
-12,83393*
2,47714
,000
-19,0375
-6,6303
4,94893*
1,87865
,038
,2442
9,6537
12,83393*
2,47714
,000
6,6303
19,0375
17,78286*
2,60344
,000
11,2630
24,3028
-4,94893*
1,87865
,038
-9,6537
-,2442
-17,78286*
2,60344
,000
-24,3028
-11,2630
-12,83393
4,44973
,113
-30,4494
4,7815
1,35926
,005
1,4876
8,4102
-4,7815
30,4494
3
2
-341,11111
95% Confidence Interval
4,94893*
12,83393
4,44973
,113
17,78286*
4,46668
,048
,2511
35,3146
-4,94893*
1,35926
,005
-8,4102
-1,4876
-17,78286*
4,46668
,048
-35,3146
-,2511
42,92308
19,26611
,088
-5,3257
91,1719
3,81197
14,61133
,963
-32,7797
40,4036
-42,92308
19,26611
,088
-91,1719
5,3257
-39,11111
20,24844
,153
-89,8200
11,5978
-3,81197
14,61133
,963
-40,4036
32,7797
39,11111
20,24844
,153
-11,5978
89,8200
42,92308*
11,00842
,005
13,8012
72,0450
3,81197
15,01584
,965
-34,2594
41,8833
-42,92308*
11,00842
,005
-72,0450
-13,8012
-39,11111*
10,61242
,014
-69,0015
-9,2207
-3,81197
15,01584
,965
-41,8833
34,2594
39,11111*
10,61242
,014
9,2207
69,0015
-334450,000*
121691,57
,030
-639206,6305
-29693,3695
67207,00000
92290,313
,749
-163918,9897
298332,9897
334450,0000*
121691,57
,030
29693,3695
639206,6305
401657,0000*
127896,35
,012
81361,5272
721952,4728
92290,313
,749
-298332,9897
163918,9897
-67207,00000
-401657,000*
127896,35
,012
-721952,4728
-81361,5272
-334450,000
287915,51
,547
-1531766,5527
862866,5527
67207,00000*
18629,273
,007
18798,4867
115615,5133
334450,0000
287915,51
,547
-862866,5527
1531766,5527
401657,0000
287451,08
,445
-798761,2205
1602075,2205
-67207,00000*
18629,273
,007
-115615,5133
-18798,4867
-401657,000
287451,08
,445
-1602075,2205
798761,2205
-1,94250
2,75339
,763
-8,8379
4,9529
-17,79222*
2,08816
,000
-23,0217
-12,5628
1,94250
2,75339
,763
-4,9529
8,8379
-15,84972*
2,89378
,000
-23,0967
-8,6027
17,79222*
2,08816
,000
12,5628
23,0217
15,84972*
2,89378
,000
8,6027
23,0967
-1,94250
1,51326
,442
-6,2653
2,3803
-17,79222*
2,45960
,000
-24,4262
-11,1582
1,94250
1,51326
,442
-2,3803
6,2653
-15,84972*
2,52719
,000
-22,6983
-9,0012
17,79222*
2,45960
,000
11,1582
24,4262
15,84972*
2,52719
,000
9,0012
22,6983
*. The mean difference is significant at the .05 level.
Validacin de Conglomerados Obtenidos
Para confirmar la solucin obtenida del anlisis cluster, se ha aplicado un anlisis
factorial y anlisis discriminante sobre la matriz de datos bajo estudio.
16
Anlisis Factorial
A continuacin se detalla el resultado del anlisis factorial con la solucin rotada
mediante el mtodo Equamax. Para cuantificar las distancias entre las variables se utiliza el
coeficiente de correlacin de Pearson y el mtodo de extraccin de factores es por medio de
Componentes Principales.
La tabla muestra como en el primer factor saturan las variables Inseguridad, Inversin,
Poblacin y NBI, mientras que, en el segundo factor satura, fundamentalmente, la variable
PBG.
Tabla 8.Carga factorial
D1
D2
PBG
0,029
0,913
Inseguridad
-0,725
0,122
Inversin Pub.
0,729
0,344
Poblacin
-0,612 -0,197
NBI
0,644
-0,631
El grfico de Biplot muestra al grupo 1 ms asociado a la variable PBG; el grupo 2 a la
variable Poblacin y el grupo 3 se encuentra ms asociado a la variable NBI. Este resultado
se correspondera con la solucin hallada en el anlisis cluster.
Grfico 2. Biplot
Anlisis Discriminante
Utilizando como variable de clasificacin el conglomerado de pertenencia resultante
del anlisis cluster se puede realizar un anlisis discriminante para interpretar la diferencia
entre los grupos.
17
Grfico 3. Funciones Discriminantes
La figura muestra la distribucin de las comunidades departamentales en el espacio
definido por las dos funciones discriminantes. Los departamentos del grupo 1 obtienen
puntuaciones medias en la primera funcin y puntuaciones bajas en la segunda. Los
departamentos del grupo 2 alcanzan puntuaciones altas en las dos funciones discriminantes.
Los departamentos del grupo 3 tienen puntuaciones bajas en la primera funcin y
puntuaciones medias-altas en la segunda.
Tabla 9. Coeficientes Estandarizados
Funcin
PBG
Inseguridad
Inversin Pub.
Poblacin
NBI
1
-,021
1,24
0
,285
1,00
3
-,408
2
-,660
,559
-,268
,596
,876
La tabla muestra la matriz de los coeficientes estandarizados de las dos funciones
discriminantes obtenidas. La primera funcin atribuye la mayor importancia a Inseguridad,
Inversin y Poblacin, mientras que la segunda funcin atribuye mayor importancia al PBG
y al NBI.
Se puede pensar que los departamentos del grupo 1 tienen niveles medios de
Inseguridad, Inversin y Poblacin, nivel bajo de NBI y un alto PBG. El grupo 2 est
18
constituido por los departamentos ms poblados, con niveles altos de Inseguridad,
Inversin y NBI, como tambin niveles bajos de PBG. El grupo 3 est compuesto por
departamentos con niveles bajos de Inseguridad, Inversin y Poblacin, con nivel mediobajo de PBG y con nivel medio-alto de NBI. Este resultado es prcticamente semejante a
las conclusiones del anlisis cluster. Aunque estos resultados no coinciden absolutamente
con el anlisis cluster se puede deducir un perfil de los grupos muy prximo a la solucin
que provee esta tcnica.
4. CONSIDERACIONES FINALES
Para finalizar, se plantean dos cuestiones significativas que surgieron durante el proceso
de la investigacin.
En primer lugar y como se explica en el marco terico, la seleccin de las variables a
incluir es determinante en la solucin del anlisis cluster. Por ello, en futuros trabajos se
pretende incorporar al estudio de los departamentos de la provincia variables que midan la
condicin social como el ndice de Desarrollo Humano, Tasa de Desempleo, Densidad
Poblacional, as como tambin, variables relacionadas al Sector Industrial y Agropecuario.
Pero, por naturaleza estas caractersticas presentarn, en mayor o menor medida, cierto
grado de multicolinealidad. Entonces, se proyecta utilizar como medida remediable aquella
considerada ms apropiada y que sustituye la o las variables correlacionadas por un ndice
que resume la informacin provista por cada una de ellas. En este sentido, el anlisis
factorial es una tipo de estrategia til como medida de correccin al sustituir los regresores
por el o los ndices factoriales construidos.
Por otro lado, aunque asociado con el problema de la multicolinealidad, se dijo al inicio
del trabajo que, en el caso particular del anlisis cluster se puede utilizar la distancia de
Mahalanobis para reducir la correlacin entre las variables. Aunque se ha probado entre las
alternativas posibles que combinan aquella distancia con distintos mtodos de
aglomeracin, las soluciones finales no reflejan una clasificacin satisfactoria.
A modo de cierre, este trabajo procur dar a conocer sintticamente la utilidad de aplicar
el Mtodo Cluster sobre un caso particular. Y en este sentido, permiti explorar sobre la
estructura subyacente entre los departamentos de la provincia de Crdoba lo cual
proporciona una base para el trabajo de tesis doctoral de la autora.
19
5. BIBLIOGRAFIA
CLMENT, Z. Drnas de (2000): Concepto de regin: la regin intraprovincial similitudes y
diferencias con las regiones interprovinciales e internacionales. Obtenido el 28/07/08
en: http://bibliotecavirtual.clacso.org.ar/ar/libros/argentina/cijs/sec4002c.html
JOHNSON, D. E. (1998): Mtodos multivariados aplicados al anlisis de datos.
International Thomson Editores.
PEA, D. (2002): Anlisis de Datos Multivariantes. Editorial Mc Grawhill.
PREZ LPEZ, C. (2007): Minera de Datos. Tcnicas y Herramientas. Editorial
Thomson.
UCA -Universidad de Cdiz-: Gua para el anlisis de Datos con el SPSS. Obtenido el
23/07/08 en: http:// www.uca.es/serv/ai/formacion/spss/Inicio.pdf
6. ANEXO
Variables elaboradas a partir de las bases de datos publicadas por la Gerencia de
Estadsticas y Censos de la provincia de Crdoba:
-
Producto Bruto Geogrfico per cpita en 2003 en miles de pesos corrientes y a
precios del productor.
Gasto Pblico Provincial per cpita en 2003, segn la interpretacin de las tablas
este gasto incluye: Gasto Pblico Social, Gasto en Educacin, Gasto en Planes de
Empleo, Gasto en Salud y Gasto en Viviendas.
Planes de Empleo por cada mil habitantes en 2003, rene informacin sobre los
planes: PEC, PJJH, PPP, PEP y PVaT.
Seguridad, cociente entre cantidad de delitos por cada 10.000 habitantes y policas
por cada 10.000 habitantes en 2003.
Inversin Pblica Provincial per cpita en 2003, caminos, edificios pblicos, obras
hidrulicas, viviendas y otras construcciones.
Poblacin Total en 2001.
Vivienda, Porcentaje de la Poblacin que habita en viviendas Tipo A en 2001.
20
Condicin NBI, Porcentaje de la Poblacin Total en hogares particulares que
cumple con al menos una condicin NBI en 2001.
Obra Social, Porcentaje de la Poblacin Total que tiene Obra Social o Plan Mdico
en 2001.
Ocupacin, Porcentaje de la Poblacin de 14 aos o ms que est ocupada en 2001.
Jubilacin, Porcentaje de la Poblacin que percibe Jubilacin o Pensin en 2001.
Fecundidad, Promedio de hijos/as nacidos vivos por mujer (de 14 aos o ms) en
2001.
Educacin, Porcentaje de la Poblacin de 25 aos o ms con Secundario Completo.
21