0% encontró este documento útil (0 votos)
49 vistas21 páginas

Trabajo Con Clusters

El documento presenta un análisis cluster aplicado a los departamentos de la provincia de Córdoba, utilizando variables socioeconómicas y demográficas para clasificar estos departamentos en grupos homogéneos. Se detalla el método teórico del análisis cluster y se describe un proceso de cinco pasos para su aplicación práctica. Además, se discuten los objetivos, supuestos, métodos y validación del análisis cluster, enfatizando su utilidad como técnica exploratoria en la clasificación de datos.

Cargado por

Juan Marín
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
49 vistas21 páginas

Trabajo Con Clusters

El documento presenta un análisis cluster aplicado a los departamentos de la provincia de Córdoba, utilizando variables socioeconómicas y demográficas para clasificar estos departamentos en grupos homogéneos. Se detalla el método teórico del análisis cluster y se describe un proceso de cinco pasos para su aplicación práctica. Además, se discuten los objetivos, supuestos, métodos y validación del análisis cluster, enfatizando su utilidad como técnica exploratoria en la clasificación de datos.

Cargado por

Juan Marín
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ANLISIS CLUSTER: UNA APLICACIN A LOS

DEPARTAMENTOS DE LA PROVINCIA DE CRDOBA.


Pamela Mariel Natali
RESUMEN
El anlisis cluster como un mtodo estadstico multivariante de clasificacin trata, a partir de una
tabla de datos (individuos-variables), de situarlos en grupos homogneos, de manera que los
individuos que pueden ser considerados similares sean asignados a un mismo conglomerado. El
trabajo tiene como propsito esencial, aplicar el Anlisis Cluster a los departamentos de la
provincia de Crdoba caracterizados por medio de distintas variables socioeconmicas y
demogrficas. En la primera parte del documento se desarrolla el mtodo a nivel terico, para luego
describir el caso de aplicacin a lo largo de un proceso de construccin del modelo de cinco pasos.

1. INTRODUCCIN
El anlisis cluster es un conjunto de mtodos o tcnicas estadsticas que permiten
describir y reconocer diferentes agrupaciones que subyacen en un conjunto de individuos o
unidades de observacin, es decir, permiten clasificar o dividir en grupos ms o menos
homogneos, un conjunto de individuos que estn definidos por diferentes variables. El
objetivo principal del anlisis de conglomerados consiste, por tanto, en conseguir una o ms
particiones de un conjunto de individuos en base a determinadas caractersticas de los
mismos. Estas caractersticas estarn definidas por las puntuaciones que cada uno de ellos
tiene con relacin a diferentes variables.
El anlisis cluster como un mtodo estadstico multivariante de clasificacin trata, a
partir de una tabla de datos (individuos-variables), de situarlos en grupos homogneos o
conglomerados, de manera que los individuos que pueden ser considerados similares sean
asignados a un mismo cluster. Este anlisis es una tcnica de clasificacin post hoc pues el
nmero de cluster no es conocido de antemano y los grupos se crean en funcin de la
naturaleza de los datos.
El presente trabajo tiene como propsito esencial, aplicar el Anlisis Cluster a los
departamentos de la provincia de Crdoba caracterizados por medio de distintas variables
socioeconmicas y demogrficas. En la primera parte del documento se desarrolla el
mtodo a nivel terico y en la seccin siguiente se describe el caso de aplicacin a lo largo
de un proceso de construccin del modelo de cinco pasos.

2. MARCO TERICO SOBRE ANLISIS CLUSTER


Objetivos Bsicos del Anlisis Cluster
Siguiendo a Pea (2002), el anlisis cluster o de conglomerados es til para diferentes
situaciones:
-

Particin de los individuos. A los datos que disponemos y sospechamos son


heterogneos, se desea dividirlos en un nmero de grupos prefijado, de manera tal
que: 1) cada elemento pertenezca a uno, y solo uno de los grupos; 2) todo elemento
quede clasificado; y 3) cada grupo sea internamente homogneo.

Construccin de jerarquas. Se desea estructurar los elementos de un conjunto de


forma jerrquica por su similaridad, esto implica que los individuos se ordenan en
niveles, de manera que los niveles superiores contienen a los inferiores.
Estrictamente, estos mtodos no definen grupos, sino la estructura de asociacin en
cadena que pueda existir entre los elementos.

- Clasificacin de variables. En problemas con muchas variables es interesante hacer

un estudio exploratorio inicial para dividir las variables en grupos.


El anlisis cluster puede caracterizarse como descriptivo, aterico y no inferencial. No
tiene bases estadsticas sobre las cuales deducir inferencias para una poblacin a partir de
una muestra, y se utiliza fundamentalmente como una tcnica exploratoria. Las soluciones
no son nicas, en la medida que la pertenencia al conglomerado para cualquier nmero de
soluciones depende de muchos elementos del procedimiento y se pueden obtener muchas
soluciones diferentes variando uno o ms de estos elementos.
La seleccin de las variables puede hacerse con relacin a consideraciones tericas,
conceptuales o prcticas. Se deben incluir slo aquellas variables que caracterizan los
objetos que se estn agrupando, y que se refieren especficamente a los objetivos del
anlisis.
Supuestos del Anlisis Cluster
El anlisis cluster no es tcnica de inferencia estadstica en la que se analizan los
parmetros de una muestra en la medida en que puedan ser representativos de una
poblacin. Por el contrario, este anlisis es una metodologa objetiva de cuantificacin de
las caractersticas estructurales de un conjunto de observaciones. Por ello, tiene fuertes

propiedades matemticas pero no fundamentos estadsticos. Los requisitos de normalidad,


linealidad y homocedasticidad tienen poca consistencia en el anlisis cluster. Sin embargo,
se debe centrar la atencin en dos cuestiones esenciales: representatividad de la muestra y
la multicolinealidad.
La multicolinealidad acta como proceso de ponderacin no aparente para el observador
pero que sin embargo afecta al anlisis. Aquellas variables que son multicolineales estn
implcitamente ponderadas con ms fuerza. La solucin a este problema es, o bien reducir
las variables al mismo nmero en cada conjunto o bien utilizar la medida de distancia de
Mahalanobis que compensa esta correlacin.
Diseo de Investigacin mediante Anlisis Cluster
Medidas de similitud
La similitud es una medida de correspondencia o semejanza entre los objetos que van a
ser agrupados. La estrategia ms comn consiste en medir la equivalencia en trminos de la
distancia entre los pares de objetos. Los objetos con distancias reducidas entre ellos son
ms parecidos entre si que aquellos que tienen distancias mayores y se agruparan, por tanto,
dentro del mismo cluster.
Segn la clasificacin de Sneath y Sokal (Prez, 2007) existen cuatro grandes tipos de
medidas de similitud:
1. Distancias: pone el nfasis en sobre el grado de diferencia o existente entre dos

elementos. El ejemplo ms clsico es la distancia eucldea.


2. Coeficientes de asociacin: se utiliza preferentemente para datos cualitativos. Estas

medidas son, bsicamente, una forma de medir la concordancia o conformidad entre


los estados de dos columnas de datos.
3. Coeficientes angulares: se utilizan para medir la proporcionalidad e independencia

entre los vectores que definen los individuos. El ms comn es el coeficiente de


correlacin aplicado a variables continuas.
4. Coeficientes de similitud probabilstica: miden la homogeneidad del sistema por

particiones o subparticiones del conjunto de individuos e incluye informacin


estadstica. Se relacionan los coeficientes a diferentes clasificaciones utilizando para
ellas criterios de bondad o buenos ajustes estadsticos.

Tipificacin de los datos


La mayora de las medidas de distancias son bastantes sensibles a las diferentes escalas o
magnitudes de las variables. En general, las variables con una mayor dispersin (es decir,
grandes desviaciones estndar) tienen mayor impacto en el valor final de similitud.
La forma mas comn de estandarizacin es la conversin de cada variable a unas
puntuaciones estndar (puntuaciones Z) restando la media y dividiendo por la desviacin de
cada variable. Este proceso convierte cada puntuacin de los datos originales en un valor
estandarizado con media de 0 (cero) y desviacin estndar de 1 (uno). Esta transformacin,
a cambio, elimina el sesgo introducido por las diferencias en las mediciones de varios
atributos o variables utilizadas en el anlisis.
Seleccin del procedimiento de agrupacin
Los diferentes mtodos de anlisis de conglomerados surgen de las distintas formas de
llevar a cabo la agrupacin de los individuos, es decir, dependiendo del algoritmo que se
utilice para llevar a cabo la agrupacin de individuos, se obtienen diferentes mtodos de
anlisis de conglomerados.
Prez Lpez (2007) proporciona la siguiente clasificacin de los mtodos de anlisis
cluster basada en los algoritmos de agrupacin de individuos:
1.

Mtodos Aglomerativos-Divisivos: mtodo aglomerativo es aquel que considera

tantos grupos como individuos y sucesivamente va agrupando los dos grupos ms


similares, hasta llegar a una clasificacin determinada; mientras que el mtodo divisivo
parte de un solo grupo formado por todos los individuos, y en cada etapa posterior va
apartando individuos de los grupos establecidos anteriormente, formando nuevos grupos.
2.

Mtodos Jerrquicos-No Jerrquicos: el mtodo jerrquico consiste en una

secuencia de g+1 cluster: G0, , Gg en la que G0 es la participacin disjunta de todos los


individuos y Gg es el conjunto particin. Progresivamente, el nmero de partes de cada
una de las particiones disminuye, lo que hace que estas sean cada vez ms amplias y
menos homogneas. Por el contrario, en el mtodo no jerrquico se forman grupos
homogneos sin establecer relaciones de orden o jerrquicas entre dichos grupos.
3.

Mtodos Solapados-Exclusivos: el mtodo solapado acepta que un individuo pueda

pertenecer a dos grupos simultneamente en alguna de las etapas de clasificacin,

mientras que se dice exclusivo si prohbe a los individuos pertenecer simultneamente a


dos grupos en la misma etapa.
4.

Mtodos Secuenciales-Simultneos: en el mtodo secuencial se aplica el mismo

algoritmo en forma recursiva a cada grupo, mientras que los mtodos simultneos son
aquellos en los que la clasificacin se logra por una simple y no reiterada operacin
sobre los individuos.
5.

Mtodos Monotticos-Politticos: el mtodo monottico est basado en una

caracterstica nica de los objetos a clasificar; mientras que el polittico no exige que
todos lo objetos posean las mismas caractersticas, aunque s las suficientes como para
poder justificar la analoga entre los miembros de una misma clase.
6.

Mtodos Directos-Iterativos: el mtodo directo utiliza algoritmos en los que una vez

establecido un individuo a un grupo ya no se saca del mismo, mientras que los mtodos
iterativos comprueban en cada iteracin si la asignacin de un individuo a un
conglomerado es ptima llevando a cabo un nuevo reagrupamiento de los individuos si
es necesario.
7.

Mtodos Ponderados-No Ponderados: el mtodo no ponderado establece el mismo

peso a todas las caractersticas (o variables) de los individuos a clasificar; mientras que
el ponderado hace recaer mayor peso en determinadas caractersticas.
8.

Mtodos Adaptativos-No Adaptativos: en el mtodo no adaptativo, el algoritmo

utilizado se dirige hacia una solucin en la que el procedimiento de formacin de


conglomerados es fijo y est predeterminado, mientras que el adaptativo es aquel que de
alguna manera aprende durante el proceso de formacin de los grupos y cambia el
criterio de optimizacin o la medida de similitud a utilizar.
Los mtodos de anlisis de conglomerados que ms se usan son los que son a la vez
secuenciales, aglomerativos, jerrquicos y exclusivos, y que reciben el acrnimo, en lengua
inglesa, de S.A.H.N. (Sequential, Agglomerative, Hierarchic y Nonoverlaping). Entre los
diferentes mtodos de anlisis de conglomerados de tipo S.A.H.N. tenemos los siguientes:
Mtodo de Unin Simple, entorno o vecino ms cercano o mtodo del mnimo
Mtodo de la distancia mxima, entorno o vecino ms lejano o mtodo del mximo
Mtodo de la media o de la distancia promedio no ponderado

Mtodo de la media ponderada o de la distancia promedio ponderado


Mtodo de la mediana o de la distancia mediana
Mtodo del centroide o de la distancia prototipo
Mtodo de Ward o de mnima varianza
Los mtodos no jerrquicos se diferencian de los mtodos jerrquicos en que el
investigador debe especificar a priori los grupos que deben ser formados y que trabajan con
la matriz de datos original y no requieren su conversin a una matriz de proximidades.
Pedret en (Prez, 2007) agrupa los mtodos no jerrquicos en las cuatro familias siguientes:
1. Mtodos de reasignacin: admiten que un objeto asignado a un grupo en un paso

del proceso sea reubicado en otro grupo en un paso posterior si esto optimiza el criterio
de seleccin. El proceso concluye cuando no quedan individuos cuya reasignacin
permita optimizar el resultado. El algoritmo ms conocido dentro de estos mtodos es
el mtodo de K-medias.
2. Mtodos de bsqueda de la densidad: presentan dos aproximaciones. La

aproximacin tipolgica, donde los grupos se forman buscando las zonas en las cuales
se da una mayor concentracin de individuos. El anlisis modal de Wishart es uno de
los algoritmos ms conocidos dentro estos mtodos. En la aproximacin probabilstica,
se parte del postulado de que las variables siguen una ley de probabilidad segn la cual
los parmetros varan de un grupo a otro. Se trata de encontrar los individuos que
pertenecen a la misma distribucin. Se destaca en esta aproximacin el mtodo de las
combinaciones de Wolf.
3. Mtodos directos: clasifican simultneamente a los individuos y a las variables.
4. Mtodos de reduccin de dimensiones: buscan factores en el espacio de los

individuos, correspondiendo cada factor a un grupo.


Interpretacin y Elaboracin del Perfil de los Clusteres
La interpretacin y el perfil de los grupos comprenden el anlisis de los centroides de
grupo. Los centroides representan los valores medios de los objetos que contiene el grupo
en cada una de las variables. El objetivo de esta etapa es, esencialmente, examinar la
variacin de los clusteres para asignar etiquetas que describan de un modo veraz su
naturaleza.

Con respecto al perfilado de los conglomerados o grupos, cabe decir que no es ms que
la descripcin de las caractersticas de cada cluster para explicar como podran inferir en
dimensiones relevantes. Para conseguir esto, se recurre normalmente al empleo del Anlisis
Discriminante o a algn otro estadstico apropiado. El analista utiliza los datos no incluidos
previamente en el procedimiento de aglomeracin para perfilar las caractersticas de cada
cluster. Estos datos suelen ser caractersticas demogrficas, perfiles psicogrficos, etc.
En resumen, el anlisis de perfiles se enfoca a describir no a lo que determinan
directamente los clusteres sino (una vez se han determinado los distintos grupos) a sus
caractersticas propias. Por ello, se hace especial nfasis en las caractersticas que definen
los grupos y en la capacidad de los miembros de cada conglomerado para predecir una
actitud particular del cluster en cuestin.
Validacin de Conglomerados Obtenidos
Dados los criterios generales que comprende el anlisis cluster, no debe aceptarse
ninguna solucin de agrupacin sin una evaluacin de su confianza y validez. La validacin
es el intento por parte del analista de asegurar que los clusteres obtenidos sean
representativos de la poblacin original y que sean generalizables a otros objetos y estables
a lo largo del tiempo.
Los siguientes procedimientos ofrecen revisiones adecuadas de la calidad de los
resultados de la agrupacin:
Realizar el anlisis cluster con los mismos datos y utilizar distintas medidas de
distancia. Comparar los resultados con todas las medidas a fin de determinar la
estabilidad de las soluciones.
Utilizar diversos mtodos de conglomerado y comparar los resultados.
Dividir los datos a la mitad de forma aleatoria. Realizar el anlisis cluster por
separado en cada mitad (submuestra). Comparar las soluciones de los dos anlisis y
evaluar la correspondencia de los resultados o bien comparar los centroides de
grupo de las dos submuestras.
Eliminar las variables de forma aleatoria. Realizar la agrupacin basndose en el
conjunto reducido de variables. Comparar los resultados basados en el conjunto
completo con los que se obtuvieron al realizar el conglomerado.

En el conglomerado no jerrquico la solucin puede depender del orden de los casos


en el conjunto de datos. Para estudiar esto, es recomendable llevar a cabo corridas
mltiples y utilizar distintos rdenes de los casos hasta estabilizar la solucin.
3. APLICACIN A UN CASO PRCTICO
Formulacin del problema
La idea de regin hace referencia a espacios geogrficos constituidos en razn de
homogeneidades o similitudes socioeconmicas, de nodos funcionales o de proyectos
unitarios de accin (Boudeville citado en Clment, 2000). En este trabajo se ha aplicado el
anlisis cluster a las distintas comunidades regionales de la provincia de Crdoba buscando
una estructura natural que identifique grandes zonas de anlisis basndose en el parecido
o similaridad existente entre ellas.
Inicialmente, se parte de una matriz de datos n x p con n=26 observaciones
departamentos- y p=13 variables.

Las variables corresponden a indicadores socio-

econmicos respecto de la poblacin de la provincia de Crdoba y estn elaboradas a partir


de los Informes Departamentales1 en el ao 2006 realizados por la Direccin General de
Estadsticas y Censos de la provincia de Crdoba. Entre las caractersticas recolectadas se
encuentran: el Producto Bruto Geogrfico per cpita (PBG), Gasto Pblico Provincial per
cpita, Planes de Empleo por cada mil habitantes, Inseguridad, Inversin Pblica
Provincial, Poblacin Total, Tipo de Vivienda, Condicin Necesidades Bsicas
Insatisfechas (NBI), Obra Social, Ocupacin, Jubilacin, Fecundidad, Educacin. La
descripcin de las variables se encuentra detallada en el anexo de este trabajo.
Seleccin de las variables a utilizar. El anlisis cluster debe atender a dos criterios, que
la muestra sea representativa y a la existencia de multicolinealidad.
La representatividad de la muestra, en este caso de estudio, no constituye un problema
porque las unidades de anlisis implican toda la estructura de la poblacin.
Sin embargo, en una etapa preliminar del anlisis se puede anticipar la existencia de
multicolinealidad entre las variables por la naturaleza del problema que se est trabajando,
las variables en su conjunto representan atributos socio-econmicos de la poblacin en los
distintos departamentos. Para detectar formalmente la existencia de multicolinealidad se
1

Disponible on line: http://web2.cba.gov.ar/actual_web/estadisticas/index.htm.

utiliza como medida estadstica la Tolerancia2.

Este estadstico confirma que las

variables incorporadas al trabajo presentan un alto grado de colinealidad. Por ello, se


procede a eliminar del modelo aquellas variables con ms baja Tolerancia. Las variables
PBG, Inseguridad, Inversin Pblica, Poblacin y NBI resultan con un grado de
multicolinealidad mnimo y, perfectamente puede continuarse el trabajo de anlisis sin
adoptar medidas remediables.
Tabla 1. Estadstica Descriptiva
Variables
PBG
Inseguridad
Inversin Pub.
Poblacin
NBI

N
2
6
2
6
2
6
2
6
2
6

Rango

Mnimo

Mximo

Media

Desvo
Estndar

Varianza

19968,00

4735,0
0

24703,00

10703,15

5465,22

29868632,69

28,41

2,45

30,87

11,82

7,24

52,37

165,00

6,00

171,00

45,00

35,77

1279,28

1280051,0
0

4531,0
0

1284582,0
0

117953,8
8

245704,0
6

60370486634,27

31,97

8,80

40,77

18,77

9,62

92,53

La tabla con la estadstica descriptiva revela la gran variabilidad de los datos en cada
variable y la diferencia de escalas entre ellas, lo que justifica la estandarizacin.
Diseo de la investigacin
El primer paso dentro del diseo de investigacin es decidir sobre la medida de similitud
entre los objetos. Entre las distintas alternativas, se ha optado por la distancia eucldea al
cuadrado dado que el conjunto de variables incorporadas es mtrico. Como las variables se
encuentran medidas en distintas escalas es necesario que se estandaricen previamente, para
ello se elige la tipificacin a travs de las puntuaciones Z para cada variable.
El siguiente paso ha consistido en la eleccin del mtodo de aglomeracin. En el
ejemplo que aqu se expone, de las distintas aproximaciones posibles para obtener grupos
mediante esta tcnica, se ha elegido el mtodo de agrupamiento jerrquico. Adems, el
mtodo de encadenamiento escogido es el mtodo de Ward o de varianza mnima. La idea
bsica de este mtodo es ir agrupando elementos, en este caso departamentos de la
2

La tolerancia calcula la proporcin de varianza libre para cada una de las variables del modelo; tiene un
valor mximo de 1 cuando la variable en cuestin no tiene ningn grado de multicolinealidad con las
restantes, hasta un valor mnimo de 0 cuando esta es una combinacin lineal perfecta de las otras variables. Es
deseable que la tolerancia sea lo mayor posible, idealmente igual a 1, y en general que sea superior a 0,40.

provincia de Crdoba, de forma jerrquica y minimizando la variacin intragrupo de la


estructura formada.
Interpretacin y Elaboracin del Perfil de los Clusteres
A continuacin, se detallan los resultados de aplicar el Anlisis de Conglomerado
Jerrquico Aglomerativo con el Mtodo de Ward utilizando el paquete estadstico SPSS
14.0.
Determinacin del nmero de grupos
Tabla 2. Historial de Aglomeracin
Cluster que se combina
Etapa

Coeficientes

Etapa en la que el Cluster


aparece por primera vez
Cluster 1

Cluster 2

Prxima
Etapa

Cluster 1

Cluster 2

26

,046

23

,139

10

19

,234

13

18

,339

13

21

,456

11

17

20

,580

10

11

,723

15

17

,999

17

15

1,311

19

10

1,624

16

11

13

2,055

23

12

16

25

2,709

18

13

3,462

20

14

24

4,502

21

15

10

22

5,745

18

16

14

7,076

10

17

17

8,582

16

19

18

10

16

11,174

15

12

20

19

13,974

17

21

20

10

22,541

13

18

25

21

31,153

19

14

22

22

12

43,211

21

24

23

63,671

11

24

24

89,985

22

23

25

25

125,000

24

20

El historial de aglomeracin muestra las distancias de aglomeracin y los grupos que se


han ido formando al aplicar el algoritmo. El dendograma que se expone en la pgina
siguiente, proporciona dicha informacin de forma grfica.

10

Grfico 1. Dendograma
Rescaled Distance Cluster Combine
C A S E
Label

Num

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

Marcos Jurez
9

Unin
26

Ro Segundo
17

San Justo
20

Gral San Martn
6

Tercero Arriba
23

Calamuchita
1

Ro Cuarto
14

Gral Roca
5

Ro Primero
15

Jurez Celman
8

Totoral
24

Pte R. S. Pea
12

Coln
3

Santa Mara
21

GRUPO 2
Punilla
13

Capital
2

Ischiln
7

San Javier
19

Cruz del Eje


4

San Alberto
18

Ro Seco
16

GRUPO 3
Tulumba
25

Minas
10

Pocho
11

Sobremonte
22

Un primer examen del dendograma indica que la diferencia entre los grupos es amplia,
ya que la unin de los mismos se va realizando a niveles de la escala altos, siendo la unin
final en el ltimo valor posible, es decir, en el 25.
El dendograma, adems, permite la identificacin visual de la existencia de casos
atpicos, donde un atpico sera una rama que no se uni hasta muy tarde.

El

departamento Capital como grupo unipersonal puede interpretarse como un componente


estructural vlido en la muestra, sin embargo, se opta por incluirlo dentro de un cluster
junto a otros departamentos con los cuales comparte ciertas caractersticas (que ms tarde
se detallan).
En cuanto a la decisin del nmero de conglomerados, en esta investigacin se ha
optado por elegir la cantidad de grupos segn la claridad de las descripciones para cada uno
y su aplicacin prctica. Por tanto, se examina la solucin de tres grupos.

11

Determinacin del perfil de los grupos


Una vez determinada la cantidad de clusters, se debe interpretar el perfil de cada uno de
ellos. Las tablas con informacin referida a las cinco variables utilizadas y que permiten el
anlisis en esta etapa, se presentan a continuacin.
Tabla 3. Valores extremos
Caso
PBG

Mayores

Menores

Inseguridad

Mayores

Menores

Inversin Pub.

Mayores

Menores

ID

Valor

Jurez Celman

24703,00

24

Totoral

23804,00

15

Ro Primero

Marcos Jurez

26

Cas
o
Poblaci
n

Mayore
s

ID

Valor

Capital

1284582

15904,00

14

Ro Cuarto

229728,0

15382,00

20

San Justo

190182,0

Unin

14789,00

Coln

171067,0

19

San Javier

4735,00

13

Punilla

155124,0

22

Sobremonte

5132,00

11

Pocho

5193,00

22

Sobremonte

4531,00

10

Minas

5466,00

10

Minas

4881,00

Cruz del Eje

5481,00

11

Pocho

5132,00

21

Santa Mara

30,87

25

Tulumba

12211,00

Coln

29,57

16

Ro Seco

12635,00

13

Punilla

25,32

11

Pocho

40,77

Jurez Celman

18,40

10

Minas

39,46

15

Ro Primero

16,32

16

Ro Seco

30,95

16

Ro Seco

2,45

25

Tulumba

30,86

10

Minas

2,64

22

Sobremonte

30,37

11

Pocho

5,46

Ischiln

6,05

Marcos Jurez

8,80

22

Sobremonte

6,17

20

San Justo

9,33

12

Pte R. S. Pea

171,00

23

Tercero Arriba

9,51

22

Sobremonte

101,00

9,82

11

Pocho

76,00

Jurez Celman
Gral. San

15

Ro Primero

73,00

Gral. Roca

66,00

Capital

6,00

Coln

7,00

21

Santa Mara

13,00

4
5

13
7

Punilla
Ischiln

14,00
14,00

Menore
s

NBI

Mayore
s

Menore
s

9,96

Tabla 4. Comparacin de Medias


Mtodo Ward
1
2
3
Total

Media
N
Media
N
Media
N

PBG
14567,15
13
6603,00
4
6944,11
9

Inseguridad
11,56
13
24,39
4
6,61
9

Inversin Pub.
52,92
13
10,00
4
49,11
9

Poblacin
89764,00
13
424214,00
4
22557,00
9

NBI
12,31
13
14,25
4
30,10
9

Media
N

10703,15
26

11,82
26

45,00
26

117953,88
26

18,76
26

12

Junto con la tabla de valores extremos, la comparacin de medias entre grupos permite
elaborar el siguiente perfil de los conglomerados:
El Grupo 1 esta compuesto por 13 departamentos que muestran mayor PBG e Inversin
Pblica per capita. Para las variables Inseguridad, Poblacin y NBI este cluster presenta un
nivel menor al promedio poblacional.
El Grupo 2 incluye a 4 de los departamentos de mayor tamao poblacional. Sin
embargo, se caracteriza por mayor nivel de Inseguridad y menor nivel de Inversin Pblica
per capita.
El Grupo 3 queda definido por los 9 departamentos con mayor nivel de NBI y menor
tamao poblacional. No obstante, contiene a los departamentos con menor nivel de
Inseguridad.
En base a estos resultados, puede categorizarse a cada grupo en funcin de su condicin
socioeconmica en Alta, Media y Baja; as, el grupo 1 posee una condicin Alta, el grupo 2
un nivel Medio y el grupo 3 una posicin socioeconmica Baja.
Por medio del ANOVA y utilizando la variable de conglomerado de pertenencia que
resulta del anlisis cluster se puede comprobar la existencia de diferencias significativas
entre los grupos obtenidos.
Tabla 5. ANOVA

PBG

Suma de Cuadrados

df

Media Cuadrtica

388515114,80

194257557,40

Entre Grupos
Intra Grupos

358200702,58

Total
Inseguridad

746715817,38

Entre Grupos

877,49

Intra Grupos

431,70

Total
Inversin Pub.

1309,19

Entre Grupos
Intra Grupos

5868,18
26113,81

Total

31982,0
0

Poblacin

Entre Grupos
Intra Grupos

2
3
2

F
12,47
3

Sig.
,000

15573943,59

5
2
2
3
2
5
2
2
3
2

438,74

23,37
5

,000

18,770

2934,09

2,584

,097

5,159

,014

1135,38

5
467416828180,65
1041845337676,00

2
2
3

233708414090,3
2
45297623377,21

13

Total
NBI

Entre Grupos
Intra Grupos
Total

1509262165856,65
1779,91
533,35
2313,27

2
5
2

889,95

38,37
8

,000

23,18

3
2
5

El ANOVA permite indagar sobre la existencia de igualdad de medias entre los


conglomerados. De la tabla se advierte que existen diferencias significativas en todas las
variables con excepcin de la variable Inversin. Esta variable no sera til para clasificar
pues los grupos definidos poseen el mismo nivel promedio de inversin. En un trabajo
posterior que avance sobre la aplicacin de esta tcnica, se debera eliminar esta variable o
construir un ndice que muestre el desarrollo en Infraestructura para cada departamento.
Tabla 6. Test de Homogeneidad de las Varianzas

PBG
Inseguridad
Inversin Pub.
Poblacin
NBI

Estadstico Levene
1,795
4,036
1,623
22,790
1,805

df1
2
2
2
2
2

df2
23
23
23
23
23

Sig.
,189
,031
,219
,000
,187

La tabla anterior contiene el estadstico de Levene, el cual permite contrastar la hiptesis


de que las varianzas poblacionales son iguales. Puesto que el nivel crtico de las variables
PBG, Inversin y NBI son mayores que 0,05 se acepta la hiptesis de igualdad de
varianzas, mientras que para las variables Inseguridad y Poblacin se concluye que en las
poblaciones definidas por los tres grupos, las varianzas de las variables no son iguales. Este
resultado es til para encarar el anlisis de los grupos por medio del siguiente contraste
denominado Comparaciones Mltiples Post Hoc.
El ANOVA Post Hoc permite averiguar qu grupos difieren entre s en cada una de las
variables.

La primera columna de la tabla indica que los procedimientos post hoc

seleccionados fueron: la diferencia honestamente significativa (HSD) de Tukey asume


varianzas iguales - y el mtodo de Games-Howes no asume varianzas iguales-.
Para las variables PBG, Inversin y NBI se debe prestar atencin a la solucin propuesta
por Tukey, mientras que, para las variables Inseguridad y Poblacin la solucin apropiada
es la de Games-Howes.

14

De la tabla surge que los promedios comparados para la variable PBG no difieren
significativamente entre los grupos 2 y 3. Los grupos 1 y 2 definidos tanto por la variable
Inseguridad como por la variable NBI presentan promedios que no difieren
significativamente entre s. Por medio del ANOVA Post Hoc, se confirma nuevamente la
irrelevancia de la variable Inversin pues los promedios comparados para cada grupo no
difieren significativamente. Por ltimo, la variable Poblacin tambin presenta dificultades
en la mayora de las comparaciones entre las medias de los grupos.
Tabla 7. ANOVA Post Hoc

15

Multiple Comparisons

Dependent Variable
PBG

Tukey HSD

(I) Ward Method


1
2

(J) Ward Method


2

Mean
Difference
(I-J)
Std. Error
7964,15385* 2256,43116

Sig.
,005

Lower Bound
2313,2912

Upper Bound
13615,0165

7623,04274* 1711,26673

,001

3337,4552

11908,6303

-7964,15385* 2256,43116

,005

-13615,0165

-2313,2912

2371,48141

,989

-6280,0983

5597,8761

-7623,04274* 1711,26673

,001

-11908,6303

-3337,4552

3
3

1
2

Games-Howell

1
2

2371,48141

,989

-5597,8761

6280,0983

7964,15385* 1367,88527

,000

4358,1668

11570,1409

7623,04274* 1699,25365

,001

3323,6473

11922,4382

-7964,15385* 1367,88527

,000

-11570,1409

-4358,1668

1098,71873

,949

-3393,5024

2711,2802

-7623,04274* 1699,25365

,001

-11922,4382

-3323,6473

3
3
Segur

Tukey HSD

1
2
3

Games-Howell

3
InverPub

Tukey HSD

1
2
3

Games-Howell

1
2
3

Poblac

Tukey HSD

1
2
3

Games-Howell

1
2
3

NBI

Tukey HSD

1
2
3

Games-Howell

1
2
3

341,11111

-341,11111

341,11111

1098,71873

,949

-2711,2802

3393,5024

-12,83393*

2,47714

,000

-19,0375

-6,6303

4,94893*

1,87865

,038

,2442

9,6537

12,83393*

2,47714

,000

6,6303

19,0375

17,78286*

2,60344

,000

11,2630

24,3028

-4,94893*

1,87865

,038

-9,6537

-,2442

-17,78286*

2,60344

,000

-24,3028

-11,2630

-12,83393

4,44973

,113

-30,4494

4,7815

1,35926

,005

1,4876

8,4102

-4,7815

30,4494

3
2

-341,11111

95% Confidence Interval

4,94893*

12,83393

4,44973

,113

17,78286*

4,46668

,048

,2511

35,3146

-4,94893*

1,35926

,005

-8,4102

-1,4876

-17,78286*

4,46668

,048

-35,3146

-,2511

42,92308

19,26611

,088

-5,3257

91,1719

3,81197

14,61133

,963

-32,7797

40,4036

-42,92308

19,26611

,088

-91,1719

5,3257

-39,11111

20,24844

,153

-89,8200

11,5978

-3,81197

14,61133

,963

-40,4036

32,7797

39,11111

20,24844

,153

-11,5978

89,8200

42,92308*

11,00842

,005

13,8012

72,0450

3,81197

15,01584

,965

-34,2594

41,8833

-42,92308*

11,00842

,005

-72,0450

-13,8012

-39,11111*

10,61242

,014

-69,0015

-9,2207

-3,81197

15,01584

,965

-41,8833

34,2594

39,11111*

10,61242

,014

9,2207

69,0015

-334450,000*

121691,57

,030

-639206,6305

-29693,3695

67207,00000

92290,313

,749

-163918,9897

298332,9897

334450,0000*

121691,57

,030

29693,3695

639206,6305

401657,0000*

127896,35

,012

81361,5272

721952,4728

92290,313

,749

-298332,9897

163918,9897

-67207,00000

-401657,000*

127896,35

,012

-721952,4728

-81361,5272

-334450,000

287915,51

,547

-1531766,5527

862866,5527

67207,00000*

18629,273

,007

18798,4867

115615,5133

334450,0000

287915,51

,547

-862866,5527

1531766,5527

401657,0000

287451,08

,445

-798761,2205

1602075,2205

-67207,00000*

18629,273

,007

-115615,5133

-18798,4867

-401657,000

287451,08

,445

-1602075,2205

798761,2205

-1,94250

2,75339

,763

-8,8379

4,9529

-17,79222*

2,08816

,000

-23,0217

-12,5628

1,94250

2,75339

,763

-4,9529

8,8379

-15,84972*

2,89378

,000

-23,0967

-8,6027

17,79222*

2,08816

,000

12,5628

23,0217

15,84972*

2,89378

,000

8,6027

23,0967

-1,94250

1,51326

,442

-6,2653

2,3803

-17,79222*

2,45960

,000

-24,4262

-11,1582

1,94250

1,51326

,442

-2,3803

6,2653

-15,84972*

2,52719

,000

-22,6983

-9,0012

17,79222*

2,45960

,000

11,1582

24,4262

15,84972*

2,52719

,000

9,0012

22,6983

*. The mean difference is significant at the .05 level.

Validacin de Conglomerados Obtenidos


Para confirmar la solucin obtenida del anlisis cluster, se ha aplicado un anlisis
factorial y anlisis discriminante sobre la matriz de datos bajo estudio.

16

Anlisis Factorial
A continuacin se detalla el resultado del anlisis factorial con la solucin rotada
mediante el mtodo Equamax. Para cuantificar las distancias entre las variables se utiliza el
coeficiente de correlacin de Pearson y el mtodo de extraccin de factores es por medio de
Componentes Principales.
La tabla muestra como en el primer factor saturan las variables Inseguridad, Inversin,
Poblacin y NBI, mientras que, en el segundo factor satura, fundamentalmente, la variable
PBG.
Tabla 8.Carga factorial
D1

D2

PBG

0,029

0,913

Inseguridad

-0,725

0,122

Inversin Pub.

0,729

0,344

Poblacin

-0,612 -0,197

NBI

0,644

-0,631

El grfico de Biplot muestra al grupo 1 ms asociado a la variable PBG; el grupo 2 a la


variable Poblacin y el grupo 3 se encuentra ms asociado a la variable NBI. Este resultado
se correspondera con la solucin hallada en el anlisis cluster.
Grfico 2. Biplot

Anlisis Discriminante
Utilizando como variable de clasificacin el conglomerado de pertenencia resultante
del anlisis cluster se puede realizar un anlisis discriminante para interpretar la diferencia
entre los grupos.

17

Grfico 3. Funciones Discriminantes

La figura muestra la distribucin de las comunidades departamentales en el espacio


definido por las dos funciones discriminantes. Los departamentos del grupo 1 obtienen
puntuaciones medias en la primera funcin y puntuaciones bajas en la segunda. Los
departamentos del grupo 2 alcanzan puntuaciones altas en las dos funciones discriminantes.
Los departamentos del grupo 3 tienen puntuaciones bajas en la primera funcin y
puntuaciones medias-altas en la segunda.
Tabla 9. Coeficientes Estandarizados
Funcin
PBG
Inseguridad
Inversin Pub.
Poblacin
NBI

1
-,021
1,24
0
,285
1,00
3
-,408

2
-,660
,559
-,268
,596
,876

La tabla muestra la matriz de los coeficientes estandarizados de las dos funciones


discriminantes obtenidas. La primera funcin atribuye la mayor importancia a Inseguridad,
Inversin y Poblacin, mientras que la segunda funcin atribuye mayor importancia al PBG
y al NBI.
Se puede pensar que los departamentos del grupo 1 tienen niveles medios de
Inseguridad, Inversin y Poblacin, nivel bajo de NBI y un alto PBG. El grupo 2 est

18

constituido por los departamentos ms poblados, con niveles altos de Inseguridad,


Inversin y NBI, como tambin niveles bajos de PBG. El grupo 3 est compuesto por
departamentos con niveles bajos de Inseguridad, Inversin y Poblacin, con nivel mediobajo de PBG y con nivel medio-alto de NBI. Este resultado es prcticamente semejante a
las conclusiones del anlisis cluster. Aunque estos resultados no coinciden absolutamente
con el anlisis cluster se puede deducir un perfil de los grupos muy prximo a la solucin
que provee esta tcnica.
4. CONSIDERACIONES FINALES
Para finalizar, se plantean dos cuestiones significativas que surgieron durante el proceso
de la investigacin.
En primer lugar y como se explica en el marco terico, la seleccin de las variables a
incluir es determinante en la solucin del anlisis cluster. Por ello, en futuros trabajos se
pretende incorporar al estudio de los departamentos de la provincia variables que midan la
condicin social como el ndice de Desarrollo Humano, Tasa de Desempleo, Densidad
Poblacional, as como tambin, variables relacionadas al Sector Industrial y Agropecuario.
Pero, por naturaleza estas caractersticas presentarn, en mayor o menor medida, cierto
grado de multicolinealidad. Entonces, se proyecta utilizar como medida remediable aquella
considerada ms apropiada y que sustituye la o las variables correlacionadas por un ndice
que resume la informacin provista por cada una de ellas. En este sentido, el anlisis
factorial es una tipo de estrategia til como medida de correccin al sustituir los regresores
por el o los ndices factoriales construidos.
Por otro lado, aunque asociado con el problema de la multicolinealidad, se dijo al inicio
del trabajo que, en el caso particular del anlisis cluster se puede utilizar la distancia de
Mahalanobis para reducir la correlacin entre las variables. Aunque se ha probado entre las
alternativas posibles que combinan aquella distancia con distintos mtodos de
aglomeracin, las soluciones finales no reflejan una clasificacin satisfactoria.
A modo de cierre, este trabajo procur dar a conocer sintticamente la utilidad de aplicar
el Mtodo Cluster sobre un caso particular. Y en este sentido, permiti explorar sobre la
estructura subyacente entre los departamentos de la provincia de Crdoba lo cual
proporciona una base para el trabajo de tesis doctoral de la autora.

19

5. BIBLIOGRAFIA
CLMENT, Z. Drnas de (2000): Concepto de regin: la regin intraprovincial similitudes y
diferencias con las regiones interprovinciales e internacionales. Obtenido el 28/07/08
en: http://bibliotecavirtual.clacso.org.ar/ar/libros/argentina/cijs/sec4002c.html
JOHNSON, D. E. (1998): Mtodos multivariados aplicados al anlisis de datos.
International Thomson Editores.
PEA, D. (2002): Anlisis de Datos Multivariantes. Editorial Mc Grawhill.
PREZ LPEZ, C. (2007): Minera de Datos. Tcnicas y Herramientas. Editorial
Thomson.
UCA -Universidad de Cdiz-: Gua para el anlisis de Datos con el SPSS. Obtenido el
23/07/08 en: http:// www.uca.es/serv/ai/formacion/spss/Inicio.pdf
6. ANEXO
Variables elaboradas a partir de las bases de datos publicadas por la Gerencia de
Estadsticas y Censos de la provincia de Crdoba:
-

Producto Bruto Geogrfico per cpita en 2003 en miles de pesos corrientes y a


precios del productor.

Gasto Pblico Provincial per cpita en 2003, segn la interpretacin de las tablas
este gasto incluye: Gasto Pblico Social, Gasto en Educacin, Gasto en Planes de
Empleo, Gasto en Salud y Gasto en Viviendas.

Planes de Empleo por cada mil habitantes en 2003, rene informacin sobre los
planes: PEC, PJJH, PPP, PEP y PVaT.

Seguridad, cociente entre cantidad de delitos por cada 10.000 habitantes y policas
por cada 10.000 habitantes en 2003.

Inversin Pblica Provincial per cpita en 2003, caminos, edificios pblicos, obras
hidrulicas, viviendas y otras construcciones.

Poblacin Total en 2001.

Vivienda, Porcentaje de la Poblacin que habita en viviendas Tipo A en 2001.

20

Condicin NBI, Porcentaje de la Poblacin Total en hogares particulares que


cumple con al menos una condicin NBI en 2001.

Obra Social, Porcentaje de la Poblacin Total que tiene Obra Social o Plan Mdico
en 2001.

Ocupacin, Porcentaje de la Poblacin de 14 aos o ms que est ocupada en 2001.

Jubilacin, Porcentaje de la Poblacin que percibe Jubilacin o Pensin en 2001.

Fecundidad, Promedio de hijos/as nacidos vivos por mujer (de 14 aos o ms) en
2001.

Educacin, Porcentaje de la Poblacin de 25 aos o ms con Secundario Completo.

21

También podría gustarte