0% encontró este documento útil (0 votos)
81 vistas57 páginas

Conglomerdos

Analisis de Cluster

Cargado por

antonio2008
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
81 vistas57 páginas

Conglomerdos

Analisis de Cluster

Cargado por

antonio2008
Derechos de autor
© Attribution Non-Commercial (BY-NC)
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

AnlisisConglomerados

SantiagodelaFuenteFernndez

AnlisisConglomerados

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

ANLISISDECONGLOMERADOS
ElAnlisisCluster,conocidocomoAnlisisdeConglomerados,esunatcnicaestadstica
multivariantequebuscaagruparelementos(ovariables)tratandodelograrlamxima
homogeneidadencadagrupoylamayordiferenciaentrelosgrupos.
[Link]
embargo,[Link]
Clusteresunatcnicadescriptiva,atericaynoinferencial.
ElAnlisisClusternotienebasesestadsticassobrelasquededucirinferenciasestadsticasparauna
poblacinapartirdeunamuestra,esunmtodobasadoencriteriosgeomtricosyseutiliza
fundamentalmentecomounatcnicaexploratoria,descriptivaperonoexplicativa.
Lassolucionesnosonnicas,enlamedidaenquelapertenenciaalconglomeradoparacualquier
[Link],la
solucinclusterdependetotalmentedelasvariablesutilizadas,laadicinodestruccindevariables
relevantespuedetenerunimpactosubstancialsobrelasolucinresultante.
Losalgoritmosdeformacindeconglomeradosseagrupanendoscategoras:

Algoritmosdeparticin:Mtododedividirelconjuntodeobservacionesenkconglomerados
(clusters),endondeklodefineinicialmenteelusuario.

Algoritmosjerrquicos:Mtodoqueentregaunajerarquadedivisionesdelconjuntode
elementosenconglomerados.
) Unmtodojerrquicoaglomerativoparteconunasituacinenquecadaobservacinforma
unconglomeradoyensucesivospasossevanuniendo,hastaquefinalmentetodaslas
situacionesestnenunnicoconglomerado.
) Unmtodojerrquicodisociativosigueelsentidoinverso,partedeungranconglomeradoy
enpasossucesivossevadividiendohastaquecadaobservacinquedaenunconglomerado
distinto.

Elanlisisdeconglomeradosnosvaapermitircontestarapreguntastalescomo:
Esposibleidentificarculessonlasempresasenlasqueseramsdeseableinvertir?
Esposibleidentificargruposdeclientesalosquelespuedainteresarunnuevoproductoque
unaempresavaalanzaralmercado?
SepuedenclasificarlasbodegasdeLaRiberadelDueroenfuncindelascaractersticas
qumicasypticasdelvinoqueproducen?

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

PROBLEMA
Dadounconjuntodemobjetos(animales,plantas,minerales...),cadaunodeloscualesviene
descritoporunconjuntodepcaractersticasovariables,deducirunadivisintilenunnmerode
[Link].
SOLUCIN
Particindelosmobjetosenunconjuntodegruposdondeunobjetopertenezcaaungruposloyel
conjuntodedichosgruposcontengaatodoslosobjetos.
PLANTEAMIENTODELPROBLEMA
PUNTODEPARTIDA:SeaXunamuestrademindividuossobrelosquesemidenpvariables.
Xesunconjuntodevaloresnumricosquesepuedenordenarenunamatriz:
x11

x21
X =
M

x
m1

x12
x 22
M
x m2

L x1p

L x 2p
M
M

L xmp

x11 : Valorquepresenteelprimerindividuoenlaprimeravariable
x12 : Valorquepresenteelprimerindividuoenlasegundavariable
xij : Valorquepresenteelindividuoisimoenlavariablejsima

Cadacolumnacontienelosvaloresquetomantodoslosindividuosparacadavariablequeseestudia.
OBJETIVO

Encontrarunaparticindelosmindividuosencgruposdeformaquecadaindividuopertenezcaa
ungrupoysolamenteauno.
ANLISISCONGLOMERADOS(CLUSTERS)

Esunprocedimientoestadsticoquepartedeunconjuntodedatosquecontieneinformacinsobre
unamuestradeentidadeseintentareorganizarlasengruposrelativamentehomogneosalosque
sellamaconglomerados(clusters).
ETAPASDELANLISISDECONGLOMERADOS(CLUSTERS)

1)Eleccindelasvariables
2)Eleccindelamedidadeasociacin
3)EleccindelatcnicaCluster
4) Validacindelosresultados

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

[Link]

Dependiendodelproblemalasvariablespuedenser:
Ordinales
Cualitativas
No min ales

Discretas
Cuantitativas
Continuas

ANLISISCONGLOMERADOSPORVARIABLESOPORINDIVIDUOS

Sisepretendeagruparalosindividuosengrupossehaderealizarunanlisiscluster
(conglomerados)delosindividuos

Sisepretendeagruparlasvariablesmsparecidassedeberealizarunanlisisclusterdelas
variables,paraellobastaconsiderarlamatrizdedatosinicial X'

[Link]

Parapoderunirvariablesoindividuosesnecesarioteneralgunasmedidasnumricasque
caractericenlasrelacionesentrelasvariablesolosindividuos.
Cadamedidareflejaasociacinenunsentidoparticularyesnecesarioelegirunamedidaapropiada
paraelproblemaconcretoqueseesttratando.
Lamedidadeasociacinpuedeserunadistanciaounasimilaridad.

Cuandoseeligeunadistanciacomomedidadeasociacin(porejemplo,ladistanciaeucldea)
losgruposformadoscontendrnindividuosparecidosdeformaqueladistanciaentreellosha
deserpequea.

Cuandoseeligeunamedidadesimilaridad(porejemplo,elcoeficientedecorrelacin)los
gruposformadoscontendrnindividuosconunasimilaridadaltaentreellos.

DISTANCIAMTRICA
Unafuncin d: U x U R sellamadistanciamtricas x , y , z U severifica:
d(x , x) 0
d(x , y) = 0 x = y

d(x , y) = d(y , x)
d(x , z) d(x , y) + d(y , z)

SIMILARIDAD
Unafuncin s: U x U R sellamasimilaridads x , y U severifica:
s (x , y) s0

s0 nmero real finito arbitrario s (x , x) = s0


s (x , y) = s (y , x)

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

SIMILARIDADMTRICA
Unafuncin s: U x U R sellamasimilaridadmtricas x , y , z U severifica:
s (x , y) s0
s (x , x) = s
0

s
(
x
,
y
)
s
(y , x)
=

s (x , y) = s x = y
0

s
(
x
,
y
)
s
(y , z) s (x , z) s (x , y) s (y , z)
+

[Link](porvariablesoporindividuos)queserealiza,existen
distintasmedidasdeasociacinaunque,tcnicamente,todaslasmedidaspuedenutilizarseen
amboscasos.

MEDIDASDEASOCIACINPARAVARIABLES
) Cosenodelngulodedosvectores(invarianza,salvosigno,frenteahomotecias)
) Coeficientedecorrelacin(invarianzafrenteatraslacionesysalvosignofrenteahomotecias)
) Medidasparadatosdicotmicos

Xi \ X j

Totales

1
0
Totales

a
c
a+c

b
d
b+d

a+b
c+d
m=a+b+c+d

) MedidadeOchiai
) Medida

a
(a + b)(a + c)

ad bc
(a + b)(c + d)(a + c)(b + d)

) MedidadeRussellyRao

a
a
=
a+b + c + d m

) MedidadeParejassimples
) MedidadeJaccard
) MedidadeDice

a+d
a+d
=
a+b +c +d m

a
a+b + c

2a
2a + b + c

) MedidadeRogersTanimoto

SantiagodelaFuenteFernndez

a+d
a + d + 2(b + c)

AnlisisdeConglomerados

MEDIDASDEASOCIACINPARAINDIVIDUOS
) DistanciaEucldea: d(xi , x j ) =

(x
c=1

ic

x jc ) 2

) DistanciadeMinkowski: dq (x i , x j ) = x ic x jc
c=1

1
q

donde q 1

) Distanciad1ociudad(CityBlock): d(xi , x j ) = x ic x jc
c=1

) DistanciadeTchebychevodelmximo(q=): d e (x i , x j ) = mx (c = 1,L, p) x ic x jc
) DistanciadeMahalanobis: DS (x i , x j ) = (x i x j )' S 1 (xi x j )

p q n2ij

1
) Distancia 2 : 2 = m
i=1 j=1 mi mj

[Link]
3.1 MTODOSJERRQUICOS

OBJETIVO:Agruparclusterparaformarunonuevoosepararalgunoyaexistenteparadarorigena
otrosdosdeformaquesemaximiceunamedidadesimilaridadoseminimicealgunadistancia.
CLASIFICACIN:

AsociativosoAglomerativos:Separtedetantosgruposcomoindividuoshayenelestudioyse
vanagrupandohastallegaratenertodosloscasosenunmismogrupo.

Disociativos:Separtedeunsologrupoquecontienetodosloscasosyatravsdesucesivas
divisionesseformangruposcadavezmspequeos.

Losmtodosjerrquicospermitenconstruirunrboldeclasificacinodendograma.
3.2MTODOSNOJERRQUICOS

Estndiseadosparalaclasificacindeindividuos(nodevariables)[Link]
elegirunaparticindelosindividuosenKgruposeintercambiarlosmiembrosdelosclusterspara
tenerunaparticinmejor.

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

MTODOSDEANLISISCLUSTER

Simple Linkage (Vecino ms prximo)

Complete Linkage (Vecino ms lejano)

Pr omedio entre Grupos


Aglomerativos

Mtodo del Centroide

Mtodo de la Mediana

Mtodo de Ward

Jerrquicos
Linkage Simple

Linkage Completo

Pr omedio entre Grupos

Disociativos Mtodo del Centroide

Mtodo de la Mediana

Mtodo de Ward

Anlisis de Asociacin

K Medias
Reasignacin
Nubes Dinmicas

Anlisis Modal

Bsqueda Mtodos Taxap


de densidad Mtodo de Fortin
No

Mtodo de Wolf
Jerrquicos

Mtodos Directos : Block Clustering

Mtodos Reductivos : Anlisis Factorial tipo Q

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

DISTANCIASENTRECONGLOMERADOS

Lasdistanciasentrelosconglomeradossonfuncionesdelasdistanciasentreobservaciones,hay
variasformasdedefinirlas:
) SeanAyBdosconglomerados:

Vecinomscercano:

d(A , B) = mn d(i, j)
i A , jB

Vecinomslejano

d(A , B) = mx d(i, j)
i A , jB

Promediodegrupo

d(A , B) =

1
nA . nB

d(i, j)

i A , jB

Centroide(centrogravedad)

d(A , B) = d(x A , x B )

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

MTODOLINKAGESIMPLEAGLOMERATIVO(Vecinomscercano)

Unavezqueseconocenlasdistanciasexistentesentrecadadosindividuosseobservaculessonlos
individuosmsprximosencuantoaestadistanciaosimilaridad(qudosindividuostienenmenor
distanciaomayorsimilaridad).Estosdosindividuosformanungrupoquenovuelveasepararse
duranteelproceso.
Serepiteelproceso,volviendoamedirladistanciaosimilaridadentretodoslosindividuosde
nuevo(tomandoelgrupoyaformadocomosdeunsoloindividuosetratara)delasiguiente
forma:

Cuandosemideladistanciaentreelgrupoformadoyunindividuo,setomaladistancia
mnimadelosindividuosdelgrupoalnuevoindividuo.

Cuandosemidelasimilitudosimilaridadentreelgrupoformadoyunindividuo,setomala
mximadelosindividuosdelgrupoalnuevoindividuo.

[Link]:
Distancia
A
B
C
D

A
0
9
4
7

0
5
3

0
11

tablasimtricapuestoqued(A,B)=d(B,A)
) Distanciamnima

d(B, D) = 3
BDformanungrupo

Semidenlasdistanciasdenuevo:
Distancia
A
BD
C
) Distanciamnima

A
0
7
4

BD

0
5

d(C , A) = 4
ACformanungrupo

Semidenlasdistanciasdenuevo:
Distancia
AC
BD
) Distanciamnima

AC
0
5

BD
0

d(A C , B D) = 5
ACBDformanungrupo

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

Elprocesoseguidoserepresentaen
unrboldeclasificacinllamado
DENDOGRAMA

Elnmerodegrupossepuededecidiraposteriori.
SIsedeseaclasificarestoselementosendosgrupos,laclasificacinresultantees:BDyAC
Sisedeseantresgrupos,setomalaclasificacinenelpasoanterior:BD,AyC.

MTODOLINKAGECOMPLETOAGLOMERATIVO(Vecinomslejano)

Conocidaslasdistanciasosimilaridadesexistentesentrecadadosindividuosseobservaculesson
losindividuosmsprximosencuantoaestadistanciaosimilaridad(qudosindividuostienen
menordistanciaomayorsimilaridad).Estosdosindividuosformarnungrupoquenovuelvea
[Link],serepiteelproceso,volviendoamedirladistanciao
similaridadentretodoslosindividuosdelasiguienteforma:
Cuandosemideladistanciaentreelgrupoformadoyunindividuo,setomaladistanciamxima
delosindividuosdelgrupoalnuevoindividuo.

Cuandosemidelasimilitudosimilaridadentreelgrupoformadoyunindividuo,setomala
mnimadelosindividuosdelgrupoalnuevoindividuo.

[Link](coeficientedecorrelacinentrevariables):
Distancia
A
B
C
D
E

A
1
0,39
0,75
0,56
0,81

1
0,24
0,63
0,72

1
0,42
0,12

1
0,93

tablasimtricapuestoqued(A,B)=d(B,A)
) Similaridadmxima

s (D, E) = 0,93
DEformanungrupo

Semidenlassimilaridadesdenuevo:
Distancia
A
B
C
DE
) Similaridadmxima

A
1
0,39
0,75
0,56

DE

1
0,24
0,63

1
0,42

s (C , A) = 0,75
ACformanungrupo

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

Semidenlassimilaridadesdenuevo:
Distancia
AC
B
DE
) Similaridadmxima

AC
1
0,24
0,12

DE

1
0,63

s (B, D E) = 0,63
BDEformanungrupo

Semidenlassimilaridadesdenuevo:
Distancia
AC
BDE
) Similaridadmxima

AC
1
0,12

BDE
1

s (A C , B D E) = 0,12
ABCDEformanungrupo

Elprocesoseguidoserepresentaen
unrboldeclasificacinllamado
DENDOGRAMA

ELDENDOGRAMA:REPRESENTACINGRFICADEUNACLASIFICACINJERRQUICA

Undendogramaesunarepresentacingrficaenformaderbolqueresumeelprocesode
agrupacinenunanlisisdeclusters.
Losobjetossimilaresseconectanmedianteenlacescuyaposicineneldiagramaestdeterminada
porelniveldesimilitud/disimilitudentrelosobjetos.
Paraclarificarlaconstruccindeundendogramaysusignificadoseutilizaunejemplosencillocon5
objetosydosvariables:
objeto
1
2
3
4
5

v1
1
2
4
7
5

SantiagodelaFuenteFernndez

v2
1
1
5
7
7

10

AnlisisdeConglomerados

Apartirdeestosdatos,seconsideralamatrizdedistanciaseucldeas d(xi , x j ) =

(x
c=1

ic

x jc ) 2 entre

losobjetos.
objetos
1(1,1)
2(2,1)
3(4,5)
4(7,7)
5(5,7)

2(2,1)

1(1,1)

0
1
5

8,5 72
7,2 52

0
4 ,5 20
7,8 61
6,7 45

3(4,5)

4(7,7)

5(5,7)

0
3,6 13
2,2 5

0
2= 4

Inicialmentehay5clusters,[Link]
distancias,losobjetos(clusters)mssimilaressonel1yel2(condistancia1),porloquesefusionan
losdosconstruyendounnuevoclusterA(12).
Serepiteelproceso,volviendoamedirladistanciadelclusterAalrestodelosobjetos(clusters).
Paraello,setomacomorepresentantedelgrupoelcentroidedelospuntosqueformanelcluster,es
decir,elpuntoquetienecomocoordenadaslasmediasdelosvaloresdelasvariablesparasus
[Link],lascoordenadasdelclusterAson: A [(1 + 2) / 2 , (1 + 1) / 2] A(1,5 , 1) .

Latabladedatoses:

cluster
A(12)
3
4
5

v1
1,5
4
7
5

v2
1
5
7
7

Apartirdelanuevatablasecalculalanuevamatrizdedistanciasentrelosclustersquehayeneste
momento:
cluster
A(1,5,1)

A(1,5,1)

3(4,5)

4 ,7 22,25

4(7,7)

8,1 66,25

3,6 13

5(5,7)

6,9 48,25

2,2 5

2= 4

3(4,5)

4(7,7)

5(5,7)

Losclustersmssimilaressonel4yel5(condistancia2),quesefusionanenunnuevocluster
B(45),cuyocentroideeselpunto(6,7).

Latabladedatoses:

cluster
A(12)
B(45)
3

SantiagodelaFuenteFernndez

v1
1,5
6
4

v2
1
7
5

11

AnlisisdeConglomerados

Sevuelvearepetirelprocedimientoconlanuevatabladedatos:
cluster
A(1,5,1)

A(1,5,1)

B(6,7)

7,5 = 56,25

3(4,5)

4 ,7 22,25

2,8 8

B(6,7)

3(4,5)

0
0

LadistanciamspequeaestentreelclusterB(45)yel3(distancia2,8),quesefusionanenun
nuevoclusterC(345),cuyocentroideser C [(4 + 7 + 5) / 3 , (5 + 7 + 7) / 3] C(5,3 , 6,3) .

Latabladedadoses:

cluster
A(12)
C(345)

v1
1,5
5,3

v2
1
6,3

Recalculandocomoanteslamatrizdelasdistancias,setiene:
cluster
A(1,5,1)

A(1,5,1)

C(5,3,63)

6,5 42,53

C(5,3,6,3)

0
0

Elprocesocompletodefusionesseresumemedianteundendograma:

Eneldendogramapareceevidentequetenemosdosclusters,denominadosAyC.
Engeneral,sisecortaeldendogramamedianteunalneahorizontal(grficosiguiente),sedetermina
elnmerodeclustersenquesedivideelconjuntodeobjetos.
SantiagodelaFuenteFernndez

12

AnlisisdeConglomerados

Seobservaqueseobtienen2clusters.
Ahorabien,sisecortacomoenlafiguradeabajo,seobtendran3clusters:

Ladecisinsobreelnmeroptimodeclustersssubjetiva,especialmentecuandoseincrementael
nmerodeobjetospuessiseseleccionanpocos,losclustersresultantessonheterogneosy
artificiales,mientrasquesiseseleccionandemasiados,lainterpretacindelosmismossueleresultar
complicada.
SantiagodelaFuenteFernndez

13

AnlisisdeConglomerados

Paratomarunadecisinsobreelnmerodeclustersse
suelenrepresentarlosdistintospasosdelalgoritmoyla
distanciaalaqueseproducelafusin.
Enlosprimerospasoselsaltoenlasdistanciases
pequeo,mientrasqueenlosltimoselsaltoentrepasos
[Link]
comienzanaproducirsesaltosbruscos.
Elsaltobruscoseproduceentrelospasos3y4elpunto
ptimoserel3,endondehaba2clusters.

Algunasvecessepresentaeldendogramayelgrficodeevolucindelasfusiones:

ALGORITMOSPARAELANLISISDECLUSTER:
DISTINTASFORMASDEMEDIRLADISTANCIAENTRECLUSTERS

Existendiversasformasdemedirladistanciaentreclustersqueproducendiferentesagrupacionesy
[Link]
decisinesnormalmentesubjetivaydependedelmtodoquemejorreflejelospropsitosdecada
estudioparticular.
Enprimerolugar,secomienzaconunaexposicingeneraldelosmtodosparacontinuarcon
expresionesparticularesdelosmismos:
) SidosobjetosogruposAyBsehanagrupado,ladistanciadegruposconotroobjetoCpuede
calcularsecomounafuncindelasdistanciasentrelostresobjetosogruposdelasiguiente
forma:

d(C , A + B) = 1 d(C , A) + 2 d(C , B) + 3 d(A , B) + 4 d(C , A) d(C , B)


donde i cons tantes ponderaci n .
Enlatablasiguientesemuestranlospesosparaalgunosdelosmtodosmscomunes.

SantiagodelaFuenteFernndez

14

AnlisisdeConglomerados

Mtodo
Saltomnimo
Saltomximo
Media
Centroide
Mediana
Ward
MtodoFlexible

1
1
2
1
2
nA
nA + nB
nA
nA + nB
1
2
nC + n A
nC + nA + nB
1
2

2
1
2
1
2
nB
nA + nB
nB
nA + nB
1
2

4
1

2
1
2

0
0
0

n C + nB
nC + n A + nB

nA nB
(nA + nB ) 2
1

0
0

nC
nC + n A + nB

1
2

donde nC , n A , nB denotanelnmerodeobjetosencadaunodelosgruposy esunvalorarbitrario

0<<1

MTODODELAMEDIA(AVERAGELINKAGE)

Enelmtododelamedia,ladistanciaentreclusterssecalculacomoladistanciamediaentrepares
deobservaciones,unadecadacluster.

1
2

1
2

d(C , A + B) = d(C , A) + d(C , B)


Sealamatrizdedistancias:
objetos
1
2
3
4
5

0
1
5
8,5
7,2

0
4 ,5
7,8
6,7

0
3,6
2,2

0
2

Despusdeagruparelobjeto1y2enelclusterA(12).
SecalculanlasdistanciasdeAa(3,4y5)
objetos
3
4
5

5
8,5
7,2

4 ,5
7,8
6,7

(5 + 4 ,5) / 2 = 4 ,75
(8,5 + 7,8) / 2 = 8,15
(7,2 + 6,7) / 2 = 6,95

distancia
4,75
8,15
6,95

Lamatrizdelasdistanciasesentonces:
SantiagodelaFuenteFernndez

15

AnlisisdeConglomerados

objetos
A(12)
3
4
5

A(12)

0
3,6
2,2

0
4,75
8,15
6,95

Denuevo,ladistanciamspequeaesentre4y5,porloquesefusionanenunclusterB(45).
SecalculanlasdistanciasentreByelresto(Ay3):
objetos
A
3

4
8,15
3,6

5
6,95
2,2

(8,15 + 6,95) / 2 = 7,55


(3,6 + 2,2) / 2 = 2,9

distancia
7,75
2,9

Lamatrizdelasdistanciases:
objetos
A(12)
B(45)
3

A(12)

B(45)

0
7,55
4,75

0
2,9

Elvalormspequeoes2,9,luegosefusionanBcon3formandoelclusterC(345).
SecalculaladistanciaentreCyA:
objetos
A(12)

3
4,75

4
8,15

5
6,95

(4 ,75 + 8,15 + 6,95) / 3 = 6,62

distancia
6,62

Lamatrizdelasdistanciases:
objetos
A
C

A
0
6,62

C
0

[Link]:

Enelprocesosehanutilizadonicamentelasdistancias,deformaqueparaesteprocedimientono
esnecesariodisponerdelosvaloresoriginalesdelasvariables.
Elmtododelasmediasproporcionaclustersnidemasiadograndesnipequeos,tendiendoa
fusionarclustersconvarianzaspequeasyaproporcionarclustersconlamismavarianza.

SantiagodelaFuenteFernndez

16

AnlisisdeConglomerados

MTODODELVECINOMSPRXIMO(AVERAGELINKAGE)

Enelmtododelvecinomsprximoladistanciaentredosclusterseselmnimodelasdistancias
entreunobjetodeunclusteryunobjetodelotro.

d(C, A + B) = mn [d(C, A),d(C , B)]


Sealamatrizdedistancias:
objetos
1
2
3
4
5

0
1
5
8,5
7,2

0
4 ,5
7,8
6,7

0
3,6
2,2

Ladistanciamspequeaes1,entre1y2,quesefusionanenelclusterA(12).
SecalculanlasdistanciasdeAa(3,4,5):
objetos
3
4
5

5
8,5
7,2

4 ,5
7,8
6,7

distancia
4,5
7,8
6,7

mn(5, 4 ,5) = 4 ,5
mn(8,5, 7,8) = 7,8
mn(7,2, 6,7) = 6,7

Lamatrizdelasdistanciasesentonces:
objetos
A(12)
3
4
5

A(12)

0
3,6
2,2

0
4,5
7,8
6,7

Denuevo,ladistanciamspequeaes2,entre4y5,porloquesefusionanenunclusterB(45).
SecalculanlasdistanciasentreByelresto(Ay3):
objetos
A
3

4
7,8
3,6

5
6,7
2,2

mn(7,8, 6,7) = 6,7


mn(3,6, 2,2) = 2,2

distancia
6,7
2,2

Lamatrizdelasdistanciases:
objetos
A(12)
B(45)
3

A(12)

B(45)

0
6,7
4,5

0
2,2

Elvalormspequeoes2,2,luegosefusionanBcon3formandoelclusterC(3B).
SantiagodelaFuenteFernndez

17

AnlisisdeConglomerados

SecalculaladistanciaentreCyA:
objetos
A(12)

3
4,5

B(45)
6,7

mn(4 ,5, 6,7) = 4 ,5

distancia
4,5

Lamatrizdelasdistanciases:
objetos
A
C

A
0
4,5

C
0

[Link]:

[Link]
tilparadetectaroutliers(estarnenlosltimosenunirsealajerarqua).Noestilpararesumir
datos.

MTODODELVECINOMSLEJANO(COMPLETELINKAGE)

Enelmtododelvecinomslejanoladistanciaentredosclusterseselmximodelasdistancias
entreunobjetodeunclusteryunobjetodelotro.

d(C, A + B) = mx [d(C, A),d(C, B)]


Sealamatrizdedistancias:
objetos
1
2
3
4
5

0
1
5
8,5
7,2

0
4 ,5
7,8
6,7

0
3,6
2,2

0
2

Ladistanciamspequeaes1,entre1y2,quesefusionanenelclusterA(12).
SecalculanlasdistanciasdeAa(3,4,5):
objetos
3
4
5

5
8,5
7,2

4 ,5
7,8
6,7

SantiagodelaFuenteFernndez

mx (5, 4 ,5) = 5
mx (8,5, 7,8) = 8,5
mx (7,2, 6,7) = 7,2

distancia
5
8,5
7,2

18

AnlisisdeConglomerados

Lamatrizdelasdistanciasesentonces:
objetos
A(12)
3
4
5

A(12)

0
3,6
2,2

0
5
8,5
7,2

Denuevo,ladistanciamspequeaes2,entre4y5,porloquesefusionanenunclusterB(45).
SecalculanlasdistanciasentreByelresto(Ay3):
objetos
A
3

4
8,5
3,6

5
7,2
2,2

mx (8,5, 7,2) = 8,5


mx (3,6, 2,2) = 3,6

distancia
8,5
3,6

Lamatrizdelasdistanciases:
objetos
A(12)
B(45)
3

A(12)

B(45)

0
0

8,5
5

3,6

Elvalormspequeoes3,6,luegosefusionanBcon3formandoelclusterC(3B).
SecalculaladistanciaentreCyA:
objetos
A(12)

3
5

B(45)
8,5

mn(8,5, 5) = 8,5

distancia
8,5

Lamatrizdelasdistanciases:
objetos
A
C

A
0
8,5

C
0

[Link]:

[Link]
paradetectaroutliers.

SantiagodelaFuenteFernndez

19

AnlisisdeConglomerados

ANLISISDECONGLOMERADOSJERRQUICOENSPSS
REQUISITOS Despusdedescribirlasvariables,secomienzaconunprimeranlisisdelainformacin
paraeliminarlainfluenciadecasosatpicos(Analizar/Estadsticosdescriptivos/Descriptivos),
observadosenGrficodeCaja(Analizar/Estadsticosdescriptivos/Explorar).
Dossolucionespermitensolventarelproblemadeloscasosatpicos:
(a) Cambiarlosdatosinicialesdelejemplopordatospromedio(porejemplo,nmerodesalasde
cinepormilhabitantes).
(b) Realizartransformacionesdeladistribucindedatos(enespecialcuandohayimposibilidadde
disponerdedatospromedio,obiencuandosehainvertidounagrancantidaddedineroen
conseguirlosdatosyespocofactibleotrarecogidadedatos),utilizandolaescalerade
transformacionesdeTukey.
) Laasimetrapositivasepuedecorregirseconracescuadradasylogaritmosnaturales
cuandotienenvaloresbajos,yconfuncionesinversasoinversoscuadrticoscuandolosvalores
[Link]:larazcuadrada,latransformacinlogartmica,yel
negativodelinversodelarazcuadrada.
) Laasimetranegativasecorrigemedianteantilogaritmoscuandoesmuyelevada,ycon
elevacionescbicasycuadrticascuandoesmssuave.

PararealizarestastransformacionesenSPSS
[Transformar/Calcularvariable]

Traseliminarlainfluenciadeloscasosatpicos,antesdeprocederalAnlisisClusteres
necesariocomprobarhastaqupuntolosdatoscumplenlossupuestosdelanlisisdeclasificacin.
Sabemosqueesteanlisisestudialascaractersticasestructuralesdeunconjuntodeobservaciones
conelfindeagruparlasenconjuntoshomogneos,demodoquealnoserpropiamenteunatcnica
deinferenciaestadsticaapenastienenimportancialasexigenciasdenormalidad,linealidady
homocedasticidadtanimportantesenprocedimientosdeinferencia.
Sinembargo,unacorrectaaplicacindelAnlisisClusterrequierequelosdatoscumplantres
condicionesbsicas:
(a) Ausenciadecorrelacinentrelasvariables.
(b) Nmerodevariablesnomuyelevado.
(c) Quelasvariablesnoestnmedidasenunidadesdiferentes.
SantiagodelaFuenteFernndez

20

AnlisisdeConglomerados

(a)Laexistenciadecorrelacin(Analizar/Correlaciones/Bivariadas)entrelasvariablesimplicaque
unasvariablessoncombinacioneslinealesdeotras,quecomparteninformacinconotrasvariables;
loqueimplicaqueestainformacincompartidatieneunamayorimportancia(ponderacin).
Adems,cuandolasvariablesestncorrelacionadassecorreelpeligrodeincluirinformacin
redundanteenelmodelo,algoquesedebeevitar(principiodeparsimonia).
Porestemotivoesimportantequeelinvestigadoranalicecuidadosamentelamatrizdecorrelaciones
antesdellevaracaboelAnlisisCluster,colocandounmismonmerodevariablesdecadatemtica
outilizandounamedida(comoladistanciadeMahalanobis)[Link]
noexistecorrelacinentrevariablesestadistanciaessimilaraladistanciaeucldea.
Otrasolucinposible,cuandolasvariablesestncorrelacionadas,esaplicarunAnlisisFactorialque
reduzcatodoelconjuntodevariablesobservadasaunnmeromenordefactorescomunes
[Link]
variablesutilizadasesmuyelevado.
(c)Elrequisitodequelasvariablesnoestnmedidasenunidadesdiferentessesolucionamediante
laestandarizacin(otipificacin)[Link]
tipificacindebedeserunprocedimientoautilizarentodoanlisisdeconglomerados.
EntrelosautoresquenodefiendenelprocesodeestandarizacinEveritt(1993),Edelborck(1979)
sesostienetresposiblessolucionesparasolucionarelproblemadetenervariablescondistinta
unidad:(1)Recategorizartodaslasvariablesenvariablesbinarias,yaplicarastasunadistancia
apropiadaparaesetipodemedidas.(2)Realizardistintosanlisisdeclustercongruposdevariables
homogneas(encuantoasumtrica),ysintetizardespuslosdiferentesresultados.(3)Utilizarla
distanciadeGower,queesaplicableconcualquiertipodemtrica.
Pesealafaltadeacuerdoycantidaddealternativasquesurgenanteesteproblema,lamayorade
losexpertosaconsejanrealizarelanlisisconvariablesestandarizadas.

SantiagodelaFuenteFernndez

21

AnlisisdeConglomerados

[Link]
identificargruposhomogneosdecasosconsiderandounaseriedecriterios.
Losmtodosjerrquicossecaracterizanporquecomienzanconcasosindividualesquevansiendo
clasificadoshastaformarunnicoconglomerado.
[Link]
Autnomas,datosINEde1998.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

CCAA

NCines

NPelculas

Andaluca
Aragn
Asturias
Baleares
Canarias
Cantabra
[Link]
[Link]
Catalua
Valencia
Extremadura
Galicia
Madrid
Murcia
Navarra
PasVasco
LaRioja

448
76
55
68
94
26
211
102
585
300
69
166
474
88
37
171
22
2992

330
310
383
523
394
315
295
234
502
435
309
341
764
358
441
385
309
6.628

Nespectadores
Pelculas
Pelculas
Espaolas
Extranjeras
1380202
13976149
580526
3513294
207100
1524423
280851
2081987
345213
4056725
190540
1149257
1049698
5319556
404716
2406798
2179229
19324988
1267581
9849692
226139
1614986
570921
4465381
3188742
1926469
326445
2669391
245750
1403940
730241
5277214
120135
769674
13.294.029 81.329.924

Recaudacin
(milespesetas)
7709721
2370874
1000709
1496299
2288764
847231
3464668
1490303
14234196
6061359
912405
2680531
15282573
1647870
981839
3673712
526496
66.669.550

LoscasosaagruparsonlasComunidadesAutnomas(CCAA)yloscriteriospararealizaresta
agrupacinestnrelacionadosconlaactividaddeloscinesdurante1998.
Laactividadserefiere:alnmerodecines,nmerodepelculasproyectadas(ttulos),nmerode
espectadoresdepelculasespaolas,nmerodeespectadoresdepelculasextranjerasyrecaudacin
obtenidaenmilesdepesetas.
[Link]
Elanlisiscomienzaconunaprimeradescripcindelfenmenoainvestigar.

SantiagodelaFuenteFernndez

22

AnlisisdeConglomerados

Elanlisisreflejaqueelnmerodecinesoscilaentre22delaRiojay585cinesdeCatalua,que
[Link]
proyectaronunamediade390nuevaspelculas(ttulos),quefueronvistaspor94.623.953
(13.294.029+81.329.924) [Link]
extranjerasesmuysuperioraldepelculasespaolas;enestesentido,lacuotadepantalladelcine
espaolesdel14%(13.294.029/94.623.953).Deotraparte,los66.669.550milesdepesetas
recaudados,proporcionaungastomediode705pesetas.
Considerarlosnmerosabsolutos(totaldecines,depelculas,deespectadoresyderecaudacin)en
lugardelosnmerospromedioporhabitantegeneraquelasComunidadesconmshabitantes
tenganunmayorequipamiento,proyectenmsttulos,recibanmsespectadoresyconsiganmayor
[Link]
analizadas(Analizar/Estadsticosdescriptivos/Explorar).

SantiagodelaFuenteFernndez

23

AnlisisdeConglomerados

Enelgrficoseobservacomoelnmerodecinespresentatrescasosatpicosidentificadosconlos
nmeros1(Andaluca),9(Catalua)y13(Madrid),quesonlasComunidadesconmayornmerode
[Link],tambinsepresentauncasoatpicoenelnmerodettulosestrenados,
identificadoconel13(Madrid).
Deotraparte,respectoalnmerodeespectadoresylarecaudacinobtenida,sereflejandenuevo
casosatpicosenlosnmeros1,9y13.

Lalocalizacindeloscasosatpicosenlapartesuperiordeladistribucinindicaquesetratade
distribucionesconasimetrapositiva(comosereflejaenlatabladeEstadsticosdescriptivos),
distribucionesquesernecesariosimetrizarantesdeaplicarelAnlisisCluster.

SantiagodelaFuenteFernndez

24

AnlisisdeConglomerados

Considerandolaescaleradelas
transformacionesdeTukey,laasimetra
positivasecorrigesustituyendolosdatos
recogidosporsurazcuadradaosulogaritmo,
enelcasodequelastransformaciones
proporcionenresultadosmuysimilaresseopta
porlamenospotente.
Enestecasoseoptaporrealizaruna
transformacinrazcuadradaalasvariablescon
[Link],lasnuevas
variablestransformadassedenominanconel
mismonombreterminandoenR.
Trasdescribirlasvariablesyeliminarlainfluenciadeloscasosatpicos,antesdeprocederconel
AnlisisClusteresnecesariocomprobarhastaqupuntolosdatoscumplenconlossupuestosdel
[Link]
requisitosbsicos:(a)Ausenciadecorrelacinentrelasvariables.(b)Nmerodevariablesnomuy
elevado.(c)Quelasvariablesnoseencuentrenmedidasenunidadesdiferentes.
(a)Silasvariablesseencuentrancorreladassecorreelpeligrodeincluirinformacinredundanteque
[Link]
[Link]
(distanciadeMahalanobis)[Link]
variablesestadistanciaessimilaraladistanciaeucldea.
Paraanalizarlaexistenciadecorrelacin(Analizar/Correlaciones/Bivariadas):

SedetectaunaelevadarelacindelavariableRecaudacinconelrestodelasvariablesdelmodelo,
relacionessignificativasal0,[Link],enlugarde
lavariableRecaudacinseutilizalavariableGastomedioporespectador.
(d) Lamtricadelasvariablessesolucionaestandarizando(otipificando)todaslasunidadesatratar.
[Analizar/Estadsticosdescriptivos/Descriptivos]
Lasvariablesguardadasestandarizadas
comienzanconlaletraZ:
ZCinesR,ZPeliculasR,ZPelis_EspaaR,
ZPelis_ExtranR,ZGasto_medio

SantiagodelaFuenteFernndez

25

AnlisisdeConglomerados

[Link]
LasComunidadesAutnomasespaolassernclasificadasconsiderandoelnmerodecines
(ZCinesR),elnmerodepelculasproyectadas(ZPeliculasR),elnmerodeespectadoresdepelculas
espaolas(ZPelis_EspaaR),elnmerodeespectadoresdepelculasextranjeras(ZPelis_ExtranR)yel
gastomedioporespectador(ZGasto_medio).

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

CCAA
Andaluca
Aragn
Asturias
Baleares
Canarias
Cantabra
[Link]
[Link]
Catalua
Valencia
Extremadura
Galicia
Madrid
Murcia
Navarra
PasVasco
LaRioja

ZCinesR
1,5409
0,5340
0,7510
0,6126
0,3711
1,1372
0,4341
0,3037
2,0444
0,8999
0,6025
0,1604
1,6418
0,4235
0,9732
0,1925
1,2053

ZPeliculasR
0,4846
0,6803
0,0071
1,1620
0,1048
0,6308
0,8313
1,4890
0,9996
0,4575
0,6903
0,3795
2,8325
0,2203
0,5076
0,0250
0,6903

ZPelis_EspaaR
0,9484
0,0792
0,8428
0,6565
0,5132
0,8890
0,5744
0,3922
1,6984
0,8265
0,7919
0,0950
2,4686
0,5535
0,7417
0,1513
1,1128

ZPelis_ExtranR
1,8129
0,1008
0,7576
0,5438
0,0427
0,9245
0,3427
0,4324
2,4879
1,1969
0,7205
0,1443
0,6002
0,3478
0,8087
0,3333
1,1244

ZGasto_medio
1,7626
0,2651
0,6904
0,5767
0,2096
0,7609
0,1446
0,4959
2,8694
0,9994
0,6706
0,0954
0,0812
0,4627
0,7051
0,0795
0,8419

ParaefectuarunAnlisisClusterutilizandoSPSSseentraenAnalizar/Clasificar/

Haytresopcionesposibles:Conglomeradoendosfases/Conglomeradodekmedias/Conglomerados
jerrquicos.

SantiagodelaFuenteFernndez

26

AnlisisdeConglomerados

CONGLOMERADOENDOSFASES:Estpensadoparaanlisisconunnmerograndede
individuos,quepuedentenerproblemasdeclasificacinconotrosprocedimientos.
Tienelaparticularidadquepermitetrabajarconjuntamenteconvariablesdetipomixto
(cualitativasycuantitativas).
Puederealizarsecuandoelnmerodecluster(conglomerado)esconocidoaprioriy
tambincuandonoseconoce.

CONGLOMERADOSNOJERRQUICOS:Sepuedeaplicarsloavariablescuantitativasyrequiere
conocerelnmerodeconglomeradosapriori.
Puederealizarseparaunnmerodeobjetosrelativamentegrandepuesnorequiereelclculo
detodaslasposiblesdistancias.
CONGLOMERADOSJERRQUICOS:Seutilizaparavariablescuantitativasocualitativas.
Noseconoceelnmerodeconglomeradosaprioriycuandoelnmerodeobjetosnoesmuy
grande.
) SeoptaporConglomeradosjerrquicos

SecomienzapulsandoelbotnMtodoquees
elmsimportante,puestoquepermite
seleccionarelprocesodeagrupamiento,la
distanciaautilizar,yeltipodetransformacina
llevaracaboenelcasoqueseprecisealguna.

Elprocesocomienzaconlaeleccindela
distanciaaconsiderar,puestoqueelmtodode
agrupamientoserealizasobreestamatrizde
distancias.
Porello,losprimeroqueserealizaesmedirqu
gradodesimilitudodediferenciatienenloscasos
seleccionados.
Laeleccindelamedidadedistanciavaraen
funcindelamtricadelasvariablesutilizadas.

CLASIFICACINDELASPRINCIPALESMEDIDASDEDISTANCIA:

Jaccard
Rusel y Rao
Chi cuadrado

Variables Discretas
Datos Binarios
Phi cuadrado
Sokal y Sneath
Rogers y Tanimoto
SantiagodelaFuenteFernndez

27

AnlisisdeConglomerados

Distancia eucldea
Distancia eucldea al cuadrado

Coseno de vectores

Variables Continuas Correlacin de Pearson (asociacin)


Distancia mtrica de Chebynev

Bloque , Manhattan o City block


Distancia de Minkowski

Determinadalamedidadedistancia(Distanciaeucldeaalcuadrado)seprocedeaelegirelmtodo
deagrupamiento:

Vinculacinintergrupos
Vinculacinintragrupos
Vecinomsprximo
Vecinomslejano
Agrupacindecentroides
Agrupacindemedianas
MtododeWard

Vinculacinintergrupos(promedioentregrupos):Ladistanciaentrelosgruposeslamedia
aritmticadelasdistanciasexistentesentretodosloscomponentesdecadagrupo,consideradosdos
[Link].
Vinculacinintragrupos(promediointragruposomediaponderada):Esunavariantedelanterior,
aunqueenestecasosecombinanlosgruposbuscandoqueladistanciapromediodentrodecada
[Link]
pertenecenacadaunodelosgrupos,seconsiderantodoslosparesresultantesencasodequelos
dosgruposseuniesen.
Vecinomsprximo(distanciasmnimas):Agrupaaloscasosqueseencuentranamenordistancia.
Unidosdoscasos,acontinuacinseformaeltercerconglomeradobuscandoladistanciamscorta
[Link]
loscasosmscercanos,altiempoqueesmuysensiblealapresenciadecasosextremos.
Vecinomslejano(distanciasmximas):Similaralvecinomsprximo,aunqueaquseprocedea
unirloscasosqueseencuentranamayordistancia,siendounmtodomsrestrictivoqueel
[Link],aunquetambinesmuysensiblealapresenciadecasosextremos.
Agrupacindecentroides:Ladistanciaentredosgruposesladistanciaexistenteentresuscentrosde
gravedad(centroides).Elprocesocomienzacalculandoelcentrodegravedaddecadaconglomerado,
[Link]
[Link]
procedimientosereducelainfluenciadecasosextremos.
SantiagodelaFuenteFernndez

28

AnlisisdeConglomerados

Agrupacindemedianas:Esunavariacindelaagrupacindecentroides,dondenoseconsiderael
[Link]
elcentroideenfuncindelnmerodeindividuosdecadaconglomerado,demodoquecuandose
uneungranconglomerado(porejemplo10casos)conotromuypequeo(porejemplo2casos),este
[Link]
nmerodeelementosdecadaconglomerado,sinoelnmerodeconglomerados.
MtododeWard(omtododeprdidadelainerciamnima):Cuandoseunendosconglomerados,
conindependenciadelmtodoutilizado,[Link]
[Link],enprimerlugar,lamedia
[Link],secalculaladistanciaentrecadacaso
ylamediadelconglomerado,[Link]
seagrupanlosconglomeradosquegeneranmenosaumentosenlasumadelasdistanciasdentrode
[Link].

Sealarlanecesidaddeestandarizalasvariables
[Link]
laparteinferiordelcuadrodedilogoaparece
unacmodaopcinparaefectuarestatarea,
realizandounatransformacindelosvalores
antesdeprocederconelclculodelasdistancias.
Enestecaso,seseleccionaNingunoporqueyase
hanestandarizadolosdatosutilizandolaopcin
Guardarvalorestipificadosaplicandolaopcin
Analizar/Estadsticosdescriptivos/Descriptivos

Porltimo,existelaposibilidaddetransformarlasmedidasdedistancia,pudiendoelegirentre:
Valoresabsolutos:Consideraelvalorabsolutodeladistancia,[Link]
cuandointeresalamagnituddeladistanciaynosusigno.
Cambiarelsigno:Transformamedidasdedistanciaenmedidasdesimilitud,yviceversa.
Cambiarescalaalrango01:estandarizalosvaloresrestandoelvalordeladistanciamenory
dividiendodespusentreelrango,consiguiendodeestaformaconvertirtodaslasmedidasal
rango01.

ElbotnEstadsticosfacilitaelcuadrodedilogo
adjunto.

SantiagodelaFuenteFernndez

29

AnlisisdeConglomerados

Historialdeconglomeracin:Presentaelprocesodeelaboracindelosagrupamientos,
mostrandoloscasos(ovariables)combinadosencadaetapayladistanciaentrecadauno.

Matrizdedistancias:Proporcionalasdistanciasosimilaridadesentreloscasos(ovariables).

Conglomeradodepertenencia:[Link]
investigadorpuedeseleccionarunasolucinnica,ounrangodesolucionesparaconocercmo
[Link]
ejemplosehaoptadoporlasegundaopcin,buscandoconocerelconglomeradode
pertenenciadecadaComunidadAutnomacuandosesolicitan3,4y5grupos.

ElbotnGrficospermiteelegirentredostipos:
Dendograma:Grficodondesemuestraelprocesode
agrupamientoentreloscasosyladistanciaenquese
[Link]
delhistorialdeconglomeracinvistoenlaopcin
estadsticos,yproporcionainformacinmuyvaliosasobre
elnmerofinaldeconglomeradosaconservar.

Tmpanos:Presentaundiagramadetmpanosdondesemuestraelprocesodecombinacindelos
[Link]
determinadorango.

ConlaopcinGuardarsecreanlasnuevas
variablesCLUS3_1,CLUS4_1yCLUS5_1.

EnelVisordeSPSScomienzaproporcionandolamatrizdedistanciasentrelasComunidades
Autnomas,calculandolas

n(n 1)
medidasdeproximidadentrelos(n)casostomadosdedosen
2

[Link],elanlisisdelas17ComunidadesAutnomasproporciona136medidasde
distancia

17(17 1)
= 136
2

Enlatablasiguientesemuestranloscoeficienteselaboradosutilizandoladistanciaeucldeaal
cuadrado(sumadelasdiferenciasalcuadradoentredoselementosdeunavariable).Considerando
laspuntuacionestransformadasestandarizadasmostradasalprincipiodelAnlisisdeCluster,la
distanciade13,173entreAndalucayAragnseobtienedelaexpresin:

D2 = [1,5409 (0,5340)] 2 + [ 0,4846 (0,0,6803)] 2 + [0,9484 (0,0792)] 2 +


+ [1,8129 (0,1008)] 2 + [1,7626 (0,2651)] 2 = 13,173

SantiagodelaFuenteFernndez

30

AnlisisdeConglomerados

LoscoeficientesdelamatrizdedistanciasindicanladistanciaentrelasComunidadesAutnomas
considerandolasvariablesdelanlisis,demodoquecuantomayorseaelcoeficienteentredos
Comunidadesexistirmayordistanciaentreellas,yenconsecuenciasernmsdiferentes.
Unanlisisdetalladodeloscoeficientesdelatablarevelaunagransimilitudenlaactividaddelos
cinesdeCantabrayLaRioja(conunadistanciade0,105).OtrasComunidadesconpautasparecidas
sonGaliciayPasVasco(conunadistanciade0,292).LasComunidadesmsdiferentesencuantoala
actividadcinematogrficasonCataluayCantabra(conunadistanciade44,3).
Convieneretenerestainformacinpararealizarunseguimientodelprocesodeformacindelos
agrupamientos,conlaayudadelHistorialdeAglomeracin,ascomosurepresentacingrfica
(Dendograma).ResaltarquelasComunidadesmssimilaressonCantabria(nmero6)yLaRioja
(nmero17),yporestosonlasprimerasqueseunenenelHistorialdeAglomeracin.

SantiagodelaFuenteFernndez

31

AnlisisdeConglomerados

SeobservaqueCantabria(6)yLaRioja(17)sonlasprimerasComunidadesqueseunenenel
[Link](Prximaetapa)sedesprendequeesteprimer
agrupamientovolveraserutilizadoenlaetapa5.

Unavezrealizadoelprimerconglomerado,elprogramavuelvearecalcularunanuevamatrizde
distanciasentrelos16elementosrestantes,esdecirlos15elementosylaagrupacin
(CantabriaLaRioja).Esteprimerclustervolveraserutilizadoenlaetapa5.

EnlasegundaetapaseefectaunagrupamientoconlasComunidades12y16(Galicia,Pas
Vasco),aunadistanciade0,[Link](cluster)volveraserutilizadoen
laetapa7.

EnlaterceraetapaseunenlasComunidadesdeAsturias(3)yNavarra(15),aunadistanciade
0,355,estetercerclustervolveraserutilizadoenlaetapa8.

EnlacuartaetapaseproducelaunindeCanarias(5)yMurcia(14),aunadistanciade0,518,
clusterquevolveraserutilizadoenlaetapa6.

EnlanovenaetapaseproducelaunindeAndaluca(1)yValencia(10),aunadistanciade
3,586,clusterquevolveraserutilizadoenlaetapa13.

HastaahorasehatratadodeagrupamientossimplesformadospordosComunidades,peroes

posibletambinformarclustersconlaunindeagrupamientosanteriores.
-

Estoseproduceporprimeravezenlaetapa5,dondeelconglomerado6(Cantabria)quese
unial17(LaRioja)enlaprimeraetapaseunealconglomerado11(Extremadura).Demodo
queenestemomentoseproduceunagrupamientoentre(CantabriaLaRiojaExtremadura),a
unadistancia0,836,clusterquevolveraserutilizadoenlaetapa12.

SantiagodelaFuenteFernndez

32

AnlisisdeConglomerados

Enlaetapa6seunenlosconglomerados2(Aragn)y5(queseunial14enlacuartaetapa),
produciendoelagrupamiento(AragnCanariasMurcia),aunadistanciade1,250,cluster
queserutilizadodenuevoenlaetapa10.

Enlaetapa7seunenlosconglomerados7(CastillaLaMancha)y12(queseunial16enla
segundaetapa),produciendoelagrupamientoCastillaLaManchaGaliciaPasVasco,auna
distancia1,801,clusterquevolveraserutilizadoenlaetapa11.

Enlaetapa8seunenlosconglomerados3(Asturias)queseunialconglomerado15(Navarra)
enlaterceraetapay4(Baleares),produciendoelagrupamientoAsturiasNavarraBaleares,
aunadistancia2,448,clusterquevolveraserutilizadoenlaetapa12.

QUINTAYSEXTACOLUMNA:Parafacilitarlainterpretacin,elprogramaayudaarecordarestos
aspectosutilizandodoscolumnasdondeseindicalaetapaenlaqueelconglomeradohaaparecido
porprimeravez(5y6columna).
# Enlaetapa5conlaquintacolumna(Conglomerado1)apareceun1queindicaqueelprimer
conglomeradoqueseune,enestecasoel6,[Link]
(Conglomerado2)seindicaqueelsegundoconglomerado,enestecasoel0,noseutiliztodava.
# Enlaetapa6conlaquintacolumna(Conglomerado1)apareceun0queindicaqueelprimer
[Link](Conglomerado2)apareceun4queindica
queelsegundoconglomeradoqueseune,enestecasoel5,yaseutilizenlacuartaetapa.
DENDOGRAMA:Lalecturaserealizadeizquierdaaderecha,yensuinterioraparecenlneas
horizontalesyverticales,utilizandoestasltimasparaindicarelpuntodeuninentredos
[Link]
indicaladistanciadondesehanrealizadolaunindedosgrupos,demodoquecuantomsala
derechaseproduzcaunaagrupacinexistirmsdiferenciaentreloscasos,formandogruposms
heterogneos.
Enlaregladelapartesuperiormuestraladistanciaentrelosagrupamientos,sibiensehacambiado
la'escala'delasdistanciasaunosvaloresqueoscilanentre0y25,mientrasquelaamplituddelas
distanciasdelHistorialdeConglomeracinoscilaentre0,[Link],laamplituddelas
distancias(0,5280)secalculaparaadoptarlaalaescala(025)bastaconmultiplicarcada
amplitudpor0,[Link],enladistancia3(9,388)seproduceelprimergran
incrementoenlasdistanciasparaunirse(AsturiasNavarraBaleares)con(CantabriaLaRioja
Extremadura).Enladistancia4(13,084)seunen(AndalucaValencia)[Link]
6,25(20,201)seunen(CanariasMurciaAragnCastilla_LenGaliciaPasVascoCastilla_La
Mancha)con(CantabraLaRiojaExtremaduraAsturiasNavarraBaleares).Estegran
aumentoconduceadetenerelprocesodeagrupamientoenladistancia67.

SantiagodelaFuenteFernndez

33

AnlisisdeConglomerados

ElobjetivoesagruparlasComunidadesconsiderandolaactividaddelassalasdecine,peronose
puedereducirtodasaunsologrupo,demodoqueserprecisodetenerelprocesodeagrupamiento
enunpuntodeterminado.
Considerandoquedistanciaspequeasindicanconglomeradoshomogneosyquegrandes
distanciasdefinenconglomeradosheterogneos,esconvenientedetenerelprocesodeunin
cuandolaslneashorizontalesseanmuylargas.
Deteniendoelprocesoenladistancia15seobtendrandosconglomerados:unocon16
conglomeradosyotrocon1conglomerado;siseeligeladistancia7seformantresconglomerados;
mientrasquealhacerloconladistancia4seformarancuatroconglomerados.

TraselDENDOGRAMAelprogramaofrecela
composicindecadaunodelosconglomerados,
presentandoelrangodesolucionessolicitadoenel
cuadrodeEstadsticos,quemuestratres,cuatroy
cincoconglomerados.
Segnloexpuesto,lasolucinptimaeslaque
presentatresconglomerados.

SantiagodelaFuenteFernndez

34

AnlisisdeConglomerados

Setienelaclasificacinsiguiente:
Conglomerado1:Andaluca,Catalua,Valencia.
Conglomerado2:Aragn,Asturias,Baleares,
Canarias,Cantabra,Castilla_LaMancha,
Castilla_Len,Extremadura,Galicia,Murcia,
Navarra,PasVasco,LaRioja.
Conglomerado3:Madrid.

[Link]
Elobjetivoesanalizarlosvaloresdelnmerodesalasdecine,nmerodepelculasproyectadas,etc,
enlostresconglomerados,yasdeterminarlasdiferenciasenlaspautascinematogrficasencada
unodelosagrupamientosdelasComunidadesAutnomas.

Paraelloseutilizalanuevavariabledondeserecoge
elconglomeradodepertenenciaacadaComunidad,
variableCLU3_1creadaenlaopcinGuardardel
AnlisisdeConglomerados.

Comosetratadevariablesmedidasaniveldeintervalosedebeutilizarelprocedimientoexplorar
conlavariableCLU3_1comofactor,olacomparacindemedias.
Analizar/Compararmedias/Medias
Enelcuadrodedilogodelacomparacindemedias,lasvariablesCines,Pelculas,Pelis_Espaa,
Pelis_ExtranyRecaudacinsecolocanenlaventanadeDependientes,ylavariableCLU3_1en
Independientes.

SantiagodelaFuenteFernndez

35

AnlisisdeConglomerados

ElbotnOpcionespermiteelegirlosestadsticosunivariantes,
aunqueenestecasosedejan:media,desviacintpica,mnimo,
mximo,nmerodecasosyporcentajedelasumatotal.

# Elprimerconglomerado,formadoportresComunidadesAutnomas,presentaunacuotade
pantalladepelculasespaolas(pelculasespaolas/totaldeespectadores)del10%.Elgastomedio
porespectadoresde584pesetas.
# Elsegundoconglomerado,formadoportreceComunidadesAutnomas,destacaporelpequeo
nmerodesalasdecine(pordebajodelamedianacional),siendolaquemenospelculasestrena,
SantiagodelaFuenteFernndez

36

AnlisisdeConglomerados

presentaunacuotadepantalladepelculasespaolas(pelculasespaolas/totaldeespectadores)
del12,7%.Elgastomedioporespectadoresde563pesetas,elmsbajodetodoslos
conglomerados.
# Eltercerconglomerado,formadoporunaComunidadAutnoma,presentaunacuotadepantalla
depelculasespaolas(pelculasespaolas/totaldeespectadores)del6,2%,elmsbajodetodoslos
conglomerados.Elgastomedioporespectadoresde2988pesetas,elmsaltodelos
conglomerados.

SantiagodelaFuenteFernndez

37

AnlisisdeConglomerados

ANLISISDECONGLOMERADOSNOJERRQUICOSENSPSS
Elanlisisnojerrquico,adiferenciadelanlisisjerrquico,partedelamatrizoriginaldelas
puntuacionesynodelamatrizdeproximidades,ylosclustersresultantesnoestnanidadosunosen
otros,[Link]
quemejorseadaptanalosestudiossociolgicosydemercadoscaracterizadosporelempleodegrandes
[Link],seaconsejasuutilizacincuandosedesea,notantoanalizarla
estructurajerrquicadelosindividuos,sinoconocerelnmerodegruposconstruidosylas
caractersticasdecadauno.
Enmuchassituacionesconvienerealizarelanlisisdeconglomeradosnojerrquicoaplicando
[Link]
conseguirquelosdatoscumplanlosrequisitosimprescindiblesparautilizarelAnlisisCluster.
Estosmtodoscalculanencadaetapalasdistanciasentreloscasosyelcentroidedelosconglomerados,
adiferenciadelosmtodosjerrquicosquecalculanlasdistanciasentretodoslosparesdeobjetos.
Sntesisdelasdiferenciasentrelosclustersjerrquicosynojerrquicos:
JERRQUICO
Noexigenunadefinicinpreviadelnmero
deconglomerados.

Llevanacabounprocesoiterativo,de
abajohaciaarribacon(n1)pasos,
partiendodengruposparaterminaren1
(aglomerativos).

NOJERRQUICO
Exigendefinirpreviamenteelnmerode
clusters.

Poseenalgunosndicesqueindicanel
nmeroptimodeconglomerados.

Permiteobtenerdistintostiposde
resultadosgrficosynumricosque
facilitanlainterpretacindelosresultados.

Proporcionanlosvaloresdeloscentroides
delosgrupos,loquefacilitala
interpretacin.

Precisanunagrancantidaddeclculos,que
enocasioneslimitalaposibilidadde
aplicacinconmuestrasmuygrandes.

Ofrecenresultadosadicionalesquepermiten
seleccionarlasvariablesparala
interpretacindelosconglomerados.

Puedenaplicarsesobreloscasosysobrelas
variables.

[Link]
solucionesdetipoptimo.

Entrelosmtodosnojerrquicos,seutilizaelKmediassinespecificarloscentrosdelosconglomerados.
Concentrosdesconocidos,elmtodoKmediascomienzaconunadivisindelconjuntodelosdatosen
(x)gruposconfiguradosalazaryposteriormentebuscamejorarestaprimeraclasificacinreasignando
loselementosalcentroidedelclustermscercano,tratandodereducirladistanciamediaentrecada
[Link]:
1. Secomienzaconunaparticininicialdelosdatosenunespecificonmerodeagrupamientos,para
[Link]
alejadosentres.
2. Elsiguientepasotratadereasignarcadacasoalagrupamientomscercano,aquelcuyadistanciaal
[Link]
medias,alformarpartedelosmtodosdereasignacin,uncasoasignadoaunconglomeradoen
unadeterminadaiteracinpuedeserreasignadoaotrocasoenunaiteracinposterior.

SantiagodelaFuenteFernndez

38

AnlisisdeConglomerados

3. Calculalosnuevoscentroidesdelosconglomeradoscadavezqueseincorporaunnuevocaso.
4. Repitealternativamenteelsegundoyeltercerpasohastaqueningunareasignacindeuncasoa
unnuevoclusterpermitareducirmsladistanciaentrelosindividuosdentrodecada
agrupamiento,niaumentarladistanciaentrelosdistintosclusters.

Ejemplo(InvestigacindeMercados).Sedeseasaberlaactituddelosconsumidorescuandosalende
compras,[Link]
investigacinpreviaseseleccionanseisvariablesdeactitud,solicitandoalosentrevistadosque
expresasensugradodeacuerdoconlasafirmacionesexpuestas,seutilizaunaescaladesietepuntos.
Losdatosobtenidosenlamuestra:
V1
6
2
7
4
1
6
5
7
2
3
1
5
2
4
6
3
4
3
4
2

V2
4
3
2
6
3
4
3
3
4
5
3
4
2
6
5
5
4
7
6
3

V3
7
1
6
4
2
6
6
7
3
3
2
5
1
4
4
4
7
2
3
2

V1:Salirdecomprasesdivertido
V2:Salirdecomprasafectaalpresupuesto
V3:Combinarsalirdecomprasconcomida
fueradecasa

V4
3
4
4
5
2
3
3
4
3
6
3
4
5
6
2
6
2
6
7
4

V5
2
5
1
3
6
3
3
1
6
4
5
2
4
4
1
4
2
4
2
7

V6
3
4
3
6
4
4
4
4
3
6
3
4
4
7
4
7
5
3
7
2

V4:Salirdecompras,parahacerlasmejorescompras
V5:Nomeimportasalirdecompras
V6:Sepuedeahorrarmuchodinerosisecomparan
precios

OBJETIVO:Agruparconsumidoreshomogneosfrenteasuactitudhacialascompras.
MTODO:Sedesarrollaunanlisisjerrquicoynojerrquico(Kmedias).

SantiagodelaFuenteFernndez

39

AnlisisdeConglomerados

PRIMERANLISISDEINFORMACIN
Elanlisiscomienzaconunaprimeradescripcindelfenmenoainvestigar(investigacion
[Link]),observandosihaycasosatpicosenelgrficodecajadelasvariablesanalizadas
(Analizar/Estadsticosdescriptivos/Explorar)

Noselocalizaningncasoatpico

[Link]
ConlaopcinAnalizar/Clasificar/Conglomeradosjerrquicos.

Introducidaslasvariables(V1,V2,V3,V4,
V5,V6).
SecomienzapulsandoelbotnMtodo
queeselmsimportante,puestoque
permiteseleccionarelprocesode
agrupamiento,ladistanciaautilizar,yel
tipodetransformacinallevaracaboen
elcasoqueseprecisealguna.

SantiagodelaFuenteFernndez

40

AnlisisdeConglomerados

ElMtododeconglomeracinelegidoeselMtodo
deWard,lamedidadeladistancia(Distancia
eucldeaalcuadrado)

Wardpropusoquelaprdidadeinformacinqueseproducealintegrarlosdistintosindividuosen
clusterspuedemedirseatravsdelasumatotaldeloscuadradosdelasdesviacionesentrecadapunto
(individuo)ylamediadelclusterenelqueseintegra.
Paraqueelprocesodeclusterizacinresulteptimo,encadapasodelanlisis,consideralaposibilidad
delaunindecadapardegruposyoptarporlafusindeaquellosdosgruposquemenosincrementen
lasumadeloscuadradosdelasdesviacionesalunirse.
ElMtododeWardesunodelosmsutilizadosenlaprctica;poseecasitodaslasventajasdelMtodo
[Link]
investigacinllevadaacaboporKuiperyFisherprobqueestemtodoeracapazdeacertarmejorcon
laclasificacinptimaqueotrosmtodos(mnimo,mximo,mediaycentroide).

ElbotnGrficospermiteelegirentredostipos:
Dendograma:Grficodondesemuestraelprocesode
agrupamientoentreloscasosyladistanciaenqueseproduce
[Link]
deconglomeracinvistoenlaopcinestadsticos,y
proporcionainformacinmuyvaliosasobreelnmerofinalde
conglomeradosaconservar.

Tmpanos:Presentaundiagramadetmpanosdondesemuestraelprocesodecombinacindelos
[Link]
determinadorango.

ConlaopcinGuardarsecreanlasnuevas
variablesCLUS3_1,CLUS4_1yCLUS5_1.

EnelVisordeSPSScomienzaproporcionandolamatrizdedistanciasentrelosindividuos,calculandolas

n(n 1)
medidasdeproximidadentrelos(n)casostomadosdedosendos.
2

SantiagodelaFuenteFernndez

41

AnlisisdeConglomerados

Enestecaso,elanlisisdelosindividuosproporciona190medidasdedistancia

20 (20 1)
= 190
2

Enlatablasiguientesemuestranloscoeficienteselaboradosutilizandoladistanciaeucldeaalcuadrado
(sumadelasdiferenciasalcuadradoentredosindividuos).Porejemplo,ladistanciaentreelindividuo1
y6secalculara:
D2 (1,6) = [6 6] + [4 4 ] + [7 6] + [3 3] + [2 3] + [3 4 ] = 3
2

Seobservaqueelindividuomsprximoal1esel6,yelmslejanoesel20.
Losindividuosmsprximosentressonel6conel7,el10conel16,yel14conel16,todosconuna
distanciaentreellosdedosunidades.

SantiagodelaFuenteFernndez

42

AnlisisdeConglomerados

Separtede20conglomerados
formadoscadaunoporunindividuo.

Enlaprimeraetapaseunenel
conglomeradoformadoporel
individuo14conelformadopor
[Link](1)indica
unamedidaenladispersindel
clusterformado.

Enlasegundaetapaseunenel
conglomeradoformadoporel
individuo6conelformadoporel
[Link](2)indicauna
medidaenladispersindel
clusterformado.

COLUMNAS56(Etapaenlaqueelconglomeradoapareceporprimeravez)

Conglomerado1:EslaetapaenlaqueelobjetodelacolumnaConglomerado1seuneconalguien
porprimeravez.Sabemosqueelindividuo6seuneconel7enlasegundaetapa,yvolveraunirse
conotroelementoenlaetapa7(reflejadoenlaCOLUMNA7).
Enlaetapa7seunenlosindividuos6y12,yaelindividuo6sehabaunidoporprimeravezenla
etapa2conelindividuo7.

Conglomerado2:LomismoperoparalosobjetosdelascolumnasConglomerado2.

PRXIMAETAPA:Etapaenlaqueloselementosunidosenlaetapaactualseunenconalgnotro.

Seobservaqueenlaetapa1seunenlosindividuos14y16,seunirnconel10enlaetapa6yno
antes(comosereflejaenlaCOLUMNA7).

[Link]
[Link].
SantiagodelaFuenteFernndez

43

AnlisisdeConglomerados

Porejemplo,enlaetapa1,con19conglomeradosseunieronlosindividuos14y16,poresoapareceuna
cruzdeuninentreesosdosindividuos,losdemsnoestnconectados.
Enlaetapa2,con18conglomerados,ademsdelosanteriores(14,16)seunieronel6yel7,aparece
unacruzdeuninentreestosindividuos,losdemsestndesconectados.
Enlaetapa3,con17conglomerados,ademsdelosindividuos14,16,6y7,seunieronel2yel13,
apareciendoconectados,yassucesivamentehastaque,enlaltimaetapacon1conglomeradotodos
estnunidos.
DENDOGRAMA:Lalecturaserealizadeizquierdaaderecha,yensuinterioraparecenlneas
horizontalesyverticales,utilizandoestasltimasparaindicarelpuntodeuninentredosComunidades.
Aslaposicindelalneaverticalrespectoalareglasituadaenlapartesuperiorindicaladistancia
dondesehanrealizadolaunindedosgrupos,demodoquecuantomsaladerechaseproduzcauna
agrupacinexistirmsdiferenciaentreloscasos,formandogruposmsheterogneos.
Enlaregladelapartesuperiormuestraladistanciaentrelosagrupamientos,sibiensehacambiadola
'escala'delasdistanciasaunosvaloresqueoscilanentre0y25,mientrasquelaamplituddelas
[Link],laamplituddelasdistancias(1
329)secalculaparaadoptarlaalaescala(025)bastaconmultiplicarcadaamplitudpor0,075.
Respectoalanuevaescala,enladistancia172,667(12,95)seproduceelprimergranincrementoenlas
distancias.Estegranaumentoconduceadetenerelprocesodeagrupamientoenladistancia1213.

SantiagodelaFuenteFernndez

44

AnlisisdeConglomerados

Considerandoquedistanciaspequeasindicanconglomeradoshomogneosyquegrandesdistancias
definenconglomeradosheterogneos,esconvenientedetenerelprocesodeunincuandolaslneas
horizontalesseanmuylargas.
Deteniendoelprocesoenladistancia16seobtendrandosconglomerados:unocon18conglomerados
yotrocon1conglomerado;siseeligeladistancia13seformantresconglomerados.
[Link],se
creaunficherodedatosconloscoeficientesdelatablaHistorialdeconglomeracin,introducidosde
mayoramenor(desdedebajodelatablahaciaarriba).
Posteriormente,enelmenGrficos/Generadordegrficos/Lnea,enelejedeordenadasseintroduce
lavariableCoeficientesyenelejedeabscisaslaEtapa.

Elejedeabscisasrepresentaelnmero
deconglomeradosencadamomento.
Seobservauncambiosignificativoenel
perfilcontresconglomerados,conlo
quesedecidepararelprocesocon3
conglomerados.

SantiagodelaFuenteFernndez

45

AnlisisdeConglomerados

TraselDENDOGRAMAelprogramaofrecela
composicindecadaunodelosconglomerados,
presentandoelrangodesolucionessolicitadoenel
cuadrodeEstadsticos,quemuestratres,cuatroy
cincoconglomerados.
Segnloexpuesto,lasolucinptimaeslaque
presentatresconglomerados.

Comosepuedeobservar,setienenlossiguientes
conglomerados:

Conglomerado1 = {1, 3, 6, 7, 8, 12, 15, 17 }

Conglomerado2 = {2, 5, 9, 7, 11, 13, 20 }

Conglomerado3 = {4 , 10, 14 , 16, 18, 19 }

[Link]
algunodeelloshubieraquedadoconslounoodos
elementoshabraquereconsiderarlaeleccinsobreel
nmeroapropiadodeconglomerados.

SantiagodelaFuenteFernndez

46

AnlisisdeConglomerados

INTERPRETACINDELACLASIFICACIN
DesdeelmenAnalizar/Compararmedias/Mediasserealizaunresumendescriptivosobreestos
[Link](V1,V2,V3,V4,V5,V6)ycomovariable
independiente(CLU3_1)[Link],
desviacintpicayelnmerodeelementosdecadacluster.

SantiagodelaFuenteFernndez

47

AnlisisdeConglomerados

Loscentroidesdelosclustersson:
Centroide(Cluster1): ( 5,75, 3,63, 6,00, 3,13, 1,88, 3,88 )
Centroide(Cluster2): (1,67, 3,00, 1,83, 3,50, 5,50, 3,33)
Centroide(Cluster3): ( 3,50, 5,83, 3,33, 6 ,00, 3,50, 6,00 )

Losvaloresmediosdelasvariablesencadagrupo(centroide)ayudanadefinirelperfildelosclusters:
-

ElCluster1estformadoporcompradoresquesepodranclasificarcomodivertidosypreocupados
(puntuacionesaltasenV1yV3).

ElCluster2quedaformadoporcompradoresquepodranclasificarsecomoapticos(puntuaciones
bajasenV1V3,yaltasenV5).

ElCluster3quedaformadoporcompradoresahorrativos(puntuacionesaltasenV2,V4,yV6).

Paracompararresultadosposterioresconprocedimientosnojerrquicossecreaunficheroconlos

centroidesdelostresclustersobtenidos([Link]).
Laprimeravariableindicandoelnmerodecadaclusterdebellamarsenecesariamentecluster_

SantiagodelaFuenteFernndez

48

AnlisisdeConglomerados

[Link]

Enestaventanaelprogramaofrecedos
posibilidadespararealizarelagrupamiento:

Iteraryclasificar:Actualizaloscentrosde
[Link]
utilizapararealizarunanlisisclusterde
nubesdinmicas.

Soloclasificar:Clasificaloscasosen
funcindelosclustersespecificados
previamente(mtododeloscentroides).

Alaizquierda,elnmerodeconglomeradospor
defecto(queson2).
HaydosformasdiferentesdeprocederutilizandoonoelbotninferiorizquierdaCentrosde
[Link],seutilizaelmtododeloscentroidesalespecificarloscentros
[Link]
centrosdeconglomerados([Link]).
MTODO:[Link]
conglomerados(analizadosconmtodojerrquico).

SantiagodelaFuenteFernndez

49

AnlisisdeConglomerados

MarcandoCentrosdeconglomeradosse
despliegaundilogocondosbotones:

Leeriniciales:Indicaelarchivodedatos
dondeestnloscentrosdelos
conglomerados,deformaquealmarcar
laopcinelbotnArchivodedatos
externocambiadecolorparaquese
indiqueelnombredelarchivoconlos
centrosdelosconglomerados.

Escribirfinales:Teniendoelficherode
datosoriginalesactivo,enestefichero
secreanlasnuevasvariablesQCL_1
(nmeroinicialdecasos)yQCL_2
(Distanciadelcasodesdesucentro)

CuandoseconocenloscentrosdelosconglomeradosdebemarcarselaopcinSloclasificardentrode
laopcinMtodo.
Enlaparteinferiorhaydosbotones:GuardaryOpciones.

[Link](Estadsticos)se
puedeelegirCentrosdeconglomeradosiniciales(antesdelaiteracin),elConglomeradodepertenencia
decadacaso,altiempoqueelaboraunaTabladeANOVAparaconocersilasmediasdecadavariableen
cadaunodelosconglomeradosdifierensignificativamente.
Enlaparteinferior,lasposibilidadesdetratamientodelosvaloresperdidos:permitiendoelegirentre
eliminarcasosconvaloresperdidosencadapardevariables(Excluircasossegnpareja),oexcluir
aqullosconvaloresperdidosencualquiervariable(Excluircasossegnlista).

ANLISISDELOSRESULTADOS

Aparecenlosvaloresmediosdelasvariablesdecada
conglomerado(centroide)quesehafacilitadoconel
fichero([Link]).

SantiagodelaFuenteFernndez

50

AnlisisdeConglomerados

Unavezquesetienenlosvaloresmediosdelasvariablesde
cadaconglomerado(centroide),secalculaladistanciadecada
individuoacadaconglomeradoyseleasignaaquelcuya
distanciaeucldeaalcentroidedelconglomeradoseamenor.
Finalmente,serecalculanloscentroidedelosnuevosclusters:

Enestecaso,loscentroidesdelosclustersnohancambiado
respectoalosinicialesobtenidosenelprocedimiento
jerrquico,puestampocohavariadolacomposicinalestar
formadosporlosmismosindividuos.
Conocidosloscentrosdelosconglomerados,esinteresanteconocerelgradodediferenciaentreellos
[Link]
calcularlasdistancias.

Lamediacuadrtica(variabilidad)
entregruposapareceenlasegunda
columnaylamediacuadrticadentro
decadagrupoenlacuartacolumna.

Elratioentreambasmediassepresentaenlasextacolumna,deformaquelosaltosvaloresdel
estadsticoFindicanquelavariabilidadentrelosgruposesmuchomayorquelavariabilidaddentrode
cadagrupo (29,108 / 0 ,608 = 47,888) ,indicandoquelosconglomeradoselaboradosson
homogneos.
Apesardelosresultadosobtenidos,hayquetenerprudenciaensuinterpretacinpuestoqueelpropio
programaadviertequeestetestnicamentedebeutilizarseconunafinalidaddescriptiva,queyalos
SantiagodelaFuenteFernndez

51

AnlisisdeConglomerados

conglomeradoshansidopreviamenteelegidosparamaximizarlasdiferenciasentreloscasosen
[Link],suutilizacinfacilitavalorarlarelevanciadelasvariables
seleccionadasycompararlasdiferentesagrupaciones.

MTODO:NOACTIVARCENTROSDELOSCONGLOMERADOS

) Nmeromximodeiteracionesquepuederealizarel
anlisisensusclculos.Pordefectoaparecen10,
aunquepuedecolocarseunnmeroentre1y999.
) Uncriteriodeconvergenciade0,porejemplo,indicaqueelprocesosedetienecuandounaiteracin
nologredesplazarloscentrosinicialesenunadistanciasuperiora0deladistanciamenorentre
cualquieradeloscentrosiniciales.
Altratarsedeunaproporcinestevaloroscilaentre01,ycuantomspequeoseaelcriteriose
realizarnmsiteraciones.
) Usarmedidasactualizadas,realizandounaactualizacindeloscentroidesdelosconglomeradostras
laasignacindecadacasoaunconglomerado.
Cuandoseseleccionaestaopcinloscentrosdelosconglomeradossecalculantraslaasignacinde
todosloscasos.

SantiagodelaFuenteFernndez

52

AnlisisdeConglomerados

ANLISISDELOSRESULTADOS

EnlosCentrosinicialesdelosconglomeradossemuestranlasestimacionesinicialesdeloscentrosde
[Link]
particininicialdelosdatosenunespecficonmerodeagrupamientos,tresenestecaso,paraelegir
[Link]
sernutilizadoscomoestimadoresiniciales.
Acontinuacin,secalculanlaspuntuacionesdelrestodeloscasosquesernunidosalagrupamiento
mscercano,[Link]
[Link]
alternativamentehastaqueningunareasignacindeuncasoaunnuevogrupopermitereducirla
distanciaentrelosindividuosdecadaagrupamiento.
Recordarqueestemtodopermitequeuncasoasignadoaunconglomeradoenunadeterminada
iteracinpuedeserreasignadoaotroconglomeradoenunaiteracinposterior.
EnlatablaHistorialdeiteracionesseaprecianloscambiosenloscentrosdelosconglomeradosfrutode
esteprocesoiterativo.

Seobservaquetampocohavariadolacomposicindelos
clustersrespectoalosprocedimientosanteriores,sealaral
grupoqueantesllamaConglomerado1ahoralollama
Conglomerado3,perolacomposicineslamisma.
Cuandotodosloscasoshansidoasignadosseobtienenlos
centrosdelosconglomeradosfinales,resultantesdelamedia
delosindividuosencadaunadelasvariablesconsideradas.

SantiagodelaFuenteFernndez

53

AnlisisdeConglomerados

Loscentroidesrecalculadosvuelvenaserlosmismosqueenlosotrosanlisis.

Lamediacuadrtica(variabilidad)entre
gruposapareceenlasegundacolumnay
lamediacuadrtica(variabilidad)dentro
decadagrupoenlacuartacolumna.

Elratioentreambasmediassepresentaenlasextacolumna,deformaquelosaltosvaloresdel
estadsticoFindicanquelavariabilidadentrelosgruposesmuchomayorquelavariabilidaddentrode
cadagrupo (29,108 / 0 ,608 = 47,888) ,indicandoquelosconglomeradoselaboradosson
homogneos.
Apesardelosresultadosobtenidos,hayquetenerprudenciaensuinterpretacinpuestoqueelpropio
programaadviertequeestetestnicamentedebeutilizarseconunafinalidaddescriptiva,queyalos
conglomeradoshansidopreviamenteelegidosparamaximizarlasdiferenciasentreloscasosen
[Link],suutilizacinfacilitavalorarlarelevanciadelasvariables
seleccionadasycompararlasdiferentesagrupaciones.

Finalmente,seobservaquelostresprocedimientosconducenalos
mismosresultados.

Enlatablasiguienteaparecenademsdelasvariablesutilizadasenelanlisis,lassiguientesvariables
creadasporSPSSconelmtododeKmedias:

SantiagodelaFuenteFernndez

54

AnlisisdeConglomerados

QCL_1:Pertenenciaalcluster.

QCL_2:Distanciadecadaindividuoaloscentroidesfinales.

SantiagodelaFuenteFernndez

55

También podría gustarte