0% acharam este documento útil (0 voto)

126 visualizações43 páginas

Análise de Agrupamento em Métodos Multivariados

Enviado por

Florêncio Filho Filho

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

126 visualizações43 páginas

Análise de Agrupamento em Métodos Multivariados

Enviado por

Florêncio Filho Filho

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Análise de agrupamento

Disciplina: Métodos Multivariados

Professor: Jackson Conceição
Análise de agrupamentos
Cluster Analysis

Abrange uma variedade de métodos que têm por

objetivo fracionar um conjunto de objetos em um
determinado nº de subconjuntos mutuamente
exclusivos (agrupamentos ou clusters), de tal forma
que os objetos em um mesmo cluster sejam
semelhantes entre si, porém diferentes dos objetos
dos outros clusters.

Os clusters devem exibir elevada homogeneidade

interna (pequena variabilidade dentro de cada
grupo) e elevada heterogeneidade externa (grande
separação entre os grupos).
Análise de agrupamentos
Cluster Analysis

Os clusters não são conhecidos previamente, mas

são obtidos pela análise das semelhanças ou
diferenças entre os objetos do conjunto de dados.

Os métodos de análise de agrupamentos têm por

objetivo determinar uma estrutura de grupos que se
ajuste aos dados disponíveis, i.e., classificar os
objetos de acordo com o agrupamento natural dos
dados.
Análise de agrupamentos
Cluster Analysis

Identificação dos clusters a partir dos dados

Cada ponto representa uma

empresa Clusters

Algoritmo de
análise de
agrupamentos
O que é possível fazer com a análise de agrupamentos ?

 Formar uma taxonomia das observações

Identificar grupos naturais no interior dos dados, i.e., uma
classificação empírica dos objetos.

 Simplificar os dados (compressão de dados)

Descrever de forma compacta um razoável volume de
dados por meio dos elementos típicos dos clusters
(médias ou medianas).

 Identificar relações entre objetos

• Revelar similaridades e diferenças entre objetos não
reveladas de outra maneira.
• Identificar observações aberrantes.
Características da análise de agrupamentos

 É descritiva, os métodos são exploratórios e a idéia é gerar

hipóteses.

 Cria grupos indiferentemente a existência de alguma

estrutura nos dados.

 Variedade de vias e critérios para definição dos grupos o

que implica na possibilidade de obter soluções diferentes
variando-se um ou mais critérios.

 A solução da análise de agrupamentos não é generalizável

por que ela é totalmente dependente tanto das variáveis
usadas como dos critérios em que ela se baseia.
Medidas de similaridade e de dissimilaridade

Para formar clusters é necessário ter uma medida do grau de

similaridade entre os objetos ou de diferença (dissimilaridade)
entre eles.

Vamos trabalhar com medidas de dissimilaridade (distâncias),

por exemplo, o quadrado da distância euclidiana. Distâncias
pequenas indicam objetos próximos, ou seja, semelhantes em
um conjunto de atributos.

Sejam os objetos X e Y caracterizados por p atributos

quantitativos: X = (x1,x2,...,xp) e Y = (y1,y2,...,yp).

O quadrado da distância euclidiana entre X e Y é dado por:

||X-Y||2 = (x1 – y1)2 + (x2 – y2)2 +...+ (xp - yp)2 = 

 xi  yi 2

i 1
Etapas da análise de agrupamentos

1) Seleção dos objetos a serem agrupados.

2) Definição de um conjunto de variáveis que caracterizam
os indivíduos.
3) Seleção de uma medida de similaridade ou
dissimilaridade entre objetos. (em geral é utilizada a
distância euclidiana ou o seu quadrado)
4) Seleção de um algoritmo de agregação dos indivíduos.
(há uma enorme variedade de métodos com esta
finalidade)
5) Definição do nº de clusters ou tipologias.
6) Interpretação e validação dos clusters obtidos.
Métodos de análise de agrupamentos

Métodos não hierárquicos: k-Means , Nuvens dinâmicas

Métodos hierárquicos: métodos de encadeamento (linkage

methods) e Método de Ward

Métodos não hierárquicos Métodos hierárquicos

Procuram diretamente uma Particionam um conjunto com N

partição de N objetos em um objetos seqüencialmente em
número pré-definido de k clusters 1,2,3,4 até N clusters, obtendo no
que satisfaçam duas premissas final uma estrutura em árvore,
básicas: coesão interna e semelhante as classificações
isolamento dos clusters. zoológicas (espécies, gêneros,
famílias, ordem, etc.).
O número de agrupamentos deve
ser especificado a priori
K-Means

Divide um conjunto de n objetos em k clusters (k é dado de entrada), de tal

forma que a heterogeneidade interna dos clusters seja minimizada.

Dado um conjunto de k centróides, cada objeto xi, i=1,n, é alocado ao cluster

com o centróide cj mais próximo.
2
xi  c j é o quadrado da distância do objeto xi ao centróide do cluster j

Em cada cluster j, j=1,k, a heterogeneidade interna é avaliada pela seguinte

soma de quadrados ou WSS(j):

WSS j    x c
2
i j
xi cluster j

Acumulando ao longo dos k clusters temos a inércia intra-cluster ou WSS:

k  k 
WSS  WSS j      xi  c j 
2

j 1  xi cluster j

j 1 
K-Means

Vantagens

 Tendem a maximizar a dispersão entre os centros de

gravidade dos clusters (clusters bem separados).

 Simplicidade de cálculo, calcula somente as distâncias

entre os objetos e os centros de gravidade dos clusters.

Desvantagens

 A solução é dependente dos conjuntos de sementes

iniciais, principalmente se a seleção das sementes é
aleatória.

 Não há garantias de um agrupamento ótimo dos objetos.

Métodos hierárquicos

Particionam um conjunto com N objetos seqüencialmente em 1,2,3,4 até N

clusters, obtendo no final uma estrutura em árvore, semelhante as classificações
zoológicas (reino, espécies, gêneros, famílias, ordem, etc.).

Produzem uma série de partições encaixadas: o grupo formado em um determinado

passo corresponde a união de grupos formados em passos anteriores.

O resultado é apresentado dendrograma

na forma de uma árvore
objetos
de classificação conhecida

distância
por dendrograma
O dendograma
mostra a
sequência de
agregação dos
objetos

Dois tipos de procedimentos hierárquicos

de agrupamento: aglomerativo e divisivo
Métodos hierárquicos

Aglomerativo (método mais comum)

 No início cada objeto forma um cluster que
sucessivamente sofre uma série de fusões com outros
clusters até que no final todos os objetos estejam em um
único agrupamento.
 Um cluster formado em uma dada interação corresponde
a união de clusters formados em passos anteriores.

Divisivo
 No início há apenas um cluster formado pelo conjunto de
objetos que é dividido sucessivamente até que no final
cada cluster contenha apenas um objeto.
 Clusters formados em uma dada interação correspondem
a fragmentação de um cluster formado no passo anterior.
Métodos hierárquicos: matriz de distância

Matriz de dados  x11 x12  x1 p  Objeto 1

x x 22  x 2 p 
X   21

    
 
 x n1 x n 2  x np  Objeto n

Variável 1 Variável p

 0 d12  d1n  Os métodos

d 0 
 d2n 
hierárquicos

D  21 dependem de
    
uma matriz de
distância entre
Matriz de distãncias   os objetos.
d n1 d n 2  0 
Métodos hierárquicos aglomerativos

Vários métodos:

 Encadeamento Simples ou vizinho mais próximo

(Single linkage ou nearest neighbor)

 Encadeamento Completo ou vizinho mais longe

(Complete linkage ou furthest neighbor)

 Encadeamento Médio (Average linkage)

 Método de Ward (Ward´s method) MELHOR MÉTODO HIERÁRQUICO

 Método do Centróide (Centroid method)

Todos estes métodos partem de uma matriz de distâncias entre os objetos.

Os métodos diferem na maneira de como calculam

as distâncias entre os objetos e clusters.
Métodos hierárquicos aglomerativos

Objetos
6

5 C F E
Solução inicial
4

3
D com 6 clusters,
B cada um com 1
2

1
A objeto
0
0 1 2 3 4 5 6 7

Matriz de distâncias entre os clusters Qual o par de objetos mais

(matriz simétrica) próximos, ou seja,
parecidos?

É o par E,F, logo estes

objetos são os primeiros a
serem agrupados
Métodos hierárquicos aglomerativos

5 C F E Solução intermediária com 5 clusters.

4
D
3
B As distâncias passam a ser calculadas em
2
A relação ao cluster e não mais em relação
1
aos seus objetos
0
0 1 2 3 4 5 6 7

Atualiza matriz de distâncias

Matriz de distâncias entre os clusters Qual o par de objetos mais

(matriz simétrica) próximos?

É o par A,B, logo estes

objetos são os próximos a
serem agrupados
Métodos hierárquicos aglomerativos

5 C F E
Solução
4

3
D intermediária com
B 4 clusters
2

1
A
0
0 1 2 3 4 5 6 7

Atualiza matriz de distâncias

Matriz de distâncias entre os clusters Qual o par de objetos mais

(matriz simétrica) próximos?

É o par (E,F),D logo estes

objetos são os próximos a
serem agrupados
Métodos hierárquicos aglomerativos

5 C F E
Solução
4

3
D intermediária com
B 3 clusters
2

1
A
0
0 1 2 3 4 5 6 7

Atualiza matriz de distâncias

Matriz de distâncias entre os clusters Qual o par de objetos mais

(matriz simétrica) próximos?

É o par (E,F,D),C logo estes

objetos são os próximos a
serem agrupados
Métodos hierárquicos aglomerativos

5 C F E
Solução
4

3
D intermediária com
B 2 clusters
2

1
A
0
0 1 2 3 4 5 6 7

Atualiza matriz de distâncias

Matriz de distâncias entre os clusters

(matriz simétrica)
O próximo passo seria agrupar
todos os objetos em um único
cluster (solução trivial).

27,35 é a distância entre os dois

clusters
Métodos hierárquicos aglomerativos

6 objetos = 6 clusters 5 clusters 4 clusters

6 6 6

5 5 5

4 4 4

3 3 3

2 2 2

1 1 1

0 0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7

Matriz de distâncias 6x6 Matriz de distâncias 5x5 Matriz de distâncias 4x4

Menor distância = 0,5 Menor distância = 1 Menor distância = 2,667

A cada iteração o número de clusters diminui de uma unidade e os

novos agrupamentos tornam-se mais heterogêneos internamente.
1 cluster 2 clusters 3 clusters
6 6 6

5 5 5

4 4 4

3 3 3

2 2 2

1 1 1

0 0 0
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7

Matriz de distâncias 2x2 Matriz de distâncias 3x3

Menor distância = 27,35 Menor distância = 3,02
Métodos hierárquicos: dendrograma

A sequência das agregações e as distâncias em que elas ocorrem são

descritas no dendrograma, um gráfico útil na definição do número de
agrupamentos.

Melhor solução
tem 2 clusters:
• Cluster AB
• Cluster CDEF
Métodos hierárquicos: encadeamento simples (single linkage)

Em qualquer estágio, a fusão de dois clusters baseia-se na menor

distância individual entre os seus elementos.

Utiliza a distância mínima entre dois objetos para definir a distância entre
dois clusters.

Quando os objetos estão pobremente estruturados, o single linkage pode

reunir em um cluster elementos bastante diferentes, desde que haja entre
eles uma cadeia de outros elementos que sejam semelhantes entre si
(efeito de cadeia).

Tende a concentrar a maior parte dos

objetos em um pequeno número de
clusters e formar muitos clusters com
poucos objetos.
Exemplo de como a ligação individual A
pode agregar pontos distintos A e B
B
Métodos hierárquicos: encadeamento completo (complete linkage)

A distância entre dois clusters é definida pela maior distância entre dois
objetos, um em cada cluster.

Elimina a possibilidade do efeito de encadeamento.

Mais
Mais próximo Longe
Ligação Completa
Ligação Individual

Métodos hierárquicos: encadeamento médio (average linkage)

A distância entre dois clusters é definida como a média das distância

entre os elementos dos dois grupos.

Tende a enviesar em direção à produção de grupos com

aproximadamente a mesma variância
Métodos hierárquicos: Método de Ward

A cada iteração de um método hierárquico aglomerativo o número de

clusters diminui de uma unidade.

Os novos agrupamentos formados agregam mais elementos diferentes e

por isso tornam-se mais heterogêneos internamente

Durante a aglomeração dos clusters, a perda de qualidade da partição é

inexorável.

O método de Ward atenua este efeito do processo de aglomeração,

minimizando, a cada iteração, o incremento na heterogeneidade interna
dos clusters.
Quantos clusters devem ser formados ?

Não há um procedimento padrão e objetivo para

determinar o “correto” número de agrupamentos.

1) O exame do dendrograma em busca de grandes

alterações dos níveis de similaridade para as sucessivas
fusões (só é possível nos métodos hierárquicos).

2) Análise gráfica das tipologias

3) Selecionar o número de clusters com base em um

critério “a priori”, avaliação prática, senso comum e
fundamentos teóricos.
Análise de agrupamentos no SPSS
Exemplo: (Fávero et al, 2009)

Imagine que um analista de mercado está interessado em

segmentar um conjunto de empresas que atuam no setor
de siderúrgia e metalurgia, com base em informações
financeiras publicadas.

Foram selecionadas 25 empresas que atuam nestes

setores.

Os dados foram obtidos na revista exame – Melhores e

Maiores de 2005.

Foram escolhidos quatro indicadores: Faturamento (US$

milhões), Rentabilidade do patrimônio líquido (%),
Endividamento geral da empresa (%) e número de
empregados.
Base de dados
Métodos hierárquicos
Escolha a opção Analyze/Classify/Hierarchical cluster
Selecione as variáveis
Selecione as outras opções
Resultados

Um critério para
identificação do número
de clusters:

Maior diferença (salto).

O estágio anterior ao
salto indica o ponto de
parada para novos
agrupamentos.
No caso a maior
diferença está entre 23 e
24, o que sugere a
escolha de dois clusters
Resultados
Resultados

cluster membership com

soluções de 3 clusters
salvos na planilha com
dados originais:
variáveis clu3_1

clu i_ j = cluster membership na solução com i

clusters na j-ésima execução de algum método
hierárquico
K-Means
Escolha a opção Analyze/Classify/K-Means
Selecione as variáveis
Selecione as variáveis
Resultados
Resultados

As variáveis faturamento e empregados foram as que mais

discriminaram os grupos
Resultados

cluster membership
com soluções de 3
clusters salvos na
planilha com dados
originais:
variáveis qcl_1

qcl i_ j = cluster membership na solução com i

clusters na j-ésima execução de algum método
hierárquico