0% encontró este documento útil (0 votos)
42 vistas13 páginas

Cluster y Metodos Graficos

Cargado por

Henry Jimenez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
42 vistas13 páginas

Cluster y Metodos Graficos

Cargado por

Henry Jimenez
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD DE CUENCA

FACULTAD DE CIENCIAS ECONOMICAS Y ADMINISTRATIVAS

Docente:

Econ. Fabian Patricio Cordero Méndez

Integrantes:

Andrés Fabricio Guaman López

Henry Marcelo Jimenez Jimbo

Grupo:

EC – 05 – 01

Asignatura:

Análisis Multivariante

Tema:

Métodos gráficos y aplicación clúster


Índice
Análisis clúster ................................................................................................................. 3

Representación gráfica de una clasificación jerárquica (dendrograma) ....................... 3

Distintas formas de medir la distancia entre clusters: ................................................... 3

Método de la media (average linkage) ...................................................................... 3

Método del vecino más próximo ............................................................................... 4

Método del vecino más lejano (complete linkage).................................................... 4

Método de Ward (método de varianza mínima)........................................................ 4

Aplicación ......................................................................................................................... 6

Métodos gráficos ............................................................................................................ 10

Método Nubes dinámicas ............................................................................................ 10

Método grafico glyph .................................................................................................. 11

Método Caras de Chernoff .......................................................................................... 11

Análisis difuso ............................................................................................................ 12

Bibliografía ..................................................................................................................... 13
Análisis clúster

El Análisis Clúster es una técnica de análisis exploratorio de datos que sirve para resolver
problemas de clasificación. Consiste en ordenar objetos (personas, cosas, animales,
plantas, variables, etc.) en grupos o conglomerados de tal manera que el grado de
asociación entre miembros del mismo clúster sea más fuerte que el grado de asociación
entre miembros de diferente clúster.

Encontramos dos tipos de métodos de clasificación: jerárquicos y no jerárquicos. En los


primeros, la clasificación resultante tiene un número creciente de clases anidadas mientras
que en el segundo las clases no son anidadas. (Villardon, 2007)

Representación gráfica de una clasificación jerárquica (dendrograma)


Un dendrograma es una representación gráfica en forma de árbol que resume el proceso
de agrupación en un análisis clúster. Los objetos similares se conectan mediante enlaces
cuya posición en el diagrama está determinada por el nivel de similitud/disimilitud entre
los objetos. (Villardon, 2007)

Distintas formas de medir la distancia entre clusters:


Método de la media (average linkage)
En el método de la media, la distancia entre clusters se calcula como la distancia media
entre pares de observaciones, una de cada cluster. (Villardon, 2007)

Características:
– Proporciona clusters ni demasiado grandes ni demasiado pequeños.

- Pueden utilizarse medidas de la similitud o de la disimilitud.


- No es invariante por transformaciones monótonas de las distancias.

- Tiende a fusionar clusters con varianzas pequeñas y tiende a proporcionar clusters con
la misma varianza.

- Buena representación gráfica de los resultados.

Método del vecino más próximo


En el método del vecino más próximo la distancia entre dos clusters es el mínimo de las

distancias entre un objeto de un cluster y un objeto del otro. (Villardon, 2007)

Características:
- No es útil para resumir datos.

- Útil para detectar outliers (estarán entre los últimos en unirse a la jerarquía).

- Pueden usarse medidas de la similitud o de la disimilitud.

- Tiende a construir clusters demasiado grandes y sin sentido.

- Invariante bajo transformaciones monótonas de la matriz de distancias.

Método del vecino más lejano (complete linkage)


En el método del vecino más lejano la distancia entre dos clusters es el máximo de las
distancias entre un objeto de un cluster y un objeto del otro. (Villardon, 2007)

Características:
- Útil para detectar outliers.

- Pueden usarse medidas de la similitud o de la disimilitud.

- Tiende a construir clusters pequeños y compactos.

- Invariante bajo transformaciones monótonas de la matriz de distancias.

Método de Ward (método de varianza mínima)


La distancia entre dos clusters se calcula como la suma de cuadrados entre grupos en el
ANOVA sumando para todas las variables. En cada paso se minimiza la suma de
cuadrados dentro de los clusters sobre todas las particiones posibles obtenidas fusionando
dos clusters del paso anterior. Las sumas de cuadrados son más fáciles de entender cuando
se expresan como porcentaje de la suma de cuadrados total. (Villardon, 2007)
Características:
- El método suele ser muy eficiente.

- Tiende a crear clusters de pequeño tamaño.

- Se puede usar la matriz de distancias, así como una tabla de contingencia.

- Invariante bajo transformaciones monótonas de la matriz de distancias.

- Puede ser sensible a los outliers.

Método del centroide

El método del centroide es el que se utilizó en el ejemplo ilustrativo para la construcción


del dendrograma. La distancia entre dos clusters se calcula como la distancia entre los
centroides de los mismos, por tanto es necesario disponer de los valores originales de las
variables. (Villardon, 2007)

Características:
- Las variables deben estar en escala de intervalo.

- Las distancias entre grupos se calculan como las distancias entre los vectores medios.

- Si los tamaños de los dos grupos a mezclar son muy diferentes, entonces el centroide
del nuevo grupo será muy próximo al de mayor tamaño y probablemente estará dentro de
este grupo
Aplicación

Los fabricantes de automóviles deben adaptar sus estrategias de desarrollo de productos


y de marketing en función de cada grupo de consumidores para aumentar las ventas y el
nivel de fidelidad a la marca. Para esto se desea hacer un estudio de mercado sobre las
preferencias de los consumidores al adquirir automóviles y camiones. (Granada, s.f.)

Para realizar esta tarea se usaron las siguientes variables: ventas (en miles de unidades);
reventa (Valor de reventa en 4 años); tipo (Tipo de vehículo: 0 si es Automóvil; 1 si es
Camión); precio (en miles de dólares); motor (Tamaño del motor); CV (Caballos); pisada
(Base de neumáticos); ancho (Anchura); largo (Longitud); peso neto (Peso neto); depósito
(Capacidad de combustible); mpg (Consumo). (Granada, s.f.)

El estudio de mercado se va a ejecutar sólo para aquellos automóviles de mayor venta y


para realizarlo se usará el procedimiento Análisis de conglomerados jerárquico para
agrupar los automóviles de mayor venta en función de sus precios, fabricante, modelo y

En primer lugar, restringiremos el archivo de datos sólo a los automóviles de los que se
vendieron al menos 100.000 unidades. Para ello seleccionamos los casos que cumplan
esa condición.

Una vez seleccionada la muestra con la que vamos a trabajar, utilizamos el Análisis de
Conglomerados Jerárquicos para agrupar los automóviles de mayor venta en función de
sus precios, fabricante, modelo y propiedades físicas.
Utilizamos el método del vecino más lejano y estandarizamos las variables por
puntuaciones Z, lo que quiere decir que tiene media 0 y desviación típica 1.

Mediante el método de conglomeración del vecino más lejano se realiza una clasificación
fuerte de dos o tres grupos.
La primera gran diferencia es entre las etapas 5 y 6 (6 clusters), la segunda entre 8 y 9 (3
clusters) y entre 9 y 10 (2 clusters).
La decisión de esta clasificación se refleja en el dendrograma.

La división inicial del árbol forma dos grupos, (8, 11, 1, 6, 7, 10) y (2, 9, 3, 5, 4). El
clúster primero contiene los automóviles más pequeños y el segundo contiene los coches
más grandes.

El grupo de coches más pequeños se puede dividir en dos subgrupos, uno de ellos formado
por los coches más pequeños y más baratos. Así la división siguiente en 3 clusters:
(Accord (8), Camry (11), Cavalier (1)), (Focus (6), Civic (7), Corolla (10)), estos tres
coches son más pequeños y más baratos que los tres anteriores) y (Malibu (2), Gran Am
(9), Impala (3), Taurus (5), Mustang (4)), que son los coches más grandes.

Usando como Método de conglomeración la vinculación completa (Vecino más lejano),


se puede determinar la competencia que hay entre los vehículos en la fase de diseño.

A continuación, vamos a mostrar la Matriz de distancias y los conglomerados de


pertenencia
Métodos gráficos

Método Nubes dinámicas


El método de nubes dinámicas está dentro de los métodos de reasignación que permite
asignar un individuo a un grupo en un determinado paso del proceso, sea reasignado a
otro grupo en un paso posterior y dando como finalizado el proceso cuando no quedan
individuos que permitan optimizar el resultado que se ha conseguido.

Señalaremos a U como el conjunto de individuos (n) que se deducirá y clasificara que


están descritos por variables cuantitativas (p) 𝑥1 , 𝑥 2 , 𝑥 3 , … , 𝑥 𝑝 . El método de nubes
dinámicas este compuesto de dos tipos, en los cuales cada clase se representan por un
núcleo, estos son:

• Individuo promedio: se calculará el promedio de los individuos que conforman la


clase utilizando el centro de gravedad.
• Grupo de objetos representativos: Grupo de individuos escogidos de tal manera
que sean mas representativos de la clase.

Además, el método de nubes dinámicas se basa en reiterar dos operaciones: representar


una clasificación de grupo y hacer clasificaciones de los individuos mediante la
asignación de los individuos al núcleo más cercano.
Al tener una representación mediante k núcleos, los que estén más cerca al núcleo
formaran una partición y a su vez calcularan nuevos núcleos, ya sea como centros de
gravedad o pequeños grupos de elementos representativos de la clase, teniendo un leve
cambio a los núcleos que sirvieron para crear las clases. De esta manera se puede observar
que el método va aproximando poco a poco la solución que se obtendrá al final cuando
no núcleos sean estables. (Zelaya)

Método grafico glyph


Es una de las técnicas de visualización basadas en glifos aplicada a datos multivariantes,
proporciona una representación de los datos donde el conjunto es presentado como una
colección de objetos visuales, en este caso, estrellas.

La visualización de un glifo de estrella representa un conjunto de datos en la cada estrella


corresponde a un registro de datos independientes. Cada variable se representa por una
rama dentro de esa estrella que parte desde el origen y cuya longitud se corresponde al
valor de la variable en cuestión. Así, registros que compartan características similares
presentarían ramas del mismo tamaño, hasta el punto de que si son idénticos en todos los
aspectos llegarían a tener la misma forma. (Robledo, 2019)

Método Caras de Chernoff


Es importante saber que un análisis estadístico tradicional puede ser representado por
graficas de dispersión cuando se trate de graficar una variable, pero al tratarse de dos o
más variables, el análisis se vuelve más complejo.

Herman Chernoff es un matemática, estadístico y físico que invento las caras de chernoff
en 1973, lo que consiste en una representación gráfica donde variables cuantitativas de
un grupo se asocian a rostros humanos con sus diferentes partes individuales como: boca,
nariz, oídos y ojos. Además de representar valores de las variables por su forma, tamaño,
orientación y ubicación. Las caras de chernoff tiene como objetivo que las personas
puedan reconocer los rostros con pequeñas variaciones sin ninguna dificultad.

Edward Tufte, menciona que este tipo de gráfico de caras de Chernoff

"se reduciría bien, manteniendo la legibilidad incluso con áreas individuales de 0,05
pulgadas cuadradas como se muestra ... con caras de dibujos animados e incluso números
convirtiéndose en medidas de datos, pareceríamos haber llegado al límite de la economía
gráfica de presentación, imaginación y, admitámoslo, excentricidad”.
Otro punto de Tufte, sugiere que las caras sean asimétricas debido a que al tener caras
simétricas el lado izquierdo como el derecho, estas serán iguales presentando resultados
no útiles en tal estudio. (Reyes, 2018)

Análisis difuso
Es la lógica que utiliza expresiones que nos son ni completamente ciertas ni falsas. Para
ejemplificar lo antes dicho podemos pensar en un desierto, este no deja de serlo si se le
quita un particular grano de arena. Es más real afirmar que conforme el Sahara pierde
arena, la afirmación de que es un desierto va haciéndose menos verdad y que al quitar el
ultimo grano, la verdad desaparece por completo. (Morillas)
Bibliografía

Granada, U. d. (s.f.). Estadistica. Obtenido de estadistica:


http://wpd.ugr.es/~bioestad/guia-spss/practica-8/#10

Morillas, A. (s.f.). eumed. Obtenido de eumed: https://www.eumed.net/libros-


gratis/2006b/amr/index.htm

Reyes, I. L. (6 de Abril de 2018). reyesestadistica. Obtenido de reyesestadistica:


http://reyesestadistica.blogspot.com/2018/04/analisis-grafico-de-datos-
multivariados.html

Robledo, C. (Julio de 2019). digibuo. Obtenido de digibuo:


https://digibuo.uniovi.es/dspace/bitstream/handle/10651/59630/TFM_CristianRo
bledoLete.pdf?sequence=4

Villardon, J. (2007). academia. Obtenido de academia:


https://www.academia.edu/download/32334872/cluster.pdf

Zelaya, J. T. (s.f.). scalahed. Obtenido de scalahed:


https://gc.scalahed.com/recursos/files/r161r/w24529w/S10/NotasAMD.pdf

También podría gustarte