0% encontró este documento útil (0 votos)
47 vistas10 páginas

3F03 Aparicio Saul AMult2023

Este documento describe el análisis de conglomerados o análisis cluster, incluyendo sus antecedentes, áreas de aplicación, decisiones a tomar, pasos a seguir y métodos jerárquicos. El análisis cluster agrupa elementos tratando de lograr homogeneidad dentro de los grupos y diferencia entre ellos.

Cargado por

saul fer
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
47 vistas10 páginas

3F03 Aparicio Saul AMult2023

Este documento describe el análisis de conglomerados o análisis cluster, incluyendo sus antecedentes, áreas de aplicación, decisiones a tomar, pasos a seguir y métodos jerárquicos. El análisis cluster agrupa elementos tratando de lograr homogeneidad dentro de los grupos y diferencia entre ellos.

Cargado por

saul fer
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Universidad Anáhuac Oaxaca

Ingeniería Industrial para la Dirección

Análisis multivariado

Mtro. David Guadalupe Gonzales Pérez


Saúl Fernando Aparicio Díaz

Oaxaca de Juárez a 01 de diciembre de 2023


Introducción
El Análisis Cluster, conocido como Análisis de Conglomerados, es una técnica estadística
multivariante que busca agrupar elementos (o variables) tratando de lograr la máxima
homogeneidad en cada grupo y la mayor diferencia entre los grupos.

El Análisis Cluster tiene una importante tradición de aplicación en muchas áreas de


investigación. Sin embargo, junto con los beneficios del Análisis Cluster existen algunos
inconvenientes. El Análisis Cluster es una técnica descriptiva, ateórica y no inferencial.

El Análisis Cluster no tiene bases estadísticas sobre las que deducir inferencias
estadísticas para una población a partir de una muestra, es un método basado en criterios
geométricos y se utiliza fundamentalmente como una técnica exploratoria, descriptiva
pero no explicativa.

Las soluciones no son únicas, en la medida en que la pertenencia al conglomerado para


cualquier número de soluciones depende de muchos elementos del procedimiento
elegido. Por otra parte, la solución cluster depende totalmente de las variables utilizadas,
la adición o destrucción de variables relevantes puede tener un impacto substancial sobre
la solución resultante.

o Antecedentes

El nombre en inglés de este tipo de análisis es cluster analysis y a los grupos que se
forman se les llama clusters, este término fue usado por primera vez por Tyron en 1939.
Este análisis tiene un gran número de aplicaciones en muchos campos del conocimiento,
pues en cierta forma puede contestar a la pregunta que se hacen los investigadores sobre
cómo organizar los datos observados en grupos para desarrollar alguna taxonomía.

Década de 1930: El estadístico y matemático británico Ronald A. Fisher desarrolló


métodos iniciales para el análisis de conglomerados en el contexto de análisis de varianza
y diseño experimental.

Década de 1940: El matemático y psicólogo alemán-psicólogo Karl Pearson contribuyó a


la teoría de conglomerados, introduciendo conceptos relacionados con la distancia entre
puntos en un espacio multidimensional.

Década de 1950: El estadístico y matemático estadounidense Abraham Wald propuso el


término "análisis de conglomerados" y lo describió como una técnica para clasificar
objetos en grupos homogéneos.
Décadas de 1960 y 1970: Durante este período, se desarrollaron diversos métodos y
algoritmos para el análisis de conglomerados. Uno de los métodos más conocidos es el
algoritmo de Ward, propuesto por Joe H. Ward Jr., que minimiza la varianza dentro de los
clústeres.

Décadas de 1980 y 1990: El análisis de conglomerados se popularizó con el crecimiento


de la informática y la disponibilidad de herramientas computacionales. La aplicación de
técnicas de análisis de conglomerados se extendió a campos como la biología, la
medicina, la minería de datos y la inteligencia artificial.

Las aplicaciones que tiene este análisis en investigaciones de mercados son


principalmente dos:

1. La segmentación de mercados, cuando los consumidores se agrupan en base


a su semejanza de acuerdo las preferencias respecto a las variables
seleccionadas o al beneficio que buscan al adquirir un producto
2. Comportamiento del consumidor, cuando se quiere identificar grupos de
compradores homogéneos

Áreas de aplicación

Segmentación de Mercado: Agrupar clientes o productos según características similares


para orientar estrategias de marketing.

Biológicas y Genéticas: Agrupar genes o especies según similitudes genéticas o


características biológicas.

Análisis de Texto: Agrupar documentos o palabras según similitud en su contenido.

Análisis de Datos Sociales: Agrupar individuos según comportamientos o características


sociales.

Diagnóstico Médico: Agrupar pacientes según características médicas similares.

o Decisiones a tomar
1. Selección de Variables: Las variables seleccionadas deben ser relevantes para
el objetivo del análisis y representar las características clave de los elementos
que estás agrupando.
2. Elección de la Métrica de Distancia: Selecciona la métrica de distancia o
similitud que mejor se ajuste a tus datos y objetivos.
3. Estándar o Normalización de Datos: Decide si es necesario estandarizar o
normalizar tus datos.
4. Método de Enlace: Elige un método de enlace para determinar la distancia
entre clústeres durante la construcción del dendrograma. Algunos métodos
comunes son el enlace único, completo y promedio.
5. Número de Clústeres: Decide cuántos clústeres deseas identificar. Puedes
utilizar métodos como el codo (codo de Jambú) en la suma de cuadrados intra-
cluster, el índice de Dunn, o criterios más específicos para determinar el
número óptimo de clústeres.
6. Interpretación de Resultados: La interpretación a menudo implica examinar las
características distintivas de cada clúster y entender su relevancia para tu
investigación.
7. Validación del Análisis: Piensa en cómo validarás los resultados. La validación
puede incluir el uso de índices internos (como el índice de Davies-Bouldin) o
externos (comparación con datos de referencia o con conocimientos previos).
8. Manejo de Outliers: Decide cómo manejarás los valores atípicos. Los valores
atípicos pueden influir significativamente en los resultados del análisis de
conglomerados, por lo que es crucial determinar si los eliminarás, ajustarás o
tratarás de otra manera.
9. Elección del Software: Elige la herramienta de software adecuada para realizar
el análisis. Hay varios paquetes y programas disponibles, como R, Python (con
bibliotecas como scikit-learn), SPSS, y otros.
o Pasos a seguir en un análisis de conglomerados

Exploración de los datos: El primer paso es explorar los datos para comprender su
distribución y características. Esto se puede hacer mediante el uso de gráficos y tablas.
Algunos gráficos y tablas comunes que se utilizan para explorar datos de conglomerados
incluyen:

 Histogramas
 Diagramas de caja y bigotes
 Tablas de contingencia

Selección de las variables: El siguiente paso es seleccionar las variables que se utilizarán
para agrupar los datos. Las variables deben ser relevantes análisis no para el objetivo del
análisis y deben tener una distribución similar. Si las variables tienen distribuciones muy
diferentes, es posible que él sea válido.

Elección de la medida de similitud: La medida de similitud se utiliza para cuantificar la


similitud entre los objetos. Hay muchas medidas de similitud diferentes, cada una con sus
propias ventajas y desventajas:

 Distancia euclidiana: La distancia euclidiana es la distancia entre dos puntos en un


espacio euclidiano.
 Distancia de Mahalanobis: La distancia de Mahalanobis es una medida de similitud
que tiene en cuenta la varianza de las variables.
 Correlación: La correlación es una medida de la relación lineal entre dos variables.

Elección del método de agrupación: Hay muchos métodos diferentes de agrupación, cada
uno con sus propias ventajas y desventajas.:

 Métodos jerárquicos
 Métodos de división
 Métodos de optimización

Interpretación de los resultados: El último paso es interpretar los resultados del análisis.
Esto se puede hacer mediante el uso de gráficos, tablas y análisis estadísticos.:

 Dendrogramas: Los dendrogramas se utilizan para visualizar los resultados de un


análisis jerárquico.
 Matriz de confusión: La matriz de confusión se utiliza para evaluar la precisión de
un análisis de conglomerados.
 Análisis de componentes principales: El análisis de componentes principales se
utiliza para reducir la dimensionalidad de los datos y facilitar su interpretación.

Métodos jerárquicos

o Método jerárquico aglomerativo

Estos métodos comienzan con cada objeto en su propio grupo y luego van fusionando
grupos de objetos similares hasta que se alcanza el número deseado de grupos.
Los métodos jerárquicos aglomerativos son los métodos más comunes de análisis de
conglomerados jerárquico. Estos métodos se basan en la idea de minimizar la distancia
entre los objetos dentro de un grupo y maximizar la distancia entre los objetos de
diferentes grupos.
Los métodos jerárquicos aglomerativos se pueden clasificar en función de la medida de
similitud utilizada:

 Métodos de distancia: Estos métodos utilizan una medida de distancia para


cuantificar la similitud entre los objetos. Algunas de las medidas de distancia más
comunes incluyen la distancia euclidiana, la distancia de Mahalanobis y la
distancia de Manhattan.
 Métodos de similitud: Estos métodos utilizan una medida de similitud para
cuantificar la similitud entre los objetos. Algunas de las medidas de similitud más
comunes incluyen la correlación, la covarianza y el coeficiente de Jaccard.

o Método jerárquico divisional

Los métodos jerárquicos divisivos son menos comunes que los métodos jerárquicos
aglomerativos. Estos métodos se basan en la idea de maximizar la distancia entre los
objetos dentro de un grupo y minimizar la distancia entre los objetos de diferentes grupos.
Los métodos jerárquicos divisivos se pueden clasificar en función del criterio utilizado para
dividir los grupos:

 Métodos de enlace mínimo: Estos métodos dividen los grupos fusionando los dos
grupos que tengan la menor distancia entre sí.
 Métodos de enlace máximo: Estos métodos dividen los grupos fusionando los dos
grupos que tengan la mayor distancia entre sí.
 Métodos de enlace promedio: Estos métodos dividen los grupos fusionando los
dos grupos que tengan la distancia promedio entre sí.
Interpretación de los resultados
Los resultados de un análisis de conglomerados jerárquico se pueden visualizar mediante
un dendrograma. Un dendrograma es un diagrama que muestra la jerarquía de los
grupos.

 Altura del nodo


 Longitud de la rama
 Posición del nodo
Ventajas:

 Son fáciles de entender y de interpretar.


 Son relativamente eficientes en términos computacionales.
 Pueden utilizarse para encontrar cualquier número de grupos.
Desventajas:

 Pueden ser sensibles a la elección de la medida de similitud.


 Pueden ser sensibles al orden de los datos.
 Pueden producir resultados no óptimos.
Método de agrupamiento no jerárquico

El método de agrupamiento no jerárquico, también conocido como particional, divide el


conjunto de datos en un número predeterminado de clústeres sin formar una estructura
jerárquica. Uno de los algoritmos de agrupamiento no jerárquico más conocidos es el
algoritmo K-means.

 K-means
 K-medoids
 C-means
 Agglomerative hierarchical clustering.
Ventajas

 Son relativamente eficientes en términos computacionales.


 Pueden utilizarse para encontrar cualquier número de grupos.
Desventajas

 Pueden ser sensibles a la elección de la medida de similitud.


 Pueden ser sensibles al orden de los datos.
 Pueden producir resultados no óptimos.

o Método de reasignación o basado en el centroide

Estos métodos se pueden dividir en dos categorías principales:

 Métodos de reasignación: Estos métodos comienzan con una partición inicial de


los datos y luego van reasignando los objetos a los grupos que mejor se ajusten a
ellos.
1. Se asigna cada objeto al grupo que tiene el centroide más cercano.
2. Se calculan los nuevos centroides para cada grupo.
3. Se repiten los pasos 1 y 2 hasta que la partición de los datos no cambie.
 Métodos basados en el centroide: Estos métodos comienzan con un conjunto de
centroides iniciales y luego van reasignando los objetos a los grupos que tienen el
centroide más cercano.
1. Se seleccionan aleatoriamente un conjunto de centroides iniciales.
2. Se asignan todos los objetos al grupo que tiene el centroide más cercano.
3. Se calculan los nuevos centroides para cada grupo.
4. Se repiten los pasos 2 y 3 hasta que los centroides no cambien o hasta que
se alcance un número máximo de iteraciones.

o Método de búsqueda de la densidad

Los métodos de búsqueda de la densidad son una clase de métodos de agrupación no


jerárquico que se basan en la idea de agrupar los objetos que se encuentran en áreas de
alta densidad.
Estos métodos se pueden dividir en dos categorías principales:
1. Métodos basados en la densidad: Estos métodos utilizan una medida de densidad
para identificar las áreas de alta densidad.
Los métodos basados en la densidad son los métodos más comunes de búsqueda de la
densidad. Estos métodos se basan en el siguiente algoritmo:

 Se calcula la densidad de cada objeto.


 Se identifican los objetos que tienen una densidad superior a un umbral dado.
 Se agrupan los objetos que se encuentran conectados entre sí.

2. Métodos basados en la conectividad: Estos métodos utilizan una medida de


conectividad para identificar los objetos que están conectados entre sí.
Los métodos basados en la conectividad son similares a los métodos basados en la
densidad, pero utilizan un enfoque diferente para identificar los objetos que se encuentran
conectados entre sí. Estos métodos se basan en el siguiente algoritmo:

 Se construye una red de conectividad entre los objetos.


 Se identifican los componentes conectados de la red.
 Los objetos que pertenecen al mismo componente conectado se agrupan.

o Método de reducción de dimensiones

Los métodos de reducción de dimensiones son una clase de técnicas estadísticas que se
utilizan para reducir el número de variables en un conjunto de datos.
Los métodos de reducción de dimensiones se pueden dividir en dos categorías
principales:

 Métodos no supervisados: Estos métodos no utilizan etiquetas o información de


clases para reducir las dimensiones.
Los métodos no supervisados son los métodos más comunes de reducción de
dimensiones. Estos métodos se basan en la idea de preservar la información importante
de los datos mientras se reducen las dimensiones.
Análisis de componentes principales (PCA
Reducción de la dimensionalidad de la matriz de correlación
Análisis de componentes independientes (ICA

 Métodos supervisados: Estos métodos utilizan etiquetas o información de clases


para reducir las dimensiones.
Los métodos supervisados son menos comunes que los métodos no supervisados. Estos
métodos se basan en la idea de preservar la información importante de los datos para una
tarea de aprendizaje automático específica.

o Técnica de k-promedios

K-means (K-promedios):
El algoritmo K-means es una técnica de agrupamiento que busca particionar un
conjunto de datos en k clústeres, donde k es un número predefinido. Los pasos
principales del algoritmo son los siguientes:
Inicialización de Centroides: Selecciona k centroides iniciales, que pueden ser
elegidos aleatoriamente o mediante algún otro método (por ejemplo, k-means++).
Asignación de Puntos al Clúster más Cercano: Asigna cada punto de datos al
centroide más cercano según alguna medida de distancia (comúnmente, la
distancia euclidiana).
Actualización de Centroides: Calcula los nuevos centroides como el promedio de
todos los puntos asignados a cada clúster.
Iteración: Repite los pasos 2 y 3 hasta que no haya cambios significativos en la
asignación de puntos a clústeres o hasta alcanzar un número predeterminado de
iteraciones.
Resultados: Los centroides finales representan los centros de los clústeres. Los
puntos se asignan al clúster cuyo centroide es el más cercano.
Bibliografía
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2018). Multivariate Data Analysis
(8th ed.). Cengage Learning.
Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th ed.). Wiley.
Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Data Clustering: A Review. ACM Computing
Surveys (CSUR), 31(3), 264-323.
Milligan, G. W., & Cooper, M. C. (1988). A study of the comparability of external criteria for
hierarchical cluster analysis. Multivariate Behavioral Research, 23(3), 441-458.
Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to
Cluster Analysis. Wiley.

También podría gustarte