Universidad Anáhuac Oaxaca
Ingeniería Industrial para la Dirección
Análisis multivariado
Mtro. David Guadalupe Gonzales Pérez
Saúl Fernando Aparicio Díaz
Oaxaca de Juárez a 01 de diciembre de 2023
Introducción
El Análisis Cluster, conocido como Análisis de Conglomerados, es una técnica estadística
multivariante que busca agrupar elementos (o variables) tratando de lograr la máxima
homogeneidad en cada grupo y la mayor diferencia entre los grupos.
El Análisis Cluster tiene una importante tradición de aplicación en muchas áreas de
investigación. Sin embargo, junto con los beneficios del Análisis Cluster existen algunos
inconvenientes. El Análisis Cluster es una técnica descriptiva, ateórica y no inferencial.
El Análisis Cluster no tiene bases estadísticas sobre las que deducir inferencias
estadísticas para una población a partir de una muestra, es un método basado en criterios
geométricos y se utiliza fundamentalmente como una técnica exploratoria, descriptiva
pero no explicativa.
Las soluciones no son únicas, en la medida en que la pertenencia al conglomerado para
cualquier número de soluciones depende de muchos elementos del procedimiento
elegido. Por otra parte, la solución cluster depende totalmente de las variables utilizadas,
la adición o destrucción de variables relevantes puede tener un impacto substancial sobre
la solución resultante.
o Antecedentes
El nombre en inglés de este tipo de análisis es cluster analysis y a los grupos que se
forman se les llama clusters, este término fue usado por primera vez por Tyron en 1939.
Este análisis tiene un gran número de aplicaciones en muchos campos del conocimiento,
pues en cierta forma puede contestar a la pregunta que se hacen los investigadores sobre
cómo organizar los datos observados en grupos para desarrollar alguna taxonomía.
Década de 1930: El estadístico y matemático británico Ronald A. Fisher desarrolló
métodos iniciales para el análisis de conglomerados en el contexto de análisis de varianza
y diseño experimental.
Década de 1940: El matemático y psicólogo alemán-psicólogo Karl Pearson contribuyó a
la teoría de conglomerados, introduciendo conceptos relacionados con la distancia entre
puntos en un espacio multidimensional.
Década de 1950: El estadístico y matemático estadounidense Abraham Wald propuso el
término "análisis de conglomerados" y lo describió como una técnica para clasificar
objetos en grupos homogéneos.
Décadas de 1960 y 1970: Durante este período, se desarrollaron diversos métodos y
algoritmos para el análisis de conglomerados. Uno de los métodos más conocidos es el
algoritmo de Ward, propuesto por Joe H. Ward Jr., que minimiza la varianza dentro de los
clústeres.
Décadas de 1980 y 1990: El análisis de conglomerados se popularizó con el crecimiento
de la informática y la disponibilidad de herramientas computacionales. La aplicación de
técnicas de análisis de conglomerados se extendió a campos como la biología, la
medicina, la minería de datos y la inteligencia artificial.
Las aplicaciones que tiene este análisis en investigaciones de mercados son
principalmente dos:
1. La segmentación de mercados, cuando los consumidores se agrupan en base
a su semejanza de acuerdo las preferencias respecto a las variables
seleccionadas o al beneficio que buscan al adquirir un producto
2. Comportamiento del consumidor, cuando se quiere identificar grupos de
compradores homogéneos
Áreas de aplicación
Segmentación de Mercado: Agrupar clientes o productos según características similares
para orientar estrategias de marketing.
Biológicas y Genéticas: Agrupar genes o especies según similitudes genéticas o
características biológicas.
Análisis de Texto: Agrupar documentos o palabras según similitud en su contenido.
Análisis de Datos Sociales: Agrupar individuos según comportamientos o características
sociales.
Diagnóstico Médico: Agrupar pacientes según características médicas similares.
o Decisiones a tomar
1. Selección de Variables: Las variables seleccionadas deben ser relevantes para
el objetivo del análisis y representar las características clave de los elementos
que estás agrupando.
2. Elección de la Métrica de Distancia: Selecciona la métrica de distancia o
similitud que mejor se ajuste a tus datos y objetivos.
3. Estándar o Normalización de Datos: Decide si es necesario estandarizar o
normalizar tus datos.
4. Método de Enlace: Elige un método de enlace para determinar la distancia
entre clústeres durante la construcción del dendrograma. Algunos métodos
comunes son el enlace único, completo y promedio.
5. Número de Clústeres: Decide cuántos clústeres deseas identificar. Puedes
utilizar métodos como el codo (codo de Jambú) en la suma de cuadrados intra-
cluster, el índice de Dunn, o criterios más específicos para determinar el
número óptimo de clústeres.
6. Interpretación de Resultados: La interpretación a menudo implica examinar las
características distintivas de cada clúster y entender su relevancia para tu
investigación.
7. Validación del Análisis: Piensa en cómo validarás los resultados. La validación
puede incluir el uso de índices internos (como el índice de Davies-Bouldin) o
externos (comparación con datos de referencia o con conocimientos previos).
8. Manejo de Outliers: Decide cómo manejarás los valores atípicos. Los valores
atípicos pueden influir significativamente en los resultados del análisis de
conglomerados, por lo que es crucial determinar si los eliminarás, ajustarás o
tratarás de otra manera.
9. Elección del Software: Elige la herramienta de software adecuada para realizar
el análisis. Hay varios paquetes y programas disponibles, como R, Python (con
bibliotecas como scikit-learn), SPSS, y otros.
o Pasos a seguir en un análisis de conglomerados
Exploración de los datos: El primer paso es explorar los datos para comprender su
distribución y características. Esto se puede hacer mediante el uso de gráficos y tablas.
Algunos gráficos y tablas comunes que se utilizan para explorar datos de conglomerados
incluyen:
Histogramas
Diagramas de caja y bigotes
Tablas de contingencia
Selección de las variables: El siguiente paso es seleccionar las variables que se utilizarán
para agrupar los datos. Las variables deben ser relevantes análisis no para el objetivo del
análisis y deben tener una distribución similar. Si las variables tienen distribuciones muy
diferentes, es posible que él sea válido.
Elección de la medida de similitud: La medida de similitud se utiliza para cuantificar la
similitud entre los objetos. Hay muchas medidas de similitud diferentes, cada una con sus
propias ventajas y desventajas:
Distancia euclidiana: La distancia euclidiana es la distancia entre dos puntos en un
espacio euclidiano.
Distancia de Mahalanobis: La distancia de Mahalanobis es una medida de similitud
que tiene en cuenta la varianza de las variables.
Correlación: La correlación es una medida de la relación lineal entre dos variables.
Elección del método de agrupación: Hay muchos métodos diferentes de agrupación, cada
uno con sus propias ventajas y desventajas.:
Métodos jerárquicos
Métodos de división
Métodos de optimización
Interpretación de los resultados: El último paso es interpretar los resultados del análisis.
Esto se puede hacer mediante el uso de gráficos, tablas y análisis estadísticos.:
Dendrogramas: Los dendrogramas se utilizan para visualizar los resultados de un
análisis jerárquico.
Matriz de confusión: La matriz de confusión se utiliza para evaluar la precisión de
un análisis de conglomerados.
Análisis de componentes principales: El análisis de componentes principales se
utiliza para reducir la dimensionalidad de los datos y facilitar su interpretación.
Métodos jerárquicos
o Método jerárquico aglomerativo
Estos métodos comienzan con cada objeto en su propio grupo y luego van fusionando
grupos de objetos similares hasta que se alcanza el número deseado de grupos.
Los métodos jerárquicos aglomerativos son los métodos más comunes de análisis de
conglomerados jerárquico. Estos métodos se basan en la idea de minimizar la distancia
entre los objetos dentro de un grupo y maximizar la distancia entre los objetos de
diferentes grupos.
Los métodos jerárquicos aglomerativos se pueden clasificar en función de la medida de
similitud utilizada:
Métodos de distancia: Estos métodos utilizan una medida de distancia para
cuantificar la similitud entre los objetos. Algunas de las medidas de distancia más
comunes incluyen la distancia euclidiana, la distancia de Mahalanobis y la
distancia de Manhattan.
Métodos de similitud: Estos métodos utilizan una medida de similitud para
cuantificar la similitud entre los objetos. Algunas de las medidas de similitud más
comunes incluyen la correlación, la covarianza y el coeficiente de Jaccard.
o Método jerárquico divisional
Los métodos jerárquicos divisivos son menos comunes que los métodos jerárquicos
aglomerativos. Estos métodos se basan en la idea de maximizar la distancia entre los
objetos dentro de un grupo y minimizar la distancia entre los objetos de diferentes grupos.
Los métodos jerárquicos divisivos se pueden clasificar en función del criterio utilizado para
dividir los grupos:
Métodos de enlace mínimo: Estos métodos dividen los grupos fusionando los dos
grupos que tengan la menor distancia entre sí.
Métodos de enlace máximo: Estos métodos dividen los grupos fusionando los dos
grupos que tengan la mayor distancia entre sí.
Métodos de enlace promedio: Estos métodos dividen los grupos fusionando los
dos grupos que tengan la distancia promedio entre sí.
Interpretación de los resultados
Los resultados de un análisis de conglomerados jerárquico se pueden visualizar mediante
un dendrograma. Un dendrograma es un diagrama que muestra la jerarquía de los
grupos.
Altura del nodo
Longitud de la rama
Posición del nodo
Ventajas:
Son fáciles de entender y de interpretar.
Son relativamente eficientes en términos computacionales.
Pueden utilizarse para encontrar cualquier número de grupos.
Desventajas:
Pueden ser sensibles a la elección de la medida de similitud.
Pueden ser sensibles al orden de los datos.
Pueden producir resultados no óptimos.
Método de agrupamiento no jerárquico
El método de agrupamiento no jerárquico, también conocido como particional, divide el
conjunto de datos en un número predeterminado de clústeres sin formar una estructura
jerárquica. Uno de los algoritmos de agrupamiento no jerárquico más conocidos es el
algoritmo K-means.
K-means
K-medoids
C-means
Agglomerative hierarchical clustering.
Ventajas
Son relativamente eficientes en términos computacionales.
Pueden utilizarse para encontrar cualquier número de grupos.
Desventajas
Pueden ser sensibles a la elección de la medida de similitud.
Pueden ser sensibles al orden de los datos.
Pueden producir resultados no óptimos.
o Método de reasignación o basado en el centroide
Estos métodos se pueden dividir en dos categorías principales:
Métodos de reasignación: Estos métodos comienzan con una partición inicial de
los datos y luego van reasignando los objetos a los grupos que mejor se ajusten a
ellos.
1. Se asigna cada objeto al grupo que tiene el centroide más cercano.
2. Se calculan los nuevos centroides para cada grupo.
3. Se repiten los pasos 1 y 2 hasta que la partición de los datos no cambie.
Métodos basados en el centroide: Estos métodos comienzan con un conjunto de
centroides iniciales y luego van reasignando los objetos a los grupos que tienen el
centroide más cercano.
1. Se seleccionan aleatoriamente un conjunto de centroides iniciales.
2. Se asignan todos los objetos al grupo que tiene el centroide más cercano.
3. Se calculan los nuevos centroides para cada grupo.
4. Se repiten los pasos 2 y 3 hasta que los centroides no cambien o hasta que
se alcance un número máximo de iteraciones.
o Método de búsqueda de la densidad
Los métodos de búsqueda de la densidad son una clase de métodos de agrupación no
jerárquico que se basan en la idea de agrupar los objetos que se encuentran en áreas de
alta densidad.
Estos métodos se pueden dividir en dos categorías principales:
1. Métodos basados en la densidad: Estos métodos utilizan una medida de densidad
para identificar las áreas de alta densidad.
Los métodos basados en la densidad son los métodos más comunes de búsqueda de la
densidad. Estos métodos se basan en el siguiente algoritmo:
Se calcula la densidad de cada objeto.
Se identifican los objetos que tienen una densidad superior a un umbral dado.
Se agrupan los objetos que se encuentran conectados entre sí.
2. Métodos basados en la conectividad: Estos métodos utilizan una medida de
conectividad para identificar los objetos que están conectados entre sí.
Los métodos basados en la conectividad son similares a los métodos basados en la
densidad, pero utilizan un enfoque diferente para identificar los objetos que se encuentran
conectados entre sí. Estos métodos se basan en el siguiente algoritmo:
Se construye una red de conectividad entre los objetos.
Se identifican los componentes conectados de la red.
Los objetos que pertenecen al mismo componente conectado se agrupan.
o Método de reducción de dimensiones
Los métodos de reducción de dimensiones son una clase de técnicas estadísticas que se
utilizan para reducir el número de variables en un conjunto de datos.
Los métodos de reducción de dimensiones se pueden dividir en dos categorías
principales:
Métodos no supervisados: Estos métodos no utilizan etiquetas o información de
clases para reducir las dimensiones.
Los métodos no supervisados son los métodos más comunes de reducción de
dimensiones. Estos métodos se basan en la idea de preservar la información importante
de los datos mientras se reducen las dimensiones.
Análisis de componentes principales (PCA
Reducción de la dimensionalidad de la matriz de correlación
Análisis de componentes independientes (ICA
Métodos supervisados: Estos métodos utilizan etiquetas o información de clases
para reducir las dimensiones.
Los métodos supervisados son menos comunes que los métodos no supervisados. Estos
métodos se basan en la idea de preservar la información importante de los datos para una
tarea de aprendizaje automático específica.
o Técnica de k-promedios
K-means (K-promedios):
El algoritmo K-means es una técnica de agrupamiento que busca particionar un
conjunto de datos en k clústeres, donde k es un número predefinido. Los pasos
principales del algoritmo son los siguientes:
Inicialización de Centroides: Selecciona k centroides iniciales, que pueden ser
elegidos aleatoriamente o mediante algún otro método (por ejemplo, k-means++).
Asignación de Puntos al Clúster más Cercano: Asigna cada punto de datos al
centroide más cercano según alguna medida de distancia (comúnmente, la
distancia euclidiana).
Actualización de Centroides: Calcula los nuevos centroides como el promedio de
todos los puntos asignados a cada clúster.
Iteración: Repite los pasos 2 y 3 hasta que no haya cambios significativos en la
asignación de puntos a clústeres o hasta alcanzar un número predeterminado de
iteraciones.
Resultados: Los centroides finales representan los centros de los clústeres. Los
puntos se asignan al clúster cuyo centroide es el más cercano.
Bibliografía
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2018). Multivariate Data Analysis
(8th ed.). Cengage Learning.
Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th ed.). Wiley.
Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Data Clustering: A Review. ACM Computing
Surveys (CSUR), 31(3), 264-323.
Milligan, G. W., & Cooper, M. C. (1988). A study of the comparability of external criteria for
hierarchical cluster analysis. Multivariate Behavioral Research, 23(3), 441-458.
Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to
Cluster Analysis. Wiley.