UV0745
Rev. Mar. 28, 2018
Análisis de clústeres para la segmentación
Introducción
Todos sabemos que los consumidores no son todos iguales. Esto supone un reto para el desarrollo y la comercia-
lización de productos y servicios rentables. No todas las ofertas serán adecuadas para todos los clientes, ni todos los
clientes responderán por igual a sus esfuerzos de marketing. La segmentación es una forma de organizar a los clientes
en grupos con rasgos, preferencias de producto o expectativas similares. Una vez identificados los segmentos, los
mensajes de marketing y, en muchos casos, incluso los productos pueden personalizarse para cada segmento. Cuanto
mejor sea el segmento o los segmentos elegidos como objetivo por una organización concreta, más éxito se supone que
tendrá la organización en el mercado. Desde su introducción a finales de los años 50, la segmentación del mercado se
ha convertido en un concepto central de la práctica del marketing.
Los segmentos se construyen sobre la base de las características demográficas de los clientes (1); las característi-
cas psicográficas (2); los beneficios deseados de los productos/servicios (3); y los comportamientos de compra y uso de
los productos en el pasado (4). En la actualidad, la mayoría de las empresas dispone de abundante información sobre el
comportamiento de compra real de los clientes y sus características geodemográficas y psicográficas. En los casos en
los que las empresas no tienen acceso a información detallada sobre cada cliente, se puede utilizar como base para la
segmentación la información de las encuestas realizadas a una muestra representativa de los clientes.
Un ejemplo
Pensemos en Geico, una compañía de seguros de automóviles. Supongamos que Geico planea hipotéticamente
personalizar su oferta de seguros de automóviles y necesita entender qué es lo que sus clientes consideran importante de
su proveedor de seguros. Geico puede pedir a sus clientes que califiquen la importancia de los dos atributos siguientes
a la hora de considerar el tipo de seguro de automóvil que utilizarían:
• ahorro en la prima
• existencia de un agente de barrio
La importancia de los atributos se mide utilizando una escala tipo Likert de siete puntos, en la que una calificación
de uno representa que no es importante y siete representa que es muy importante. A menos que todos los encuestados
den calificaciones idénticas, los datos contendrán variaciones que se pueden utilizar para agrupar o poner en clúster
a los encuestados, y esas agrupaciones son los segmentos. Las agrupaciones de clientes son más similares entre sí si
forman parte del mismo segmento y más diferentes entre sí si forman parte de segmentos diferentes. Por inferencia, en-
tonces, las acciones tomadas hacia los clientes en el mismo segmento deben llevar a respuestas similares, y las acciones
tomadas hacia los clientes en diferentes segmentos deben llevar a respuestas diferente.
Esta nota técnica fue elaborada por Rajkumar Venkatesan, profesor asociado de Administración de Empresas. Copyright 2007 por la Fundación de la
Escuela Darden de la Universidad de Virginia, Charlottesville, VA. Todos los derechos reservados. Para solicitar ejemplares, envíe un correo electró-
nico a sales@[Link]. Ninguna parte de esta publicación puede ser reproducida, almacenada en un sistema de recuperación,
utilizada en una hoja de cálculo o transmitida en cualquier forma o por cualquier medio -electrónico, mecánico, de fotocopia, de grabación o de
otro tipo- sin el permiso de la Darden School Foundation. Nuestro objetivo es publicar materiales de la máxima calidad, por lo que le rogamos que
envíe cualquier errata a editorial@[Link].
Este material fue proporcionado por la Administración de Materiales Académicos (AMA) del Sistema de Bibliotecas - INCAE Business School,
para ser usado exclusivamente en: INCAE ONLINE - Habilidades Analíticas para Mercadeo por el Profesor Ramiro Casó,
Noviembre-01-2021 - Diciembre-31-2021. Contacto: casos@[Link]
Página 2 UV0745
Otra forma de decir esto es que los aspectos del seguro de automóvil que son importantes para cualquier cliente
de un segmento también serán importantes para otros clientes de ese mismo segmento. Además, esos aspectos que son
importantes para ese cliente serán diferentes de los que son importantes para un cliente de un segmento diferente. La
Figura 1 muestra cómo podría ser el análisis en este ejemplo:
Figura 1. Segmentación de los clientes de Geico.
Ahorros premium
Muy importante
Segmento A Segmento C
(49%) (15%)
Agente Agente
No es importante Muy importante
Segmento B
(36%)
Ahorros premium
No es importante
Fuente: Todas las cifras han sido creadas por el autor del caso, a menos que se indique lo contrario.
El análisis muestra tres segmentos distintos. La mayoría de los clientes de Geico (segmento A, 49%) prefiere el
ahorro en la prima y no prefiere tener un agente de barrio. Los clientes que pertenecen al segmento B (alrededor del
36%) prefieren tener un agente de barrio y el ahorro en la prima no es importante para ellos. Algunos clientes (segmento
C, 15%) prefieren tanto el ahorro en su prima como tener un agente de proximidad. Este análisis muestra que Geico
puede beneficiarse añadiendo un canal fuera de línea (es decir, desarrollando una red de agentes de barrio) para atender
al segmento B y también cobrarles una prima más alta por proporcionar esta comodidad. Por supuesto, la advertencia
es el aumento de la competencia con otros proveedores de seguros, como Allstate y State Farm, que ya ofrecen este
servicio.
Análisis de clústeres
El análisis de clústeres es una clase de técnicas estadísticas que pueden aplicarse a los datos que presentan agrupa-
ciones naturales. El análisis de clústeres no distingue entre variables dependientes e independientes. Se examina todo el
conjunto de relaciones interdependientes. El análisis de clústeres clasifica los datos brutos de los clientes y los agrupa en
clústeres. Un clúster es un grupo de clientes relativamente homogéneos. Los clientes que pertenecen a un mismo clúster
son similares entre sí. También son diferentes a los clientes que no pertenecen al clúster, especialmente
Este material fue proporcionado por la Administración de Materiales Académicos (AMA) del Sistema de Bibliotecas - INCAE Business School,
para ser usado exclusivamente en: INCAE ONLINE - Habilidades Analíticas para Mercadeo por el Profesor Ramiro Casó,
Noviembre-01-2021 - Diciembre-31-2021. Contacto: casos@[Link]
Página 3 UV0745
a los de otros clústeres. El principal dato de entrada para el análisis de clústeres es una medida de similitud entre clien-
tes, como los coeficientes de correlación, las medidas de distancia y los coeficientes de asociación.
A continuación se describen los pasos básicos del análisis de clústeres:
1. Formula el problema: selecciona las variables que deseas utilizar como base para el clustering.
2. Calcula la distancia entre los clientes a lo largo de las variables seleccionadas.
3. Aplica el procedimiento de clustering a las medidas de distancia.
4. Decide el número de clústeres.
5. Mapea e interpreta los clústeres -saca conclusiones-, son útiles las técnicas ilustrativas como los mapa
perceptivos.
Medidas de distancia
La entrada principal en cualquier procedimiento de análisis de clústeres es una medida de distancia entre los indi-
viduos que se están agrupando. El objetivo de una medida de distancia es cuantificar la diferencia entre dos individuos
en las variables que se utilizan para la segmentación. Una distancia menor (mayor) entre dos individuos implicaría que
tienen preferencias similares (disímiles) en las variables de segmentación. La distancia entre dos individuos se obtiene
mediante una medida llamada distancia euclidiana. Si dos individuos, Joe y Sam, se agrupan sobre la base de n varia-
bles, la distancia euclidiana entre Joe y Sam se representa como:
Distancia euclidiana = (xJoe,1 – xSam,1) 2 + ... + (xJoe,n – xSam,n )2
donde:
xJoe,1 = el valor de Joe a lo largo de la variable 1, y
XSam,1 = el valor de Sam a lo largo de la variable 1.
Se puede crear una matriz de distancia por pares entre los individuos que se están agrupando utilizando la medida
de distancia euclidiana. Ampliando el ejemplo anterior, consideremos a tres personas -Joe, Sam y Sara- que se agrupan
en función de su preferencia por la prima de ahorro y el agente de proximidad. Las valoraciones de importancia de estos
dos atributos para Joe, Sam y Sara se muestran en la Tabla 1.
Tabla 1. Datos de muestra para el análisis de clústeres.
Nombre individual Puntuación de importancia
Ahorros premium Agente de barrio
Joe 4 7
Sam 3 4
Sara 5 3
Este material fue proporcionado por la Administración de Materiales Académicos (AMA) del Sistema de Bibliotecas - INCAE Business School,
para ser usado exclusivamente en: INCAE ONLINE - Habilidades Analíticas para Mercadeo por el Profesor Ramiro Casó,
Noviembre-01-2021 - Diciembre-31-2021. Contacto: casos@[Link]
Página 4 UV0745
La distancia euclidiana entre Joe y Sam se obtiene como:
Distancia euclidiana (Joe, Sam) =
(4 – 3) 2 + (7 – 4 )2 = 3.2.
El primer término de esta medida de distancia euclidiana es la diferencia al cuadrado entre Joe y Sam en la puntuación
de importancia de la prima de ahorro, y el segundo término es la diferencia al cuadrado entre ellos en la puntuación
de importancia del agente de barrio. A continuación, se calculan las distancias euclidianas para cada combinación por
pares de los tres individuos que se agrupan para obtener una matriz de distancias por pares. La matriz de distancias por
pares para Joe, Sam y Sara se muestra en la Tabla 2.
Tabla 2. Matriz de distancia por pares.
Joe Sam Sara
Joe 0 3.2 4.1
Sam 0 2.2
Sara 0
La distancia entre Joe y Sam es de 3.2, como se muestra en la Tabla 2. Esta matriz de distancia entre pares se
proporciona como entrada a un algoritmo de clustering.
Algoritmo de agrupación K-Medias
El clustering de K-medias pertenece a la clase no jerárquica de los algoritmos de clustering. Es uno de los algo-
ritmos más populares utilizados para el clustering en la práctica debido a su simplicidad y velocidad. Se considera que
es más robusto a diferentes tipos de variables, es más apropiado para grandes conjuntos de datos que son comunes en
el marketing, y es menos sensible a algunos clientes que son valores atípicos (en otras palabras, extremadamente dife-
rentes de los demás).
Para el clustering de K-medias el usuario tiene que especificar el número de clústeres necesarios antes de iniciar
el algoritmo de clustering. El algoritmo básico de la agrupación K-medias es el siguiente:
Algoritmo
1. Elige el número de clústeres, k.
2. Genera puntos k aleatorios como centros de clúster.
3. Asigna cada punto al centroide del clúster más cercano.
4. Recalcula el nuevo centroide del clúster.
5. Repite los dos pasos anteriores hasta que se cumpla algún criterio de convergencia. Normalmente el criterio
de convergencia es que la asignación de los clientes a los clústeres no haya cambiado a lo largo de múltiples
iteraciones.
Este material fue proporcionado por la Administración de Materiales Académicos (AMA) del Sistema de Bibliotecas - INCAE Business School,
para ser usado exclusivamente en: INCAE ONLINE - Habilidades Analíticas para Mercadeo por el Profesor Ramiro Casó,
Noviembre-01-2021 - Diciembre-31-2021. Contacto: casos@[Link]
Página 5 UV0745
El centroide de un clúster es simplemente la media de todos los puntos de ese clúster. Sus coordenadas son la
media aritmética de cada dimensión por separado sobre todos los puntos del clúster. Consideremos a Joe, Sam y Sara
en el ejemplo anterior. Representémoslos en base a sus valoraciones de importancia en Ahorro premium y Agente de
barrio como: Joe = {4,7}, Sam = {3,4}, Sara = {5,3}. Si se asume que pertenecen al mismo clúster, entonces el centro
para su clúster se obtiene como:
Centroide del clúster Z = (z1,z2) = {(4 + 3 + 5) / 3, (7 + 4 + 3) / 3}.
z1 se mide como la media de las valoraciones de Joe, Sam y Sara en Ahorro Premium. Del mismo modo, z2 se mide
como la media de sus puntuaciones en Agente de barrio. La Figura 2 ofrece una representación visual del clustering
de K-medias.
Figura 2. Representación visual de clustering K-medias.
Asignar Actualizar
cada las medias
objeto de los
al centro clústeres
más
similar Reasignar Reasignar
Elegir arbitrariamente K
objetos como centro de
clúster inicial
Actualizar
los medios
del clúster
Número de clústeres
Uno de los principales problemas de la agrupación de K-medias es que no proporciona una estimación del número
de clústeres que existen en los datos. El clustering de K-medias tiene que repetirse varias veces con diferentes “Ks” (o
número de clústeres) para determinar el número de clústeres que es apropiado para los datos. Un método comúnmente
utilizado para determinar el número de clústeres es el criterio del codo.
El criterio del codo establece que se debe elegir un número de clústeres tal que la adición de otro clúster no añada
suficiente información. El codo se identifica trazando la relación entre la varianza dentro del clúster y la varianza entre
clústeres frente al número de clústeres. La varianza dentro del clúster es una estimación de la media de la varianza en
las variables utilizadas como base para la segmentación (calificaciones de la puntuación de importancia para el ahorro
Este material fue proporcionado por la Administración de Materiales Académicos (AMA) del Sistema de Bibliotecas - INCAE Business School,
para ser usado exclusivamente en: INCAE ONLINE - Habilidades Analíticas para Mercadeo por el Profesor Ramiro Casó,
Noviembre-01-2021 - Diciembre-31-2021. Contacto: casos@[Link]
Página 6 UV0745
en primas y el agente de barrio en el ejemplo de Geico) entre los clientes que pertenecen a un clúster concreto. La va-
rianza entre clústeres es una estimación de la varianza de las variables base de la segmentación entre los clientes que
pertenecen a diferentes segmentos. El objetivo del análisis de clústeres (como se ha mencionado anteriormente) es mi-
nimizar la varianza dentro del clúster y maximizar la varianza entre clústeres. Por lo tanto, a medida que aumenta el nú-
mero de clústeres, la relación entre la varianza dentro de un clúster y la varianza entre clústeres seguirá disminuyendo.
Pero en algún momento, la ganancia marginal de añadir un grupo adicional caerá, dando un ángulo en el gráfico
(el codo). En la Figura 3, el codo está indicado por el círculo. Por lo tanto, el número de clústeres elegido debe ser 3.
Figura 3. Diagrama de codo para determinar el número de clústeres.
Diagrama de codo
300
Relación entre la variación dentro del clúster
250
200
y entre los clústeres
150
100
50
0
1 2 3 4 5 6 7
Número de clústeres
También hay que tener en cuenta que la asignación inicial de las semillas de los clústeres influye en el rendimiento
final del modelo. Algunos métodos habituales para garantizar la estabilidad de los resultados obtenidos con la agrupa-
ción de K-medias son:
• Ejecutar el algoritmo varias veces con diferentes valores iniciales. Cuando se utilizan puntos de partida alea-
torios, la ejecución del algoritmo varias veces garantizará un punto de partida diferente cada vez.
• Dividir los datos aleatoriamente en dos mitades y ejecutar el análisis de clústeres por separado en cada mitad.
Los resultados son robustos y estables si el número de clústeres y el tamaño de los diferentes clústeres son
similares en ambas mitades.
Este material fue proporcionado por la Administración de Materiales Académicos (AMA) del Sistema de Bibliotecas - INCAE Business School,
para ser usado exclusivamente en: INCAE ONLINE - Habilidades Analíticas para Mercadeo por el Profesor Ramiro Casó,
Noviembre-01-2021 - Diciembre-31-2021. Contacto: casos@[Link]
Página 7 UV0745
Perfiles de los clústeres
Una vez identificados los clústeres, la descripción de los mismos en términos de las variables utilizadas para el
clustering -o utilizando datos adicionales como los demográficos- ayuda a personalizar la estrategia de marketing para
cada segmento. Este proceso de descripción de los clústeres se denomina elaboración de perfiles. La Figura 1 es un
ejemplo de este proceso. Una buena parte del software de análisis de clústeres también proporciona información sobre
el clúster al que pertenece un cliente. Esta información puede utilizarse para calcular las medias de las variables de
perfilado de cada clúster. En el ejemplo de Geico, es útil investigar si los segmentos también difieren con respecto a va-
riables demográficas como la edad y los ingresos. En la Tabla 3 consideremos la distribución de la edad y los ingresos
para los segmentos A, B y C, tal como se indica en la Figura 1.
Tabla 3. Distribución de la edad y los ingresos por segmentos.
Segmento Media Rango
Edad Ingreso($) Edad Ingreso ($)
A 21 15,000 16–25 0–25,000
B 45 120,000 33–55 75,000–215,000
C 39 40,000 39–54 24,000–60,000
La media representa los promedios de edad e ingresos de los clientes pertenecientes a un segmento determinado.
El rango representa los valores mínimos y máximos de la edad y los ingresos de los clientes de un segmento. Mientras
que la media es útil para identificar la tendencia central de un segmento, el rango ayuda a evaluar si los segmentos se
solapan con respecto a la variable de perfil.
En el Cuadro 3 se observa que los clientes del segmento A que prefieren ahorrar mucho en su prima y no prefieren
tener un agente de proximidad tienden a ser más jóvenes y a tener ingresos bajos. Probablemente podrían ser estudian-
tes universitarios o recién licenciados que se sienten más cómodos realizando transacciones por internet. Los clientes
que pertenecen al segmento B, en cambio, son de mayor edad y tienen niveles de ingresos más altos. Sería interesante
evaluar si estos clientes también tienden a estar casados y con hijos. La seguridad de tener un agente de barrio que pue-
da ayudar en caso de accidente o emergencia es muy importante para ellos, y no les importa pagar un precio más alto
por esta sensación de seguridad. También es posible que estos clientes no se sientan cómodos realizando transacciones
(o facilitando información personal) por internet.
Por último, aunque los clientes del segmento C tienen la misma edad que los del segmento B, tienden a tener
ingresos más bajos y no prefieren tener un agente de barrio (probablemente debido a sus bajos ingresos disponibles).
La identificación de los segmentos a través de estas características demográficas permite a un comercializador dirigirse
a cada segmento y personalizar sus comunicaciones. Por ejemplo, si Geico decide desarrollar una red de agentes de
barrio, puede centrarse primero en los barrios (identificados a través de sus códigos postales) que coincidan con el perfil
de los clientes del segmento B.
Este material fue proporcionado por la Administración de Materiales Académicos (AMA) del Sistema de Bibliotecas - INCAE Business School,
para ser usado exclusivamente en: INCAE ONLINE - Habilidades Analíticas para Mercadeo por el Profesor Ramiro Casó,
Noviembre-01-2021 - Diciembre-31-2021. Contacto: casos@[Link]
Página 8 UV0745
Conclusión
Dada una base de segmentación, el algoritmo de agrupación de K-medias identificaría los clústeres y los clientes
que pertenecen a cada clúster. Sin embargo, la dirección tiene que seleccionar cuidadosamente las variables que se
utilizarán para la segmentación. Los criterios que se utilizan con frecuencia para evaluar la eficacia de un esquema de
segmentación son: identificabilidad, sostenibilidad, accesibilidad y accionabilidad.1 La identificabilidad se refiere a la
medida en que los directivos pueden reconocer los segmentos en el mercado. En el ejemplo de Geico, la elaboración
de perfiles de clientes le permite identificar segmentos de clientes a través de su información sobre edad e ingresos.
PRIZM y ACORN son bases de datos populares que proporcionan información geodemográfica que puede utilizarse
para la segmentación y la elaboración de perfiles. El criterio de sostenibilidad se satisface si los segmentos representan
una porción del mercado lo suficientemente grande como para garantizar una personalización rentable del programa
de marketing. El criterio de accesibilidad se refiere a la medida en que los gestores pueden llegar a los segmentos
identificados a través de sus campañas de marketing. Por último, la accionabilidad se refiere a si los clientes del seg-
mento y la combinación de marketing necesaria para satisfacer sus necesidades son coherentes con los objetivos y las
competencias básicas de la empresa. Por lo tanto, el éxito de cualquier proceso de segmentación requiere la intuición
de los directivos y un juicio cuidadoso.
1
Para más detalles, consulta Wagner Kamakura y Michel Wedel, Market Segmentation: Conceptual and Methodological
Foundations, 2nd ed., (Norwell, MA: Kluwer Academic Publishers, 2000). (Norwell, MA: Kluwer Academic Publishers, 2000).
Este material fue proporcionado por la Administración de Materiales Académicos (AMA) del Sistema de Bibliotecas - INCAE Business School,
para ser usado exclusivamente en: INCAE ONLINE - Habilidades Analíticas para Mercadeo por el Profesor Ramiro Casó,
Noviembre-01-2021 - Diciembre-31-2021. Contacto: casos@[Link]