El algoritmo K-Means:
Evaluación del rendimiento, optimización y análisis comparativo
Luis Manuel Guillen Ccuito
Jose Luis Loayza
Ronald Valezuela Carbajal
Universidad Nacional Micaela Bastidas de Apurímac
Ingeniería Informática y Sistemas
Noviembre 2025
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 1 / 40
Contenido
1 Introducción
2 Algoritmo raíz
3 Artículo raíz
4 Problema
5 Objetivo
6 Estado del arte
6.1 Base de Datos
6.2 Keywords
6.3 Cadenas de Búsqueda
6.4 Criterios
6.5 Resultados
6.6 Lista de artículos
7 Conclusión
8 Referencias
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 2 / 40
1. Introducción
¿Qué es K-Means? Es un algoritmo de aprendizaje no supervisado que permite agrupar
datos en k conjuntos llamados clusters. Cada grupo contiene elementos que son similares
entre sí, según una medida de distancia (usualmente euclidiana). El objetivo es que los
puntos dentro de un mismo cluster estén lo más cerca posible de su centroide, y lo más
alejados posible de los centroides de otros clusters.
¿Para qué sirve? K-Means se utiliza para descubrir patrones ocultos en datos sin
etiquetas. Es útil cuando queremos organizar información compleja en grupos más simples
y comprensibles. Por ejemplo:
Identificar perfiles de estudiantes según su rendimiento
Agrupar clientes por hábitos de compra
Detectar regiones similares en una imagen médica
Además, es una herramienta clave en etapas de preprocesamiento, donde se necesita
reducir la dimensionalidad o preparar datos para modelos supervisados.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 3 / 40
1. Introducción
Usos del algoritmo K-Means
Sector Objetivo típico Ejemplo publicado
Educación Agrupar estudiantes o insti- Clustering de puntajes de exámenes
tuciones por rendimiento y y evaluación estudiantil
perfil
Salud clínica Segmentar pacientes por Agrupamiento en diabetes tipo 2 con
variables clínicas criterios de varianza global
Marketing y retail Segmentación de clientes y Segmentación en ventas con opti-
comportamientos de compra mización CH/PSO para mejorar k
inicial
Agricultura y visión Segmentación de imágenes Segmentación automática de hojas
para diagnóstico vegetal de vid para detectar enfermedades
Energía y servicios Agrupar consumos para Análisis del consumo eléctrico mu-
públicos definir tarifas o patrones nicipal para definir tipos de consumo
Manufactura y ma- Clasificación no supervisada Features con VGG16 + PCA y k-
teriales de defectos o texturas means en defectos de chapa de acero
Imagen médica y Identificar hábitats tu- Habitat analysis en radiomics con k-
radiónica morales o subregiones means para segmentar subregiones
tumorales
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 4 / 40
1. Introducción
Función objetivo del algoritmo K-Means
k X
X
E= dist(p, ci )2
i=1 p∈Ci
E : Suma del error cuadrático total (within-cluster variation).
k: Número total de clústeres formados.
Ci : Conjunto de puntos pertenecientes al clúster i.
p: Punto de datos dentro del clúster Ci .
ci : Centroide del clúster Ci , representado como el punto medio del grupo.
dist(p, ci ): Distancia euclidiana entre el punto p y el centroide ci .
.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 5 / 40
2. Algoritmo Raíz - Pseudocodigo
Algoritmo: k-Means.Código raíz reconstruido
del algoritmo K-Means (basado en Lloyd, 1982)
Pseudocodigo del Algoritmo K- Means
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 6 / 40
Algoritmo K-Means en C++ (1/2)
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 7 / 40
Algoritmo K-Means en C++ (2/2)
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 8 / 40
2.1 Fuente del Código K-Means en C++
El código mostrado en los frames anteriores fue adaptado de una implementación técnica publicada en
el sitio web Programador Clic, bajo el título:
“Implementación del algoritmo de clustering K-means basado en C++”
Esta fuente presenta una versión funcional del algoritmo K-Means en lenguaje C++, utilizando
estructuras como vector, funciones de distancia euclidiana, y ciclos iterativos para la asignación y
actualización de centroides.
Referencia técnica:
Programador Clic. (s.f.). Implementación del algoritmo de clustering K-means basado en C++.
Disponible en: https://programmerclick.com/article/29851119970
El código fue adaptado y comentado para fines académicos, manteniendo la lógica original del
algoritmo raíz propuesto por Lloyd (1982).
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 9 / 40
3. Artículo Raíz
Some Methods for Classification and Analysis of Multivariate Observations
Elemento Detalle / Fuente
Autor J. MacQueen — Universidad de California,
Los Ángeles
Título Some Methods for Classification and Analy-
sis of Multivariate Observations
(Algunos métodos para la clasificación y
análisis de observaciones multivariadas)
Publicación Proceedings of the Fifth Berkeley Sympo-
sium on Mathematical Statistics and Proba-
bility
Parte de las actas del Quinto Simposio de
Berkeley
Año de Publi- 1967
cación
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 10 / 40
3. Artículo Raíz
Objetivo Principal
El propósito principal del artículo es describir el proceso k-means para particionar una población
N-dimensional en k conjuntos basándose en una muestra, y estudiar su comportamiento
asintótico. A través de análisis matemático y experimentación computacional, MacQueen
demuestra que las particiones generadas tienden a mantener una baja varianza dentro de cada
clase, estableciendo así la base teórica del método.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 11 / 40
4. Problema
Aunque K-Means es uno de los algoritmos más utilizados en agrupamiento no supervisado
por su simplicidad y eficacia, presenta limitaciones importantes cuando se aplica en
contextos de Big Data.
En grandes volúmenes de datos, el cálculo de distancias y la actualización de centroides se
vuelve computacionalmente costoso. Estas operaciones se ejecutan de forma secuencial, lo
que genera:
Tiempos de procesamiento elevados
Bajo aprovechamiento de arquitecturas modernas como CPUs multinúcleo y GPUs
Esta problemática ha impulsado el desarrollo de versiones paralelas de K-Means, que
buscan mejorar:
Rendimiento
Escalabilidad
Eficiencia computacional en entornos intensivos
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 12 / 40
4. Problema
Desafíos principales
1 Selección de k
Número óptimo desconocido
Requiere métodos heurísticos (como el codo o silueta)
2 Sensibilidad a valores iniciales
Centroides iniciales aleatorios
Puede converger a óptimos locales
3 Forma de los clusters
Asume clusters esféricos y de tamaño similar
Tiene dificultades con clusters no convexos o de densidad variable
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 13 / 40
5. Objetivo
Objetivo General
Optimizar y evaluar el rendimiento computacional del algoritmo K-Means en contextos de alto
volumen de datos, explorando técnicas de paralelización y optimización, y comparándolo con
otros métodos de clustering en términos de eficiencia, escalabilidad y calidad de agrupamiento.
Objetivos Específicos
1 Medir el desempeño de K-Means en arquitecturas paralelas (CPU multinúcleo y GPU)
2 Analizar variantes optimizadas (K-Means++, paralelización con OpenMP/CUDA,
heurísticas híbridas)
3 Comparar resultados con otros algoritmos (DBSCAN, Mean Shift, Agglomerativo) en
datasets de alta dimensión
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 14 / 40
Estado del Arte
Estado del Arte
El estado del arte sobre K-Means en entornos paralelos revela una evolución significativa del
algoritmo hacia escenarios de alto rendimiento. Se identifican variantes como K-Means clásico,
K-Means++, y enfoques híbridos que integran metaheurísticas (ACO, GSO) o modelos
cuánticos. Las optimizaciones más relevantes incluyen paralelización sobre arquitecturas
heterogéneas (CPU/GPU/FPGA), inicialización eficiente, reducción del costo computacional en
el cálculo de distancias y técnicas de balanceo de carga.
Además, se exploran estrategias para mejorar la escalabilidad y la eficiencia energética, así
como la integración con plataformas distribuidas como Apache Spark. En cuanto a la
evaluación, se consideran métricas de calidad como cohesión, separación y estabilidad del
clustering. Las tendencias actuales apuntan hacia la combinación de K-Means con técnicas de
reducción de dimensionalidad (PCA, UMAP) y su aplicación en dominios como diagnóstico
médico, minería de datos y análisis organizacional.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 15 / 40
6.1 Base de Datos
Bases de Datos Consultadas
IEEE Xplore
ScienceDirect
Taylor and Francis
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 16 / 40
6.2 Keywords
Palabras Clave Utilizadas
K-means
Optimización
Algoritmos de clustering
Rendimiento
Eficiencia computacional
Análisis comparativo
Técnicas avanzadas
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 17 / 40
6.3 Cadenas de Búsqueda
Estrategias de Búsqueda
1 "k-means clustering" AND "parallel implementation" AND performance speedup
2 "k-means" AND GPU AND parallelization AND acceleration
3 "k-means" AND distributed AND parallel AND clustering AND performance
4 "k-means" AND "multi-core" AND parallelization AND improvement
5 "k-means" AND "big data" AND parallel AND speedup AND optimization
6 "k-means" AND "heterogeneous computing" AND parallel AND performance
7 "k-means" AND "GPU accelerated" AND parallel AND clustering AND performance
8 "k-means" AND MapReduce AND parallel AND clustering AND scalability
9 "k-means" AND "shared-memory" AND "parallel algorithm" AND performance
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 18 / 40
6.4 Criterios
Criterios de Inclusión Criterios de Exclusión
Publicaciones entre 2015 y 2025 Sin acceso completo
Enfoque en optimización de K-means Publicaciones antes de 2015
Análisis de rendimiento, precisión o Sin análisis de rendimiento o resultados
eficiencia K-means no es el tema principal
Comparación con otros algoritmos de Documentos duplicados o preliminares
clustering
Fuentes no científicas (blogs, foros, etc.)
Uso de técnicas avanzadas o
No están en inglés o español
metaheurísticas
Documentos revisados por pares
En inglés o español
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 19 / 40
6.5 Resultados de la revisión sistemática
Se analizaron 9 cadenas de búsqueda
relacionadas con K-means y paralelización.
Las bases de datos consultadas fueron:
ScienceDirect, IEEE y Taylor and Francis.
La cadena 3 fue la más productiva con 755
resultados en ScienceDirect.
IEEE mostró resultados bajos en la mayoría de
cadenas.
Taylor and Francis tuvo resultados relevantes
en cadenas 1, 2 y 3.
Algunas cadenas no arrojaron resultados en
ninguna base.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 20 / 40
Resultados por cadena y base de datos
Gráfico: Número de publicaciones encontradas por cadena de búsqueda en ScienceDirect, IEEE y Taylor & Francis
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 21 / 40
6.6 Lista de Artículos
Artículo Raíz
Título: Some Methods for Classification and Analysis of Multivariate Observations
Autor: J. MacQueen (1967)
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 22 / 40
6.6 Lista de Artículos (1–5)
Autor(es) Título Año
Dias, L. A.; Ferreira, J. C.; Parallel Implementation of K-Means Algorithm on 2020
Fernandes, M. A. C. FPGA
Kwedlo, W.; Lubowicz, M. Accelerated K-Means Algorithms for Low- 2021
Dimensional Data on Parallel Shared-Memory
Systems
Wan, L.; Zhang, G.; Li, H.; A Novel Bearing Fault Diagnosis Method Using 2021
Li, C. Spark-Based Parallel ACO-K-Means Clustering Algo-
rithm
Santander-Jiménez, S.; High-level Multi-Platform Approaches for Scoring 2025
Vega-Rodríguez, M. A. Phylogenies on CPU and GPU Devices
Poggiali, A.; Berti, A.; Quantum Clustering with K-Means: A Hybrid Ap- 2024
Bernasconi, A.; Del Corso, proach
G. M.; Guidotti, R.
Table: Artículos seleccionados según criterios de inclusión y exclusión (parte 1)
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 23 / 40
6.6 Lista de Artículos (6–10)
Autor(es) Título Año
Nanda, S. J.; Gulati, I.; A K-Means-Galactic Swarm Optimization-Based 2019
Chauhan, R.; Modi, R.; Clustering Algorithm with Otsu’s Entropy for Brain
Dhaked, U. Tumor Detection
Krishnamoorthy, S.; Ja- Optimizing Weighted K-Means Clustering with 2025
ganathan, B. Gradient-Based Methods
Zhou, Y.; Liu, J.; Wang, Y.; WeDIV – An Improved K-Means Clustering Algo- 2022
Zhang, H. rithm with a Weighted Distance and a Novel Internal
Validation Index
Rashmi, C.; Chaluvaiah, S.; An Efficient Parallel Block Processing Approach for 2023
Hemantha Kumar, G. K-Means Algorithm for High Resolution Orthoim-
agery Satellite Images
Table: Artículos seleccionados según criterios de inclusión y exclusión (parte 2)
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 24 / 40
Clasificación de Artículos
Raíz
Título: Some Methods for Classification and Analysis of Multivariate Observations
Autor: J. MacQueen (1967)
Objetivo: Introducir un método eficiente para clasificar observaciones multivariadas
mediante agrupamiento no supervisado, con énfasis en la simplicidad computacional y
aplicabilidad práctica.
Técnica: Se propone el algoritmo K-Means, que asigna observaciones a grupos según la
minimización de la distancia euclidiana al centroide más cercano. El procedimiento es
iterativo: se recalculan los centroides y se reagrupan los datos hasta alcanzar la
convergencia. Se presentan fundamentos matemáticos y heurísticos que sustentan la
estabilidad del método.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 25 / 40
Clasificación de Artículos
Raíz (continuación)
Resultados: Se demuestra la convergencia del algoritmo bajo ciertas condiciones y se
presentan ejemplos prácticos de clasificación en conjuntos de datos reales. El método
muestra eficiencia computacional y capacidad de adaptación a diferentes tipos de datos
multivariados.
Conclusión: El algoritmo K-Means constituye una herramienta robusta y versátil para la
clasificación de datos multivariados. Su simplicidad, rapidez y efectividad lo convierten en
un referente en el campo del aprendizaje no supervisado, sentando las bases para futuras
investigaciones en clustering, optimización y análisis exploratorio.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 26 / 40
Clasificación de Artículos
Optimización
Artículo 1: Accelerated K-Means for Shared-Memory Systems
Artículo 2: Optimizing Weighted K-Means with Gradient-Based Methods
Artículo 3: Parallel K-Means on Heterogeneous Computing for Large-Scale Data
Teoría
Artículo 1: Multi-View Learning Meets State-Space Model
Artículo 2: Quantum Clustering with K-Means: A Hybrid Approach
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 27 / 40
Clasificación de Artículos
Aplicación
Artículo 1: Parallel Implementation of K-Means on FPGA
Artículo 2: Spark-Based Parallel ACO-K-Means for Fault Diagnosis
Artículo 3: K-Means-GSO with Otsu’s Entropy for Brain Tumor Detection
Artículo 4: Performance Evaluation Model for PMO Based on Multicriteria Approach
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 28 / 40
Artículo 1: Implementación paralela en FPGA
Título: Parallel Implementation of K-Means Algorithm on FPGA
Problema: El algoritmo K-Means tradicional, aunque eficiente en entornos pequeños, presenta limitaciones de
rendimiento cuando se aplica a grandes volúmenes de datos, especialmente en sistemas secuenciales. Esto impide su uso
en aplicaciones que requieren procesamiento en tiempo real.
Objetivo: Proponer una arquitectura paralela basada en FPGA que permita acelerar el proceso de agrupamiento del
algoritmo K-Means, reduciendo significativamente los tiempos de ejecución y mejorando la eficiencia energética.
Técnica: Se desarrolla una implementación en VHDL del algoritmo K-Means, aprovechando el paralelismo inherente de
los dispositivos FPGA. Se comparan los resultados con ejecuciones en CPU tradicionales para evaluar la mejora en
rendimiento.
Resultados: La versión en FPGA logró una reducción sustancial en el tiempo de procesamiento, especialmente en
conjuntos de datos de alta dimensión. Además, se observó un menor consumo energético en comparación con plataformas
convencionales.
Conclusión: El uso de hardware especializado como FPGA representa una solución viable para acelerar K-Means en
aplicaciones críticas, como visión artificial, bioinformática y sistemas embebidos.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 29 / 40
Artículo 2: Optimización híbrida con metaheurísticas
Título: A K-Means-Galactic Swarm Optimization-Based Clustering Algorithm with Otsu’s Entropy for Brain Tumor
Detection
Problema: K-Means es sensible a la inicialización de centroides, lo que puede llevar a soluciones subóptimas. En
contextos médicos, como la detección de tumores cerebrales, esta limitación compromete la precisión del diagnóstico.
Objetivo: Desarrollar un modelo híbrido que combine K-Means con Galactic Swarm Optimization (GSO) y el criterio de
entropía de Otsu para mejorar la segmentación de imágenes médicas.
Técnica: Se integra GSO para optimizar la selección de centroides y se aplica Otsu para mejorar la separación entre
regiones en imágenes de resonancia magnética. El modelo se valida con métricas de precisión, sensibilidad y especificidad.
Resultados: El algoritmo híbrido superó a K-Means tradicional en todas las métricas evaluadas, mostrando una
segmentación más precisa y estable. También se observó una mejor convergencia y menor dependencia de la inicialización.
Conclusión: La combinación de K-Means con técnicas evolutivas y criterios estadísticos mejora significativamente su
rendimiento en tareas de agrupamiento complejas, especialmente en aplicaciones biomédicas.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 30 / 40
Artículo 3: Evaluación comparativa en plataformas CPU/GPU
Título: High-level Multi-Platform Approaches for Scoring Phylogenies on CPU and GPU Devices
Objetivo principal
El estudio tuvo como propósito demostrar que es posible utilizar lenguajes de programación modernos para desarrollar
programas eficientes que funcionen tanto en unidades de procesamiento central (CPU) como en unidades de
procesamiento gráfico (GPU), sin necesidad de crear versiones distintas para cada arquitectura.
Problema abordado
En el campo de la bioinformática, muchos programas se diseñan para un tipo específico de hardware:
Algunos funcionan únicamente en CPUs convencionales.
Otros dependen de GPUs de una marca o arquitectura determinada.
Esta dependencia limita la portabilidad del software, incrementa los costos y dificulta su mantenimiento.
Propuesta del estudio
Se implementaron tres versiones del mismo algoritmo utilizando diferentes lenguajes y modelos de programación paralela:
OpenMP: orientado a la programación paralela en CPUs y GPUs.
OpenACC: diseñado para acelerar cálculos científicos mediante directivas.
SYCL: estándar abierto que equilibra portabilidad y rendimiento.
Algoritmo analizado
El estudio se centró en el cálculo de parsimonia filogenética, empleado para:
Reconstruir árboles evolutivos.
Analizar la evolución de virus y especies.
Examinar relaciones genéticas y biológicas.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 31 / 40
Artículo 3: Evaluación comparativa en plataformas CPU/GPU
(continuación)
Resultados principales
OpenMP mostró mejor rendimiento en arquitecturas basadas en CPU.
OpenACC presentó mayor velocidad en plataformas GPU.
SYCL ofreció un desempeño equilibrado entre ambas.
Todas las versiones superaron el rendimiento de programas tradicionales.
Comparación de desempeño
Lenguaje Mejor en Ventaja principal
OpenMP CPU Mayor equilibrio general
OpenACC GPU Alta velocidad en cálculos masivos
SYCL Ambos Portabilidad y diseño moderno
Conclusión
El artículo demuestra que mediante el uso de lenguajes modernos como OpenMP, OpenACC y SYCL es posible desarrollar
aplicaciones científicas de alto rendimiento que sean portables entre diferentes arquitecturas de hardware, manteniendo
una eficiencia comparable o superior a las implementaciones específicas. Esto representa un avance significativo hacia la
unificación de entornos de programación en la computación científica y de alto desempeño.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 32 / 40
7. Conclusión
Hallazgos Principales
K-Means mantiene relevancia por su simplicidad
K-Means++ mejora significativamente la inicialización
Métricas como Silhouette Score son esenciales
Aplicaciones exitosas en múltiples dominios
Trabajo Futuro
Análisis de clustering espectral
Aplicación en Big Data
Integración con deep learning
Métricas de evaluación avanzadas
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 33 / 40
Conclusión: Revisión sistemática
La revisión sistemática realizada permitió identificar y analizar nueve artículos científicos
relevantes sobre la implementación paralela del algoritmo K-means, publicados entre 2015 y
2025. A partir de más de 1600 resultados iniciales obtenidos en bases de datos académicas
como ScienceDirect, IEEE y Taylor & Francis, se aplicaron criterios rigurosos de inclusión y
exclusión que redujeron el corpus final a estudios revisados por pares, con análisis de
rendimiento y enfoque directo en K-means.
Los artículos seleccionados fueron clasificados en tres categorías principales: optimización,
teoría y aplicación. Esta clasificación permitió observar cómo el algoritmo ha evolucionado
desde sus fundamentos matemáticos hasta su implementación en entornos computacionales
modernos y casos de uso reales.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 34 / 40
Hallazgos principales
Entre los hallazgos más relevantes se destacan los siguientes:
Las técnicas de paralelización en plataformas heterogéneas (CPU, GPU, FPGA) han
demostrado mejoras sustanciales en velocidad, escalabilidad y eficiencia computacional.
Los enfoques híbridos, como la combinación de K-means con algoritmos metaheurísticos
(ACO, GSO), han logrado una mayor precisión en tareas de segmentación compleja.
Los modelos teóricos propuestos amplían el marco conceptual de K-means hacia contextos
multivista y clustering cuántico, abriendo nuevas posibilidades para el análisis de datos no
estructurados.
Las aplicaciones prácticas abarcan áreas como diagnóstico médico, gestión organizacional y
procesamiento en hardware especializado, lo que confirma la versatilidad del algoritmo en
distintos dominios.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 35 / 40
Líneas de trabajo futuro
A partir del análisis de los artículos seleccionados, se identifican varias líneas de investigación
futura que podrían fortalecer el desarrollo del algoritmo K-means en contextos paralelos:
Integrar K-means con modelos de aprendizaje profundo para mejorar la adaptabilidad en
entornos dinámicos y no supervisados.
Desarrollar versiones optimizadas del algoritmo para arquitecturas emergentes como
computación cuántica, edge computing y sistemas distribuidos en la nube.
Evaluar el impacto de la paralelización en la calidad del clustering en datasets de alta
dimensionalidad, ruido y desequilibrio de clases.
Promover estudios comparativos que analicen el rendimiento de K-means frente a otros
algoritmos de clustering en escenarios reales y bajo diferentes métricas de evaluación.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 36 / 40
Referencias I
Banerjee, N., Chakraborty, S., Raman, V., and Satti, S. R. (2017).
Space efficient linear time algorithms for bfs, dfs and applications.
Theory of Computing Systems, 62(8):1736–1762.
Chaslot, G., Bakkes, S., Szita, I., and Spronck, P. (2008).
Monte-carlo tree search: A new framework for game ai.
Proceedings of the 4th Artificial Intelligence and Interactive Digital Entertainment Conference (AIIDE), 4(1):216–217.
Artículo seminal que introduce MCTS para IA en juegos.
Chen, W., Zou, Y., Xu, Z., Xu, L., and Wang, S. (2025).
Multi-view learning meets state-space model: A dynamical system perspective.
Future Generation Computer Systems.
Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C. (2009).
Introduction to Algorithms.
MIT Press, Cambridge, Massachusetts, 3 edition.
Darip, M., Auliana, S., Anam, A. K., Parimin, and Agung, A.
Comparison of BFS and DFS algorithm for routes to historical-cultural tourism locations in banten province.
Journal of Advances in Information and Industrial Technology (JAIIT).
Darip, M., Auliana, S., Anam, A. K., Parimin, P., and Agung, A. (2024).
Comparison of bfs and dfs algorithm for routes to historical-cultural tourism locations in banten province.
Journal of Advances in Information and Industrial Technology, 6(2).
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 37 / 40
Referencias II
Diah, N. M., Riza, S., Ahmad, S., Musa, N., and Hashim, S. (2025).
Sudoku solutions: a comparative analysis of breadth-first search, depth-first search, and human approaches.
Journal of Education and Learning, 19(1):561–569.
Dias, L. A., Ferreira, J. C., and Fernandes, M. A. C. (2020).
Parallel implementation of k-means algorithm on fpga.
IEEE Access.
Henderson, K., Gallagher, B., Eliassi-Rad, T., Tong, H., Basu, S., Akoglu, L., Koutra, D., Faloutsos, C., and Li, L. (2025).
Rolx: Structural role extraction & mining in large graphs.
Retrieved from University of Michigan.
Krishnamoorthy, S. and Jaganathan, B. (2025).
Optimizing weighted k-means clustering with gradient-based methods.
Big Data and Cognitive Computing.
Kwedlo, W. and Lubowicz, M. (2021).
Accelerated k-means algorithms for low-dimensional data on parallel shared-memory systems.
IEEE Access.
Mariano, V. T. T., de Jesús Núñez Cárdenas, F., and Hernández, E. A. (2025).
Análisis de algoritmos de búsqueda en espacio de estados para planificación de rutas.
Revista de Investigación Científica de la Universidad Autónoma del Estado de Hidalgo, 13(1):45–59.
Estudio sobre algoritmos DFS, BFS, Nayfeth y A* aplicados a planificación de trayectorias y optimización de rutas.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 38 / 40
Referencias III
Meyer, U. and Sanders, P. (2012).
-stepping: A parallelizable shortest path algorithm.
https://arxiv.org/abs/1208.5542.
arXiv preprint arXiv:1208.5542.
Nanda, S. J., Gulati, I., Chauhan, R., Modi, R., and Dhaked, U. (2018).
A k-means-galactic swarm optimization-based clustering algorithm with otsu’s entropy for brain tumor detection.
Applied Artificial Intelligence.
Naumov, M., Vrielink, A., and Garland, M. (2017).
Parallel depth-first search for directed acyclic graphs.
In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis (SC ’17). ACM.
Poggiali, A., Berti, A., Bernasconi, A., Corso, G. M. D., and Guidotti, R. (2024).
Quantum clustering with k-means: A hybrid approach.
Theoretical Computer Science.
Ramos, M. and Mendoza, J. (2021).
Comparación de estrategias de búsqueda no informada y heurística en la optimización de rutas: Un estudio experimental.
Revista Nobilis, 1(1).
Viglioni, T. G. A., Cunha, J. A. O. G., and Moura, H. P. (2016).
A performance evaluation model for project management office based on a multicriteria approach.
Procedia Computer Science, 100:583–590.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 39 / 40
Referencias IV
Wan, L., Zhang, G., Li, H., and Li, C. (2021).
A novel bearing fault diagnosis method using spark-based parallel aco-k-means clustering algorithm.
IEEE Access.
Zheng, K. (2024).
A parallel breadth-first search using shared memory level-synchronization.
Proceedings of the 2023 International Conference on Machine Learning and Automation, 2023(36).
Zhou, Y., Liu, J., Wang, Y., and Zhang, H. (2022).
A parallel k-means algorithm based on heterogeneous computing for large-scale data.
Engineering Applications of Artificial Intelligence.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 40 / 40