0% encontró este documento útil (0 votos)

16 vistas40 páginas

The K Means Algorithm

El documento analiza el algoritmo K-Means, un método de agrupamiento no supervisado, y su rendimiento en contextos de Big Data. Se enfoca en optimizar su eficiencia a través de técnicas de paralelización y compara su desempeño con otros algoritmos de clustering. Además, se discuten sus limitaciones, como la selección del número de clusters y la sensibilidad a los valores iniciales.

Cargado por

luis

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

16 vistas40 páginas

The K Means Algorithm

Cargado por

luis

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

El algoritmo K-Means:

Evaluación del rendimiento, optimización y análisis comparativo

Luis Manuel Guillen Ccuito

Jose Luis Loayza
Ronald Valezuela Carbajal

Universidad Nacional Micaela Bastidas de Apurímac

Ingeniería Informática y Sistemas

Noviembre 2025

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 1 / 40
Contenido
1 Introducción
2 Algoritmo raíz
3 Artículo raíz
4 Problema
5 Objetivo
6 Estado del arte
6.1 Base de Datos
6.2 Keywords
6.3 Cadenas de Búsqueda
6.4 Criterios
6.5 Resultados
6.6 Lista de artículos
7 Conclusión
8 Referencias
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 2 / 40
1. Introducción

¿Qué es K-Means? Es un algoritmo de aprendizaje no supervisado que permite agrupar

datos en k conjuntos llamados clusters. Cada grupo contiene elementos que son similares
entre sí, según una medida de distancia (usualmente euclidiana). El objetivo es que los
puntos dentro de un mismo cluster estén lo más cerca posible de su centroide, y lo más
alejados posible de los centroides de otros clusters.
¿Para qué sirve? K-Means se utiliza para descubrir patrones ocultos en datos sin
etiquetas. Es útil cuando queremos organizar información compleja en grupos más simples
y comprensibles. Por ejemplo:
Identificar perfiles de estudiantes según su rendimiento
Agrupar clientes por hábitos de compra
Detectar regiones similares en una imagen médica
Además, es una herramienta clave en etapas de preprocesamiento, donde se necesita
reducir la dimensionalidad o preparar datos para modelos supervisados.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 3 / 40
1. Introducción
Usos del algoritmo K-Means
Sector Objetivo típico Ejemplo publicado
Educación Agrupar estudiantes o insti- Clustering de puntajes de exámenes
tuciones por rendimiento y y evaluación estudiantil
perfil
Salud clínica Segmentar pacientes por Agrupamiento en diabetes tipo 2 con
variables clínicas criterios de varianza global
Marketing y retail Segmentación de clientes y Segmentación en ventas con opti-
comportamientos de compra mización CH/PSO para mejorar k
inicial
Agricultura y visión Segmentación de imágenes Segmentación automática de hojas
para diagnóstico vegetal de vid para detectar enfermedades
Energía y servicios Agrupar consumos para Análisis del consumo eléctrico mu-
públicos definir tarifas o patrones nicipal para definir tipos de consumo
Manufactura y ma- Clasificación no supervisada Features con VGG16 + PCA y k-
teriales de defectos o texturas means en defectos de chapa de acero
Imagen médica y Identificar hábitats tu- Habitat analysis en radiomics con k-
radiónica morales o subregiones means para segmentar subregiones
tumorales

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 4 / 40
1. Introducción

Función objetivo del algoritmo K-Means

k X
X
E= dist(p, ci )2
i=1 p∈Ci

E : Suma del error cuadrático total (within-cluster variation).

k: Número total de clústeres formados.
Ci : Conjunto de puntos pertenecientes al clúster i.
p: Punto de datos dentro del clúster Ci .
ci : Centroide del clúster Ci , representado como el punto medio del grupo.
dist(p, ci ): Distancia euclidiana entre el punto p y el centroide ci .
.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 5 / 40
2. Algoritmo Raíz - Pseudocodigo

Algoritmo: k-Means.Código raíz reconstruido

del algoritmo K-Means (basado en Lloyd, 1982)

Pseudocodigo del Algoritmo K- Means

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 6 / 40
Algoritmo K-Means en C++ (1/2)

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 7 / 40
Algoritmo K-Means en C++ (2/2)

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 8 / 40
2.1 Fuente del Código K-Means en C++

El código mostrado en los frames anteriores fue adaptado de una implementación técnica publicada en
el sitio web Programador Clic, bajo el título:
“Implementación del algoritmo de clustering K-means basado en C++”
Esta fuente presenta una versión funcional del algoritmo K-Means en lenguaje C++, utilizando
estructuras como vector, funciones de distancia euclidiana, y ciclos iterativos para la asignación y
actualización de centroides.

Referencia técnica:
Programador Clic. (s.f.). Implementación del algoritmo de clustering K-means basado en C++.
Disponible en: https://programmerclick.com/article/29851119970
El código fue adaptado y comentado para fines académicos, manteniendo la lógica original del
algoritmo raíz propuesto por Lloyd (1982).

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 9 / 40
3. Artículo Raíz
Some Methods for Classification and Analysis of Multivariate Observations
Elemento Detalle / Fuente
Autor J. MacQueen — Universidad de California,
Los Ángeles
Título Some Methods for Classification and Analy-
sis of Multivariate Observations
(Algunos métodos para la clasificación y
análisis de observaciones multivariadas)
Publicación Proceedings of the Fifth Berkeley Sympo-
sium on Mathematical Statistics and Proba-
bility
Parte de las actas del Quinto Simposio de
Berkeley
Año de Publi- 1967
cación
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 10 / 40
3. Artículo Raíz

Objetivo Principal
El propósito principal del artículo es describir el proceso k-means para particionar una población
N-dimensional en k conjuntos basándose en una muestra, y estudiar su comportamiento
asintótico. A través de análisis matemático y experimentación computacional, MacQueen
demuestra que las particiones generadas tienden a mantener una baja varianza dentro de cada
clase, estableciendo así la base teórica del método.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 11 / 40
4. Problema

Aunque K-Means es uno de los algoritmos más utilizados en agrupamiento no supervisado

por su simplicidad y eficacia, presenta limitaciones importantes cuando se aplica en
contextos de Big Data.
En grandes volúmenes de datos, el cálculo de distancias y la actualización de centroides se
vuelve computacionalmente costoso. Estas operaciones se ejecutan de forma secuencial, lo
que genera:
Tiempos de procesamiento elevados
Bajo aprovechamiento de arquitecturas modernas como CPUs multinúcleo y GPUs
Esta problemática ha impulsado el desarrollo de versiones paralelas de K-Means, que
buscan mejorar:
Rendimiento
Escalabilidad
Eficiencia computacional en entornos intensivos

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 12 / 40
4. Problema

Desafíos principales
1 Selección de k
Número óptimo desconocido
Requiere métodos heurísticos (como el codo o silueta)
2 Sensibilidad a valores iniciales
Centroides iniciales aleatorios
Puede converger a óptimos locales
3 Forma de los clusters
Asume clusters esféricos y de tamaño similar
Tiene dificultades con clusters no convexos o de densidad variable

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 13 / 40
5. Objetivo

Objetivo General
Optimizar y evaluar el rendimiento computacional del algoritmo K-Means en contextos de alto
volumen de datos, explorando técnicas de paralelización y optimización, y comparándolo con
otros métodos de clustering en términos de eficiencia, escalabilidad y calidad de agrupamiento.

Objetivos Específicos
1 Medir el desempeño de K-Means en arquitecturas paralelas (CPU multinúcleo y GPU)
2 Analizar variantes optimizadas (K-Means++, paralelización con OpenMP/CUDA,
heurísticas híbridas)
3 Comparar resultados con otros algoritmos (DBSCAN, Mean Shift, Agglomerativo) en
datasets de alta dimensión

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 14 / 40
Estado del Arte

Estado del Arte

El estado del arte sobre K-Means en entornos paralelos revela una evolución significativa del
algoritmo hacia escenarios de alto rendimiento. Se identifican variantes como K-Means clásico,
K-Means++, y enfoques híbridos que integran metaheurísticas (ACO, GSO) o modelos
cuánticos. Las optimizaciones más relevantes incluyen paralelización sobre arquitecturas
heterogéneas (CPU/GPU/FPGA), inicialización eficiente, reducción del costo computacional en
el cálculo de distancias y técnicas de balanceo de carga.
Además, se exploran estrategias para mejorar la escalabilidad y la eficiencia energética, así
como la integración con plataformas distribuidas como Apache Spark. En cuanto a la
evaluación, se consideran métricas de calidad como cohesión, separación y estabilidad del
clustering. Las tendencias actuales apuntan hacia la combinación de K-Means con técnicas de
reducción de dimensionalidad (PCA, UMAP) y su aplicación en dominios como diagnóstico
médico, minería de datos y análisis organizacional.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 15 / 40
6.1 Base de Datos

Bases de Datos Consultadas

IEEE Xplore
ScienceDirect
Taylor and Francis

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 16 / 40
6.2 Keywords

Palabras Clave Utilizadas

K-means
Optimización
Algoritmos de clustering
Rendimiento
Eficiencia computacional
Análisis comparativo
Técnicas avanzadas

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 17 / 40
6.3 Cadenas de Búsqueda

Estrategias de Búsqueda
1 "k-means clustering" AND "parallel implementation" AND performance speedup
2 "k-means" AND GPU AND parallelization AND acceleration
3 "k-means" AND distributed AND parallel AND clustering AND performance
4 "k-means" AND "multi-core" AND parallelization AND improvement
5 "k-means" AND "big data" AND parallel AND speedup AND optimization
6 "k-means" AND "heterogeneous computing" AND parallel AND performance
7 "k-means" AND "GPU accelerated" AND parallel AND clustering AND performance
8 "k-means" AND MapReduce AND parallel AND clustering AND scalability
9 "k-means" AND "shared-memory" AND "parallel algorithm" AND performance

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 18 / 40
6.4 Criterios

Criterios de Inclusión Criterios de Exclusión

Publicaciones entre 2015 y 2025 Sin acceso completo
Enfoque en optimización de K-means Publicaciones antes de 2015
Análisis de rendimiento, precisión o Sin análisis de rendimiento o resultados
eficiencia K-means no es el tema principal
Comparación con otros algoritmos de Documentos duplicados o preliminares
clustering
Fuentes no científicas (blogs, foros, etc.)
Uso de técnicas avanzadas o
No están en inglés o español
metaheurísticas
Documentos revisados por pares
En inglés o español

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 19 / 40
6.5 Resultados de la revisión sistemática

Se analizaron 9 cadenas de búsqueda

relacionadas con K-means y paralelización.
Las bases de datos consultadas fueron:
ScienceDirect, IEEE y Taylor and Francis.
La cadena 3 fue la más productiva con 755
resultados en ScienceDirect.
IEEE mostró resultados bajos en la mayoría de
cadenas.
Taylor and Francis tuvo resultados relevantes
en cadenas 1, 2 y 3.
Algunas cadenas no arrojaron resultados en
ninguna base.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 20 / 40
Resultados por cadena y base de datos

Gráfico: Número de publicaciones encontradas por cadena de búsqueda en ScienceDirect, IEEE y Taylor & Francis
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 21 / 40
6.6 Lista de Artículos

Artículo Raíz
Título: Some Methods for Classification and Analysis of Multivariate Observations
Autor: J. MacQueen (1967)

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 22 / 40
6.6 Lista de Artículos (1–5)

Autor(es) Título Año

Dias, L. A.; Ferreira, J. C.; Parallel Implementation of K-Means Algorithm on 2020
Fernandes, M. A. C. FPGA
Kwedlo, W.; Lubowicz, M. Accelerated K-Means Algorithms for Low- 2021
Dimensional Data on Parallel Shared-Memory
Systems
Wan, L.; Zhang, G.; Li, H.; A Novel Bearing Fault Diagnosis Method Using 2021
Li, C. Spark-Based Parallel ACO-K-Means Clustering Algo-
rithm
Santander-Jiménez, S.; High-level Multi-Platform Approaches for Scoring 2025
Vega-Rodríguez, M. A. Phylogenies on CPU and GPU Devices
Poggiali, A.; Berti, A.; Quantum Clustering with K-Means: A Hybrid Ap- 2024
Bernasconi, A.; Del Corso, proach
G. M.; Guidotti, R.

Table: Artículos seleccionados según criterios de inclusión y exclusión (parte 1)

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 23 / 40
6.6 Lista de Artículos (6–10)

Autor(es) Título Año

Nanda, S. J.; Gulati, I.; A K-Means-Galactic Swarm Optimization-Based 2019
Chauhan, R.; Modi, R.; Clustering Algorithm with Otsu’s Entropy for Brain
Dhaked, U. Tumor Detection
Krishnamoorthy, S.; Ja- Optimizing Weighted K-Means Clustering with 2025
ganathan, B. Gradient-Based Methods
Zhou, Y.; Liu, J.; Wang, Y.; WeDIV – An Improved K-Means Clustering Algo- 2022
Zhang, H. rithm with a Weighted Distance and a Novel Internal
Validation Index
Rashmi, C.; Chaluvaiah, S.; An Efficient Parallel Block Processing Approach for 2023
Hemantha Kumar, G. K-Means Algorithm for High Resolution Orthoim-
agery Satellite Images

Table: Artículos seleccionados según criterios de inclusión y exclusión (parte 2)

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 24 / 40
Clasificación de Artículos

Raíz
Título: Some Methods for Classification and Analysis of Multivariate Observations
Autor: J. MacQueen (1967)
Objetivo: Introducir un método eficiente para clasificar observaciones multivariadas
mediante agrupamiento no supervisado, con énfasis en la simplicidad computacional y
aplicabilidad práctica.
Técnica: Se propone el algoritmo K-Means, que asigna observaciones a grupos según la
minimización de la distancia euclidiana al centroide más cercano. El procedimiento es
iterativo: se recalculan los centroides y se reagrupan los datos hasta alcanzar la
convergencia. Se presentan fundamentos matemáticos y heurísticos que sustentan la
estabilidad del método.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 25 / 40
Clasificación de Artículos

Raíz (continuación)
Resultados: Se demuestra la convergencia del algoritmo bajo ciertas condiciones y se
presentan ejemplos prácticos de clasificación en conjuntos de datos reales. El método
muestra eficiencia computacional y capacidad de adaptación a diferentes tipos de datos
multivariados.
Conclusión: El algoritmo K-Means constituye una herramienta robusta y versátil para la
clasificación de datos multivariados. Su simplicidad, rapidez y efectividad lo convierten en
un referente en el campo del aprendizaje no supervisado, sentando las bases para futuras
investigaciones en clustering, optimización y análisis exploratorio.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 26 / 40
Clasificación de Artículos

Optimización
Artículo 1: Accelerated K-Means for Shared-Memory Systems
Artículo 2: Optimizing Weighted K-Means with Gradient-Based Methods
Artículo 3: Parallel K-Means on Heterogeneous Computing for Large-Scale Data

Teoría
Artículo 1: Multi-View Learning Meets State-Space Model
Artículo 2: Quantum Clustering with K-Means: A Hybrid Approach

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 27 / 40
Clasificación de Artículos

Aplicación
Artículo 1: Parallel Implementation of K-Means on FPGA
Artículo 2: Spark-Based Parallel ACO-K-Means for Fault Diagnosis
Artículo 3: K-Means-GSO with Otsu’s Entropy for Brain Tumor Detection
Artículo 4: Performance Evaluation Model for PMO Based on Multicriteria Approach

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 28 / 40
Artículo 1: Implementación paralela en FPGA

Título: Parallel Implementation of K-Means Algorithm on FPGA

Problema: El algoritmo K-Means tradicional, aunque eficiente en entornos pequeños, presenta limitaciones de
rendimiento cuando se aplica a grandes volúmenes de datos, especialmente en sistemas secuenciales. Esto impide su uso
en aplicaciones que requieren procesamiento en tiempo real.
Objetivo: Proponer una arquitectura paralela basada en FPGA que permita acelerar el proceso de agrupamiento del
algoritmo K-Means, reduciendo significativamente los tiempos de ejecución y mejorando la eficiencia energética.
Técnica: Se desarrolla una implementación en VHDL del algoritmo K-Means, aprovechando el paralelismo inherente de
los dispositivos FPGA. Se comparan los resultados con ejecuciones en CPU tradicionales para evaluar la mejora en
rendimiento.
Resultados: La versión en FPGA logró una reducción sustancial en el tiempo de procesamiento, especialmente en
conjuntos de datos de alta dimensión. Además, se observó un menor consumo energético en comparación con plataformas
convencionales.
Conclusión: El uso de hardware especializado como FPGA representa una solución viable para acelerar K-Means en
aplicaciones críticas, como visión artificial, bioinformática y sistemas embebidos.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 29 / 40
Artículo 2: Optimización híbrida con metaheurísticas

Título: A K-Means-Galactic Swarm Optimization-Based Clustering Algorithm with Otsu’s Entropy for Brain Tumor
Detection
Problema: K-Means es sensible a la inicialización de centroides, lo que puede llevar a soluciones subóptimas. En
contextos médicos, como la detección de tumores cerebrales, esta limitación compromete la precisión del diagnóstico.
Objetivo: Desarrollar un modelo híbrido que combine K-Means con Galactic Swarm Optimization (GSO) y el criterio de
entropía de Otsu para mejorar la segmentación de imágenes médicas.
Técnica: Se integra GSO para optimizar la selección de centroides y se aplica Otsu para mejorar la separación entre
regiones en imágenes de resonancia magnética. El modelo se valida con métricas de precisión, sensibilidad y especificidad.
Resultados: El algoritmo híbrido superó a K-Means tradicional en todas las métricas evaluadas, mostrando una
segmentación más precisa y estable. También se observó una mejor convergencia y menor dependencia de la inicialización.
Conclusión: La combinación de K-Means con técnicas evolutivas y criterios estadísticos mejora significativamente su
rendimiento en tareas de agrupamiento complejas, especialmente en aplicaciones biomédicas.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 30 / 40
Artículo 3: Evaluación comparativa en plataformas CPU/GPU
Título: High-level Multi-Platform Approaches for Scoring Phylogenies on CPU and GPU Devices
Objetivo principal
El estudio tuvo como propósito demostrar que es posible utilizar lenguajes de programación modernos para desarrollar
programas eficientes que funcionen tanto en unidades de procesamiento central (CPU) como en unidades de
procesamiento gráfico (GPU), sin necesidad de crear versiones distintas para cada arquitectura.
Problema abordado
En el campo de la bioinformática, muchos programas se diseñan para un tipo específico de hardware:
Algunos funcionan únicamente en CPUs convencionales.
Otros dependen de GPUs de una marca o arquitectura determinada.
Esta dependencia limita la portabilidad del software, incrementa los costos y dificulta su mantenimiento.
Propuesta del estudio
Se implementaron tres versiones del mismo algoritmo utilizando diferentes lenguajes y modelos de programación paralela:
OpenMP: orientado a la programación paralela en CPUs y GPUs.
OpenACC: diseñado para acelerar cálculos científicos mediante directivas.
SYCL: estándar abierto que equilibra portabilidad y rendimiento.
Algoritmo analizado
El estudio se centró en el cálculo de parsimonia filogenética, empleado para:
Reconstruir árboles evolutivos.
Analizar la evolución de virus y especies.
Examinar relaciones genéticas y biológicas.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 31 / 40
Artículo 3: Evaluación comparativa en plataformas CPU/GPU
(continuación)
Resultados principales
OpenMP mostró mejor rendimiento en arquitecturas basadas en CPU.
OpenACC presentó mayor velocidad en plataformas GPU.
SYCL ofreció un desempeño equilibrado entre ambas.
Todas las versiones superaron el rendimiento de programas tradicionales.

Comparación de desempeño

Lenguaje Mejor en Ventaja principal

OpenMP CPU Mayor equilibrio general
OpenACC GPU Alta velocidad en cálculos masivos
SYCL Ambos Portabilidad y diseño moderno

Conclusión
El artículo demuestra que mediante el uso de lenguajes modernos como OpenMP, OpenACC y SYCL es posible desarrollar
aplicaciones científicas de alto rendimiento que sean portables entre diferentes arquitecturas de hardware, manteniendo
una eficiencia comparable o superior a las implementaciones específicas. Esto representa un avance significativo hacia la
unificación de entornos de programación en la computación científica y de alto desempeño.
Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El
(UNAMBA)
algoritmo K-Means Noviembre 2025 32 / 40
7. Conclusión

Hallazgos Principales
K-Means mantiene relevancia por su simplicidad
K-Means++ mejora significativamente la inicialización
Métricas como Silhouette Score son esenciales
Aplicaciones exitosas en múltiples dominios

Trabajo Futuro
Análisis de clustering espectral
Aplicación en Big Data
Integración con deep learning
Métricas de evaluación avanzadas

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 33 / 40
Conclusión: Revisión sistemática

La revisión sistemática realizada permitió identificar y analizar nueve artículos científicos

relevantes sobre la implementación paralela del algoritmo K-means, publicados entre 2015 y
2025. A partir de más de 1600 resultados iniciales obtenidos en bases de datos académicas
como ScienceDirect, IEEE y Taylor & Francis, se aplicaron criterios rigurosos de inclusión y
exclusión que redujeron el corpus final a estudios revisados por pares, con análisis de
rendimiento y enfoque directo en K-means.
Los artículos seleccionados fueron clasificados en tres categorías principales: optimización,
teoría y aplicación. Esta clasificación permitió observar cómo el algoritmo ha evolucionado
desde sus fundamentos matemáticos hasta su implementación en entornos computacionales
modernos y casos de uso reales.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 34 / 40
Hallazgos principales

Entre los hallazgos más relevantes se destacan los siguientes:

Las técnicas de paralelización en plataformas heterogéneas (CPU, GPU, FPGA) han
demostrado mejoras sustanciales en velocidad, escalabilidad y eficiencia computacional.
Los enfoques híbridos, como la combinación de K-means con algoritmos metaheurísticos
(ACO, GSO), han logrado una mayor precisión en tareas de segmentación compleja.
Los modelos teóricos propuestos amplían el marco conceptual de K-means hacia contextos
multivista y clustering cuántico, abriendo nuevas posibilidades para el análisis de datos no
estructurados.
Las aplicaciones prácticas abarcan áreas como diagnóstico médico, gestión organizacional y
procesamiento en hardware especializado, lo que confirma la versatilidad del algoritmo en
distintos dominios.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 35 / 40
Líneas de trabajo futuro

A partir del análisis de los artículos seleccionados, se identifican varias líneas de investigación
futura que podrían fortalecer el desarrollo del algoritmo K-means en contextos paralelos:
Integrar K-means con modelos de aprendizaje profundo para mejorar la adaptabilidad en
entornos dinámicos y no supervisados.
Desarrollar versiones optimizadas del algoritmo para arquitecturas emergentes como
computación cuántica, edge computing y sistemas distribuidos en la nube.
Evaluar el impacto de la paralelización en la calidad del clustering en datasets de alta
dimensionalidad, ruido y desequilibrio de clases.
Promover estudios comparativos que analicen el rendimiento de K-means frente a otros
algoritmos de clustering en escenarios reales y bajo diferentes métricas de evaluación.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 36 / 40
Referencias I

Banerjee, N., Chakraborty, S., Raman, V., and Satti, S. R. (2017).

Space efficient linear time algorithms for bfs, dfs and applications.
Theory of Computing Systems, 62(8):1736–1762.

Chaslot, G., Bakkes, S., Szita, I., and Spronck, P. (2008).

Monte-carlo tree search: A new framework for game ai.
Proceedings of the 4th Artificial Intelligence and Interactive Digital Entertainment Conference (AIIDE), 4(1):216–217.
Artículo seminal que introduce MCTS para IA en juegos.

Chen, W., Zou, Y., Xu, Z., Xu, L., and Wang, S. (2025).
Multi-view learning meets state-space model: A dynamical system perspective.
Future Generation Computer Systems.

Cormen, T. H., Leiserson, C. E., Rivest, R. L., and Stein, C. (2009).

Introduction to Algorithms.
MIT Press, Cambridge, Massachusetts, 3 edition.

Darip, M., Auliana, S., Anam, A. K., Parimin, and Agung, A.

Comparison of BFS and DFS algorithm for routes to historical-cultural tourism locations in banten province.
Journal of Advances in Information and Industrial Technology (JAIIT).

Darip, M., Auliana, S., Anam, A. K., Parimin, P., and Agung, A. (2024).
Comparison of bfs and dfs algorithm for routes to historical-cultural tourism locations in banten province.
Journal of Advances in Information and Industrial Technology, 6(2).

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 37 / 40
Referencias II

Diah, N. M., Riza, S., Ahmad, S., Musa, N., and Hashim, S. (2025).
Sudoku solutions: a comparative analysis of breadth-first search, depth-first search, and human approaches.
Journal of Education and Learning, 19(1):561–569.

Dias, L. A., Ferreira, J. C., and Fernandes, M. A. C. (2020).

Parallel implementation of k-means algorithm on fpga.
IEEE Access.
Henderson, K., Gallagher, B., Eliassi-Rad, T., Tong, H., Basu, S., Akoglu, L., Koutra, D., Faloutsos, C., and Li, L. (2025).
Rolx: Structural role extraction & mining in large graphs.
Retrieved from University of Michigan.

Krishnamoorthy, S. and Jaganathan, B. (2025).

Optimizing weighted k-means clustering with gradient-based methods.
Big Data and Cognitive Computing.

Kwedlo, W. and Lubowicz, M. (2021).

Accelerated k-means algorithms for low-dimensional data on parallel shared-memory systems.
IEEE Access.
Mariano, V. T. T., de Jesús Núñez Cárdenas, F., and Hernández, E. A. (2025).
Análisis de algoritmos de búsqueda en espacio de estados para planificación de rutas.
Revista de Investigación Científica de la Universidad Autónoma del Estado de Hidalgo, 13(1):45–59.
Estudio sobre algoritmos DFS, BFS, Nayfeth y A* aplicados a planificación de trayectorias y optimización de rutas.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 38 / 40
Referencias III

Meyer, U. and Sanders, P. (2012).

-stepping: A parallelizable shortest path algorithm.
https://arxiv.org/abs/1208.5542.
arXiv preprint arXiv:1208.5542.

Nanda, S. J., Gulati, I., Chauhan, R., Modi, R., and Dhaked, U. (2018).
A k-means-galactic swarm optimization-based clustering algorithm with otsu’s entropy for brain tumor detection.
Applied Artificial Intelligence.

Naumov, M., Vrielink, A., and Garland, M. (2017).

Parallel depth-first search for directed acyclic graphs.
In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis (SC ’17). ACM.

Poggiali, A., Berti, A., Bernasconi, A., Corso, G. M. D., and Guidotti, R. (2024).
Quantum clustering with k-means: A hybrid approach.
Theoretical Computer Science.

Ramos, M. and Mendoza, J. (2021).

Comparación de estrategias de búsqueda no informada y heurística en la optimización de rutas: Un estudio experimental.
Revista Nobilis, 1(1).

Viglioni, T. G. A., Cunha, J. A. O. G., and Moura, H. P. (2016).

A performance evaluation model for project management office based on a multicriteria approach.
Procedia Computer Science, 100:583–590.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 39 / 40
Referencias IV

Wan, L., Zhang, G., Li, H., and Li, C. (2021).

A novel bearing fault diagnosis method using spark-based parallel aco-k-means clustering algorithm.
IEEE Access.
Zheng, K. (2024).
A parallel breadth-first search using shared memory level-synchronization.
Proceedings of the 2023 International Conference on Machine Learning and Automation, 2023(36).

Zhou, Y., Liu, J., Wang, Y., and Zhang, H. (2022).

A parallel k-means algorithm based on heterogeneous computing for large-scale data.
Engineering Applications of Artificial Intelligence.

Luis Manuel Ccuito Jose Luis Loayza Ronald Valezuela Carbajal El

(UNAMBA)
algoritmo K-Means Noviembre 2025 40 / 40

También podría gustarte

Algoritmo K
Aún no hay calificaciones
Algoritmo K
7 páginas
Inteligencia Artificial2
Aún no hay calificaciones
Inteligencia Artificial2
21 páginas
K - Medias. PASPUEL FRANCISCO ES7-P002
Aún no hay calificaciones
K - Medias. PASPUEL FRANCISCO ES7-P002
11 páginas
K Means
Aún no hay calificaciones
K Means
17 páginas
Algoritmo K-means: Segmentación y Variantes
Aún no hay calificaciones
Algoritmo K-means: Segmentación y Variantes
9 páginas
K-means: Clustering Eficiente y Versátil
Aún no hay calificaciones
K-means: Clustering Eficiente y Versátil
18 páginas
Algoritmos de Clustering: K-means y Más
Aún no hay calificaciones
Algoritmos de Clustering: K-means y Más
45 páginas
K-Means: Clustering y Visualización
Aún no hay calificaciones
K-Means: Clustering y Visualización
14 páginas
K-Means y X-Means: Clustering Efectivo
Aún no hay calificaciones
K-Means y X-Means: Clustering Efectivo
14 páginas
5.2. Algoritmo K Means I
Aún no hay calificaciones
5.2. Algoritmo K Means I
7 páginas
Mejores Prácticas en Clustering K-means
Aún no hay calificaciones
Mejores Prácticas en Clustering K-means
87 páginas
K - Medias. Romero Romero Francisco Horacio Es7-P001
Aún no hay calificaciones
K - Medias. Romero Romero Francisco Horacio Es7-P001
8 páginas
Clustering en Minería de Datos
Aún no hay calificaciones
Clustering en Minería de Datos
49 páginas
K-means: Clasificación y Procesamiento de Imágenes
Aún no hay calificaciones
K-means: Clasificación y Procesamiento de Imágenes
38 páginas
Algoritmo Matematico
Aún no hay calificaciones
Algoritmo Matematico
7 páginas
Clustering K-means y Método del Codo
Aún no hay calificaciones
Clustering K-means y Método del Codo
8 páginas
Algoritmo K-Means: Clasificación No Supervisada
Aún no hay calificaciones
Algoritmo K-Means: Clasificación No Supervisada
4 páginas
Cuestionario K-Means
100% (1)
Cuestionario K-Means
4 páginas
Presentación de La Práctica 2
Aún no hay calificaciones
Presentación de La Práctica 2
57 páginas
Guía del Algoritmo K-Means en Clustering
Aún no hay calificaciones
Guía del Algoritmo K-Means en Clustering
6 páginas
Clustering 2 Métodos de Partición-K-clusters
Aún no hay calificaciones
Clustering 2 Métodos de Partición-K-clusters
23 páginas
Análisis de K-Means, DBSCAN y Fuzzy C-means
Aún no hay calificaciones
Análisis de K-Means, DBSCAN y Fuzzy C-means
5 páginas
Clustering - Algoritmo K-Means Power Bi
Aún no hay calificaciones
Clustering - Algoritmo K-Means Power Bi
21 páginas
Tema 3 No Supervisado
Aún no hay calificaciones
Tema 3 No Supervisado
40 páginas
K-Means: Clustering y Ejemplos Numéricos
Aún no hay calificaciones
K-Means: Clustering y Ejemplos Numéricos
24 páginas
Ensayo Bse de K-MEANS Y DBSCAN Hector Jhefferson Herrera Choque
Aún no hay calificaciones
Ensayo Bse de K-MEANS Y DBSCAN Hector Jhefferson Herrera Choque
9 páginas
Algoritmo K-means: Clasificación y Optimización
Aún no hay calificaciones
Algoritmo K-means: Clasificación y Optimización
9 páginas
Algoritmos KNN y K-Means en ML
Aún no hay calificaciones
Algoritmos KNN y K-Means en ML
25 páginas
Agrupación de Jugadores con K-Means
Aún no hay calificaciones
Agrupación de Jugadores con K-Means
20 páginas
Taller de Aplicaciones Dia 1 y 2
Aún no hay calificaciones
Taller de Aplicaciones Dia 1 y 2
128 páginas
Presentación Inteligencia Artificial Moderno Morado - 20251009 - 140011 - 0000
Aún no hay calificaciones
Presentación Inteligencia Artificial Moderno Morado - 20251009 - 140011 - 0000
19 páginas
Problemas y Soluciones del K-Means
Aún no hay calificaciones
Problemas y Soluciones del K-Means
7 páginas
Taller de K-means Clustering en R
Aún no hay calificaciones
Taller de K-means Clustering en R
7 páginas
Algoritmo K-means en Machine Learning
Aún no hay calificaciones
Algoritmo K-means en Machine Learning
33 páginas
Método K-medias en Agrupamiento de Datos
Aún no hay calificaciones
Método K-medias en Agrupamiento de Datos
8 páginas
Agrupamiento en Minería de Datos IA
Aún no hay calificaciones
Agrupamiento en Minería de Datos IA
39 páginas
Clasificación de Imágenes en Teledetección
Aún no hay calificaciones
Clasificación de Imágenes en Teledetección
44 páginas
Slides Clustering
Aún no hay calificaciones
Slides Clustering
22 páginas
Curso de Clustering con Python y scikit-learn
Aún no hay calificaciones
Curso de Clustering con Python y scikit-learn
106 páginas
Tecnicas de Clustering en Machine Learning
Aún no hay calificaciones
Tecnicas de Clustering en Machine Learning
12 páginas
05 Machine Learning
Aún no hay calificaciones
05 Machine Learning
3 páginas
Agrupamiento K-Means en Análisis de Datos
Aún no hay calificaciones
Agrupamiento K-Means en Análisis de Datos
6 páginas
CIENCIA de DATOS - AA - Lectura Técnica Funcionamiento Del Algoritmo K-Means Según Google Developer
Aún no hay calificaciones
CIENCIA de DATOS - AA - Lectura Técnica Funcionamiento Del Algoritmo K-Means Según Google Developer
3 páginas
1.1 Lectura - K-Means
Aún no hay calificaciones
1.1 Lectura - K-Means
19 páginas
Clustering K-means en Aprendizaje No Supervisado
Aún no hay calificaciones
Clustering K-means en Aprendizaje No Supervisado
20 páginas
Técnicas de Agrupamiento en Minería de Datos
Aún no hay calificaciones
Técnicas de Agrupamiento en Minería de Datos
76 páginas
Técnicas de Clustering en Minería de Datos
Aún no hay calificaciones
Técnicas de Clustering en Minería de Datos
81 páginas
Algoritmo K-means: Clustering Efectivo
Aún no hay calificaciones
Algoritmo K-means: Clustering Efectivo
2 páginas
K Means
Aún no hay calificaciones
K Means
25 páginas
Algoritmos de Clasificación en Machine Learning
Aún no hay calificaciones
Algoritmos de Clasificación en Machine Learning
25 páginas
Análisis de Clúster: Métodos y Aplicaciones
Aún no hay calificaciones
Análisis de Clúster: Métodos y Aplicaciones
33 páginas
APUNTE - No Supervisado
Aún no hay calificaciones
APUNTE - No Supervisado
6 páginas
Aprendizaje Automatico No Supervisado
Aún no hay calificaciones
Aprendizaje Automatico No Supervisado
40 páginas
Kmeans
Aún no hay calificaciones
Kmeans
36 páginas
Algoritmos y Medidas de Agrupamiento
Aún no hay calificaciones
Algoritmos y Medidas de Agrupamiento
6 páginas
K-Means Clustering: Guía y Proceso
Aún no hay calificaciones
K-Means Clustering: Guía y Proceso
1 página
Introducción al Clustering en Machine Learning
Aún no hay calificaciones
Introducción al Clustering en Machine Learning
40 páginas
Socket TCP y UDP
Aún no hay calificaciones
Socket TCP y UDP
12 páginas
Taxonomía de Sistemas Distribuidos
Aún no hay calificaciones
Taxonomía de Sistemas Distribuidos
9 páginas
Transparencia de Sistemas Distribuidos
Aún no hay calificaciones
Transparencia de Sistemas Distribuidos
10 páginas
Servicios de Nombramiento
Aún no hay calificaciones
Servicios de Nombramiento
14 páginas
Escuela Gastronómica en Perú: Modelo de Negocio
Aún no hay calificaciones
Escuela Gastronómica en Perú: Modelo de Negocio
21 páginas
Definición de Sistema Distribuidos
Aún no hay calificaciones
Definición de Sistema Distribuidos
10 páginas
Latex
Aún no hay calificaciones
Latex
9 páginas
Matemática Discreta: Semigrupos y Monoides
Aún no hay calificaciones
Matemática Discreta: Semigrupos y Monoides
38 páginas
James E. Dobson - The Birth of Computer Vision-University of Minnesota Press (2023) - Removed
Aún no hay calificaciones
James E. Dobson - The Birth of Computer Vision-University of Minnesota Press (2023) - Removed
33 páginas
Middleware
Aún no hay calificaciones
Middleware
5 páginas
Presentación Propuesta de Proyecto Formas Moderno Azul
Aún no hay calificaciones
Presentación Propuesta de Proyecto Formas Moderno Azul
13 páginas
Análisis de Regresión Logística Binomial
100% (1)
Análisis de Regresión Logística Binomial
1 página
Fenix
Aún no hay calificaciones
Fenix
9 páginas
The K Means Algorithm
Aún no hay calificaciones
The K Means Algorithm
40 páginas
Funcionamiento y Tipos de Computadoras
Aún no hay calificaciones
Funcionamiento y Tipos de Computadoras
22 páginas
ADSI Proyecto
Aún no hay calificaciones
ADSI Proyecto
20 páginas
Monografía sobre Oracle Database 2022
Aún no hay calificaciones
Monografía sobre Oracle Database 2022
11 páginas
Ventajas y Usos del Gestor Redis
Aún no hay calificaciones
Ventajas y Usos del Gestor Redis
13 páginas
Guía de MariaDB para Estudiantes
Aún no hay calificaciones
Guía de MariaDB para Estudiantes
11 páginas
Introducción a MongoDB: Gestor NoSQL
Aún no hay calificaciones
Introducción a MongoDB: Gestor NoSQL
22 páginas
Apache Cassandra: Guía Completa
Aún no hay calificaciones
Apache Cassandra: Guía Completa
14 páginas
Introducción a MySQL y su Instalación
Aún no hay calificaciones
Introducción a MySQL y su Instalación
19 páginas
Modelo Depredador-Presa en Sistemas Dinámicos
Aún no hay calificaciones
Modelo Depredador-Presa en Sistemas Dinámicos
16 páginas
Linealización de Dos Tanques en Serie
Aún no hay calificaciones
Linealización de Dos Tanques en Serie
7 páginas
Sesión 3 Transformada Z (CD - 2024 - 03) Electrónica
Aún no hay calificaciones
Sesión 3 Transformada Z (CD - 2024 - 03) Electrónica
41 páginas
1.-Funciones Predefinidas en Pseint
Aún no hay calificaciones
1.-Funciones Predefinidas en Pseint
3 páginas
Máster en Bioinformática y Bioestadística UOC
Aún no hay calificaciones
Máster en Bioinformática y Bioestadística UOC
4 páginas
Sesión 2 - Distribución Binomial y Poisson
Aún no hay calificaciones
Sesión 2 - Distribución Binomial y Poisson
16 páginas
Diferencias Finitas en Ecuaciones Diferenciales
Aún no hay calificaciones
Diferencias Finitas en Ecuaciones Diferenciales
26 páginas
Actividad Autonoma - Taller Cap 4
Aún no hay calificaciones
Actividad Autonoma - Taller Cap 4
6 páginas
Diagonalización de Formas Cuadráticas
Aún no hay calificaciones
Diagonalización de Formas Cuadráticas
4 páginas
Tecnológico Nacional de México
Aún no hay calificaciones
Tecnológico Nacional de México
5 páginas
Algoritmo de Encriptación AES
Aún no hay calificaciones
Algoritmo de Encriptación AES
25 páginas
Análisis de Interrupciones y Hostilidad
Aún no hay calificaciones
Análisis de Interrupciones y Hostilidad
16 páginas
Introducción a la Probabilidad
Aún no hay calificaciones
Introducción a la Probabilidad
15 páginas
4.mapas Karnaugh 1
Aún no hay calificaciones
4.mapas Karnaugh 1
38 páginas
Análisis de Resortes y Fuerzas en Sistemas
Aún no hay calificaciones
Análisis de Resortes y Fuerzas en Sistemas
10 páginas
V. Polinomios Especiales I
Aún no hay calificaciones
V. Polinomios Especiales I
3 páginas
Teoría de Decrementos Múltiples en Actuaría
Aún no hay calificaciones
Teoría de Decrementos Múltiples en Actuaría
12 páginas
Transformada de Laplace en Electrónica
Aún no hay calificaciones
Transformada de Laplace en Electrónica
39 páginas
Parcial Final: Métodos Numéricos y Matrices
Aún no hay calificaciones
Parcial Final: Métodos Numéricos y Matrices
8 páginas
Actividad 1
Aún no hay calificaciones
Actividad 1
8 páginas
Ecuaciòn Logistica y Mapa Logistico
Aún no hay calificaciones
Ecuaciòn Logistica y Mapa Logistico
10 páginas
Control de Procesos
Aún no hay calificaciones
Control de Procesos
8 páginas
Sistemas de Ecuaciones en Economía
Aún no hay calificaciones
Sistemas de Ecuaciones en Economía
2 páginas
Ecuaciones y Pirámides Numéricas
Aún no hay calificaciones
Ecuaciones y Pirámides Numéricas
2 páginas
Factor Compresibilidad Z
Aún no hay calificaciones
Factor Compresibilidad Z
13 páginas
Clases y Objetos en UML: Guía Básica
Aún no hay calificaciones
Clases y Objetos en UML: Guía Básica
10 páginas
Sesión #70-2° Ecuaciones Con Valor Absoluto
Aún no hay calificaciones
Sesión #70-2° Ecuaciones Con Valor Absoluto
1 página
Programación Lineal y Método Simplex
Aún no hay calificaciones
Programación Lineal y Método Simplex
20 páginas
Programación II: Algoritmos y Estructuras
Aún no hay calificaciones
Programación II: Algoritmos y Estructuras
3 páginas
Algoritmo de Dijkstra y Grafos
Aún no hay calificaciones
Algoritmo de Dijkstra y Grafos
2 páginas