FACULTAD DE INGENIERIA DE SISTEMAS
INTELIGENCIA ARTIFICIAL
AÑO LECTIVO 2021-B
NOMBRE: JEFFERSON ALQUINGA
MARCO TEORICO
K means (K medias en castellano), es el nombre que recibe la metodología que clasifica
los elementos y el centroide con el fin de conformar el cluster.
Su funcionamiento, como ya se ha anticipado anteriormente, consiste en la implantación
de los elementos que denominaremos k o centroides dentro de un conjunto de datos, los
mismos que se estarán reubicando iterativamente hasta encontrar su punto de equilibrio.
Un centroide será, una vez completada la definición del cluster, el valor medio que
conformará el grupo.
Hasta que no se haya alcanzado ese equilibrio, el centroide irá desplazándose a lo largo
de la tabla, buscando posiciones cuyos valores medios respecto a los elementos asociados,
le permitan ser más estable tanto a él como a los demás centroides.
Por hacer una analogía con el mundo real, imaginemos que nos sueltan de manera
aleatoria en un punto indeterminado de la “provincia A” y sabemos que nuestro destino
es el centro de la capital. Para llegar allí, podemos mirar un mapa, pero no desplazarnos
mientras lo observamos.
Echamos un ojo al mapa, lo cerramos y andamos. Volvemos a mirarlo y comprobamos
que estamos más cerca “del punto de equilibrio” que es nuestro destino, por lo que
seguimos en esa dirección. De lo contrario, rectificaremos y andaremos en otro sentido.
FACULTAD DE INGENIERIA DE SISTEMAS
INTELIGENCIA ARTIFICIAL
AÑO LECTIVO 2021-B
Método del codo
Para el segundo ejercicio, se pasan los datos desde un json a un dataframe, luego se
llaman a diversos clasificadores Kmeans de manera que se observe el gráfico del
método del codo.
Se observa el codo en 2 clusters, así que se realiza una clasificación de 2 clusters.
FACULTAD DE INGENIERIA DE SISTEMAS
INTELIGENCIA ARTIFICIAL
AÑO LECTIVO 2021-B
FACULTAD DE INGENIERIA DE SISTEMAS
INTELIGENCIA ARTIFICIAL
AÑO LECTIVO 2021-B
Planteamiento
1. Usar el algoritmo Kmeans programado en Pyton, para dividir en dos clases el archivo
house_price con los atributos price, built-in y area. Documente y presente código y capturas de
pantalla.
2. La tabla adjunta contiene 8 casos bidimensionales a partir de los cuales se trata de agrupar los
diferentes ejemplos. Escoger el k óptimo. ¿Cómo quedarían clasificados estos ejemplos de acuerdo
con el algoritmo k-means? Detalle cada uno de los pasos que haría aplicados a este ejemplo.
Caso X1 X2
1 1 1
2 2 4
3 3 2
4 3 5
5 4 4
6 4 7
7 6 4
8 6 6
Corridas de Prueba
Conclusiones
• A través de este algoritmo se pudo entender en cómo funciona la clasificación no supervisada.
• Una parte importante que se pudo descubrir al realizar este trabajo que este algoritmo ayuda a
optimizar debido a su funcionamiento.
• Clustering es un algoritmo ante el que pueden participar miles, cientos de
miles de datos, por lo que el proceso puede ser tedioso, llegando a requerir de la
implementación de máquinas y supercomputadoras especializadas en este tipo de
procesos.
• En Avansis, compañía puntera en la definición y aplicación de técnicas
basadas en Inteligencia Artificial, podemos ayudar a introducir esta metodología en
vuestros procesos.