TRABAJO DE MINERÍA DE DATOS
En grupos de 4 personas, desarrolle un informe que incluya las siguientes actividades:
1. CLUSTERING
Aplique el algoritmo K-Means para resolver el siguiente ejercicio:
Medicina X1 X2 X3
A 9 3 7
B 10 2 9
C 1 9 4
D 6 5 5
E 1 10 3
En primera instancia, busque 2 clústeres y utilice la distancia Euclidiana.
Luego, busque 3 clústeres y utilice la distancia de Manhattan.
2. REGLAS DE ASOCIACIÓN
Se aplicó una encuesta para conocer las preferencias de cursos en los alumnos, y se tuvo el siguiente resultado:
Encuesta 1: Ciencias, Comunicación, Desarrollo humano
Encuesta 2: Ciencias, Comunicación, Desarrollo humano, Matemática, Aritmética
Encuesta 3: Ciencias, Desarrollo humano, Matemática
Encuesta 4: Ciencias, Desarrollo humano, Matemática, Aritmética
Encuesta 5: Ciencias, Comunicación, Desarrollo humano, Matemática
Aplique el algoritmo A-priori para resolver el ejercicio, considerando un contador de soporte de 2 y una confianza
del 70%. Si bajamos la confianza a 60%, ¿aumentan las reglas de asociación?
3. CLASIFICACIÓN (ÁRBOLES DE DECISIÓN)
Explique lo siguiente:
¿Qué es clasificación?, ¿cuál es el proceso para aplicar clasificación?
¿Qué es un árbol de decisión?, explicar el algoritmo de aplicación.
Para el punto anterior, considere los conceptos de atributo “splitting”, entropía y ganancia de información.
Aplique el algoritmo de árboles de decisión para determinar qué alimento(s) pueden producir alergias.
Manzana Carne Pastel Alergia
NO SI NO SI
NO SI SI SI
NO SI NO SI
SI SI SI SI
SI SI NO NO
NO NO SI NO
SI NO NO NO
NO NO SI NO
FECHA DE ENTREGA: LUNES 22 DE OCTUBRE HASTA LAS 12:00 HORAS POR EL AULA VIRTUAL.