0% encontró este documento útil (0 votos)

64 vistas17 páginas

Analítica de Datos y Clustering

1. Se presenta la práctica No. 2 de análisis de datos de la Facultad de Ingeniería Industrial y de Sistemas de la Universidad Nacional de Ingeniería. 2. Se calcula la matriz de similitud entre productos usando el índice Jaccard, y se identifican los productos con una similitud mayor al 80%. 3. Se grafican series temporales de índices bursátiles usando subplots para mejor visualización, y se realiza un análisis de clustering jerárquico utilizando la distancia dinámica del

Cargado por

MIGUEL ANGEL LESCANO AVALOS

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

64 vistas17 páginas

Analítica de Datos y Clustering

Cargado por

MIGUEL ANGEL LESCANO AVALOS

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD NACIONAL DE INGENIERÍA

FACULTAD DE INGENIERÍA INDUSTRIAL Y DE SISTEMAS

ANALÍTICA DE DATOS

Práctica Nº2

Integrantes:
Lescano Avalos Miguel Angel 20161212D
Pazce Alama Patricia Elena 20162612F
Timana Mendoza Abelardo 20152582G
Obregon Zavaleta Harold André 20161081G

Docente:

ARADIEL CASTAÑEDA, HILARIO

2020
1. Descripción General

2. Índice Jaccard
2.1. Porcentaje de Similitud entre Productos
#Leyendo el archivo
df_ingprod=pd.read_csv("Listado de Ingredientes por
[Link]",sep=',', encoding='latin-1')

#Funcion Jaccard
def jaccard_sim(str1, str2):
a = str1
b = str2
interseccion = (a&b).sum()
union = (a|b).sum()
return round((interseccion/union)*100)

#Formar la tabla de frecuencias de producto por ingredientes

MatrizIXP =
[Link](index=df_ingprod['Ingrediente'],columns=df_ingpr
od['Producto'],margins=False)
ArrProductos= [Link]
ArrIngredientes= [Link]
MatrizJaccard.to_csv('[Link]',sep=',',
encoding='latin-1')
print(MatrizIXP)

#Generar Dataframe vacío de productos

zero_data =
[Link](shape=([Link][1],[Link][1]))
MatrizJaccard =
[Link](zero_data,index=ArrProductos,columns=ArrProduct
os)

#Recorrer matriz producto por ingredientes

for i in range(0,[Link][1]):
for j in range(0,[Link][1]):

coefJaccard=jaccard_sim(MatrizIXP[ArrProductos[i]],MatrizIXP
[ArrProductos[j]])

MatrizJaccard[[Link][i]].values[j]=coefJaccard

MatrizJaccard[[Link][j]].values[i]=coefJaccard

MatrizJaccard.to_csv('[Link]',sep=',', encoding='latin-
1')
print(MatrizJaccard)

Resultados:
1. Matriz frecuencias de ingredientes por producto

2. Matriz de porcentaje de similitud entre productos con el índice Jaccard.

Conclusiones:
Los productos con un porcentaje de similitud mayor al 80% son: (19,16,88%)
(18,17,89%) (7,8,83%) (7,6,94%) (7,9,82%) (9,5,88%).

3. Análisis de Componentes Principales (ACP)

3.1. Clustering Jerárquico
4. Clustering Jerárquico de Series Temporales
4.1. Carga de Archivos y gráfica de datos

Cargamos el archivo csv:

from [Link] import files
import pandas as pd
import numpy as np
cargar=[Link]
IB=pd.read_csv("/content/indices bursatiles retornos
[Link]",sep=',', encoding='latin-1')
#Mostrar primeros elementos
[Link]()

#Graficamos las variaciones que han tenido los índices

bursátiles a través de las 73 semanas...
[Link]()
#Como se puede observar, matplotlib arroja todo en una sola
gráfica, lo que hace difícil su visualización

# Para solucionar ello, podemos utilizar los "subplots" o

subtramas
import [Link] as plt
[Link](subplots=True)
[Link]()
# El inconveniente con este método es el limitado rango de
cada una de las gráficas.

#Por ello, debemos establecer un orden de cada subgráfico a

manera de matriz.
# Crearemos un conjunto de gráficos, ordenados en 3 filas y
2 columnas:
fig, axes = [Link](nrows=3, ncols=2, figsize=(10,8));
axes
#Hacemos un cambio de variable de cada subgráfico}
ax11 = axes[0][0]
ax12 = axes[0][1]
ax21 = axes[1][0]
ax22 = axes[1][1]
ax31 = axes[2][0]
ax32 = axes[2][1]

#Indicamos el grosor de la línea de las gráficas

line_width = 1.5

#Graficamos cada columna en un subgráfico

[Link](ax=ax11, c='blue', lw=line_width, ylim=[-15,
15])
[Link](ax=ax12, c='orange', lw=line_width, ylim=[-
15, 15])
[Link](ax=ax21, c='green', lw=line_width, ylim=[-
15, 15])
[Link](ax=ax22, c='brown', lw=line_width, ylim=[-15,
15])
[Link](ax=ax31, c='green', lw=line_width, ylim=[-
15, 15])
[Link](ax=ax32, c='brown', lw=line_width, ylim=[-15,
15])
#Graficamos
fig
#Podemos añadir mas características al gráfico anterior,
como poner cuadrículas o establecer etiquetas:
line_width = 1.5

# Aumentamos "Grid=True" para ver cuadrículas

[Link](ax=ax11, c='blue', lw=line_width, ylim=[-15,
15], grid=True)
[Link](ax=ax12, c='orange', lw=line_width, ylim=[-
15, 15], grid=True)
[Link](ax=ax21, c='green', lw=line_width, ylim=[-
15, 15], grid=True)
[Link](ax=ax22, c='brown', lw=line_width, ylim=[-15,
15], grid=True)
[Link](ax=ax31, c='green', lw=line_width, ylim=[-
15, 15], grid=True)
[Link](ax=ax32, c='brown', lw=line_width, ylim=[-15,
15], grid=True)
#
# Colocamos título a la figura
[Link]('Evolución de Indices')
# Nombrando las axisas y ordenadas
ax31.set_xlabel('Tiempo (Días)')
ax32.set_xlabel('Tiempo (Días)')
ax11.set_ylabel('FCHI')
ax12.set_ylabel('GDAXI')
ax21.set_ylabel('IBEX')
ax22.set_ylabel('NDX')
ax31.set_ylabel('N225')
ax32.set_ylabel('STI')

# Graficamos
fig

4.2. Clustering Jerárquico de Series Temporales

¿Qué son los Clusters Jerárquicos?
Es una representación mediante un método de clasificación
automática de datos. Es muy útil en algoritmos de aprendizaje no
supervisado.

Los Clusters jerarquicos sirven para la agrupación de individuos u

objetos que tienen similares características. La gráfica de los clusters
son los llamados "Dendrogramas".

Existen diversos métodos para hallar las similitudes entre los

individuos, el más utilizado es el método de la "Distancia
Euclidiana",que aplica dicha fórmula a cada columna de cada dos
individuos, estableciendo la distancia entre ellos.
No obstante, para series de tiempo el algoritmo euclidiano no es el
más óptimo. El Dynamic Time Warping(DTW) es un método que
considera las frecuencias de la misma serie, a comparación de la
euclidiana que lo hace punto por punto de las dos series. La gran
desventaja de la DTW es el amplio tiempo de procesamiento en
grandes bases de datos.

#Hallando el Cluster Jerarquico utilizando el método DTW

# Para ello, primero transponemos la matriz de los
datos,pues hallaremos las similitudes de cada Bolsa de
valores
IBTranspuesto=[Link]()

#Para poder utilizar el dtw, debemos instalarlo

previamente...
!pip install dtw-python
#Hacemos lo mismo para la librería dtaidistance, que sirve
para las gráficas de dendrogramas especiales
!pip install dtaidistance[numpy]
#Calculamos las distancias DTW de cada índice bursátil...
IB2=pd.read_csv("/content/indices bursatiles retornos
[Link]",sep=',', encoding='latin-1',index_col=0)
IBTranspuesto2=[Link]()
# calculate series cost
results = dtw.distance_matrix_fast(IBTranspuesto2,
compact=True)
results

array('d', [5.533002271527661, 8.634772506216766,

16.55046612413815, 15.809303264515696, 15.745447986305104,
9.370125074875622, 16.610876823871727, 16.08453492183169,
15.63766660730683, 16.212678730338315, 16.67685145617768,
15.51778666892907, 19.12250581857366, 18.812911522837595,
12.12313466558908])

#Mostramos el dendrograma
import [Link] as shc
[Link](figsize=(10, 7))
[Link]("Dendrograms")
#dend = [Link]([Link](results,
method='weighted'))
#dend = [Link]([Link](results, method='ward'))
#dend = [Link]([Link](results,
method='centroid'))
#dend = [Link]([Link](results,
method='median'))
#dend = [Link]([Link](results,
method='average'))
dend = [Link]([Link](results,
method='complete'))
Como se pudo observar, existen métodos de clasificación de cada
cluster, como el "ward", "weighted","centroid","median", "average" y
"complete".

# Ahora, para el gráfico del dendrograma, es necesario

establecer a los índices bursátiles como índices de la
tabla:
IBTranspuesto3=[Link]()
[Link]()
from dtaidistance import dtw, clustering
# Añadiendo los valores de matriz DTW, hallada
anteriormente:
model1 = [Link](dtw.distance_matrix_fast,
{})
cluster_idx = [Link](IBTranspuesto2)
# Ingresamos el modelo1 a otro para poder graficarlo:
model2 = [Link](model1)
cluster_idx = [Link](IBTranspuesto2)
model2 =
[Link](dists_fun=dtw.distance_matrix_fa
st, dists_options={})
cluster_idx = [Link](IBTranspuesto2)
# Utilizamos el metodo LinkageTree para poder ingresasr
etiquetas y valores al dendrograma:
model3 = [Link](dtw.distance_matrix_fast,
{})
cluster_idx = [Link](IBTranspuesto2)
#Establecemos las etiquetas al modelo3
fig, ax = [Link](nrows=1, ncols=2, figsize=(10, 10))
show_ts_label = lambda idx: "ts-" + str(idx)
[Link](axes=ax, show_ts_label=[Link],
show_tr_label=True, ts_label_margin=-10,
ts_left_margin=10, ts_sample_length=1)

#Si bien el gráfico anterior es muy detallado, no permite

identificar subgrupos similares, por ello utilizazremos el
metodo dendrogram:
dend = [Link]([Link](results,
method='complete'))
#Establecemos el valor (t=10) donde se hará el corte para
la clasificación de Clusters:
from [Link] import fcluster
clusters= fcluster([Link](results,
method='complete'),t=10,criterion='distance')
clusters

Se pudo comprobar gráficamente el resultado del último array: Se

formaron 4 grupos de acuerdo al criterio de distancia=10.
# Añadiendo una columna que indica al grupo al que pertenece
cada indice bursátil
IBTranspuesto3['Clustering Jerarquico']=clusters
[Link]()
#Guardando el dataframe con la clasificación hallada:
#Para Jupyter: IBTranspuesto3.to_csv('C:/User/...')
from [Link] import drive

[Link]('/drive2')

IBTranspuesto3.to_csv('/drive2/My Drive/Indices Clustering

[Link]')

4.3. dasdasd
5. Mapa Temático

También podría gustarte

Clase 2
Aún no hay calificaciones
Clase 2
11 páginas
Casos-ML-Unsupervised - Eysen Perez
Aún no hay calificaciones
Casos-ML-Unsupervised - Eysen Perez
1 página
Dendrograma de Clustering en Excel
Aún no hay calificaciones
Dendrograma de Clustering en Excel
13 páginas
TRABAJOMULTIVARIADO 3 Final
Aún no hay calificaciones
TRABAJOMULTIVARIADO 3 Final
6 páginas
Codigo R
Aún no hay calificaciones
Codigo R
15 páginas
Laboratorio 7 - Agrupamiento o Clustering (Autónocvcmo)
Aún no hay calificaciones
Laboratorio 7 - Agrupamiento o Clustering (Autónocvcmo)
11 páginas
Análisis de Datos y Técnicas de Clustering
Aún no hay calificaciones
Análisis de Datos y Técnicas de Clustering
9 páginas
Ejercicios R Ggplot
Aún no hay calificaciones
Ejercicios R Ggplot
19 páginas
Guía R: Funciones, Series y Análisis
Aún no hay calificaciones
Guía R: Funciones, Series y Análisis
12 páginas
Pruebas y Analisis Inferencial-Tamano de Significancia
Aún no hay calificaciones
Pruebas y Analisis Inferencial-Tamano de Significancia
18 páginas
Analisis Cluster
Aún no hay calificaciones
Analisis Cluster
22 páginas
Rmarkdown RMD
Aún no hay calificaciones
Rmarkdown RMD
5 páginas
Lectura 4
Aún no hay calificaciones
Lectura 4
38 páginas
Analisis Datos Visualización de Datos
Aún no hay calificaciones
Analisis Datos Visualización de Datos
44 páginas
Ejercicio Analítica Financiera
Aún no hay calificaciones
Ejercicio Analítica Financiera
2 páginas
Ejemplos de Análisis Cluster en R
Aún no hay calificaciones
Ejemplos de Análisis Cluster en R
12 páginas
Introduccion A K Vecinos Mas Cercanos
Aún no hay calificaciones
Introduccion A K Vecinos Mas Cercanos
13 páginas
Tema 6.análisis de Cluster
Aún no hay calificaciones
Tema 6.análisis de Cluster
49 páginas
Caso 3 de Estadistica
Aún no hay calificaciones
Caso 3 de Estadistica
5 páginas
Pinedo Ruiz Thania - Procedimientos Estadistico R
Aún no hay calificaciones
Pinedo Ruiz Thania - Procedimientos Estadistico R
8 páginas
R2. Graficos descriptivosWORD
Aún no hay calificaciones
R2. Graficos descriptivosWORD
17 páginas
Hierarchical
Aún no hay calificaciones
Hierarchical
5 páginas
Técnicas Avanzadas en Pandas
Aún no hay calificaciones
Técnicas Avanzadas en Pandas
46 páginas
1 - Segmentación de Mercados
Aún no hay calificaciones
1 - Segmentación de Mercados
23 páginas
Grafica de Los Nucleos
Aún no hay calificaciones
Grafica de Los Nucleos
3 páginas
Tu Primer Modelo de Maching Learning
Aún no hay calificaciones
Tu Primer Modelo de Maching Learning
20 páginas
Agrupamientos
Aún no hay calificaciones
Agrupamientos
8 páginas
Clase 10
Aún no hay calificaciones
Clase 10
53 páginas
Análisis de Clúster en Santiago
Aún no hay calificaciones
Análisis de Clúster en Santiago
13 páginas
R Graficos
Aún no hay calificaciones
R Graficos
71 páginas
Iris Data Visualization and KNN Classification
Aún no hay calificaciones
Iris Data Visualization and KNN Classification
10 páginas
T4
Aún no hay calificaciones
T4
13 páginas
Correlación de Pearson
Aún no hay calificaciones
Correlación de Pearson
21 páginas
Análisis de Clúster: Técnicas y Métricas
100% (1)
Análisis de Clúster: Técnicas y Métricas
68 páginas
CODIGOS
Aún no hay calificaciones
CODIGOS
7 páginas
Bootcamp Inteligencia Artificial Nivel Explorador
Aún no hay calificaciones
Bootcamp Inteligencia Artificial Nivel Explorador
62 páginas
Segmentación Clientes Casino PAM
Aún no hay calificaciones
Segmentación Clientes Casino PAM
5 páginas
Apuntes 4° Clase - Ciencia de Datos en Python
Aún no hay calificaciones
Apuntes 4° Clase - Ciencia de Datos en Python
20 páginas
Imputación de Datos con KNN en Python
Aún no hay calificaciones
Imputación de Datos con KNN en Python
11 páginas
Clase 7 - Visualizaciones y Primeros Pasos Con Data Science (Parte I)
Aún no hay calificaciones
Clase 7 - Visualizaciones y Primeros Pasos Con Data Science (Parte I)
87 páginas
2 Cluster Peces
Aún no hay calificaciones
2 Cluster Peces
32 páginas
Minería de Datos de Informes Comerciales
Aún no hay calificaciones
Minería de Datos de Informes Comerciales
20 páginas
Visualización Avanzada con Matplotlib
Aún no hay calificaciones
Visualización Avanzada con Matplotlib
38 páginas
Análisis de Conglomerados: José A Perusquía Cortés Análisis Multivariado Semestre I
Aún no hay calificaciones
Análisis de Conglomerados: José A Perusquía Cortés Análisis Multivariado Semestre I
53 páginas
Cluster R
Aún no hay calificaciones
Cluster R
22 páginas
Guía de Proyecto con Anaconda y Pandas
Aún no hay calificaciones
Guía de Proyecto con Anaconda y Pandas
5 páginas
Reporte de Máquina de Aprendizaje No Supervisado
Aún no hay calificaciones
Reporte de Máquina de Aprendizaje No Supervisado
27 páginas
Clase 7.4
Aún no hay calificaciones
Clase 7.4
2 páginas
Clase 7. Visualizaciones
Aún no hay calificaciones
Clase 7. Visualizaciones
108 páginas
Introduction To Data Mining For Business Intelligence: Principal Component Analysis - PCA Cluster Analysis
Aún no hay calificaciones
Introduction To Data Mining For Business Intelligence: Principal Component Analysis - PCA Cluster Analysis
45 páginas
Metodos No Jerarquicos PDF
Aún no hay calificaciones
Metodos No Jerarquicos PDF
3 páginas
Clustering Jerárquico: Algoritmos y Ejemplo
Aún no hay calificaciones
Clustering Jerárquico: Algoritmos y Ejemplo
20 páginas
Analisis Componentes Python
Aún no hay calificaciones
Analisis Componentes Python
36 páginas
Minería de Datos 7
Aún no hay calificaciones
Minería de Datos 7
15 páginas
Cluster y Metodos Graficos
Aún no hay calificaciones
Cluster y Metodos Graficos
13 páginas
ESST295U202
Aún no hay calificaciones
ESST295U202
6 páginas
Examen Parcial - Informe
Aún no hay calificaciones
Examen Parcial - Informe
19 páginas
PC01
Aún no hay calificaciones
PC01
43 páginas
Liderazgo en Tiempos de Cambio
Aún no hay calificaciones
Liderazgo en Tiempos de Cambio
8 páginas
Comportamiento y Motivación en Liderazgo
Aún no hay calificaciones
Comportamiento y Motivación en Liderazgo
22 páginas
Estrategia de Checkmarx en Seguridad Software
Aún no hay calificaciones
Estrategia de Checkmarx en Seguridad Software
43 páginas
Pdfslide - Tips - Norma Isa s20
Aún no hay calificaciones
Pdfslide - Tips - Norma Isa s20
71 páginas
Tarea Unidad 3 Desarrollo de Emprendedores
Aún no hay calificaciones
Tarea Unidad 3 Desarrollo de Emprendedores
12 páginas
Alerta No - #018-2021 - Ventilador Médico Shangrila Aeonmed
100% (1)
Alerta No - #018-2021 - Ventilador Médico Shangrila Aeonmed
3 páginas
Visita Concretera
Aún no hay calificaciones
Visita Concretera
5 páginas
Vigas de Madera
Aún no hay calificaciones
Vigas de Madera
69 páginas
Cuestionario Tipos de Mantenimiento
100% (2)
Cuestionario Tipos de Mantenimiento
3 páginas
DIAGRAMAS
Aún no hay calificaciones
DIAGRAMAS
18 páginas
Módulo Electrónico para Precalentadores Diesel
Aún no hay calificaciones
Módulo Electrónico para Precalentadores Diesel
65 páginas
Directorio 2022 Anexo
Aún no hay calificaciones
Directorio 2022 Anexo
39 páginas
Descubrimiento Del ARN
Aún no hay calificaciones
Descubrimiento Del ARN
5 páginas
DTC - SURVEY123 - Capitulo Segundo DS27 2022
Aún no hay calificaciones
DTC - SURVEY123 - Capitulo Segundo DS27 2022
20 páginas
Manual de Reinscripcion CLEFCPS 2025-2
Aún no hay calificaciones
Manual de Reinscripcion CLEFCPS 2025-2
31 páginas
Examen Parcial de Ingeniería Antisísmica
Aún no hay calificaciones
Examen Parcial de Ingeniería Antisísmica
2 páginas
Inspeccion Tallimetro
Aún no hay calificaciones
Inspeccion Tallimetro
1 página
Guía Completa del Explorador de Windows
Aún no hay calificaciones
Guía Completa del Explorador de Windows
6 páginas
Caso Zara
Aún no hay calificaciones
Caso Zara
7 páginas
Despiece Shp800 SHP 800
Aún no hay calificaciones
Despiece Shp800 SHP 800
38 páginas
Tríptico para Convivencia Intercultural
Aún no hay calificaciones
Tríptico para Convivencia Intercultural
15 páginas
Informe de Mantenimiento de Desfibrilador
Aún no hay calificaciones
Informe de Mantenimiento de Desfibrilador
1 página
Diagrama de Flujo - Generación de Op y Trazabilidad de Habilitado
Aún no hay calificaciones
Diagrama de Flujo - Generación de Op y Trazabilidad de Habilitado
1 página
PLC Temporizadores
Aún no hay calificaciones
PLC Temporizadores
9 páginas
Verano Enero - Uni - Sem (1-Exse)
Aún no hay calificaciones
Verano Enero - Uni - Sem (1-Exse)
2 páginas
Caso Practico 1 Gerencia de Mercadeo - Compress
Aún no hay calificaciones
Caso Practico 1 Gerencia de Mercadeo - Compress
5 páginas
Temas Capacitación Online
Aún no hay calificaciones
Temas Capacitación Online
3 páginas
Factores y Operaciones con Polinomios
Aún no hay calificaciones
Factores y Operaciones con Polinomios
29 páginas
Presentacion Cocomo 1 y 2
Aún no hay calificaciones
Presentacion Cocomo 1 y 2
16 páginas
Trabajo de Grado para Optar Al Título de Ingeniería Topográfica
Aún no hay calificaciones
Trabajo de Grado para Optar Al Título de Ingeniería Topográfica
142 páginas
Examen Word
Aún no hay calificaciones
Examen Word
2 páginas
Estadística para Trabajo Social
Aún no hay calificaciones
Estadística para Trabajo Social
49 páginas
Alvaro - Rodríguez - Entregable - 2
Aún no hay calificaciones
Alvaro - Rodríguez - Entregable - 2
12 páginas