0% encontró este documento útil (0 votos)

135 vistas6 páginas

Análisis PCA y t-SNE en R

El documento presenta una serie de ejemplos sobre análisis de componentes principales (PCA) y reducción de dimensionalidad mediante t-SNE aplicados a diferentes conjuntos de datos. Inicialmente se muestran ejemplos de cálculo de PCA directamente con la función prcomp() sobre datos de delitos en Estados Unidos. Posteriormente, se aplica el algoritmo t-SNE para reducir la dimensionalidad de datos de reconocimiento de dígitos, representando las proyecciones en 2 y 3 dimensiones.

Cargado por

maldonadopx

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

135 vistas6 páginas

Análisis PCA y t-SNE en R

Cargado por

maldonadopx

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

install.

packages("ggplot2")
library(ggplot2)
set.seed(435)
X_1 <- sample(x = 10:40, size = 100, replace = TRUE)
X_1
X_2 <- 2.5 * X_1 + 10
X_2
X_2 <- X_2 + rnorm(n = 100, mean = 10, sd = 30)
datos <- data.frame(X_1, X_2)
ggplot(data = datos, aes(x = X_1, y = X_2)) +
geom_point() +
geom_segment(aes(x = 10, y = 2.5 * 10 + 10, xend = 40, yend = 2.5 * 40
+ 10),
colour = "firebrick", arrow = arrow(ends = "both")) +
theme_bw()

######## Ejemplo cálculo eigenvectors y eigenvalues

datos <- data.frame(X1 = c(2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5,
1.1),
X2 = c(2.4, 0.7, 2.9, 2.2, 3, 2.7, 1.6, 1.1, 1.6,
0.9))
datos

###En primer lugar se resta a cada valor la media de la variable a la

que
##pertenece. Con esto se consigue centralizar las variables y que su
media sea 0.

datos_centrados <- datos

datos_centrados$X1 <- datos$X1 - mean(datos$X1)
datos_centrados$X2 <- datos$X2 - mean(datos$X2)
datos_centrados

##se calcula la matriz de correlaciones

matriz_cov <- cov(datos_centrados)

matriz_cov

## Dado que la matriz de covarianzas es cuadrada, se pueden obtener

sus
## correspondientes eigenvectors y eigenvalues.

eigen <- eigen(matriz_cov)

eigen$values
eigen$vectors

##Los eigenvectors ordenados de mayor a menor eigenvalues se

corresponden con
##las componentes principales.
#Una vez obtenidos los eigenvectors (componentes principales) se
calcula el valor
#que toma cada componente para cada observación en función de las
variables
#originales (principal component scores). Para ello, simplemente se
tienen
#que multiplicar los eigenvectors transpuestos por los datos
originales centrados
#y también transpuestos.

t_eigenvectors <- t(eigen$vectors)

t_eigenvectors

t_datos_centrados <- t(datos_centrados)

t_datos_centrados

#Producto matricial
pc_scores <- t_eigenvectors %*% t_datos_centrados
rownames(pc_scores) <- c("PC1", "PC2")
# Se vuelve a transponer para que los datos estén en modo tabla
t(pc_scores)

## realizar comentariop12

datos_recuperados <- t(eigen$vectors %*% pc_scores)

datos_recuperados[, 1] <- datos_recuperados[, 1] + mean(datos$X1)
datos_recuperados[, 2] <- datos_recuperados[, 2] + mean(datos$X2)
datos_recuperados

##Ejemplo cálculo directo de PCA con R

##comentar sobre los datos-p13

data("USArrests")
data()# para ver base de datos del pquete basico de R
head(USArrests) ## realizar comentarios

apply(X = USArrests, MARGIN = 2, FUN = mean) ##realizar comentarios

apply(X = USArrests, MARGIN = 2, FUN = var) ##realizar comentarios

##La función prcomp() es una de las múltiples funciones en R que

##realizan PCA.

pca <- prcomp(USArrests, scale = TRUE)

names(pca) ##realizar comentarios p14
pca$center
pca$scale

##rotation contiene el valor de los loadings phi para cada componente

(eigenvector).

pca$rotation

##primera componente
##pc1 = -0.5358995
Mueder-0.5831836Assault-0.2781909UrbanPop-0.5434321Rape

#La función prcomp() calcula automáticamente el valor de las

componentes principales
#para cada observación (principal component scores) multiplicando los
datos por los
#vectores de loadings. El resultado se almacena en la matriz x.

head(pca$x)
dim(pca$x)

#Mediante la función biplot() se puede obtener una representación

bidimensional de las
#dos primeras componentes.

biplot(x = pca, scale = 0, cex = 0.8, col = c("blue4", "brown3"))

#La imagen especular, cuya interpretación es equivalente, se puede

obtener invirtiendo
#el signo de los loadings y de los principal component scores.

pca$rotation <- -pca$rotation

pca$x <- -pca$x
biplot(x = pca, scale = 0, cex = 0.8, col = c("blue4", "brown3"))

## Una vez calculadas las componentes principales, se puede conocer la

varianza explicada
## por cada una de ellas, la proporción respecto al total y la
proporción de varianza acumulada.

library(ggplot2)
pca$sdev^2

prop_varianza <- pca$sdev^2/sum(pca$sdev^2)

prop_varianza

ggplot(data = data.frame(prop_varianza, pc = 1:4),aes(x = pc, y =

prop_varianza)) +
geom_col(width = 0.3) +
scale_y_continuous(limits = c(0, 1)) +
theme_bw() +
labs(x = "Componente principal", y = "Proporción de varianza
explicada")

prop_varianza_acum <- cumsum(prop_varianza)

prop_varianza_acum

##p18

ggplot(data = data.frame(prop_varianza_acum, pc = 1:4),

aes(x = pc, y = prop_varianza_acum, group = 1)) +
geom_point() +
geom_line() + theme_bw() +
labs(x = "Componente principal", y = "Proporción de varianza explicada
acumulada")

######################################################################
########################

#p35 Algoritmo de t-SNE

#Ejemplo con tsne

library(readr)
library(dplyr)

# Carga de datos
datos <- read_csv(paste0("http://archive.ics.uci.edu/ml/machine-
learning-",
"databases/optdigits/optdigits.tra"))
##datos
dim(datos)
#str(datos)
# La última columna contiene el número real al que se corresponde la
observación. # Se renombra como "numero"
datos <- datos %>% rename(numero = `0_26`)
# La función tsne() recibe como argumento una matriz, no un
data.frames
datos <- data.matrix(datos)
# Debido a los requerimientos computacionales del t-SNE, se limita
este ejemplo # únicamente a 1000 observaciones.
datos <- datos[1:1000,]

##p39
install.packages("tsne")
library(tsne)
library(ggplot2)
# También se limita el número de iteraciones (epoch) a 100, aunque los
# resultados podrían mejorar si se aumentara
set.seed(321)
tsne_reduction <- tsne(datos, k = 2, perplexity = 30, epoch = 100)
# Para poder representar el verdadero número al que corresponde cada
imagen,
# se adjunta la variable "numero" del set de datos
resultados <- as.data.frame(tsne_reduction)
colnames(resultados) <- c("dim_1", "dim_2")
resultados$numero <- as.character(datos[ ,"numero"])
ggplot(data = resultados, aes(x = dim_1, y = dim_2)) +
geom_point(aes(color = numero)) +
theme_bw()

##p Ejemplo con R tsne

library(readr)
library(dplyr)
# Carga de datos
datos <- read_csv(paste0("http://archive.ics.uci.edu/ml/machine-
learning-", "databases/optdigits/
optdigits.tra"))
dim(datos)

# La última columna contiene el número real al que se corresponde la

observación.
# Se renombra como "numero"
datos <- datos %>% rename(numero = `0_26`)
install.packages("Rtsne")
library(Rtsne)
library(ggplot2)
tsne <- Rtsne(X = datos[, -65], is_distance = FALSE, dims = 2,
perplexity = 30,
theta = 0.5, max_iter = 500)
# El objeto devuelto por Rtsne() almacena los valores de las
dimensiones en el
# elemento Y. Como en este caso se ha especificado que la reducción se
haga
# a dos dimensiones (k=2), Y tiene solo dos columnas.
head(tsne$Y)

# Para poder representar el verdadero número al que corresponde cada

imagen,
# se adjunta la variable "numero" del set de datos
resultados <- as.data.frame(tsne$Y)
colnames(resultados) <- c("dim_1", "dim_2")
resultados$numero <- as.character(datos$numero)
ggplot(data = resultados, aes(x = dim_1, y = dim_2)) +
geom_point(aes(color = numero)) +
theme_bw()

pca <- prcomp(x = datos[,-65])

resultados <- as.data.frame(pca$x[, 1:2])
resultados$numero <- as.character(datos$numero)
ggplot(data = resultados, aes(x = PC1, y = PC2)) +
geom_point(aes(color = numero)) +
theme_bw()

#Se reduce de nuevo la dimensionalidad, pero esta vez empleando PCA y

representando
#las dos primeras componentes

pca <- prcomp(x = datos[,-65])

resultados <- as.data.frame(pca$x[, 1:2])
resultados$numero <- as.character(datos$numero)
ggplot(data = resultados, aes(x = PC1, y = PC2)) +
geom_point(aes(color = numero)) +
theme_bw()

#Véase ahora la reducción a un espacio de 3 dimensiones

library(scatterplot3d)
library(RColorBrewer)
tsne <- Rtsne(X = datos[, -65], is_distance = FALSE, dims = 3,
perplexity = 30,
theta = 0.5, max_iter = 500)
resultados <- as.data.frame(tsne$Y)
colnames(resultados) <- c("dim_1", "dim_2", "dim_3")
resultados$numero <- as.factor(datos$numero)

colores <- brewer.pal(n = 10, name = "Set3")

colores <- colores[as.numeric(resultados$numero)]
scatterplot3d(x = resultados$dim_1,
y = resultados$dim_2,
z = resultados$dim_3,
pch = 20, color = colores, cex.lab = 0.8,
grid = TRUE, box = FALSE)
legend("bottom", legend = levels(resultados$numero),
col = colores, pch = 16,
inset = -0.23, xpd = TRUE, horiz = TRUE)

También podría gustarte

Tarea 3
Aún no hay calificaciones
Tarea 3
20 páginas
Introduction To Data Mining For Business Intelligence: Principal Component Analysis - PCA Cluster Analysis
Aún no hay calificaciones
Introduction To Data Mining For Business Intelligence: Principal Component Analysis - PCA Cluster Analysis
45 páginas
Analisis Componentes Python
Aún no hay calificaciones
Analisis Componentes Python
36 páginas
Técnicas de Minería de Datos y Visualización
Aún no hay calificaciones
Técnicas de Minería de Datos y Visualización
799 páginas
Graficos de R - Studio - Analisis Cuantitativos
Aún no hay calificaciones
Graficos de R - Studio - Analisis Cuantitativos
8 páginas
Clase 14
Aún no hay calificaciones
Clase 14
8 páginas
Análisis de Cluster en Pancreatitis
Aún no hay calificaciones
Análisis de Cluster en Pancreatitis
11 páginas
Principal Component Analysis
Aún no hay calificaciones
Principal Component Analysis
8 páginas
Ejercicios R Ggplot
Aún no hay calificaciones
Ejercicios R Ggplot
19 páginas
8 2 +pca
Aún no hay calificaciones
8 2 +pca
43 páginas
Clase 05 AID - Componentes Principales
Aún no hay calificaciones
Clase 05 AID - Componentes Principales
50 páginas
Análisis de Componentes Principales en Datos
Aún no hay calificaciones
Análisis de Componentes Principales en Datos
14 páginas
Introducción a Ggplot en R
Aún no hay calificaciones
Introducción a Ggplot en R
16 páginas
Explicando PCA Con Gatos
Aún no hay calificaciones
Explicando PCA Con Gatos
10 páginas
Técnicas de Análisis Estadístico en R
Aún no hay calificaciones
Técnicas de Análisis Estadístico en R
3 páginas
Funciones y Gráficos en R para Análisis de Datos
Aún no hay calificaciones
Funciones y Gráficos en R para Análisis de Datos
2 páginas
Data-Visualization Es
Aún no hay calificaciones
Data-Visualization Es
2 páginas
Detección de Anomalías con PCA y Autoencoders
Aún no hay calificaciones
Detección de Anomalías con PCA y Autoencoders
27 páginas
Análisis de Componentes Principales en R
Aún no hay calificaciones
Análisis de Componentes Principales en R
21 páginas
Análisis de Ecuaciones Estructurales en SPSS
Aún no hay calificaciones
Análisis de Ecuaciones Estructurales en SPSS
19 páginas
Análisis PCA y K-medios en Datos de Vino
Aún no hay calificaciones
Análisis PCA y K-medios en Datos de Vino
6 páginas
Minería de Datos - Unidad III - PCA
Aún no hay calificaciones
Minería de Datos - Unidad III - PCA
32 páginas
Tema 1 - Reduc. Dimensiones - ACP
Aún no hay calificaciones
Tema 1 - Reduc. Dimensiones - ACP
32 páginas
Análisis de Componentes Principales (PCA)
Aún no hay calificaciones
Análisis de Componentes Principales (PCA)
27 páginas
Diseño de Bloques Aleatorios en Estadística
Aún no hay calificaciones
Diseño de Bloques Aleatorios en Estadística
8 páginas
Lab 3
Aún no hay calificaciones
Lab 3
17 páginas
Tipo Graficos
Aún no hay calificaciones
Tipo Graficos
2 páginas
Casos-ML-Unsupervised - Eysen Perez
Aún no hay calificaciones
Casos-ML-Unsupervised - Eysen Perez
1 página
Análisis de Varianza y Correlación de Gastos
Aún no hay calificaciones
Análisis de Varianza y Correlación de Gastos
6 páginas
Análisis Estadístico en R: Procedimiento y Ejemplos
Aún no hay calificaciones
Análisis Estadístico en R: Procedimiento y Ejemplos
8 páginas
Visualización de Datos con ggplot2 en R
Aún no hay calificaciones
Visualización de Datos con ggplot2 en R
28 páginas
Análisis de Componentes Principales (PCA)
Aún no hay calificaciones
Análisis de Componentes Principales (PCA)
20 páginas
Tema09 x2
Aún no hay calificaciones
Tema09 x2
20 páginas
Grafica de Los Nucleos
Aún no hay calificaciones
Grafica de Los Nucleos
3 páginas
Clase 03 - Componentes Principales
Aún no hay calificaciones
Clase 03 - Componentes Principales
50 páginas
Compo 1
Aún no hay calificaciones
Compo 1
9 páginas
Comandos Esenciales de R para Principiantes
Aún no hay calificaciones
Comandos Esenciales de R para Principiantes
2 páginas
Análisis de Componentes Principales (PCA) : José A Perusquía Cortés Análisis Multivariado Semestre I
Aún no hay calificaciones
Análisis de Componentes Principales (PCA) : José A Perusquía Cortés Análisis Multivariado Semestre I
33 páginas
Ggplot2 Spanish
0% (1)
Ggplot2 Spanish
2 páginas
Ggplot2 Spanish
Aún no hay calificaciones
Ggplot2 Spanish
2 páginas
Análisis de varianzas y medias en R
Aún no hay calificaciones
Análisis de varianzas y medias en R
8 páginas
Introducción al Manejo de R en Estadística
Aún no hay calificaciones
Introducción al Manejo de R en Estadística
14 páginas
Módulo 5 - Visualización de Datos en R
Aún no hay calificaciones
Módulo 5 - Visualización de Datos en R
29 páginas
PCA: Fundamentos y Aplicaciones
Aún no hay calificaciones
PCA: Fundamentos y Aplicaciones
9 páginas
Graficar Puntos 3D y Transformaciones en MATLAB
Aún no hay calificaciones
Graficar Puntos 3D y Transformaciones en MATLAB
19 páginas
Biplots Multivariados en R
Aún no hay calificaciones
Biplots Multivariados en R
43 páginas
Prácticas de Análisis de Datos en R
Aún no hay calificaciones
Prácticas de Análisis de Datos en R
17 páginas
Matrices
Aún no hay calificaciones
Matrices
4 páginas
Anàlisis de Componentes Principales
Aún no hay calificaciones
Anàlisis de Componentes Principales
7 páginas
Clase 6
Aún no hay calificaciones
Clase 6
17 páginas
Práctica R: Análisis Exploratorio de Datos
Aún no hay calificaciones
Práctica R: Análisis Exploratorio de Datos
9 páginas
Script Introducion Al Analisis Multivariado
Aún no hay calificaciones
Script Introducion Al Analisis Multivariado
1 página
Interpretacions Plots Practical
Aún no hay calificaciones
Interpretacions Plots Practical
10 páginas
Regresión lineal múltiple en Python
Aún no hay calificaciones
Regresión lineal múltiple en Python
6 páginas
Análisis de Componentes Principales en R
Aún no hay calificaciones
Análisis de Componentes Principales en R
22 páginas
Análisis de Series de Tiempo y Visualización con R
Aún no hay calificaciones
Análisis de Series de Tiempo y Visualización con R
4 páginas
Presentacion 04 Analisis Componentes Principales Mayo Agosto 2025 1
Aún no hay calificaciones
Presentacion 04 Analisis Componentes Principales Mayo Agosto 2025 1
39 páginas
Gráficos en R: Dispersión y Barras
Aún no hay calificaciones
Gráficos en R: Dispersión y Barras
5 páginas
Los Hongos Comestibles Silvestres: Sustentabilidad Del Recurso Forestal
Aún no hay calificaciones
Los Hongos Comestibles Silvestres: Sustentabilidad Del Recurso Forestal
27 páginas
STATIS Purificacion Galindo
Aún no hay calificaciones
STATIS Purificacion Galindo
8 páginas
Estadística en Ciencias Ambientales
Aún no hay calificaciones
Estadística en Ciencias Ambientales
10 páginas
MANOVA BIPLOT para Arreglos de Tratamientos Con Dos Factores Basado en Modelos Lineales Generales Multivariantes
Aún no hay calificaciones
MANOVA BIPLOT para Arreglos de Tratamientos Con Dos Factores Basado en Modelos Lineales Generales Multivariantes
8 páginas
Macroinfauna en sedimentos de mejillones
Aún no hay calificaciones
Macroinfauna en sedimentos de mejillones
17 páginas
Revista Red de Soja NEA 2023
Aún no hay calificaciones
Revista Red de Soja NEA 2023
42 páginas
Análisis de Datos Composicionales: Técnicas y Aplicaciones
Aún no hay calificaciones
Análisis de Datos Composicionales: Técnicas y Aplicaciones
29 páginas
Análisis geoquímico del río Lules
Aún no hay calificaciones
Análisis geoquímico del río Lules
15 páginas
Gráficos Estadísticos y Mapas Con R
Aún no hay calificaciones
Gráficos Estadísticos y Mapas Con R
112 páginas
Análisis de Componentes Principales en Aviones
Aún no hay calificaciones
Análisis de Componentes Principales en Aviones
13 páginas
Mapeo QTL en quinua para rasgos agrícolas
Aún no hay calificaciones
Mapeo QTL en quinua para rasgos agrícolas
39 páginas
Análisis de Coordenadas Principales PCoA
Aún no hay calificaciones
Análisis de Coordenadas Principales PCoA
8 páginas
Chips Yacon
Aún no hay calificaciones
Chips Yacon
21 páginas
Causas del Abandono de Perros en Dosquebradas
Aún no hay calificaciones
Causas del Abandono de Perros en Dosquebradas
13 páginas
ChatGPT y Creatividad en Educación
Aún no hay calificaciones
ChatGPT y Creatividad en Educación
19 páginas
Unidad I. Análisis Exploratorio de Datos. Parte 1
Aún no hay calificaciones
Unidad I. Análisis Exploratorio de Datos. Parte 1
54 páginas
Manual Infostat
Aún no hay calificaciones
Manual Infostat
336 páginas
Análisis de Redundancia en Datos Cuantitativos
Aún no hay calificaciones
Análisis de Redundancia en Datos Cuantitativos
12 páginas
Alfa Latice
Aún no hay calificaciones
Alfa Latice
70 páginas
Análisis PCA y t-SNE en R
Aún no hay calificaciones
Análisis PCA y t-SNE en R
6 páginas
Analisis de Coordenadas Principales
Aún no hay calificaciones
Analisis de Coordenadas Principales
28 páginas
Análisis de Componentes Principales en Gasto Familiar
Aún no hay calificaciones
Análisis de Componentes Principales en Gasto Familiar
7 páginas
Geologia Norandina - No 12 PDF
Aún no hay calificaciones
Geologia Norandina - No 12 PDF
85 páginas
Métodos Estadísticos en Agropecuaria
Aún no hay calificaciones
Métodos Estadísticos en Agropecuaria
149 páginas
Manual Ammi
Aún no hay calificaciones
Manual Ammi
46 páginas
Curso de Análisis de Datos Composicionales
Aún no hay calificaciones
Curso de Análisis de Datos Composicionales
1 página
Predicción de demanda de Ecobici
Aún no hay calificaciones
Predicción de demanda de Ecobici
33 páginas
Conceptos Clave en Estadística Aplicada
Aún no hay calificaciones
Conceptos Clave en Estadística Aplicada
41 páginas