PCA: Fundamentos y Aplicaciones

El documento explica los fundamentos del análisis de componentes principales (PCA). El PCA reduce la dimensionalidad de un conjunto de datos mediante la transformación de los datos a un nuevo sistema de coordenadas de menor dimensión. Esto se logra calculando la matriz de covarianza de los datos centrados y seleccionando los k autovectores con los mayores autovalores para representar los datos. Los datos reconstruidos en la nueva base de coordenadas capturan la mayor variabilidad de los datos originales.

Cargado por

Alejandro Estela

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

170 vistas9 páginas

PCA: Fundamentos y Aplicaciones

Cargado por

Alejandro Estela

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Fundamentos del PCA

Máster Universitario
en Inteligencia Artificial
02MIAR | Matemáticas:
Matemáticas para la Inteligencia Artificial
Profesor:
David Zorı́o Ventura
Motivación

▶ Sea A ∈ Rn×p cualquiera.

▶ Esta matriz puede representar, entre otros, un conjunto de datos.
▶ Cada columna hace referencia a un campo diferente (por ejemplo, si es una base de
datos relacionada con automóviles, el año, potencia, peso, cilindrada...).
▶ Cada fila representa una observación diferente (en el ejemplo anterior, cada una de
ellas contendrı́a los datos relativos a un automóvil diferente).
▶ De entre las diferentes observaciones (filas) que tenemos, podemos plantearnos la
covarianza entre diferentes campos (por ejemplo, entre la potencia y la cilindrada
del conjunto de automóviles considerado).
Motivación
▶ Por tanto, si i y j son las columnas correspondientes a los campos cuya variación
queremos contrastar, la covarianza correspondiente se puede calcular como
n
1 Xh ih i
Covi,j = A(k, i) − A(:, i) A(k, j) − A(:, j)
n − 1 k=1
n n
1 X 1 X ′
= X (k, i)X (k, j) = X (i, k)X (k, j)
n − 1 k=1 n − 1 k=1
1 1
= X ′ (i, :)X (:, j) = [X ′ X ] (i, j).
n−1 n−1
▶ Donde X ∈ Rn×p es la matriz consistente en restar a cada una de sus columnas el
valor promedio de las mismas, esto es, X (i, j) := A(i, j) − A(:, j). Esta matriz recibe
usualmente el nombre de matriz de datos centrados.
Matriz de covarianza
▶ Estas consideraciones motivan la definición siguiente.

Definición
Sea X ∈ Rn×p una matriz de datos centrados. Llamamos matriz de covarianza
asociada a X a la matriz
1
Cov(X ) := X ′X .
n−1

▶ Si X ∈ Rn×p , entonces:
▶ Cov(X ) ∈ Rp×p .
▶ Cov(X ) es simétrica.
▶ Cov(X ) es semidefinida positiva.
▶ Como consecuencia, Cov(X ) es diagonalizable con autovalores no negativos y una
base ortonormal de autovectores asociados.
Reducción de dimensionalidad

▶ En otras palabras, ∃P ∈ Rp×p ortogonal y ∃D ∈ Rp×p diagonal tal que

′ ′ 1 1
P Cov(X )P = D ↔ P X ′X P=D↔ (XP)′ (XP) = D ↔ Cov(XP) = D.
n−1 n−1

▶ Esto significa que la nueva matriz XP representa datos con otros campos sin
significado fı́sico, pero que forma un sistema de referencia ortonormal, con
covarianza nula entre campos diferentes (por ser D diagonal).
▶ Si asumimos que los autovalores están ordenados de mayor a menor, esto significa
que las últimas columnas de representan los campos con menor relevancia en la
variabilidad de los datos, por ser su covarianza (autovalor) menor.
▶ Por tanto, si decidimos quedarnos con las k primeras columnas y descartar las p − k
restantes, podemos tomar V := P(:, 1 : k) ∈ Rp×k y definir Z := XV ∈ Rn×k .
Reconstrucción

▶ Una vez reducida la dimensionalidad, se puede recuperar el sistema de referencia

original para trabajar con las variables originales como sigue.
▶ Si no hubiésemos reducido la dimensionalidad, la forma de recuperar X a partir de
XP es simplemente postmultiplicando por su inversa (P ′ ), pues se cumple,
XPP ′ = XIp = X .
▶ Por tanto, tiene sentido que para obtener los datos reconstruidos con el sistema de
referencia original, tomemos X̂ := ZV ′ = XVV ′ ∈ Rn×p .
▶ Finalmente, podemos reconstruir los datos originales sumando las respectivas
medias de las columnas originales, esto es, se define Â ∈ Rn×p como
Â(i, j) := X̂ (i, j) + A(:, j).
Análisis de componentes principales (PCA)

En definitiva, dada una matriz A ∈ Rn×p , el análisis de componentes principales

(PCA), se resume en los pasos siguientes.
▶ Se obtiene la matriz de datos centrados, X ∈ Rn×p dada por
X (i, j) := A(i, j) − A(:, j).
▶ Se consideran k ≤ p autovectores de la matriz Cov(X ) := n−1 1
X ′ X ∈ Rp×p
asociados a los k autovalores de mayor valor y se define V ∈ Rp×k como la matriz
cuyas columnas están formadas por dichos autovectores.
▶ Se reconstruyen los datos centrados con dimensionalidad reducida por vı́a de la
expresión X̂ := ZV ′ ∈ Rn×p , donde Z := XV ∈ Rn×k .
▶ Se obtiene la reconstrucción de los datos originales sumando las correspondientes
medias originales en las respectivas columnas: Â(i, j) := X̂ (i, j) + A(:, j).
Ejemplo de aplicación: compresión de imágenes
▶ El método PCA tiene un sinfı́n de aplicaciones en el ámbito de ciencia de datos,
inteligencia artificial y, en general, en el tratamiento de información digital.
▶ Una de ellas es la compresión de imágenes.

Imagen original (300 × 275). Reducción de dimensionalidad, k = 100.

¡Muchas gracias!

Contacto:
[Link]@[Link]

También podría gustarte

Pruebas Ji Cuadrada y K-S en Bondad de Ajuste
Aún no hay calificaciones
Pruebas Ji Cuadrada y K-S en Bondad de Ajuste
19 páginas
Prueba de Independencia en Investigación
Aún no hay calificaciones
Prueba de Independencia en Investigación
39 páginas
Álgebra Matricial
Aún no hay calificaciones
Álgebra Matricial
22 páginas
ANOVA de Dos Factores: Análisis y Procedimientos
Aún no hay calificaciones
ANOVA de Dos Factores: Análisis y Procedimientos
36 páginas
Prueba de Hipotesis de Dos Proporciones
Aún no hay calificaciones
Prueba de Hipotesis de Dos Proporciones
8 páginas
Ejercicios - Tamaño de La Muestra Con GPower
Aún no hay calificaciones
Ejercicios - Tamaño de La Muestra Con GPower
9 páginas
Tabla de Valores Criticos de
Aún no hay calificaciones
Tabla de Valores Criticos de
6 páginas
Vectores Aleatorios en Estadística
Aún no hay calificaciones
Vectores Aleatorios en Estadística
46 páginas
Estadistica y Probabilidades - Diego Alonso Gutierrez
100% (1)
Estadistica y Probabilidades - Diego Alonso Gutierrez
161 páginas
Arreglos Multidimensionales en C
Aún no hay calificaciones
Arreglos Multidimensionales en C
9 páginas
Inferencia Estadística y ANOVA
100% (1)
Inferencia Estadística y ANOVA
21 páginas
Estadistica 3
Aún no hay calificaciones
Estadistica 3
7 páginas
Variables Aleatorias y Esperanza Matemática
Aún no hay calificaciones
Variables Aleatorias y Esperanza Matemática
16 páginas
Formulario de Regresión Lineal Simple
Aún no hay calificaciones
Formulario de Regresión Lineal Simple
1 página
Nota 9-Asimetria y Curtosis PDF
Aún no hay calificaciones
Nota 9-Asimetria y Curtosis PDF
2 páginas
Medidas de Dispersión: Guía Básica
Aún no hay calificaciones
Medidas de Dispersión: Guía Básica
6 páginas
Tarea Bondad de Ajuste y Tablas de Contingencia
Aún no hay calificaciones
Tarea Bondad de Ajuste y Tablas de Contingencia
2 páginas
Estadística en Ingeniería y Calidad
Aún no hay calificaciones
Estadística en Ingeniería y Calidad
4 páginas
Test de Hipótesis y Estadística Básica
Aún no hay calificaciones
Test de Hipótesis y Estadística Básica
83 páginas
Distribución Hipergeométrica
Aún no hay calificaciones
Distribución Hipergeométrica
4 páginas
Ejemplo de Karmakar Resuelto
100% (2)
Ejemplo de Karmakar Resuelto
81 páginas
Coordenadas y Vectores en el Plano
Aún no hay calificaciones
Coordenadas y Vectores en el Plano
11 páginas
Estadística General: Guía de Aprendizaje
0% (1)
Estadística General: Guía de Aprendizaje
152 páginas
SPSS Practica6
Aún no hay calificaciones
SPSS Practica6
5 páginas
Teoria Conjuntos
Aún no hay calificaciones
Teoria Conjuntos
39 páginas
Cálculo de Muestras para Encuestas en Ecuador
Aún no hay calificaciones
Cálculo de Muestras para Encuestas en Ecuador
2 páginas
Clasificación de Transformaciones Lineales
Aún no hay calificaciones
Clasificación de Transformaciones Lineales
1 página
A3 Análisis de Entorno - 20250414 - 094513 - 0000
Aún no hay calificaciones
A3 Análisis de Entorno - 20250414 - 094513 - 0000
15 páginas
Taxonomía de Jordán
Aún no hay calificaciones
Taxonomía de Jordán
5 páginas
TDF Bidimensionales
Aún no hay calificaciones
TDF Bidimensionales
21 páginas
Unidad 1.-Distribuciones Fundamentales para El Muestreo
Aún no hay calificaciones
Unidad 1.-Distribuciones Fundamentales para El Muestreo
2 páginas
Álgebra Lineal
Aún no hay calificaciones
Álgebra Lineal
10 páginas
Intervalos y Tamaño de Muestra en Estadística
Aún no hay calificaciones
Intervalos y Tamaño de Muestra en Estadística
2 páginas
Distribuciones Fundamentales para El Muestreo: Unidad 1
Aún no hay calificaciones
Distribuciones Fundamentales para El Muestreo: Unidad 1
21 páginas
Ejercicios Resueltos - Práctico Estadística Descriptiva
Aún no hay calificaciones
Ejercicios Resueltos - Práctico Estadística Descriptiva
10 páginas
Estimación Puntual en Estadística
Aún no hay calificaciones
Estimación Puntual en Estadística
9 páginas
Actividad Diseño Por Bloques Aleatorizados Con Ej Resuelto
Aún no hay calificaciones
Actividad Diseño Por Bloques Aleatorizados Con Ej Resuelto
11 páginas
Generacion de Variables Aleatorias No Uniformes
Aún no hay calificaciones
Generacion de Variables Aleatorias No Uniformes
26 páginas
Cálculo de Los Parámetros de La Distribución de Weibull
50% (2)
Cálculo de Los Parámetros de La Distribución de Weibull
16 páginas
PRACTICA - Estadistica - Semana 13
Aún no hay calificaciones
PRACTICA - Estadistica - Semana 13
8 páginas
TRABAJO
100% (1)
TRABAJO
5 páginas
Clase Metodo Simplex Dual PDF
Aún no hay calificaciones
Clase Metodo Simplex Dual PDF
3 páginas
Matrices Simétricas y Diagonalización
Aún no hay calificaciones
Matrices Simétricas y Diagonalización
3 páginas
Monografia
Aún no hay calificaciones
Monografia
6 páginas
Espacios Vectoriales en Análisis de Datos
Aún no hay calificaciones
Espacios Vectoriales en Análisis de Datos
23 páginas
Métodos de Muestreo Probabilístico
Aún no hay calificaciones
Métodos de Muestreo Probabilístico
5 páginas
Proyecto Pecina
Aún no hay calificaciones
Proyecto Pecina
25 páginas
Guia de Probabilidades # 3 Resuelva Haciendo Uso de Los Axiomas, Teoremas Y Formulario de Probabilidades
Aún no hay calificaciones
Guia de Probabilidades # 3 Resuelva Haciendo Uso de Los Axiomas, Teoremas Y Formulario de Probabilidades
1 página
Ej. 4.2.5
Aún no hay calificaciones
Ej. 4.2.5
1 página
Ejercicios de Estadística Descriptiva y Análisis
Aún no hay calificaciones
Ejercicios de Estadística Descriptiva y Análisis
27 páginas
Inferencia Estadística
Aún no hay calificaciones
Inferencia Estadística
13 páginas
CEC.12.Planes de Muestreo Por Variables
Aún no hay calificaciones
CEC.12.Planes de Muestreo Por Variables
43 páginas
2.1 Conjunto y Tecnicas de Conteo
Aún no hay calificaciones
2.1 Conjunto y Tecnicas de Conteo
7 páginas
Proyecto de Zootecnia Estadistica Descriptiva
Aún no hay calificaciones
Proyecto de Zootecnia Estadistica Descriptiva
12 páginas
Distribución T de Student: Teoría y Aplicaciones
Aún no hay calificaciones
Distribución T de Student: Teoría y Aplicaciones
16 páginas
Clase 05 AID - Componentes Principales
Aún no hay calificaciones
Clase 05 AID - Componentes Principales
50 páginas
Reporte Final Demo
Aún no hay calificaciones
Reporte Final Demo
25 páginas
Teoria Multi Taller 2
Aún no hay calificaciones
Teoria Multi Taller 2
39 páginas
Clase 03 - Componentes Principales
Aún no hay calificaciones
Clase 03 - Componentes Principales
50 páginas
Sesión 3 Reducción de Dimensionalidad
Aún no hay calificaciones
Sesión 3 Reducción de Dimensionalidad
41 páginas
Geometría Sustentable
Aún no hay calificaciones
Geometría Sustentable
22 páginas
Unidades y Balance de Materia PDF
0% (1)
Unidades y Balance de Materia PDF
60 páginas
¿Qué Debe Saber Un Niño en Los Grados Primero, Segundo y Tercero de Primaria Según El MEN
Aún no hay calificaciones
¿Qué Debe Saber Un Niño en Los Grados Primero, Segundo y Tercero de Primaria Según El MEN
4 páginas
Método Por Descomposición Lu
Aún no hay calificaciones
Método Por Descomposición Lu
10 páginas
Regla de Tres Compuesta
Aún no hay calificaciones
Regla de Tres Compuesta
3 páginas
Solucionario Ejercicios Transferencia de Calor
Aún no hay calificaciones
Solucionario Ejercicios Transferencia de Calor
8 páginas
Logica Proposicional 4
Aún no hay calificaciones
Logica Proposicional 4
9 páginas
Chistes y Problemas Matemáticos para Niños
Aún no hay calificaciones
Chistes y Problemas Matemáticos para Niños
10 páginas
Desempeño en Pruebas Psicometricas
Aún no hay calificaciones
Desempeño en Pruebas Psicometricas
15 páginas
Bernoulli y Binomial PDF
Aún no hay calificaciones
Bernoulli y Binomial PDF
4 páginas
Notación Científica
Aún no hay calificaciones
Notación Científica
15 páginas
07 Trigonometria
Aún no hay calificaciones
07 Trigonometria
12 páginas
Ejemplos de Pruebas de Base Estructurada
Aún no hay calificaciones
Ejemplos de Pruebas de Base Estructurada
26 páginas
Lectura 4 - Pronosticos en Activos Reparables
Aún no hay calificaciones
Lectura 4 - Pronosticos en Activos Reparables
15 páginas
Sesión de Aprendizaje 3° Año Ecuaciones de 1 Grado
Aún no hay calificaciones
Sesión de Aprendizaje 3° Año Ecuaciones de 1 Grado
2 páginas
Tema 25 PDF
Aún no hay calificaciones
Tema 25 PDF
28 páginas
INFORME Creación de Un Polígono en Base A Una Construcción
Aún no hay calificaciones
INFORME Creación de Un Polígono en Base A Una Construcción
6 páginas
Tarea Intervalos Ashly Isaula
Aún no hay calificaciones
Tarea Intervalos Ashly Isaula
22 páginas
Fundamentos Básicos de La Estadistica
Aún no hay calificaciones
Fundamentos Básicos de La Estadistica
23 páginas
Vibraciones en Elementos Acústicos
Aún no hay calificaciones
Vibraciones en Elementos Acústicos
11 páginas
Números Naturales y Operaciones Básicas
Aún no hay calificaciones
Números Naturales y Operaciones Básicas
76 páginas
Informe Mruv - Graficos - S5
Aún no hay calificaciones
Informe Mruv - Graficos - S5
4 páginas
Sap 2000 Calculos Del Diseño de Puente Grua
Aún no hay calificaciones
Sap 2000 Calculos Del Diseño de Puente Grua
147 páginas
Estadistica para Scrib
Aún no hay calificaciones
Estadistica para Scrib
2 páginas
Diagrama de Contactos en Escalera PLC
Aún no hay calificaciones
Diagrama de Contactos en Escalera PLC
4 páginas
Mecanismos
Aún no hay calificaciones
Mecanismos
5 páginas
Cálculo de Áreas y Perímetros Geométricos
Aún no hay calificaciones
Cálculo de Áreas y Perímetros Geométricos
1 página
Curso Teoria de Muestreo 2016 PDF
Aún no hay calificaciones
Curso Teoria de Muestreo 2016 PDF
219 páginas
Ejercicios Sexto Año
Aún no hay calificaciones
Ejercicios Sexto Año
160 páginas
IV BIM - 4to. Año - GEOM - Guía 7 - Cilindros
Aún no hay calificaciones
IV BIM - 4to. Año - GEOM - Guía 7 - Cilindros
5 páginas