0% encontró este documento útil (0 votos)
170 vistas9 páginas

PCA: Fundamentos y Aplicaciones

El documento explica los fundamentos del análisis de componentes principales (PCA). El PCA reduce la dimensionalidad de un conjunto de datos mediante la transformación de los datos a un nuevo sistema de coordenadas de menor dimensión. Esto se logra calculando la matriz de covarianza de los datos centrados y seleccionando los k autovectores con los mayores autovalores para representar los datos. Los datos reconstruidos en la nueva base de coordenadas capturan la mayor variabilidad de los datos originales.

Cargado por

Alejandro Estela
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
170 vistas9 páginas

PCA: Fundamentos y Aplicaciones

El documento explica los fundamentos del análisis de componentes principales (PCA). El PCA reduce la dimensionalidad de un conjunto de datos mediante la transformación de los datos a un nuevo sistema de coordenadas de menor dimensión. Esto se logra calculando la matriz de covarianza de los datos centrados y seleccionando los k autovectores con los mayores autovalores para representar los datos. Los datos reconstruidos en la nueva base de coordenadas capturan la mayor variabilidad de los datos originales.

Cargado por

Alejandro Estela
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Fundamentos del PCA

Máster Universitario
en Inteligencia Artificial
02MIAR | Matemáticas:
Matemáticas para la Inteligencia Artificial
Profesor:
David Zorı́o Ventura
Motivación

▶ Sea A ∈ Rn×p cualquiera.


▶ Esta matriz puede representar, entre otros, un conjunto de datos.
▶ Cada columna hace referencia a un campo diferente (por ejemplo, si es una base de
datos relacionada con automóviles, el año, potencia, peso, cilindrada...).
▶ Cada fila representa una observación diferente (en el ejemplo anterior, cada una de
ellas contendrı́a los datos relativos a un automóvil diferente).
▶ De entre las diferentes observaciones (filas) que tenemos, podemos plantearnos la
covarianza entre diferentes campos (por ejemplo, entre la potencia y la cilindrada
del conjunto de automóviles considerado).
Motivación
▶ Por tanto, si i y j son las columnas correspondientes a los campos cuya variación
queremos contrastar, la covarianza correspondiente se puede calcular como
n
1 Xh ih i
Covi,j = A(k, i) − A(:, i) A(k, j) − A(:, j)
n − 1 k=1
n n
1 X 1 X ′
= X (k, i)X (k, j) = X (i, k)X (k, j)
n − 1 k=1 n − 1 k=1
1 1
= X ′ (i, :)X (:, j) = [X ′ X ] (i, j).
n−1 n−1
▶ Donde X ∈ Rn×p es la matriz consistente en restar a cada una de sus columnas el
valor promedio de las mismas, esto es, X (i, j) := A(i, j) − A(:, j). Esta matriz recibe
usualmente el nombre de matriz de datos centrados.
Matriz de covarianza
▶ Estas consideraciones motivan la definición siguiente.

Definición
Sea X ∈ Rn×p una matriz de datos centrados. Llamamos matriz de covarianza
asociada a X a la matriz
1
Cov(X ) := X ′X .
n−1

▶ Si X ∈ Rn×p , entonces:
▶ Cov(X ) ∈ Rp×p .
▶ Cov(X ) es simétrica.
▶ Cov(X ) es semidefinida positiva.
▶ Como consecuencia, Cov(X ) es diagonalizable con autovalores no negativos y una
base ortonormal de autovectores asociados.
Reducción de dimensionalidad

▶ En otras palabras, ∃P ∈ Rp×p ortogonal y ∃D ∈ Rp×p diagonal tal que


 
′ ′ 1 1
P Cov(X )P = D ↔ P X ′X P=D↔ (XP)′ (XP) = D ↔ Cov(XP) = D.
n−1 n−1

▶ Esto significa que la nueva matriz XP representa datos con otros campos sin
significado fı́sico, pero que forma un sistema de referencia ortonormal, con
covarianza nula entre campos diferentes (por ser D diagonal).
▶ Si asumimos que los autovalores están ordenados de mayor a menor, esto significa
que las últimas columnas de representan los campos con menor relevancia en la
variabilidad de los datos, por ser su covarianza (autovalor) menor.
▶ Por tanto, si decidimos quedarnos con las k primeras columnas y descartar las p − k
restantes, podemos tomar V := P(:, 1 : k) ∈ Rp×k y definir Z := XV ∈ Rn×k .
Reconstrucción

▶ Una vez reducida la dimensionalidad, se puede recuperar el sistema de referencia


original para trabajar con las variables originales como sigue.
▶ Si no hubiésemos reducido la dimensionalidad, la forma de recuperar X a partir de
XP es simplemente postmultiplicando por su inversa (P ′ ), pues se cumple,
XPP ′ = XIp = X .
▶ Por tanto, tiene sentido que para obtener los datos reconstruidos con el sistema de
referencia original, tomemos X̂ := ZV ′ = XVV ′ ∈ Rn×p .
▶ Finalmente, podemos reconstruir los datos originales sumando las respectivas
medias de las columnas originales, esto es, se define  ∈ Rn×p como
Â(i, j) := X̂ (i, j) + A(:, j).
Análisis de componentes principales (PCA)

En definitiva, dada una matriz A ∈ Rn×p , el análisis de componentes principales


(PCA), se resume en los pasos siguientes.
▶ Se obtiene la matriz de datos centrados, X ∈ Rn×p dada por
X (i, j) := A(i, j) − A(:, j).
▶ Se consideran k ≤ p autovectores de la matriz Cov(X ) := n−1 1
X ′ X ∈ Rp×p
asociados a los k autovalores de mayor valor y se define V ∈ Rp×k como la matriz
cuyas columnas están formadas por dichos autovectores.
▶ Se reconstruyen los datos centrados con dimensionalidad reducida por vı́a de la
expresión X̂ := ZV ′ ∈ Rn×p , donde Z := XV ∈ Rn×k .
▶ Se obtiene la reconstrucción de los datos originales sumando las correspondientes
medias originales en las respectivas columnas: Â(i, j) := X̂ (i, j) + A(:, j).
Ejemplo de aplicación: compresión de imágenes
▶ El método PCA tiene un sinfı́n de aplicaciones en el ámbito de ciencia de datos,
inteligencia artificial y, en general, en el tratamiento de información digital.
▶ Una de ellas es la compresión de imágenes.

Imagen original (300 × 275). Reducción de dimensionalidad, k = 100.


¡Muchas gracias!

Contacto:
[Link]@[Link]

También podría gustarte