Análisis de Componentes Principales
Johny Pambabay
Introducción
Un análisis de componentes principales se ocupa de explicar la estructura de varianza-covarianza de
un conjunto de variables a través de unas pocas combinaciones lineales de dichas variables. Sus objetivos
generales son (1) la reducción de datos y (2) la interpretación. Aunque se necesitan p componentes para
reproducir la variabilidad total del sistema, a menudo gran parte de esta variabilidad puede ser explicada
por un pequeño número k de las componentes principales. Si es así, hay (casi) tanta información en las k
componentes como en las p variables originales. Las k componentes principales pueden entonces sustituir
a las p variables iniciales, y el conjunto de datos original, formado por n mediciones sobre p variables, se
reduce a un conjunto de datos formado por n mediciones sobre k componentes principales. Un análisis de
componentes principales suele revelar relaciones que no se sospechaban anteriormente y, por lo tanto, permite
interpretaciones que normalmente no resultarían. Un buen ejemplo de ello son los datos del mercado bursátil.
Los análisis de componentes principales son más bien un medio para alcanzar un fin que un fin en sí mismos,
porque a menudo sirven como pasos intermedios en investigaciones mucho más amplias. Por ejemplo, las
componentes principales pueden ser entradas para una regresión múltiple (véase el capítulo 7) o un análisis de
conglomerados (véase el capítulo 12). Además, las componentes principales (a escala) son una “factorización”
de la matriz de covarianza para el modelo de análisis factorial.
Componentes Principales Poblacionales
Algebraicamente, las componentes principales son combinaciones lineales particulares de las p variables
aleatorias X1 , X2 , , · · · , Xp . Geométricamente, estas combinaciones lineales representan la selección de un
nuevo sistema de coordenadas obtenido mediante la rotación del sistema original con X1 , X2 , , · · · , Xp . Los
nuevos ejes representan las direcciones con máxima variabilidad y proporcionan una descripción más sencilla
y parsimoniosa de la estructura de covarianza
Como veremos, las componentes principales dependen únicamente de la matriz de covarianza (o de la matriz
de correlación fl) de X1 , X2 , , · · · , Xp . Su desarrollo no requiere un supuesto de normalidad multivariante.
Por otra parte, las componentes principales derivadas para poblaciones normales multivariantes tienen
interpretaciones útiles en términos de las elipsoides de densidad constante. Además, se pueden hacer
inferencias a partir de las componentes muestrales cuando la población es normal multivariante.
Sea el vector aleatorio X = [X1 , X2 , · · · , Xp ] con matriz de covarianza y con valores propios ⁄1 Ø ⁄2 Ø
Õ
· · · Ø 0.
Considere las combinaciones lineales
1
Y1 = a1 X = a11 X1 + a12 X2 + · · · + a1p Xp
Õ
Y2 = a2 X = a21 X1 + a22 X2 + · · · + a2p Xp
Õ
..
.
Yp = ap X = ap1 X1 + ap2 X2 + · · · + app Xp
Õ
Luego, se puede mostrar que:
V ar (Yi ) = ai ai , i = 1, 2, · · · , p
Õ
Cov (Yi , Yk ) = ai ak , i, k = 1, 2, · · · , p
Õ
Las componentes principales son aquellas combinaciones lineales no correlacionadas Y1 , Y2 , · · · , Yp cuyas
varianzas en son lo más grandes posible.
La primera componente principal es la combinación lineal con varianza máxima. Es decir, maximiza
V ar (Y1 ) = a1 a1 . Es evidente que V ar (Y1 ) = a1 a1 puede aumentarse multiplicando cualquier a1 por
Õ Õ
alguna constante. Para eliminar esta indeterminación, es conveniente restringir la longitud de los Vectores a
uno. Por lo tanto, definimos.
1 Õ 2
• Primera Componente Principal = combinación lineal a1 X que maximiza V ar a1 X sujeta a, a1 a1 = 1.
Õ Õ
1 Õ 2
• Segunda componente principal = combinación lineal a2 X que maximiza V ar a2 X sujeta a, a2 a2 = 1
Õ Õ
1 Õ 2
y Cov a1 X, a2 X = 0.
Õ
1 Õ 2
• La i-ésima componente principal = combinación lineal a2 X que maximiza V ar ai X sujeta a, ai ai = 1
Õ Õ
1 Õ 2
y Cov ai X, ak X = 0, ’k < i.
Õ
Resultado Sea la matriz de covarianza asociada al vector aleatorio X = [X1 , X2 , · · · , Xp ]. Suponga que
Õ
tienen los pares de vectores y valores propios (⁄1 , e1 ) , (⁄2 , e2 ) , · · · (⁄p , ep ), donde ⁄1 Ø ⁄2 Ø · · · , ⁄p Ø 0.
Entonces la i-ésima componente principal es dada por:
Yi = ei X = ei1 X1 + ei2 X2 + · · · + eip Xp , i = 1, 2, · · · , p
Õ
con estas opciones
V ar (Yi ) = ei ei = ⁄i , texti = 1, 2, · · · , p
Õ
Cov (Yi , Yk ) = ei ek = 0, i ”= k
Õ
Si algunos ⁄i son iguales, las elecciones de los coeficientes vectoriales correspondientes, ei , y por tanto Yi ,
no son únicas.
Resultado Sea X = [X1 , X2 , · · · , Xp ] con matriz de covarianza , y con los pares que corresponde a los
Õ
vectores y valores propios (⁄1 , e1 ) , (⁄2 , e2 ) , · · · (⁄p , ep ), donde ⁄1 Ø ⁄2 Ø · · · , ⁄p Ø 0. Sean Y1 = e1 X, Y2 =
Õ
e2 X, · · · , Yp = ep X las componentes principales. Entonces
Õ Õ
p
ÿ p
ÿ
‡11 + ‡22 + · · · + ‡pp = V ar (Xi ) = ⁄1 + ⁄2 + · · · + ⁄p = V ar (Yi )
i=1 i=1
Se puede escribir = P P donde es una matriz diagonal de valores propios y P = [e1 , e2 , · · · , ep ], tal que
Õ
P P = P P = I, se tiene que:
Õ Õ
2
1 2 1 Õ 2
tr ( ) = tr P P = tr P P = tr ( ) = ⁄1 + ⁄2 + · · · + ⁄p
Õ
p
ÿ p
ÿ
V ar (Xi ) = tr ( ) = tr ( ) = V ar (Yi )
i=1 i=1
Varianza Poblacional Total = ‡11 + ‡22 + ‡pp = ⁄1 + ⁄2 + · · · + ⁄p
Q R
Proporción total
c de la varianza poblacional d ⁄k
a debido a la kth componente b = ⁄1 + ⁄2 + · · · + ⁄p , k = 1, 2, · · · , p
c d
principal
Si la mayor parte (por ejemplo, entre el 80% y el 90%) de la varianza total de la población, para una p grande,
puede atribuirse a las primeras uno, dos o tres componentes, entonces estas componentes pueden “sustituir”
a las variables p originales sin mucha pérdida de información.
Resultado Si Y1 = e1 X, Y2 = e2 X, · · · , Yp = ep X son las componentes principales obtenidas de la matriz de
Õ Õ Õ
covarianza , entonces
Ô
eik ⁄i
flYi ,Xk = Ô i, k = 1, 2, · · · , p
‡kk
son los coeficientes de correlación entre las componentes Yi y las variables Xk . Los pares (⁄1 , e1 ) , (⁄2 , e2 ) , · · · (⁄p , ep )
son los vectores y valores propios de .
Aunque las correlaciones de las variables con las componentes principales suelen ayudar a interpretar los
componentes, sólo miden la contribución univariante individual X a una componente Y. Es decir, no indican
la importancia de X para una componente Y en presencia de los demás X. Por esta razón, algunos estadísticos
(véase, por ejemplo, Rencher [16]) recomiendan que sólo se utilicen los coeficientes eik , y no las correlaciones,
para interpretar las componentes. Aunque los coeficientes y las correlaciones pueden dar lugar a clasificaciones
diferentes como medidas de la importancia de las variables para un determinado componente, nuestra
experiencia es que estas clasificaciones no suelen ser muy diferentes. En la práctica, las variables con
coeficientes relativamente grandes (en valor absoluto) suelen tener correlaciones relativamente grandes, por lo
que las dos medidas de importancia, la primera multivariante y la segunda univariante, suelen dar resultados
similares. Recomendamos que se examinen tanto los coeficientes como las correlaciones para ayudar a
interpretar los componentes principales
Análisis de Componentes Principales
S<-matrix(c(1,-2,0,-2,5,0,0,0,2),nrow = 3,byrow = TRUE)
value_pro<-eigen(S)
(value_pro$values)
## [1] 5.8284271 2.0000000 0.1715729
(value_pro$vectors)
## [,1] [,2] [,3]
## [1,] -0.3826834 0 0.9238795
## [2,] 0.9238795 0 0.3826834
## [3,] 0.0000000 1 0.0000000
3
L
library(knitr)
Acumulado<-cumsum(value_pro$values)
[Link]<-Acumulado/sum(value_pro$values)
[Link]<-[Link](value_pro$values,Acumulado,
[Link])
[Link]([Link]) = c(expression(lambda[1]),expression(lambda[2]),expression(lambda[3]))
colnames([Link])<-c("Valor Propio","Acumulado","Prop. Acumulado")
kable( [Link] , caption = "Valores propios desde la matriz de covarianza"
, digits = 3
, [Link] = list( [Link] = ",")
)
Table 1: Valores propios desde la matriz de covarianza
Valor Propio Acumulado Prop. Acumulado
lambda[1] 5,828 5,828 0,729
lambda[2] 2,000 7,828 0,979
lambda[3] 0,172 8,000 1,000
Análisis de Componentes Principales
Ejemplo Las componentes principales obtenidas desde la matriz de varianzas y covarianzas y de la matriz de
correlaciones son diferentes.
Considere la matriz de covarianza
S<-matrix(c(1,4,4,100),nrow = 2,byrow = TRUE)
value_pro<-eigen(S)
(value_pro$values)
## [1] 100.1613532 0.8386468
(value_pro$vectors)
## [,1] [,2]
## [1,] 0.04030552 -0.99918740
## [2,] 0.99918740 0.04030552
S<-matrix(c(1,.4,.4,1),nrow = 2,byrow = TRUE)
value_pro<-eigen(S)
(value_pro$values)
## [1] 1.4 0.6
4
(value_pro$vectors)
## [,1] [,2]
## [1,] 0.7071068 -0.7071068
## [2,] 0.7071068 0.7071068
Componentes principales para matrices de covarianza con estructuras especiales
Resumen de la variación muestral por componentes principales
Ejemplo: Un censo proporcionó información, por tramos, sobre cinco variables socioeconómicas para una
cierta área. Los datos de 61 tramos se recogen en el cuadro . Estos datos dieron lugar a las siguientes
estadísticas resumidas
¿Puede resumirse la variación muestrak mediante uno o dos componentes principales?
library(knitr)
S<-matrix(c(3.397,-1.102,4.306,-2.078,0.027,-1.102,9.673,-1.513,10.953,1.203,4.306,-1.513,55.626,-28.937
S<- [Link](S)
colnames(S)<- c("Total Población","Título Profesional","Empleados > 16 años","Empleados Públicos", "Ingr
kable(S,caption = "Matriz de Covarianzas",
digits = 3,
[Link] = list([Link]=","))
Table 2: Matriz de Covarianzas
Empleados > 16 Empleados
Total Población Título Profesional años Públicos Ingreso Mediana hogares
3,397 -1,102 4,306 -2,078 0,027
-1,102 9,673 -1,513 10,953 1,203
4,306 -1,513 55,626 -28,937 -0,044
-2,078 10,953 -28,937 89,067 0,957
0,027 1,203 -0,044 0,957 0,319
[Link]<- eigen(S)
[Link]<-[Link]([Link]$values,cumsum([Link]$values),cumsum([Link]$values)/sum(vect.v
colnames([Link])<- c("Valor propio", "Acumulado", "Prop. acumulada")
rownames([Link])<-c("$\\lambda_1$","$\\lambda_2$", "$\\lambda_3$", "$\\lambda_4$", "$\\lambda_5$")
kable(t([Link]),caption = "Valores propios desde la matriz de correlación",
digits = 3,
[Link] = list([Link]=","))
5
Table 3: Valores propios desde la matriz de correlación
⁄1 ⁄2 ⁄3 ⁄4 ⁄5
Valor propio 107,015 39,673 8,371 2,868 0,155
Acumulado 107,015 146,688 155,059 157,927 158,082
Prop. acumulada 0,677 0,928 0,981 0,999 1,000
[Link]<-[Link]([Link]$vectors)
colnames([Link])<- c("$\\hat{e}_{1}$", "$\\hat{e}_{2}$", "$\\hat{e}_{3}$", "$\\hat{e}_{4}$", "$\\hat{
rownames([Link])<- c("Total Población","Título Profesional","Empleados > 16 años","Empleados Públicos
kable([Link],caption = "Vectores propios desde la matriz de correlación",
digits = 3,
[Link] = list([Link]=","))
Table 4: Vectores propios desde la matriz de correlación
ê1 ê2 ê3 ê4 ê5
Total Población 0,039 -0,071 -0,188 0,977 -0,058
Título Profesional -0,105 -0,130 0,961 0,171 -0,139
Empleados > 16 años 0,492 -0,864 -0,046 -0,091 0,005
Empleados Públicos -0,863 -0,480 -0,153 -0,030 0,007
Ingreso Mediana hogares -0,009 -0,015 0,125 0,082 0,989
valor<-[Link]([Link]$values)
diago<-[Link](S)
diago <- diag(diago)
diago<-[Link](diago)
r<-matrix(c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),nrow = 5,byrow = TRUE)
cor<-matrix(c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),nrow = 5,byrow = TRUE)
for (i in 1:5) {
r[,i]<- [Link]$vectors[,i]*sqrt(valor[i])
}
for (i in 1:5) {
for (j in 1:5){
cor[j,i]<- r[j,i]/sqrt(diago[j,])
}
}
corre<-[Link](cor)
colnames(corre)<- c("$r_{\\hat{y}_{1},x_{k}}$", "$r_{\\hat{y}_{2},x_{k}}$", "$r_{\\hat{y}_{3},x_{k}}$",
rownames(corre)<- c("Total Población","Título Profesional","Empleados > 16 años","Empleados Públicos", "
kable(corre,caption = "Matriz de correlación entre las variables originales y las componentes principale
digits = 3,
[Link] = list([Link]=","))
6
Table 5: Matriz de correlación entre las variables originales y las
componentes principales
rŷ1 ,xk rŷ2 ,xk rŷ3 ,xk rŷ4 ,xk rŷ5 ,xk
Total Población 0,218 -0,243 -0,295 0,898 -0,012
Título -0,350 -0,263 0,894 0,093 -0,018
Profesional
Empleados > 16 0,683 -0,730 -0,018 -0,021 0,000
años
Empleados -0,946 -0,321 -0,047 -0,005 0,000
Públicos
Ingreso Mediana -0,167 -0,164 0,640 0,245 0,689
hogares
El número de componentes principales
library(knitr)
S<-10ˆ{-3}*matrix(c(11.072,8.019,8.160,8.019,6.417,6.005,8.160,6.005,6.773),nrow = 3,byrow = TRUE)
S<- [Link](S)
colnames(S)<- c("Longitud","Anchura","Altura")
kable(S,caption = "Matriz de Covarianzas",
digits = 4,
[Link] = list([Link]=","))
Table 6: Matriz de Covarianzas
Longitud Anchura Altura
0,0111 0,0080 0,0082
0,0080 0,0064 0,0060
0,0082 0,0060 0,0068
[Link]<- eigen(S)
[Link]<-[Link]([Link]$values,cumsum([Link]$values),cumsum([Link]$values)/sum(vect.v
colnames([Link])<- c("Valor propio", "Acumulado", "Prop. acumulada")
rownames([Link])<-c("$\\lambda_1$","$\\lambda_2$", "$\\lambda_3$")
kable(t([Link]),caption = "Valores propios desde la matriz de correlación",
digits = 4,
[Link] = list([Link]=","))
Table 7: Valores propios desde la matriz de correlación
⁄1 ⁄2 ⁄3
Valor propio 0,0233 0,0006 0,0004
Acumulado 0,0233 0,0239 0,0243
7
⁄1 ⁄2 ⁄3
Prop. acumulada 0,9605 0,9852 1,0000
[Link]<-[Link]([Link]$vectors)
colnames([Link])<- c("$\\hat{e}_{1}$", "$\\hat{e}_{2}$", "$\\hat{e}_{3}$")
rownames([Link])<- c("Ln (longitud)","Ln (Anchura)","Ln (Altura)")
kable([Link],caption = "Vectores propios desde la matriz de covarianza",
digits = 3,
[Link] = list([Link]=","))
Table 8: Vectores propios desde la matriz de covarianza
ê1 ê2 ê3
Ln (longitud) 0,683 -0,158 0,713
Ln (Anchura) 0,510 -0,595 -0,621
Ln (Altura) 0,523 0,788 -0,326
valor<-[Link]([Link]$values)
diago<-[Link](S)
diago <- diag(diago)
diago<-[Link](diago)
r<-matrix(c(0,0,0,0,0,0,0,0,0),nrow = 3,byrow = TRUE)
cor<-matrix(c(0,0,0,0,0,0,0,0,0),nrow = 3,byrow = TRUE)
for (i in 1:3) {
r[,i]<- [Link]$vectors[,i]*sqrt(valor[i])
}
for (i in 1:3) {
for (j in 1:3){
cor[j,i]<- r[j,i]/sqrt(diago[j,])
}
}
corre<-[Link](cor)
colnames(corre)<- c("$r_{\\hat{y}_{1},x_{k}}$", "$r_{\\hat{y}_{2},x_{k}}$", "$r_{\\hat{y}_{3},x_{k}}$")
rownames(corre)<- c("Ln (longitud)","Ln (Anchura)","Ln (Altura)")
kable(corre,caption = "Matriz de correlación entre las variables originales y las componentes principale
digits = 3,
[Link] = list([Link]=","))
Table 9: Matriz de correlación entre las variables originales y las
componentes principales
rŷ1 ,xk rŷ2 ,xk rŷ3 ,xk
Ln (longitud) 0,991 -0,037 0,129
Ln (Anchura) 0,972 -0,182 -0,147
Ln (Altura) 0,969 0,234 -0,075
8
Interpretación de las componentes principal muestral
Estandarización de los componentes principales de la muestra
Ejemplo: (componentes principales muestrales de variables estandarizados)
Se determinaron las tasas semanales de rendimiento de cinco acciones (JP Morgan, Citibank, Wells Fargo,
Royal Dutch Shell y ExxonMobil) que cotizan en la Bolsa de Nueva York para el periodo comprendido entre
enero de 2004 y diciembre de 2005. Las tasas de rendimiento semanales se definen como (precio de cierre de
la semana actual-precio de cierre de la semana anterior)/(precio de cierre de la semana anterior), ajustadas
para tener en cuenta las divisiones de acciones y los dividendos. Los datos figuran en el cuadro 8.4 de los
ejercicios. Las observaciones de 103 semanas sucesivas parecen estar distribuidas de forma independiente,
pero las tasas de rendimiento de los valores están correlacionadas, ya que, como es de esperar, los valores
tienden a moverse juntos en respuesta a las condiciones económicas generales.
library(knitr)
S<-matrix(c(1.000,.632,.511,.115,.155,.632,1.000,.574,.322,.213,.511,.574,1.000,.183,.146,.115,.322,.183
S<- [Link](S)
colnames(S)<- c("JP Morgan","Citibank","Wells Fargo","Royal Dutch Shell", "ExxonMobil")
kable(S,caption = "Matriz de Covarianzas",
digits = 3,
[Link] = list([Link]=","))
Table 10: Matriz de Covarianzas
JP Morgan Citibank Wells Fargo Royal Dutch Shell ExxonMobil
1,000 0,632 0,511 0,115 0,155
0,632 1,000 0,574 0,322 0,213
0,511 0,574 1,000 0,183 0,146
0,115 0,322 0,183 1,000 0,683
0,155 0,213 0,146 0,683 1,000
[Link]<- eigen(S)
[Link]<-[Link]([Link]$values,cumsum([Link]$values),cumsum([Link]$values)/sum(vect.v
colnames([Link])<- c("Valor propio", "Acumulado", "Prop. acumulada")
rownames([Link])<-c("$\\lambda_1$","$\\lambda_2$", "$\\lambda_3$", "$\\lambda_4$", "$\\lambda_5$")
kable(t([Link]),caption = "Valores propios desde la matriz de correlación",
digits = 3,
[Link] = list([Link]=","))
Table 11: Valores propios desde la matriz de correlación
⁄1 ⁄2 ⁄3 ⁄4 ⁄5
Valor propio 2,438 1,406 0,500 0,400 0,256
Acumulado 2,438 3,844 4,344 4,744 5,000
9
⁄1 ⁄2 ⁄3 ⁄4 ⁄5
Prop. acumulada 0,488 0,769 0,869 0,949 1,000
[Link]<-[Link]([Link]$vectors)
colnames([Link])<- c("$\\hat{e}_{1}$", "$\\hat{e}_{2}$", "$\\hat{e}_{3}$", "$\\hat{e}_{4}$", "$\\hat{
rownames([Link])<- c("JP Morgan","Citibank","Wells Fargo","Royal Dutch Shell", "ExxonMobil")
kable([Link],caption = "Vectores propios desde la matriz de covarianza",
digits = 3,
[Link] = list([Link]=","))
Table 12: Vectores propios desde la matriz de covarianza
ê1 ê2 ê3 ê4 ê5
JP Morgan -0,469 0,368 -0,605 0,362 0,385
Citibank -0,532 0,236 -0,136 -0,631 -0,495
Wells Fargo -0,465 0,315 0,771 0,291 0,069
Royal Dutch Shell -0,387 -0,585 0,096 -0,380 0,595
ExxonMobil -0,361 -0,606 -0,111 0,492 -0,498
E
Ejemplo: (componentes principales muestrales a partir de la matriz de correlación con una
estructura especial)
S<-matrix(c(1.000,.7501, .6329, .6363, .7501, 1.000, .6925, .7386, .6329, .6925, 1.000, .6625, .6363, .7
S<- [Link](S)
Los valores propios son:
[Link]<- eigen(S)
[Link]<-[Link]([Link]$values,cumsum([Link]$values),cumsum([Link]$values)/sum(vect.v
colnames([Link])<- c("Valor propio", "Acumulado", "Prop. acumulada")
rownames([Link])<-c("$\\lambda_1$","$\\lambda_2$", "$\\lambda_3$", "$\\lambda_4$")
kable(t([Link]),caption = "Valores propios desde la matriz de correlación",
digits = 3,
[Link] = list([Link]=","))
Table 13: Valores propios desde la matriz de correlación
⁄1 ⁄2 ⁄3 ⁄4
Valor propio 3,058 0,382 0,342 0,217
Acumulado 3,058 3,441 3,783 4,000
Prop. acumulada 0,765 0,860 0,946 1,000
10
[Link]<-[Link]([Link]$vectors)
colnames([Link])<- c("$\\hat{e}_{1}$", "$\\hat{e}_{2}$", "$\\hat{e}_{3}$", "$\\hat{e}_{4}$")
# rownames([Link])<- c("JP Morgan","Citibank","Wells Fargo","Royal Dutch Shell", # "ExxonMobil")
kable([Link],caption = "Vectores propios desde la matriz de covarianza",
digits = 3,
[Link] = list([Link]=","))
Table 14: Vectores propios desde la matriz de covarianza
ê1 ê2 ê3 ê4
-0,494 0,713 -0,233 -0,440
-0,522 0,191 0,143 0,819
-0,487 -0,585 -0,645 -0,061
-0,497 -0,335 0,714 -0,363
Comentario. Un valor inusualmente pequeño del último valor propio de la matriz de covarianza o de
correlación de la muestra puede indicar una dependencia lineal inadvertida en el conjunto de datos. Si esto
ocurre, una (o más) de las variables es redundante y debe ser eliminada. Considere una situación en la que
x1 , x2 y x3 son puntuaciones de subprueba y la puntuación total x4 es la suma x1 + x2 + x3 . Entonces,
aunque la combinación lineal e x = [1, 1, 1, ≠1] x = x1 + x2 + x3 ≠ x4 es siempre cero, el error de redondeo en
Õ
el cómputo de los valores propios puede llevar a un valor pequeño no nulo. Si la expresión lineal que relaciona
x4 con (x1 , x2 , x3 ) se pasó por alto inicialmente, el par de valores propios-eigenvectores más pequeño debería
proporcionar una pista sobre su existencia.
Por lo tanto, aunque los valores propios “grandes” y los vectores propios correspondientes son importantes en
un análisis de componentes principales, los valores propios muy cercanos a cero no deberían ignorarse de
forma rutinaria. Los vectores propios asociados a estos últimos valores propios pueden señalar dependencias
lineales en el conjunto de datos que pueden causar problemas de interpretación y computación en un análisis
posterior.
11