0% encontró este documento útil (0 votos)
70 vistas11 páginas

Análisis de Componentes Principales

El documento presenta un análisis de componentes principales. Explica que este análisis identifica unas pocas combinaciones lineales de variables que explican la mayor parte de la variabilidad en los datos. Estas combinaciones lineales, llamadas componentes principales, permiten reducir un conjunto de datos a un tamaño más manejable sin mucha pérdida de información. El documento describe cómo se calculan matemáticamente las componentes principales y cómo estas dependen de la matriz de covarianza de las variables originales.

Cargado por

Enrique Arias
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
70 vistas11 páginas

Análisis de Componentes Principales

El documento presenta un análisis de componentes principales. Explica que este análisis identifica unas pocas combinaciones lineales de variables que explican la mayor parte de la variabilidad en los datos. Estas combinaciones lineales, llamadas componentes principales, permiten reducir un conjunto de datos a un tamaño más manejable sin mucha pérdida de información. El documento describe cómo se calculan matemáticamente las componentes principales y cómo estas dependen de la matriz de covarianza de las variables originales.

Cargado por

Enrique Arias
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Análisis de Componentes Principales

Johny Pambabay

Introducción

Un análisis de componentes principales se ocupa de explicar la estructura de varianza-covarianza de


un conjunto de variables a través de unas pocas combinaciones lineales de dichas variables. Sus objetivos
generales son (1) la reducción de datos y (2) la interpretación. Aunque se necesitan p componentes para
reproducir la variabilidad total del sistema, a menudo gran parte de esta variabilidad puede ser explicada
por un pequeño número k de las componentes principales. Si es así, hay (casi) tanta información en las k
componentes como en las p variables originales. Las k componentes principales pueden entonces sustituir
a las p variables iniciales, y el conjunto de datos original, formado por n mediciones sobre p variables, se
reduce a un conjunto de datos formado por n mediciones sobre k componentes principales. Un análisis de
componentes principales suele revelar relaciones que no se sospechaban anteriormente y, por lo tanto, permite
interpretaciones que normalmente no resultarían. Un buen ejemplo de ello son los datos del mercado bursátil.
Los análisis de componentes principales son más bien un medio para alcanzar un fin que un fin en sí mismos,
porque a menudo sirven como pasos intermedios en investigaciones mucho más amplias. Por ejemplo, las
componentes principales pueden ser entradas para una regresión múltiple (véase el capítulo 7) o un análisis de
conglomerados (véase el capítulo 12). Además, las componentes principales (a escala) son una “factorización”
de la matriz de covarianza para el modelo de análisis factorial.

Componentes Principales Poblacionales

Algebraicamente, las componentes principales son combinaciones lineales particulares de las p variables
aleatorias X1 , X2 , , · · · , Xp . Geométricamente, estas combinaciones lineales representan la selección de un
nuevo sistema de coordenadas obtenido mediante la rotación del sistema original con X1 , X2 , , · · · , Xp . Los
nuevos ejes representan las direcciones con máxima variabilidad y proporcionan una descripción más sencilla
y parsimoniosa de la estructura de covarianza
Como veremos, las componentes principales dependen únicamente de la matriz de covarianza (o de la matriz
de correlación fl) de X1 , X2 , , · · · , Xp . Su desarrollo no requiere un supuesto de normalidad multivariante.
Por otra parte, las componentes principales derivadas para poblaciones normales multivariantes tienen
interpretaciones útiles en términos de las elipsoides de densidad constante. Además, se pueden hacer
inferencias a partir de las componentes muestrales cuando la población es normal multivariante.
Sea el vector aleatorio X = [X1 , X2 , · · · , Xp ] con matriz de covarianza y con valores propios ⁄1 Ø ⁄2 Ø
Õ

· · · Ø 0.
Considere las combinaciones lineales

1
Y1 = a1 X = a11 X1 + a12 X2 + · · · + a1p Xp
Õ

Y2 = a2 X = a21 X1 + a22 X2 + · · · + a2p Xp


Õ

..
.
Yp = ap X = ap1 X1 + ap2 X2 + · · · + app Xp
Õ

Luego, se puede mostrar que:

V ar (Yi ) = ai ai , i = 1, 2, · · · , p
Õ

Cov (Yi , Yk ) = ai ak , i, k = 1, 2, · · · , p
Õ

Las componentes principales son aquellas combinaciones lineales no correlacionadas Y1 , Y2 , · · · , Yp cuyas


varianzas en son lo más grandes posible.
La primera componente principal es la combinación lineal con varianza máxima. Es decir, maximiza
V ar (Y1 ) = a1 a1 . Es evidente que V ar (Y1 ) = a1 a1 puede aumentarse multiplicando cualquier a1 por
Õ Õ

alguna constante. Para eliminar esta indeterminación, es conveniente restringir la longitud de los Vectores a
uno. Por lo tanto, definimos.
1 Õ 2
• Primera Componente Principal = combinación lineal a1 X que maximiza V ar a1 X sujeta a, a1 a1 = 1.
Õ Õ

1 Õ 2
• Segunda componente principal = combinación lineal a2 X que maximiza V ar a2 X sujeta a, a2 a2 = 1
Õ Õ

1 Õ 2
y Cov a1 X, a2 X = 0.
Õ

1 Õ 2
• La i-ésima componente principal = combinación lineal a2 X que maximiza V ar ai X sujeta a, ai ai = 1
Õ Õ

1 Õ 2
y Cov ai X, ak X = 0, ’k < i.
Õ

Resultado Sea la matriz de covarianza asociada al vector aleatorio X = [X1 , X2 , · · · , Xp ]. Suponga que
Õ

tienen los pares de vectores y valores propios (⁄1 , e1 ) , (⁄2 , e2 ) , · · · (⁄p , ep ), donde ⁄1 Ø ⁄2 Ø · · · , ⁄p Ø 0.
Entonces la i-ésima componente principal es dada por:

Yi = ei X = ei1 X1 + ei2 X2 + · · · + eip Xp , i = 1, 2, · · · , p


Õ

con estas opciones

V ar (Yi ) = ei ei = ⁄i , texti = 1, 2, · · · , p
Õ

Cov (Yi , Yk ) = ei ek = 0, i ”= k
Õ

Si algunos ⁄i son iguales, las elecciones de los coeficientes vectoriales correspondientes, ei , y por tanto Yi ,
no son únicas.
Resultado Sea X = [X1 , X2 , · · · , Xp ] con matriz de covarianza , y con los pares que corresponde a los
Õ

vectores y valores propios (⁄1 , e1 ) , (⁄2 , e2 ) , · · · (⁄p , ep ), donde ⁄1 Ø ⁄2 Ø · · · , ⁄p Ø 0. Sean Y1 = e1 X, Y2 =


Õ

e2 X, · · · , Yp = ep X las componentes principales. Entonces


Õ Õ

p
ÿ p
ÿ
‡11 + ‡22 + · · · + ‡pp = V ar (Xi ) = ⁄1 + ⁄2 + · · · + ⁄p = V ar (Yi )
i=1 i=1

Se puede escribir = P P donde es una matriz diagonal de valores propios y P = [e1 , e2 , · · · , ep ], tal que
Õ

P P = P P = I, se tiene que:
Õ Õ

2
1 2 1 Õ 2
tr ( ) = tr P P = tr P P = tr ( ) = ⁄1 + ⁄2 + · · · + ⁄p
Õ

p
ÿ p
ÿ
V ar (Xi ) = tr ( ) = tr ( ) = V ar (Yi )
i=1 i=1
Varianza Poblacional Total = ‡11 + ‡22 + ‡pp = ⁄1 + ⁄2 + · · · + ⁄p
Q R
Proporción total
c de la varianza poblacional d ⁄k
a debido a la kth componente b = ⁄1 + ⁄2 + · · · + ⁄p , k = 1, 2, · · · , p
c d

principal

Si la mayor parte (por ejemplo, entre el 80% y el 90%) de la varianza total de la población, para una p grande,
puede atribuirse a las primeras uno, dos o tres componentes, entonces estas componentes pueden “sustituir”
a las variables p originales sin mucha pérdida de información.
Resultado Si Y1 = e1 X, Y2 = e2 X, · · · , Yp = ep X son las componentes principales obtenidas de la matriz de
Õ Õ Õ

covarianza , entonces
Ô
eik ⁄i
flYi ,Xk = Ô i, k = 1, 2, · · · , p
‡kk

son los coeficientes de correlación entre las componentes Yi y las variables Xk . Los pares (⁄1 , e1 ) , (⁄2 , e2 ) , · · · (⁄p , ep )
son los vectores y valores propios de .
Aunque las correlaciones de las variables con las componentes principales suelen ayudar a interpretar los
componentes, sólo miden la contribución univariante individual X a una componente Y. Es decir, no indican
la importancia de X para una componente Y en presencia de los demás X. Por esta razón, algunos estadísticos
(véase, por ejemplo, Rencher [16]) recomiendan que sólo se utilicen los coeficientes eik , y no las correlaciones,
para interpretar las componentes. Aunque los coeficientes y las correlaciones pueden dar lugar a clasificaciones
diferentes como medidas de la importancia de las variables para un determinado componente, nuestra
experiencia es que estas clasificaciones no suelen ser muy diferentes. En la práctica, las variables con
coeficientes relativamente grandes (en valor absoluto) suelen tener correlaciones relativamente grandes, por lo
que las dos medidas de importancia, la primera multivariante y la segunda univariante, suelen dar resultados
similares. Recomendamos que se examinen tanto los coeficientes como las correlaciones para ayudar a
interpretar los componentes principales

Análisis de Componentes Principales

S<-matrix(c(1,-2,0,-2,5,0,0,0,2),nrow = 3,byrow = TRUE)


value_pro<-eigen(S)
(value_pro$values)

## [1] 5.8284271 2.0000000 0.1715729


(value_pro$vectors)

## [,1] [,2] [,3]


## [1,] -0.3826834 0 0.9238795
## [2,] 0.9238795 0 0.3826834
## [3,] 0.0000000 1 0.0000000

3
L
library(knitr)
Acumulado<-cumsum(value_pro$values)

[Link]<-Acumulado/sum(value_pro$values)

[Link]<-[Link](value_pro$values,Acumulado,
[Link])

[Link]([Link]) = c(expression(lambda[1]),expression(lambda[2]),expression(lambda[3]))

colnames([Link])<-c("Valor Propio","Acumulado","Prop. Acumulado")

kable( [Link] , caption = "Valores propios desde la matriz de covarianza"


, digits = 3
, [Link] = list( [Link] = ",")
)

Table 1: Valores propios desde la matriz de covarianza

Valor Propio Acumulado Prop. Acumulado


lambda[1] 5,828 5,828 0,729
lambda[2] 2,000 7,828 0,979
lambda[3] 0,172 8,000 1,000

Análisis de Componentes Principales

Ejemplo Las componentes principales obtenidas desde la matriz de varianzas y covarianzas y de la matriz de
correlaciones son diferentes.
Considere la matriz de covarianza
S<-matrix(c(1,4,4,100),nrow = 2,byrow = TRUE)
value_pro<-eigen(S)
(value_pro$values)

## [1] 100.1613532 0.8386468


(value_pro$vectors)

## [,1] [,2]
## [1,] 0.04030552 -0.99918740
## [2,] 0.99918740 0.04030552
S<-matrix(c(1,.4,.4,1),nrow = 2,byrow = TRUE)
value_pro<-eigen(S)
(value_pro$values)

## [1] 1.4 0.6

4
(value_pro$vectors)

## [,1] [,2]
## [1,] 0.7071068 -0.7071068
## [2,] 0.7071068 0.7071068

Componentes principales para matrices de covarianza con estructuras especiales

Resumen de la variación muestral por componentes principales

Ejemplo: Un censo proporcionó información, por tramos, sobre cinco variables socioeconómicas para una
cierta área. Los datos de 61 tramos se recogen en el cuadro . Estos datos dieron lugar a las siguientes
estadísticas resumidas
¿Puede resumirse la variación muestrak mediante uno o dos componentes principales?
library(knitr)
S<-matrix(c(3.397,-1.102,4.306,-2.078,0.027,-1.102,9.673,-1.513,10.953,1.203,4.306,-1.513,55.626,-28.937

S<- [Link](S)
colnames(S)<- c("Total Población","Título Profesional","Empleados > 16 años","Empleados Públicos", "Ingr
kable(S,caption = "Matriz de Covarianzas",
digits = 3,
[Link] = list([Link]=","))

Table 2: Matriz de Covarianzas

Empleados > 16 Empleados


Total Población Título Profesional años Públicos Ingreso Mediana hogares
3,397 -1,102 4,306 -2,078 0,027
-1,102 9,673 -1,513 10,953 1,203
4,306 -1,513 55,626 -28,937 -0,044
-2,078 10,953 -28,937 89,067 0,957
0,027 1,203 -0,044 0,957 0,319

[Link]<- eigen(S)

[Link]<-[Link]([Link]$values,cumsum([Link]$values),cumsum([Link]$values)/sum(vect.v

colnames([Link])<- c("Valor propio", "Acumulado", "Prop. acumulada")


rownames([Link])<-c("$\\lambda_1$","$\\lambda_2$", "$\\lambda_3$", "$\\lambda_4$", "$\\lambda_5$")

kable(t([Link]),caption = "Valores propios desde la matriz de correlación",


digits = 3,
[Link] = list([Link]=","))

5
Table 3: Valores propios desde la matriz de correlación

⁄1 ⁄2 ⁄3 ⁄4 ⁄5
Valor propio 107,015 39,673 8,371 2,868 0,155
Acumulado 107,015 146,688 155,059 157,927 158,082
Prop. acumulada 0,677 0,928 0,981 0,999 1,000

[Link]<-[Link]([Link]$vectors)

colnames([Link])<- c("$\\hat{e}_{1}$", "$\\hat{e}_{2}$", "$\\hat{e}_{3}$", "$\\hat{e}_{4}$", "$\\hat{

rownames([Link])<- c("Total Población","Título Profesional","Empleados > 16 años","Empleados Públicos


kable([Link],caption = "Vectores propios desde la matriz de correlación",
digits = 3,
[Link] = list([Link]=","))

Table 4: Vectores propios desde la matriz de correlación

ê1 ê2 ê3 ê4 ê5


Total Población 0,039 -0,071 -0,188 0,977 -0,058
Título Profesional -0,105 -0,130 0,961 0,171 -0,139
Empleados > 16 años 0,492 -0,864 -0,046 -0,091 0,005
Empleados Públicos -0,863 -0,480 -0,153 -0,030 0,007
Ingreso Mediana hogares -0,009 -0,015 0,125 0,082 0,989

valor<-[Link]([Link]$values)
diago<-[Link](S)
diago <- diag(diago)
diago<-[Link](diago)
r<-matrix(c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),nrow = 5,byrow = TRUE)
cor<-matrix(c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),nrow = 5,byrow = TRUE)
for (i in 1:5) {
r[,i]<- [Link]$vectors[,i]*sqrt(valor[i])
}
for (i in 1:5) {
for (j in 1:5){
cor[j,i]<- r[j,i]/sqrt(diago[j,])
}
}
corre<-[Link](cor)

colnames(corre)<- c("$r_{\\hat{y}_{1},x_{k}}$", "$r_{\\hat{y}_{2},x_{k}}$", "$r_{\\hat{y}_{3},x_{k}}$",

rownames(corre)<- c("Total Población","Título Profesional","Empleados > 16 años","Empleados Públicos", "


kable(corre,caption = "Matriz de correlación entre las variables originales y las componentes principale
digits = 3,
[Link] = list([Link]=","))

6
Table 5: Matriz de correlación entre las variables originales y las
componentes principales

rŷ1 ,xk rŷ2 ,xk rŷ3 ,xk rŷ4 ,xk rŷ5 ,xk
Total Población 0,218 -0,243 -0,295 0,898 -0,012
Título -0,350 -0,263 0,894 0,093 -0,018
Profesional
Empleados > 16 0,683 -0,730 -0,018 -0,021 0,000
años
Empleados -0,946 -0,321 -0,047 -0,005 0,000
Públicos
Ingreso Mediana -0,167 -0,164 0,640 0,245 0,689
hogares

El número de componentes principales

library(knitr)
S<-10ˆ{-3}*matrix(c(11.072,8.019,8.160,8.019,6.417,6.005,8.160,6.005,6.773),nrow = 3,byrow = TRUE)

S<- [Link](S)
colnames(S)<- c("Longitud","Anchura","Altura")
kable(S,caption = "Matriz de Covarianzas",
digits = 4,
[Link] = list([Link]=","))

Table 6: Matriz de Covarianzas

Longitud Anchura Altura


0,0111 0,0080 0,0082
0,0080 0,0064 0,0060
0,0082 0,0060 0,0068

[Link]<- eigen(S)

[Link]<-[Link]([Link]$values,cumsum([Link]$values),cumsum([Link]$values)/sum(vect.v

colnames([Link])<- c("Valor propio", "Acumulado", "Prop. acumulada")


rownames([Link])<-c("$\\lambda_1$","$\\lambda_2$", "$\\lambda_3$")

kable(t([Link]),caption = "Valores propios desde la matriz de correlación",


digits = 4,
[Link] = list([Link]=","))

Table 7: Valores propios desde la matriz de correlación

⁄1 ⁄2 ⁄3
Valor propio 0,0233 0,0006 0,0004
Acumulado 0,0233 0,0239 0,0243

7
⁄1 ⁄2 ⁄3
Prop. acumulada 0,9605 0,9852 1,0000

[Link]<-[Link]([Link]$vectors)

colnames([Link])<- c("$\\hat{e}_{1}$", "$\\hat{e}_{2}$", "$\\hat{e}_{3}$")

rownames([Link])<- c("Ln (longitud)","Ln (Anchura)","Ln (Altura)")


kable([Link],caption = "Vectores propios desde la matriz de covarianza",
digits = 3,
[Link] = list([Link]=","))

Table 8: Vectores propios desde la matriz de covarianza

ê1 ê2 ê3


Ln (longitud) 0,683 -0,158 0,713
Ln (Anchura) 0,510 -0,595 -0,621
Ln (Altura) 0,523 0,788 -0,326

valor<-[Link]([Link]$values)
diago<-[Link](S)
diago <- diag(diago)
diago<-[Link](diago)
r<-matrix(c(0,0,0,0,0,0,0,0,0),nrow = 3,byrow = TRUE)
cor<-matrix(c(0,0,0,0,0,0,0,0,0),nrow = 3,byrow = TRUE)
for (i in 1:3) {
r[,i]<- [Link]$vectors[,i]*sqrt(valor[i])
}
for (i in 1:3) {
for (j in 1:3){
cor[j,i]<- r[j,i]/sqrt(diago[j,])
}
}
corre<-[Link](cor)

colnames(corre)<- c("$r_{\\hat{y}_{1},x_{k}}$", "$r_{\\hat{y}_{2},x_{k}}$", "$r_{\\hat{y}_{3},x_{k}}$")

rownames(corre)<- c("Ln (longitud)","Ln (Anchura)","Ln (Altura)")


kable(corre,caption = "Matriz de correlación entre las variables originales y las componentes principale
digits = 3,
[Link] = list([Link]=","))

Table 9: Matriz de correlación entre las variables originales y las


componentes principales

rŷ1 ,xk rŷ2 ,xk rŷ3 ,xk


Ln (longitud) 0,991 -0,037 0,129
Ln (Anchura) 0,972 -0,182 -0,147
Ln (Altura) 0,969 0,234 -0,075

8
Interpretación de las componentes principal muestral

Estandarización de los componentes principales de la muestra

Ejemplo: (componentes principales muestrales de variables estandarizados)


Se determinaron las tasas semanales de rendimiento de cinco acciones (JP Morgan, Citibank, Wells Fargo,
Royal Dutch Shell y ExxonMobil) que cotizan en la Bolsa de Nueva York para el periodo comprendido entre
enero de 2004 y diciembre de 2005. Las tasas de rendimiento semanales se definen como (precio de cierre de
la semana actual-precio de cierre de la semana anterior)/(precio de cierre de la semana anterior), ajustadas
para tener en cuenta las divisiones de acciones y los dividendos. Los datos figuran en el cuadro 8.4 de los
ejercicios. Las observaciones de 103 semanas sucesivas parecen estar distribuidas de forma independiente,
pero las tasas de rendimiento de los valores están correlacionadas, ya que, como es de esperar, los valores
tienden a moverse juntos en respuesta a las condiciones económicas generales.
library(knitr)
S<-matrix(c(1.000,.632,.511,.115,.155,.632,1.000,.574,.322,.213,.511,.574,1.000,.183,.146,.115,.322,.183

S<- [Link](S)
colnames(S)<- c("JP Morgan","Citibank","Wells Fargo","Royal Dutch Shell", "ExxonMobil")
kable(S,caption = "Matriz de Covarianzas",
digits = 3,
[Link] = list([Link]=","))

Table 10: Matriz de Covarianzas

JP Morgan Citibank Wells Fargo Royal Dutch Shell ExxonMobil


1,000 0,632 0,511 0,115 0,155
0,632 1,000 0,574 0,322 0,213
0,511 0,574 1,000 0,183 0,146
0,115 0,322 0,183 1,000 0,683
0,155 0,213 0,146 0,683 1,000

[Link]<- eigen(S)

[Link]<-[Link]([Link]$values,cumsum([Link]$values),cumsum([Link]$values)/sum(vect.v

colnames([Link])<- c("Valor propio", "Acumulado", "Prop. acumulada")


rownames([Link])<-c("$\\lambda_1$","$\\lambda_2$", "$\\lambda_3$", "$\\lambda_4$", "$\\lambda_5$")

kable(t([Link]),caption = "Valores propios desde la matriz de correlación",


digits = 3,
[Link] = list([Link]=","))

Table 11: Valores propios desde la matriz de correlación

⁄1 ⁄2 ⁄3 ⁄4 ⁄5
Valor propio 2,438 1,406 0,500 0,400 0,256
Acumulado 2,438 3,844 4,344 4,744 5,000

9
⁄1 ⁄2 ⁄3 ⁄4 ⁄5
Prop. acumulada 0,488 0,769 0,869 0,949 1,000

[Link]<-[Link]([Link]$vectors)

colnames([Link])<- c("$\\hat{e}_{1}$", "$\\hat{e}_{2}$", "$\\hat{e}_{3}$", "$\\hat{e}_{4}$", "$\\hat{

rownames([Link])<- c("JP Morgan","Citibank","Wells Fargo","Royal Dutch Shell", "ExxonMobil")


kable([Link],caption = "Vectores propios desde la matriz de covarianza",
digits = 3,
[Link] = list([Link]=","))

Table 12: Vectores propios desde la matriz de covarianza

ê1 ê2 ê3 ê4 ê5


JP Morgan -0,469 0,368 -0,605 0,362 0,385
Citibank -0,532 0,236 -0,136 -0,631 -0,495
Wells Fargo -0,465 0,315 0,771 0,291 0,069
Royal Dutch Shell -0,387 -0,585 0,096 -0,380 0,595
ExxonMobil -0,361 -0,606 -0,111 0,492 -0,498

E
Ejemplo: (componentes principales muestrales a partir de la matriz de correlación con una
estructura especial)
S<-matrix(c(1.000,.7501, .6329, .6363, .7501, 1.000, .6925, .7386, .6329, .6925, 1.000, .6625, .6363, .7

S<- [Link](S)

Los valores propios son:


[Link]<- eigen(S)

[Link]<-[Link]([Link]$values,cumsum([Link]$values),cumsum([Link]$values)/sum(vect.v

colnames([Link])<- c("Valor propio", "Acumulado", "Prop. acumulada")


rownames([Link])<-c("$\\lambda_1$","$\\lambda_2$", "$\\lambda_3$", "$\\lambda_4$")

kable(t([Link]),caption = "Valores propios desde la matriz de correlación",


digits = 3,
[Link] = list([Link]=","))

Table 13: Valores propios desde la matriz de correlación

⁄1 ⁄2 ⁄3 ⁄4
Valor propio 3,058 0,382 0,342 0,217
Acumulado 3,058 3,441 3,783 4,000
Prop. acumulada 0,765 0,860 0,946 1,000

10
[Link]<-[Link]([Link]$vectors)

colnames([Link])<- c("$\\hat{e}_{1}$", "$\\hat{e}_{2}$", "$\\hat{e}_{3}$", "$\\hat{e}_{4}$")

# rownames([Link])<- c("JP Morgan","Citibank","Wells Fargo","Royal Dutch Shell", # "ExxonMobil")


kable([Link],caption = "Vectores propios desde la matriz de covarianza",
digits = 3,
[Link] = list([Link]=","))

Table 14: Vectores propios desde la matriz de covarianza

ê1 ê2 ê3 ê4


-0,494 0,713 -0,233 -0,440
-0,522 0,191 0,143 0,819
-0,487 -0,585 -0,645 -0,061
-0,497 -0,335 0,714 -0,363

Comentario. Un valor inusualmente pequeño del último valor propio de la matriz de covarianza o de
correlación de la muestra puede indicar una dependencia lineal inadvertida en el conjunto de datos. Si esto
ocurre, una (o más) de las variables es redundante y debe ser eliminada. Considere una situación en la que
x1 , x2 y x3 son puntuaciones de subprueba y la puntuación total x4 es la suma x1 + x2 + x3 . Entonces,
aunque la combinación lineal e x = [1, 1, 1, ≠1] x = x1 + x2 + x3 ≠ x4 es siempre cero, el error de redondeo en
Õ

el cómputo de los valores propios puede llevar a un valor pequeño no nulo. Si la expresión lineal que relaciona
x4 con (x1 , x2 , x3 ) se pasó por alto inicialmente, el par de valores propios-eigenvectores más pequeño debería
proporcionar una pista sobre su existencia.
Por lo tanto, aunque los valores propios “grandes” y los vectores propios correspondientes son importantes en
un análisis de componentes principales, los valores propios muy cercanos a cero no deberían ignorarse de
forma rutinaria. Los vectores propios asociados a estos últimos valores propios pueden señalar dependencias
lineales en el conjunto de datos que pueden causar problemas de interpretación y computación en un análisis
posterior.

11

También podría gustarte