COMPONENTES PRINCIPALES
Est. Mónica Grasso
Ing. Cristian Bigatti
2007
Componentes principales
n Objetivo: dada una matriz de datos de
dimensiones nxp que representa los valores
de p variables en n individuos, investigar si
es posible representar los individuos
mediante r variables (r<p) con poca (o,
dentro de lo posible, ninguna) pérdida de
información.
UTN - FRRo - ISI - SG2 - 2007 2
1
Ejemplo 1: matriz 51x9
Gastos por provincia en:
X1= alimentación, X2= vestido y calzado,
X3= vivienda, X4= mobiliario doméstico
X5= gastos sanitarios, X6= transporte,
X7= enseñanza y cultura, X8= turismo y ocio,
X9= otros gastos
Prov X1 X2 X3 X4 X5 X6 X7 X8 X9
Almeria 618957,00 295452,00 522128,00 167067,00 58288,00 280035,00 129219,00 307967,00 107334,00
Cadiz 683940,00 203619,00 426690,00 124162,00 60657,00 285888,00 127792,00 313238,00 83523,00
Cordoba 590770,00 265604,00 487143,00 113386,00 37131,00 237320,00 116764,00 247536,00 79924,00
Granada 547353,00 238822,00 458338,00 119540,00 40340,00 236694,00 103901,00 272308,00 72813,00
Huelva 649225,00 245722,00 570631,00 99250,00 61953,00 253286,00 123244,00 238880,00 83070,00
Fuente: Encuesta de Presupuestos Familiares de España, año 1990/91
UTN - FRRo - ISI - SG2 - 2007 3
Componentes principales
Buscamos variables Z, combinación lineal de
las X originales, tales que:
n r de ellas contengan toda la información
n las restantes p-r sean irrelevantes
Ventajas
n Transforma las variables originales,
usualmente correladas en incorreladas
n Es el primer paso para descubrir variables
latentes
UTN - FRRo - ISI - SG2 - 2007 4
2
Componentes principales
n Xnxp: matriz de datos centrados
x11 x12 ... x1p
x x22 ... x 2 p
21 1
n X= M
X =0 S= X´X
M M n
x n1 x n2 ... x np
UTN - FRRo - ISI - SG2 - 2007 5
V1 V2
Componentes principales 186
181
495
477
176 425
149 322
184 482
190 587
n Ejemplo 2: p=2 158 370
139 322
Datos originales 175 479
700 148 375
152 330
600 111 300
141 386
500
153 401
400 190 645
V2
157 440
300
131 317
200 149 319
135 298
100 132 253
0
media 156,85 401,15
desvío 22,0687 99,841
0 50 100 150 V1 200
varianza 487,0275 9968,2
covarianza 1954,5725
coef correl 0,8871
UTN - FRRo - ISI - SG2 - 2007 6
3
Primera transformación
Datos originales
700
600
500
400
V2
300
200
100
0
0 50 100 150 V1 200
Datos centrados Datos estandarizados
300
3
2,5
200 2
1,5
1
100
variable 2
0,5
V2
0
0 -3 -2 -1 0 1 2
-0,5
-80 -40 0 40
-1
-1,5
-100
-2
V1
-200 variable 1
UTN - FRRo - ISI - SG2 - 2007 7
Datos centrados Datos centrados
300
Comp.1 Comp.2 200
Calorías 0.1942908 0.9809440
Sodio 0.9809440 -0.1942908 100
variable 2
component variances 0
-80 -40 0 40
Comp.1 Comp.2
10355.36014 99.89486 -100
-200 variable 1
Datos originales
700 Datos Rotados (matriz cov)
600 40
500
400
componente 2
20
V2
300 (111;300)
200
0
100 -200 -100 0 100 200 300
0
-20
0 50 100 150 V1 200 componene 1
UTN - FRRo - ISI - SG2 - 2007 8
4
Datos estandarizados
Datos estandarizados Matriz de correlación
3 Comp.1 Comp.2
2,5 Calorías 0.7071068 0.7071068
2 Sodio 0.7071068 -0.7071068
1,5
# component variances
1
0,5
Comp.1 Comp.2
V2
0 1.8870867 0.1129133
-3 -2 -1 0 1 2
-0,5
-1
-1,5
-2
V1
Datos Rotados (matriz de corr)
0,08
0,04
componente 2
0
-0,3 -0,2 -0,1 0 0,1 0,2 0,3
-0,04
-0,08
componente 1
UTN - FRRo - ISI - SG2 - 2007 9
Componentes Principales
Datos Rotados (matriz cov)
40
componente 2
20
0
-200 -100 0 100 200 300
-20
componene 1
Datos Rotados (matriz de corr)
0,08
0,04
componente 2
0
-0,3 -0,2 -0,1 0 0,1 0,2 0,3
-0,04
-0,08
componente 1
UTN - FRRo - ISI - SG2 - 2007 10
5
Caso p=2
a
n a1: vector dirección de la rotación a1= a11
12
a1 = 1 a´a=1
Datos centrados
300
200
100
variable 2
0
-80 -40 0 40
-100
-200 variable 1
UTN - FRRo - ISI - SG2 - 2007 11
z1i: proyección del vector xi en la dirección a1
r1i: distancia del punto xi a la recta de dirección a1
x i´ a1
( z1 )i = x i cos θ = x i = x i´ a1
x i a1
( z1 )i = a11 x i 1 + a12 x i 2
(r1)i
xi
(z1)i
θ
xi´ xi = (r1)i2+ (z1)i2
a1
UTN - FRRo - ISI - SG2 - 2007 12
6
Criterio para determinar la dirección a1
n Minimizar las distancias de los puntos a la
recta de dirección a1
min ∑ r12i
x´i x i = r12i + z12i
constante
∑ x´i x i = ∑ r12i + ∑ z12i
min ∑ r12i ⇒ max ∑ z12i
UTN - FRRo - ISI - SG2 - 2007 13
Criterio para determinar la dirección a1
n z1 es una variable cuyos valores son las
proyecciones de los vectores xi sobre a1
n Cada (z1)i es combinación lineal de los xi, por
tanto z1 tiene media 0, y:
1 n 2
∑ z 1i = Var (z1 )
n i
max ∑ z12i ⇒ max V (z1 )
n Buscar la dirección que maximiza la varianza
de los datos proyectados
UTN - FRRo - ISI - SG2 - 2007 14
7
Cálculo de la primera componente: z1
n Buscar la combinación lineal de las variables
originales con máxima varianza
n z1 es un vector formado por todas las
proyecciones de los vectores xi sobre a1,
cada una es combinación lineal de las
variables centradas originales: z1=Xa1
1 ´ 1
V ( z1 ) = z 1 z 1 = a´i X´ Xa1 = a´i Sa1
n n
UTN - FRRo - ISI - SG2 - 2007 15
Cálculo de la primera componente: z1
n max a1´S a1
sa a1´a1=1
Usando un multiplicador de Lagrange:
n max M=a1´Sa1-λ(a1´a1-1)
δM
= 2Sa 1 − 2λa1 = 0 Sa1=λa1
δa1
n V(z1)=a1´S a1=a1´λa1=λa1´a1=λ
UTN - FRRo - ISI - SG2 - 2007 16
8
Primera componente principal
Sa1 = λa1 ⇒ (S-λI) a1 = 0
sistema homogéneo de ecuaciones,
tiene solución no nula si S-λI=0
S-λI=0 es la ecuación característica de la matriz
ecuación polinómica en λ de orden p
sus p raíces, λj son los valores propios de la matriz
cada una tiene asociada dos vectores propios, aj
de módulo 1, misma dirección y sentidos opuestos
UTN - FRRo - ISI - SG2 - 2007 17
Cálculo con R (p=2)
> matcovest<-cov(salchi) cov calcula covza y vza dividiendo por (n-1)
> matcov<-19/20*matcovest corrige para que covar y vza sean divididos n
> matcov
v1 v2
v1 487.0275 1954.572
v2 1954.5725 9968.227
> eigen(matcov)
$values
[1] 10355.36014 99.89486
$vectors
[,1] [,2]
[1,] 0.1942908 0.9809440
[2,] 0.9809440 -0.1942908
λ1 =10355.36=Var(z1) (z1)i=0.1943x1i+0.9809x2i
UTN - FRRo - ISI - SG2 - 2007 18
9
Ejemplo 1
X1= alimentación, X2= vestido y calzado, X3= vivienda,
X4= mobiliario doméstico X5= gastos sanitarios, X6= transporte,
X7= enseñanza y cultura, X8= turismo y ocio, X9= otros gastos
UTN - FRRo - ISI - SG2 - 2007 19
Ejemplo 1
Se aplicó logaritmo neperiano para simetrizar los datos
n Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
n X1 -0.1147761 -0.05343502 -0.12034155 0.2612229058 -0.214312476 0.44364830
n X2 -0.1826223 -0.16651943 -0.07664524 0.8374539947 0.003532345 -0.23152093
n X3 -0.2990625 0.17601574 -0.34314968 -0.0241379095 -0.048405319 -0.48945499
n X4 -0.3070734 -0.06136193 -0.11284971 0.1310609224 0.006620215 -0.23224887
n X5 -0.4598233 0.18081977 0.85202791 0.0190553226 -0.077400760 -0.07687613
n X6 -0.3407942 -0.28776055 -0.04488003 -0.0880925360 0.861991873 0.17816330
n X7 -0.4992529 0.41864330 -0.28178082 0.0009028143 -0.146450287 0.54427912
n X8 -0.3079972 0.17493979 -0.20270601 -0.3718754460 -0.053300295 -0.34471145
n X9 -0.3131281 -0.78313542 -0.02647115 -0.2574067473 -0.422328437 0.05788501
n Comp.7 Comp.8 Comp.9
n X1 0.071919172 0.017358852 0.80809919
n X2 0.077483651 -0.368776184 -0.19000706
n X3 0.553440559 0.444892280 0.12292624
n X4 -0.786577125 0.438694767 0.08299744
n X5 0.098873645 0.039639425 0.07939753
n X6 0.102477875 -0.013407305 0.07632197
n X7 -0.008422978 -0.008529560 -0.42219896
n X8 -0.180092536 -0.686655462 0.26373622
n X9 0.105080491 -0.001020005 -0.17010529 Suma de valores
propios= 0.459
n > .PC$sd^2 # component variances
n Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
n 0.341339134 0.031427234 0.026244108 0.017199715 0.012221882 0.010605997
n Comp.7 Comp.8 Comp.9
n 0.009978369 0.005735050 0.005177540
UTN - FRRo - ISI - SG2 - 2007 20
10
Ejemplo 1 (cálculo con S estimada)
n $values
n [1] 0.348165916 0.032055778 0.026768990 0.017543710 0.012466319 0.010818117
n [7] 0.010177936 0.005849751 0.005281090
n $vectors Suma de valores
n [,1] [,2] [,3] [,4] [,5] [,6] propios= 0.468
n [1,] -0.1147761 -0.05343502 -0.12034155 0.2612229058 -0.214312476 -0.44364830
n [2,] -0.1826223 -0.16651943 -0.07664524 0.8374539947 0.003532345 0.23152093
n [3,] -0.2990625 0.17601574 -0.34314968 -0.0241379095 -0.048405319 0.48945499
n [4,] -0.3070734 -0.06136193 -0.11284971 0.1310609224 0.006620215 0.23224887
n [5,] -0.4598233 0.18081977 0.85202791 0.0190553226 -0.077400760 0.07687613
n [6,] -0.3407942 -0.28776055 -0.04488003 -0.0880925360 0.861991873 -0.17816330
n [7,] -0.4992529 0.41864330 -0.28178082 0.0009028143 -0.146450287 -0.54427912
n [8,] -0.3079972 0.17493979 -0.20270601 -0.3718754460 -0.053300295 0.34471145
n [9,] -0.3131281 -0.78313542 -0.02647115 -0.2574067473 -0.422328437 -0.05788501
n [,7] [,8] [,9]
n [1,] 0.071919172 -0.017358852 0.80809919
n [2,] 0.077483651 0.368776184 -0.19000706
n [3,] 0.553440559 -0.444892280 0.12292624
n [4,] -0.786577125 -0.438694767 0.08299744
n [5,] 0.098873645 -0.039639425 0.07939753
n [6,] 0.102477875 0.013407305 0.07632197
n [7,] -0.008422978 0.008529560 -0.42219896
n [8,] -0.180092536 0.686655462 0.26373622
n [9,] 0.105080491 0.001020005 -0.17010529
UTN - FRRo - ISI - SG2 - 2007 21
Segunda componente principal
UTN - FRRo - ISI - SG2 - 2007 22
11
Ejemplo 1: Segunda componente principal
X1= alimentación, X2= vestido y calzado, X3= vivienda,
X4= mobiliario doméstico X5= gastos sanitarios, X6= transporte,
X7= enseñanza y cultura, X8= turismo y ocio, X9= otros gastos
n λ2=0.032 (Σλi=0.459)
n z2= (0.05x1+0.16x2+0.07x4+0.23x6+0.78x9)-
(0.17x3+0.21x5+0.40x7+0.17x8)
Separa entre provincias con altos costos de
transferencias y transportes (no tienen
universidad) contra las que tienen altos
costos en educación.
UTN - FRRo - ISI - SG2 - 2007 23
Ejemplo 1
UTN - FRRo - ISI - SG2 - 2007 24
12
Propiedades de las nuevas variables
1. Conservan la variabilidad inicial
La traza de una matriz es igual a la suma de sus
valores propios, el determinante al producto de los
mismos.
Varianza total: Tx=tr(S)=Σλi=ΣVar(zi)=Tz
Vza Gralizada: VGx=lSl=Πλi=ΠVar(zi)=VGz
2. La proporción de variabilidad explicada por un
componente es el cociente entre su valor propio y la
suma de los valores propios de la matriz
UTN - FRRo - ISI - SG2 - 2007 25
Análisis con correlaciones
n Al maximizar la varianza de las proyecciones sobre
la dirección a, si alguna de las variables, por ej. xi,
tiene varianza mucho mayor que las de las demás,
entonces el modo de aumentar V(zi) es
acompañando a xi con un coeficiente muy grande.
El primer componente tenderá a coincidir con esta
variable.
n Si las unidades de medida de las variables son
distintas, la maximización dependerá de la escala
usada para cada variable.
Solución: Estandarizar
UTN - FRRo - ISI - SG2 - 2007 26
13
Análisis con correlaciones
n Variables estandarizadas
Matriz de covarianzas=Matriz de correlaciones
n Los componentes principales normados se
obtienen calculando los valores y vectores
propios asociados a la matriz de correlación
Si las diferencias entre las varianzas de
las variables son informativas y
queremos tenerlas en cuenta
NO DEBEMOS ESTANDARIZAR
UTN - FRRo - ISI - SG2 - 2007 27
Bibliografía
n Peña, Daniel (2002): Análisis de Datos
Multivariantes. Editorial Mc Graw Hill.
España. ISBN: 84-481-3610-1 Capítulo 5
n [Link]/esp/Personal/personas/dpen
a/docencia/[Link]
UTN - FRRo - ISI - SG2 - 2007 28
14